假设检验极限定理 t检验正态分布样本含量变异系数统计量均数

统计基础知识概要作为一名统计员应该具备哪些基础知识？

[更新]

日期：2022-09-18 10:54:19

分类：教育

2797 阅读

统计基础知识概要

作为统计员应该具备哪些基础知识？

作为一名统计员应该具备哪些基础知识？

在某种程度上，统计员的工作对企业来说更为重要。

1、企业向国家有关统计机构报告的窗口，应具备统计知识、文字和数字组织知识。

2、企业内部管理报表数据源，承担着内部核算的重要任务，对企业的经营要有基本的了解。

介绍统计基础知识？

要做好数据分析，除了自己的硬技术和灵活的数据思维外，还必须学习必要的统计学基础知识！因此，统计学是一门综合性科学，必须掌握数据分析的基础知识，即通过搜索、分类、分析和描述数据，甚至预测未来的对象。

统计学使用了大量的数学和其他学科的专业知识，其应用范围几乎涵盖了社会科学和自然科学的所有领域，互联网领域的大量数据也不例外。因此，一个坚实的统计基础是一个优秀的数据人的必要技能。

然而，统计知识包括图形信息、数据集中趋势、概率计算、排列组合、连续概率分布、离散概率分布、假设检查、相关知识和回归知识，对于具体知识，本文不介绍，感兴趣的学生请参考简单统计、统计：从数据到结论等专业书籍。

统计学分为描述性统计学和推理性统计学。

一、描述性统计

定义：使用特定的数字或图表来反映数据的集中度和离散度。

1、集中趋势

集中趋势是指一组数据所趋向的中心值，使用的指标有:算术平均值、几何平均值、中位数。

1) 算术平均值：即平均值，用于反映一组对称分布变量值的平均值。

2)几何平均：通常用于反映一组变量值在对数转换后呈对称分布的平均水平。

3)中位数：适用于偏态分布数据和一端或两端无确切值的数据，是第50百分位数。

4)百分位数：为一个边界值，用于确定医学参考值的范围。

2、离散趋势

离散趋势是反映数据的变异程度，常用的指标有极差、四分位间距、方差和标准差、变异系数。

1)极差:是一组数据的最大值和最小值之间的差异，但极差不能反映所有数据的变异，很容易受到样本含量的影响。它通常用来描述偏态分布。

2)四分位数间距：它是从第34分位数与第14分位数相减，常与中位数一起描述偏态分布数据的分布。

3)方差和标准差:反映了一组数据的平均离散水平，消除了样本含量的影响，常用和均值来描述一组数据中的离散和集中趋势。

4)变异系数：又称异常值，多用于观察指标单位不同时，可以消除因单位不同而无法比较的困难。

比如箱线图就能很好地反映其中一些重点统计值。

3.抽样方法和中心极限定理

#抽样方法

当我们进行产品检验时，不可能打开所有产品进行检验，看看它们是否合格。我们只能从所有产品中提取部分样品进行检验，并根据样品质量估算整体产品质量。这是抽样。抽样的定义是从整体中抽取部分样本进行检测，根据样本检测结果估算整体质量的方法。

抽样方法有多种，针对不同的目的和场景，需要采用不同的方法进行检测，常用的抽样方法有：

#概率抽样

?简单随机抽样；

?分层抽样；

?整组抽样(首先将整体中的几个单位合并为一个群体，这样的群体称为群体，然后直接对群体进行抽样)；

?系统抽样（按一定顺序排列整体所有单位，在规定范围内随机抽取一个单位作为初始单位，然后事先指定的规则确定其他样本单元）；

?阶段抽样(先抽取群，再在群内进行二阶段抽样)。

#非概率抽样

?抽样方便(按方便原则自行确定)；

?判断抽样(根据专业知识判断)；

?自愿样本(调查人员自愿参与)；

?滚雪球样本(类似树结构)；

?配额样本(类似分层抽样)；

比较两种抽样方法：

?非概率抽样适用于探索性研究和准备更深入的数据分析、成本低的特点，为更深入的数据分析做准备。而且抽样中的统计专业技术要求不是很高；

?概率抽样具有较高的技术含量、较高的调查成本和较高的统计专业知识要求研究对象的调查目的，获得整体参数的信心范围。

#中心极限定理:如果给定样本量的样本全部来自任意整体，样本均值的抽样分布几乎服从正态分布，样本量越大，近似度越强。以30为边界，当样本量大于30时，符合中心极限定理，样本服从正态分布；当样本量小于30时，样本服从t分布。样本的分布形式决定了我们在假设检验中使用什么方法来检验它。

二、推断性统计

定义：根据样本数据推断整体数据特征。

1、基本步骤

在产品质量检验中，几乎所有的推理统计都是采样方法，推理过程是一种假设检验。在做推理统计时，我们需要澄清几点:

1)问题是什么？——

2)什么证据需要明确？

3)什么是判断标准？

在明确之后，我们们假设检查的几个步骤：

1)提出原始假设（H0)和备选假设（H1)，确定显著水平(当原始假设正确时，人们拒绝的概率)

2)选择检验方法，确定检验统计量

3)确定P值，做出统计推理

假设对于某个设备，国家标准要求：平均值应低于20。

一家公司生产10个设备，相关值如下：15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9

利用假设检验判断公司设备是否符合国家标准：

1）设假设：

原始假设：设备平均值gt=20；

设备选择假设：设备平均值lt20；

2)整体分布为正态，方差未知，样本为小样本，所以采用T检验。

3)计算检验统计计量：样本平均值17.17、样本标准差2.98、检验统计量为（17.17-20）/（2.98/√10）=-3.0031

4)信度选择97).5\\自由度为9，此时为单尾检验，临界值为2.262。

5）由于-3.0031lt-2.262，拒绝原假设，所以接受备选假设，设备符合国家标准。

2、假设检验类型

?单个样本检验：检验单个样本的平均值是否等于目标值

?相关配对检查：检查相关或配对观测差的平均值是否等于目标值

?独立双样本检验：检查两个独立样本的平均值差是否等于目标值

3、统计检验方法

Z检验:一般用于检验大样本平均差(即样本容量大于30)的方法。它用标准正态分布理论推断差异的概率，从而比较两个平均值gt是否存在平均差异。

T检验:样品含量小(例如)nlt30)，总体标准差σ正态分布样本未知。

F检验：F检验也称为方差齐性检验。F测试用于两个样本t测试。检查两个样本的方差是否有显著差异这是选择什么样的T检验(等方差双样本检验，异方差双样本检验)的先决条件。

（T检查用于检测数据的准确性，检测系统的误差；F检查用于检测数据的精度和偶然误差)

卡方检验：主要用于检验两个或两个以上样本率或构成比的显著差异，也可以检验两种事物之间是否存在一定的关系。

4、双尾测试和单尾测试

这与我们提出的原始假设有关，例如我们检测到的原始假设：设备平均值gt=20；我们需要拒绝的假设是设备平均值lt20、此时为单尾检查；如果我们最初的假设是设备的平均值gt20，我们需要拒绝的假设是设备平均值lt设备平均值20=20、此时是双尾检测；

5.置信区间和置信水平

在统计学中，几乎所有的情况都是根据样本来推断的，但是在推断的过程中，我们会遇到各种各样的障碍和干扰，所以我们推断的结果不是一个真实的数字，而是在一个合理的范围内，这是一个值得信赖的范围。

然而，总体而言，所有数据都在这个范围内是不现实的。我们只需要出现在信任范围内。这里的大多数人都是信任水平的概念。通常，我们的信任水平是95\\%。

置信区间[a,b]计算方法如下：（z分数：由置信水平决定，查表)

a = 样本均值 - z*标准误差，b = 样本均值 z*标准误差

统计基础知识概要 作为一名统计员应该具备哪些基础知识？

统计基础知识概要作为一名统计员应该具备哪些基础知识？