统计基础知识概要

统计基础知识概要 作为一名统计员应该具备哪些基础知识?

作为统计员应该具备哪些基础知识?

作为一名统计员应该具备哪些基础知识?

在某种程度上,统计员的工作对企业来说更为重要。

1、企业向国家有关统计机构报告的窗口,应具备统计知识、文字和数字组织知识。

2、企业内部管理报表数据源,承担着内部核算的重要任务,对企业的经营要有基本的了解。

介绍统计基础知识?

要做好数据分析,除了自己的硬技术和灵活的数据思维外,还必须学习必要的统计学基础知识!因此,统计学是一门综合性科学,必须掌握数据分析的基础知识,即通过搜索、分类、分析和描述数据,甚至预测未来的对象。

统计学使用了大量的数学和其他学科的专业知识,其应用范围几乎涵盖了社会科学和自然科学的所有领域,互联网领域的大量数据也不例外。因此,一个坚实的统计基础是一个优秀的数据人的必要技能。

然而,统计知识包括图形信息、数据集中趋势、概率计算、排列组合、连续概率分布、离散概率分布、假设检查、相关知识和回归知识,对于具体知识,本文不介绍,感兴趣的学生请参考简单统计、统计:从数据到结论等专业书籍。

统计学分为描述性统计学和推理性统计学。

一、描述性统计

定义:使用特定的数字或图表来反映数据的集中度和离散度。

1、集中趋势

集中趋势是指一组数据所趋向的中心值,使用的指标有:算术平均值、几何平均值、中位数。

1) 算术平均值:即平均值,用于反映一组对称分布变量值的平均值。

2)几何平均:通常用于反映一组变量值在对数转换后呈对称分布的平均水平。

3)中位数:适用于偏态分布数据和一端或两端无确切值的数据,是第50百分位数。

4)百分位数:为一个边界值,用于确定医学参考值的范围。

2、 离散趋势

离散趋势是反映数据的变异程度,常用的指标有极差、四分位间距、方差和标准差、变异系数。

1)极差:是一组数据的最大值和最小值之间的差异,但极差不能反映所有数据的变异,很容易受到样本含量的影响。它通常用来描述偏态分布。

2)四分位数间距:它是从第34分位数与第14分位数相减,常与中位数一起描述偏态分布数据的分布。

3)方差和标准差:反映了一组数据的平均离散水平,消除了样本含量的影响,常用和均值来描述一组数据中的离散和集中趋势。

4)变异系数:又称异常值,多用于观察指标单位不同时,可以消除因单位不同而无法比较的困难。

比如箱线图就能很好地反映其中一些重点统计值。

3.抽样方法和中心极限定理

#抽样方法

当我们进行产品检验时,不可能打开所有产品进行检验,看看它们是否合格。我们只能从所有产品中提取部分样品进行检验,并根据样品质量估算整体产品质量。这是抽样。抽样的定义是从整体中抽取部分样本进行检测,根据样本检测结果估算整体质量的方法。

抽样方法有多种,针对不同的目的和场景,需要采用不同的方法进行检测,常用的抽样方法有:

#概率抽样

?简单随机抽样;

?分层抽样;

?整组抽样(首先将整体中的几个单位合并为一个群体,这样的群体称为群体,然后直接对群体进行抽样);

?系统抽样(按一定顺序排列整体所有单位,在规定范围内随机抽取一个单位作为初始单位,然后事先指定的规则确定其他样本单元);

?阶段抽样(先抽取群,再在群内进行二阶段抽样)。

#非概率抽样

?抽样方便(按方便原则自行确定);

?判断抽样(根据专业知识判断);

?自愿样本(调查人员自愿参与);

?滚雪球样本(类似树结构);

?配额样本(类似分层抽样);

比较两种抽样方法:

?非概率抽样适用于探索性研究和准备更深入的数据分析、成本低的特点,为更深入的数据分析做准备。而且抽样中的统计专业技术要求不是很高;

?概率抽样具有较高的技术含量、较高的调查成本和较高的统计专业知识要求研究对象的调查目的,获得整体参数的信心范围。

#中心极限定理:如果给定样本量的样本全部来自任意整体,样本均值的抽样分布几乎服从正态分布,样本量越大,近似度越强。以30为边界,当样本量大于30时,符合中心极限定理,样本服从正态分布;当样本量小于30时,样本服从t分布。样本的分布形式决定了我们在假设检验中使用什么方法来检验它。

二、推断性统计

定义:根据样本数据推断整体数据特征。

1、基本步骤

在产品质量检验中,几乎所有的推理统计都是采样方法,推理过程是一种假设检验。在做推理统计时,我们需要澄清几点:

1)问题是什么?——

2)什么证据需要明确?

3)什么是判断标准?

在明确之后,我们们假设检查的几个步骤:

1)提出原始假设(H0)和备选假设(H1),确定显著水平(当原始假设正确时,人们拒绝的概率)

2)选择检验方法,确定检验统计量

3)确定P值,做出统计推理

假设对于某个设备,国家标准要求:平均值应低于20。

一家公司生产10个设备,相关值如下:15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9

利用假设检验判断公司设备是否符合国家标准:

1)设假设:

原始假设:设备平均值gt=20;

设备选择假设:设备平均值lt20;

2)整体分布为正态,方差未知,样本为小样本,所以采用T检验。

3)计算检验统计计量:样本平均值17.17、样本标准差2.98、检验统计量为 (17.17-20)/(2.98/√10)=-3.0031

4)信度选择97).5\\自由度为9,此时为单尾检验,临界值为2.262。

5)由于-3.0031lt-2.262,拒绝原假设,所以接受备选假设,设备符合国家标准。

2、假设检验类型

?单个样本检验:检验单个样本的平均值是否等于目标值

?相关配对检查:检查相关或配对观测差的平均值是否等于目标值

?独立双样本检验:检查两个独立样本的平均值差是否等于目标值

3、统计检验方法

Z检验:一般用于检验大样本平均差(即样本容量大于30)的方法。它用标准正态分布理论推断差异的概率,从而比较两个平均值gt是否存在平均差异。

T检验:样品含量小(例如)nlt30),总体标准差σ正态分布样本未知。

F检验:F检验也称为方差齐性检验。F测试用于两个样本t测试。检查两个样本的方差是否有显著差异 这是选择什么样的T检验(等方差双样本检验,异方差双样本检验)的先决条件。

(T检查用于检测数据的准确性,检测系统的误差 ;F检查用于检测数据的精度和偶然误差)

卡方检验:主要用于检验两个或两个以上样本率或构成比的显著差异,也可以检验两种事物之间是否存在一定的关系。

4、 双尾测试和单尾测试

这与我们提出的原始假设有关,例如我们检测到的原始假设:设备平均值gt=20;我们需要拒绝的假设是设备平均值lt20、此时为单尾检查;如果我们最初的假设是设备的平均值gt20,我们需要拒绝的假设是设备平均值lt设备平均值20=20、此时是双尾检测;

5.置信区间和置信水平

在统计学中,几乎所有的情况都是根据样本来推断的,但是在推断的过程中,我们会遇到各种各样的障碍和干扰,所以我们推断的结果不是一个真实的数字,而是在一个合理的范围内,这是一个值得信赖的范围。

然而,总体而言,所有数据都在这个范围内是不现实的。我们只需要出现在信任范围内。这里的大多数人都是信任水平的概念。通常,我们的信任水平是95\\%。

置信区间[a,b]计算方法如下:(z分数:由置信水平决定,查表)

a = 样本均值 - z*标准误差,b = 样本均值 z*标准误差