[数据挖掘与预测分析] 单变量统计分析思考问题-白红宇

[数据挖掘与预测分析] 单变量统计分析思考问题

阅读量：4039 次

发布时间：2019-05-24

本文共 6300 字，大约阅读时间需要 21 分钟。

单变量统计分析思考问题

1. 解释统计推理的含义

统计推理亦称“统计概括”。由样本具有某属性推出总体具有某属性的推理。

如为了解全国住户对电视机的需要量，就根据收入的多少等情况而把住户分成若干类（若干层次），从每类中再随机抽出一定数量的住户作为样本进行调查，将所得需求量的结果，应用统计学中的计算方法而推出全国的需求量。

统计推理是由部分推出全部的推理，它的结论超出了前提所断定的范围，前提与结论间的联系是或然性的。统计推理是一种归纳推理，但不同于简单枚举归纳推理。

统计推理和简单枚举归纳两者之间的主要区别在于：

简单枚举没有经过选择和试验，只是以事例的不断重复和数量的积累为依据，而统计推理是在分层抽样的基础上进行的，有一定的选择性。

统计推理较之简单枚举归纳推理要严密些，结论可靠性也高些。统计推理在调查研究中起着重要的作用，在调查森林、矿藏等资源、土壤情况以及民意测验中都有广泛的应用。

使用观测到的样本统计量估计未知的总体参数

	样本统计	评估	总体参数
均值	$\overline{x}$	→	$\mu$
标准偏差	$s$	→	$\sigma$
比率	$p$	→	$\pi$

从样本数据中观测到的任意统计量均可以被用于估计总体中的类似参数。

2. 总体和样本之间的区别是什么？

总体——所要考察对象的全体叫做总体.
样本——从总体中所抽取的一度部分个体叫做总体的一个样本.
总体：问根据研究目的确定的同质观察单位的全体。更确切地说，它是根据研究目的确答定的同质观察单位某种变量值的集合。
样本：回由总体中随机抽取部分观察单位的答变量值组成。样本是总体中有代表性的一部分。

	总体	样本
指代不同	包含所研究的全部个体（数据）的集合。	研究中实际观测或调查的一部分个体称为样来本。
规定不同	使样本能够正确反映总体情况，对总体要有明源确的规定；总体内所有观察单位必须是同质的；在抽取样本的过程中，必须遵守随机化原则	样本的观察单位还要有足够的数量。又称“子样”。百按照一定的抽样规则从总体中取出的一部分个体。样本中个体的数目称为“样本容量”。
特点不同	大量性是指总体中包括的总体单位有足够多的数量。总体是由许多个体在某一相同度性质基础上结合起来的整体，个别或很少几个单位不能构成总体。	总体中每个成员称为个体。例如知考察某厂生产的灯泡的使用寿命道，该厂生产的所有灯泡的使用寿命为总体，每个灯泡的使用寿命为一个个体。

几个基本概念的简单解释：

总体（population）：包含所研究的全部个体（数据）的集合。

样本（sample）：从总体中抽取的一部分元素的集合。

参数（parameter）：用来描述总体特征的概括性数字度量。

统计量（statistic）：用来描述样本的概括性数字度量。

置信区间（Confidence interval）以统计量的置信上限和置信下限为上下界构成的区间

在做统计的时候，我们手里有的就是样本信息，在这里要注意样本的两重性：样本既可看成具体的数, 又可以看成随机变量 (或随机向量). 在完成抽样后，它是具体的数；在实施抽样前，它被看成随机变量. 因为在实施具体抽样之前无法预料抽样的结果, 只能预料它可能取值的范围, 故可把它看成一个随机变量，因此才有概率分布可言。

统计学的目的是试图找到可能产生我们所观测到的数据背后的概率分布，而统计推断是建立在这个分布之上的。寻找一个模型一般有两步：对一个模型（分布）的初步猜想以及对未知模型参数的估计。可见统计学的三大要素：模型、策略、算法。

3. 描述参数和统计量之间的区别。

统计学中把总体的指标统称为参数。而由样本算得的相应的总体指标称为统计量。

如研究某地成年男子的平均脉搏数（次/分），并从该地抽取1000名成年男子进行测量，所得的样本平均数即称为统计量。

4. 统计推理不应该何时被使用？

样本只是总体的一个子集，最好是总体的一个具有代表性的子集。

如果样本在总体中不具有代表性，也就是说样本特征系统性地偏离了总体特征，就不应该采用统计推理。

5. 点估计和置信区间估计之间的区别是什么？

在数据分析中使用了两种主要的统计方法：

描述性统计，使用诸如均值或标准偏差等指标对样本中的数据进行汇总。描述性统计一般用来做探索性数据分析（EDA）

统计推理，从随机变化的数据中得出结论（例如，观察误差，抽样变异）。其意思就是用统计学的方法来推断。统计推断（区别于贝叶斯推断，这里主要基于频率推断）主要可以分为两大类：一类是参数估计问题；另一类是假设检验问题。其中假设检验又可分为参数检验与非参数检验。

点估计和区间估计是抽样推断的两种方法。

点估计是在抽样推断中不考虑抽样误差，直接以抽样指标代替全体指标的一种推断方法。因为个别样本的抽样指标不等于全体指标，所以，用抽样指标直接代替全体指标，不可避免的会有误差。

区间估计是抽样推断中根据抽样指标和抽样误差去估计全体指标的可能范围的一种推断方法。在从抽样指标推断全体指标时，用一定概率保证误差不超出某一给定范围。这个给定的误差范围，叫允许误差，用 $\Delta$ 表示。如果用 $\mu$ 表示平均误差， $t$ 表示平均误差的倍数，即概率度，则允许误差与平均误差的关系式就是： $\Delta =t\times \mu$ 。

如果推断的可信程度用 $P$ 表示，则 $P$ 为概率度t的函数。

数理统计证明：当t=1时，P=0.6827； t=2时，P=0.9545； t=3时，P=0.9973。t值愈大，P值愈趋近于1，即愈趋近于完全可信程度。实际工作中，可根据不同的t值，从概率表中查得相应的P值，也可根据预定的可信程度P值，查得相应的概率度t，以便于计算全及指标的可能范围。

6. 讨论置信区间的宽度和其置信水平之间的关系。

置信区间与置信水平、样本量等因素均有关系，其中样本量对置信区间的影响为：在置信水平固定的情况下，样本量越多，置信区间越窄。其次，在样本量相同的情况下，置信水平越高，置信区间越宽。

实例分析如下：

（1）置信区间与样本量关系分析

样本量	置信区间	间隔	宽窄度
100	50%-70%	20	宽
800	56.2%－63.2%	7	较窄
1,600	57.5%-63%	5.5	较窄
3,200	58.5%-62%	3.5	更窄

由上表得出:

在置信水平相同的情况下，样本量越多，置信区间越窄。

置信区间变窄的速度不像样本量增加的速度那么快，也就是说并不是样本量增加一倍，置信区间也变窄一半（实践证明，样本量要增加4倍，置信区间才能变窄一半），所以当样本量达到一个量时（通常是1,200），就不再增加样本了。故：置信区间=点估计 ±（关键值 × 点估计的标准差）。在其他因素不变的情况下，样本量越多（大），置信区间越窄（小）。

（2）置信区间与置信水平关系分析

美国做了一项对总统工作满意度的调查。在调查抽取的1,200人中，有60%的人赞扬了总统的工作，抽样误差为±3%，置信水平为95%；如果将抽样误差减少为±2.3%，置信水平降到为90%。则两组数字的情况比较如下：

抽样误差	置信水平	置信区间	间隔	宽窄度
±3%	95%	60%±3%=57%-63%	6	宽
±2.3%	90%	60%±2.3%=57.7%-62.3%	4.6	窄

由上表得出:

在样本量相同的情况下（都是1,200人），置信水平越高(95%)，置信区间越宽。

7. 讨论样本容量和置信区间宽度之间的关系。宽区间和紧密区间，哪一个更好，为什么？

在置信水平固定的情况下，样本量越多，置信区间越窄。其次，在样本量相同的情况下，置信水平越高，置信区间越宽。

8. 解释抽样误差的含义是什么。

在抽样检查中，由于用样本指标代替全及指标所产生的误差可分为两种：一种是由于主观因素破坏了随机原则而产生的误差，称为系统性误差；另一种是由于抽样的随机性引起的偶然的代表性误差。抽样误差仅仅是指后一种由于抽样的随机性而带来的偶然的代表性误差，而不是指前一种因不遵循随机性原则而造成的系统性误差。

总的说来，抽样误差是指样本指标与全及总体指标之间的绝对误差。在进行抽样检查时不可避免会产生抽样误差，因为从总体中随机抽取的样本，其结构不可能和总体完全一致。

抽样误差也是衡量抽样检查准确程度的指标。抽样误差越大，表明抽样总体对全及总体的代表性越小，抽样检查的结果越不可靠。反之，抽样误差越小，说明抽样总体对全及总体的代表性越大，抽样检查的结果越准确可靠。在统计学中把抽样误差分为抽样平均误差和抽样极限误差。

误差 = 测定值或估计值 - 真值

（测定值或估计值——观察值和样本统计量）

总误差可分解非抽样误差、偏差、抽样误差

非抽样误差

指不是由于抽样或估计方法引起的误差。它不是抽样调查固有的，即使是全面调查也存在。

如：过失性错误，调查员错测、错记、被调查者无回答；测量误差（又称随机误差）。前者可通过调查人员培训、教育、宣传、检查，后者无法避免只能通过仪器改进或样本量增大来减小误差。

（非抽样误差一般不记录总误差）

偏差

又称系统误差或恒定误差，估计值的数学期望与总体参数实际值之差。偏差的性质与随机误差不同，它不随样本单元数的增加而减小，也不因测量次数增多而减小。

如:测量仪器，偏小尺子测量出的数据会偏大；抽样过程；估计方法。

抽样误差

以样本统计量（如:平均数、总体总量）估计总体参数会产生误差，这种由于只测样本单元而没有观测全部总体单元而产生的误差称为抽样误差。

（总误差）² = （抽样误差）² + （偏差）²

无偏估计: 总误差 = 抽样误差

9. 误差范围的含义是什么？

误差 = 测定值或估计值 - 真值

抽样误差是指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构，而引起抽样指标和全局指标的绝对离差。

影响抽样误差的因素有：

抽样单位的数目。在其他条件不变的情况下，抽来样单位的数目越多，抽样误差越小；抽样单位数目越少，抽样误差越大。

总体被研究标志的变异程度。在其他条件不变的情况下，总体标志的变异程度越小，抽样误差越小。总体标志的变异程度越大，抽样误差越大。

抽样方法的选择。重复抽样和不源重复抽样的抽样误差的大小不同。采用不重复抽样比采用重复抽样的抽样误差小。

抽样组织方百式不同。采用不同的组织方式，会有不同的抽样误差，这是因为不同的抽样组织所抽中的样本，对于总体的代表性也不同。通常，我们不常利用不同的抽样误差，做出判断各种抽样组织方式的比较标准。

10. 减小误差范围的两种方法是什么，通常推荐使用哪种方法？

对于总体均值 $\mu$ 的一个 95% 置信区间的误差范围 E为 $E= t_{\alpha /2}\left ( s/\sqrt{n} \right )$ ，可以解释如下：

我们有 95%的把握在 E 误差范围内估计 $\mu$ 。

误差范围越小，估计的精确度就越大。问题是，如何才能减小误差范围？现在误差范围E包含3中量，如下所示：

$t_{\alpha /2}$ 取决于置信水平和样本容量

样本标准偏差s，作为数据的特征，可能不会发生变化

n，样本容量

因此，可以使用以下两种方法来减小误差范围：

通过增大样本容量。（推荐的做法）要想在减小误差范围的同时保持置信水平不变，增大样本容量是唯一的方法。

通过减小置信水平，即减小 $t_{\alpha /2}$ 的取值，因此可以减小E。（不推荐的做法）

例如：我们获取一个样本包含5000个客户，有相同的标准差 s=1.315，那么99%的置信区间的误差范围为：

$E = t_{\alpha /2}\times \frac{s}{\sqrt{n}} = 1.96\times \frac{1.315}{\sqrt{5000}} = 0.036$

由于E的计算公式中包含 $\sqrt{n}$ ，样本容量中 n 的增加会导致 $\sqrt{n}$ 的误差范围的减小。

11. 一次政治民调的误差范围为3%。如何解释这个数字？

12. 什么是假设检验？

假设检验(Hypothesis Testing)，又称统计假设检验，是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法，也是一种最基本的统计推断形式，其基本原理是先对总体的特征做出某种假设，然后通过抽样研究的统计推理，对此假设应该被拒绝还是接受做出推断。

假设检验的基本思想是“小概率事件”原理，其统计推断方法是带有某种概率性质的反证法。小概率思想是指小概率事件在一次试验中基本上不会发生。反证法思想是先提出检验假设，再用适当的统计方法，利用小概率原理，确定假设是否成立。即为了检验一个假设是否正确，首先假定该假设正确，然后根据样本对假设做出接受或拒绝的决策。如果样本观察值导致了“小概率事件”发生，就应拒绝假设，否则应接受假设。

假设检验中所谓“小概率事件”，并非逻辑中的绝对矛盾，而是基于人们在实践中广泛采用的原则，即小概率事件在一次试验中是几乎不发生的，但概率小到什么程度才能算作“小概率事件”，显然，“小概率事件”的概率越小，否定原假设就越有说服力，常记这个概率值为α(0<α<1)，称为检验的显著性水平。对于不同的问题，检验的显著性水平α不一定相同，一般认为，事件发生的概率小于0.1、0.05或0.01等，即“小概率事件” 。

假设检验是指使用样本的证据来断言总体参数值得过程。针对参数值，精心设计了两种矛盾的声明或假设。

具体如下：

零假设 $H_{0}$ 是原假设，表示参数值已经假定的内容

另一种假设或研究假设 $H_{1}$ 表示参数值得另一个断言

两种可能的结论是：（1）拒绝 $H_{0}$ 和（2）不拒绝 $H_{0}$

		现实
		$H_{0}$ 成立	$H_{0}$ 不成立
决策	拒绝 $H_{0}$	类型I错误	正确决定
决策	不拒绝 $H_{0}$	正确决定	类型II错误

类型I错误的概率记为 $\alpha$ ，而类型II错误的概率记为 $\beta$ 。

对于一个固定样本容量， $\alpha$ 减小与 $\beta$ 增大相关，反之亦然。在统计分析中， $\alpha$ 通常固定在某个较小值，例如：0.05，称之为显著性水平。

均值假设检验的一般处理是将假设限定为以下3种形式：

左-尾检验

$H_{0}$ ： $\mu \geq \mu _{0}$ ； $H_{1}$ ： $\mu < \mu _{0}$

右-尾检验

$H_{0}$ ： $\mu \leq \mu _{0}$ ； $H_{1}$ ： $\mu > \mu _{0}$

左-尾检验

$H_{0}$ ： $\mu = \mu _{0}$ ； $H_{1}$ ： $\mu \neq \mu _{0}$

其中 $\mu _{0}$ 表示 $\mu$ 的一个假设值。

13. 描述作出正确结论的两种方法和作出错误结论的两种方法。

14. 清楚地解释为什么小的p-值会导致零假设的检验否定。

p-值是指：如果我们假定零假设为真时，观测样本统计量（例如： $\overline{X}$ 和 $t_{data}$ ）至少与真实观测的统计量一样极端的概率。由于p-值（“概率值”）表示一个概率，因此其值必须总是位于0和1之间。

如何计算p-值？

假设检验的形式	P-值
左-尾检验 $H_{0}$ ： $\mu \geq \mu _{0}$ ； $H_{1}$ ： $\mu < \mu _{0}$	$P\left ( t< t_{data} \right )$
右-尾检验 $H_{0}$ ： $\mu \leq \mu _{0}$ ； $H_{1}$ ： $\mu > \mu _{0}$	$P\left ( t> t_{data} \right )$
左-尾检验 $H_{0}$ ： $\mu = \mu _{0}$ ； $H_{1}$ ： $\mu \neq \mu _{0}$	如果 $t_{data}< 0$ ，那么 $p_{value}=2\times P\left ( t< t_{data} \right )$ 如果 $t_{data}> 0$ ，那么 $p_{value}=2\times P\left ( t> t_{data} \right )$

假设检验的形式

P-值

左-尾检验

$H_{0}$ ： $\mu \geq \mu _{0}$ ； $H_{1}$ ： $\mu < \mu _{0}$

$P\left ( t< t_{data} \right )$

右-尾检验

$H_{0}$ ： $\mu \leq \mu _{0}$ ； $H_{1}$ ： $\mu > \mu _{0}$

$P\left ( t> t_{data} \right )$

左-尾检验

$H_{0}$ ： $\mu = \mu _{0}$ ； $H_{1}$ ： $\mu \neq \mu _{0}$

如果 $t_{data}< 0$ ，那么 $p_{value}=2\times P\left ( t< t_{data} \right )$

如果 $t_{data}> 0$ ，那么 $p_{value}=2\times P\left ( t> t_{data} \right )$

假设检验形式的名称表明p-值将会在t分布的哪尾或双尾中发现。

一个较小p-值将表明数据与零假设之间的冲突。

因此，如果p-值较小，我们将拒绝 $H_{0}$

多小才算小呢？因为研究者设置显著水平 $\alpha$ 为某个较小的值（例如：0.05），因此，如果p-值小于 $\alpha$ ，我们则认为 p-值较小。

这引导我们得出拒绝规则：

拒绝 $H_{0}$ ，如果 p-值小于 $\alpha$ 。

不同p-值下拒绝 $H_{0}$ 的证据力度：

P-值	$H_{0}$ 证据力度
p-值 $<$ 0.001	极强的证据
0.001 $<$ p-值 $\leq$ 0.01	非常强的证据
0.01 $<$ p-值 $\leq$ 0.05	确切的证据
0.05 $<$ p-值 $\leq$ 0.10	较确切的证据
0.10 $<$ p-值 $\leq$ 0.15	不够充分的证据
0.15 $<$ p-值	无证据

15. 我们如何使用置信区间来构造假设检验？

16. 参数估计与假设检验之间的联系与区别。

（1）主要联系：a.都是根据样本信息推断总体参数；b.都以抽样分布为理论依据，建立在概率论基础之上的推断；c.二者可相互转换，形成对偶性。

（2）主要区别： a.参数估计是以样本资料估计总体参数的真值，假设检验是以样本资料检验对总体参数的先验假设是否成立;b.区间估计求得的是求以样本估计值为中心的双侧置信区间，假设检验既有双侧检验，也有单侧检验；c.区间估计立足于大概率，假设检验立足于小概率。