第10章方差分析
什么是方差分析?它研究的是什么?
方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
表面上看,方差分析是检验多个总体均值是否相等的统计方法,但本质上它所研究的是分类型自变量对数值型因变量的影响,例如,变量之间有没有关系、关系的强度如何等。
要检验多个总体均值是否相等时,为什么不作两两比较,而用方差分析方法?
检验多个总体均值是否相等时,如果作两两比较,则需要进行多次的 t 检验,作这样的两两比较十分烦琐,并且随着增加个体显著性检验的次数,偶然因素导致差别的可能性也会增加(并非均值真的存在差别)。而方差分析方法则是同时考虑所有的样本,因此排除了错误累积的概率,从而避免拒绝一个真实的原假设。方差分析不仅可以提高检验的效率,同时由于它是将所有的样本信息结合在一起,也增加了分析的可靠性。因此,要检验多个总体均值是否相等时,通常使用方差分析方法。
方差分析包括哪些类型?它们有何区别?
(1)根据所分析的分类自变量的多少,方差分析可分为单因素方差分析和双因素方差分析。
(2)区别:
①单因素方差分析研究的是一个分类型自变量对一个数值型因变量的影响;
②双因素方差分析研究的是两个分类变量对数值型因变量的影响。
方差分析中有哪些基本假定?
方差分析中有三个基本假定:
(1)每个总体都应服从正态分布。即对于因素的每一个水平,其观测值是来自正态分布总体的简单随机样本。
(2)各个总体的方差 σ2 必须相同。即对于各组观察数据,是从具有相同方差的正态总体中抽取的。
(3)观测值是独立的。
简述方差分析的基本思想。
方差分析的基本思想:通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。
解释因子和处理的含义。
在方差分析中,所要检验的对象称为因素或因子;因素的不同表现称为水平或处理。例如:要分析行业(零售业、旅游业、航空公司、家电制造业)对投诉次数是否有显著影响,则这里的“行业”是要检验的对象,称其为“因素”或“因子”;零售业、旅游业、航空公司、家电制造业是“行业”这一因素的不同表现,称其为“水平”或“处理”。
解释组内误差和组间误差的含义。
(1)由于抽样的随机性所造成的随机误差,这种来自水平内部的数据误差称为组内误差。
(2)来自不同水平之间的数据误差称为组间误差,这种差异可能是由于抽样本身形成的随机误差,也可能是由于行业本身的系统性因素造成的系统误差。因此,组间误差是随机误差和系统误差的总和。
解释组内方差和组间方差的含义。
组内平方和 SSE 的均方称为组内均方或组内方差,记为 MSE,其计算公式为:
MSE=组内平方和/自由度=SSE/(n-k)
组间平方和 SSA 的均方称为组间均方或组间方差,记为 MSA,其计算公式为:
MSA=组间平方和/自由度=SSA/(k-1)
简述方差分析的基本步骤。
(1)单因素方差分析的基本步骤包括:
①提出假设
H0:μ1=μ2=...=μi=...=μk,自变量对因变量没有显著影响
H1:μi(i=1,2,...,k)不全相等,自变量对因变量有显著影响
②构造检验的统计量
F=组间方差 MSA/组内方差 MSE~F(k-1,n-k)
③统计决策
若 F>Fα,则拒绝原假设 H0:μ1=μ2=...=μk,表明 μi(i=1,2,...,k)之间的差异是显著的;
若 F<Fα,则不拒绝原假设 H0,没有证据表明 μi(i=1,2,...,k)之间有显著差异。
(2)无交互作用的双因素方差分析的基本步骤包括:
①提出假设
对行因素提出的假设为:
H0:μ1=μ2=...=μi=...=μk,行因素(自变量)对因变量没有显著影响
H1:μi(i=1,2,...,k)不完全相等,行因素(自变量)对因变量有显著影响
对列因素提出的假设为:
H0:μ1=μ2=...=μj=...=μr,列因素(自变量)对因变量没有显著影响
H1:μj(j=1,2,...,r)不完全相等,列因素(自变量)对因变量有显著影响
②构造检验的统计量
检验行因素对因变量的影响是否显著的统计量:
FR=行因素的均方 MSR/随机误差的均方 MSE~F(k-1,(k-1)(r-1))
检验列因素的影响是否显著的统计量:
FC=列因素的均方 MSC/随机误差的均方 MSE~F(r-1,(k-1)(r-1))
③统计决策
若 FR>Fα,则拒绝原假设 H0:μ1=μ2=...=μi=...=μk,表明 μi(i=1,2,...,k)之间的差异是显著的。即,所检验的行因素对观测值有显著影响。
若 FC>Fα,则拒绝原假设 H0:μ1=μ2=...=μj=...=μr,表明 μj(j=1,2,...,r)之间的差异是显著的,即,所检验的列因素对观测值有显著影响。
(3)有交互作用的双因素方差分析的基本步骤包括:
①提出假设
对行因素提出的假设为:
H0:μ1=μ2=...=μi=...=μk,行因素(自变量)对因变量没有显著影响
H1:μi(i=1,2,...,k)不完全相等,行因素(自变量)对因变量有显著影响
对列因素提出的假设为:
H0:μ1=μ2=...=μj=...=μr,列因素(自变量)对因变量没有显著影响
H1:μj(j=1,2,...,r)不完全相等,列因素(自变量)对因变量有显著影响
对交互作用提出的假设为:
H0:μ1=μ2=...=μt=...=μm,交互作用对因变量没有显著影响
H1:μt(t=1,2,...,m)不完全相等,交互作用对因变量有显著影响
②构造检验的统计量
检验行因素对因变量的影响是否显著的统计量:
FR=行因素的均方 MSR/误差的均方 MSE~F(k-1,kr(m-1))
检验列因素的影响是否显著的统计量:
FC=列因素的均方 MSC/误差的均方 MSE~F(r-1,kr(m-1))
检验交互作用的影响是否显著的统计量:
FRC=交互作用的均方 MSC/误差的均方 MSE~F((k-1)(r-1),kr(m-1))
③统计决策
若 FR>Fα,则拒绝原假设 H0:μ1=μ2=...=μi=...=μk,表明 μi(i=1,2,...,k)之间的差异是显著的。即,所检验的行因素对观测值有显著影响。
若 FC>Fα,则拒绝原假设 H0:μ1=μ2=...=μj=...=μr,表明 μj(j=1,2,...,r)之间的差异是显著的,即,所检验的列因素对观测值有显著影响。
若 FRC>Fα,则拒绝原假设 H0:μ1=μ2=...=μj=...=μm,表明 μj(j=1,2,...,m)之间的差异是显著的,即,所检验的交互作用对观测值有显著影响。
方差分析中多重比较的作用是什么?
多重比较方法是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。多重比较的方法有许多,常用的是由费希尔提出的最小显著差异方法(LSD)。
什么是交互作用?
交互作用是一因素对另一因素的不同水平有不同的效果。例如:对于双因素方差分析,有交互作用就是两个因素搭配在一起对因变量产生一种新的效应。
解释无交互作用和有交互作用的双因素方差分析。
如果两个自变量因素对因变量的影响是相互独立的,需分别判断两个自变量因素对因变量的影响情况,称为无交互作用的双因素方差分析。
如果除了两个自变量因素对因变量的单独影响外,两个因素的搭配还会对因变量产生一种新的效应,这时的双因素方差分析称为有交互作用的双因素方差分析。
解释 的含义和作用。
(1)单因素方差分析中,R2表示组间平方和(SSA)占总平方和(SST)的比例,其平方根 R 反映了两个变量之间的关系强度。其计算公式为:
R2=组间平方和 SSA/总平方和 SST=SSA/(SSA+SSE)
(2)无交互作用的方差分析中,行平方和与列平方和加在一起度量了两个自变量对因变量的联合效应,联合效应与总平方和的比值定义为R2,其平方根 R 则反映了这两个自变量合起来与因变量之间的关系强度。即
R2=联合效应/总效应=(SSR+SSC)/SST=(SSR+SSC)/(SSR+SSC+SSE)
(3)有交互作用的方差分析中,R2的定义为:
R2=(SSR+SSC+SSRC)/SST=(SSR+SSC+SSRC)/(SSR+SSC+SSRC+SSE)
其中 SSRC 为交互作用的平方和。