第11章一元线性回归
解释相关关系的含义,说明相关关系的特点。
变量之间存在的不确定的数量关系,称为相关关系。
相关关系的特点:一个变量的取值不能由另一个变量唯一确定,当变量 取某个值时,变量 的取值可能有几个。对这种关系不确定的变量是不能用函数关系进行描述的。
相关分析主要解决哪些问题?
相关分析就是对两个变量之间线性关系的描述与度量,它要解决的问题包括:
(1)变量之间是否存在关系;
(2)如果存在关系,它们之间是什么样的关系;
(3)变量之间的关系强度如何;
(4)样本所反映的变量之间的关系能否代表总体变量之间的关系。
相关分析中有哪些基本假定?
在进行相关分析时,对总体主要有以下两个假定:
(1)两个变量之间是线性关系;
(2)两个变量都是随机变量。
简述相关系数的性质。
相关系数是根据样本数据计算的度量两个变量之间线性关系强度的统计量。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 ρ;若是根据样本数据计算的,则称为样本相关系数,记为 。
相关系数的性质:
(1)的取值范围在之间,即。若 ,表明 与 之间存在正线性相关关系;若,表明 与 之间存在负线性相关关系;若 ,表明 与 之间为完全正线性相关关系;若 ,表明 与 之间为完全负线性相关关系。可见当时, 的取值完全依赖于 ,二者之间即为函数关系;当 时,说明 的取值与 无关,即二者之间不存在线性相关关系。
(2) 具有对称性。 与 之间的相关系数 和 与 之间的相关系数 ryx相等,即 rxy=ryx。
(3) 数值大小与 和 的原点及尺度无关。改变 和 的数据原点及计量尺度,并不改变 数值大小。
(4)仅仅是 与 之间线性关系的一个度量,它不能用于描述非线性关系。这意味着, 只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系,它们之间可能存在非线性相关关系。变量之间的非线性相关程度较大时,就可能会导致 。因此,当 或很小时,不能轻易得出两个变量之间不存在相关关系的结论,而应结合散点图做出合理的解释。
(5) 虽然是两个变量之间线性关系的一个度量,却不一定意味着 与 一定有因果关系。
为什么要对相关系数进行显著性检验?
一般情况下,总体相关系数 ρ 是未知的,通常是根据样本相关系数 作为 ρ 的近似估计值。但由于 是根据样本数据计算出来的,它受到抽样波动的影响。由于抽取的样本不同, 的取值也就不同,因此 是一个随机变量。能否根据样本相关系数说明总体的相关程度,需要考察样本相关系数的可靠性,也就是进行显著性检验。
简述相关系数显著性检验的步骤。
相关系数显著性检验的步骤为:
(1)提出假设,H0:ρ=0;H1:ρ≠0。
(2)计算检验的统计量,(3)进行决策。根据给定的显著性水平 α 和自由度 查 t 分布表,查出 的临界值。若,则拒绝原假设 H0,表明总体的两个变量之间存在显著的线性关系。
解释回归模型、回归方程、估计的回归方程的含义。
(1)回归模型:对于具有线性关系的两个变量,可以用一个线性方程来表示它们之间的关系。描述因变量 如何依赖于自变量 和误差项 的方程称为回归模型。对于只涉及一个自变量的一元线性回归模型可表示为:
(2)回归方程:根据回归模型中的假定, 的期望值等于 0,因此 y 的期望值 ,也就是说, 的期望值是 的线性函数。描述因变量 的期望值如何依赖于自变量 x 的方程称为回归方程。一元线性回归方程的形式为:
(3)估计的回归方程:如果回归方程中的参数 和 已知,对于一个给定的 的值,利用式 就能计算出 的期望值。但总体回归参数 和 是未知的,必须利用样本数据去估计它们。用样本统计量 和 代替回归方程中的未知参数 和 ,这时就得到了估计的回归方程。它是根据样本数据求出的回归方程的估计。
对于一元线性回归,估计的回归方程形式为:式中, 是估计的回归直线在 y 轴上的截距; 是直线的斜率,表示 每变动一个单位时, 的平均变动值。
一元线性回归模型中有哪些基本的假定?
一元线性回归模型中基本的假定:
(1)因变量 与自变量 之间具有线性关系。
(2)在重复抽样中,自变量 的取值是固定的,即假定 是非随机的。
(3)误差项 是一个期望值为 0 的随机变量,即 。
(4)对于所有的 值, 的方差 都相同。
(5)误差项 是一个服从正态分布的随机变量,且独立,即 。
简述参数最小二乘估计的基本原理。
对于第 个 值,估计的回归方程可表示为:
对于 和 的 对观察值,用于描述其关系的直线有多条,用距离各观测点最近的一条直线来代表两个变量之间的关系,用最小化观测值与估计值的离差平方和来估计参数 和 ,根据这一方法确定模型参数 和 的方法称为最小二乘法,也称为最小平方法,它是使因变量的观察值 与估计值 之间的离差平方和达到最小来估计 和 的方法。
解释总平方和、回归平方和、残差平方和的含义,并说明它们之间的关系。
(1)总平方和(SST)是实际观测值 与其均值 的离差平方和,即
(2)回归平方和(SSR)是各回归值 与实际观测值的均值 的离差平方和,即 ,其反映了在 的总变差中由于 与 之间的线性关系引起的 的变化部分,它是可以由回归直线来解释的 变差部分。
(3)残差平方和(SSE)是各实际观测值 与回归值 的离差平方和,即,它是除了 对 的线性影响之外的其他因素对 变差的作用,是不能由回归直线来解释的 变差部分。其又称为误差平方和。
(4)三者之间的关系:总平方和(SST)=回归平方和(SSR)+残差平方和(SSE)。
简述判定系数的含义和作用。
(1)判定系数的含义
回归平方和占总平方和的比例称为判定系数,记为 ,其计算公式为(2)判定系数的作用
判定系数 测度了回归直线对观测数据的拟合程度。若所有观测点都落在直线上,残差平方和 ,拟合是完全的;如果 的变化与 无关, 完全无助于解释 的变差,此时,则 。可见 的取值范围是[0,1]。 越接近于 1,表明回归平方和占总平方和的比例越大,回归直线与各观测点越接近,用 的变化来解释 值变差的部分就越多,回归直线的拟合程度就越好;反之, 越接近于 0,回归直线的拟合程度就越差。
在回归分析中,F 检验和 t 检验各有什么作用?
F 检验是检验自变量 和因变量 之间的线性关系是否显著,或者说,它们之间能否用一个线性模型 来表示,也就是线性关系的检验。
t 检验是检验自变量对因变量的影响是否显著,也就是回归系数的检验。
简要说明残差分析在回归分析中的作用。
残差分析在回归分析中的作用表现在:
(1)用于判断有关模型的假定是否成立;
(2)用于分析回归中的异常值和对模型有影响的观测值。