解释多元回归模型、多元回归方程、估计的多元回归方程的含义。

(1)多元回归模型:设因变量为 yykk 个自变量分别为 x1,x2,...,xkx_1,x_2,...,x_k,描述因变量 yy 如何依赖于自变量 x1,x2,...,xkx_1,x_2,...,x_k 和误差项 ε\varepsilon 的方程称为多元回归模型。其一般形式可表示为:

y=β0+β1x1+β2x2+...+βkxk+ϵy=\beta _0+\beta _1x_1+\beta _2x_2+...+\beta _kx_k+\epsilon

(2)多元回归方程:根据回归模型的假定有E(y)=β0+β1x1+β2x2+...+βkxk+ϵE(y)=\beta _0+\beta _1x_1+\beta _2x_2+...+\beta _kx_k+\epsilon,称为多元回归方程,它描述了因变量 yy 的期望值与自变量 x1,x2,...,xkx_1,x_2,...,x_k 之间的关系。

(3)估计的多元回归方程:回归方程中的参数 β0,β1,β2,...,βk\beta _0,\beta _1,\beta _2,...,\beta _k 是未知的,需要利用样本数据去估计它们。当用样本统计量 β^0,β^1,β^2,...,β^k\hat{\beta} _0,\hat{\beta} _1,\hat{\beta} _2,...,\hat{\beta} _k 去估计回归方程中的未知参数 β0,β1,β2,...,βk\beta _0,\beta _1,\beta _2,...,\beta _k 时,就得到了估计的多元回归方程,其一般形式为:

y^=β^0+β^1x1+β^2x2+...+β^kxk\hat{y} =\hat{\beta} _0+\hat{\beta} _1x_1+\hat{\beta}_2x_2+...+\hat{\beta}_kx_k

式中,β^0,β^1,β^2,...,β^k\hat{\beta} _0,\hat{\beta} _1,\hat{\beta} _2,...,\hat{\beta} _k 是参数 β0,β1,β2,...,βk\beta _0,\beta _1,\beta _2,...,\beta _k 的估计值,y^\hat{y} 是因变量 yy 的估计值。其中 β1,β2,...,βk\beta _1,\beta _2,...,\beta _k 称为偏回归系数。

多元线性回归模型中有哪些基本假定?

多元回归模型的基本假定有:

(1)自变量 x1,x2,...,xkx_1,x_2,...,x_k 是非随机的、固定的,且相互之间互不相关(无多重共线性),同时样本容量必须大于所要估计的回归系数的个数,即 n>kn>k
(2)误差项 ϵ\epsilon 是一个期望值为 0 的随机变量,即 E(ϵ)=0E( \epsilon )=0
(3)对于自变量 x1,x2,...,xkx_1,x_2,...,x_k 的所有值,ϵ\epsilon 的方差 σ2\sigma ^2 都相同,且无序列相关,即 D(εi)=σ2,Cov(εi,εj)=0,ijD(\varepsilon _i)=\sigma ^2,Cov(\varepsilon _i,\varepsilon _j)=0,i\ne j
(4)误差项 ϵ\epsilon 是一个服从正态分布的随机变量,且相互独立,即 εN(0,σ2)\varepsilon \sim N(0,\sigma ^2)

解释多重判定系数和调整的多重判定系数的含义和作用。

(1)多重判定系数是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程拟合程度的一个统计量,反映了在因变量 yy 的变差中被估计的回归方程所解释的比例,其计算公式为:R2SSR/SST1SSE/SSTR^2=SSR/SST=1-SSE/SST

(2)调整的多重判定系数考虑了样本量(nn)和模型中自变量的个数(kk)的影响,这就使得 Ra2R^2 _a 的值永远小于 R2R^2,而且 Ra2R^2 _a 的值不会由于模型中自变量个数的增加而越来越接近 1,其计算公式为:Ra2=1(1R2)×n1nk1R^2 _a=1-(1-R^2)\times \frac{n-1}{n-k-1}

解释多重共线性的含义。

当回归模型中两个或两个以上的自变量彼此相关时,称回归模型中存在多重共线性。

多重共线性对回归分析有哪些影响?

回归分析中存在多重共线性时将会产生以下问题:

(1)变量之间高度相关时,可能会使回归的结果混乱,甚至会把分析引入歧途;
(2)多重共线性可能对参数估计值的正负号产生影响,特别是 βi\beta_i 的正负号有可能同预期的正负号相反。

多重共线性的判别方法主要有哪些?

检测多重共线性的方法有多种,其中最简单的是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验。如果有一个或多个相关系数显著,就表示模型中存在相关的自变量,也即存在多重共线性问题。

具体来说,如果出现下列情况,暗示存在多重共线性:
(1)模型中各对自变量之间显著相关;
(2)当模型的线性关系检验(F 检验)显著时,几乎所有回归系数 βi\beta_itt 检验却不显著;
(3)回归系数的正负号与预期的相反。
(4)容忍度与方差扩大因子。某个自变量的容忍度等于 1 减去该自变量为因变量而其他 k1k-1 个自变量为预测变量时所得到的线性回归模型的判定系数,即 1Ri21-R^2 _i。容忍度越小,多重共线性越严重。通常认为容忍度小于0.1 时,存在严重的多重共线性。方差扩大因子等于容忍度的倒数,即 VIF=1/(1Ri2)VIF=1/(1-R^2 _i)。显然,VIFVIF 越大,多重共线性越严重。一般认为 VIFVIF 大于 10 时,存在严重的多重共线性。

多重共线性的处理方法有哪些?

多重共线性的处理有以下几种方法:

(1)将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关。
(2)如果要在模型中保留所有的自变量,那就应该:①避免根据 tt 统计量对单个参数 β\beta 进行检验;②对因变量 yy 值的推断(估计或预测)限定在自变量样本值的范围内。

在多元线性回归中,选择自变量的方法有哪些?

在多元线性回归中,变量选择的方法主要有:向前选择、向后剔除、逐步回归、最优子集等。

(1)向前选择是从模型中没有自变量开始,不断向模型中增加自变量,直至增加自变量不能使 F 统计量的值显著增加;
(2)向后剔除与向前选择法相反,它首先将自变量全部加入模型中,然后一个个剔除,直至剔除一个自变量不会使 SSE 显著减小为止,这时,模型中所剩的自变量都是显著的;
(3)逐步回归是向前选择和向后剔除的结合,前两步与向前选择法相同,然后向模型中不断增加变量并考虑剔除以前增加的变量的可能性,直至增加变量已经不能导致 SSE 显著减少。