第14章指数
什么是指数?它有哪些性质? 指数,或称统计指数,是分析社会经济现象数量变化的一种重要统计方法。它有如下一些性质: (1)相对性。指数是总体各变量在不同场合下对比形成的相对数,它可以度量一个变量在不同时间或不同空间的相对变化,如一种商品的价格指数或数量指数。它也可以反映一组变量的综合变动,比如综合物价指数。 (2)综合性。指数是由一组变量或项目综合对比形成的,比如,由若干种商品和服务构成的一组消费项目,通过综合后计算价格指数,可以反映消费价格的综合变动水平。 (3)平均性。一方面,指数进行比较的综合数量是作为个别量的一个代表,这本身就具有平均的性质;另一方面,两个综合量对比形成的指数反映了个别量的平均变动水平,比如物价指数反映了多种商品和服务项目价格的平均变动水平。 什么是同度量因素?同度量因素在编制加权综合指数中有什么作用? 在统计学中,一般把能够使全部个体的数量得以综合起来的因素称为同度量因素。 同度量因素能够把不同使用价值或不同内容的数值转化为同度量的数值,在编制指数时,对于不能直接相加的指标,可通过同度量因素把指标过渡到具有可加性。 拉氏指数和帕氏指数各有什么特点? ( ...
第13章时间序列分析和预测
简述时间序列的构成要素。 时间序列的构成要素分为 4 种,即趋势、季节性、周期性、随机性。 (1)趋势是时间序列在长时期内呈现出来的某种持续向上或持续下降的变动,也称长期趋势; (2)季节性也称季节变动,它是时间序列在一年内重复出现的周期性波动; (3)周期性也称循环波动,它是时间序列中呈现出来的围绕长期趋势的一种波浪形或振荡式变动; (4)随机性也称不规则波动,是指偶然性因素对时间序列产生影响,使时间序列呈现出某种随机波动。 利用增长率分析时间序列时应注意哪些问题? 在应用增长率分析实际问题时,应注意以下几点: (1)当时间序列中的观察值出现 0 或负数时,不宜计算增长率。这是因为对这样的序列计算增长率,要么不符合数学公理,要么无法解释其实际意义; (2)在有些情况下,不能单纯就增长率论增长率,要注意将增长率与绝对水平结合起来分析。 简述平稳序列和非平稳序列的含义。 (1)平稳序列是基本上不存在趋势的序列。这类序列中的观察值基本都在某个固定的水平上波动,虽然在不同的时间段波动的程度不同,但并不存在某种规律。其波动可以看成是随机的。 (2)非平稳序列是包含趋势、季节性或周期性 ...
第12章多元线性回归
解释多元回归模型、多元回归方程、估计的多元回归方程的含义。 (1)多元回归模型:设因变量为 yyy,kkk 个自变量分别为 x1,x2,...,xkx_1,x_2,...,x_kx1,x2,...,xk,描述因变量 yyy 如何依赖于自变量 x1,x2,...,xkx_1,x_2,...,x_kx1,x2,...,xk 和误差项 ε\varepsilonε 的方程称为多元回归模型。其一般形式可表示为: y=β0+β1x1+β2x2+...+βkxk+ϵy=\beta _0+\beta _1x_1+\beta _2x_2+...+\beta _kx_k+\epsilon y=β0+β1x1+β2x2+...+βkxk+ϵ (2)多元回归方程:根据回归模型的假定有E(y)=β0+β1x1+β2x2+...+βkxk+ϵE(y)=\beta _0+\beta _1x_1+\beta _2x_2+...+\beta _kx_k+\epsilonE(y)=β0+β1x1+β2x2+...+βkxk+ϵ,称为多元回归方程,它描述了因变量 yyy 的期望值与 ...
第11章一元线性回归
解释相关关系的含义,说明相关关系的特点。 变量之间存在的不确定的数量关系,称为相关关系。 相关关系的特点:一个变量的取值不能由另一个变量唯一确定,当变量 xxx 取某个值时,变量 yyy 的取值可能有几个。对这种关系不确定的变量是不能用函数关系进行描述的。 相关分析主要解决哪些问题? 相关分析就是对两个变量之间线性关系的描述与度量,它要解决的问题包括: (1)变量之间是否存在关系; (2)如果存在关系,它们之间是什么样的关系; (3)变量之间的关系强度如何; (4)样本所反映的变量之间的关系能否代表总体变量之间的关系。 相关分析中有哪些基本假定? 在进行相关分析时,对总体主要有以下两个假定: (1)两个变量之间是线性关系; (2)两个变量都是随机变量。 简述相关系数的性质。 相关系数是根据样本数据计算的度量两个变量之间线性关系强度的统计量。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 ρ;若是根据样本数据计算的,则称为样本相关系数,记为 rrr。 相关系数的性质: (1)rrr的取值范围在−1∼+1-1 \sim +1−1∼+1之间,即−1≤r≤1-1≤r≤ ...
第10章方差分析
什么是方差分析?它研究的是什么? 方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。 表面上看,方差分析是检验多个总体均值是否相等的统计方法,但本质上它所研究的是分类型自变量对数值型因变量的影响,例如,变量之间有没有关系、关系的强度如何等。 要检验多个总体均值是否相等时,为什么不作两两比较,而用方差分析方法? 检验多个总体均值是否相等时,如果作两两比较,则需要进行多次的 t 检验,作这样的两两比较十分烦琐,并且随着增加个体显著性检验的次数,偶然因素导致差别的可能性也会增加(并非均值真的存在差别)。而方差分析方法则是同时考虑所有的样本,因此排除了错误累积的概率,从而避免拒绝一个真实的原假设。方差分析不仅可以提高检验的效率,同时由于它是将所有的样本信息结合在一起,也增加了分析的可靠性。因此,要检验多个总体均值是否相等时,通常使用方差分析方法。 方差分析包括哪些类型?它们有何区别? (1)根据所分析的分类自变量的多少,方差分析可分为单因素方差分析和双因素方差分析。 (2)区别: ①单因素方差分析研究的是一个分类型自变量对一个数值型因变量的影响; ...
第9章分类数据分析
简述列联表的构造与列联表的分布。 列联表是将两个以上的变量进行交叉分类的频数分布表。 列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。 用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。 对三个生产厂甲、乙、丙提供的学习机的 A、B、C 三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。抽查了 450 部学习机次品,整理成为如表 9-1 所示的 3×3 列联表。 根据抽查检验的数据表明:次品类型与厂家(即哪一个厂)生产是无关的(即是相互独立的)。 建立假设:H0:次品类型与厂家生产是独立的;H1:次品类型与厂家生产不是独立的。 可以计算各组的期望值,如表 9-2 所示(表中括号内的数值为期望值)。 所以χ2=(20-17)2/17+(40-33)2/33+...+(70-58)2/58=9.821χ 2=(20-17)^2 /17+(40-33)^2 /33+...+(70-58)^2 /58=9.821χ2=(20-17)2/17+ ...
第8章假设检验
假设检验和参数估计有什么相同点和不同点? 相同点 :区间估计与假设检验都是 根据样本信息对总体参数进行推断 ,都是 以抽样分布为理论依据 ,都是建立 在概率基础上的推断 ,推断结果都有一定的可信度或风险。 不同点 :推断的角度不同。 参数估计 讨论的是 用样本统计量估计总体参数的方法,总体参数 μ 在估计前是未知的 。而在 假设检验 中,则是 先对 μ 的值提出一个假设,然后利用样本信息去检验这个假设是否成立 。 什么是假设检验中的显著性水平?统计显著是什么意思? (1) 显著性水平 是当 原假设正确时却被拒绝的概率或风险 ,即假设检验中犯弃真错误的概率,通常用 α 表示。它是由人们根据检验的要求确定的,通常取 α = 0.05 或 α = 0.01 。 (2) 统计显著 是指在 原假设为真的条件下 ,用于检验的 样本统计量的值落在了拒绝域内 ,作出了 拒绝原假设 的决定。 什么是假设检验中的两类错误? 假设检验中所犯的错误有两种类型: 一类错误是 原假设 H0 为真却被拒绝了 ,犯这种错误的概率用 α ...
第7章参数估计
解释估计量和估计值。 在参数估计中,用来 估计总体参数 的统计量称为 估计量 ,用符号 $\hat{\theta}$表示。样本均值、样本比例、样本方差等都可以是一个估计量。 根据一个具体的样本计算出来的估计量的数值称为 估计值 。 简述评价估计量好坏的标准。 评价估计量好坏的标准主要有以下三个: (1) 无偏性 无偏性是指估计量抽样分布的 数学期望等于被估计的总体参数 。设总体参数为 θ{\theta}θ,所选择的估计量为 θ^\hat{\theta}θ^,如果 E(θ^)=θE(\hat{\theta})=\thetaE(θ^)=θ ,则称 θ^\hat{\theta}θ^ 为 θ\thetaθ 的无偏估计量。 (2) 有效性 一个无偏的估计量并不意味着它就非常接近被估计的参数,它还必须与总体参数的离散程度比较小。有效性是指对同一总体参数的两个无偏估计量, 有更小标准差的估计量更有效 。 (3) 一致性 一致性是指随着样本量的增大, 点估计量的值越来越接近被估总体的参数 。换言之,一个大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数。 怎样理解置信区间? 在区间 ...
第6章统计量及其抽样分布
什么是统计量?为什么要引进统计量?统计量中为什么不含任何未知参数? (1)设 X1,X2,...,Xn是从总体 X 中抽取的容量为 n 的一个样本,如果由此样本构造一个函数 T(X1,X2,...,Xn), 不依赖于任何未知参数 ,则称函数 T(X1,X2,...,Xn) 是一个 统计量 。 (2)在实际应用中,当从某总体中抽取一个样本后,并不能直接用它去对总体的有关性质和特征进行推断,这是因为样本虽然是从总体中获取的代表,含有总体性质的信息,但仍较分散。为了使统计推断成为可能, 首先必须把我们所关心的分散在样本中的信息集中起来,针对不同的研究目的,构造不同的样本函数。 (3) 统计量是样本的一个函数 。由样本构造具体的统计量,实际上是对样本所含的总体信息按某种要求进行加工处理,把分散在样本中的信息集中到统计量的取值上,不同的统计推断问题要求构造不同的统计量,所以统计量不包含未知参数。 判断下列样本函数中哪些是统计量?哪些不是统计量? T1=(X1+X2+...+X10)/10 T2=min(X1,X2,...,X10) T3=X10-μ T4=(X10-μ)/&sig ...
第5章概率与概率分布
频率与概率有什么关系? 概率 是一种 现象的固有属性 ,比如随意抛掷一枚均匀的硬币,正面出现的概率就是 1/2,这跟实验是没有关系的。而 频率 ,就是一组实验中关心的某个结果出现的次数与所有实验次数的比值,它和实验密切相关 。一般来说,随着实验次数的增多,频率会接近于概率。比如抛掷均匀的硬币 10000 次,出现正面的频率就会非常接近于概率 0.5。 根据自己的经验体会举几个服从泊松分布的随机变量的实例 服从泊松分布的随机变量有: (1)在某一公司中每月观察到的事故的次数; (2)单位时间内到达某一服务柜台(服务站、诊所、超级市场的结账柜台、电话总机等)请求服务的顾客人数; (3)保险公司每天收到的死亡声明的个数; (4)某种仪器每月出现故障的次数。 根据自己的经验体会举几个服从正态分布的随机变量的实例 服从正态分布的随机变量: (1)某地区同年龄组儿童的发育特征,如身高、体重、肺活量; (2)某公司年销售量; (3)在同一条件下产品的质量。
第4章数据的概括性度量
一组数据的分布特征可以从哪几个方面进行测度? 数据分布的特征可以从三个方面进行测度和描述: (1)分布的 集中趋势 ,反映各数据 向其中心值靠拢或聚集 的程度; (2)分布的 离散程度 ,反映各数据 远离其中心值 的趋势; (3)分布的 形状 ,反映数据分布的 偏态和峰态 。 简述众数、中位数和平均数的特点和应用场合。 (1) 众数 ①特点:其优点是 不受极端值的影响 ;其缺点是具有 不唯一性 。一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。 ②应用场合:众数只有在 数据量较多 时才有意义,当数据量较少时,不宜使用众数。众数主要适合作为 分类数据的集中趋势测度值 。 (2) 中位数 ①特点:中位数是一组数据中间位置上的代表值, 不受数据极端值的影响 。 ②应用场合:当一组数据的 分布偏斜程度较大 时,使用中位数也许是一个好的选择。中位数主要适合作为 顺序数据的集中趋势测度值 。 (3) 平均数 ①特点:平均数是对数值型数据计算的,它利用了 全部数据信息 ,是实际中 应用最广泛 的集中趋势测度值; 其主要缺点是 易受数据极端值的影响 ,对于偏态分布的数据, ...
第3章数据的图表展示
数据的预处理包括哪些内容? 数据审核 (对于原始数据:完整性和准确性;对于二手数据:实用性和实效性)、 数据筛选 和 数据排序 。 分类数据和顺序数据的整理和图示方法各有哪些? 分类数据 :制作频数分布表,用比例、百分比和比率等进行描述性分析,可用条形图、帕累托图、饼图和环形图进行图示分析。 顺序数据 :制作频数分布表,用比例、百分比、比率、累计频数和累计频率等进行描述性分析,可用条形图、帕累托图、饼图、累计频数分布图和环形图进行分析。 数值型数据的分组方法有哪些?简述组距分组的步骤。 分组方法 : 单变量值 分组和 组距 分组,组距分组又分为 等距 分组和 异距 分组。 分组步骤 :①确定组数 ②确定组距 ③根据分组整理成频数分布表。 直方图与条形图有何区别? 条形图 使用的 长度 表示 各类别频数的多少 ,其 宽度固定 ; 直方图 用 面积 表示 各组频数 ,矩形的高度表示每组的频数或频率,宽度表示组距。 直方图 各矩形连续排列 ,条形图 分开排列 。直方图主要展示 数值型数据 。 绘制线图应注意哪些问题? 时间在横轴,观测值在纵轴。一般是 ...