一组数据的分布特征可以从哪几个方面进行测度?
数据分布的特征可以从三个方面进行测度和描述:
(1)分布的 集中趋势 ,反映各数据 向其中心值靠拢或聚集 的程度;
(2)分布的 离散程度 ,反映各数据 远离其中心值 的趋势;
(3)分布的 形状 ,反映数据分布的 偏态和峰态 。
简述众数、中位数和平均数的特点和应用场合。
(1) 众数
①特点:其优点是 不受极端值的影响 ;其缺点是具有 不唯一性 。一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。
②应用场合:众数只有在 数据量较多 时才有意义,当数据量较少时,不宜使用众数。众数主要适合作为 分类数据的集中趋势测度值 。
(2) 中位数
①特点:中位数是一组数据中间位置上的代表值, 不受数据极端值的影响 。
②应用场合:当一组数据的 分布偏斜程度较大 时,使用中位数也许是一个好的选择。中位数主要适合作为 顺序数据的集中趋势测度值 。
(3) 平均数
①特点:平均数是对数值型数据计算的,它利用了 全部数据信息 ,是实际中 应用最广泛 的集中趋势测度值; 其主要缺点是 易受数据极端值的影响 ,对于偏态分布的数据,平均数的代表性较差。
②应用场合:当数据呈 对称分布 或接近对称分布时,应选择平均数作为集中趋势的代表值;当数据为偏态分布,特别是当偏斜程度较大时,可以考虑选择中位数或众数,这时它们的代表性要比平均数好。
简述异众比率、四分位差、方差或标准差的应用场合。
(1) 异众比率 主要用于衡量 众数对一组数据的代表程度 。异众比率 越大 ,说明非众数组的频数占总频数的比重越大,众数的代表性就 越差 ;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。异众比率主要适合 测度分类数据的离散程度 ,当然,对于顺序数据以及数值型数据也可以计算异众比率。
(2) 四分位差 主要用于测度 顺序数据的离散程度 。对于数值型数据也可以计算四分位差,但不适合分类数据。
(3) 方差或标准差 能较好地反映出 数据的离散程度 ,是实际中应用最广泛的离散程度测度值。方差开方后即得到标准差。与方差不同的是, 标准差是具有量纲的 ,它与变量值的计量单位相同,其实际意义要比方差清楚。 因此,在对实际问题进行分析时更多地使用标准差。
标准分数有哪些用途?
变量值与其平均数的离差除以标准差后的值称为标准分数。 也称标准化值或 z 分数。设标准分数为 z。 则有 zi=(xi-x) /s。
标准分数给出了一组数据中各数值的相对位置。在对多个具有不同量纲的变量进行处理时,常常需要对各变量进行标准化处理。
标准分数具有 平均数为 0、标准差为 1 的特性。实际上,z 分数只是将原始数据进行了线性变换,它并 没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状 ,而只是将该组数据变为平均数为 0,标准差为 1。
为什么要计算离散系数?
方差和标准差是反映数据分散程度的绝对值,但是:
①其数值的大小 受原变量值本身水平高低的影响 ,也就是与变量的 平均数大小有关 ,变量值绝对水平高的,离散程度的测度值就大,绝对水平小的,离散程度的测度值就小;
②它们 与原变量值的计量单位相同 。采用不同计量单位计量的变量值,其离散程度的测度值就会不同。因此,对于平均水平不同或计量单位不同的不同组别的变量值, 用标准差无法直接比较其离散程度 。而 计算离散系数可以消除变量值水平高低和计量单位不同对离散程度测度值的影响。
测度数据分布形状的统计量有哪些?
测度数据分布形状的统计量有以下两种:
(1) 偏态 ,如果一组数据的分布是 对称 的,则偏态系数等于 0 ;如果偏态系数明显不等于 0,表明分布是非对称的。若偏态系数 大于 1 或小于 1 ,就是 高度偏态分布 ;若偏态系数在 0.5~1 或-1~-0.5 之间 ,就是 中等偏态分布 。 偏态系数越接近 0,偏斜程度就越低 。
(2) 峰态 ,通常是 与标准正态分布相比较 而言的。如果一组数据 服从标准正态分布,则峰态系数的值等于0 ;若峰态系数的值 明显大于 0,则表明分布比正态分布更尖,通常称为或尖峰分布 ;若峰态系数的值明显 小于 0,则表明分布比正态分布更平,通常称为或平峰分布 。