第 1 章 统计与统计数据 一、学习指导 统计学是处理和分析数据的方法和技术,它几乎被应用到所有的学科检验领域。本章首先介绍统计学的含义和应用领域,然后介绍统计数据的类型及其来源,最后介绍统计中常用的一些基本概念。本章各节的主要内容和学习要点如下表所示。
章节 主要内容 学习要点 1.1 统计及其应用领域 什么是统计学 概念:统计学,描述统计,推断统计。
统计的应用领域 统计在工商管理中的应用。
统计的其他应用领域。
1.2 数据的类型 分类数据、顺序数据、数值型数据 概念:分类数据,顺序数据,数值型数据。
不同数据的特点。
观测数据和实验数据 概念:观测数据,实验数据。
截面数据和时间序列数据 概念:截面数据,时间序列数据。
1.3 数据来源 数据的间接来源 统计数据的间接来源。
二手数据的特点。
数据的直接来源 概念:抽样调查,普查。
数据的间接来源。
数据的收集方法。
调查方案设计 调查方案的内容。
数据质量 概念。抽样误差,非抽样误差。
统计数据的质量。
1.4 统计中的几个基本概念 总体和样本 概念:总体,样本。
参数和统计量 概念:参数,统计量。
变量 概念:变量,分类变量,顺序变量,数值型变量,连续型变量,离散型变量。
二、主要术语 1. 统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。
2. 描述统计:研究数据收集、处理和描述的统计学分支。
3. 推断统计:研究如何利用样本数据来推断总体特征的统计学分支。
4. 分类数据:只能归于某一类别的非数字型数据。
5. 顺序数据:只能归于某一有序类别的非数字型数据。
6. 数值型数据:按数字尺度测量的观察值。
7. 观测数据:通过调查或观测而收集到的数据。
8. 实验数据:在实验中控制实验对象而收集到的数据。
9. 截面数据:在相同或近似相同的时间点上收集的数据。
10. 时间序列数据:在不同时间上收集到的数据。
11. 抽样调查:从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法。
12. 普查:为特定目的而专门组织的全面调查。
13. 总体:包含所研究的全部个体(数据)的集合。
14. 样本:从总体中抽取的一部分元素的集合。
15. 样本容量:也称样本量,是构成样本的元素数目。
16. 参数:用来描述总体特征的概括性数字度量。
17. 统计量:用来描述样本特征的概括性数字度量。
18. 变量:说明现象某种特征的概念。
19. 分类变量:说明事物类别的一个名称。
20. 顺序变量:说明事物有序类别的一个名称。
21. 数值型变量:说明事物数字特征的一个名称。
22. 离散型变量:只能取可数值的变量。
23. 连续型变量:可以在一个或多个区间中取任何值的变量。
第 2 章 数据的图表展示 一、学习指导 数据的图表展示是应用统计的基本技能。本章首先介绍数据的预处理方法,然后介绍不同类型数据的整理与图示方法,最后介绍图表的合理使用问题。本章各节的主要内容和学习要点如下表所示。
章节 主要内容 学习要点 2.1 数据的预处理 数据审核 数据审核的目的。
原始数据和二手数据的审核内容。
数据排序 数据排序的目的。
分类数据和数值型数据的排序方法。
数据筛选 数据筛选的目的。
用 Excel 进行数据筛选。
数据透视表 数据透视表的用途。
用 Excel 进行数据透视。
2.2 品质数据的整理与展示 分类数据的整理与图示 概念:频数,频数分布,比例,百分比,比率。
用 Excel 制作分类数据的频数分布表。
分类数据的图示:条形图,帕累托图,对比条形图,饼图。
顺序数据的整理与图示 概念:累积频数,累积频率。
累积频数分布图。
2.3 数值型数据的整理与展示 数据分组 概念:数据分组,单变量值分组,组距分组,等距分组,不等距分组,组距,组中值。
频数分布表的制作步骤。
用 Excel 制作频数分布表。
数值型数据的图示 直方图的绘制。
茎叶图的绘制。
箱线图的绘制。
直方图与条形图的区别。
茎叶图与直方图的区别。
线图的绘制。
散点图的绘制。
气泡图的绘制。
雷达图的绘制。
2.4 合理使用图表 鉴别图形优劣的准则 图形应包括的基本特征。
鉴别图形优劣的准则。
统计表的设计 统计表的结构。
统计表的设计。
二、主要术语 24. 频数:落在某一特定类别(或组)中的数据个数。
25. 频数分布:数据在各类别(或组)中的分配。
26. 比例:一个样本(或总体)中各个部分的数据与全部数据之比。
27. 比率:样本(或总体)中各不同类别数值之间的比值。
28. 累积频数:将各有序类别或组的频数逐级累加起来得到的频数。
29. 数据分组:根据统计研究的需要,将原始数据按照某种标准划分成不同的组别。
30. 组距分组:将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。
31. 组距:一个组的上限与下限的差。
32. 组中值:每一组的下限和上限之间的中点值,即组中值=(下限值+上限值)/2。
33. 直方图:用矩形的宽度和高度(即面积)来表示频数分布的图形。
34. 茎叶图:由“茎”和“叶”两部分组成的、反应原始数据分布的图形。
35. 箱线图:由一组数据的最大值、最小值、中位数和两个四分位数 5 个特征值绘制而成的、反应原始数据分布的图形。
第 3 章 数据的概括性度量 一、学习指导 数据分布的特征可以从三个方面进行描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布偏斜程度和峰度。本章将从数据的不同类型出发,分别介绍集中趋势测度值的计算方法、特点及其应用场合。本章各节的主要内容和学习要点如下表所示。
章节 主要内容 学习要点 3.1 集中趋势的度量 众数 概念:众数。
众数的特点。
中位数和分位数 概念:中位数,四分位数。
中位数和四分位数的特点。
中位数和四分位数的计算。
平均数 概念:平均数,简单平均数,加权平均数,几何平均数。
简单平均数和加权平均数的计算。
平均数的性质。
几何平均数的计算和应用场合。
众数、中位数和平均数的比较 众数、中位数和平均数在分布上的关系。
众数、中位数和平均数的特点及应用场合。
3.2 离散程度的度量 异众比率 概念:异众比率。
异众比率的计算和应用场合。
四分位差 概念:四分位差。
四分位差的计算和应用场合。
方差和标准差 概念:极差,平均差,方差,标准差。
极差的计算和特点。
平均差的计算和特点。
样本方差和标准差的计算。
总体方差和标准差的计算。
相对位置的度量 概念:标准分数。
标准分数的计算和应用。
经验法则。
切比雪夫不等式。
离散系数 概念:离散系数。
离散系数的计算。
离散系数的用途。
3.3 偏态与峰态的度量 偏态及其测度 概念:偏态,偏态系数。
偏态系数的计算。
偏态系数数值的意义。
峰态及其测度 概念:峰态,峰态系数。
峰态系数的计算。
峰态系数数值的意义。
用 Excel 计算描述统计量。
Excel 统计函数的应用。
二、主要术语和公式 (一)主要术语 1. 众数:一组数据中出现频数最多的变量值,用oM 表示。
2. 中位数:一组数据排序后处于中间位置上的变量值,用eM 表示。
3. 四分位数:一组数据排序后处于 25%和 75%位置上的值。
4. 平均数:一组数据相加后除以数据的个数而得到的结果。
5. 几何平均数:
n 个变量值乘积的 n 次方根,用mG 表示。
6. 异众比率:非众数组的频数占总频数的比率。
7. 四分位差:也称为内距或四分间距,上四分位数与下四分位数之差。
8. 极差:也称全距,一组数据的最大值与最小值之差。
9. 平均差:也称平均绝对离差,各变量值与其平均数离差绝对值的平均数。
10. 方差:各变量值与其平均数离差平方的平均数。
11. 标准差:方差的平方根。
12. 标准分数:变量值与其平均数的离差除以标准差后的值。
13. 离散系数:也称为变异系数,一组数据的标准差与其相应的平均数之比。
14. 偏态:数据分布的不对称性。
15. 偏态系数:对数据分布不对称性的度量值。
16. 峰态:数据分布的平峰或尖峰程度。
17. 峰态系数:对数据分布峰态的度量值。
(二)主要公式 名称 公式 中位数 为偶数为奇数n x xn xMn nne12 22121 简单样本平均数 nxxnii 1
加权样本平均数 nf Mxkii i 1 几何平均数 nniinn mx x x x G 12 1
异众比率 imim irffff fV 1
四分位差 L U dQ Q Q
极差 ) min( ) max(i ix x R
简单平均差 nx xMniid1 加权平均差 nf x MMkii id1 简单样本方差 1) (122nx xsnii 简单样本标准方差 1) (12nx xsnii 加权样本方差 1) (122nf x Mskii i 加权样本标准差 1) (12nf x Mskii i 标准分数 sx xzii
离散系数 xsv s
未分组数据的偏态系数 3) 2 )( 1 ( sx xn nnSKi 分组数据的偏态系数 313ki iiM x fSKns 未分组数据的峰态系数 ( ) ( ) ( ) ( )( )( )( )i in n x x x x nKn n n s 24 241 3 11 2 3 分组数据的峰态系数 3) (414nsf x MKkii i
第 4 章 抽样与参数估计 一、学习指导 参数估计是推断统计的重要内容之一,它是在抽样及抽样分布的基础上,根据样本统计量来推断我们所关心的总体参数。本章首先介绍抽样分布的有关知识,然后讨论参数估计的一般问题,最后介绍一个总体参数估计的基本方法和参数估计中样本容量的确定问题。本章各节的主要内容和学习要点如下表所示。
章节 主要内容 学习要点 4.1 抽样与抽样分布 概率抽样方法 概念:简单随机抽样,简单随机样本,重复抽样,不重复抽样,分层抽样,系统抽样,整群抽样。
用 Excel 抽取简单随机样本。
抽样分布 概念:抽样分布,样本均值的抽样分布,样本比例的抽样分布,样本方差的抽样分布。
中心极限定理。
样本均值抽样分布的特征。
样本均值的抽样分布与总体分布的关系。
样本比例抽样分布的形式和特征。
样本方差抽样分布的形式。
4.2 参数估计的一般问题 估计量与估计值 概念:估计量,估计值。
点估计与区间估计 概念:点估计,区间估计,置信区间,置信水平。
置信区间构建的原理。
置信区间的解释。
评价估计量的标准 概念:无偏性,有效性,一致性。
4.3 总体均值的区间估计 正态总体、方差已知,或非正态总体、大样本 正态总体、方差已知时的置信区间。
非正态总体、大样本时的置信区间。
用 Excel 计算给定 的正态分布的临界值。
正态总体、方差未知、小样本 正态总体、方差已知时的小样本置信区间。
正态总体、方差未知时的小样本置信区间。
用 Excel 计算给定 的 t 分布的临界值。
4.4 总体比例的区间估计 总体比例的区间估计 总体比例的置信区间。
4.5 总体方差的区间估计 总体方差的区间估计 总体方差的置信区间。
用Excel计算给定 的2 分布的临界值。
4.6 样本容量的确定 估计总体均值时样本容量的确定 样本容量的计算方法。
估计总体比例时样本容量的确定 样本容量的计算方法。
二、主要术语和公式 (一)主要术语 36. 简单随机抽样:也称纯随机抽样,它是从含有 N 个元素的总体中,抽取 n 个元素作为样本,使得总体中的每一个元素都有相同的机会(概率)被抽中。
37. 简单随机样本:从含有 N 个元素的总体中,抽取 n 个元素作为样本,使得总
体中每一个样本量为 n 的样本都有相同的机会(概率)被抽中。
38. 重复抽样:从总体中抽取一个元素后,把这个元素放回到总体中再抽取第二个元素,直至抽取 n 个元素为止。
39. 不重复抽样:一个元素被抽中后不再放回总体,而是从所剩元素中抽取第二个元素,直到抽取 n 个元素为止。
40. 分层抽样:也称分类抽样,它是在抽样之前先将总体的元素划分为若干层(类),然后从各个层中抽取一定数量的元素组成一个样本。
41. 系统抽样:也称等距抽样或机械抽样,它是先将总体中的各元素按某种顺序排列,并按某种规则确定一个随机起点;然后,每隔一定的间隔抽取一个元素,直至抽取 n 个元素形成一个样本。
42. 整群抽样:先将总体划分成若干群,然后以群作为抽样单位从中抽取部分群,随后再对抽中的各个群中所包含的所有元素进行观察。
43. 抽样分布:在重复选取样本量为 n 的样本时,由样本统计量的所有可能取值形成的相对频数分布。
44. 样本均值的抽样分布:在重复选取样本量为 n 的样本时,由样本均值的所有可能取值形成的相对频数分布。
45. 样本比例抽样分布:在重复选取样本量为 n 的样本时,由样本比例的所有可能取值形成的相对频数分布。
46. 标准误差:也称为标准误,它是样本统计量的抽样分布的标准差。
47. 估计标准误差:若计算标准误时所涉及的总体参数未知,可用样本统计量代替计算的标准误。
48. 估计量:用来估计总体参数的统计量的名称,用符号 ˆ 表示。
49. 估计值:用来估计总体参数时计算出来的估计量的具体数值。
50. 点估计:用样本统计量 ˆ 的某个取值直接作为总体参数 的估计值。
51. 区间估计:在点估计的基础上,给出总体参数估计的一个范围。
52. 置信区间:由样本统计量所构造的总体参数的估计区间。
53. 置信水平:也称为置信系数,它是将构造置信区间的步骤重复多次后,置信区间中包含总体参数真值的次数所占的比率。
(二)主要公式 名称 公式 总体均值的置信区间(正态总体, 已知)
nz x 2
总体均值的置信区间( 未知,大样本)
nsz x2
总体均值的置信区间(正态总体, 未知,小样本)
nst x2
总体比例的置信区间 np pz p) 1 (2 总体方差的置信区间 22 122222) 1 ( ) 1 ( s n s n 估计总体均值时的样本容量 22 22 )(Ezn
估计总体比例时的样本容量 222) 1 ( ) (Ezn
第 5 章 假设检验 一、学习指导 假设检验是推断统计的另一项重要内容,它是利用样本信息判断假设是否成立的一种统计方法。本章首先介绍有关假设检验的一些基本问题,然后介绍一个总体参数的检验方法。本章各节的主要内容和学习要点如下表所。
章节 主要内容 学习要点 5.1 假设检验的基本问题 假设的陈述 概念:假设,假设检验,原假设,备择假设,单侧检验,双侧检验。
针对具体的实际问题,建立合理的原假设和备择假设。
两类错误与显著性水平 概念:第Ⅰ类错误,第Ⅱ类错误,显著性水平。
两类错误的控制。
两类错误的关系。
检验统计量与拒绝域 概念:检验统计量,标准化检验统计量,拒绝域,临界值。
统计量检验的原理。
利用统计量检验的决策准则。
利用 P 值进行决策 概念:
P 值。
P 值决策的原理, P 值的计算。
P 值检验与统计量检验的异同。
P 值决策的准则。
小结 假设检验的步骤。
假设检验结果的表述。
5.2 总体均值的检验 大样本的检验方法 总体方差2已知时,均值检验的统计量和程序。
总体方差2未知时,均值检验的统计量和程序。
用 Excel 计算 P 值。
小样本的检验方法 总体方差2已知时,均值检验的统计量和程序。
总体方差2未知时,均值检验的统计量和程序。
用 Excel 计算 P 值。
5.3 总体比例的检验 总体比例的检验 检验的统计量。
检验的程序。
用 Excel 计算 P 值。
5.4 总体方差的检验 总体方差的检验 检验的统计量。
检验的程序。
用 Excel 计算 P 值。
二、主要术语和公式 (一)主要术语 18. 假设:对总体参数的具体数值所做的陈述。
19. 假设检验:先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。
20. 备择假设:也称研究假设,是研究者想收集证据予以支持的假设,用1H 或aH 表示。
21. 原假设:也称零假设,是研究者想收集证据予以反对的假设,用0H 表示。
22. 单侧检验:也称单尾检验,是指备择假设具有特定的方向性,并含有符号“>”或“<”的假设检验。
23. 双侧检验:也称双尾检验,是指备择假设没有特定的方向性,并含有符号“”的假设检验。
24. 第Ⅰ类错误:当原假设为正确时拒绝原假设,犯第Ⅰ类错误的概率记为 。
25. 第Ⅱ类错误:当原假设为错误时没有拒绝原假设,犯第Ⅱ类错误的概率通常记为 。
26. 显著性水平:假设检验中发生第Ⅰ类错误的概率,记为 。
27. 检验统计量:根据样本观测结果计算得到的,并据以对原假设和备择假设做出决策的某个样本统计量。
28. 拒绝域:能够拒绝原假设的检验统计量的所有可能取值的集合。
29. 临界值:根据给定的显著性水平确定的拒绝域的边界值。
30. P 值:也称观察到的显著性水平,如果原假设0H 是正确的,那么所得的样本结果出现实际观测结果那么极端的概率。
(二)主要公式
名称 公式 总体均值检验的统计量(正态总体, 已知)
nxz/0
总体均值检验的统计量( 未知,大样本)
n sxz/0
总体均值检验的统计量(正态总体, 未知,小样本)
n sxt/0
总体比例检验的统计量 npz) 1 (0 00
总体方差检验的统计量 2022) 1 (s n
第 6 章 方差分析 一、学习指导 本章主要介绍检验多个总体均值是否相等的一种统计方法,即方差分析。它是通过对各观察数据误差来源的分析来判断多个总体均值是否相等。本章首先介绍方差分析中的一些基本问题,包括方差分析中的一些术语、方差分析的基本思想和基本假设,然后介绍单因素方差分析方法,最后介绍方差分析中的多重比较。本章各节的主要内容和学习要点如下表所示。
章节 主要内容 学习要点 6.1 方差分析的基本问题 方差分析及有关术语 概念:方差分析,因子,处理。
方差分析的基本思想和原理 概念:组内误差,组间误差,总平方和,组内平方和,组间平方和。
误差的分解 总平方和、组内平方和、组间平方和的关系。
方差分析中的基本假定 方差分析中的 3 个基本假定。
问题的一般提法 方差分析中假设的提法。
6.2 单因素方差分析 数据结构 概念:单因素方差分析。
数据结构。
分析步骤 概念:总平方和,组内方差,组间方差。
假设的提法。
总平方和、组内方差、组间方差的计算方法。
检验统计量的计算方法。
统计决策。
方差分析表的结构。
用 Excel 进行方差分析。
关系强度的测量 关系强度的测量方法。
6.3 方差分析中的多重比较 方差分析中的多重比较 多重比较的前提。
多重比较的作用。
多重比较的方法。
二、主要术语和公式 (一)主要术语 31. 方差分析( ANOVA):检验多个总体均值是否相等的统计方法。
32. 因素:也称因子,是方差分析中所要检验的对象。
33. 水平:也称处理,是因素的不同表现。
34. 组内误差:来自水平内部的数据误差。
35. 组间误差:来自不同水平之间的数据误差。
36. 总平方和:反映全部数据误差大小的平方和,记为 SST 。
37. 组内平方和:反映组内误差大小的平方和,记为 SSE 。
38. 组间平方和:反映组间误差大小的平方和,记为 SSA 。
39. 单因素方差分析:只涉及一个分类型自变量的方差分析。
40. 组内方差:组内平方和除以相应的自由度。
41. 组间方差:组间平方和除以相应的自由度。
(二)主要公式 名称 公式 组间方差 1 kSSAMSA自由度组间平方和 组内方差 k nSSEMSE 自由度组内平方和 方差分析的检验统计量 FMSAMSEF k n k ~ ( , ) 1
关系强度的测量 ) () (2SS SSTSS SSAR总组间
多重比较的 LSD
)1 1(2j in nMSE t LSD
第 7 章 相关与回归分析 一、学习指导 相关与回归是研究变量之间关系的统计方法,该方法广泛应用于自然科学和社会科学的各个领域。本章首先介绍相关分析方法,然后介绍一元线性回归和多元线性回归分析方法。本章各节的主要内容和学习要点如下表所示。
章节 主要内容 学习要点 7.1 变量间关系的度量 变量间的关系 概念:函数关系,相关关系。
相关关系的特点。
相关关系的描述与测度 概念:相关系数。
相关分析的内容。
散点图的绘制和分析。
相关系数的计算。
相关系数的性质。
相关系数的显著性检验 相关系数检验的目的。
相关系数检验的程序。
7.2 一元线性回归 一元线性回归模型 概念:回归模型,回归方程,估计的回归方程。
回归分析的内容。
回归模型的基本假定。
参数的最小二乘估计 概念:最小二乘法。
0ˆ 和1ˆ 的计算。
1ˆ 的解释。
用 Excel 进行回归。
回归直线的拟合优度 概念:总平方和,回归平方和,残差平方和,判定系数,估计量的标准误差。
判定系数的计算和解释。
判定系数与相关系数的关系。
估计量的标准误差的计算和解释。
显著性检验 线性相关检验的目的。
线性关系显著性检验的程序。
回归系数检验的目的。
回归系数检验的程序。
Excel 输出的回归结果的解释和应用。
利用回归方程进行估计和预测 概念:平均值的点估计,个别值的点估计,平均值的置信区间估计,个别值的预测区间估计。
平均值的点估计和个别值的点估计的区别。
平均值的置信区间估计和个别值的预测区间估计的区别。
点估计和区间估计的计算方法。
7.3 多元线性回归 多元回归模型与回归方程 概念:多元线性回归模型,多元线性回归方程,估计的多元线性回归方程。
偏回归系数的解释。
参数的最小二乘估计 参数的最小二乘估计方法。
用 Excel 进行回归。
回归方程的拟合优度 概念:多重判定系数,修正的多重判定系数,估计标准误差。
判定系数的实际意义。
估计标准误差的实际意义。
Excel 回归结果的解释。
显著性检验 线性关系检验与回归系数检验的区别。
线性关系检验的程序。
回归系数检验的程序。
Excel 回归结果的解释和应用。
二、主要术语和公式 (一)主要术语 42. 相关关系:变量之间存在的不确定的数量关系。
43. 相关系数:也称 Pearson 相关系数,是根据样本数据计算的度量两个变量之间线性关系强度的统计量。
44. 因变量:被预测或被解释的变量,用 y 表示。
45. 自变量:用来预测或用来解释因变量的一个或多个变量,用 x 表示。
46. 回归模型:描述因变量 y 如何依赖于自变量 x 和误差项 的方程。
47. 回归方程:描述因变量 y 的期望值如何依赖于自变量 x 的方程。
48. 估计的回归方程:根据样本数据求出的回归方程的估计。
49. 最小二乘法:也称最小平方法,使因变量的观察值iy 与估计值iy ˆ之间的离差平方和达到最小来求得0ˆ 和1ˆ 的方法。
50. 判定系数:回归平方和占总平方和的比例,记为2R 。
51. 估计量的标准误差:均方残差( MSE )的平方根,用es 来表示。
52. y 的平均值的点估计:利用估计的回归方程,对于 x 的一个特定值0x ,求出 y 的平均值的一个估计值 ) (0y E 。
53. y 的个别值的估计值:利用估计的回归方程,对于 x 的一个特定值0x ,求出 y 的一个个别值的估计值0ˆ y。
54. y 的平均值的置信区间估计:对 x 的一个给定值0x ,求出 y 的平均值的区间估计。
55. y 的个别值的预测区间估计:对 x 的一个给定值0x ,求出 y 的一个个别值的区间估计。
56. 多元线性回归模型:描述因变量 y 如何依赖于自变量kx x x , , , 2 1和误差项 的方程。
57. 多元线性回归方程:描述 y 的期望值如何依赖于kx x x , , , 2 1的方程。
58. 估计的多元线性回归方程:根据样本数据得到的多元线性回归方程的估计。
59. 多重判定系数:在多元回归中,回归平方和占总平方和的比例。
60. 修正的多重判定系数:用模型中自变量的个数和样本量进行调整的多重判定系数,记为2aR 。
(二)主要公式 名称 公式 相关系数 2 2 2 2( ) ( )n xy x yrn x x n y y 相关系数检验的统计量 ) 2 ( ~122 n trnr t
回归方程的截距 x y1 0ˆ ˆ
回归方程的斜率(回归系数)
21 121 1 11ˆ niiniiniiniinii ix x ny x y x n
判定系数 222) () ˆ ( y yy ySSTSSRRii 估计标准误差 2 ˆ( )2 2i iey ySSEsn n 线性关系检验的统计量 1~ ( 2)2SSRF F nSSE n 回归系数检验的统计的统计量 ˆˆ~ ( 2)iit t ns
y 的平均值的置信区间 niiex xx xns t y12202 0) () ( 1ˆ
y 的个别值的预测区间 niiex xx xns t y12202 0) () ( 11 ˆ 修正的多重判定系数 11) 1 ( 12 2 k nnR R
第 8 章 时间序列分析和预测 一、学习指导 分析时间序列数据的主要目的是对未来的观测值进行预测。本章在给出时间序列概念及分类的基础上,首先介绍了时间序列的描述性分析方法,然后介绍了平稳序列和非平稳序列的一些简单预测方法。本章各节的主要内容和学习要点如下表所示。
章节 主要内容 学习要点 8.1 时间序列及其分解 时间序列及其分解 概念:时间序列,平稳序列,非平稳序列,趋势,季节性,周期性,随机性。
时间序列的分解模型。
8.2 时间序列的描述性分析 图形描述 时间序列的图形描述。
增长率分析 概念:
增长率,环比增长率,定基增长率,平均增长率,年度化增长率,增长 1%绝对值。
一般增长率的计算与分析。
平均增长率的计算与分析。
年度化增长率的计算与分析。
增长率分析中应注意的问题。
增长 1%绝对值的计算和应用。
8.3 时间序列的预测程序 确定时间序列的成分 时间序列的预测步骤。
趋势成分的确定方法。
季节性成分的确定方法。
选择预测方法 时间序列的类型和预测方法的 预测方法的评估 概念:平均误差,平均绝对误差,均方误差,平均百分比误差和平均绝对百分比误差。
各种误差的计算方法。
8.4 平稳序列的预测 简单平均法 简单平均法预测。
移动平均法 移动平均法预测。
用 Excel 进行移动平均预测。
指数平滑法 指数平滑法预测。
用 Excel 进行指数平滑预测。
8.5 趋势型序列的预测 线性趋势预测 直线趋势方程的求法。
直线趋势方程预测。
非线性趋势预测 二次曲线预测。
指数趋势预测,指数曲线和直线的区别。
修正指数曲线预测。
龚铂茨曲线预测。
Logistic 曲线预测 8.6 复合型序列的分解预测 确定并分离季节成分 季节指数的计算。
分离季节成分。
建立预测模型并进行预测 建立预测模型。
计算最后的预测值 最终预测值的计算。
二、主要术语和公式 (一)主要术语 61. 时间序列:同一现象在不同时间上的相继观察值排列而成的序列。
62. 平稳序列:基本上不存在趋势的序列。
63. 非平稳序列:包含趋势性、季节性或周期性的序列。
64. 趋势:也称长期趋势,是指时间序列在长时期内呈现出来的某种持续向上或持续下降的变动。
65. 季节性:也称季节变动,是指时间序列在一年内重复出现的周期性波动。
66. 周期性:也称循环波动,是指时间序列中呈现出来的围绕长期趋势的一种波浪形或振荡
式变动。
67. 随机性:也称不规则波动,是指时间序列中除去趋势、周期性和季节性之后的偶然性波动。
68. 增长率:也称增长速度,是指时间序列中报告期观察值与基期观察值之比减 1 后的结果,用%表示。
69. 平均增长率:也称平均发展速度,是指时间序列中各逐期环比值(也称环比发展速度)的几何平均数减 1 后的结果。
70. 增长 1%绝对值:增长率每增长一个百分点而增加的绝对数量。
71. 简单平均法预测:根据过去已有的 t 期观察值通过简单平均来预测下一期的数值。
72. 移动平均法预测:通过对时间序列逐期递移求得平均数作为预测值的一种预测方法。
73. 指数平滑法预测:对过去的观察值加权平均进行预测的一种方法,该方法使得第 t +1期的预测值等于 t 期的实际观察值与第 t 期指数预测值的加权平均值。
(二)主要公式 名称 公式 环比增长率 11 iiiYYG
定基增长率 10 00 YYYY YGi ii 平均增长率 1 10 1 1201 nnnnnYYYYYYYYG
年度化增长率 1 ) (1 n miiAYYG
平均预测误差 nF YMEnii i 1) ( 平均绝对预测误差 nF YMADi i
均方预测误差 nF YMSEnii i 12) ( 平均百分比预测误差 nYF YMPEii i100
简单平均法预测 tii t tYtY Y YtF12 1 11) (1
移动平均法预测 kY Y Y YY Ft t k t k tt t 1 2 11 指数平滑法预测 t t tF Y F ) 1 (1 线性趋势方程的截距和斜率 2 2( )n tY t Ybn t ta Y bt 二次曲线的标准方程组 4 3 2 23 22t c t b t a Y tt c t b t a tYt c t b na Y 指数曲线的标准方程组 2lg lg lglg lg lgt b t a Y tt b a n Y 修正指数曲线的未知数 1) 1 ( 1) 1 (1) (121 211 22 3bb abSmKb bbS S aS SS Sbmmm 龚铂茨曲线的未知数 abb bSmKb bbS S aS SS Sbmmmlg1) 1 ( 1lg) 1 (1) ( lg121 211 22 3
Logistic 曲线未知数 1) 1 ( 1) 1 (1) (121 211 22 3bb abSmKb bbS S aS SS Sbmmm
第 9 章 指数 一、学习指导 指数是应用于经济领域的一种特殊统计方法。本章首先介绍指数的概念和分类,然后介绍加权指数的编制方法,最后介绍实际中几种常用的价格指数。本章各节的主要内容和学习要点如下表所示。
章节 主要内容 学习要点 9.1 引言 指数的概念和分类 概念:指数,个体指数,综合指数,简单指数,加权指数,时间性指数,区域性指数。
9.2 加权指数 加权综合指数 概念:加权综合指数。
加权综合指数的编制。
加权平均指数 概念:加权平均指数。
加权平均指数的编制。
价值指数与指数体系 概念:价值指数,指数体系。
指数体系的应用。
9.3 几种常用的价格指数 几种常用的价格指数 概念:零售价格指数,居民消费价格指数,生产价格指数,股票价格指数。
零售价格指数和居民消费价格指数的区别。
居民消费价格指数的作用。
二、主要术语和公式 (一)主要术语 74. 指数:测定多个项目在不同场合下综合变动的相对数。
75. 加权综合指数:通过加权来测定一组项目的综合变动状况的指数。
76. 加权平均指数:以某一时期的价值总量为权数对个体指数加权平均计算的指数。
77. 价值指数:由两个不同时期的价值总量对比形成的指数。
78. 指数体系:由价值指数及其若干个因素指数构成的数量关系式。
79. 零售价格指数:反映城乡商品零售价格变动趋势的一种经济指数。
80. 居民消费价格指数:反映一定时期内城乡居民所购买的生活消费品价格和服务项目价格的变动趋势和程度的一种相对数。
81. 生产价格指数:测量在初级市场上所售货物(即在非零售市场上首次购买某种商品时)价格变动的一种价格指数。
82. 股票价格指数:是反映某一股票市场上多种股票价格变动趋势的一种相对数。
(二)主要公式 名称 公式 加权综合价格指数 1 01 1q pq pIp 加权综合销售量指数 0 01 0q pq pI q 加权平均价格指数 1 10 11 11q pp pq pI p
加权平均销售量指数 0 00 001q pq pqqI q
价值指数 0 01 1q pq pv
附录:教材各章习题答案 第 第 1 章 统计与统计数据 1.1 (1)数值型数据;(2)分类数据;(3)数值型数据;(4)顺序数据;(5)分类数据。
1.2 (1)总体是“该城市所有的职工家庭”,样本是“抽取的 2000 个职工家庭”;(2)城市所有职工家庭的年人均收入,抽取的“2000 个家庭计算出的年人均收入。
1.3 (1)所有 IT 从业者;(2)数值型变量;(3)分类变量;(4)观察数据。
1.4 (1)总体是“所有的网上购物者”;(2)分类变量;(3)所有的网上购物者的月平均花费;(4)统计量;(5)推断统计方法。
1.5 (略)。
1.6 (略)。
第 第 2 章 数据的图表展示 2.1 (1)
属于顺序数据。
(2)频数分布表如下 服务质量等级评价的频数分布 服务质量等级 家庭数/频率 频率/% A 14 14 B 21 21 C 32 32 D 18 18 E 15 15 合计 100 100
(3)条形图(略)
(4)帕累托图(略)。
2.2 (1)频数分布表如下 40 个企业按产品销售收入分组表 按销售收入分组 /万元 企业数 /个 频率 /% 向上累积 向下累积 企业数 频率 企业数 频率 100 以下 100~110 110~120 120~130 130~140 140 以上 5 9 12 7 4 3 12.5 22.5 30.0 17.5 10.0 7.5 5 14 26 33 37 40 12.5 35.0 65.0 82.5 92.5 100.0 40 35 26 14 7 3 100.0 87.5 65.0 35.0 17.5 7.5 合计 40 100.0 — — — —
(2)某管理局下属 40 个企分组表 按销售收入分组/万元 企业数/个 频率/% 先进企业 良好企业 一般企业 落后企业 11 11 9 9 27.5 27.5 22.5 22.5 合计 40 100.0 2.3 频数分布表如下 某百货公司日商品销售额分组表 按销售额分组/万元 频数/天 频率/% 25~30 30~35 35~40 40~45 45~50 4 6 15 9 6 10.0 15.0 37.5 22.5 15.0 合计 40 100.0
直方图(略)。
2.4 茎叶图如下 茎 叶 数据个数 1 8 8 9
3 2 0 1 1 3 3 6 8 8 8 9 9 9 12 3 1 3 5 6 9
5 4 1 2 3 6 6 7
6 5 0 1 2 7
4
箱线图(略)。
2.5 (1)排序略。
(2)频数分布表如下
100 只灯泡使用寿命非频数分布 按使用寿命分组/小时 灯泡个数/只 频率/% 650~660 2 2 660~670 5 5 670~680 6 6 680~690 14 14 690~700 26 26 700~710 18 18 710~720 13 13 720~730 10 10 730~740 3 3 740~750 3 3 合计 100 100
(3)直方图(略)。
(4)茎叶图如下 茎 叶 65 1 8
66 1 4 5 6 8
67 1 3 4 6 7 9
68 1 1 2 3 3 3 4 5 5 5 8 8 9 9
69 0 0 1 1 1 1 2 2 2 3 3 4 4 5 5 6 6 6 7 7 8 8 8 8 9 9 70 0 0 1 1 2 2 3 4 5 6 6 6 7 7 8 8 8 9
71 0 0 2 2 3 3 5 6 7 7 8 8 9
72 0 1 2 2 5 6 7 8 9 9
73 3 5 6
74 1 4 7
2.6 (1)频数分布表如下 按重量分组 频率/包 40~42 2 42~44 3 44~46 7 46~48 16
48~50 17 52~52 10 52~54 20 54~56 8 56~58 10 58~60 4 60~62 3 合计 100 (2)直方图(略)。
(3)食品重量的分布基本上是对称的。
2.7 (1)频数分布表如下 按重量误差分组 频数/个 10~20 0 20~30 5 30~40 7 40~50 8 50~60 13 60~70 9 70~80 6 80~90 2 合计 50
(2)直方图(略)。
2.8 (1)属于数值型数据。
(2)分组结果如下 分组 天数/天 -25~-20 6 -20~-15 8 -15~-10 10 -10~-5 13 -5~0 12 0~5 4 5~10 7 合计 60
(3)直方图(略)。
2.9 (1)直方图(略)。
(2)自学考试人员年龄的分布为右偏。
2.10 (1)茎叶图如下 A 班 树茎 B 班 数据个数 树 叶
树叶 数据个数 0
3 59 2 1 4 4 0448 4 2 97 5 122456677789 12 11 97665332110 6 011234688 9 23 98877766555554443332100 7 00113449 8
7 6655200 8 123345 6 6 632220 9 011456 6 0
10 000 3 (2)A 班考试成绩的分布比较集中,且平均分数较高;B 班考试成绩的分布比 A 班分散, 且平均成绩较 A 班低。
2.11 (略)。
2.12 (略)。
2.13 (略)。
2.14 (略)。
2.15 箱线图如下:(特征请读者自己分析)
Min-Max25%-75%Median value各城市相对湿度箱线图35455565758595北京 长春 南京 郑州 武汉 广州 成都 昆明 兰州 西安 第 第 3 章 数据的概括性度量 3.1
(1)
100 M ; 10 eM ; 6 . 9 x 。
(2)
5 . 5 LQ ; 12 UQ 。
(3)
2 . 4 s 。
(4)左偏分布。
3.2
(1)190 M;23 eM。
(2)
5 . 5 LQ ; 12 UQ 。
(3)
24 x ; 65 . 6 s 。
(4)
08 . 1 SK ; 77 . 0 K 。
(5)略。
3.3
(1)略。
(2)
7 x ; 71 . 0 s 。
(3)
102 . 01 v ; 274 . 02 v 。
(4)选方法一,因为离散程度小。
3.4
(1)
x =274.1(万元);Me=272.5 。
(2)Q L =260.25;Q U =291.25。
(3)
17 . 21 s (万元)。
3.5
甲企业平均成本=19.41(元),乙企业平均成本=18.29(元);原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。
3.6
(1)
x =426.67(万元);48 . 116 s(万元)。
(2)
203 . 0 SK ; 688 . 0 K 。
3.7
(1)(2)两位调查人员所得到的平均身高和标准差应该差不多相同,因为均值和标准差的大小基本上不受样本大小的影响。
(3)具有较大样本的调查人员有更大的机会取到最高或最低者,因为样本越大,变化的范围就可能越大。
3.8
(1)女生的体重差异大,因为女生其中的离散系数为 0.1 大于男生体重的离散系数 0.08。
(2)
男生:
x =27.27(磅), 27 . 2 s (磅);
女生:
x =22.73(磅), 27 . 2 s (磅);
(3)68%; (4)95%。
3.9
通过计算标准化值来判断,1 Az,5 . 0 Bz,说明在A项测试中该应试者比平均分数高 出 1 个标准差,而在 B 项测试中只高出平均分数 0.5 个标准差,由于 A 项测试的标准化值高于 B 项测试,所以 A 项测试比较理想。
3.10
通过标准化值来判断,各天的标准化值如下表 日期 周一 周二 周三 周四 周五 周六 周日 标准化值 Z 3 -0.6 -0.2 0.4 -1.8 -2.2 0 周一和周六两天失去了控制。
3.11
(1)离散系数,因为它消除了不同组数据水平高地的影响。
(2)成年组身高的离散系数:
024 . 01 . 1722 . 4 sv ;
幼儿组身高的离散系数:
032 . 03 . 713 . 2 sv ;
由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。
3.12
下表给出了一些主要描述统计量,请读者自己分析。
方法 A
方法 B
方法 C
平均 165.6 平均 128.73 平均 125.53 中位数 165 中位数 129 中位数 126 众数 164 众数 128 众数 126 标准偏差 2.13 标准偏差 1.75 标准偏差 2.77 极差 8 极差 7 极差 12 最小值 162 最小值 125 最小值 116 最大值 170 最大值 132 最大值 128 3.13
(1)方差或标准差;(2)商业类股票;(3)(略)。
第 第 4 章 抽样与参数估计 4.1 (1)200。(2)5。(3)正态分布。(4)
) 1 100 (2 。
4.2 (1)32。(2)0.91。
4.3 0.79。
4.4 (1)
) 2 , 17 ( ~225N x 。(2)
) 1 , 17 ( ~100N x 。
4.5 (1)1.41。(2)1.41,1.41,1.34。
4.6 (1)0.4。(2)0.024
。(3)正态分布。
4.7 (1)0.050,0.035,0.022,016。(2)当样本量增大时,样本比例的标准差越来越小。
4.8 (1)
14 . 2 x ;(2)E=4.2;(3)(115.8,124.2)。
4.9 (87819,121301)。
4.10(1)81±1.97;(2)81±2.35;(3)81±3.10。
4.11(1)(24.11,25.89);(2)(113.17,126.03);(3)(3.136,3.702)
4.12(1)(8687,9113);(2)(8734,9066);(3)(8761,9039);(4)(8682,9118)。
4.13(2.88,3.76);(2.80,3.84);(2.63,4.01)。
4.14(7.1,12.9)。
4.15(7.18,11.57)。
4.16(1)(148.9,150.1);(2)中心极限定理。
4.17(1)(100.9,123.7);(2)(0.017,0.183)。
4.18(15.63,16.55)。
4.19(10.36,16.76)。
4.20(1)(0.316,0.704);(2)(0.777,0.863);(3)(0.456,0.504)。
4.21(18.11%,27.89%);(17.17%,22.835)。
4.22167。
4.23(1)2522;(2)601;(3)268。
4.24(1)(51.37%,76.63%);(2)36。
4.25(1)(2.13,2.97);(2)(0.015,0.029);(3)(25.3,42.5)。
4.26(1)(0.33,0.87);(2)(1.25,3.33);(3)第一种排队方式更好。
4.27 48。
4.28 139。
第 第 5 章
假设检验 5.1 研究者想要寻找证据予以支持的假设是“新型弦线的平均抗拉强度相对于以前提高了”,所以原假设与备择假设应为:
1035 :0 H , 1035 :1 H 。
5.2 =“某一品种的小鸡因为同类相残而导致的死亡率”, 04 . 0 :0 H ,04 . 0 :1 H 。
5.3 65 :0 H , 65 :1 H 。
5.4 (1)第一类错误是该供应商提供的这批炸土豆片的平均重量的确大于等于60 克,但检验结果却提供证据支持店方倾向于认为其重量少于 60 克; (2)第二类错误是该供应商提供的这批炸土豆片的平均重量其实少于60克,但检验结果却没有提供足够的证据支持店方发现这一点,从而拒收这批产品; (3)连锁店的顾客们自然看重第二类错误,而供应商更看重第一类错误。
5.5 (1)检验统计量n sxz/ ,在大样本情形下近似服从标准正态分布; (2)如果05 . 0z z ,就拒绝0H ; (3)检验统计量 z =2.94>1.645,所以应该拒绝0H 。
5.6 z =3.11,拒绝0H 。
5.7 66 . 1 t ,不拒绝0H 。
5.8 39 . 2 z ,拒绝0H 。
5.9 04 . 1 t ,不拒绝0H
5.10 44 . 2 z ,拒绝0H 。
5.11 z =1.93,不拒绝0H 。
5.12 z =7.48,拒绝0H 。
5.132 =206.22,拒绝0H 。
5.14 42 . 2 F ,拒绝0H 。
第 第 6 章
方差分析 6.1
0215 . 8 6574 . 401 . 0 F F (或 01 . 0 0409 . 0 value P ),不能拒绝原假设。
6.2 579 . 4 8234 . 1501 . 0 F F (或 01 . 0 00001 . 0 value P ),拒绝原假设。
6.3 4170 . 5 0984 . 1001 . 0 F F (或 01 . 0 000685 . 0 value P ),拒绝原假设。
6.4 6823 . 3 7557 . 1105 . 0 F F (或 05 . 0 000849 . 0 value P ),拒绝原假设。
6.5
8853 . 3 0684 . 1705 . 0 F F (或 05 . 0 0003 . 0 value P ),拒绝原假设。
85 . 5 4 . 14 30 4 . 44 LSD x xB A,拒绝原假设; 85 . 5 8 . 1 6 . 42 4 . 44 LSD x xC A,不能拒绝原假设; 85 . 5 6 . 12 6 . 42 30 LSD x xC B,拒绝原假设。
6.6 方差分析表中所缺的数值如下表:
差异源 SS df MS F P-value F crit 组间 420 2 210 1.478 0.245946 3.354131 组内 3836 27 142.07 — — — 总计 4256 29 — — — — 554131 . 3 478 . 105 . 0 F F (或 05 . 0 245946 . 0 value P ),不能拒绝原假设。
第 第 7 章
相关与回归分析 7.1
(1)散点图(略),产量与生产费用之间正的线性相关关系。
(2)
920232 . 0 r 。
(3)检验统计量 2281 . 2 4222 . 142 t t ,拒绝原假设,相关系数显著。
7.2
(1)散点图(略)。
(2)
8621 . 0 r 。
7.3
(1)0ˆ 表示当 0 x 时 y 的期望值。
(2)1ˆ 表示 x 每变动一个单位 y 平均下降 0.5 个单位。
(3)
7 ) ( y E 。
7.4
(1)
% 902 R 。
(2)
1 es 。
7.5
(1)散点图(略)。
(2)
9489 . 0 r 。
(3)
x y 00358 . 0 1181 . 0 ˆ 。回归系数 00358 . 0ˆ 1 表示运送距离每增加 1公里,运送时间平均增加 0.00358 天。
7.6
(1) 散点图(略)。二者之间为高度的正线性相关关系。
(2)
998128 . 0 r ,二者之间为高度的正线性相关关系。
(3)估计的回归方程为:
x y 308683 . 0 6928 . 734 ˆ 。回归系数 308683 . 0ˆ 1
表示人均 GDP 每增加 1 元,人均消费水平平均增加 0.308683 元。
(4)判定系数 996259 . 02 R 。表明在人均消费水平的变差中,有 99.6259%是由人均 GDP 决定的。
(5)检验统计量 61 . 6 692 . 1331 F F ,拒绝原假设,线性关系显著。
(6)
1078 . 2278 5000 308683 . 0 6928 . 734 ˆ 5000 y (元)。
(7)置信区间:[1990.749,2565.464];预测区间:[1580.463,2975.750]。
7.7
(1)
散点图(略),二者之间为负的线性相关关系。
(2)估计的回归方程为:
x y 7 . 4 1892 . 430 ˆ 。回归系数 7 . 4ˆ 1 表示航班正点率每增加 1%,顾客投诉次数平均下降 4.7 次。
(3)检验统计量 3060 . 2 959 . 42 t t (P-Value=0.001108< 05 . 0 ),拒绝原假设,回归系数显著。
(4)
1892 . 54 80 7 . 4 1892 . 430 ˆ 80 y (次)。
(5)置信区间:(37.660,70.619);预测区间:(7.572,100.707)。
7.8
Excel 输出的结果如下(解释与分析请读者自己完成)
Multiple R 0.7951
R Square 0.6322
Adjusted R Square 0.6117
标准误差 2.6858
观测值 20
方差分析
df SS MS F Significance F
回归分析 1 223.1403 223.1403 30.9332 2.79889E-05
残差 18 129.8452 7.2136
总计 19 352.9855
Coefficients 标准误差 t Stat P-value Lower 95% Upper 95% Intercept 49.3177 3.8050 12.9612 0.0000 41.3236 57.3117 X Variable 1 0.2492 0.0448 5.5618 0.0000 0.1551 0.3434 7.9
(1)方差分析表中所缺的数值如下
方差分析表 变差来源 df SS MS F Significance F 回归 1 1422708.6 1422708.6 354.277 2.17E-09 残差 10 40158.07 4015.807 — — 总计 11 1642866.67 — — — (2)
% 60 . 86 8660 . 067 . 164286660 . 14227082 SSTSSRR 。表明汽车销售量的变
差中有 86.60%是由于广告费用的变动引起的。
(3)
9306 . 0 8660 . 02 R r 。
(4)
x y 420211 . ...