当前位置:城玮文档网 >作文大全 > 【高分复习笔记】袁卫《统计学》(第3版)笔记和课后习题(含考研真题)详解

【高分复习笔记】袁卫《统计学》(第3版)笔记和课后习题(含考研真题)详解

时间:2022-08-14 18:55:03 来源:网友投稿

 目录 内容简介 目 录 第1章

 数据与统计学 1.1

 复习笔记 1.2

 课后习题详解 1.3

 考研真题与典型习题详解 第2章

 统计数据的描述 2.1

 复习笔记 2.2

 课后习题详解 2.3

 考研真题与典型习题详解 第3章

 概率、概率分布与抽样分布 3.1

 复习笔记 3.2

 课后习题详解 3.3

 考研真题与典型习题详解 第4章

 参数估计 4.1

 复习笔记 4.2

 课后习题详解 4.3

 考研真题与典型习题详解 第5章

 假设检验 5.1

 复习笔记 5.2

 课后习题详解 5.3

 考研真题与典型习题详解 第6章

 方差分析与实验设计 6.1

 复习笔记 6.2

 课后习题详解 6.3

 考研真题与典型习题详解 第7章

 相关与回归分析 7.1

 复习笔记 7.2

 课后习题详解 7.3

 考研真题与典型习题详解

 第8章

 时间序列分析与预测 8.1

 复习笔记 8.2

 课后习题详解 8.3

 考研真题与典型习题详解 第9章

 统计指数 9.1

 复习笔记 9.2

 课后习题详解 9.3

 考研真题与典型习题详解 第10章

 国民经济统计基础知识 10.1

 复习笔记 10.2

 课后习题详解 10.3

 考研真题与典型习题详解

 第 第1 章

 数据与统计学 1.1

 复习笔记 一、统计数据与统计学 1统计学的概念 统计学是研究如何搜集数据、整理数据、分析数据,以便从中做出正确推断的认识方法论科学。实际上,它是一门方法论的科学而不是实质性科学。

 2.统计学和统计数据的关系 统计学是由收集、整理、显示和分析统计数据的方法组成的,这些方法来源于对统计数据的研究,目的也在于对统计数据的研究。离开了统计数据,统计方法乃至统计学就失去了其存在的意义。

 二、统计学的产生和发展 最早的统计是作为国家重要事项的记录,从统计的产生和发展过程来看,可以把统计学划分为三个时期:一是统计学的萌芽时期,主要有国势学派和政治算术学派;二是统计学的近代时期,主要有数理统计学派和社会统计学派;三是统计学的现代期,主要表现为统计学吸收数学营养的程度越来越迅速;统计学向其他学科领域渗透的能力越来越强;统计学的应用日趋广泛和深入,所发挥的功效日益增强。

 三、统计学的内容 统计学的内容由描述统计和推断统计组成。描述统计是用图形、表格和概括性的数字对数据进行描述的统计方法。推断统计是根据样本信息对总体进行估计、假设检验、预测或其他推断的统计方法。推断统计主要有两种类型,即参数估计和假设检验。

 四、统计数据的来源

 统计数据来源于直接组织的调查、观察和科学试验,称之为第一手数据或直接的数据;或者来源于已有的数据,称之为第二手数据或间接的数据。

 五、统计数据的质量 1抽样误差是由于抽样的随机性引起的样本结果与总体真值之间的误差。这种误差虽然不可避免,但是可以控制。

 2.非抽样误差是相对于抽样误差而言的,是指除了抽样误差之外的,由于其他原因引起的样本观察值与总体真值之间的差异。非抽样误差特别是其中的系统偏差是可以避免,但如果不注意,这类误差造成的结果对调查质量来说是致命的。

 六、统计学的基本概念 1总体:是指包含所研究的全部个体的集合。

 2.变量:是说明现象某种特征的概念,特点是从一次观察到下一次观察结果会呈现出差别或变化。

 3.样本:是指从总体中抽取的一部分元素的集合。

 1.2

 课后习题详解 1什么是统计学?怎样理解统计学与统计数据的关系? 答:统计学是一门收集、整理、显示和分析统计数据的科学,其目的是探索数据内在的数量规律性。

 统计学是由收集、整理、显示和分析统计数据的方法组成的,这些方法来源于对统计数据的研究,目的也在于对统计数据的研究。离开了统计数据,统计方法乃至统计学就失去了其存在的意义。

 2试举出日常生活或工作中统计数据及其规律性的例子。

 答:(1)对人类性别比例的调查,新生婴儿男女性别比为105:100,如果没有人为的干扰,其规律是婴幼儿时男性略多于女性,中青年时男女人数大致相同,老年时女性又略多于男性。

 (2)施肥量与粮食产量之间的数量关系的调查研究,其规律性为某种粮食作物的产量会随某种施肥量的增加而增加。当开始增加施肥量时,产量增加较快,以后增加同样的施肥量,粮食产量的增加量逐渐减少。当施肥量增加到一定数值量,产量不再增加。这时如果再增加肥料,产量反而会减少。

 (3)商品广告费用与销售额的关系的调查,其规律性为:随着广告费用的增加,商品的知名度和销售额会相应增加。

 3简要说明统计数据的来源。

 答:统计数据的来源大致分为两种,其中来源于直接组织的调查、观察和科学试验的数据,称为第一手数据或直接的数据;来源于已有的数据,称为第二手数据或间接的数据。

 4获取直接统计数据的渠道主要有哪些? 答:(1)对于社会经济管理和决策而言,主要是通过统计调查的方式获取数据,如客户满意度调查、电视收视率调查、家庭收支情况调查、居民闲暇时间利用调查等。

 (2)在自然科学和工程的研究领域,通常是通过科学实验的方法获得研究的统计数据。

 5简要说明抽样误差和非抽样误差。

 答:(1)抽样误差是利用样本推断总体时产生的误差。抽样误差对任何一个随机样本来讲都是不可避免的,但它又是可以计量的,并且是可以控制的。在坚持随机原则的条件下,一般来讲,样本量越大,抽样误差就越小。

 (2)非抽样误差是由于调查过程中各有关环节工作失误造成的。它包括调查方案中有关规定或解释不明确所导致的填报错误、抄录错误、汇总错误,不完整的抽样框导致的误差,调查中由于被调查者不回答产生的误差等。非抽样误差在普查、抽样调查中都可能发生。从理论上看,这类误差是可以避免的。

 6一家大型油漆零售商收到了客户关于油漆罐分量不足的许多抱怨。因此,他们开始检查供货商的集装箱,有问题的将其退回。最近的一个集装箱装的是2440加仑的油漆罐。这家零售商抽查了50罐油漆,每一罐的质量精确到4位小数。装满的油漆罐应为4.536kg。要求:

 (1)描述总体; (2)描述研究变量; (3)描述样本; (4)描述推断。

 答:(1)总体是“最近的一个集装箱装的2440加仑的油漆罐”; (2)研究变量是“每一罐的质量”; (3)样本是“抽查的50罐油漆”; (4)根据样本信息对总体进行估计、假设检验,从而推断油漆罐分量是否充足。

 7“可乐战”是描述市场上“可口可乐”与“百事可乐”激烈竞争的一个流行术语。这场战役因影视明星、体育明星的参与以及消费者对品尝试验优先权的抱怨而颇具特色。假定作为百事可乐营销战役的一部分,选择了1000名消费者进行匿名性质的品尝试验(即在品尝试验中,两个品牌不做外观标记),请每一名被测试者说出A品牌或B品牌中哪个口味更好。要求:

 (1)描述总体; (2)描述研究变量; (3)描述样本; (4)描述推断。

 答:(1)总体是“市场上所有的可口可乐与百事可乐消费者”; (2)研究变量是“消费者偏爱的可乐口味”; (3)样本是“抽取的1000名消费者”; (4)推断是①A品牌口味更好;②B品牌口味更好。

 1.3

 考研真题与典型习题详解 一、单项选择题 1对由实验或调查而得到的数据进行登记、审核、整理、归类,计算出各种反映总体数量特征的综合指标,并加以分析,从中抽出有用的信息,用表格或图形表示出来。这种方法属于(

  )。

 A.统计观察法

  B.统计描述法

  C.统计推断法

  D.参数估计法 【答案】B 【解析】描述统计学是研究为了反映客观现象总体的数量特征,采用的数据采集方法、数据加工整理方法、数据综合分析方法,计算各项指标反映数据的构成和分布,以及用一定形式的表式和图形把结果显示出来等等。而推断统计学是在概率论的基础上研究由随机样本的数量特征信息来推断总体的数量特征,并做出具有一定可靠程度的估计或检验,包括参数估计和假设检验两个大类。

 2普查是为了某种特定的目的而(

  )。

 A.专门组织的一次性全面调查 B.专门组织的经常性全面调查 C.非专门组织的经常性全面调查 D.非专门组织的一次性全面调查 【答案】A 【解析】普查是专门组织的一次性的全面调查,用来调查属于一定时点上或时期内的现象的总量。它比任何其他调查方式所搜集的资料都更全面、更系统,但普查涉及千家万户,所花费的时间、人力、财力和物力都极其可观,因而只能间隔较长时间进行一次,而两次普查之间的年份以抽样调查方法获得连续的统计数据。

 3下列不属于描述统计问题的是(

  )。

 A.根据样本信息对总体进行的推断 B.了解数据分布的特征 C.分析感兴趣的总体特征 D.利用图、表或其他数据汇总工具分析数据 【答案】A

 【解析】统计统计学的内容由描述统计和推断统计组成。其中,描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法;推断统计是研究如何利用样本数据来推断总体特征的统计方法。根据样本信息对总体进行的推断属于推断统计。A项属于推断统计的内容。

 4下列叙述中,采用推断统计方法的是(

  )。

 A.用饼图描述某企业职工的学历构成 B.反映大学生统计学成绩的条形图 C.一个城市在1月份的平均汽油价格 D.从一个果园中采摘36个橘子,利用这36个橘子的平均重量估计果园中橘子的平均重量 【答案】D 【解析】推断统计是根据样本信息对总体进行估计、假设检验、预测或其他推断的统计方法。D项,根据36个橘子的平均重量估计果园中橘子的平均重量属于推断统计方法。ABC三项属于描述统计的内容。

 5如果一个样本因人故意操纵而出现偏差,这种误差属于(

 )。

 A.抽样误差

  B.非抽样误差 C.设计误差

  D.实验误差 【答案】B 【解析】非抽样误差是由于调查过程中各有关环节工作失误造成的。它包括调查方案中有关规定或解释不明确所导致的填报错误、抄录错误、汇总错误,不完整的抽样框导致的误差,人为干扰造成的误差,调查中由于被调查者不回答产生的误差等。

 6下列说法错误的是(

 )。

 A.抽样误差只存在于概率抽样中 B.非抽样误差只存在于非概率抽样中 C.无论是概率抽样还是非概率抽样都存在非抽样误差 D.在全面调查中也存在非抽样误差 【答案】B 【解析】抽样误差是由于抽样的随机性引起的样本结果与总体真值之间的误差;非抽样误差是相对抽样误差而言的,是指除抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。抽样误差是一种随机误差,只存在于概率抽样中,非抽样误差则不同,无论是概率抽样、非概率抽样,或是在全面性调查中,都有可能产生非抽样误差。

  7对电视机的平均寿命进行调查,应该采用(

  )。

 A.普查 B.重点调查 C.典型调查

 D.抽样调查 【答案】D

 8要了解某市工业企业生产设备情况,则统计总体是(

  )。

 A.该市全部工业企业

  B.该市每一个工业企业 C.该市工业企业的每一台设备

  D.该市工业企业的全部生产设备 【答案】D 【解析】总体是人们研究的所有基本单位(通常是人、物体、交易或事件)的总和。要了解某市工业企业生产设备情况,则统计总体应该为该市工业企业的全部生产设备。C项是一个个体。

 9为了估计全国高中学生的平均身高,从20个城市选取了100所中学进行调查。在该项研究中,样本是(

 )。

 A.100所中学 B.20个城市 C.全国的高中学生 D.100所中学的高中学生 【答案】D 【解析】样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量。抽样的目的是根据样本的信息推断总体的特征。从20个城市选取了100所中学进行调查,这100所中学的高中学生就构成了一个样本。

 二、多项选择题 1经济普查是(

 )。

 A.专门调查 B.一次性调查 C.全面调查 D.非全面调查 【答案】ABC 【解析】普查是专门组织的一种全面调查,它主要用以搜集某些不能或不宜用定期报表搜集的统计资料。我国的周期性普查制度包括人口普查、农业普查和经济普查。

 2搜集数据的组织方式有(

 )。

 A.普查

  B.抽样调查

  C.重点调查

  D.统计报表制度 E.系统抽样 【答案】ABCDE

 3推断统计的两种主要类型是(

  )。

 A.参数估计

  B.预测

  C.决策

  D.假设检验

  E.描述统计 【答案】AD 【解析】推断统计是根据样本信息对总体进行估计、假设检验、预测或其他推断的统计方法,推断统计的两种主要类型是参数估计和假设检验。

 三、判断题 1统计学是一门以大量现象的数量方面为其研究对象的认识方法论科学。(

 )

 【答案】√ 【解析】统计学是一门收集、整理、显示和分析统计数据的科学,其目的是探索数据内在的数量规律性。

 统计学的研究对象是客观现象总体数量的数量特征和数量关系。

 2第二手数据可以通过抽样调查获得。(

  )

 【答案】× 【解析】抽样调查获得的数据属于第一手数据;第二手数据是来源于已知的数据,不需要调查即可利用的数据。

 3我国的人口普查和经济普查都是每10年进行一次。(

 )

 【答案】× 【解析】我国的人口普查是每10年进行一次,在逢0的年份实施;经济普查是每5年进行一次,分别是在逢3、逢8的年份实施。

 4对某家公司进行审计,该公司年度内的所有发票是55400张,审计人员从中随机抽查了100张发票进行审查,发现有2张发票有差错。则总体是100张发票,样本是2张发票。(

 )

 【答案】× 【解析】总体是指包含所研究的全部个体的集合。样本是指从总体中抽取的一部分元素的集合。该题中总体是55400张发票,样本是100张发票。

 四、简答题

 1描述统计学和推断统计学的关系是什么? 答:描述统计学是用图形、表格和概括性的数字对数据进行描述的统计方法的统计学。推断统计学是根据样本信息对总体进行估计、假设检验、预测或其他推断的统计方法的统计学。描述统计是整个统计学的基础和统计研究工作的第一步。推断统计是现代统计学的核心和统计研究工作的关键环节。如果没有描述统计收集可靠的数据并提供有效的样本信息,即使很高明的统计学家和很科学的推断方法也难以得出准确的结论。因而,推断统计对描述统计又有很强的依赖性。

 2分别简述统计总体与样本的含义及其特点。

 答:(1)总体 ①总体的含义 总体是指人们研究的所有基本单位(通常是人、物体、交易或事件)的总和。每一个总和都包括了研究总体的所有单位。

 ②总体的特点 a.同质性。构成总体的各个单位必须具有某一方面的共性,这个共性是我们确定总体范围的标准; b.大量性。总体是由许多单位所组成的,而不是只有个别单位; c.差异性。总体单位之间,除了必须在某一方面有共性之外,在其他方面必然存在差异。

 (2)样本 ①样本的含义 从总体中抽取出来,作为代表这一总体的部分单位组成的集合体称为样本。

 ②样本的特点 a.样本的单位必须取自全及总体内部,不许总体外部单位参加。

 b.从一个全及总体可以抽取许多个样本。

 c.样本的代表性。抽取样本不是目的,而是手段,是用来推断母体的,因此存在样本的代表性问题。

 d.样本的客观性。从全部总体中抽取样本,必须排除主观因素的影响。

 3常用的统计调查方式主要有哪些?

 答:常用的统计调查方式主要有:

 (1)普查,是专门组织的一种全面调查,它主要用以搜集某些不能或不宜用定期报表搜集的统计资料。对国情国力的调查一般采用普查,如人口普查、工业普查和农业普查等。

 (2)统计报表制度,是依照国家有关法规,自上而下地统一布置,以一定的原始记录为依据,按照统一的表式,统一的指标项目,统一的报送时间和报送程序,自下而上地逐级地定期提供统计数据的一种调查方式。

 (3)抽样调查,是一种非全面调查,包括概率抽样和非概率抽样。

 (4)重点调查,是指在调查对象中,只选择一部分重点单位进行的非全面调查。

 (5)典型调查,是一种专门组织的非全面调查。它是根据调查的目的,在对所研究的对象进行初步分析的基础上,有意识地选取若干具有代表性的单位进行调查和研究,借以认识事物发展变化的规律。

 4简述普查和抽样调查的特点。

 答:(1)普查是为某一特定目的而专门组织的一次性全面调查。它具有如下特点:

 ①普查通常是周期性的。由于普查涉及面广、调查单位多,需要耗费大量的人力、物力、财力和时间,通常需要间隔较长的时间进行一次。

 ②普查一般需要规定统一的标准调查时间,以免遗漏,保证普查结果的准确性。

 ③普查的数据一般比较准确,规范化程度也比较高,因此它可以为抽样调查或其他调查提供基本依据。

 ④普查的使用范围比较狭窄,只能调查一些最基本、特定的现象。

 (2)抽样调查则是从调查对象的总体中随机抽取一部分单位作为样本进行调查,根据样本调查结果来推断总体数量特征的一种数据收集方法。它具有以下几个特点:

 ①经济性。这是抽样调查的一个最显著的优点。由于调查的样本单位通常是总体单位中很小的一部分,调查的工作量小,因而可以节省大量的人力、物力、财力和时间。

 ②时效性强。由于工作量小,调查的准备时间、调查时间、数据处理时间等都可以大大缩减,从而提高数据的时效性。

 ③适应面广。抽样调查可以获得更广泛的信息,它适用于各个领域、各种问题的调查。从适用范围和问题来看,它的适用面要广于全面调查的适用面。抽样调查还适用于一些特殊现象的调查,比如产品质量检验、农产品实验、医药的临床实验等。从调查的项目和指标来看,抽样调查的内容和指标可以更详细、更深入。

 ④准确性高。由于抽样调查的工作量较全面调查的工作量小,因此,它可以减少由于工作量大、环节多而造成的误差。当然,用样本数据去推断总体时会不可避免地出现推断误差,但这种误差的大小是可以计算并加以控制的,因此推断的结果通常是可靠的。

 第 第2 章

 统计数据的描述 2.1

 复习笔记 一、统计数据的整理 1统计数据的分组 统计分组:指按照统计研究的目的,将数据分别列入不同的组内。

 按品质标志分组是指按照性别、质量等级等定性指标进行的分组;按数量标志分组是指按照数量或数值等定量指标进行的分组。

 2.次数分配 分组原则:在分组时,要遵循“不重不漏”的原则。

 不重是指任一个单位数值只能分在其中某一组中,不能同时分在两组中。当相邻两组的上下限相叠时,应遵循“上组限不在内”的原则;不漏是指任一数值必须分在某一组内,不能遗漏。

 3.次数分配图形 (1)直方图:在平面直角坐标系上,将分组标志作为横轴,并将各组次数作为纵轴,画出各组的长方形图即直方图。

 (2)折线图:以各组标志值中点位置作为该组标志的代表值,然后用折线将各组次数连接起来,形成折线图。

 (3)折线图与直方图的关系:直方图与折线图的面积是相等的。折线图的折线将直方图的直角切下,正好补在旁边较低的直方图上。这样,直方图与折线图所表示的分布规律是相同的,是两种面积相同但表示形式不同的次数分配图示法。

 (4)次数分布曲线:当所观察的次数越多,组距越小且组数越多时,所给出的折线图就会越光滑,逐渐形成一条光滑的曲线,即次数分布曲线。它反映了数据或统计量的分布规律。

 4.洛伦茨曲线与基尼系数 (1)洛伦茨曲线(如图2-1所示)是描述收入和财富分配性质的曲线。

 图2-1中,横轴是累积的人口百分比,纵轴是累积的收入或财富百分比。如果一个国家或地区的收入分配完全按人口平均分配,则此时同一累积百分比的人口就一定占有相同累积百分

 比的收入。这时,该国的收入分配程度曲线就与绝对平均的对角线重合。如果某国绝大多数人口占有很少的财富和收入,而一小部分人口占有了绝大部分的收入,则该国的曲线就靠近下横轴和右纵轴。

 图2-1 (2)基尼系数(衡量收入分配平均程度)

 式中:A表示实际收入L曲线与绝对平均线(对角线)之间的面积;B表示实际收入L曲线与绝对不平均线之间的面积。

 如果A=0,则基尼系数=0,表示收入绝对平均;如果B=0,则基尼系数=1,表示收入绝对不平均。基尼系数在0和1之间取值,一般认为,基尼系数若小于0.2,表明分配平均但缺乏效率;基尼系数在0.2~0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;基尼系数为0.4时,被认为是收入分配不公平的警戒线;基尼系数超过了0.6,则表示可能由于收入分配不公导致社会不稳定。

 二、分布集中趋势的测度 1众数 众数是总体单位中标志值出现次数最多的那个数值。它是一种位置代表值。

 对于分组数据,计算众数的下限公式为:

 ;上限公式为。

 2.中位数 指数据排序后,位置在最中间的数值,可表示为M e 。中位数将数据分成两半,一半数据比中位数大,一半数据比中位数小。

 要求得中位数,首先要确定中位数的位次。未分组资料时,中位数位次= ; 当总体位数N为奇数时,中位数就是中位数位次上的那个数据;当N为偶数时,中位数是中位数位次上两项数据的算术平均数。

 分组资料时,中位数位次= ;计算中位数的下限公式为:

 上限公式为:

 中位数具有的性质:数据值与中位数之差的绝对值之和最小,即。

 3.四分位数 四分位数就是将数据分布4等分的三个数值,其中中间的四分位数就是中位数。

 (1)由未分组资料计算四分位数,首先是确定四分位数的位次,再找出对应位次的标志值即为四分位数。设样本容量为n,则:

 M 1 的位次=

 M 3 的位次=

 如果计算出来的位次恰好是整数,这时各位位次上的标志值即为相应的四分位数。如果计算出来的位次不是整数,这时可用插值法计算四分位数,即与该位次相邻的两个整数位次上的标志值的加权算术平均数,权数的大小取决于两个整数位次与四分位次距离的远近,距离越近,权数越大。

 (2)由分组资料计算四分位数。第i四分位数的计算公式为:

 4.均值 即算术平均数,是数据集中趋势的最主要测度值。

 (1)对于未分组数据采用算术平均数,其计算公式为:

 (2)对于分组数据采用加权算术平均数,其计算公式为:

 5.几何平均数 指n个比率连乘积的n次方根,即

  6.切尾均值 指去掉大小两端的若干数值后计算中间数据的均值。其计算公式为:

 式中:n表示观察值的个数; 表示切尾系数,

 x 2 ,…,x n 经过排队后由小到大形成的顺序统计量值。

 改变切尾系数 的值可以选择集中趋势的测度值。当 取0或接近1/2时,切尾均值公式变成算术平均数和中位数的公式,这是切尾均值的两种特例。

 7.众数、中位数和均值的关系 在对称的次数分配和统计分布中,众数、中位数和均值都是同一数值。在尾巴拖在右边的右偏(正偏)分布中,众数<中位数<均值;而在尾巴拖在左边的左偏(负偏)分布中,均值<中位数<众数。

 三、分布离散程度的测度 1极差(全距)

 即数据最大值与最小值之差,它是数据离散或差异程度的最简单测度值,即

 2.内距 即两个四分位数之差,即 内距=上四分位数-下四分位数=Q 3 -Q 1

 3.方差和标准差 方差是离差平方的平均数;标准差是方差的正平方根。

 (1)未分组数据的样本方差(s 2 )和标准差(s)

 ,

 (2)分组数据的样本方差和标准差 ,

 4.离散系数 离散系数是用来对两组数据的差异程度进行相对比较的。总体离散系数和样本离散系数的计算公式分别为:

 ,

 四、分布偏态与峰度的测度 1偏态及其测度 偏态是对分布偏斜方向及程度的测度。测度偏斜的程度需要计算偏态系数(SK),在根据未分组的原始数据计算偏态系数时,通常采用下面的公式:

 根据分组数据计算偏态系数,可采用下面的公式:

 当分布对称时,SK=0;当SK为正值时,表示正离差数值较大,可以判断为正偏或右偏;当SK为负值时,表示负离差数值较大,可以判断为负偏或左偏。SK的数值越大,表示偏斜的程度就越大。

 2.峰度及其测度 峰度是对数据分布平峰或尖峰程度的测度。在根据未分组数据计算峰态系数时,通常采用下面的公式:

 根据分组数据计算峰态系数是用离差四次方的平均数,再除以标准差的四次方,其计算公式为:

 正态分布的峰度系数为0,当K>0时为尖峰分布,当K<0时为平峰分布。

 五、统计表与统计图 1统计表 统计表是显示统计数据的基本工具。它使数据变得一目了然、清晰易懂。充分利用和绘制好统计表是做好统计分析的基本要求。它一般由四个主要部分组成,即表头、行标题、列标题和数字资料,此外,必要时可以在统计表的下方加上表外附加。

 2.统计图 统计图是统计数据直观的表现形式,可以将复杂的数据用生动的图形表现出来。

 (1)茎叶图 即将数据分成“茎”和“叶”两部分,利用计算机作图达到直方图分组的目的。通过茎叶图,可以看出数据的分布形状及数据的离散状况。

 茎叶图与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息,而直方图则不能给出原始的数值。

 (2)箱线图 由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成的,反映原始数据分布的图形,称为箱线图。

 2.2

 课后习题详解 思考题 1.描述次数分配表的编制过程。

 答:次数分配表的编制过程如下:

 (1)确定组数。一般情况下,一组数据所分的组数不应少于5组且不多于15组,即5≤K≤15。实际应用时,可根据数据的多少和特点及分析的要求来确定组数。

 (2)确定各组的组距。组距是一个组的上限与下限的差。组距可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值-最小值)÷组数;为便于计算,组距宜取5或10的倍数,而且第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值。

 (3)根据分组整理成次数分配表。

 2解释洛伦茨曲线及其用途。

 答:洛伦茨曲线是20世纪初美国经济学家、统计学家洛伦茨根据意大利经济学家帕累托提出的“二八原理”和收入分配公式绘制成的描述收入和财富分配性质的曲线,如图2-2所示。

 图2-2

 洛伦茨曲线 在图2-2中,横轴代表家庭户数百分比;纵轴代表收入百分比;45度直线称绝对平等线,在这条线上,每10%的家庭得到10%的收入,表明收入分配绝对平等;横轴与图中最右边的竖线构成绝对不平等线,表示收入绝对不平等。根据实际资料所作的反映实际收入分配状况的

 曲线位于绝对平等线与绝对不平等线之间,称洛伦茨曲线。洛伦茨曲线与绝对平等线越接近,表示收入分配越平等,而洛伦茨曲线向下弯曲得越大,与绝对不平等线越接近,表示收入分配越不平等。

 绘制洛伦茨曲线可以直观而形象地表现研究对象的差异,根据洛伦茨曲线图可以计算出反映收入分配平等程度的指标——基尼系数,进一步用数据说明差异。

 3说明基尼系数的含义和用途。

 答:20世纪初意大利经济学家基尼根据洛伦茨曲线给出了衡量收入分配平均程度的指标,即基尼系数,用公式表示为:

 基尼系数=

 式中:A表示实际收入L曲线与绝对平均线(对角线)之间的面积;B表示实际收入L曲线与绝对不平均线之间的面积。

 基尼系数更准确地反映了收入分配的变化程度。如果A=0,则基尼系数=0,表示收入绝对平均;如果B=0,则基尼系数=1,表示收入绝对不平均。基尼系数在0和1之间取值,一般认为,基尼系数若小于0.2,表明分配平均但缺乏效率;基尼系数在0.2~0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;基尼系数为0.4时,被认为是收入分配不公平的警戒线;基尼系数超过了0.6,则表示可能由于收入分配不公导致社会不稳定。

 4一组数据的分布特征可以从哪几个方面进行测度? 答:一组数据的分布特征可以从以下3个方面进行测度:

 (1)分布集中趋势的测度,测度值反映的是数据一般水平的代表值或者数据分布的中心值; (2)分布离散程度的测度,测度值反映的是分布离散和差异程度; (3)分布偏态与峰度的测度,即对分布的形状是否对称、偏斜的程度以及分布的扁平程度等分布形状的测度。

 5怎样理解均值在统计学中的地位? 答:均值是统计学中非常重要的基础内容,任何统计推断和分析都离不开均值。从统计思想看,均值反映了一组数据的中心点或代表值,是数据误差互相抵消后的客观事物必然性数量特征的一种反映;从数学公式看,均值也有一些非常重要的数学性质。首先,数据观察值与均值的离差之和为零,即

  它表明数据观察值与均值的误差是可以完全抵消的,均值在数据数值中处于不偏不倚的位置,有折中、中庸的意思。

 其次,数据观察值与均值的离差平方和最小,即

 均值作为统计分布集中趋势的代表值,还有一个重要的性质,就是均值是统计分布的均衡点,即不论统计分布是对称分布还是偏态分布,只有在均值点上才能支撑这一分布,使其保持平稳。

 6对于比率数据的平均,为什么采用几何平均? 答:几何平均数是指n个比率连乘积的n次方根。比率数据属于相对数,不能如绝对数那样对其进行累加,而只能对其进行连乘。例如:工厂年产量去年比前年的年增长率为10%,今年比去年的增长率为20%,那么今年对前年的相对增长率为(1+10%)×(1+20%)-1。而不能用(1+10%)+(1+20%)-1来计算,这样累加的结果是没有实际意义的,因此对于比率数据,在对其计算平均数的时候,不能像计算一般的平均数那样计算,而要用几何平均数的计算公式计算。实际上,几何平均数也可以看作是均值的一种变形。只要对其计算公式两边取对数,则其公式的形式变为算术平均数的公式形式。

 7简述众数、中位数和均值的特点与应用场合。

 答:(1)众数是一组数据分布的峰值,不受极端值的影响。其缺点是具有不唯一性,一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。众数只有在数据量较多时才有意义,当数据量较少时,不宜使用众数。众数主要适合作为分类数据的集中趋势测度值。

 (2)中位数的特点是容易理解、很直观,它是一组数据中间位置上的代表值,不受数据极端值的影响。中位数主要适合作为顺序数据的集中趋势测度值。

 (3)均值是对数值型数据计算的,而且利用了全部数据信息,它是实际中应用最广泛的集中趋势测度值。当数据呈对称分布或接近对称分布时,3个代表值相等或接近相等,这时则应选择均值作为集中趋势的代表值。但均值的主要缺点是易受数据极端值的影响,对于偏态分布的数据,均值的代表性较差。因此,当数据为偏态分布,特别是当偏斜程度较大时,可以考虑选择众数或中位数。

  8标准差和方差反映数据的什么特征? 答:方差是离差平方的平均数,标准差是方差的正平方根。两者是反映一组数据波动大小的量,它们表示的是一组数据偏离平均值的情况。标准差和方差越大,数据组的波动就越大。

 9举出均值和标准差的例子。

 答:例如:某车间工人周加工零件数量计算表如表2-1所示。

 表2-1

 某车间工人周加工零件数量计算表

 按加工数量分组

 组中值

  权数

  80~90

 90~l00

 100~110

 110~120

 120~130

  85

 95

 105

 115

 125

  3

 7

 13

 5

 2

  225

 665

 1365

 575

 250

  合计

  —

  30

  3080

  由表2-1计算得出均值为:

 标准差为:

 。

 10为什么要计算离散系数? 答:方差和标准差是反映数据分散程度的绝对值,其数值的大小一方面受原变量值本身水平高低的影响,也就是与变量的平均数大小有关,变量值绝对水平高的,离散程度的测度值自然也就大,绝对水平小的离散程度的测度值自然也就小;另一方面,它们与原变量值的计量单位相同。采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此,对于平均水平不同或计量单位不同的不同组别的变量值,是不能用标准差直接比较其离

 散程度的。为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。

 11描述茎叶图和箱线图的画法,并说明它们的用途。

 答:(1)茎叶图将数据分成“茎”和“叶”两部分,绘制茎叶图的关键是设计好树茎,制作茎叶图时,把一个数字分成两部分,通常是以该组数据的高位数值作为树茎,而且叶上只保留该数值的最后一个数字。树茎一经确定,树叶就自然地长在相应的树茎上了。

 用途:通过茎叶图,可以看出数据的分布形状及数据的离散状况。例如:分布是否对称,数据是否集中,是否有离群点等。

 (2)箱线图是由一个箱子和两条线段组成的,其绘制方法是:先找出一组数据的最大值、最小值、中位数和两个四分位数;然后,连接两个四分位数画出箱子;再将最大值和最小值与箱子相连接,并在箱子上标出中位数的位置。

 用途:通过箱线图,不仅可以反映出一组数据分布的特征,还可以进行多组数据分布特征的比较。

 练习题 1.为评价家电行业售后服务的质量,随机抽取了由100个家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C.一般;D.较差;E.差。调查结果如下:

 (1)用Excel制作一张频数分布表; (2)绘制一张条形图,反映评价等级的分布。

 解:(1)利用Excel制作频数分布表,如表2-2所示。

 表2-2

 服务质量等级评价的频数分布表

  服务质量等级

  家庭数(频数)

  频率(%)

  A

 B

 C

 D

 E

  14

 21

 32

 18

 15

  14

 21

 32

 18

 15

  合计

  100

  100

  (2)绘制条形图,如图2-3所示。由此可以看出,调查结果中,评价等级C最多,A最少。

 图2-3

 服务质量的等级条形图

 2某行业管理局所属40家企业2008年的产品销售收入(单位:万元)数据如下:

 (1)根据以上数据进行适当的分组,编制频数分布表,并计算累积频数和频率; (2)如果按规定:销售收入在125万元以上为先进企业,115万元~125万元为良好企业,105~115万元为一般企业,105万元以下为落后企业。按先进企业、良好企业、一般企业、落后企业进行分组。

 解:(1)编制频数分布表,如表2-3所示。

 表2-3

 40家企业按产品销售收入分组表

 按销售收入分组 (万元)

 企业数 (个)

 频率 (%)

 向上累积

 向下累积

 企业数(个)

 频率(%)

 企业数(个)

 频率(%)

 100以下

 5

 12.5

 5

 12.5

 40

 100.0

 100~110

 9

 22.5

 14

 35.0

 35

 87.5

 110~120

 12

 30.0

 26

 65.0

 26

 65.0

 120~130

 7

 17.5

 33

 82.5

 14

 35.0

 130~140

 4

 10.0

 37

 92.5

 7

 17.5

 140以上

 3

 7.5

 40

 100.0

 3

 7.5

 合计

 40

 100.0

 —

 —

 —

 —

 (2)按先进企业、良好企业、一般企业、落后企业进行分组,如表2-4所示。

 表2-4

 某管理局下属40个企业分组表

 按销售收入分组(万元)

 企业数(个)

 频率(%)

 先进企业

 11

 27.5

 良好企业

 11

 27.5

 一般企业

 9

 22.5

 落后企业

 9

 22.5

 合计

 40

 100.0

  3某百货公司连续40天的商品销售额(单位:万元)如下:

 根据以上数据进行适当的分组,编制频数分布表,并绘制直方图。

 解:编制频数分布表,如表2-5所示。

 表2-5

 某百货公司日商品销售额分组表

 按销售额分组(万元)

 频数(天)

 频率(%)

 25~30

 4

 10.0

 30~35

 6

 15.0

 35~40

 15

 37.5

 40~45

 9

 22.5

 45~50

 6

 15.0

 合计

 40

 100.0

 绘制直方图,如图2-4所示。

  图2-4

 商品销售额频率直方图

 4为了确定灯泡的使用寿命(单位:小时),在一批灯泡中随机抽取100只进行测试,所得结果如下:

 700

 716

 728

 719

 685

 709

 691

 684

 705

 718

 706

 715

 712

 722

 691

 708

 690

 692

 707

 701

 708

 729

 694

 681

 695

 685

 706

 661

 735

 665

 668

 710

 693

 697

 674

 658

 698

 666

 696

 698

 706

 692

 691

 747

 699

 682

 698

 700

 710

 722

 694

 690

 736

 689

 696

 651

 673

 749

 708

 727

 688

 689

 683

 685

 702

 741

 698

 713

 676

 702

 701

 671

 718

 707

 683

 717

 733

 712

 683

 692

 693

 697

 664

 681

 721

 720

 677

 679

 695

 691

 713

 699

 725

 726

 704

 729

 703

 696

 717

 688

 (1)利用计算机对以上数据进行排序; (2)以组距为10进行等距分组,整理成频数分布表,并绘制直方图; (3)制作茎叶图,并与直方图做比较。

 解:(1)利用计算机对以上数据进行排序如下:

  651

 658

 661

 664

 665

 666

 668

 671

 673

 674

 676

 677

 679

 681

 681

 682

 683

 683

 683

 684

 685

 685

 685

 688

 688

 689

 689

 690

 690

 691

 691

 691

 691

 692

 692

 692

 693

 693

 694

 694

 695

 695

 696

 696

 696

 697

 697

 698

 698

 698

 698

 699

 699

 700

 700

 701

 701

 702

 702

 703

 704

 705

 706

 706

 706

 707

 707

 708

 708

 708

 709

 710

 710

 712

 712

 713

 713

 715

 716

 717

 717

 718

 718

 719

 720

 721

 722

 722

 725

 726

 727

 728

 729

 729

 733

 735

 736

 741

 747

 749

 (2)编制频数分布表,如表2-6所示。

 表2-6

 100只灯泡使用寿命频数分布表

 按使用寿命分组(小时)

  灯泡个数(只)

  频率(%)

  650~660

  2

  2

  660~670

  5

  5

  670~680

  6

  6

  680~690

  14

  14

  690~700

  26

  26

  700~710

  18

  18

  710~720

  13

  13

  720~730

  10

  10

  730~740

  3

  3

  740~750

  3

  3

  合计

  100

  100

  绘制直方图,如图2-5所示。

 图2-5

 灯泡使用寿命分布直方图 (3)制作茎叶图,如图2-6所示。

  图2-6

 100只灯泡使用寿命分布茎叶图 从灯泡使用寿命分布的直方图和茎叶图可以看出,灯泡使用寿命基本上是对称分布的。直方图和茎叶图所反映的分布特征是一致的,但茎叶图的好处是保留了原始数据的信息。

 5.北方某城市1-2月份各天气温(单位:℃)的记录数据如下:

 (1)对以上数据进行适当分组; (2)绘制直方图,说明该城市气温分布的特点。

 解:(1)对气温记录数据进行分组,如表2-7所示。

 表2-7

 分组

 天数(天)

 -25~-20

 8

 -20~-15

 8

 -15~-10

 10

 -10~-5

 14

 -5~0

 14

 0~5

 4

 5~10

 7

 合计

 65

 (2)绘制直方图,如图2-7所示。

 图2-7

 某城市1-2月份气温分布直方图 (3)从直方图可以看出,该城市1-2月份气温的分布基本上是对称的,温度在-10℃~-5℃、-5℃~0℃之间的天数最多。

 6表2-8是某考试管理中心对2007年参加成人自学考试的12000名考生的年龄分组数据。

 表2-8

 2007年参加成人自学考试的考生年龄分组

 (1)对这个年龄分布做直方图; (2)从直方图分析成人自学考试人员年龄分布的特点。

 解:(1)绘制年龄分布直方图,如图2-8所示。

  图2-8

 2007年参加成人自学考试的考生年龄分布直方图 (2)由图2-8可以看出:自学考试人员年龄的分布为右偏,即年龄在20~24岁的考生占绝大比例,而年龄在20岁以下和40岁以上的考生所占的比例很小。

 7表2-9是A、B两个班学生的数学考试成绩数据。

 表2-9

 A班和B班学生的数学考试成绩

 (1)将两个班的考试成绩用一个公共的茎制成茎叶图; (2)比较两个班考试成绩分布的特点。

 解:(1)制作茎叶图,如图2-9所示。

  图2-9

 A班和B班学生的数学考试成绩茎叶图 (2)由图2-9可以看出:A班考试成绩的分布比较集中,且平均分数较高;B班考试成绩的分布比A班分散,且平均成绩较A班低。

 81997年我国几个主要城市各月份的平均相对湿度数据如表2-10所示,试绘制箱线图,并分析各城市平均相对湿度的分布特征。

 表2-10

 1997年我国几个大城市各月份的平均相对湿度

 资料来源:《中国统计年鉴1998》,10页,北京,中国统计出版社,1998。

 解:绘制1997年我国几个大城市各月份的平均相对湿度箱线图,如图2-10所示。

  图2-10

 1997年我国几个大城市各月份的平均相对湿度箱线图 从图2-10中可以看出,各城市的月平均相对湿度有较大差异。离散程度较大的城市主要是北京和长春(箱子较大);离散程度较小的是成都、广州和武汉(箱子较小);相对湿度最大的城市主要有成都、广州、南京和武汉(中位数较大);相对湿度最小的城市是兰州(中位数较小);相对湿度分布比较对称的城市主要是北京、武汉、广州和兰州等(中位数大体上在箱子中间,最大值和最小值与箱子的距离大体相等);相对湿度不对称的城市主要有南京、郑州等;相对湿度存在极值的城市主要是长春和西安。

 9某百货公司6月份各天的销售额(单位:万元)数据如下:

 (1)计算该百货公司日销售额的均值、中位数和四分位数; (2)计算日销售额的标准差。

 解:(1)该百货公司日销售额的均值为:

 将6月份各天的销售额从大到小进行排序为:

 236

 238

 240

 249

 252

 257

 258

 261

 263

 265

 267

 268

 269

 271

 272

 273

 274

 276

 278

 280

 281

 284

 291

 292

 295

 297

 301

 303

 310

 322

 所以中位数为:

 又 ,即 在第7个数值和第8个数值之间0.75的位置上,故

 同理, ,故

 (2)日销售额的标准差为:

  10甲、乙两个企业生产三种产品的单位成本和总成本资料,如表2-11所示。

 表2-11

 甲、乙企业产品的单位成本与总成本

 单位成本(元)

 总成本(元)

 产品名称

 甲企业

 乙企业

 A B C

 15 20 30

 2100 3000 1500

 3255 1500 1500

 比较哪个企业的总平均成本高,并分析其原因。

 解:甲企业的总平均成本= =19.41(元),乙企业的总平均成本==18.29(元),所以甲企业的总平均成本比较高。

 原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,相应单位成本较高的产品在乙企业的产量中所占比重较小,因此总体上拉低了乙企业的总平均成本。

 11在某地区抽取的120家企业按利润额进行分组,结果如表2-12所示。

 表2-12

 某地区120家企业的利润额分组

 按利润额分组(万元)

 企业数(个)

 200~300

 19

 300~400

 30

 400~500

 42

 500~600

 18

 600以上

 11

 合计

 120

 计算120家企业利润额的均值和标准差。

 解:该地区120家企业利润额均值为:

 426.67(万元)

 标准差为:

 12一项关于大学生体重状况的研究发现,男生的平均体重为60kg,标准差为5kg;女生的平均体重为50kg,标准差为5kg。请回答下面的问题:

 (1)是男生的体重差异大还是女生的体重差异大?为什么? (2)以磅为单位(1kg=2.2磅),求体重的平均数和标准差。

 (3)粗略地估计一下,男生中有百分之几的人体重在55kg~65kg之间? (4)粗略地估计一下,女生中有百分之几的人体重在40kg~60kg之间? 解:(1)女生体重的离散系数为:

 男生体重的离散系数为:

 由于 ,所以女生的体重差异大。

 (2)男生的体重平均数为:=132(磅),标准差为:s=5×2.2=11(磅);女生的体重平均数为:(磅),标准差为:s=5×2.2=11(磅)。

 (3)人的体重服从正态分布,而当一组数据对称分布时,经验法则表明:约有68%的数据在平均数的±1个标准差的范围内,即男生体重落在55kg~65kg之间的概率约为68%。

 (4)人的体重服从正态分布,而当一组数据对称分布时,经验法则表明:约有95%的数据在平均数的±2个标准差的范围内,即女生体重落在40kg~60kg之间的概率约为95%。

 13对10名成年人和10名幼儿的身高(厘米)进行抽样调查,结果如表2-13所示。

 表2-13

 对成年组和幼儿组的身高调查结果 单位:㎝

 成年组

 166

 169

 172

 177

 180

 170

 172

 174

 168

 173

 幼儿组

 68

 69

 68

 70

 71

 73

 72

 73

 74

 75

 (1)要比较成年组和幼儿组的身高差异,你会采用什么样的指标测度值?为什么? (2)比较分析哪一组的身高差异大? 解:(1)比较成年组和幼儿组的身高差异宜采用离散系数进行测度,因为它消除了不同组数据水平高低的影响。

 (2)成年组身高的平均值为:

 (cm)

 标准差为:

 =4.2(cm)

 故成人组身高的离散系数为:

 。

 幼儿组身高的平均值为:

 (cm)

 标准差为:

 =2.5(cm)

 故幼儿组身高的离散系数为:

 。所以幼儿组身高差异大。

 14一种产品需要人工组装,现有三种可供选择的组装方法。为检验哪种方法更好,随机抽取15个工人,让他们分别用三种方法组装。表2-14是15个工人分别用三种方法在相同的时间内组装的产品数量(单位:个)。

 表2-14

 用三种组装方法在相同时间内组装的产品数量

 方法A

 方法B

 方法C

 164

 129

 125

 167

 130

 126

 168

 129

 126

 165

 130

 127

 170

 131

 126

 165

 130

 128

 164

 129

 127

 168

 127

 126

 164

 128

 127

 162

 128

 127

 163

 127

 125

 166

 128

 126

 167

 128

 116

 166

 125

 126

 165

 132

 125

 (1)你准备采用什么方法来评价组装方法的优劣? (2)如果让你选择一种方法,你会作出怎样的选择?试说明理由。

 解:(1)应该从平均数和标准差两个方面进行评价。在对各种方法的离散程度进行比较时,应该采用离散系数。

 (2)表2-15给出了用Excel计算一些主要描述统计量。

 表2-15

 描述统计量

 从三种方法的集中趋势来看,方法A的平均产量最高,中位数和众数也都高于其他两种方法。从离散程度来看,三种方法的离散系数分别为:

  方法A的离散系数最小,即离散程度最小,因此应选择方法A。

 15在金融证券领域,一项投资的的预期收益率的变化通常用该项投资的风...

相关热词搜索: 笔记 统计学 课后