数理统计学
数理统计学 |
数理统计学是研究有效地运用数据收集与数据处理、多种模型与技术分析、社会调查与统计分析等,对科技前沿和国民经济重大问题和复杂问题,以及社会和政府中的大量问题,如何对数据进行推理,以便对问题进行推断或预测,从而对决策和行动提供依据和建议的应用广泛的基础性学科。
目录
目录
基本简介
发展历程
分支学科
统计环节
应用
学习事项
现实意义
学科奠基者
新版图书信息
内容简介
图书目录
基本简介
莱尔根据各个地层中的化石种类和现仍在 海洋中生活的种类作出百分率,然后定出更新世、上新世、中新世、始新世的名称。并于1830~1833年出版了三卷 《地质学原理》。这些 地质学中的名称沿用至今,可是他使用的类似于现在数理统计的方法,却没有引起人们的重视。
生物学家 达尔文关于进化论的工作主要是生物统计的,他在乘坐“ 贝格尔”号军舰到 美洲的旅途上带着莱尔的上述著作,二者看来不无关系。
从数学上对生物统计进行研究的第一人是英国统计学家 皮尔逊,他曾在 伦敦大学学院学习,然后去德国学物理,1881年在 剑桥大学获得学士学位, 1882年任 伦敦大学应用 数学力学教授。
具体地说与人们生活有关的如某种食品营养价值高低的调查;通过用户对家用电器性能指标及使用情况的调查,得到全国某种家用电器的上榜品牌排名情况;一种药品对某种疾病的治疗效果的观察评价等都是利用数理统计方法来实现的。
飞机、 舰艇、 卫星、 电脑及其它精密仪器的制造需要成千上万个零部件来完成,而这些零件的寿命长短,性能好坏均要用数理统计的方法进行检验才能获得。
在经济领域,从某种商品未来的销售情况预测到某个城市整个商业销售的预测,甚至整个国家国民经济状况预测及发展计划的制定都要用到数理统计知识。
数理统计用处之大不胜枚举。可以这么说,现代人的生活、科学的发展都离不开数理统计。从某种意义上来讲,数理统计在一个国家中的应用程度标志着这个国家的科学水平。
难怪在谈到数理统计的应用时,有人称赞它的用途像水银落地是无孔不入的,这恐怕并非言过其实。
发展历程
数理统计学是伴随着概率论的发展而发展起来的。 19世纪中叶以前已出现了若干重要的工作,如C.F.高斯和A.M.勒让德关于观测数据误差分析和最小二乘法的研究。到19世纪末期,经过包括K. 皮尔森在内的一些学者的努力,这门学科已开始形成。但数理统计学发展成一门成熟的学科,则是20世纪上半叶的事,它在很大程度上要归功于K. 皮尔森、R.A. 费希尔等学者的工作。特别是费希尔的贡献,对这门学科的建立起了决定性的作用。 1946年H.克拉默发表的《 统计学数学方法》是第一部严谨且比较系统的数理统计著作,可以把它作为数理统计学进入成熟阶段的标志。
数理统计学的发展大致可分3个时期。
第一时期
20 世纪以前。这个时期又可分成两段,大致上可以把高斯和勒让德关于最小二乘法用于观测数据的误差分析的工作作为 分界线,前段属萌芽时期,基本上没有超出描述性统计量的范围。后一阶段可算作是数理统计学的幼年阶段。首先,强调了推断的地位,而摆脱了单纯描述的性质。由于高斯等的工作揭示了正态分布的重要性,学者们普遍认为,在实际问题中遇见的几乎所有的连续变量,都可以满意地用正态分布来刻画。这种观点使关于正态分布的统计得到了深入的发展,但延缓了 非参数统计的发展。19世纪末,K. 皮尔森给出了以他的名字命名的分布,并给出了估计参数的一种方法——矩法估计。 德国的F. 赫尔梅特发现了统计上十分重要的x2 分布。
第二时期
20世纪初到第二次世界大战结束。这是数理 统计学蓬勃发展达到成熟的时期。许多重要的基本观点和方法,以及数理统计学的主要分支学科,都是在这个时期建立和发展起来的。这个时期的成就,包含了至今仍在广泛使用的大多数统计方法。在其发展中,以英国统计学家、 生物学家费希尔为代表的英国学派起了主导作用。
第三时期
战后时期。这一时期中,数理统计学在应用和理论两方面继续获得很大的进展。
分支学科
数理统计学内容庞杂,分支学科很多,难于作出一个周密而无懈可击的分类。大体上可以划分为如下几类:
第一类
第一类分支学科是抽样调查和试验设计。它们主要讨论在观测和实验数据的收集中有关的理论和方法问题,但并非与统计推断无关。
第二类
第二类分支学科为数甚多,其任务都是讨论统计推断的原理和方法。各分支的形成是基于:
①特定的统计推断形式,如参数估计和假设检验。
②特定的统计观点,如 贝叶斯统计与 统计决策理论。
③特定的理论模型或样本结构,如非参数统计、 多元统计分析、回归分析、相关分析、序贯分析,时间序列分析和随机过程统计。
第三类
第三类是一些针对特殊的应用问题而发展起来的分支学科,如产品抽样检验、可靠性统计、统计质量管理等。
统计环节
用数理统计方法去解决一个实际问题时,一般有如下几个步骤 :建立数学模型 ,收集整理数据,进行统计推断、预测和决策。这些环节不能截然分开,也不一定按上述次序,有时是互相交错的。
①模型的选择和建立。在数理统计学中,模型是指关于所研究总体的某种假定,一般是给总体分布规定一定的类型。建立模型要依据概率的知识、所研究问题的专业知识、以往的经验以及从总体中抽取的样本(数据)。
②数据的收集。有全面观测、抽样观测和安排特定的实验3种方式。全面观测又称普查,即对总体中每个个体都加以观测,测定所需要的指标。抽样观测又称抽查,是指从总体中抽取一部分,测定其有关的指标值。这方面的研究内容构成数理统计的一个分支学科。叫抽样调查。
③安排特定实验以收集数据,这些特定的实验要有代表性,并使所得数据便于进行分析。这里面所包含的数学问题,构成数理统计学的又一分支学科,即 实验设计的内容。
④数据整理。目的是把包含在数据中的有用信息提取出来 。 一种形式是制定适当的图表,如散点图,以反映隐含在数据中的粗略的规律性或一般趋势。另一种形式是计算若干数字特征,以刻画样本某些方面的性质,如样本均值、样本方差等简单描述性统计量。
⑤ 统计推断。指根据总体模型以及由总体中抽出的样本,作出有关总体分布的某种论断 。数据的收集和整理是进行统计推断的必要准备,统计推断是数理统计学的主要任务。
⑥ 统计预测。统计预测的对象,是随机变量在未来某个时刻所取的值,或设想在某种条件下对该变量进行观测时将取的值。例如,预测一种产品在未来3年内的市场销售量,某个10岁男孩在3年后的身高,体重等等。
⑦统计决策。依据所做的统计推断或预测,并考虑到行动的后果(以经济损失的形式表示)而制定的一种行动方案。目的是使损失尽可能小,或反过来说,使收益尽可能大。例如,一个商店要决定今年内某种产品的进货数量,商店的统计学家根据抽样调查,预测该产品本店今年销售量为1000件。假定每积压一件产品损失20元,而少销售一件产品则损失10元,要据此作出关于进货数量的决策。
应用
数理统计方法在工农业生产、自然科学和技术科学以及社会经济领域中都有广泛的应用。 ①在农业中,对田间试验进行适当的设计和统计分析。
② 实验设计法、回归设计和回归分析、方差分析、多元分析等统计方法,在工业生产的试制新产品和改进老产品、改革工艺流程、使用代用原材料和寻求适当的配方等问题中起着广泛的作用,统计质量管理在控制工业产品的质量中起着十分重要的作用。
③医学是较早使用数理统计方法的领域之一 。在防治一种疾病时,需要找出导致这种疾病的种种因素,统计方法在发现和验证这些因素上,是一个重要工具。另一方面的应用是,用统计方法确定一种药物对治疗某种疾病是否有用,用处多大,以及比较几种药物或治疗方法的效力。
④在自然科学和技术科学中,如统计方法用于 地震、 气象和水文方面的预报、地质资源的评价等。
⑤在社会、经济领域方面,如人口调查和预测, 心理学中能力方面的分析等。
学习事项
1.由于数理统计是一门实用性极强的学科,在学习中要紧扣它的实际背景,理解统计方法的直观含义。了解数理统计能解决那些实际问题。对如何处理抽样数据,并根据处理的结果作出合理的统计推断,该结论的可靠性有多少要有一个总体的思维框架,这样,学起来就不会枯燥而且容易记忆。例如估计未知分布的数学期望,就要考虑到① 如何寻求合适的估计量的途径,②如何比较多个估计量的优劣。这样,针对①按不同的 统计思想可推出矩估计和极大似然估计,而针对②又可分为无偏估计、有效估计、相合估计,因为不同的估计名称有着不同的含义,一个具体估计量可以满足上面的每一个,也可能不满足。掌握了寻求估计的统计思想,具体寻求估计的步骤往往是“套路子”的,并不困难,然而如果没有从根本上理解,仅死背套路子往往会出现各种错误。?
2.许多人在学习数理统计过程中往往抱怨公式太多,置信区间,假设检验表格多而且记不住。事实上概括起来只有八个公式需要记忆,而且它们之间有着紧密联系,并不难记,而区间估计和假设检验中只是这八个公式的不同运用而已,关键在于理解区间估计和假设检验的统计意义,在理解基础上灵活运用这八个公式,完全没有必要死记硬背。
现实意义
笼统地说,数理统计学的理论和方法,与人类活动的各个领域在不同程度上都有关联。因为各个领域内的活动,都得在不同的程度上与数据打交道。都有如何收集和分析数据的问题,因此也就有数理统计学用武之地。可以举几个例子来说明这一点,如在工业中生产一种产品,首先有设计的问题,包括配方和工艺条件的选定,这要通过从大量可能的条件组合中,通过分析试验结果来选定,可能的条件组合很多,选择哪一部分去做试验是一个很有讲究的问题,在数理统计学中有一个专门分支叫“试验设计”,就是研究怎样在尽可能少的试验次数之下,达到尽可能高效率的分析结果;其次,在生产过程中,由于原材料,设备调整及工艺参数等条件可能的变化,而造成生产条件不正常并导致出现废品,在统计学中有一门“ 工序控制”的学问,通过在生产过程中随时收集数据并用统计方法进行处理,可以监测出不正常情况的出现以便随时加以纠正,避免出大的问题;然后,大批量的产品生产出来后,还有一个通过抽样检验以检验其质量是否达到要求,是否可以出厂或为买方所接受的问题,处理这个问题也要使用数理统计方法,在我国现行的国家标准中有一些就与这个问题有关。
在农业上,有关选种,耕作条件, 肥料选择等一系列的问题的解决,都与统计方法的应用有关,在历史上,现行的一些重要的统计设计与分析方法,就是近代最伟大的数理统计学家费歇尔于上世纪20年代在英国一个农业试验站工作时,因研究田间试验的问题而发明的。
医学与生物学是统计方法应用最多的领域之一, 统计学是在有变异的数据中研究和发现统计规律的科学,就医学而言,人体变异是一个重要的因素,不同的人的情况千差万别,其对一种药物和治疗方法的反应也各不相同,因此,对一种药物和治疗方法的评价,是一种统计性规律的问题,不少国家对一种新药的上市和一种治疗方法的批准,都设定了很严格的试验和统计检验的要求。又如:许多生活习惯(如吸烟、饮酒、高盐饮食之类)对健康的影响,环境污染对健康的影响,都要通过收集大量数据进行统计分析来研究。
对社会现象的研究大量地使用统计方法,因为组成社会的单元——人、家庭、单位、地区等,都有很大的变异性,如果说,在自然现象中还不乏一些(在误差可以允许的限度内)严格的、确定性的规律,在社会现象中这种规律则绝少,因此只能从统计的角度去考察,我们常说,某某措施,某某政策,对大多数人是有利的,这就是一种统计性规律,因为这种“有利”是指对大多数,而非一切人。在20世纪初,就有统计学家研究过在英国几种救助贫困的方式的效果的评估,这都是借助抽样调查并通过复杂的统计分析得出的结果。如今,抽样调查已经成为研究社会现象的一种最有力的工具,因为全面调查往往不可行,而抽样调查,从其方案的制定到数据的分析,都是以数理统计学的理论和方法为基础。
学科奠基者
数理统计作为一个进一步完善的数学学科的奠基者是英国人费歇尔。他1909年入剑桥大学,攻读 数学物理专业,三年后毕业。毕业后,他曾去投资办工厂,又到加拿大农场管过杂务,也当过中学教员。1919年,他开始对 生物统计学产生了浓厚的兴趣,参加罗萨姆斯 泰德试验站的工作,致力于数理统计在农业科学和遗传学中(费歇尔1890—1962)的应用研究。
年轻的费歇尔主要的研究工作是用数学将样本的分布给以严格的确定。在一般人看来枯燥乏味的数学,常能带给研究者极大的慰藉。 费歇尔热衷于数理统计的研究工作,后来的理论研究成果有:数据信息的测量、压缩数据而不减少信息、对一个模型的参数估计等。
最使科学家称赞的工作则是试验设计,它将一切科学试验从某一个侧面“科学化”了,不知节省了多少人力和物力,提高了若干倍的工效。
费歇尔培养了一个学派,其中有专长纯数学的,有专长应用数学的。在30-50年代费歇尔是统计学的中心人物。1959年费歇尔退休后在 澳大利亚度过了最后三年。
新版图书信息
书 名: 数理 统计学
作 者: 张润楚
出版社: 科学出版社
出版时间: 2010年12月1日
ISBN: 9787030293053
开本: 16开
定价: 25.00元
内容简介
《数理统计学》是教育部高等学校统计学教学指导分委员会推荐教材《数理统计学》从我国经济、管理类各专业教学的实际出发,以统计思想为主线,坚持“少而精”的原则,深入浅出地介绍统计学发展至今的一些基本知识,包含了现有一些常用的统计思想、理论和方法,主要内容包括:总体、样本、统计量的概念,常用分布,点估计理论,假设检验理论,区间估计,线性模型以及统计决策理论和贝叶斯推断等。《数理统计学》强调统计学的基本思想以及和理论方法的有机结合,并通过实例体现数理统计学的丰富内容和启示读者如何 应用统计学的理论和方法。
《数理统计学》可作为经济、管理类各专业本科生、研究生的教材和教学参考书,也适合于自学数理统计学的读者阅读。
图书目录
总序
前言
第1章 基本知识
1.1 数据描述
1.2 总体、样本、统计量
1.2.1 总体
1.2.2 样本
1.2.3 统计量
1.3 一些常用分布
1.3.1 离散型分布和连续型分布
1.3.2 正态分布
1.3.3 χ2分布、t分布和F-分布
1.3.4 Γ-分布与β-分布
1.3.5 指数型分布族
1.4 统计量与抽样分布
1.4.1 矩统计量
1.4.2 次序统计量
1.5 统计量的充分性和完全性
1.5.1 充分统计量
1.5.2 充分性因子分解判定定理
1.5.3 统计量的完全性
1.6 习题
第2章 点估计
2.1 估计方法
2.1.1 参数估计问题
2.1.2 矩估计方法
2.1.3 极大似然估计法
2.1.4 估计量的比较
2.2 无偏估计
2.2.1 有效估计
2.2.2 一致最小方差无偏估计
2.2.3 U-统计量
2.3 估计量的渐近性质
2.3.1 相合性
2.3.2 渐近正态性
2.3.3 极大似然估计的渐近性质
2.4 习题
第3章 假设检验
3.1 基本概念
3.1.1 假设检验问题
3.1.2 两类错误和功效函数
3.2 一致最大功效检验
3.2.1 Neyman-Pearson(奈曼一皮尔逊)引理
3.2.2 单调似然比分布族与单侧检验
3.3 正态分布参数的假设检验
3.3.1 一个正态总体的参数检验
3.3.2 两个正态总体的参数检验
3.4 几种常用的非参数检验
3.4.1 符号检验
3.4.2 秩和检验
3.5 X2拟合优度检验
3.5.1 分布函数的拟和优度检验
3.5.2 独立性检验
3.6 正态性检验
3.6.1 小样本的W检验
3.6.2 大样本的D检验
3.7 习题
第4章 区间估计
4.1 基本概念
4.2 区间估计的方法
4.2.1 枢轴量
4.2.2 总体均值的置信区间
4.2.3 两个总体均值之差的置信区间
4.2.4 总体方差的置信区间
4.2.5 两个总体方差比的置信区间
4.2.6 比率p的置信区间
4.3 习题
第5章 线性统计模型初步
5.1 线性模型的描述
5.2 单因子方差分析
5.2.1 问题的提出
5.2.2 单因素方差分析的统计模型
5.2.3 检验方法
5.2.4 重复数相同的方差分析
5.2.5 多重比较
5.3 两因子方差分析
5.3.1 非重复试验的两因子方差分析
5.3.2 重复试验的两因子方差分析
5.4 一元线性回归
5.4.1 一元线性回归模型
5.4.2 相关性与回归
5.4.3 回归系数的最小二乘估计
5.4.4 回归方程的显著性检验
5.5 多自变量线性回归
5.5.1 数据的描述及模型
5.5.2 相关性与回归
5.5.3 回归系数的解释、估计及性质
5.5.4 线性回归模型的假设检验
5.5.5 回归诊断和变量选择
5.6 习题
第6章 统计决策理论与贝叶斯推断
6.1 统计决策理论
6.1.1 决策问题
6.1.2 损失函数
6.1.3 决策函数
6.1.4 风险函数[1]
6.1.5 最小最大估计
6.2 贝叶斯估计
6.2.1 先验分布
6.2.2 贝叶斯风险
6.2.3 后验分布
6.2.4 最小后验风险准则
6.3 习题