數理統計學
數理統計學 |
數理統計學是研究有效地運用數據收集與數據處理、多種模型與技術分析、社會調查與統計分析等,對科技前沿和國民經濟重大問題和複雜問題,以及社會和政府中的大量問題,如何對數據進行推理,以便對問題進行推斷或預測,從而對決策和行動提供依據和建議的應用廣泛的基礎性學科。
目錄
目錄
基本簡介
發展歷程
分支學科
統計環節
應用
學習事項
現實意義
學科奠基者
新版圖書信息
內容簡介
圖書目錄
基本簡介
萊爾根據各個地層中的化石種類和現仍在 海洋中生活的種類作出百分率,然後定出更新世、上新世、中新世、始新世的名稱。並於1830~1833年出版了三卷 《地質學原理》。這些 地質學中的名稱沿用至今,可是他使用的類似於現在數理統計的方法,卻沒有引起人們的重視。
生物學家 達爾文關於進化論的工作主要是生物統計的,他在乘坐「 貝格爾」號軍艦到 美洲的旅途上帶着萊爾的上述著作,二者看來不無關係。
從數學上對生物統計進行研究的第一人是英國統計學家 皮爾遜,他曾在 倫敦大學學院學習,然後去德國學物理,1881年在 劍橋大學獲得學士學位, 1882年任 倫敦大學應用 數學力學教授。
具體地說與人們生活有關的如某種食品營養價值高低的調查;通過用戶對家用電器性能指標及使用情況的調查,得到全國某種家用電器的上榜品牌排名情況;一種藥品對某種疾病的治療效果的觀察評價等都是利用數理統計方法來實現的。
飛機、 艦艇、 衛星、 電腦及其它精密儀器的製造需要成千上萬個零部件來完成,而這些零件的壽命長短,性能好壞均要用數理統計的方法進行檢驗才能獲得。
在經濟領域,從某種商品未來的銷售情況預測到某個城市整個商業銷售的預測,甚至整個國家國民經濟狀況預測及發展計劃的制定都要用到數理統計知識。
數理統計用處之大不勝枚舉。可以這麼說,現代人的生活、科學的發展都離不開數理統計。從某種意義上來講,數理統計在一個國家中的應用程度標誌着這個國家的科學水平。
難怪在談到數理統計的應用時,有人稱讚它的用途像水銀落地是無孔不入的,這恐怕並非言過其實。
發展歷程
數理統計學是伴隨着概率論的發展而發展起來的。 19世紀中葉以前已出現了若干重要的工作,如C.F.高斯和A.M.勒讓德關於觀測數據誤差分析和最小二乘法的研究。到19世紀末期,經過包括K. 皮爾森在內的一些學者的努力,這門學科已開始形成。但數理統計學發展成一門成熟的學科,則是20世紀上半葉的事,它在很大程度上要歸功於K. 皮爾森、R.A. 費希爾等學者的工作。特別是費希爾的貢獻,對這門學科的建立起了決定性的作用。 1946年H.克拉默發表的《 統計學數學方法》是第一部嚴謹且比較系統的數理統計著作,可以把它作為數理統計學進入成熟階段的標誌。
數理統計學的發展大致可分3個時期。
第一時期
20 世紀以前。這個時期又可分成兩段,大致上可以把高斯和勒讓德關於最小二乘法用於觀測數據的誤差分析的工作作為 分界線,前段屬萌芽時期,基本上沒有超出描述性統計量的範圍。後一階段可算作是數理統計學的幼年階段。首先,強調了推斷的地位,而擺脫了單純描述的性質。由於高斯等的工作揭示了正態分布的重要性,學者們普遍認為,在實際問題中遇見的幾乎所有的連續變量,都可以滿意地用正態分布來刻畫。這種觀點使關於正態分布的統計得到了深入的發展,但延緩了 非參數統計的發展。19世紀末,K. 皮爾森給出了以他的名字命名的分布,並給出了估計參數的一種方法——矩法估計。 德國的F. 赫爾梅特發現了統計上十分重要的x2 分布。
第二時期
20世紀初到第二次世界大戰結束。這是數理 統計學蓬勃發展達到成熟的時期。許多重要的基本觀點和方法,以及數理統計學的主要分支學科,都是在這個時期建立和發展起來的。這個時期的成就,包含了至今仍在廣泛使用的大多數統計方法。在其發展中,以英國統計學家、 生物學家費希爾為代表的英國學派起了主導作用。
第三時期
戰後時期。這一時期中,數理統計學在應用和理論兩方面繼續獲得很大的進展。
分支學科
數理統計學內容龐雜,分支學科很多,難於作出一個周密而無懈可擊的分類。大體上可以劃分為如下幾類:
第一類
第一類分支學科是抽樣調查和試驗設計。它們主要討論在觀測和實驗數據的收集中有關的理論和方法問題,但並非與統計推斷無關。
第二類
第二類分支學科為數甚多,其任務都是討論統計推斷的原理和方法。各分支的形成是基於:
①特定的統計推斷形式,如參數估計和假設檢驗。
②特定的統計觀點,如 貝葉斯統計與 統計決策理論。
③特定的理論模型或樣本結構,如非參數統計、 多元統計分析、回歸分析、相關分析、序貫分析,時間序列分析和隨機過程統計。
第三類
第三類是一些針對特殊的應用問題而發展起來的分支學科,如產品抽樣檢驗、可靠性統計、統計質量管理等。
統計環節
用數理統計方法去解決一個實際問題時,一般有如下幾個步驟 :建立數學模型 ,收集整理數據,進行統計推斷、預測和決策。這些環節不能截然分開,也不一定按上述次序,有時是互相交錯的。
①模型的選擇和建立。在數理統計學中,模型是指關於所研究總體的某種假定,一般是給總體分布規定一定的類型。建立模型要依據概率的知識、所研究問題的專業知識、以往的經驗以及從總體中抽取的樣本(數據)。
②數據的收集。有全面觀測、抽樣觀測和安排特定的實驗3種方式。全面觀測又稱普查,即對總體中每個個體都加以觀測,測定所需要的指標。抽樣觀測又稱抽查,是指從總體中抽取一部分,測定其有關的指標值。這方面的研究內容構成數理統計的一個分支學科。叫抽樣調查。
③安排特定實驗以收集數據,這些特定的實驗要有代表性,並使所得數據便於進行分析。這裡面所包含的數學問題,構成數理統計學的又一分支學科,即 實驗設計的內容。
④數據整理。目的是把包含在數據中的有用信息提取出來 。 一種形式是制定適當的圖表,如散點圖,以反映隱含在數據中的粗略的規律性或一般趨勢。另一種形式是計算若干數字特徵,以刻畫樣本某些方面的性質,如樣本均值、樣本方差等簡單描述性統計量。
⑤ 統計推斷。指根據總體模型以及由總體中抽出的樣本,作出有關總體分布的某種論斷 。數據的收集和整理是進行統計推斷的必要準備,統計推斷是數理統計學的主要任務。
⑥ 統計預測。統計預測的對象,是隨機變量在未來某個時刻所取的值,或設想在某種條件下對該變量進行觀測時將取的值。例如,預測一種產品在未來3年內的市場銷售量,某個10歲男孩在3年後的身高,體重等等。
⑦統計決策。依據所做的統計推斷或預測,並考慮到行動的後果(以經濟損失的形式表示)而制定的一種行動方案。目的是使損失儘可能小,或反過來說,使收益儘可能大。例如,一個商店要決定今年內某種產品的進貨數量,商店的統計學家根據抽樣調查,預測該產品本店今年銷售量為1000件。假定每積壓一件產品損失20元,而少銷售一件產品則損失10元,要據此作出關於進貨數量的決策。
應用
數理統計方法在工農業生產、自然科學和技術科學以及社會經濟領域中都有廣泛的應用。 ①在農業中,對田間試驗進行適當的設計和統計分析。
② 實驗設計法、回歸設計和回歸分析、方差分析、多元分析等統計方法,在工業生產的試製新產品和改進老產品、改革工藝流程、使用代用原材料和尋求適當的配方等問題中起着廣泛的作用,統計質量管理在控制工業產品的質量中起着十分重要的作用。
③醫學是較早使用數理統計方法的領域之一 。在防治一種疾病時,需要找出導致這種疾病的種種因素,統計方法在發現和驗證這些因素上,是一個重要工具。另一方面的應用是,用統計方法確定一種藥物對治療某種疾病是否有用,用處多大,以及比較幾種藥物或治療方法的效力。
④在自然科學和技術科學中,如統計方法用於 地震、 氣象和水文方面的預報、地質資源的評價等。
⑤在社會、經濟領域方面,如人口調查和預測, 心理學中能力方面的分析等。
學習事項
1.由於數理統計是一門實用性極強的學科,在學習中要緊扣它的實際背景,理解統計方法的直觀含義。了解數理統計能解決那些實際問題。對如何處理抽樣數據,並根據處理的結果作出合理的統計推斷,該結論的可靠性有多少要有一個總體的思維框架,這樣,學起來就不會枯燥而且容易記憶。例如估計未知分布的數學期望,就要考慮到① 如何尋求合適的估計量的途徑,②如何比較多個估計量的優劣。這樣,針對①按不同的 統計思想可推出矩估計和極大似然估計,而針對②又可分為無偏估計、有效估計、相合估計,因為不同的估計名稱有着不同的含義,一個具體估計量可以滿足上面的每一個,也可能不滿足。掌握了尋求估計的統計思想,具體尋求估計的步驟往往是「套路子」的,並不困難,然而如果沒有從根本上理解,僅死背套路子往往會出現各種錯誤。?
2.許多人在學習數理統計過程中往往抱怨公式太多,置信區間,假設檢驗表格多而且記不住。事實上概括起來只有八個公式需要記憶,而且它們之間有着緊密聯繫,並不難記,而區間估計和假設檢驗中只是這八個公式的不同運用而已,關鍵在於理解區間估計和假設檢驗的統計意義,在理解基礎上靈活運用這八個公式,完全沒有必要死記硬背。
現實意義
籠統地說,數理統計學的理論和方法,與人類活動的各個領域在不同程度上都有關聯。因為各個領域內的活動,都得在不同的程度上與數據打交道。都有如何收集和分析數據的問題,因此也就有數理統計學用武之地。可以舉幾個例子來說明這一點,如在工業中生產一種產品,首先有設計的問題,包括配方和工藝條件的選定,這要通過從大量可能的條件組合中,通過分析試驗結果來選定,可能的條件組合很多,選擇哪一部分去做試驗是一個很有講究的問題,在數理統計學中有一個專門分支叫「試驗設計」,就是研究怎樣在儘可能少的試驗次數之下,達到儘可能高效率的分析結果;其次,在生產過程中,由於原材料,設備調整及工藝參數等條件可能的變化,而造成生產條件不正常並導致出現廢品,在統計學中有一門「 工序控制」的學問,通過在生產過程中隨時收集數據並用統計方法進行處理,可以監測出不正常情況的出現以便隨時加以糾正,避免出大的問題;然後,大批量的產品生產出來後,還有一個通過抽樣檢驗以檢驗其質量是否達到要求,是否可以出廠或為買方所接受的問題,處理這個問題也要使用數理統計方法,在我國現行的國家標準中有一些就與這個問題有關。
在農業上,有關選種,耕作條件, 肥料選擇等一系列的問題的解決,都與統計方法的應用有關,在歷史上,現行的一些重要的統計設計與分析方法,就是近代最偉大的數理統計學家費歇爾於上世紀20年代在英國一個農業試驗站工作時,因研究田間試驗的問題而發明的。
醫學與生物學是統計方法應用最多的領域之一, 統計學是在有變異的數據中研究和發現統計規律的科學,就醫學而言,人體變異是一個重要的因素,不同的人的情況千差萬別,其對一種藥物和治療方法的反應也各不相同,因此,對一種藥物和治療方法的評價,是一種統計性規律的問題,不少國家對一種新藥的上市和一種治療方法的批准,都設定了很嚴格的試驗和統計檢驗的要求。又如:許多生活習慣(如吸煙、飲酒、高鹽飲食之類)對健康的影響,環境污染對健康的影響,都要通過收集大量數據進行統計分析來研究。
對社會現象的研究大量地使用統計方法,因為組成社會的單元——人、家庭、單位、地區等,都有很大的變異性,如果說,在自然現象中還不乏一些(在誤差可以允許的限度內)嚴格的、確定性的規律,在社會現象中這種規律則絕少,因此只能從統計的角度去考察,我們常說,某某措施,某某政策,對大多數人是有利的,這就是一種統計性規律,因為這種「有利」是指對大多數,而非一切人。在20世紀初,就有統計學家研究過在英國幾種救助貧困的方式的效果的評估,這都是藉助抽樣調查並通過複雜的統計分析得出的結果。如今,抽樣調查已經成為研究社會現象的一種最有力的工具,因為全面調查往往不可行,而抽樣調查,從其方案的制定到數據的分析,都是以數理統計學的理論和方法為基礎。
學科奠基者
數理統計作為一個進一步完善的數學學科的奠基者是英國人費歇爾。他1909年入劍橋大學,攻讀 數學物理專業,三年後畢業。畢業後,他曾去投資辦工廠,又到加拿大農場管過雜務,也當過中學教員。1919年,他開始對 生物統計學產生了濃厚的興趣,參加羅薩姆斯 泰德試驗站的工作,致力於數理統計在農業科學和遺傳學中(費歇爾1890—1962)的應用研究。
年輕的費歇爾主要的研究工作是用數學將樣本的分布給以嚴格的確定。在一般人看來枯燥乏味的數學,常能帶給研究者極大的慰藉。 費歇爾熱衷於數理統計的研究工作,後來的理論研究成果有:數據信息的測量、壓縮數據而不減少信息、對一個模型的參數估計等。
最使科學家稱讚的工作則是試驗設計,它將一切科學試驗從某一個側面「科學化」了,不知節省了多少人力和物力,提高了若干倍的工效。
費歇爾培養了一個學派,其中有專長純數學的,有專長應用數學的。在30-50年代費歇爾是統計學的中心人物。1959年費歇爾退休後在 澳大利亞度過了最後三年。
新版圖書信息
書 名: 數理 統計學
作 者: 張潤楚
出版社: 科學出版社
出版時間: 2010年12月1日
ISBN: 9787030293053
開本: 16開
定價: 25.00元
內容簡介
《數理統計學》是教育部高等學校統計學教學指導分委員會推薦教材《數理統計學》從我國經濟、管理類各專業教學的實際出發,以統計思想為主線,堅持「少而精」的原則,深入淺出地介紹統計學發展至今的一些基本知識,包含了現有一些常用的統計思想、理論和方法,主要內容包括:總體、樣本、統計量的概念,常用分布,點估計理論,假設檢驗理論,區間估計,線性模型以及統計決策理論和貝葉斯推斷等。《數理統計學》強調統計學的基本思想以及和理論方法的有機結合,並通過實例體現數理統計學的豐富內容和啟示讀者如何 應用統計學的理論和方法。
《數理統計學》可作為經濟、管理類各專業本科生、研究生的教材和教學參考書,也適合於自學數理統計學的讀者閱讀。
圖書目錄
總序
前言
第1章 基本知識
1.1 數據描述
1.2 總體、樣本、統計量
1.2.1 總體
1.2.2 樣本
1.2.3 統計量
1.3 一些常用分布
1.3.1 離散型分布和連續型分布
1.3.2 正態分布
1.3.3 χ2分布、t分布和F-分布
1.3.4 Γ-分布與β-分布
1.3.5 指數型分布族
1.4 統計量與抽樣分布
1.4.1 矩統計量
1.4.2 次序統計量
1.5 統計量的充分性和完全性
1.5.1 充分統計量
1.5.2 充分性因子分解判定定理
1.5.3 統計量的完全性
1.6 習題
第2章 點估計
2.1 估計方法
2.1.1 參數估計問題
2.1.2 矩估計方法
2.1.3 極大似然估計法
2.1.4 估計量的比較
2.2 無偏估計
2.2.1 有效估計
2.2.2 一致最小方差無偏估計
2.2.3 U-統計量
2.3 估計量的漸近性質
2.3.1 相合性
2.3.2 漸近正態性
2.3.3 極大似然估計的漸近性質
2.4 習題
第3章 假設檢驗
3.1 基本概念
3.1.1 假設檢驗問題
3.1.2 兩類錯誤和功效函數
3.2 一致最大功效檢驗
3.2.1 Neyman-Pearson(奈曼一皮爾遜)引理
3.2.2 單調似然比分布族與單側檢驗
3.3 正態分布參數的假設檢驗
3.3.1 一個正態總體的參數檢驗
3.3.2 兩個正態總體的參數檢驗
3.4 幾種常用的非參數檢驗
3.4.1 符號檢驗
3.4.2 秩和檢驗
3.5 X2擬合優度檢驗
3.5.1 分布函數的擬和優度檢驗
3.5.2 獨立性檢驗
3.6 正態性檢驗
3.6.1 小樣本的W檢驗
3.6.2 大樣本的D檢驗
3.7 習題
第4章 區間估計
4.1 基本概念
4.2 區間估計的方法
4.2.1 樞軸量
4.2.2 總體均值的置信區間
4.2.3 兩個總體均值之差的置信區間
4.2.4 總體方差的置信區間
4.2.5 兩個總體方差比的置信區間
4.2.6 比率p的置信區間
4.3 習題
第5章 線性統計模型初步
5.1 線性模型的描述
5.2 單因子方差分析
5.2.1 問題的提出
5.2.2 單因素方差分析的統計模型
5.2.3 檢驗方法
5.2.4 重複數相同的方差分析
5.2.5 多重比較
5.3 兩因子方差分析
5.3.1 非重複試驗的兩因子方差分析
5.3.2 重複試驗的兩因子方差分析
5.4 一元線性回歸
5.4.1 一元線性回歸模型
5.4.2 相關性與回歸
5.4.3 回歸係數的最小二乘估計
5.4.4 回歸方程的顯著性檢驗
5.5 多自變量線性回歸
5.5.1 數據的描述及模型
5.5.2 相關性與回歸
5.5.3 回歸係數的解釋、估計及性質
5.5.4 線性回歸模型的假設檢驗
5.5.5 回歸診斷和變量選擇
5.6 習題
第6章 統計決策理論與貝葉斯推斷
6.1 統計決策理論
6.1.1 決策問題
6.1.2 損失函數
6.1.3 決策函數
6.1.4 風險函數[1]
6.1.5 最小最大估計
6.2 貝葉斯估計
6.2.1 先驗分布
6.2.2 貝葉斯風險
6.2.3 後驗分布
6.2.4 最小後驗風險準則
6.3 習題