正態分布檢視原始碼討論檢視歷史
正態分布 | |
---|---|
正態分布,又名高斯分布(Gaussian distribution),是一個在數學、物理及工程等領域都非常重要的概率分布,在統計學的許多方面有着重大的影響力。若隨機變量服從一個位置參數、尺度參數的概率分布,記為:則其概率密度函數為正態分布的數學期望值或期望值等於位置參數,決定了分布的位置;其方差的開平方或標準差等於尺度參數,決定了分布的幅度。[1]
正態分布的概率密度函數曲線呈鐘形,因此人們又經常稱之為鐘形曲線。我們通常所說的標準正態分布是位置參數為0, 尺度參數為1的正態分布(見右圖中綠色曲線)。
基本概念
正態分布(Normal distribution)是一種概率分布。正態分布是具有兩個參數μ和σ^2的連續型隨機變量的分布,第一參數μ是遵從正態分布的隨機變量的均值,第二個參數σ^2是此隨機變量的方差,所以正態分布記作N(μ,σ^2 )。遵從正態分布的隨機變量的概率規律為取 μ鄰近的值的概率大 ,而取離μ越遠的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。
正態分布的密度函數的特點是:關於μ對稱,在μ處達到最大值,在正(負)無窮遠處取值為0,在μ±σ處有拐點。它的形狀是中間高兩邊低 ,圖像是一條位於x 軸上方的鐘形曲線。當μ=0,σ^2 =1時,稱為標準正態分布,記為N(0,1)。[2]
μ維隨機向量具有類似的概率規律時,稱此隨機向量遵從多維正態分布。多元正態分布有很好的性質,例如,多元正態分布的邊緣分布仍為正態分布,它經任何線性變換得到的隨機向量仍為多維正態分布,特別它的線性組合為一元正態分布。
主要特點
⒈ 估計頻數分布 一個服從正態分布的變量只要知道其均數與標準差就可根據公式即可估計任意取值範圍內頻數比例。
⒉ 制定參考值範圍
⑴正態分布法 適用於服從正態(或近似正態)分布指標以及可以通過轉換後服從正態分布的指標。
⑵百分位數法 常用於偏態分布的指標。表3-1中兩種方法的單雙側界值都應熟練掌握。
⒊ 質量控制:為了控制實驗中的測量(或實驗)誤差,常以 作為上、下警戒值,以 作為上、下控制值。這樣做的依據是:正常情況下測量(或實驗)誤差服從正態分布。
⒋ 正態分布是許多統計方法的理論基礎。檢驗、方差分析、相關和回歸分析等多種統計方法均要求分析的指標服從正態分布。許多統計方法雖然不要求分析指標服從正態分布,但相應的統計量在大樣本時近似正態分布,因而大樣本時這些統計推斷方法也是以正態分布為理論基礎的。
頻數分布
例1.10 某地1993年抽樣調查了100名18歲男大學生身高(cm),其均數=172.70cm,標準差s=4.01cm,①估計該地18歲男大學生身高在168cm以下者占該地18歲男大學生總數的百分數;②分別求X+-1s、X+-1.96s、X+-2.58s範圍內18歲男大學生占該地18歲男大學生總數的實際百分數,並與理論百分數比較。
本例,μ、σ未知但樣本含量n較大,按式(3.1)用樣本均數X和標準差S分別代替μ和σ,求得u值,u=(168-172.70)/4.01=-1.17。查附表標準正態曲線下的面積,在表的左側找到-1.1,表的上方找到0.07,兩者相交處為0.1210=12.10%。該地18歲男大學生身高在168cm以下者,約占總數12.10%。其它計算結果見表3。
表3 100名18歲男大學生身高的實際分布與理論分布
分布 x+-s 身高範圍(cm) 實際分布 人數 實際分布 百分數(%) 理論分布(%) X+-1s 168.69~176.71 67 67.00 68.27 X +-1.96s 164.84~180.56 95 95.00 95.00 X+-2.58s 162.35~183.05 99 99.00 99.00
醫學參考值
某些醫學現象,如同質群體的身高、紅細胞數、血紅蛋白量,以及實驗中的隨機誤差,呈現為正態或近似正態分布;有些指標(變量)雖服從偏態分布,但經數據轉換後的新變量可服從正態或近似正態分布,可按正態分布規律處理。其中經對數轉換後服從正態分布的指標,被稱為服從對數正態分布。
醫學參考值範圍亦稱醫學正常值範圍。它是指所謂「正常人」的解剖、生理、生化等指標的波動範圍。制定正常值範圍時,首先要確定一批樣本含量足夠大的「正常人」,所謂「正常人」不是指「健康人」,而是指排除了影響所研究指標的疾病和有關因素的同質人群;其次需根據研究目的和使用要求選定適當的百分界值,如80%,90%,95%和99%,常用95%;根據指標的實際用途確定單側或雙側界值,如白細胞計數過高過低皆屬不正常須確定雙側界值,又如肝功中轉氨酶過高屬不正常須確定單側上界,肺活量過低屬不正常須確定單側下界。另外,還要根據資料的分布特點,選用恰當的計算方法。常用方法有:
⑴正態分布法:適用於正態或近似正態分布的資料。
雙側界值:X+-u(u)^S單側上界:X+u(u)^S,或單側下界:X-u(u)^S
⑵對數正態分布法:適用於對數正態分布資料。
雙側界值:lg-1[X(lgx)+-u(u)S(lgx)];單側上界:lg-1[X(lgx)+u(u)S(lgx)],或單側下界:lg-1[X(lgx)-u(u)S(lgx)]。
常用u值可根據要求由表4查出。
⑶百分位數法:常用於偏態分布資料以及資料中一端或兩端無確切數值的資料。
雙側界值:P2.5和P97.5;單側上界:P95,或單側下界:P5。
表4常用u值表
參考值範圍(%) 單側 雙側 80 0.842 1.282 90 1.282 1.645 95 1.645 1.960 99 2.326 2.576
理論基礎
如t分布、F分布、分布都是在正態分布的基礎上推導出來的,u檢驗也是以正態分布為基礎的。此外,t分布、二項分布、Poisson分布的極限為正態分布,在一定條件下,可以按正態分布原理來處理。
概率論中最重要的分布
正態分布有極其廣泛的實際背景,生產與科學實驗中很多隨機變量的概率分布都可以近似地用正態分布來描述。例如,在生產條件不變的情況下,產品的強力、抗壓強度、口徑、長度等指標;同一種生物體的身長、體重等指標;同一種種子的重量;測量同一物體的誤差;彈着點沿某一方向的偏差;某個地區的年降水量;以及理想氣體分子的速度分量,等等。一般來說,如果一個量是由許多微小的獨立隨機因素影響的結果,那麼就可以認為這個量具有正態分布(見中心極限定理)。從理論上看,正態分布具有很多良好的性質 ,許多概率分布可以用它來近似;還有一些常用的概率分布是由它直接導出的,例如對數正態分布、t分布、F分布等。
主要內涵
在聯繫自然、社會和思維的實踐背景下,我們以正態分布的本質為基礎,以正態分布曲線及面積分布圖為表徵(以後談及正態分布及正態分布論就要浮現此圖),進行抽象與提升,抓住其中的主要哲學內涵,歸納正態分布論(正態哲學)的主要內涵如下:
整體論
正態分布啟示我們,要用整體的觀點來看事物。「系統的整體觀念或總體觀念是系統概念的精髓。」 正態分布曲線及面積分布圖由基區、負區、正區三個區組成,各區比重不一樣。用整體來看事物才能看清楚事物的本來面貌,才能得出事物的根本特性。不能只見樹木不見森林,也不能以偏概全。此外整體大於部分之和,在分析各部分、各層次的基礎上,還要從整體看事物,這是因為整體有不同於各部分的特點。用整體觀來看世界,就是要立足在基區,放眼負區和正區。要看到主要方面,還要看到次要方面,既要看到積極的方面還要看到事物消極的一面,看到事物前進的一面還要看到落後的一面。片面看事物必然看到的是偏態或者是變態的事物,不是真實的事物本身。
重點論
正態分布曲線及面積分布圖非常清晰的展示了重點,那就是基區占68.27%,是主體,要重點抓,此外95%,99%則展示了正態的全面性。認識世界和改造世界一定要住住重點,因為重點就是事物的主要矛盾,它對事物的發展起主要的、支配性的作用。抓住了重點才能一舉其綱,萬目皆張。事物和現象紛繁複雜,在千頭萬緒中不抓住主要矛盾,就會陷入無限瑣碎之中。由於我們時間和精力的相對有限性,出於效率的追求,我們更應該抓住重點。在正態分布中,基區占了主體和重點。如果我們結合20/80法則,我們更可以大膽的把正區也可以看做是重點。
發展論
聯繫和發展是事物發展變化的基本規律。任何事物都有其產生、發展和滅亡的歷史,如果我們把正態分布看做是任何一個系統或者事物的發展過程的話,我們明顯的看到這個過程經歷着從負區到基區再到正區的過程。無論是自然、社會還是人類的思維都明顯的遵循這這樣一個過程。準確的把握事物或者事件所處的歷史過程和階段極大的有助於掌握我們對事物、事件的特徵和性質,是我們分析問題,採取對策和解決問題的重要基礎和依據。發展的階段不同,性質和特徵也不同,分析和解決問題的辦法要與此相適應,這就是具體問題具體分析,也是解放思想、實事求是、與時俱樂進的精髓。正態發展的特點還啟示我們,事物發展大都是漸進的和累積的,走漸進發展的道路是事物發展的常態。例如,遺傳是常態,變異是非常態。
總之,正態分布論是科學的世界觀,也是科學的方法論,是我們認識和改造世界的最重要和最根本的工具之一,對我們的理論和實踐有重要的指導意義。以正態哲學認識世界,能更好的認識和把握世界的本質和規律,以正態哲學來改造世界,能更好的在尊重和利用客觀規律,更有效的改造世界。
教育統計學統計規律表明,學生的智力水平,包括學習能力,實際動手能力等呈正態分布。因而正常的考試成績分布應基本服從正態分布。考試分析要求繪製出學生成績分布的直方圖,以「中間高、兩頭低」來衡量成績符合正態分布的程度。其評價標準認為:考生成績分布情況直方圖,基本呈正態曲線狀,屬於好,如果略呈正(負)態狀,屬於中等,如果呈嚴重偏態或無規律,就是差的。
生產與科學實驗中很多隨機變量的概率分布都可以近似地用正態分布來描述。從概率統計規律看,「正常的考試成績分布應基本服從正態分布」是正確的。但是必須考慮人與物的本質不同,以及教育的有所作為可以使「隨機」受到干預,用曲線或直方圖的形狀來評價考試成績就有失偏頗。現在許多教育專家(如上海顧泠沅 、美國布魯姆等)已經通過實踐論證,教育是可以大有作為的,可以做到大多數學生及格,而且多數學生可以得高分,考試成績曲線是偏正態分布的。但是長期受到「中間高、兩頭低」標準的影響,限制了教師的作為,抑制了多數學生能夠學好的信心。這是很大的誤會。
通常正態曲線有一條對稱軸。當某個分數(或分數段)的考生人數最多時,對應曲線的最高點,是曲線的頂點。該分數值在橫軸上的對應點與頂點連接的線段就是該正態曲線的對稱軸。考生人數最多的值是峰值。我們注意到,成績曲線或直方圖實際上很少對稱的,稱之為峰線更合適。
弗朗西斯 弗朗西斯·高爾頓 [Francis Galton 1822.02.16-1911.01.17],英國探險家、優生學家、心理學家,差異心理學之父,也是心理測量學上生理計量法的創始人。
高爾頓對心理學的貢獻,大概可以歸納未差異心理學、心理測量的量化和實驗心理學三方面:
⒈他率先研究個體差異。他在倫敦南肯辛頓博物館他的人類測量實驗室內,利用儀器作人類學測量及心理測量。測量項目有身高、體重、肺活量、拉力和握力、扣擊的速率、聽力、視力、色覺等,以研究能力的個體差異。又用問答法研究意象的個體差異。要求被試先確定一件事,如早餐的情境,然後被試回憶心目中出現餐桌上實物的意象,即食物的鮮明度、確定度等。對答案整理後,他發現被試的意象有很大的個體差異:有的人以肌肉運動覺意象為主,有的人以聽覺意象為主,有的人以視覺意象為主。
他強調遺傳是形成個體差異的原因。他通過譜系調查,論證遺傳因素與個體差異的關係。他是第一個明確提出普通能力和特殊能力主張的人。他在調查 1768-1868 年這 100年間英國的首相、將軍、文學家和科學家共 977 名獲得智力成熟的人的家譜後發現,其中有 89 個父親、129 個兒子、114 個兄弟,共 332 名傑出人士。而在一般老百姓中 4000 人才產生一名傑出人士。因此斷言「普通能力」是遺傳的。在調查 30 家有藝術能力的家庭中,他發現這些家庭中的子女也有藝術能力的占 64%;而 150家無藝術能力的家庭,其子女中只有 21% 有藝術能力,因此斷言藝術能力 - 「特殊能力」也是遺傳的。他發現,遺傳親屬關係程度的降低,傑出親屬的比例也顯著地下降。他還用 80 對雙生子的資料,以雙生子比其他親兄弟、親姐妹在心理特點上更為相像的事例,證明人的心理完全是遺傳的。由此也使他第一個注意到同卵雙生和異卵雙生在估計遺傳和環境因素在人的變異方面的相對作用的方法論的重要性。高爾頓根據遺傳與個體差異的關係倡導善擇配偶,改良人種,並再 1883 年《人類才能及其發展的研究》一書中首創「優生學」這一術語。
⒉心理學研究之量化,始自高爾頓。他發明了許多感官和運動的測試,並以數量代表所測得的心理特質之差異。他認為人的所有特質,不管是物質的還是精神的,最終都可以定量敘述,這是實現人類科學的必要條件,故最先應用統計法處理心理學研究資料,重視數據的平均數與高中差數。他收集了大量資料證明人的心理特質在人口中的分布如同身高、體重那樣符合正態分布曲線。他在論及遺傳對個體差異的影響時,為相關係數的概念作了初步提示。如他研究了「居間親」和其成年子女的身高關係,發現居間親和其子女的身高有正相關,即父母的身材較高,其子女的身材也有較高的趨勢。反之,父母的身材較低,其子女也有較矮的趨勢。同時發現子女的身高常與其父母略有差別,而呈現「回中」趨勢,即離開其父母的身高數,而回到一般人身高的平均數。
⒊1883 年,高爾頓出版了《人類才能及其發展的研究》,書中概括地表述了兩項在實驗心理學中極為重要的研究方法和成果。第一個是關於自由聯想的實驗:他事先在 75 張紙條上各寫一個單詞,每次只讓受試者看一張紙條,再用一個精密的計時器測出由此引出的兩個即興到來的聯想所需的時間,然後對這些聯想在受試者的經驗中的可能起源加以分析,他發現最經常的聯想往往來自遙遠的童年。在這項實驗中,他還證實人類具有一種看到或聽到某一數字就能聯想到某一特定形狀的能力,他稱這種現象為「數目形」。第二個是關於心理意象的廣泛調查:他要求受試者先想一件確定的東西,然後儘量注意自己的「心視」畫面,並回答如明亮度,清晰度、色彩等一系列問題,並按其強度記分。值得一提的是,在這些研究中,他首先在心理學中引進了調查表和評分辦法。他對實驗心理學的貢獻還包括一系列他所發明的心理測驗儀器和測驗方法。有些儀器後來就以他的名字來命名,例如測量聽覺閾的高爾頓笛和測量視覺範圍的高爾頓棒,這些儀器直到 20 世紀 30 年代都是心理實驗室的標準儀器。他還用盛有不同物質的瓶子來測驗嗅覺,這一方法被後人沿用至今。除此之外,他又設計了測量肌肉感覺、反應力、觸覺的儀器和方法。
註:美國心理學家特爾曼(L. M. Terman)曾根據有關文獻的記載,用他自己設計的斯坦福 - 比納標準對幼年的高爾頓的智力進行了估算,他認為高爾頓 3-8 歲間的智力年齡幾乎等於實際年齡的 2 倍,其智商約為 200。
智力、能力
理查德·赫恩斯坦 [(Richard J. Herrnstein 1930.05.20-1994.09.13),美國比較心理學家]和默瑞(Charles Murray)合著《正態曲線》一書而聞名,在該書中他們指出人們的智力呈正態分布。智力主要是遺傳的並因種族的不同而不同,猶太人、東亞人的智商最高,其次為白人,表現最差的是黑人、西班牙裔人。他們檢討了數十年來心理計量學與政策學的研究成果,發現美國社會輕忽了智商的影響愈變愈大的趨勢。他們力圖證明,美國現行的偏向於以非洲裔和南美裔為主的低收入階層的社會政策,如職業培訓、大學教育等,完全是在浪費資源。他們利用應募入伍者的測試結果證明,黑人青年的智力低於白人和黃種人;而且,這些人的智力已經定型,對他們進行培訓收效甚微。因此,政府應該放棄對這部分人的教育,把錢用於包括所有種族在內的啟蒙教育,因為孩子的智力尚未定型,開發潛力大。由於此書涉及黑人的智力問題,一經出版便受到來自四面八方的圍攻。
基本術語
正態分布應用最廣泛的連續概率分布,其特徵是「鍾」形曲線。
附:這種分布的概率密度函數為:
⒈正態分布:若已知的密度函數(頻率曲線)為正態函數(曲線)則稱已知曲線服從正態分布,記號 ~。其中μ、σ^2 是兩個不確定常數,是正態分布的參數,不同的μ、不同的σ^2對應不同的正態分布。
正態曲線呈鍾型,兩頭低,中間高,左右對稱,曲線與橫軸間的面積總等於1。
2.正態分布的特徵:服從正態分布的變量的頻數分布由μ、σ完全決定。
集中性:正態曲線的高峰位於正中央,即均數所在的位置。對稱性:正態曲線以均數為中心,左右對稱,曲線兩端永遠不與橫軸相交。
均勻變動性:正態曲線由均數所在處開始,分別向左右兩側逐漸均勻下降。
正態分布有兩個參數,即均數μ和標準差σ,可記作N(μ,σ²):均數μ決定正態曲線的中心位置;標準差σ決定正態曲線的陡峭或扁平程度。σ越小,曲線越陡峭;σ越大,曲線越扁平。
u變換:為了便於描述和應用,常將正態變量作數據轉換。μ是正態分布的位置參數,描述正態分布的集中趨勢位置。正態分布以X=μ為對稱軸,左右完全對稱。正態分布的均數、中位數、眾數相同,均等於μ。
σ描述正態分布資料數據分布的離散程度,σ越大,數據分布越分散,σ越小,數據分布越集中。也稱為是正態分布的形狀參數,σ越大,曲線越扁平,反之,σ越小,曲線越瘦高。
標準正態曲線
標準正態曲線N(0,1)是一種特殊的正態分布曲線,以及標準正態總體在任一區間(a,b)內取值概率。
「小概率事件」和假設檢驗的基本思想 「小概率事件」通常指發生的概率小於5%的事件,認為在一次試驗中該事件是幾乎不可能發生的。這種認識便是進行推斷的出發點。關於這一點我們要有以下兩個方面的認識:一是這裡的「幾乎不可能發生」是針對「一次試驗」來說的,因為試驗次數多了,該事件當然是很可能發生的;二是當我們運用「小概率事件幾乎不可能發生的原理」進行推斷時,我們也有5%的犯錯誤的可能。
面積分布
1.實際工作中,正態曲線下橫軸上一定區間的面積反映該區間的例數占總例數的百分比,或變量值落在該區間的概率(概率分布)。不同 範圍內正態曲線下的面積可用公式計算。
⒉幾個重要的面積比例 軸與正態曲線之間的面積恆等於1。正態曲線下,橫軸區間(μ-σ,μ+σ)內的面積為68.27%,橫軸區間(μ-1.96σ,μ+1.96σ)內的面積為95.00%,橫軸區間(μ-2σ,μ+2σ)內的面積為95.44%,橫軸區間[0,μ+2σ)內的面積為97.72%,橫軸區間(μ-2.58σ,μ+2.58σ)內的面積為99.00%,橫軸區間(μ-3σ,μ+3σ)內的面積為99.73%。
標準正態曲線
1.標準正態分布是一種特殊的正態分布,標準正態分布的μ和σ^2為0和1,通常用ξ(或Z)表示服從標準正態分布的變量,記為 Z~N(0,1)。
2.標準化變換:此變換有特性:若原分布服從正態分布 ,則Z=(x-μ)/σ ~ N(0,1) 就服從標準正態分布,通過查標準正態分布表就可以直接計算出原正態分布的概率值。故該變換被稱為標準化變換。
⒊ 標準正態分布表:標準正態分布表中列出了標準正態曲線下從-∞到X(當前值)範圍內的面積比例。
兩種正態分布
一般正態分布與標準正態分布的轉化
由於一般的正態總體 其圖像不一定關於y軸對稱,對於任一正態總體 ,其取值小於x的概率。只要會用它求正態總體 在某個特定區間的概率即可。「小概率事件」和假設檢驗的基本思想「小概率事件」通常指發生的概率小於5%的事件,認為在一次試驗中該事件是幾乎不可能發生的。這種認識便是進行推斷的出發點。關於這一點我們要有以下兩個方面的認識:一是這裡的「幾乎不可能發生」是針對「一次試驗」來說的,因為試驗次數多了,該事件當然是很可能發生的;二是當我們運用「小概率事件幾乎不可能發生的原理」進行推斷時,我們也有5%的犯錯誤的可能。
一般正態分布與標準正態分布的區別與聯繫
正態分布也叫常態分布,是連續隨機變量概率分布的一種,自然界、人類社會、心理和教育中大量現象均按正態形式分布,例如能力的高低,學生成績的好壞等都屬於正態分布。標準正態分布是正態分布的一種,具有正態分布的所有特徵。所有正態分布都可以通過Z分數公式轉換成標準正態分布。
兩者特點比較:
⑴正態分布的形式是對稱的,對稱軸是經過平均數點的垂線。
⑵中央點最高,然後逐漸向兩側下降,曲線的形式是先向內彎,再向外彎。
⑶正態曲線下的面積為1。正態分布是一族分布,它隨隨機變量的平均數、標準差的大小與單位不同而有不同的分布形態。標準正態分布是正態分布的一種,其平均數和標準差都是固定的,平均數為0,標準差為1。
⑷正態分布曲線下標準差與概率面積有固定數量關係。所有正態分布都可以通過Z分數公式轉換成標準正態分布。
主要特徵
1.集中性:正態曲線的高峰位於正中央,即均數所在的位置。
2.對稱性:正態曲線以均數為中心,左右對稱,曲線兩端永遠不與橫軸相交。
3.均勻變動性:正態曲線由均數所在處開始,分別向左右兩側逐漸均勻下降。
4.正態分布有兩個參數,即均數μ和標準差σ,可記作N(μ,σ²):均數μ決定正態曲線的中心位置;標準差σ決定正態曲線的陡峭或扁平程度。σ越小,曲線越陡峭;σ越大,曲線越扁平。
5.u變換:為了便於描述和應用,常將正態變量作數據轉換。
3σ原則
正態分布曲線性質:
1、當x<μ時,曲線單調上升;當x>μ時,曲線單調下降,當曲線向左右兩邊無限延伸時,以x軸為漸近線;
2、正態曲線關於直線x=μ對稱;
3、σ越大,曲線最大值越小,正態曲線越扁平;σ越小,曲線最大值越大,正態曲線越尖陡;
4、在正態曲線下方和x軸上方範圍內區域面積為1(概率分布函數性質);
5、當x=μ時,曲線取最大值1/√﹙2π﹚σ。
3σ原則:P(μ-σ<X≤μ+σ)=68.26%;P(μ-2σ<X≤μ+2σ)=95.44%;P(μ-3σ<X≤μ+3σ)=99.74%。
其他資料
歷史發展
正態分布是最重要的一種概率分布。正態分布概念是由德國的數學家和天文學家Moivre於1733年首次提出的,但由於德國數學家Gauss率先將其應用於天文學家研究,故正態分布又叫高斯分布,高斯這項工作對後世的影響極大,他使正態分布同時有了「高斯分布」的名稱,後世之所以多將最小二乘法的發明權歸之於他,也是出於這一工作。高斯是一個偉大的數學家,重要的貢獻不勝枚舉。但現今德國10馬克的印有高斯頭像的鈔票,其上還印有正態分布的密度曲線。這傳達了一種想法:在高斯的一切科學貢獻中,其對人類文明影響最大者,就是這一項。在高斯剛作出這個發現之初,也許人們還只能從其理論的簡化上來評價其優越性,其全部影響還不能充分看出來。這要到20世紀正態小樣本理論充分發展起來以後。拉普拉斯很快得知高斯的工作,並馬上將其與他發現的中心極限定理聯繫起來,為此,他在即將發表的一篇文章(發表於1810年)上加上了一點補充,指出如若誤差可看成許多量的疊加,根據他的中心極限定理,誤差理應有高斯分布。這是歷史上第一次提到所謂「元誤差學說」——誤差是由大量的、由種種原因產生的元誤差疊加而成。後來到1837年,海根(G.Hagen)在一篇論文中正式提出了這個學說。
其實,他提出的形式有相當大的局限性:海根把誤差設想成個數很多的、獨立同分布的「元誤差」 之和,每隻取兩值,其概率都是1/2,由此出發,按狄莫佛的中心極限定理,立即就得出誤差(近似地)服從正態分布。拉普拉斯所指出的這一點有重大的意義,在於他給誤差的正態理論一個更自然合理、更令人信服的解釋。因為,高斯的說法有一點循環論證的氣味:由於算術平均是優良的,推出誤差必須服從正態分布;反過來,由後一結論又推出算術平均及最小二乘估計的優良性,故必須認定這二者之一(算術平均的優良性,誤差的正態性) 為出發點。但算術平均到底並沒有自行成立的理由,以它作為理論中一個預設的出發點,終覺有其不足之處。拉普拉斯的理論把這斷裂的一環連接起來,使之成為一個和諧的整體,實有着極重大的意義。
概念及特徵
一、
正態分布的概念
由一般分布的頻數表資料所繪製的直方圖,圖⑴可以看出,高峰位於中部,左右兩側大致對稱。我們
設想,如果觀察例數逐漸增多,組段不斷分細,直方圖頂端的連線就會逐漸形成一條高峰位於中央(均數所在處),兩側逐漸降低且左右對稱,不與橫軸相交的光滑曲線圖⑶。這條曲線稱為頻數曲線或頻率曲線,近似於數學上的正態分布(normal distribution)。由於頻率的總和為100%或1,故該曲線下橫軸上的面積為100%或1。
為了應用方便,常對正態分布變量X作變量變換。
該變換使原來的正態分布轉化為標準正態分布 (standard normal distribution),亦稱u分布。u被稱為標準正態變量或標準正態離差(standard normal deviate)。
實際工作中,常需要了解正態曲線下橫軸上某一區間的面積占總面積的百分數,以便估計該區間的例數占總例數的百分數(頻數分布)或觀察值落在該區間的概率。正態曲線下一定區間的面積可以通過附表1求得。對於正態或近似正態分布的資料,已知均數和標準差,就可對其頻數分布作出概約估計。
查附表1應注意:①表中曲線下面積為-∞到u的左側累計面積;②當已知μ、σ和X時先按式u=(X-μ)/σ求得u值,再查表,當μ、σ未知且樣本含量n足夠大時,可用樣本均數X1和標準差S分別代替μ和σ,按u=(X-X1)/S式求得u值,再查表;③曲線下對稱於0的區間面積相等,如區間(-∞,-1.96)與區間(1.96,∞)的面積相等,④曲線下橫軸
上的總面積為100%或1。
圖2 正態曲線與標準正態曲線的面積分布
正態分布的應用某些醫學現象,如同質群體的身高、紅細胞數、血紅蛋白量、膽固醇等,以及實驗中的隨機誤差,呈現為正態或近似正態分布;有些資料雖為偏態分布,但經數據變換後可成為正態或近似正態分布,故可按正態分布規律處理。
考試成績及學生綜合素質研究
教育統計學 統計規律表明,學生的智力水平,包括學習能力,實際動手能力等呈正態分布。因而正常的考試成績分布應基本服從正態分布。考試分析要求繪製出學生成績分布的直方圖,以「中間高、兩頭低」來衡量成績符合正態分布的程度。其評價標準認為:考生成績分布情況直方圖,基本呈正態曲線狀,屬於好,如果略呈正(負)態狀,屬於中等,如果呈嚴重偏態或無規律,就是差的。生產與科學實驗中很多隨機變量的概率分布都可以近似地用正態分布來描述。
從概率統計規律看,「正常的考試成績分布應基本服從正態分布」是正確的。但是必須考慮人與物的本質不同,以及教育的有所作為可以使「隨機」受到干預,用曲線或直方圖的形狀來評價考試成績就有失偏頗。現在許多教育專家(如上海顧泠沅 、美國布魯姆等)已經通過實踐論證,教育是可以大有作為的,可以做到大多數學生及格,而且多數學生可以得高分,考試成績曲線是偏正態分布的。但是長期受到「中間高、兩頭低」標準的影響,限制了教師的作為,抑制了多數學生能夠學好的信心。這是很大的誤會。通常正態曲線有一條對稱軸。當某個分數(或分數段)的考生人數最多時,對應曲線的最高點,是曲線的頂點。該分數值在橫軸上的對應點與頂點連接的線段就是該正態曲線的對稱軸。考生人數最多的值是峰值。我們注意到,成績曲線或直方圖實際上很少對稱的,稱之為峰線更合適。
群體、數量遺傳學
群體 理想群體 無限群體 有限群體 孟德爾式群體 異質群體 同質群體 平衡群體 有效群體大小 交配系統 隨機交配 同型交配 選型交配 異型交配 矯正交配 基因庫 基因多樣性 基因流 基因一致性 遺傳平衡 瓶頸效應 建立者效應 遺傳漂變 突變壓 基因型頻率 基因頻率 哈迪-溫伯格平衡 賴特平衡 連鎖平衡 連鎖不平衡 遺傳沖刷 遺傳距離 遺傳死亡 遺傳負荷 突變負荷 分離負荷 遷移負荷 置換負荷 致死當量 性狀趨異 性狀趨同 適應性 共適應 孟德爾抽樣 適合度 雜合度 純合度 有效等位基因數 多態基因座 多態信息含量 遷入 遷移 平衡多態性 工業黑化現象 過渡性多態性 二態性 多樣性中心 倫施法則 多基因 主基因 主-多基因混合遺傳 多基因系統 超親遺傳 超顯性 質量性狀 數量性狀 閾[值]性狀 度量性狀 連續性狀 目標性狀 輔助性狀 信息性狀 連續變異 不連續變異 相關變異 偶然變異 表型值 表型分布 高爾頓定律 霍爾丹法則 世代交替 世代間隔 閾值 閾[值]模型 加性效應 非加性效應 顯性效應 基因型值 加性基因 環境效應 暫時性環境效應 永久性環境效應 共同環境效應 環境相關 育種值 估計育種值 綜合育種值 表型方差 環境方差 遺傳方差 加性遺傳方差 非加性遺傳方差 顯性方差 上位方差 表型相關 表型選擇差 遺傳協方差 環境協方差 顯性度 重複率
組內相關係數 遺傳率 廣義遺傳率 狹義遺傳率 實現遺傳率 實現遺傳相關 互補交配 同胞 半同胞 全同胞 同胞群 品系 品種 純種 變種 單源種 同型種 同胞種 原種 亞種 純系繁育 雜交不育性 近交 近交系 近親交配 半同胞交配 全同胞交配 異族通婚 遠交 漸滲雜交 級進雜交 遠緣雜交 輪迴親本 非輪迴親本 雙列雜交 不完全雙列雜交 雙因子雜種率 三列雜交 遠緣雜種 配合力 一般配合力 特殊配合力 同胞分析 同胞配對法 同胞選擇 同胞對分析 遺傳評估 遺傳相關 遺傳獲得量 遺傳傳遞力 通徑係數 近親 近交係數 近親係數 親緣係數 選擇 選擇係數 選擇指標 選擇指數 綜合選擇指數 選擇壓[力] 選擇差 選擇反應 相關選擇反應 選擇極限 選擇強度 單性狀選擇 多性狀選擇 順序選擇法 約束選擇 最宜選擇 家系內選擇 家系選擇 合併選擇 間接選擇 人工選擇 個體選擇 集團選擇 混合選擇 截斷選擇 標記輔助選擇 標記輔助導入 獨立淘汰法 對數優勢比 候選基因 候選基因分析 混合家系 混合模型 混合模型方程組 最佳線性無偏估計量 最佳線性無偏預測 近交衰退 同源相同基因 經濟加權值 孟德爾抽樣離差 配子模型 頻率分布 數量性狀基因座 適應性輻射 雜交育種 突變育種 雜種優勢 雜交弱勢 基因型與環境互作 總體 樣本 總體參數 統計量 準確性 精確性 [數學]期望 無偏估計量 方差 標準差 標準誤[差] 抽樣方差 變異係數 協方差 隨機變量 連續性隨機變量 離散性隨機變量 相關 相關係數 相關分析 回歸分析
回歸係數 一元回歸 多元回歸 回歸方程 方差分析 最大似然法 置信區間 正態分布 抽樣分布 數學生態學術語 隨機分布 均勻分布 泊松分布 核心分布 聚集分布 奈曼分布 泰勒冪法則 χ2分布 正態分布 χ2檢驗 聚類分析 列聯表 相關係數 多元分析 隨機化區組 秩和檢驗 t檢驗 方差分析 變異係數 典範相關 序貫抽樣 隨機抽樣 分層隨機抽樣 雙重抽樣 系統抽樣 黑箱模型 白箱模型 還原性模型 整體性模型 自治模型 非自治模型 獵物-捕食者模型 空間明晰的種群模型 自由體模型 霍林圓盤方程 概率單位變換 分對數變換 腳踏石模型 無限[等位]基因突變模型 逐步突變模型 更新概率模型 靜態模型 動態模型 確定性模型 萊斯利矩陣 島嶼模型 大陸-島嶼模型 距離隔離模型 功能反應 數值反應 周限增長率 幾何增長率 指數增長 邏輯斯諦增長 S型生長曲線 平均擁擠度 擁擠效應 世代離散 世代重疊 種群指數 分布參數系統 集中參數系統 線性系統 非線性系統 確定性系統 隨機系統 常係數系統 變係數系統 分室系統方法 實驗組成成分法 反饋 靈敏度 生態緩衝能力 狀態變量 模擬 校準 檢驗 驗證 約束方程 穩定性
變異性 突變論 博弈論 生態位轉移 熵 無序 霍普夫分岔 辛普森多樣性指數 香農-維納多樣性指數 李雅普諾夫指數 相空間 吸引子 奇異吸引子 1\/f噪聲 自相似 分形 分數維 混沌 諧波分析 數學名詞 八邊形 八面體 百分比 百分點 百分位數 半徑 半球 半圓 被乘數 被除數 被加數 被減數 比 比例 邊 變量 標準差 表面積 並集 補集 不等邊三角形 不等式 不定積分 差 長 常量 乘 乘方 乘數 除 除數 垂心 次方 次方根 大於 大於等於 代數 單調性 單項式 導數 等邊三角形 等式方程式 等腰三角形 等腰梯形 等於 底 底面 點 定積分 定理 定義域 對數 鈍角 鈍角三角形 多邊形 多面體 二次方程 多項式 二次方根平方根 二次方平方 二進制 二十面體 反餘割 反餘切 反餘弦 反正割 反正切 反正弦 方差 非正態分布 分布 分母 分數 分子 負 複數
高 公理 公式 勾股定理 軌跡 函數 和 橫坐標 弧 弧度 環 積 積分 極限 集合 幾何 計算 加 加權平均數 加數 假設 減 減數 交集 角 角度 階乘 截尾 進位 九邊形 九面體 矩形 矩陣 開方 空集 空間 寬 稜台 稜柱 稜錐 立方體 菱形 零 六邊形 六面體 面 面積 命題 內切圓 內心 排列 旁心 拋物線 平角 平均數 平行 平行六面體 平行四邊形 七邊形 七面體 奇偶性 球 曲線統計圖 全等 權 銳角 銳角三角形 三次方程 三次方根立方根 三次方立方 三角 三角形 扇形 扇形統計圖 商 上捨入 射線 十邊形 十二邊形 十二面體 十進制 十六進制 十面體 十一邊形 十一面體 實數 數 數列級數 數字 雙曲線 四邊形 四次方 四次方程 四次方根 四面體 四捨五入 算術 梯形 體 體積 條形統計圖 統計 圖表 圖象 橢圓 外切圓 外心
微分 微積分 未知數 無理數 無窮大 無窮小 無效數字 五邊形 五面體 係數 下捨入 線 線段 相交 相似 相位 小數 小數點 小於 小於等於 斜邊 行列式 虛數 旋轉 一次方程 映射 有理數 有效數字 餘割 餘切 餘弦 元素 原點 圓 圓台 圓心 圓周 圓周率 圓柱 圓錐 運算 運算符 折線統計圖 振幅 整數 正 正多邊形 正方形 正割 正切 正態分布 正弦 證明 直角 直角邊 直角三角形 直角梯形 直徑 值域 指數冪 重心 周長 周角 周期 周期性 軸 柱形統計圖 子集 自然數 縱坐標 組合 坐標系 坐標軸 化學名詞 阿累尼烏斯方程 氨 螯合劑 螯合物 螯合物 半反應 半微量分析 苯 比色分析 變異係數 標定 標準電極電勢 標準曲線 標準溶液 標準自由能變 表徵 查依采夫規則 產物 常規分析 常量分析 沉澱反應 陳化 臭氧 船型構象 醇 磁性 次序規則 催化 催化反應 催化劑 單分子親核取代反應 單分子消除反應 單色器 氮族元素 滴定 滴定度 滴定分析 滴定誤差 滴定終點 狄爾斯阿爾得反應 碘量法 電池電動勢 電負性 電荷數 電化學分析 電極電勢 電解 電解質 電離 電離能
電子 電子的波動性 電子構型 電子自旋 定量分析 定性分析 對映體 多電子原子 多相離子平衡 多原子分子 二氧化碳 反應的活化能 反應方向 反應機理 反應級數 反應歷程 反應熱 反應速率 反應速率 范德華方程 芳香性 芳香族化合物 放射性 非金屬 非晶體 非均相催化劑 菲舍爾投影式 費林試劑 分光光度法 分析化學 分子軌道 分子軌道理論 分子間力 分子間作用力 分子空間構型 酚酞 伏特電池 副反應係數 傅列德爾克拉夫茨反應 蓋斯定律 高錳酸鉀 高錳酸鉀 格利雅試劑 汞 共沉澱 共軛二烯烴 共軛雙鍵 共軛酸鹼對 共軛酸鹼對 共軛體系 共軛效應 共價鍵 共價鍵 共性 構象異構體 構象 構型 孤對電子 官能團 光源 硅的存在和製備 硅酸 硅酸鹽 軌道 軌道能量 軌道重疊 過程 過渡金屬 過濾 過失誤差 過氧化氫 過氧化物和超氧化物 過氧化物效應 耗氧量 合金 核磁共振 核化學 核聚變 核裂變 紅外光譜 紅移 互變異構現象 化合物 化學反應 化學反應的通式 化學方程式配平 化學分析 化學計量點 化學位移 化學平衡 化學需氧量 化學因數 還原 緩衝容量 緩衝溶液 緩衝溶液 活化能 活性中間體 霍夫曼規則 基準物質 極性分子 繼沉澱 加成反應 甲基橙
價層電子對互斥理論 價鍵理論 價鍵理論 檢測系統 鹼金屬 鹼土金屬 鍵長 鍵級 鍵角 鍵矩 鍵能 結構異構 解蔽 解離常數 金屬 金屬鍵 金屬晶體 金屬離子的水解 金屬指示劑 晶體結構 精密度 聚合物 均相催化劑 開鏈族化合物 凱庫勒結構式 坎尼扎羅反應 克萊門森還原 克萊森酯縮合反應 克萊森重排 鑭系元素 累積穩定常數 離去基團 離子的沉澱與分離 離子的選擇沉澱 離子方程式配平 離子晶體 離子偶極力 理想氣體狀態方程分壓 立體化學 立體異構 立體異構體 量子數 列·沙特列原理 磷酸 磷酸鹽 零水準 硫化物 盧卡斯試劑 鹵代烴 鹵仿反應 鹵化磷 鹵化物 鹵素 路易斯酸鹼 氯化物 麥克爾反應 酶 醚 摩爾吸光係數 能斯特方程 紐曼投影式 濃度 偶極矩 偶然誤差 泡林不相容原理 配離子的形成 配位化合物 配位數 配位數 配位體 配位原子 硼氫化反應 硼烷 偏差 硼族元素 平衡常數 親電加成 親電試劑 親電性 親核加成 親核取代反應 親核試劑 氫化物 氫鍵 氫氧化物 氫原子的波爾模型 傾瀉法 球密堆積 區元素 醛 熱力學第二定律 熱力學第一定律 熱與功 溶度積常數 溶解度 溶解氧
色譜分析 色散 熵 熵變 生成焓 石墨 試劑 鈰量法 手性分子 雙分子親核取代反應 雙分子消除反應 雙原子分子 水的離子積 水合氫離子 水合質子 水離解 順反異構 速率常數 酸和鹼 酸鹼 酸鹼的相對強度 酸鹼滴定法 酸鹼指示劑 酸鹼質子理論 酸效應係數 羧酸 羧酸衍生物 碳負離子 碳化物 碳水化合物 碳酸 碳酸鹽 碳正離子 碳族元素 鐵 同分異構體 同分異構現象 同離子效應 同位素 銅 酮 透光率 瓦爾登反轉 微量分析 位置異構體
物質的量 吸電子基 吸光率 吸熱與發熱過程 吸收池 烯丙基正離子 烯烴 稀有氣體 稀有氣體化合物 系統命名法 系統誤差 系統與環境 顯著性檢驗 線光譜 相 相對標準偏差 相轉移催化作用 消除反應 硝酸 校正曲線 鋅 興斯堡試驗 行 形態分析 休克爾規則 旋光性 鹽 掩蔽 氧化 氧化還原電對 氧化還原反應 氧化還原指示 氧化劑和還原劑 氧化數 氧化物 氧族元素 一氧化碳 儀器分析 乙醇 乙二胺四乙酸 乙醚 乙醛 乙炔 乙酸 乙烯 乙酰化劑 異構現象 銀鏡反應 銀量法 有機化學 有效核電荷 有效數字 右旋 誘導效應 元素的周期律 原電池 原子半徑 原子軌道 原子晶體 原子數 雜化 雜化軌道 雜化軌道 雜環化合物 在線分析 真實氣體 正態分布 脂肪族化合物 值 質量數 質子平衡 質子轉移反應 置信區間 置信水平 中心離子 仲裁分析 重鉻酸鉀 重鉻酸鉀 重鍵 重量分析法 周期表 狀態與狀態函數 準確度 灼燒 紫移 自發過程 總穩定常數 族 左旋