統計學檢視原始碼討論檢視歷史
統計學( statistics ),是在數據分析的基礎上,研究測定、收集、整理、歸納和分析反映數據數據,以便給出正確消息的科學。這一門學科自17世紀中葉產生並逐步發展起來,它廣泛地應用在各門學科,從自然科學、社會科學到人文學科,甚至被用於工商業及政府的情報決策。隨着大數據時代來臨,統計的面貌也逐漸改變,與信息、計算等領域密切結合,是數據科學中的重要主軸之一[1]。
譬如自一組數據中,可以摘要並且描述這份數據的集中和離散情形,這個用法稱作為描述統計學。另外,觀察者以數據的形態,創建出一個用以解釋其隨機性和不確定性的數學模型,以之來推論研究中的步驟及總體,這種用法被稱做推論統計學。這兩種用法都可以被稱作為應用統計學。數理統計學則是討論背後的理論基礎的學科。
統計學的觀念
為了將統計學應用到科學、工業以及社會問題上,我們由研究總體開始。這可能是一個國家的人民,石頭中的水晶,或者是某家特定工廠所生產的商品。一個總體甚至可能由許多次同樣的觀察程序所組成;由這種數據搜集所組成的總體我們稱它叫時間序列。
為了實際的理由,我們選擇研究總體的子集代替研究總體的每一筆數據,這個子集稱做樣本。以某種經驗設計實驗所搜集的樣本叫做數據。數據是統計分析的對象,並且被用做兩種相關的用途:描述和推論。
描述統計學處理有關敘述的問題:是否可以摘要的說明數據的情形,不論是以數學或是圖片表現,以用來代表總體的性質?基礎的數學描述包括了平均數和標準差等。圖像的摘要則包含了許多種的表和圖。主要是就說明數據的集中和離散情形。
推論統計學被用來將數據中的數據模型化,計算它的概率並且做出對於總體的推論。這個推論可能以對/錯問題的答案所呈現(假設檢定),對於數字特徵量的估計(估計),對於未來觀察的預測,關係性的預測(相關性),或是將關係模型化(回歸)。其他的模型化技術包括方差分析,時間序列,以及數據挖掘。
統計計算
計算機在20世紀後半葉的大量應用對統計科學產生了極大的影響。早期統計模型常常為回歸線性模型,但強勁的計算機及其算法導致非線性模型(如神經網絡)和新式算法(如廣義線性模式、等級線性模型、支持向量機)的大量應用。
計算機性能的增強使得需要大量計算的再取樣算法成為時尚,如置換檢驗、自助法。Gibbs取樣法也使得貝葉斯模型[2]更加可行。計算機革命使得統計在未來更加注重「實驗」和「經驗」。大量普通或專業的統計軟件現已面市。
視頻
統計學 相關視頻
參考文獻
- ↑ 統計學、人工智能、機器學習、數據挖掘的區別與聯繫之(1) 概念,CSDN博客,2016-6-18
- ↑ 數據分析經典模型——貝葉斯理論,10分鐘講清楚,個人圖書館,2019-09-28