數據預處理檢視原始碼討論檢視歷史

數據預處理

圖片來自知乎

數據預處理（data preprocessing）是指在主要的處理以前對數據進行的一些處理。如對大部分地球物理面積性觀測數據在進行轉換或增強處理之前，首先將不規則分布的測網經過插值轉換為規則網的處理，以利於計算機的運算。另外，對於一些剖面測量數據，如地震資料預處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等。

中文名:數據預處理

外文名:data preprocessing

定義:主要的處理以前對數據進行處理

方法:數據清理，數據集成，數據變換等

目標:格式標準化，異常數據清除

特點:提高了數據挖掘模式的質量

基本介紹

現實世界中的大規模數據往往是雜亂的，主要表現為: ^[1]

1.不完整性:數據屬性值遺漏或不確定。

2.不一致性:由於原始數據的來源不同，數據定義缺乏統一標準，導致系統間數據內涵不一致，例如:同--屬性的命名、單位、字長卻不相同。

3.有噪聲:數據中存在異常(偏離期望值)。

4.冗餘性:數據記錄或屬性的重複。

該類數據無法直接進行數據挖掘，或挖掘結果差強人意。為了提高數據挖掘的質量產生了數據預處理技術。　數據預處理有多種方法：數據清理，數據集成，數據變換，數據歸約等。這些數據處理技術在數據挖掘之前使用，大大提高了數據挖掘模式的質量，降低實際挖掘所需要的時間。

數據的預處理是指對所收集數據進行分類或分組前所做的審核、篩選、排序等必要的處理。

預處理內容

數據審核

從不同渠道取得的統計數據，在審核的內容和方法上有所不同。

對於原始數據應主要從完整性和準確性兩個方面去審核。完整性審核主要是檢查應調查的單位或個體是否有遺漏，所有的調查項目或指標是否填寫齊全。準確性審核主要是包括兩個方面：一是檢查數據資料是否真實地反映了客觀實際情況，內容是否符合實際；二是檢查數據是否有錯誤，計算是否正確等。審核數據準確性的方法主要有邏輯檢查和計算檢查。邏輯檢查主要是審核數據是否符合邏輯，內容是否合理，各項目或數字之間有無相互矛盾的現象，此方法主要適合對定性（品質）數據的審核。計算檢查是檢查調查表中的各項數據在計算結果和計算方法上有無錯誤，主要用於對定量（數值型）數據的審核。

對於通過其他渠道取得的二手資料，除了對其完整性和準確性進行審核外，還應該着重審核數據的適用性和時效性。二手資料可以來自多種渠道，有些數據可能是為特定目的通過專門調查而獲得的，或者是已經按照特定目的需要做了加工處理。對於使用者來說，首先應該弄清楚數據的來源、數據的口徑以及有關的背景資料，以便確定這些資料是否符合自己分析研究的需要，是否需要重新加工整理等，不能盲目生搬硬套。此外，還要對數據的時效性進行審核，對於有些時效性較強的問題，如果取得的數據過於滯後，可能失去了研究的意義。一般來說，應儘可能使用最新的統計數據。數據經審核後，確認適合於實際需要，才有必要做進一步的加工整理。^[2]

數據審核的內容主要包括以下四個方面：

1.準確性審核。主要是從數據的真實性與精確性角度檢查資料，其審核的重點是檢查調查過程中所發生的誤差。

2.適用性審核。主要是根據數據的用途，檢查數據解釋說明問題的程度。具體包括數據與調查主題、與目標總體的界定、與調查項目的解釋等是否匹配。

3.及時性審核。主要是檢查數據是否按照規定時間報送，如未按規定時間報送，就需要檢查未及時報送的原因。

4.一致性審核。主要是檢查數據在不同地區或國家、在不同的時間段是否具有可比性。^[3]

數據篩選

對審核過程中發現的錯誤應儘可能予以糾正。調查結束後，當數據發現的錯誤不能予以糾正，或者有些數據不符合調查的要求而又無法彌補時，就需要對數據進行篩選。數據篩選包括兩方面的內容：一是將某些不符合要求的數據或有明顯錯誤地數據予以剔除；二是將符合某種特定條件的數據篩選出來，對不符合特定條件的數據予以剔除。數據的篩選在市場調查、經濟分析、管理決策中是十分重要的。

數據排序

數據排序是按照一定順序將數據排列，以便於研究者通過瀏覽數據發現一些明顯的特徵或趨勢，找到解決問題的線索。除此之外，排序還有助於對數據檢查糾錯，為重新歸類或分組等提供依據。在某些場合，排序本身就是分析的目的之一。排序可藉助於計算機很容易的完成。

對於分類數據，如果是字母型數據，排序有升序與降序之分，但習慣上升序使用得更為普遍，因為升序與字母的自然排列相同；如果是漢字型數據，排序方式有很多，比如按漢字的首位拼音字母排列，這與字母型數據的排序完全一樣，也可按筆畫排序，其中也有筆畫多少的升序降序之分。交替運用不同方式排序，在漢字型數據的檢查糾錯過程中十分有用。

對於數值型數據，排序只有兩種，即遞增和遞減。排序後的數據也稱為順序統計量。

方法

數據清理

數據清理例程通過填寫缺失的值、光滑噪聲數據、識別或刪除離群點並解決不一致性來「清理」數據。主要是達到如下目標：格式標準化，異常數據清除，錯誤糾正，重複數據的清除。

數據集成

數據集成例程將多個數據源中的數據結合起來並統一存儲，建立數據倉庫的過程實際上就是數據集成。

數據變換

通過平滑聚集，數據概化，規範化等方式將數據轉換成適用於數據挖掘的形式。

數據歸約

數據挖掘時往往數據量非常大，在少量數據上進行挖掘分析需要很長的時間，數據歸約技術可以用來得到數據集的歸約表示，它小得多，但仍然接近於保持原數據的完整性，並結果與歸約前結果相同或幾乎相同。

數據預處理引用錯誤：缺少 <ref> 標籤的結束標籤 </ref> 是數據挖掘一個熱門的研究方面，畢竟這是由數據預處理的產生背景所決定的－－現實世界中的數據幾乎都髒數據。

視頻

數據預處理概述

嗶哩嗶哩

參考文獻

[1] 蘇成. 數據挖掘中不可忽視的環節——數據預處理(J). 金融科技時代, 2006, 14(1):64-66.

[2] -李衛東主編．應用統計學．北京：清華大學出版社，2014：55-56

[3] 熊俊順著．統計學教程第3版．杭州：浙江大學出版社，2014：31-32

[1]

[2]

[3]

數據預處理檢視原始碼討論檢視歷史

目錄

基本介紹

預處理內容

方法

參考文獻