維數約簡
維數約簡 |
維數約簡是機器學習領域中一個重要的研究方向。近年來,高維海量不可控數據的現狀,維數約簡算法又一次成為人們關注的焦點。 [1]
基本信息
中文名稱 維數約簡
外文名稱 Dimensionality reduction
意義 防止了維數災難的發生
目的 去除噪聲的影響
定義
維數約簡:Dimensionality reduction
維數約簡又稱為降維,是機器學習的一種必要手段。若數據庫X是屬於n維空間的,通過特徵提取或者特徵選擇的方法,將原空間的維數降至m維,要求m遠小於n,滿足:m維空間的特性能反映原空間數據的特徵,這個過程稱之為維數約簡。
意義
維數約簡是相對於維數災難或者說是高維數據來提出的,很明顯,其意義就是降低原來的維數,並保證原數據庫的完整性,在約簡後的空間中執行後續程序將大大減少運算量,提高數據挖掘效率,且挖掘出來的結果與原有數據集所獲得結果基本一致。更廣泛的說就是防止了維數災難的發生。
提出背景
在科學研究中,我們常常要對數據進行處理,而這些數據通常位於一個高維空間中,例如當處理一個256*256 的圖像序列時,我們需要將其拉成一個向量,這樣,我們就得到了65536維的數據,如果直接對這些數據進行處理,會有以下問題:首先,會出現所謂的"維數災難"問題,巨大的計算量將使我們無法忍受;其次,這些數據通常沒有反映出數據的本質特徵,如果直接對他們進行處理,不會得到理想的結果。所以,通常我們需要首先對數據進行維數約簡,然後對約簡後的數據進行處理。當然要保證約簡後的數據特徵能反映甚至更能揭示原數據的本質特徵。
通常,我們進行數據維數約簡主要是基於以下目的:
1、壓縮數據以減少存儲量
2、去除噪聲的影響
3、從數據中提取特徵以便進行分類
4、將數據投影到低維可視空間,以便於看清數據的分布
對付高維數據問題基本的方法就是維數約簡,即將n 維數據約簡成m(M<<N)維數據,並能保持原有數據集的完整性,在m 上進行數據挖掘不僅效率更高,且挖掘出來的結果與原有數據集所獲得結果基本一致。分析現有的數據挖掘模型,用於數據維數約簡的基本策略歸納起來有兩種:一種是從有關變量中消除無關、弱相關和冗餘的維,尋找一個變量子集來構建模型。換句話說就是在所有特徵中選擇最優代表性的特徵,稱為特徵選擇。另一種特徵提取,即通過對原始特徵進行某種操作獲取有意義的投影。也就是把n 個原始變量變換為m 個變量,在m上進行後續操作。
參考來源