求真百科歡迎當事人提供第一手真實資料,洗刷冤屈,終結網路霸凌。

隨機森林檢視原始碼討論檢視歷史

事實揭露 揭密真相
前往: 導覽搜尋

來自 搜狐網 的圖片

隨機森林(Random forest)是一個包含多個決策樹的分類器, 並且其輸出的類別是由個別樹輸出的類別的眾數而定,於1995年提出。

基礎定義

在機器學習中,隨機森林是一個包含多個決策樹的分類器,並且其輸出的類別是由個別樹輸出的類別的眾數而定。Leo Breiman和Adele Cutler發展出推論出隨機森林的算法。而"Random Forests"是他們的商標。這個術語是1995年由貝爾實驗室的Tin Kam Ho所提出的隨機決策森林(random decision forests)而來的。這個方法則是結合Breimans的"Bootstrap aggregating"想法和Ho的"random subspace method""以建造決策樹的集合。

學習算法

根據下列算法而建造每棵樹:

1.用N來表示訓練例子的個數,M表示變量的數目。

2.我們會被告知一個數m,被用來決定當在一個節點上做決定時,會使用到多少個變量。m應小於M

3.從N個訓練案例中以可重複取樣的方式,取樣N次,形成一組訓練集(即bootstrap取樣)。並使用這棵樹來對剩餘預測其類別,並評估其誤差

4.對於每一個節點,隨機選擇m個基於此點上的變量。根據這m個變量,計算其最佳的分割方式。

5.每棵樹都會完整成長而不會剪枝(Pruning)(這有可能在建完一棵正常樹狀分類器後會被採用)。

優缺點

優點

1、對於很多種資料,它可以產生高準確度的分類器。

2.它可以處理大量的輸入變量。

3.它可以在決定類別時,評估變量的重要性。

4.在建造森林[1]時,它可以在內部對於一般化後的誤差產生不偏差的估計。

5.它包含一個好方法可以估計遺失的資料,並且,如果有很大一部分的資料遺失,仍可以維持準確度。

6.它提供一個實驗方法,可以去偵測variable interactions。

7.對於不平衡的分類資料集來說,它可以平衡誤差。

8.它計算各例中的親近度,對於數據挖掘、偵測偏離者(outlier)和將資料視覺化[2]非常有用。

9.使用上述。它可被延伸應用在未標記的資料上,這類資料通常是使用非監督式聚類。也可偵測偏離者和觀看資料。

10.學習過程是很快速的。

缺點

1.隨機森林已經被證明在某些噪音較大的分類或回歸問題上會過擬

2.對於有不同級別的屬性的數據,級別劃分較多的屬性會對隨機森林產生更大的影響,所以隨機森林在這種數據上產出的屬性權值是不可信的。

相關概念

分裂:在決策樹的訓練過程中,需要一次次的將訓練數據集分裂成兩個子數據集,這個過程就叫做分裂。

特徵:在分類問題中,輸入到分類器中的數據叫做特徵。以上面的股票漲跌預測問題為例,特徵就是前一天的交易量和收盤價。

待選特徵:在決策樹的構建過程中,需要按照一定的次序從全部的特徵中選取特徵。待選特徵就是在步驟之前還沒有被選擇的特徵的集合。例如,全部的特徵是ABCDE,第一步的時候,待選特徵就是ABCDE,第一步選擇了C,那麼第二步的時候,待選特徵就是ABDE。

分裂特徵:接待選特徵的定義,每一次選取的特徵就是分裂特徵,例如,在上面的例子中,第一步的分裂特徵就是C。因為選出的這些特徵將數據集分成了一個個不相交的部分,所以叫它們分裂特徵。

參考文獻