非監督分類檢視原始碼討論檢視歷史
非監督分類是中國的一個科技名詞。
語言一發即逝,不留痕跡。當人類意識到需要把說出的話記下來時,就發明了文字[1]。在世界範圍內,曾經獨立形成的古老文字除我們的漢字外,還有埃及的聖書字、兩河流域的楔形文字、古印度的印章文字以及中美洲的瑪雅文[2]。後來,這些古老文字的命運各不相同,或因某種歷史原因而消亡,如瑪雅文;或因文字的根本變革而遭廢棄,如楔形文、聖書字,只漢字沿用至今,而且古今傳承的脈絡清晰可見,成了中華民族文化的良好載體。
名詞解釋
非監督分類是指人們事先對分類過程不施加任何的先驗知識,而僅憑數據(遙感影像地物的光譜特徵的分布規律),即自然聚類的特性,進行「盲目」的分類;其分類的結果只是對不同類別達到了區分,但並不能確定類別的屬性,亦即:非監督分類只能把樣本區分為若干類別,而不能給出樣本的描述;其類別的屬性是通過分類結束後目視判讀或實地調查確定的。非監督分類也稱聚類分析。一般的聚類算法是先選擇若干個模式點作為聚類的中心。每一中心代表一個類別,按照某種相似性度量方法(如最小距離方法)將各模式歸於各聚類中心所代表的類別,形成初始分類。然後由聚類準則判斷初始分類是否合理,如果不合理就修改分類,如此反覆迭代運算,直到合理為止。與監督法的先學習後分類不同,非監督法是邊學習邊分類,通過學習找到相同的類別,然後將該類與其它類區分開,但是非監督法與監督法都是以圖像的灰度為基礎。通過統計計算一些特徵參數,如均值,協方差等進行分類的。所以也有一些共性。
與監督分類的區別
有監督必須有訓練集與測試樣本。在訓練集中找規律,而對測試樣本使用這種規律;非監督沒有訓練集,只有一組數據,在該組數據集內尋找規律。
有監督方法的目的是識別事物,識別的結果表現在給待識別數據加上了標號。因此訓練樣本集必須由帶標號樣本組成;非監督方法只有分析數據集本身,無標號。如果發現數據集呈現某種聚集性,則可按自然的聚集性分類,但不以與某種預先的分類標號為目的。
分類方法
(一)波普圖形識別分類
(二)聚類分析
動態聚類。聚類的方法主要有基於最鄰近規則的試探法、K-means均值算法、迭代自組織的數據分析法(ISODATA)等。
模糊聚類法。模糊分類根據是否需要先驗知識也可以分為監督分類和非監督分類.。
系統聚類。這種方法是將影像中每個像元各自看作一類,計算各類間均值的相關係數矩陣,從中選擇最相關的兩類進行合併形成新類,並重新計算各新類間的相關係數矩陣,再將最相關的兩類合併,這樣繼續下去,按照逐步結合的方法進行類與類之間的合併,直到各個新類間的相關係數小於某個給定的閾值為止。
分裂法。又稱等混合距離分類法,它與系統聚類的方法相反,在開始時將所有像元看成一類,求出各變量的均值和均方差,按照一定公式計算分裂後兩類的中心,再算出各像元到這兩類中心的聚類,將像元歸併到距離最近的那一類去,形成兩個新類. 然後再對各個新類進行分類,只要有一個波段的均方差大於規定的閾值,新類就要分裂。
聚類中心的選取
它首先要確定基準類別的參量,再由集群的參數來調整預製的參量,再聚類調整,直到有關參數達到允許的範圍。其中,初始聚類中心的確定是一個重要的問題,對分類過程和分類結果均有重要影響,較好的初始聚類中心方法既能提高分類的效率又能提高分類的精度。現有的確定初始聚類中心的方法主要有以下幾種:任意的選取K個樣本作為初始聚類中心;憑經驗選取有代表性的點作為初始聚類中心;用密度法選取代表點作為初始聚類中心;最大最小距離選心法;基於均值標準差定心法。
參考文獻
- ↑ 漢語是什麼語言,其本質是什麼?,搜狐,2020-10-19
- ↑ 精美絕倫的藝術瑪雅文字,搜狐,2021-12-26