求真百科歡迎當事人提供第一手真實資料,洗刷冤屈,終結網路霸凌。

非监督分类查看源代码讨论查看历史

跳转至: 导航搜索

来自 孔夫子旧书网 的图片

非监督分类是中国的一个科技名词。

语言一发即逝,不留痕迹。当人类意识到需要把说出的话记下来时,就发明了文字[1]。在世界范围内,曾经独立形成的古老文字除我们的汉字外,还有埃及的圣书字、两河流域的楔形文字、古印度的印章文字以及中美洲的玛雅文[2]。后来,这些古老文字的命运各不相同,或因某种历史原因而消亡,如玛雅文;或因文字的根本变革而遭废弃,如楔形文、圣书字,只汉字沿用至今,而且古今传承的脉络清晰可见,成了中华民族文化的良好载体。

名词解释

非监督分类是指人们事先对分类过程不施加任何的先验知识,而仅凭数据(遥感影像地物的光谱特征的分布规律),即自然聚类的特性,进行“盲目”的分类;其分类的结果只是对不同类别达到了区分,但并不能确定类别的属性,亦即:非监督分类只能把样本区分为若干类别,而不能给出样本的描述;其类别的属性是通过分类结束后目视判读或实地调查确定的。非监督分类也称聚类分析。一般的聚类算法是先选择若干个模式点作为聚类的中心。每一中心代表一个类别,按照某种相似性度量方法(如最小距离方法)将各模式归于各聚类中心所代表的类别,形成初始分类。然后由聚类准则判断初始分类是否合理,如果不合理就修改分类,如此反复迭代运算,直到合理为止。与监督法的先学习后分类不同,非监督法是边学习边分类,通过学习找到相同的类别,然后将该类与其它类区分开,但是非监督法与监督法都是以图像的灰度为基础。通过统计计算一些特征参数,如均值,协方差等进行分类的。所以也有一些共性。

与监督分类的区别

有监督必须有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律;非监督没有训练集,只有一组数据,在该组数据集内寻找规律。

有监督方法的目的是识别事物,识别的结果表现在给待识别数据加上了标号。因此训练样本集必须由带标号样本组成;非监督方法只有分析数据集本身,无标号。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不以与某种预先的分类标号为目的。

分类方法

(一)波普图形识别分类

(二)聚类分析

动态聚类。聚类的方法主要有基于最邻近规则的试探法、K-means均值算法、迭代自组织的数据分析法(ISODATA)等。

模糊聚类法。模糊分类根据是否需要先验知识也可以分为监督分类和非监督分类.。

系统聚类。这种方法是将影像中每个像元各自看作一类,计算各类间均值的相关系数矩阵,从中选择最相关的两类进行合并形成新类,并重新计算各新类间的相关系数矩阵,再将最相关的两类合并,这样继续下去,按照逐步结合的方法进行类与类之间的合并,直到各个新类间的相关系数小于某个给定的阈值为止。

分裂法。又称等混合距离分类法,它与系统聚类的方法相反,在开始时将所有像元看成一类,求出各变量的均值和均方差,按照一定公式计算分裂后两类的中心,再算出各像元到这两类中心的聚类,将像元归并到距离最近的那一类去,形成两个新类. 然后再对各个新类进行分类,只要有一个波段的均方差大于规定的阈值,新类就要分裂。

聚类中心的选取

它首先要确定基准类别的参量,再由集群的参数来调整预制的参量,再聚类调整,直到有关参数达到允许的范围。其中,初始聚类中心的确定是一个重要的问题,对分类过程和分类结果均有重要影响,较好的初始聚类中心方法既能提高分类的效率又能提高分类的精度。现有的确定初始聚类中心的方法主要有以下几种:任意的选取K个样本作为初始聚类中心;凭经验选取有代表性的点作为初始聚类中心;用密度法选取代表点作为初始聚类中心;最大最小距离选心法;基于均值标准差定心法。

参考文献