聚類

聚類

將物理或抽象對象的集合分成由類似的對象組成的多個類的過程被稱為聚類。由聚類所生成的簇是一組數據對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象相異。“物以類聚,人以群分”,在自然科學和社會科學中,存在著大量的分類問題。聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種統計分析方法。聚類分析起源於分類學,但是聚類不等於分類。聚類與分類的不同在於,聚類所要求劃分的類是未知的。聚類分析內容非常豐富,有系統聚類法、有序樣品聚類法、動態聚類法、模糊聚類法、圖論聚類法、聚類預報法等。

簡介

俗話說:“物以類聚,人以群分”,在自然科學和社會科學中,存在著大量的分類問題。所謂類,通俗地說,就是指相似元素的集合。聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種統計分析方法。聚類分析起源於分類學,在古老的分類學中,人們主要依靠經驗和專業知識來實現分類,很少利用數學工具進行定量的分類。隨著人類科學技術的發展,對分類的要求越來越高,以致有時僅憑經驗和專業知識難以確切地進行分類,於是人們逐漸地把數學工具引用到了分類學中,形成了數值分類學,之後又將多元分析的技術引入到數值分類學形成了聚類分析。聚類分析內容非常豐富,有系統聚類法、有序樣品聚類法、動態聚類法、模糊聚類法圖論聚類法、聚類預報法等。

聚類分析計算方法主要有如下幾種:

1. 分裂法(partitioning methods):給定一個有N個元組或者紀錄的數據集,分裂法將構造K個分組,每一個分組就代表一個聚類,K<N。而且這K個分組滿足下列條件:(1) 每一個分組至少包含一個數據紀錄;(2)每一個數據紀錄屬於且僅屬於一個分組(注意:這個要求在某些模糊聚類算法中可以放寬);對於給定的K,算法首先給出一個初始的分組方法,以後通過反覆疊代的方法改變分組,使得每一次改進之後的分組方案都較前一次好,而所謂好的標準就是:同一分組中的記錄越近越好,而不同分組中的紀錄越遠越好。使用這個基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法;
2. 層次法(hierarchical methods):這種方法對給定的數據集進行層次似的分解,直到某種條件滿足為止。具體又可分為“自底向上”和“自頂向下”兩種方案。例如在“自底向上”方案中,初始時每一個數據紀錄都組成一個單獨的組,在接下來的疊代中,它把那些相互鄰近的組合併成一個組,直到所有的記錄組成一個分組或者某個條件滿足為止。代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等;
3. 基於密度的方法(density-based methods):基於密度的方法與其它方法的一個根本區別是:它不是基於各種各樣的距離的,而是基於密度的。這樣就能克服基於距離的算法只能發現“類圓形”的聚類的缺點。這個方法的知道思想就是,只要一個區域中的點的密度大過某個閥值,就把它加到與之相近的聚類中去。代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等;
4. 基於格線的方法(grid-based methods):這種方法首先將數據空間劃分成為有限個單元(cell)的格線結構,所有的處理都是以單個的單元為對象的。這么處理的一個突出的優點就是處理速度很快,通常這是與目標資料庫中記錄的個數無關的,它只與把數據空間分為多少個單元有關。代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法;
5. 基於模型的方法(model-based methods):基於模型的方法給每一個聚類假定一個模型,然後去尋找能個很好的滿足這個模型的數據集。這樣一個模型可能是數據點在空間中的密度分布函式或者其它。它的一個潛在的假定就是:目標數據集是由一系列的機率分布所決定的。通常有兩種嘗試方向:統計的方案和神經網路的方案。

Iso聚類

ArcGIS中的Iso聚類

用法
·Iso聚類工具對輸入波段列表中組合的多元數據執行聚類。所生成的特徵檔案可用作生成非監督分類柵格的分類工具的輸入。
·類數的最小有效值為二。不存在最大聚類數。通常情況下,聚類越多,所需的疊代就越多。
·要提供充足的必要統計數據,生成特徵檔案以供將來分類使用,每個聚類都應當含有足夠的像元來準確地表示聚類。為最小類大小輸入的值應大約比輸入柵格波段中的圖層數大10倍。
·為採樣間隔輸入的值表示,在聚類計算中每n乘n塊像元中使用一個像元
·不應合併或移除類,也不應更改ASCII特徵檔案的任何統計數據。
·通常情況下,輸入波段交集範圍內所含的像元越多,為最小類大小和採樣間隔所指定的值就應當越大。為採樣間隔輸入的值應當足夠小,以便對存在於輸入數據中的最小理想類別進行合理採樣
·輸出特徵檔案中的類ID值以一開始,然後按順序增加至輸入類的數量。可分配任意數量的類數。
·如果所有輸入波段的數據範圍均相同,則將得到更加理想的結果。如果波段的數據範圍差異很大,則可使用“地圖代數”執行以下方程式,從而將各種數據範圍轉換為相同的範圍。
·如果輸入為創建自多波段柵格(超過三個波段)的圖層,則操作將會考慮與源數據集相關聯的所有波段,而不僅僅是由圖層載入(符號化)的三個波段。
·您可以使用多種方式將多波段柵格的波段子集指定為工具的輸入。
·如果要使用工具對話框,則通過輸入柵格波段旁邊的按鈕導航至多波段柵格,打開柵格並選擇所需波段。
·如果多波段柵格是內容列表中的圖層,則可以使用創建柵格圖層工具來創建一個新的只包含所需波段的多波段圖層。
·您還可以用波段合成來創建一個只包含所需波段的新數據集,並將生成的數據集用作工具的輸入。
·在Python中,可以在工具參數中以列表形式直接指定所需波段。

相關詞條

相關搜尋

熱門詞條

聯絡我們