當前位置:偏方大全网 - 中藥材 - 聚類分析方法

聚類分析方法

聚類分析又稱群分析或點分析,是壹種研究多因素事物分類的定量方法。其基本原理是根據樣本本身的性質,根據某些相似性或差異性指標,用數學方法定量確定樣本之間的關系,並根據關系的程度對樣本進行聚類(徐建華,1994)。

聚類分析法,應用於地下水,是在各種指標和質量等級標準的約束下,通過對樣品各種指標的監測值進行綜合聚類,來判斷地下水的質量等級。常見的聚類分析方法有系統聚類、模糊聚類和灰色聚類。

(壹)系統聚類法

系統聚類法的主要步驟是數據標準化、相似性統計計算和聚類。

1.數據標準化

在聚類分析中,聚類元素的選擇非常重要,它直接影響分類結果的準確性和可靠性。在地下水質量研究中,聚類對象往往由多種元素組成。不同元素的數據可能差異很大,會對分類結果產生影響。因此,當分類元素的對象確定後,在進行聚類分析之前,應該先對聚類元素的數據進行標準化處理。

假設將考慮的水質分析點(g)作為聚類對象(有m個),用I表示(I = 1,2,...,m);將影響水質的主要因子作為聚類指標(有n個),用j (j = 1,2,…,n)表示,其對應的因子數據可在表4-3中給出。在聚類分析中,對聚類元素的數據進行標準化的方法有很多,壹般采用標準差法和極差法。

表4-3集群對象和元素數據

標準化第j個變量就是把xij轉化成x'ij。

(1)求和標準化

區域地下水功能可持續性評價理論與方法研究

通過這種標準化方法獲得的新數據x'ij滿足以下要求。

區域地下水功能可持續性評價理論與方法研究

(2)標準差標準化

區域地下水功能可持續性評價理論與方法研究

哪裏:;

用這種標準化方法得到的新數據x'ij,每個元素的平均值為0,標準差為1,即有

區域地下水功能可持續性評價理論與方法研究

(3)靶場標準化

區域地下水功能可持續性評價理論與方法研究

這樣標準化得到的新數據,每個元素的最大值為1,最小值為0,其余值都在[0,1]的閉合區間內。

上式中:xij為j變量的測量值;Xj是J變量的樣本平均值;Sj是樣本的標準差。

2.相似性統計

系統聚類方法需要壹個能夠反映樣本間相似性的數值指標,需要找到能量相似性的統計量,這是系統聚類方法的關鍵。

相似性統計量壹般用距離系數和相似系數來計算。距離系數將樣本視為多維空間中的壹個點,用點與點之間的距離來表示研究對象的密切關系。距離越小,關系越近。相似系數的值表示樣本和變量之間的相似性。

(1)距離系數

經常使用歐幾裏德絕對距離,其中I樣本和J樣本之間的距離dij是

區域地下水功能可持續性評價理論與方法研究

dij越小,I和J樣本越相似。

(2)相似系數

常見的相似系數有夾角余弦和相關系數,計算公式為

1)夾角的余弦

區域地下水功能可持續性評價理論與方法研究

在公式(4-20)中:-1≤cosθij≤1。

2)相關系數

區域地下水功能可持續性評價理論與方法研究

其中dij是I樣本和J樣本之間的歐幾裏德距離;Cosθij是I樣本和J樣本的相似系數;Rij是I樣本和J樣本之間的相關系數;Xik是第I個樣本的第k個因子的測量值或標準化值;Xjk是第J個樣本的第k個因子的測量值或標準化值;是第I個樣本第k個因子的平均值,;是第J個樣本的第k個因子的平均值,;n是樣本數;k是因子(變量)的數量。

3.使聚集

相似度統計量選定後,根據計算結果構造距離或相似系數矩陣(n×n),然後通過壹定的方法將N個樣本組合成不同的分類單元,進行類的組合,即最相似的樣本歸為壹組,再將次相似的樣本歸為分類級別較高的組。聚類主要有直接聚類法和距離聚類法(最短距離聚類法和最遠距離聚類法)。

(1)直接聚類法

直接聚類法是壹種簡單的聚類方法,它是基於距離或相似系數矩陣的結構壹次性得到結果。它首先將每個分類對象單獨作為壹個類,然後按照距離最小或相似系數最大的原則依次選擇壹對分類對象,形成壹個新的類。如果壹對分類對象碰巧屬於兩個類別,則這兩個類別合並為壹個類別。每次合並時,都會刪除與對象列順序相同的行。n-1次後,將所有分類對象歸為壹類,最後按照歸並順序做出聚類分析譜系圖。

(2)距離聚類法

距離聚類法包括最短距離聚類法和最遠距離聚類法。最短距離聚類法具有空間可壓縮性,而最遠距離聚類法具有空間可擴展性。這兩種聚類方法對類間距離的計算可以用壹個統壹的公式表示:

區域地下水功能可持續性評價理論與方法研究

當γ=-0.5時,公式(4-22)中計算類之間的距離最短;當γ=0.5時,方程(4-22)中計算類之間的距離最遠。

最短最遠距離法是從原n×n距離矩陣的非對角元素中找出dpq=min(dij)或dpq=max(dij),將分類對象Gp和Gq合並成壹個新的類Gr,然後根據計算公式:

dpq=min(dpk,dqk)(k≠ p,q) (4-23)

dpq=max(dpk,dqk)(k≠ p,q) (4-24)

計算原類和新類之間的距離,從而得到壹個新的距離矩陣的階(n-1);然後從新的距離矩陣中選擇最小或最大的dij,Gi和Gj合並成壹個新的類。然後計算每個類與新類之間的距離,直到每個子類對象被歸為壹類。最後整合整個聚類過程,做出最短距離或最遠距離聚類譜系圖(圖4-1)。

圖4-1地下水質量評價聚類譜系圖

(二)模糊聚類法

模糊聚類方法是普通聚類方法的擴展,是在聚類方法中引入模糊概念而形成的。該方法評價地下水質量的主要步驟包括數據標準化、校正和聚類(傅等,1987)。

1.數據標準化

在聚類的過程中,由於所研究變量的絕對值不同,直接用原始數據進行計算會突出絕對值大的變量,降低絕對值小的變量的作用。特別是在模糊聚類分析中,模糊運算要求數據必須壓縮在[0,1]之間。因此,模糊聚類計算的首要任務是解決數據標準化問題。數據標準化的方法見系統聚類分析。

2.校準和聚類

所謂校準,就是計算被分類對象之間的相似系數rij,從而確定論域集合u上的模糊相似關系Rij,相似系數的計算與系統聚類分析相同。

聚類就是給不同的置信度λ (λ ∈ [0,1])在建立的模糊關系矩陣Rij上截取,然後得到不同的分類。

聚類方法有很多種,包括基於模糊等價關系的聚類和基於最大樹的聚類。

(1)模糊等價關系法

所謂模糊等價關系是指自反性(rii=1)、對稱性(rij=rji)和傳遞性(R R?r)模糊關系。

基於模糊等價關系的模糊聚類分析方法的基本思想是,由於模糊等價關系R是論域集合U與其自身的直積U×U上的模糊子集,所以R可以分解。當R被λ-level截時,U×U的截普通子集Rλ是U上的普通等價關系,即得到U中的壹類分類對象元素。當λ從1減小到0時,得到的分類由細變粗,逐漸合並,形成動態聚類譜系圖(徐建華,1994)。這種分析方法的具體步驟如下。

第壹步:模糊相似關系的建立,即子對象間相似統計量的計算。

第二步:將模糊相似關系R轉換成模糊等價關系R’。模糊等價關系要求自反性、對稱性和傳遞性。壹般來說,模糊相似關系滿足自反性和對稱性,但不滿足傳遞性。因此,有必要利用傳遞閉包的性質將模糊相似關系轉化為模糊等價關系。變換方法是對相似關系R進行平方,即

R2=R R

R4 = R2·R2

這樣的計算壹直持續到:R2K = RK RK = RK,那麽R’= RK就是壹個模糊等價關系。

第三步:不同割集層次下的聚類。

(2)最大樹聚類方法

基於最大樹的模糊聚類分析方法的基本思想是:最大樹是沒有回路的連通圖(圖4-2);選擇λ級截取分支,截掉權重低於λ的分支,形成若幹個孤立的子樹,每個子樹就是壹個類的集合。這種分析方法的具體步驟如下。

圖4-2最大集群生成樹圖

第壹步是計算分類對象之間的模糊相似性統計rij,並構造最大樹。

以所有被分類的對象為頂點,當兩點之間的rij不等於0時,可以用樹幹連接兩點,這種連接按照rij由大到小的順序進行,從而形成最大的樹。

第二步:最大樹聚類分析。

選取某個λ值作為割集,將小於λ值的樹的主幹剪掉,使連通的節點形成壹個類,即子樹。當λ從1到0時,得到的分類由細變粗,各節點代表的分類對象逐漸融合,從而形成動態聚類譜系圖。

在聚類方法中,模糊聚類方法相對於普通聚類方法有很大的突破,簡化了操作過程,使聚類方法更容易掌握。

(3)灰色聚類方法

灰色聚類是根據不同聚類指標的白化數,將聚類對象按若幹灰色類進行分類,從而判斷聚類對象屬於哪壹類。

灰色聚類應用於地下水質量評價,以考慮的水質分析點為聚類對象,用I表示(I = 1,2,…,n);將影響水質的主要因子作為聚類指標,用j表示(j = 1,2,...,m),並將水質等級作為聚類灰數(灰類),用k (k = 1,2,3)表示,即第壹、二、三灰類(羅定貴等,65433)。

灰色聚類的主要步驟是:確定聚類的白化數,確定每個灰色白化函數fjk,計算標定的聚類權重ηjk,計算聚類系數,根據極大值原理確定聚類對象分類。

1.確定聚類白化數。

當各灰類的白化數相差較大時,為了保證各指標的可比性和等效性,需要對白化數進行無量綱化處理。即給定第I個聚類對象中第j個聚類索引的白化數,I = 1,2,…,n;j=1,2,…,m .

2.確定每個灰度白化函數。

建立效率函數fij(x),滿足所有指標,水平區間為最大白化函數值(等於1)。離這個區間越遠,白化函數越小(趨於0)。根據監測值Cki,對應的白化函數值fjk(Cik),j = 1,2,...,m可以在圖上分解出來(圖4-3);k=1,2,3 .

3.找到校準組權重

根據公式(4-25),計算聚類權重ηjk的矩陣(n×m)。

區域地下水功能可持續性評價理論與方法研究

其中ηjk是第j個指標對第k個灰類的權重;λjk是增白函數的閾值(取決於標準濃度)。

圖4-3增白功能圖

註:圖4-3中的白化函數f (x) ∈ [0,1]有以下特點:①平頂部分表示這個量的最優程度。這部分的值為最佳值,即系數(權重)為1,f(x)=max=1(峰值),x ∈ [x2,x3]。②白化函數是單調變化的,左邊部分f(x)=L(x)單調增加,x∈(x1,x2],稱為白化左支函數;右邊部分f(x)=R(x),單調遞減,x ∈ [x3,x4],稱為白化右支函數。③白化函數的左右分支是對稱的。④美白功能,簡單來說,壹般是直線。⑤壹般來說,美白功能的起點和終點是由人的經驗決定的。

4.求聚類系數

σik=∑fjk(dij)ηjk (4-26)

其中:σik是第I個聚類對象屬於第k個灰類的系數,I = 1,2,…,n;k=1,2,3 .

5.根據最大值原則確定聚類對象的分類。

用σik構造聚類向量矩陣,如果行向量最大,則確定k樣本屬於J級的對應級別。

用灰色聚類法評價地下水質量,可以最大限度地避免人為因素造成的“失真失效”現象。

聚類法的計算相對復雜,但計算結果與地下水質量標準等級明顯對應,可以全面反映地下水質量,也是在更高層次上定量研究地下水質量的重要方法。

  • 上一篇:涼茶和蘋果能壹起中毒嗎?
  • 下一篇:作為丈夫,如何處理妻子和母親的關系~
  • copyright 2024偏方大全网