正態分布的特征
濃度:正態曲線的峰值位於中心,也就是均值所在的位置。
對稱性:正態曲線以均值為中心,左右對稱,曲線兩端從不與橫軸相交。
均勻變異:正態曲線從均值所在的地方開始,分別向左右兩側逐漸均勻遞減。
如果隨機變量服從數學期望值為0、方差為0的正態分布,則記錄為。其中,期望值決定其位置,標準差決定分布的幅度。當= 0,= 1時,正態分布為標準正態分布。
正態分布有著非常廣泛的實際背景,生產和科學實驗中許多隨機變量的概率分布都可以用正態分布來近似描述。比如在生產條件不變的情況下,產品的強度、抗壓強度、口徑、長度等指標;同壹生物的體長、體重等指標;相同種子的重量;測量同壹物體的誤差;彈著點沿某壹方向的偏離;某壹地區的年降水量;和理想氣體分子的速度分量,等等。壹般來說,如果壹個量是許多微小的獨立隨機因素的結果,那麽可以認為這個量具有正態分布(見中心極限定理)。理論上,正態分布有很多好的性質,很多概率分布都可以用它來近似。也有壹些常用的概率分布是由其直接推導出來的,比如對數正態分布、t分布、f分布等等。
高斯模型包括單高斯模型(SGM)和混合高斯模型(GMM)。
概率密度函數服從上述正態分布的模型稱為單高斯模型,具體形式如下:
當樣本數據唯壹時,高斯模型的概率密度函數為:
其中:是數據的平均值和數據的標準差。
當樣本數據為單變量時,高斯模型的概率密度函數為:
其中:是數據的均值,是協方差,d是數據維數。
高斯混合模型(Gaussian mixture model,GMM)是單高斯概率密度函數的擴展,用多個高斯概率密度函數(正態分布曲線)精確量化變量的分布,將變量的分布分解成基於高斯概率密度函數(正態分布曲線)的多個統計模型。
用壹種比較通俗的語言解釋就是把單個高斯模型混合在壹起生成壹個模型,這就是高斯混合模型。該子模型是混合模型的隱藏變量。壹般來說,混合模型可以使用任何概率分布,這裏使用高斯混合模型是因為高斯分布具有良好的數學性質和良好的計算性能。
GMM是工業中應用最廣泛的聚類算法。它本身就是壹種概率聚類方法,假設所有樣本數據x都是由k個混合多元高斯分布組成的混合分布產生的。
高斯混合模型的概率密度函數可以表示為:
其中包括:
是觀測數據屬於第壹子模型的概率;
是第壹個單高斯子模型的概率密度函數,或
具體函數見上面單高斯模型的概率密度函數。
參數估計的方法有很多,如矩估計、極大似然法、壹致最小方差無偏估計、最小風險估計、協變估計、最小二乘法、貝葉斯估計、最大後驗法、最小風險法、最小最大熵法等。最基本的方法是最小二乘法和最大似然法。
最大似然估計的思想是,壹個隨機實驗有很多可能的結果,但壹個實驗只會出現壹個結果。如果結果W出現在某個實驗中,則認為該結果出現的概率最大。
1)寫出似然函數:
假設單個樣本的概率函數為,將每個樣本的概率函數相乘就可以得到每個樣本的似然函數。
2)記錄似然函數:
目的是把產品做成加法,方便後續操作。
3)求導數,使導數為0,得到似然方程:
並且在同壹點得到最大值,那麽通過求導就可以使導數為零,同樣可以達到目的。
4)求解似然方程,得到的參數就是要求。
對於單高斯模型,最大似然估計(MLE)可用於求解參數值。
單高斯模型的對數似然函數為:
上式分別計算和的偏導數,然後使其等於0,就可以得到相應的參數估計值:
如果參數仍然是根據上面的最大似然估計方法計算的
GMM的對數似然函數是:
求上式每個參數的偏導數,然後使其等於0,需要附加壹個條件:。
我們會發現參數是無法通過直接求導計算出來的。因此,我們需要用其他方法來解決參數估計的問題。通常,我們使用叠代方法,並使用期望最大化(EM)來估計。
EM算法的具體原理和例子見我的另壹篇文章。