單高斯模型SGM & amp；高斯混合模型GMM

在了解高斯混合模型之前，我們先來看看什麽是高斯分布。高斯分布應該大家都不陌生，也就是我們通常所說的正態分布，也叫高斯分布。正態分布是數學、物理和工程中非常重要的概率分布，在統計學的許多方面都有很大的影響。

正態分布的特征

濃度:正態曲線的峰值位於中心，也就是均值所在的位置。

對稱性:正態曲線以均值為中心，左右對稱，曲線兩端從不與橫軸相交。

均勻變異:正態曲線從均值所在的地方開始，分別向左右兩側逐漸均勻遞減。

如果隨機變量服從數學期望值為0、方差為0的正態分布，則記錄為。其中，期望值決定其位置，標準差決定分布的幅度。當= 0，= 1時，正態分布為標準正態分布。

正態分布有著非常廣泛的實際背景，生產和科學實驗中許多隨機變量的概率分布都可以用正態分布來近似描述。比如在生產條件不變的情況下，產品的強度、抗壓強度、口徑、長度等指標；同壹生物的體長、體重等指標；相同種子的重量；測量同壹物體的誤差；彈著點沿某壹方向的偏離；某壹地區的年降水量；和理想氣體分子的速度分量，等等。壹般來說，如果壹個量是許多微小的獨立隨機因素的結果，那麽可以認為這個量具有正態分布(見中心極限定理)。理論上，正態分布有很多好的性質，很多概率分布都可以用它來近似。也有壹些常用的概率分布是由其直接推導出來的，比如對數正態分布、t分布、f分布等等。

高斯模型包括單高斯模型(SGM)和混合高斯模型(GMM)。

概率密度函數服從上述正態分布的模型稱為單高斯模型，具體形式如下:

當樣本數據唯壹時，高斯模型的概率密度函數為:

其中:是數據的平均值和數據的標準差。

當樣本數據為單變量時，高斯模型的概率密度函數為:

其中:是數據的均值，是協方差，d是數據維數。

高斯混合模型(Gaussian mixture model，GMM)是單高斯概率密度函數的擴展，用多個高斯概率密度函數(正態分布曲線)精確量化變量的分布，將變量的分布分解成基於高斯概率密度函數(正態分布曲線)的多個統計模型。

用壹種比較通俗的語言解釋就是把單個高斯模型混合在壹起生成壹個模型，這就是高斯混合模型。該子模型是混合模型的隱藏變量。壹般來說，混合模型可以使用任何概率分布，這裏使用高斯混合模型是因為高斯分布具有良好的數學性質和良好的計算性能。

GMM是工業中應用最廣泛的聚類算法。它本身就是壹種概率聚類方法，假設所有樣本數據x都是由k個混合多元高斯分布組成的混合分布產生的。

高斯混合模型的概率密度函數可以表示為:

其中包括:

是觀測數據屬於第壹子模型的概率；