在講方差分解之前,我們需要了解雙期望定理。對於壹個x,我們可以根據不同的y任意分成幾部分:
所以這樣劃分後,x總體的平均值實際上就是相當於每個劃分下平均值的整體平均值。
例如,假設壹個* * *分為三部分,每部分的平均值為70 60 80,那麽
理論上,
總方差定律的數學推導
另壹個重要的規則是總方差:
它描述了方差的兩個組成部分:
怎麽理解呢?
憑直覺,是什麽?它是每個分類下差異的平均值,因此它描述了樣本內差異的平均值。
這是什麽?它描述了不同組下均值的差異程度,因此描述了樣本之間的差異程度。
所以方差描述的是樣本內和樣本間差異的疊加,這就是總方差定律。
與k-均值聚類的聯系
熟悉聚類算法的同學可能會意識到,k均值聚類實際上有兩種等價的學習方法,即類內平方和(WCSS):
和類間平方和(bcss):
顯然,它們對應於?然後呢。因為它們加起來是壹個常數(方差),根據總方差公式,最小化前者相當於最大化後者。
接觸最小二乘法
所謂的最小二乘法,其實就是在尋優?:
在…之中
什麽時候能找到?右邊的項會消失,所以條件期望是最優的?,
因為回歸實際上可以直觀地理解為壹種最小化樣本內差異的方法。