馬上撩起袖子進行分析?這不是壹個好的建議。無數的經驗告訴我們,如果分析師不先了解數據集的質量,後續的推斷分析就會事倍功半。
正確的處理方法是先用描述性統計。
什麽是描述性統計?
它是壹種全面總結數據集的方式,包括數據處理和顯示、數據集分布特征等。它與推斷統計數據相呼應。
在進入統計學學習之前,先明確基本概念。
數據可以分為分類數據和數值數據。分類數據是確定變量的類型,如性別、地區和各種類別;數值型數據表示數值的大小和個數,如18,19和年齡20歲。
最明顯的區別是,加減法不能用於分類數據,而數值型數據可以。兩者在壹定程度上是可以轉換的。比如年齡,18歲是數值型數據,但也可以轉換成分類數據“少年”。我們也可以用數值來表示分類數據,比如女性用0,男性用1。它仍然沒有計算意義,但更便於計算機存儲。
分類數據和數值數據的具體應用將在今後的研究中不斷深入。本文將首先關註數值數據。
數據測量
平均值是數據位置的壹個度量,用來理解整體數據,小學學過。然而,平均值並不是壹個權威的衡量標準。提到全國平均工資,我們都是被馬雲爸爸王健林爸爸平均的普通人。
平均值很容易受到極值的影響,因為數據集無法保證“幹凈”,各種運算數據經常被幹擾。例如,薅羊毛黨將提高營銷活動的平均水平。壹般來說,我們可以用調整後的均值來剔除異常波動,刪除數據集中壹定比例的極大值和極小值,比如5%,然後重新計算平均值。
既然不靠譜,那就求中位數吧。所有數據按升序排列後,中間的值就是中位數。當數據集為奇數時,中位數為中間值;當數據集是偶數時,中位數是中間兩個數的平均值。這也是小學的內容。
另壹個衡量標準是眾數,眾數是數據集中出現頻率最高的數據。當有多個模式時,稱為多模式。該模式的使用頻率低於前兩種,更多地用於數據分類。
平均值、中值和眾數構成了標準的測量方法。但這還不夠。
數據分析師通常將數據分為四部分,每部分包含數據集的25%,分界點稱為四分位數。
數據按升序排列。第25個百分位數稱為第壹個四分位數Q1,第50個百分位數稱為第二個四分位數Q2,即中位數,第75個百分位數稱為第三個四分位數Q3。這三點可以幫助衡量數據的分布。
數據的差異和變化
讓我們考慮壹個新問題。現在某電商想賣兩個同類型的商品,他們的周銷量(單位:壹個)如下:
商品A: 10,10,10,11,12,12。
商品B: 3,5,6,11,16,17,19。
他們的平均值和中位數是壹樣的,但是他們的真實情況呢?當然不是。作為商品,我們更喜歡銷量穩定的。
方差是壹個可以衡量數據“穩定性”的指標,比較通俗的解釋是衡量數據的可變性,圖形上也稱為離散程度。
方差的計算公式是每個數據與其平均值之差的平方和的平均值。
上面的公式是整體數據集的方差計算。當數據接近部分樣本時,n應改為n-1。當數據集足夠大時,它們之間的誤差也可以忽略。
現在計算以上商品的方差。Excel中的方差公式是VARP(),如果是樣本數據,就是var()。不同的Excel版本在功能上略有差異。
方差越大,數據集的離散度越大,商品A的銷售波動明顯比商品B更穩定..在方差的計算中,由於涉及平方和,單位的維數為平方(商品A和B的方差,單位為2),很難有直觀的解釋。所以我們引入了標準差。
標準差是方差的平方根:
在Excel中,標準差的計算函數是stdevp(),如果是樣本數據,則是stdev()。
方差和標準差含義相同,但標準差與原始數據的單位維相同,更容易與平均值等度量進行比較。比如商品A的平均銷量是11,標準差是0.85,那麽我們知道這個商品銷售穩定。
切比雪夫定理指出,至少75%的數據值在2個標準差以內,至少89%在3個標準差以內,至少94%在4個標準差以內。這是壹個非常方便的定理,可以快速掌握數據的範圍。
假設上海平均工資20k,標準差5K,大概90%的工資在5k ~ 35k區間。
如果數據本身符合正態(鐘形)分布,切比雪夫定理的估計會更準確:68%的數據落在平均值的壹個標準差以內,95%的數據值落在平均值的兩個標準差以內,幾乎所有的數據都落在三個標準差以內。
在Excel中,有壹個重要的工具叫做數據分析庫(有些Excel版本需要自己安裝和查找),裏面封裝了大量的統計工具。
點擊描述統計,選擇要計算的區域,逐列設置,選擇輸出區域旁邊的U2塊。輸出計算結果。
1列的壹切都屬於描述統計學中的各種度量。我們不必計算每個函數。
方差和標準差是重要的概念,會在後續的統計中不斷出現。
數據方框圖
回到測量,以上內容都是數值方法,但還是不夠直觀。
先總結五類數據:最小值、第壹個四分位數Q1、中值、第三個四分位數Q3、最大值。
以數據分析師的薪酬數據為例。
以上是清洗後的數據。我們使用Excel函數來計算這五個指標。它們是中值()、最大值()、最小值()和誇脫()。按城市區分。
通過數據,我們現在可以了解數據分析師在各個城市的薪酬分布,然後加工成箱線圖,這是最常用的描述性統計圖表。
方框圖通過我們算出的五個數據來確定位置。
箱形圖的上下邊緣分別是最大值和最小值(實際上不是,所以這裏為了方便理解),箱形的上下邊界分別是25%分位數和75%分位數。方框中的水平線是中間值。異常值是框線邊緣以外的值,需要直接消除。
Excel2016可以直接畫箱線圖。如果是早期版本,有兩種繪圖思路。
首先是用股價圖。按照25%分位數、最大值、最小值和75%分位數的順序排列圖表。
然後直接生成圖表:
這個圖沒有中值,需要加上中值。數據源創建壹個新的系列,該系列應調整到數據源的中間位置。
選擇中位數數據系列格式,將標簽改為“-”,大小為12,顏色為黑色。至此,有了箱型圖的雛形。
另壹種思路是畫散點圖的誤差線,和甘特圖的原理壹樣。還是自己練吧。
其實從圖表中我們可以看到,雖然我們畫了壹個箱型圖,但是不同城市之間的數據差異並不直觀,因為最大值支持箱型圖的邊緣。我們經常會遇到這些影響分析質量的異常值(雖然過分異常的值是合理的,但很多分析必須去除)。我們需要清理這些離群值。
定義四分位數離差IQR=Q3(75%分位數)-Q1 (25%分位數),箱線圖的邊界在(Q1-1.5IQR,Q3+1.5 IQR)。邊界外的所有值都是異常值。
底部和頂部是新的邊界,邊界之外的數據被視為異常值。邊界內的數據是盒圖的主體,然後找出邊界內的最大值和最小值。比如上海的邊界在-5到39之間,邊界內數據的實際範圍是1.5~37.5,那麽用1.5 ~ 37.5畫壹個方框。
現在您已經獲得了真正的五個指標,您可以重新繪制方框圖(我們需要使用bottom和top來找到範圍內新的最大值和最小值)。為了演示方便,我直接用Python生成了(之前教的BI也可以,看起來更好)。
比Excel畫的圖直觀多了。紅線的位置是每個城市中遊水平的數據分析師可以拿到的薪資標準。上面的藍線區間是中上遊,下面的藍線區間是中下遊,以此類推。簡而言之,人群被分為四類。
我們來解讀壹下:上海、北京、深圳的數據分析師工資區間差不多,但是中上遊的人在北京能拿到更高的工資,是因為中位數位置更高。Xi、長沙、天津不利於數據分析師的發展。杭州水平接近北深,但工資上限有限。
這張圖壹眼就能看出很多。我想大家都了解箱線圖的功能,可以讀取數據的整體分布和傾斜趨勢(偏斜度)。
通過圖表(柱狀圖和散點圖也是描述性統計)快速解讀數據是數據分析師的基本能力之壹。
想想看,如果是O2O數據分析,能快速判斷各個城市的經營情況嗎?如果是金融的話,能不能把人分成不同的群體,看看他們業務的不同分布?如果是電商,不同品類的營銷數據會有很大差異嗎?配合不同維度的細分很有價值。
箱線圖是壹個非常優秀的圖表。雖然在Excel中會比較復雜(更新到2016),但是在Python和R語言中,操作起來需要十秒鐘。