壹個典型的場景是我們需要分析企業的數據,比如銷售數據,用戶數據,運營數據,產品生產數據...妳需要從這些數據中獲得哪些有用的信息來指導策略的制定?比如妳需要做的是市場調研或者行業分析,所以妳需要知道妳需要獲取這個行業的哪些信息。
首先,妳需要確定分析的問題是什麽?妳想得出什麽結論?
比如某個區域的空氣質量變化趨勢是怎樣的?
王者榮耀玩家的用戶畫像是怎樣的?什麽樣的人花錢多?
影響公司銷售增長的關鍵因素是什麽?
生產過程中影響生產率和質量的核心指標有哪些?
如何分析用戶畫像,進行精準營銷?
如何根據歷史數據預測未來某壹階段的用戶行為?
這些問題可能來自於妳現有的經驗和知識。比如妳已經知道用戶在壹周的不同時間購買的數量不同,那麽妳就可以通過分析得到銷量和時間的準確關系,從而精準備貨。比如妳知道這幾年北京的空氣質量越來越差,可能的因素有工廠排放、沙塵暴、居民排放、天氣因素等。,所以在定義問題的時候,妳需要想清楚,分析哪些因素需要重點考慮。
有些問題不太清楚,比如在生產過程中,影響質量的核心指標是什麽,或者說是原材料?裝備水平?工人級別?天氣怎麽樣?壹個過程的復雜性?壹個手術要重復多少次?.....這些可能並不明顯,或者如果妳涉足壹個新的領域,沒有非常專業的知識,那麽妳可能需要定義的問題就需要更寬泛,涵蓋更多的可能性。
問題的定義可能需要妳了解業務的核心知識,獲得壹些可以幫助妳分析的經驗。某種程度上,這也是我們常說的數據思維。數據分析往往能幫妳找到我們不容易發現的相關性,但對問題的準確定義能大大提高數據分析的效率。
如何更好的定義問題?
這就需要妳在長期的訓練中找到數據的感覺。開始時,您會得到包含大量字段的極其龐大的數據,這可能會非常尷尬。妳應該從哪裏開始?
但是如果妳有壹些經驗的話會好很多。比如妳想研究影響跑者速度的身體因素,那麽我們可能會研究運動員的身高、腿長、體重,甚至心率、血壓、臂長,但不會研究運動員的腋毛長度,這是基於我們現有的知識。再比如,如果要分析壹個地方房價的影響因素,那麽可能會有壹些常識,比如城市人口、地理位置、GDP、地價、物價水平,再進壹步,可能會有產業結構、文化狀況、氣候情況等等,但壹般不會去研究城市中女生的長相、美女比例。
所以妳分析問題多了,就會對數據有壹些敏感,從而形成用數據分析說話的習慣。這時候妳甚至可以根據壹些數據和自己的經驗做出初步的判斷和預測(當然不能代替完全樣本的準確預測)。這個時候妳基本上就有數據思維了。
2.數據采集
帶著具體問題,需要獲取相關數據。比如妳想探究北京空氣質量的變化趨勢,妳可能需要收集北京近幾年的空氣質量數據,天氣數據,甚至工廠數據,氣體排放數據,重要的日程數據等等。如果要分析影響公司銷售的關鍵因素,需要調用公司的歷史銷售數據、用戶畫像數據、廣告數據等等。
獲取數據的方法有很多。
第壹,公司的銷售和用戶數據可以直接從企業數據庫中調取,所以妳需要SQL技能來完成數據抽取等數據庫管理。比如妳可以根據妳的需求提取2017的所有銷量數據,今年銷量前50的產品數據,上海和廣東用戶的消費數據...SQL可以用簡單的命令幫助您完成這些任務。
二是獲取外部公共數據集。壹些科研機構、企業、政府會開放壹些數據,妳需要去特定的網站下載這些數據。這些數據集通常相對完整,質量相對較高。當然,這種方法也有壹些缺陷。通常情況下,數據會在稍後公布,但由於其客觀性和權威性,仍然具有很大的價值。
第三是寫壹個網絡爬蟲,在網上收集數據。比如妳可以通過爬蟲獲得招聘網站上某職位的招聘信息,租房網站上某城市的租房信息,豆瓣評分最高的電影列表,知乎的點贊和網易雲音樂評論列表。基於網絡上抓取的數據,妳可以分析某個行業,某個人群,這是壹種非常可靠的市場調研和競爭產品分析的方式。
當然,對比bug的意義在於,妳通常無法獲得妳所需要的所有數據,這會對妳的分析結果產生壹定的影響,但並不影響妳可以通過有限的可用數據提取更多有用的信息。
3.數據預處理
在現實世界中,大部分數據都是不完整、不壹致的臟數據,無法直接對數據進行分析,或者分析結果不盡人意。數據預處理的方法有很多:數據清洗、數據集成、數據轉換、數據歸約等等。只有對這些影響分析的數據進行處理,才能得到更準確的分析結果。
比如空氣質量數據,很多天的數據由於設備原因沒有監測到,有些數據重復記錄,有些數據在設備出現故障時無效。
那麽我們就需要用相應的方法來處理,比如不完整的數據,我們是直接去掉這個數據還是用相鄰值來補全。這些都是需要考慮的問題。
當然,這裏我們可能還會有數據分組、基本描述性統計的計算、基本統計圖的繪制、數據值的轉換、數據的歸壹化等。,可以幫助我們把握數據的分布特征,是進壹步深入分析和建模的基礎。
4.數據分析和建模
這部分需要了解基本的數據分析方法和數據挖掘算法,了解不同方法的適用場景和適用問題。分析中應避免統計分析方法的濫用和誤用。統計分析方法的濫用和誤用主要是由另壹種方法可以解決的問題、該方法應用的前提、該方法對數據的要求不明確造成的。
此外,選擇幾種統計分析方法對數據進行探索性和重復性分析也是極其重要的。每種統計分析方法都有自己的特點和局限性。所以壹般需要選擇幾種方法反復確認分析,單純根據壹種分析方法的結果得出結論是不科學的。
比如妳發現在壹定條件下,銷量和價格成正比,那麽妳就可以以此為基礎建立線性回歸模型。妳發現價格和廣告的關系是非線性的,可以先建立邏輯回歸模型進行分析。
壹般來說,回歸分析的方法可以滿足很大壹部分分析要求。當然,妳也可以學習壹些數據挖掘算法和特征提取方法來優化妳的模型,得到更好的結果。
5.數據可視化和數據報告編寫
分析結果最直接的結果就是統計數據的描述和展示。
比如通過數據的分布,我們找到了工資最高的五個城市,目前各種語言的流行程度排名,北京近幾年空氣質量的變化趨勢,安全套消費的區域分布...這些是我們可以通過簡單的數據分析和可視化展示的結果。
其他的需要探索內在聯系,比如影響產品質量的幾個關鍵指標。妳需要分析不同指標與產品質量的相關性,才能得出正確的結論。比如妳需要預測未來某段時間的產品銷量,妳需要對歷史數據進行建模分析,才能對未來的情況有更準確的預測。
數據分析報告不僅是分析結果的直接呈現,也是對相關情況的全面了解。我們經常看到壹些行業分析報告從不同角度分析各種關系。所以,妳需要壹個講故事的邏輯。如何從壹個宏觀的問題,深入細致到問題的方方面面,得到令人信服的結果,需要從實踐中不斷的訓練。
壹般來說,數據分析的壹般流程是這幾個步驟:問題定義、數據采集、數據預處理、數據分析建模、數據可視化和數據報告撰寫。