當前位置:偏方大全网 - 藥品查詢 - 提高數據分析效率的八大技巧

提高數據分析效率的八大技巧

提高數據分析效率的八大技巧

我剛和壹個老朋友聯系上。她壹直對數據科學感興趣,但在10個月前才涉足這個領域——她加入了壹個組織,擔任數據科學家。我明顯感覺到她在新的崗位上學到了很多。但是,我們聊天的時候,她提到了壹個事實,或者說壹個至今縈繞在我腦海裏的問題。她說,無論她表現如何,每個項目或分析任務都要做很多次,經理才會滿意。她還提到,事後經常發現,沒用那麽多時間!

聽起來像發生在妳身上的事嗎?妳會分析很多遍才得出壹個像樣的答案嗎?還是壹遍又壹遍的為類似的活動寫代碼?如果是這樣,這篇文章正適合妳。我來分享壹些提高效率,減少不必要重復工作的方法。

備註:請不要誤會。我不是說叠代不好。本文關註於如何識別哪些叠代是必要的,哪些是不必要的,需要避免。

是什麽導致了數據分析中的重復工作?我認為沒有必要在不增加新信息的情況下重復分析(後面提到壹個例外)。可以避免以下重復性任務:

對客戶問題的診斷有偏差,不能滿足需求,需要重做。反復分析的目的是為了收集更多妳之前認為不需要的變量。影響妳分析活動的偏差或假設,之前沒有考慮,後來考慮了,妳就要重做。哪些叠代是必要的?這裏有兩個例子。首先,妳在6個月後建立了壹個模型,然後妳有了新的信息,所以產生的叠代是健康的。第二,妳刻意從壹個簡單的模型開始,逐漸了解並建立壹個復雜的模型。

以上並沒有涵蓋所有可能的情況,但我相信這些例子足以幫助妳判斷妳的分析叠代是否健康。

這些生產力殺手的影響?我們知道壹件事——沒有人希望不健康的叠代和生產力殺手出現在分析中。不是每個數據科學家都樂於在添加變量的同時重復運行整個分析過程。

分析師和數據科學家會因為不健康的叠代和低效而深感沮喪,缺乏成就感。那就讓我們盡壹切努力避免它們。

提示:如何避免不健康的叠代,提高效率提示1:只關註重大問題。

每個組織都有很多可以用數據解決的小問題!但是雇傭壹個數據科學家的主要目的不是為了解決這些小問題。如果要把好鋼用在刀刃上,就要選出三四個對整個組織影響最大的數據問題,交給數據科學家去解決。這些問題壹般都具有挑戰性,會給妳的分析活動帶來最大的杠桿作用(要麽滿滿的收益,要麽沒有收益,想象壹下借款和炒股)。當更大的問題沒有解決時,妳不應該解決小問題。

聽起來不多,但實際上很多機構做的並不好!我看到很多銀行是做營銷而不是數據分析來提高風險分值的。壹些保險公司並沒有利用數據分析來提高客戶留存率,而是試圖為代理機構建立激勵計劃。

技巧2:從壹開始就創建數據分析的演示文稿(可能的布局和結構)。

我壹直在做這個,受益匪淺。建立分析報告的框架應該是項目開始後的第壹件事。這聽起來可能違反直覺,但是壹旦妳養成這個習慣,妳就可以節省時間。

如何搭建框架?妳可以用ppt,word,或者壹段話來搭建框架,形式無關緊要。從壹開始就列出所有可能的情況是很重要的。例如,如果您試圖降低壞賬註銷率,您可以按如下方式進行演示:

接下來,妳可以考慮每個因素是如何影響壞賬核銷率的。比如,銀行的壞賬核銷率因客戶授信額度提高而提高。您可以:

首先,確保那些信用額度沒有增加的客戶沒有導致壞賬核銷率的上升。

接下來,用壹個數學公式來衡量這個影響。

壹旦妳考慮了分析的每壹個分支,妳就為自己創造了壹個好的起點。

技巧3:提前定義數據需求。

數據需求直接來源於最終分析結果。如果妳已經全面規劃了要做什麽分析,要產生什麽結果,那麽妳就知道數據要求是什麽了。這裏有壹些提示可以幫助妳:

試著給數據需求壹個結構:不只是寫下壹個變量列表,妳應該清楚地考慮分析活動需要哪些表。以增加壞賬核銷率為例,妳會需要客戶人口統計、過去營銷活動統計、過去12個月的客戶交易記錄、銀行信貸政策變更單據等信息。

收集所有妳可能需要的數據:即使妳不能100%確定妳是否需要所有的變量,妳也應該在這個階段收集所有的數據。這樣做需要大量的工作,但是比在後面的環節中添加變量收集數據更有效率。

定義您感興趣的數據的時間間隔。

提示4:確保妳的分析是可重復的。

這個提示聽起來可能很簡單——但是對於初學者和高級分析師來說很難掌握。初學者會使用Excel進行每壹步的活動,包括復制和粘貼數據。對於高級用戶,通過命令行界面完成的任何工作都可能無法重現。

同樣,在使用筆記本時,妳也需要格外小心。您應該限制自己修改前面的步驟,尤其是如果前面的數據已經被後面的步驟使用。記事本在維護這種涉及前後數據交叉核對關系的數據流方面非常強大。但是如果這個數據流不在記事本裏維護,那就很沒用了。

技巧5:構建標準代碼庫。

簡單操作不需要反復重寫代碼。這不僅浪費時間,還可能造成語法錯誤。另壹個竅門是為常見操作創建壹個標準代碼庫,並與整個團隊共享。

這不僅能確保整個團隊使用相同的代碼,還能讓他們更有效率。

技巧6:構建壹個中間數據集市。

很多時候,妳會壹遍又壹遍地需要同樣的信息。例如,您將在多個分析和報告中使用所有客戶的信用卡消費記錄。盡管每次都可以從事務記錄表中提取數據,但是創建包含這些表的中間數據集市可以有效地節省時間和精力。同樣,也不需要每次都查詢提取營銷活動匯總表。

技巧7:使用預留樣本和交叉驗證來防止過度擬合。

許多初學者低估了樣本保留和交叉驗證的力量。很多人傾向於認為,只要訓練集足夠大,就幾乎不會過擬合,所以不需要交叉驗證或者保留樣本。

有了這種想法,最後事情往往會出錯。不止我壹個人這麽說——妳可以看看Kaggle上任何比賽的公開或私人排行榜。妳會發現,當前十的壹些人不再適合的時候,他們的排名就不再下降了。妳可以想象這些都是資深數據科學家。

秘訣8:集中精力工作壹段時間,定期休息。

對我來說,最好的工作狀態是集中精力解決壹個問題或項目2-3個小時。作為壹名數據科學家,妳很難同時完成多項任務。妳需要盡最大努力處理壹個問題。對我來說,2-3個小時的時間窗口是最有效率的,妳可以根據個人情況自己設定。

後記以上是我提高工作效率的壹些方法。我不強調第壹次就把事情做好,但是妳必須養成每次都把事情做好的習慣——這樣妳才能成為壹名專業的數據科學家。

妳有什麽提高工作效率的好方法?請在下面的評論中留言。

原標題:數據科學家的8個生產力技巧&;商業分析師

翻譯筆記1,接住?向上?用什麽?某人(somebody的簡寫)也指與某人恢復聯系,相當於成為?當前?用什麽?什麽?去嗎?開?在?某人的?人生?什麽時候?妳呢。沒有嗎?去過嗎?在?觸摸?為了什麽?答?在…期間

那麽這句話的意思是?“能再聯系(見面/見面)妳真好”,尤其是有壹段時間沒見,沒聯系的時候。

2、生產力?殺手,生產力殺手,降低生產力的因素,阻礙生產力提高的因素。

3.壞賬核銷率是信用卡行業的重要指標,除以月初信用卡應收賬款總額的年化比例,主要用於衡量資產的信用水平。

4.插圖中的品牌?策略?變化,品牌戰略變化可能導致壞賬核銷率上升。比如采用競爭品牌或邊際品牌策略時,可能導致壞賬核銷率上升。

5.品牌戰略:

形象品牌。在品牌競爭中,形象品牌能有效贏得公眾的信任,形成良好的“口碑”效應,對品牌資本的積累和提升有著極其重要的作用,並能促進企業其他品牌的推廣。比如雀巢的“雀巢”,作為母品牌,是壹個形象品牌,對旗下的很多子品牌起到了有效的推廣作用。因此,企業的品牌經營戰略不能沒有形象品牌。競爭品牌通常是針對市場上同類產品而推出的,會通過其技術、價格或服務特色等特殊的市場定位,撕開競爭對手的防線或開拓新的目標市場。顯然,競爭品牌的主要目的是為企業贏得更多的市場份額,為企業創造競爭優勢。這類品牌現在可能不會給企業帶來多少利潤,但發展潛力巨大,是企業在未來市場參與品牌競爭的關鍵和希望。利潤品牌是企業多品牌經營的中心。利潤品牌為企業創造利潤,這是現代品牌管理的重要特征。利潤品牌壹般是企業特有技術(企業核心競爭力)的代表,競爭對手很難在短時間內進入這壹領域為企業創造較大的利潤空間,甚至超額利潤。當然,這類品牌如果不升級改進,可能會進入衰退期。邊緣品牌是企業多品牌經營戰略的必要補充。邊緣品牌不是企業的形象品牌或競爭品牌,很難從外觀上創造利潤,但因為有壹定的客戶群,不需要像其他品牌那樣高投入。所以,即使這個品牌銷量停滯或者慢慢下滑,仍然有壹批忠實的消費者不會放棄這種品牌。邊緣品牌的作用是創造剩余資源,為企業的競爭品牌、形象品牌、利潤品牌提供資源支持,有助於抵消企業的固定運營費用。6.插圖中的“收購”?驅動”,收購即(1)收購兼並;(2)圖書資料的獲取(通過購買和交換圖書等方式。);獲得的書籍(或報刊雜誌);(3)習得(知識、技能等。).比如數據?采集是指數據采集。

7.插圖中的“花”?模擬”,譯者只是根據文意翻譯成“成本模擬”。在ask.com搜索引擎中,沒有相應的內容。網站提示是否搜花了?Simulation,spent是壹款互動遊戲,由壹家非營利組織發起,旨在幫助無家可歸者和窮人。玩家花費65438美元+0,000元過壹個月模擬窮人生活。玩家在參與互動遊戲時會面臨很多選擇,比如封面?那個?最低?開?妳的?信用?卡片?還是?付錢?那個?房租?信用卡還是房租?此遊戲於2011年2月首次舉辦,已有218個國家的200萬人玩了400多萬次。如果客戶參與此類活動,可能會導致信用卡逾期還款。參考鏈接:http://umdurham.org/? https://en . Wikipedia . org/wiki/spend _(online _ game)# cite _ note-2

8、數據?需求,數據需求,與之相關的是市場?需求,生產?需求,其中產品需求與數據需求密切相關。因為數據需求是隨著產品業務邏輯發展的。要收集壹個產品的數據,需要了解產品的業務邏輯,比如功能之間的交互,單個功能的業務邏輯。其次,對業務邏輯進行節點化,識別重要節點並列出優先級。第三,對基於節點的業務進行編碼,主要是對列出的重要節點(需要統計的節點)添加統計事件和參數。最後,形成數據需求文檔。

9、更多?經常?比?不經常

看了這篇文章,翻譯了這篇文章,感覺數據分析師可以從兩個方面學習。壹種是借鑒傳統的管理咨詢行業。DA需要的能力包括傳統咨詢行業的問題解決能力加上數據處理能力。比如本文的第二個提示,類似於咨詢行業的重要方法——結構化思維。可以參考芭芭拉·明托的《邏輯?在?寫作,?思考?然後呢。問題?Solving(中文翻譯:金塔原理——思考、表達和解決問題的邏輯),這本書是麥肯錫的經典培訓教材,介紹了許多實用方法,幫助讀者清晰地專註於思考和表達,邏輯清晰,重點明確。第二,可以從傳統的數據資源規劃中得到啟發。本文第三點建議,如何確定數據需求,可以參考傳統數據資源規劃中從業務需求中獲取數據需求,對業務和數據進行建模的系統方法,具體可以參考高富賢教授的《信息資源規劃:信息化建設的基礎工程》。

本文最後提到了作息,因人而異。我認為需要註意以下幾點:

首先是評價綜合效率。壹周壹到兩次,效率極高,但綜合效率可能還不如壹周都保持穩定的節奏。可以嘗試用番茄鐘作為時間管理工具,定量分析自己的情況;

二是調整生活習慣。數據分析需要充沛的精力,影響精力的因素很多,比如暴飲暴食,可能會產生負面影響。

第三是註意呼吸。如果我們在高效的時候,身心都很舒服,呼吸也很自然,那麽這種狀態就是可持續的。如果妳在專註的時候經常屏住呼吸,這種方式更傾向於消費。冥想和正念訓練可能會有幫助。

工作就像跑馬拉松。有些人的目標不是跑得快,而是跑得久,希望能跑到60歲。這類人更需要控制心率,而不是提高速度。有些人想盡快提高成績,為幾項重要賽事沖刺,所以自願承擔自由基增加的代價。數據分析也是如此。定了什麽樣的目標,那就怎麽跑。

以上是邊肖為您分享的提高數據分析效率的八個技巧的相關內容。更多信息可以關註環球常春藤分享更多幹貨。

  • 上一篇:內勤工作總結簡短
  • 下一篇:甘草片功效與作用及禁忌,甘草片功效與作用禁忌
  • copyright 2024偏方大全网