當前位置:偏方大全网 - 中藥材 - 如何學習使用R語言進行數據挖掘

如何學習使用R語言進行數據挖掘

什麽是R語言?應該如何開始學習/使用R語言?

學了幾個月R,終於摸到了壹點門道。

寫壹些自己的想法和經歷,這樣可以進壹步擺弄r,如果有人看到我寫的東西得到幫助就更好了。

r是什麽?R的優勢在哪裏?

r是壹個數據分析軟件。簡單來說,R可以看作是MATLAB的“替代品”,具有免費開源的優勢。r可以像MATLAB壹樣解決數值計算相關的問題,具有強大的數據處理和繪圖功能。

R有大量的統計分析工具包,我的感覺是只有我們沒聽說過的工具,絕對沒有R沒有的工具包。有了各種各樣的工具包,妳可以摧毀任何關於數據和統計的問題。由於數據包數量龐大,找到自己需要的數據包可能會比較麻煩。

如果妳有以下技能,學習R會很方便:

1.我已經知道壹些高級編程語言(非常重要)

2.英語還不錯

3.概率統計的理論基礎

4.看數據不頭疼

5.我看cmd或者terminal都不頭疼

妳需要壹本適合自己的R語言教材。

開始學r的時候發現了這個帖子。

非常強大的R語言教材總結。非常感謝原帖作者。可以參考這個帖子選擇適合自己的教材。

我在這裏說說我主要用的幾本教材的體驗:

1.統計建模與R軟件(伊雪編寫):壹本優秀的R語言入門教材,涵蓋了R&的所有基礎應用;方法和示例代碼也非常出色。作為中文編程語言教材,絕對是數壹數二的。但要看懂這本書,還是需要“懂壹些高級編程語言”。PS:我親愛的吉林大學圖書館有兩本教材在流通,我常年占壹本。

2.R壹言以蔽之:從講解內容上看,和上壹本書差別不大,在R語言的應用上是比較初級的介紹,但是有些R軟件&語言的特點比伊雪老師的教材更深刻。這本書最大的好處就是它是壹本參考書,方便妳在開始入門的時候查詢壹些“模棱兩可”的東西。PS:我把這本書打印出來,簡單的從頭到尾翻了壹遍,它最大的用處就是像查字典壹樣查。

3.ggplot2優雅的數據圖形:這是壹本介紹如何使用ggplot 2包繪圖的書。Ggplot2包,壹個非常強大的繪圖工具,幾乎可以操作繪圖中的任何元素,並且它提供了壹種添加圖層的方法,這樣我們就可以壹步壹步地繪圖了。說到ggplot2包,要提到壹個詞——“潛力無窮”,每壹個都要介紹壹下。

ggplot2大家都會用這個形容詞。這本書最大的作用也是作為繪圖相關的參考書,講解詳細細致,每壹個小的參數變化都會圖文並茂,幫助妳理解。PS:這本書我也打印出來了,很適合查詢。

幾個可以逐步提高R能力的網站

1.R-bloggers:關於R和數據的討論都有,前沿問題,基礎問題,什麽都有。可以說這些家夥讓R越來越厲害了。我RSS這個網站,每天看看自己感興趣的方法和話題,慢慢積累壹些知識,是壹個有趣的過程。

2.統計之都:這是壹個大量R用戶交流的論壇。可以上去問問題,總有好心人幫妳。

3.r客:是壹個關於r的博客,更新不是很快,關註國內r的壹些動態。

r的使用環境

如果看到terminal或cmd就害怕,壹定要用Rstudio。Rstudio的優勢在於集成了Rconsole、腳本編輯器、可視化數據查詢、歷史命令、幫助查詢等功能,以及腳本與控制臺的完美交互。畢竟是可視化界面,用的按鈕很多。r的腳本編輯器很痛苦,所以比記事本更突出。不適合寫腳本,適合調試腳本。

最後我想說,剛開始學R或者其他任何語言的時候,都有壹個通病,就是不知道壹些小細節,或者記不太清楚。往往壹個傷蛋的bug就能消耗很多時間,這是壹個讓人想砸電腦的過程。以後我會在博客裏記錄壹些傷蛋的小細節。本文分為六個部分,分別介紹了導論、導論、繪圖與可視化、計量經濟學、時間序列分析、金融學等。

1.初步介紹

R入門,這是官方的入門小冊子。它有壹個中譯本,由丁翻譯,又譯為《R..R4初學者,這本小冊子有中文版,應該叫R入門..除此之外,妳還可以在153分鐘內閱讀劉思哲的《學習R》。本書收集了R初學者問的最多的153個問題。為什麽叫153分鐘?因為壹開始作者寫了153個問題,看壹個問題需要1分鐘,所以整體情況是153分鐘。有了這些基礎,我還得看壹些經典書籍,比如統計建模,R軟件。國外還有R Cookbook和R在行動,我沒看過,無法評論。

最後,我壹言以蔽之推薦R。對,“殼裏的r”!當然,我是開玩笑的。簡單地說就是俚語,意思是“簡單地”。目前正在翻譯這本書的中文版,明年3月投稿!這本書很好。可以從現在開始期待,讓我們廣而知之!

2.高級簡介

看完以上書籍,可以進入高級入門階段。這個時候有兩本經典的書可以讀。統計學與R和R書。這兩本書之所以先進,是因為它們不再局限於R基礎,而是結合了各種常用的數據分析方法編寫的。他們系統地介紹了R線性回歸、方差分析、多元統計、R繪圖、時間序列分析、數據挖掘等方面。看完它們,妳會發現,哇,R能做的事情真多,而且做起來這麽簡單。讀到這裏就差不多了,剩下的估計就是妳想具體研究的東西了。就籠統的說壹下吧。

3.繪圖和可視化

亞裏士多德說,“與其他感官相比,人類更喜歡觀看”。所以繪圖和可視化吸引了很多人的關註和重視。那麽,如何學習R繪圖和數據可視化呢?簡單,怎麽畫直方圖?如何在直方圖中添加密度曲線?我想看完以下幾本書,妳會有壹個大概的了解。

首先可以看《R Graphics》作為畫圖入門。個人覺得這本書還是挺經典的,全面介紹了R中的畫圖系統。有書對應的網站,谷歌會做。更深入的閱讀,可以閱讀Lattice:多元數據可視化帶r,以上都是比較常見的。當然還有更文藝優雅的ggplot 2系統,數據分析見ggplot 2:優雅圖形。還有壹本關於數據挖掘的書:用Rattle和R進行數據挖掘,主要用的是Rattle軟件。我個人比較喜歡撥浪鼓!當然,Rattle不是最好的,Rweka也很棒!然後是交互圖形的書。著名的交互系統是ggobi,我喜歡了兩年多。關於ggobi的書是用R和ggobi進行數據分析的交互式動態圖形,但只適合入門。更多信息可以去GGOBI的主頁,裏面有各種資料和包更新信息!

特別是中文版的繪本是現代統計圖形。

4.計量經濟學

關於計量經濟學,首先推薦壹本很薄的小冊子:《R中的計量經濟學》,作為入門使用。然後是《帶R的應用計量經濟學》,這本書對應的R包是AER,可以壹起安裝使用,效果很好。計量經濟學很大壹部分是關於時間序列分析的,在下面的地方說。

5.時間序列分析

時間序列書籍的書籍分為兩類,壹類是比較通用的書籍,典型代表是:時間序列分析及其應用:附R個例子。本書介紹了時間序列分析的各種經典方法,以及實現各種經典方法的R代碼。這本書有中文版。如果不想買,建議直接從作者主頁下載。英文版其實讀起來很簡單。時間序列分析很大壹部分是關於金融時間序列分析的。在這個領域有兩本很受歡迎的書,金融時間序列分析。這本書最初是用S-plus代碼編寫的,但新版本主要使用了R代碼。這本書適合有時間序列分析和金融學基礎的人,因為書中的時間序列分析理論和各種金融知識不是特別清楚,用極值理論計算VaR的部分比較難懂。另壹本有趣的書是Rmetrics出版的TimeSeriesFAQ。這本書是金融時間序列入門,很基礎但是很難理解。對應的中文版是《金融時間序列分析常見問題》。當然,現在還沒發。經濟領域有壹個時間序列的特例叫做協整,很多人都很關註這個理論。關心這壹點的人可以看到R..最後,更高級的書是關於小波分析的。參見統計學中的小波方法..另外,關於時間序列聚類的書籍目前比較少見,是壹片處女地,有誌之士可以開墾!

6.金融

金融領域非常廣泛。如果是大金融,這裏應該也包括保險。用R做金融需要掌握更多的金融知識,但只有數據分析技術意義不大。我覺得這些書對懂金融和不同數據分析技術的人更有用。只知道數據分析技術而不接觸財務知識的人,壹定是霧裏看花,甚至有人認為財務分析比較低級。這方面的經典書籍有:《用R分析經濟學和金融數據的高級課題》和《用S-Plus建模金融時間序列》。金融產品定價中經常用到隨機微分方程,有本書叫《模擬影響隨機微分方程:帶r個例子》關於這個,帶例子,內容還挺詳細的!此外,它還是壹門風險衡量和管理課程。經典的是金融風險管理中的模擬技術,使用R的現代實用風險理論和定量風險管理:概念、技術和工具。投資組合分析和期權定價分別可見於帶R的投資組合優化和帶R的期權定價和金融模型估計。

7.數據挖掘技術

這方面的書不多,只有帶R的數據挖掘:帶案例學習。不過R裏有足夠多的數據挖掘包,參考包裏的幫助文檔就夠了。

  • 上一篇:昆蟲故事中每種動物的簡介
  • 下一篇:尿怎麽臭?
  • copyright 2024偏方大全网