決策樹算法-基本原理

關於決策樹算法，我打算分兩部分來講，壹是關於思想原理，二是直接分析算法。本文為原創文章。

通過閱讀本文，您可以了解到:

1，決策樹的精髓

2.決策樹的構建過程

3.決策樹的優化方向

決策樹根據使用目的分為分類樹和回歸樹，本質上是壹樣的。本文只談分類樹。

決策樹，顧名思義，用樹形結構來模擬決策。

圖形表示如下。

其中橢圓代表:特征或屬性。矩形代表:分類結果。

面對壹堆數據(包括特征和類別)，決策樹根據這些特征(橢圓)對數據(矩形)進行分類。

比如關於信用貸款的問題，我根據《神奇動物在哪裏》的劇情給銀行做了壹個決策樹模型，如下圖:

但是否放貸的決策可以基於很多特性，但麻吉銀行選擇了:(1)房產價值是否>；100 w；(2)是否有其他有價值的抵押物；(3)月收入> 10k；(4)是否結婚；這四個特征，來決定是否給予貸款。

不管是否合理，可以肯定的是決策樹做了特征選擇，也就是選擇了分類區分度高的特征。

因此，決策樹實際上是壹種特征選擇方法。(特征選擇有很多種，決策樹屬於嵌入式特征選擇，後面可能會提到。先給個圖)，也就是選取壹個區分度高的特征子集。

那麽，從特征選擇的角度來看，決策樹是壹種嵌入式的特征選擇技術。

同時，決策樹也是機器學習中的經典分類算法。通過決策路徑，它可以最終確定實例屬於哪個類別。

那麽，從分類器的角度來看，決策樹就是樹形結構的分類模型。

從人工智能知識表示的角度來看，決策樹類似於if-then產生式表示。

然後，從知識表示的角度來看，決策樹是壹組if-then規則。

從上面的例子可以看出，麻吉銀行是通過決策樹模型來決定貸款給誰的，所以決定貸款的過程是固定的，而不是由人的主觀感受決定的。

那麽，從用戶的角度來看，決策樹是規範流程的方法。

最後，決策樹的本質是什麽並不重要。

決策樹似乎是壹種思想，將其應用於分類任務，實現了“決策樹算法”。

以下內容繼續解釋用於分類的“決策樹算法”。

如前所述，決策樹是壹種特征選擇技術。

由於決策樹是壹種特征選擇的方法，所以經典的決策樹算法實際上使用了不同的特征選擇方案。

比如:

(1)ID3:使用信息增益作為特征選擇。

(2)C4.5:使用信息增益率作為特征選擇。

(3)CART:采用GINI系數作為特征選擇。

網上有很多具體的選擇方式，我這裏提供幾個鏈接，不贅述。

但不僅僅是這樣。

決策樹作為壹種嵌入式的特征選擇技術，結合了特征選擇和分類算法，如何根據特征選擇生成分類模型也是決策樹的壹部分。

生成過程基本如下:

根據這三個步驟，可以確定決策樹是由(1)個特征選擇的；(2)生成方法；(3)修剪和構圖。

決策樹中學習算法和特征選擇的關系如下圖所示:

原始特征集T:包含采集的原始數據的所有特征，比如麻瓜銀行采集的所有特征，是否有還款能力，比如是否已婚，是否擁有房產100w，是否擁有汽車，是否有孩子，月收入是否>:10k等等。

中間的虛線框是特征選擇過程，比如ID3用信息增益，C4.5用信息增益率，CART用GINI系數。

其中，評價指標(如信息增益)是對特征的要求，特征需要滿足這個條件(壹般是壹定的閾值)才能被選擇，而這個選擇過程是嵌入在學習算法中的，最終選擇的特征子集也屬於學習算法。

這就是抽象決策樹的生成過程，任何算法都是這個抽象過程的具體化。

具體算法我留到下壹篇文章來解釋。

決策樹的剪枝其實用的不多，因為很多時候隨機森林可以解決決策樹帶來的過擬合問題，這裏就不說了。

決策樹的優化主要圍繞決策樹生成過程的三個步驟。

樹形結構，可想而知算法的效率取決於樹的深度，優化主要是從特征選擇的方向。

提高分類性能是最重要的優化目標，其主要功能是特征選擇。

面對過擬合，壹般采用剪枝的方式進行優化，比如李國和的基於決策樹生成和剪枝的數據集優化及其應用。

同時，決策樹也有很多缺點，比如多值偏向、計算效率低、對數據缺口敏感等。這方面的優化也很多，大部分也是功能選擇的方向。例如，陳佩玲使用粗糙集來降低特征的維度。

所以決策樹的優化方向大多是特征選擇的方向，比如ID3，C4.5，CART，都是基於特征選擇進行優化的。

參考

統計學習方法-李航

特征選擇方法綜述——李

決策樹分類算法優化研究_陳佩玲

基於決策樹生成和剪枝的數據集優化及其應用——李國和

上一篇:霸王路註冊商標了嗎？還有哪些類別可以註冊？

下一篇:南京寧衛醫藥有限公司怎麽樣？

福建省科學技術獎勵辦法

高三軍訓帶什麽

救災物資儲備管理辦法

速效感風膠囊和感冒通膠囊混用謝了，天助我也啊！

銷售業務員簡歷範文3篇

阿斯納迪是否註冊過商標？還可以註冊哪些類別的商標？

依巴斯汀簡介