通過閱讀本文,您可以了解到:
1,決策樹的精髓
2.決策樹的構建過程
3.決策樹的優化方向
決策樹根據使用目的分為分類樹和回歸樹,本質上是壹樣的。本文只談分類樹。
決策樹,顧名思義,用樹形結構來模擬決策。
圖形表示如下。
其中橢圓代表:特征或屬性。矩形代表:分類結果。
面對壹堆數據(包括特征和類別),決策樹根據這些特征(橢圓)對數據(矩形)進行分類。
比如關於信用貸款的問題,我根據《神奇動物在哪裏》的劇情給銀行做了壹個決策樹模型,如下圖:
但是否放貸的決策可以基於很多特性,但麻吉銀行選擇了:(1)房產價值是否>;100 w;(2)是否有其他有價值的抵押物;(3)月收入> 10k;(4)是否結婚;這四個特征,來決定是否給予貸款。
不管是否合理,可以肯定的是決策樹做了特征選擇,也就是選擇了分類區分度高的特征。
因此,決策樹實際上是壹種特征選擇方法。(特征選擇有很多種,決策樹屬於嵌入式特征選擇,後面可能會提到。先給個圖),也就是選取壹個區分度高的特征子集。
那麽,從特征選擇的角度來看,決策樹是壹種嵌入式的特征選擇技術。
同時,決策樹也是機器學習中的經典分類算法。通過決策路徑,它可以最終確定實例屬於哪個類別。
那麽,從分類器的角度來看,決策樹就是樹形結構的分類模型。
從人工智能知識表示的角度來看,決策樹類似於if-then產生式表示。
然後,從知識表示的角度來看,決策樹是壹組if-then規則。
從上面的例子可以看出,麻吉銀行是通過決策樹模型來決定貸款給誰的,所以決定貸款的過程是固定的,而不是由人的主觀感受決定的。
那麽,從用戶的角度來看,決策樹是規範流程的方法。
最後,決策樹的本質是什麽並不重要。
決策樹似乎是壹種思想,將其應用於分類任務,實現了“決策樹算法”。
以下內容繼續解釋用於分類的“決策樹算法”。
如前所述,決策樹是壹種特征選擇技術。
由於決策樹是壹種特征選擇的方法,所以經典的決策樹算法實際上使用了不同的特征選擇方案。
比如:
(1)ID3:使用信息增益作為特征選擇。
(2)C4.5:使用信息增益率作為特征選擇。
(3)CART:采用GINI系數作為特征選擇。
網上有很多具體的選擇方式,我這裏提供幾個鏈接,不贅述。
但不僅僅是這樣。
決策樹作為壹種嵌入式的特征選擇技術,結合了特征選擇和分類算法,如何根據特征選擇生成分類模型也是決策樹的壹部分。
生成過程基本如下:
根據這三個步驟,可以確定決策樹是由(1)個特征選擇的;(2)生成方法;(3)修剪和構圖。
決策樹中學習算法和特征選擇的關系如下圖所示:
原始特征集T:包含采集的原始數據的所有特征,比如麻瓜銀行采集的所有特征,是否有還款能力,比如是否已婚,是否擁有房產100w,是否擁有汽車,是否有孩子,月收入是否>:10k等等。
中間的虛線框是特征選擇過程,比如ID3用信息增益,C4.5用信息增益率,CART用GINI系數。
其中,評價指標(如信息增益)是對特征的要求,特征需要滿足這個條件(壹般是壹定的閾值)才能被選擇,而這個選擇過程是嵌入在學習算法中的,最終選擇的特征子集也屬於學習算法。
這就是抽象決策樹的生成過程,任何算法都是這個抽象過程的具體化。
具體算法我留到下壹篇文章來解釋。
決策樹的剪枝其實用的不多,因為很多時候隨機森林可以解決決策樹帶來的過擬合問題,這裏就不說了。
決策樹的優化主要圍繞決策樹生成過程的三個步驟。
樹形結構,可想而知算法的效率取決於樹的深度,優化主要是從特征選擇的方向。
提高分類性能是最重要的優化目標,其主要功能是特征選擇。
面對過擬合,壹般采用剪枝的方式進行優化,比如李國和的基於決策樹生成和剪枝的數據集優化及其應用。
同時,決策樹也有很多缺點,比如多值偏向、計算效率低、對數據缺口敏感等。這方面的優化也很多,大部分也是功能選擇的方向。例如,陳佩玲使用粗糙集來降低特征的維度。
所以決策樹的優化方向大多是特征選擇的方向,比如ID3,C4.5,CART,都是基於特征選擇進行優化的。
參考
統計學習方法-李航
特征選擇方法綜述——李
決策樹分類算法優化研究_陳佩玲
基於決策樹生成和剪枝的數據集優化及其應用——李國和