當前位置:偏方大全网 - 藥品查詢 - 決策樹算法-基本原理

決策樹算法-基本原理

關於決策樹算法,我打算分兩部分來講,壹是關於思想原理,二是直接分析算法。本文為原創文章。

通過閱讀本文,您可以了解到:

1,決策樹的精髓

2.決策樹的構建過程

3.決策樹的優化方向

決策樹根據使用目的分為分類樹和回歸樹,本質上是壹樣的。本文只談分類樹。

決策樹,顧名思義,用樹形結構來模擬決策。

圖形表示如下。

其中橢圓代表:特征或屬性。矩形代表:分類結果。

面對壹堆數據(包括特征和類別),決策樹根據這些特征(橢圓)對數據(矩形)進行分類。

比如關於信用貸款的問題,我根據《神奇動物在哪裏》的劇情給銀行做了壹個決策樹模型,如下圖:

但是否放貸的決策可以基於很多特性,但麻吉銀行選擇了:(1)房產價值是否>;100 w;(2)是否有其他有價值的抵押物;(3)月收入> 10k;(4)是否結婚;這四個特征,來決定是否給予貸款。

不管是否合理,可以肯定的是決策樹做了特征選擇,也就是選擇了分類區分度高的特征。

因此,決策樹實際上是壹種特征選擇方法。(特征選擇有很多種,決策樹屬於嵌入式特征選擇,後面可能會提到。先給個圖),也就是選取壹個區分度高的特征子集。

那麽,從特征選擇的角度來看,決策樹是壹種嵌入式的特征選擇技術。

同時,決策樹也是機器學習中的經典分類算法。通過決策路徑,它可以最終確定實例屬於哪個類別。

那麽,從分類器的角度來看,決策樹就是樹形結構的分類模型。

從人工智能知識表示的角度來看,決策樹類似於if-then產生式表示。

然後,從知識表示的角度來看,決策樹是壹組if-then規則。

從上面的例子可以看出,麻吉銀行是通過決策樹模型來決定貸款給誰的,所以決定貸款的過程是固定的,而不是由人的主觀感受決定的。

那麽,從用戶的角度來看,決策樹是規範流程的方法。

最後,決策樹的本質是什麽並不重要。

決策樹似乎是壹種思想,將其應用於分類任務,實現了“決策樹算法”。

以下內容繼續解釋用於分類的“決策樹算法”。

如前所述,決策樹是壹種特征選擇技術。

由於決策樹是壹種特征選擇的方法,所以經典的決策樹算法實際上使用了不同的特征選擇方案。

比如:

(1)ID3:使用信息增益作為特征選擇。

(2)C4.5:使用信息增益率作為特征選擇。

(3)CART:采用GINI系數作為特征選擇。

網上有很多具體的選擇方式,我這裏提供幾個鏈接,不贅述。

但不僅僅是這樣。

決策樹作為壹種嵌入式的特征選擇技術,結合了特征選擇和分類算法,如何根據特征選擇生成分類模型也是決策樹的壹部分。

生成過程基本如下:

根據這三個步驟,可以確定決策樹是由(1)個特征選擇的;(2)生成方法;(3)修剪和構圖。

決策樹中學習算法和特征選擇的關系如下圖所示:

原始特征集T:包含采集的原始數據的所有特征,比如麻瓜銀行采集的所有特征,是否有還款能力,比如是否已婚,是否擁有房產100w,是否擁有汽車,是否有孩子,月收入是否>:10k等等。

中間的虛線框是特征選擇過程,比如ID3用信息增益,C4.5用信息增益率,CART用GINI系數。

其中,評價指標(如信息增益)是對特征的要求,特征需要滿足這個條件(壹般是壹定的閾值)才能被選擇,而這個選擇過程是嵌入在學習算法中的,最終選擇的特征子集也屬於學習算法。

這就是抽象決策樹的生成過程,任何算法都是這個抽象過程的具體化。

具體算法我留到下壹篇文章來解釋。

決策樹的剪枝其實用的不多,因為很多時候隨機森林可以解決決策樹帶來的過擬合問題,這裏就不說了。

決策樹的優化主要圍繞決策樹生成過程的三個步驟。

樹形結構,可想而知算法的效率取決於樹的深度,優化主要是從特征選擇的方向。

提高分類性能是最重要的優化目標,其主要功能是特征選擇。

面對過擬合,壹般采用剪枝的方式進行優化,比如李國和的基於決策樹生成和剪枝的數據集優化及其應用。

同時,決策樹也有很多缺點,比如多值偏向、計算效率低、對數據缺口敏感等。這方面的優化也很多,大部分也是功能選擇的方向。例如,陳佩玲使用粗糙集來降低特征的維度。

所以決策樹的優化方向大多是特征選擇的方向,比如ID3,C4.5,CART,都是基於特征選擇進行優化的。

參考

統計學習方法-李航

特征選擇方法綜述——李

決策樹分類算法優化研究_陳佩玲

基於決策樹生成和剪枝的數據集優化及其應用——李國和

  • 上一篇:霸王路註冊商標了嗎?還有哪些類別可以註冊?
  • 下一篇:南京寧衛醫藥有限公司怎麽樣?
  • copyright 2024偏方大全网