決策樹算法

機(jī)器學(xué)習(xí)中,決策樹是一個預(yù)測模型;它代表的是對象屬性值與對象值之間的一種映射關(guān)系。樹中每個節(jié)點(diǎn)表示某個對象,每個分叉路徑則代表的某個可能的屬性值,而每個葉結(jié)點(diǎn)則對應(yīng)具有上述屬性值的子對象。決策樹僅有單一輸出;若需要多個輸出,可以建立獨(dú)立的決策樹以處理不同輸出。
從數(shù)據(jù)產(chǎn)生決策樹的機(jī)器學(xué)習(xí)技術(shù)叫做決策樹學(xué)習(xí), 通俗說就是決策樹。
關(guān)于決策樹,幾乎是數(shù)據(jù)挖掘分類算法中最先介紹到的。
決策樹,顧名思義就是用來做決定的樹,一個分支就是一個決策過程。
每個決策過程中涉及一個數(shù)據(jù)的屬性,而且只涉及一個。然后遞歸地,貪心地直到滿足決策條件(即可以得到明確的決策結(jié)果)。
決策樹算法:顧名思義,以二分類問題為例,即利用自變量構(gòu)造一顆二叉樹,將目標(biāo)變量區(qū)分出來,所有決策樹算法的關(guān)鍵點(diǎn)如下:
1.分裂屬性的選擇:選擇哪個自變量作為樹叉,也就是在n個自變量中,優(yōu)先選擇哪個自變量進(jìn)行分叉。而采用何種計(jì)算方式選擇樹叉,決定了決策樹算法的類型,即ID3、c4.5、CART三種決策樹算法選擇樹叉的方式是不一樣的。
2.樹剪枝:在構(gòu)建樹叉時,由于數(shù)據(jù)中的噪聲和離群點(diǎn),許多分支反映的是訓(xùn)練數(shù)據(jù)中的異常,而樹剪枝則是處理這種過分?jǐn)M合的數(shù)據(jù)問題,常用的剪枝方法為先剪枝和后剪枝。
決策樹是一種十分常用的分類方法。他是一種監(jiān)管學(xué)習(xí),所謂監(jiān)管學(xué)習(xí)說白了很簡單,就是給定一堆樣本,每個樣本都有一組屬性和一個類別,這些類別是事先確定的,那么通過學(xué)習(xí)得到一個分類器,這個分類器能夠?qū)π鲁霈F(xiàn)的對象給出正確的分類。這樣的機(jī)器學(xué)習(xí)就被稱之為監(jiān)督學(xué)習(xí)。
構(gòu)建一棵決策樹,關(guān)鍵問題就在于,如何選擇一個合適的分裂屬性來進(jìn)行一次分裂,以及如何制定合適的分裂謂詞來產(chǎn)生相應(yīng)的分支。各種決策樹算法的主要區(qū)別也正在于此。
利用決策樹算法構(gòu)建一個初始的樹之后,為了有效地分類,還要對其進(jìn)行剪枝。這是因?yàn)?,由于?shù)據(jù)表示不當(dāng)、有噪音等原因,會造成生成的決策樹過大或過度擬合。因此為了簡化決策樹,尋找一顆最優(yōu)的決策樹,剪枝是一個必不可少的過程。
決策樹學(xué)習(xí)也是數(shù)據(jù)挖掘中一個普通的方法。在管理學(xué)中,每個決策樹都表述了一種樹型結(jié)構(gòu),它由它的分支來對該類型的對象依靠屬性進(jìn)行分類。每個決策樹可以依靠對源數(shù)據(jù)庫的分割進(jìn)行數(shù)據(jù)測試。這個過程可以遞歸式的對樹進(jìn)行修剪。當(dāng)不能再進(jìn)行分割或一個單獨(dú)的類可以被應(yīng)用于某一分支時,遞歸過程就完成了。另外,隨機(jī)森林分類器將許多決策樹結(jié)合起來以提升分類的正確率。
行業(yè)分析發(fā)現(xiàn),決策樹越小,就越容易理解,其存儲與傳輸?shù)拇鷥r也就越小,但決策樹過小會導(dǎo)致錯誤率較大。反之,決策樹越復(fù)雜,節(jié)點(diǎn)越多,每個節(jié)點(diǎn)包含的訓(xùn)練樣本個數(shù)越少,則支持每個節(jié)點(diǎn)樣本數(shù)量也越少,可能導(dǎo)致決策樹在測試集上的分類錯誤率越大。因此,剪枝的基本原則就是,在保證一定的決策精度的前提下,使樹的葉子節(jié)點(diǎn)最少,葉子節(jié)點(diǎn)的深度最小。要在樹的大小和正確率之間尋找平衡點(diǎn)。
在生成一棵最優(yōu)的決策樹之后,就可以根據(jù)這棵決策樹來生成一系列規(guī)則。這些規(guī)則采用“If...,Then...”的形式。從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的每一條路徑,都可以生成一條規(guī)則。這條路徑上的分裂屬性和分裂謂詞形成規(guī)則的前件(If部分),葉子節(jié)點(diǎn)的類標(biāo)號形成規(guī)則的后件(Then部分)。
相對于其他數(shù)據(jù)挖掘算法,決策樹在以下幾個方面擁有優(yōu)勢:
決策樹易于理解和實(shí)現(xiàn),人們在通過解釋后都有能力去理解決策樹所表達(dá)的意義。
對于決策樹,數(shù)據(jù)的準(zhǔn)備往往是簡單或者是不必要的,其他的技術(shù)往往要求先把數(shù)據(jù)一般化,比如去掉多余的或者空白的屬性;
能夠同時處理數(shù)據(jù)型和常規(guī)型屬性;
是一個白盒模型如果給定一個觀察的模型,那么根據(jù)所產(chǎn)生的決策樹很容易推出相應(yīng)的邏輯表達(dá)式;
易于通過靜態(tài)測試來對模型進(jìn)行評測。 表示有可能測量該模型的可信度;
在相對短的時間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。
知名風(fēng)險投資公司
紅杉資本|瑞華投資|同創(chuàng)偉業(yè)|達(dá)晨創(chuàng)投|深創(chuàng)投|IDG|創(chuàng)東方|君聯(lián)資本|中科招商|經(jīng)緯中國|啟明創(chuàng)投|松禾資本|英特爾投資|優(yōu)勢資本|東方富海|天堂硅谷|九鼎投資|晨興創(chuàng)投|江蘇高科投|北極光創(chuàng)投|德同資本|凱雷投資|中國風(fēng)投|天圖資本|真格基金|DCM|IFC|凱鵬華盈|高盛投資|啟迪創(chuàng)投|戈壁|荷多投資|紀(jì)源資本|鼎暉投資|華平投資|金沙江投資|海納亞洲|永宣創(chuàng)投|險峰華興創(chuàng)投|中投|海通開元|中信資本|力鼎資本|平安創(chuàng)新資本|天使灣創(chuàng)投|和君資本|祥峰集團(tuán)|招商湘江投資|元禾控股|力合創(chuàng)投|復(fù)星創(chuàng)富|陜西高投|光速創(chuàng)投|富達(dá)亞洲|成為資本|中信產(chǎn)業(yè)基金|GIC|基石資本|金茂資本|富坤創(chuàng)投|盈富泰克|重慶科投|鼎暉創(chuàng)投|北工投資|海富投資|招商局資本|新天域資本|中路集團(tuán)|摩根士丹利|青云創(chuàng)投|建銀國際|德豐杰|弘毅投資|CVC|藍(lán)馳創(chuàng)投|寬帶資本|秉鴻資本|金石投資|天創(chuàng)資本|證大投資|中經(jīng)合|信中利|蘭馨亞洲|淡馬錫|浙商創(chuàng)投|華睿投資|景林資產(chǎn)|摯信資本|高特佳|清科創(chuàng)投|華登國際|山東高新投|集富亞洲|騰訊|無錫創(chuàng)投|創(chuàng)新工場|智基創(chuàng)投|策源創(chuàng)投|軟銀中國|
創(chuàng)業(yè)聯(lián)合網(wǎng)是創(chuàng)業(yè)者和投資人的交流平臺。平臺擁有5000+名投資人入駐。幫助創(chuàng)業(yè)企業(yè)對接投資人和投資機(jī)構(gòu),同時也是創(chuàng)業(yè)企業(yè)的媒體宣傳和交流合作平臺。
熱門標(biāo)簽
精華文章
