一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

決策樹

 窮且益堅青云志 2014-08-23

決策樹是數(shù)據(jù)挖掘分類算法的一個重要方法。在各種分類算法中,決策樹是最直觀的一種。決策樹(Decision Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評價項目風(fēng)險,判斷其可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。在機(jī)器學(xué)習(xí)中,決策樹是一個預(yù)測模型,他代表的是對象屬性與對象值之間的一種映射關(guān)系。Entropy = 系統(tǒng)的凌亂程度,使用算法ID3,C4.5和C5.0生成樹算法使用熵。這一度量是基于信息學(xué)理論中熵的概念。

中文名 決策樹
外文名 Decision Tree

□——決策點(diǎn),是對幾種可能方案的選擇,即最后選擇的最佳方案。如果決策屬于多級決策,則決策樹的中間可以有多個決策點(diǎn),以決策樹根部的決策點(diǎn)為最終決策方案。

○——狀態(tài)節(jié)點(diǎn),代表備選方案的經(jīng)濟(jì)效果(期望值),通過各狀態(tài)節(jié)點(diǎn)的經(jīng)濟(jì)效果的對比,按照一定的決策標(biāo)準(zhǔn)就可以選出最佳方案。由狀態(tài)節(jié)點(diǎn)引出的分支稱為概率枝,概率枝的數(shù)目表示可能出現(xiàn)的自然狀態(tài)數(shù)目每個分枝上要注明該狀態(tài)出現(xiàn)的概率。

△——結(jié)果節(jié)點(diǎn),將每個方案在各種自然狀態(tài)下取得的損益值標(biāo)注于結(jié)果節(jié)點(diǎn)的右端。

【概述來源】

機(jī)器學(xué)習(xí)中,決策樹是一個預(yù)測模型;他代表的是對象屬性與對象值之間的一種映射關(guān)系。樹中每個節(jié)點(diǎn)表示某個對象,而每個分叉路徑則代表的某個可能的屬性值,而每個葉結(jié)點(diǎn)則對應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對象的值。決策樹僅有單一輸出,若欲有復(fù)數(shù)輸出,可以建立獨(dú)立的決策樹以處理不同輸出。數(shù)據(jù)挖掘中決策樹是一種經(jīng)常要用到的技術(shù),可以用于分析數(shù)據(jù),同樣也可以用來作預(yù)測。

從數(shù)據(jù)產(chǎn)生決策樹的機(jī)器學(xué)習(xí)技術(shù)叫做決策樹學(xué)習(xí),通俗說就是決策樹。

一個決策樹包含三種類型的節(jié)點(diǎn):

決策樹學(xué)習(xí)也是資料探勘中一個普通的方法。在這里,每個決策樹都表述了一種樹型結(jié)構(gòu),它由它的分支來對該類型的對象依靠屬性進(jìn)行分類。每個決策樹可以依靠對源數(shù)據(jù)庫的分割進(jìn)行數(shù)據(jù)測試。這個過程可以遞歸式的對樹進(jìn)行修剪。當(dāng)不能再進(jìn)行分割或一個單獨(dú)的類可以被應(yīng)用于某一分支時,遞歸過程就完成了。另外,隨機(jī)森林分類器將許多決策樹結(jié)合起來以提升分類的正確率。

決策樹同時也可以依靠計算條件概率來構(gòu)造。

決策樹如果依靠數(shù)學(xué)的計算方法可以取得更加理想的效果。數(shù)據(jù)庫已如下所示:

(x,y)=(x1,x2,x3…,xk,y)

相關(guān)的變量Y表示我們嘗試去理解,分類或者更一般化的結(jié)果。其他的變量x1,x2,x3等則是幫助我們達(dá)到目的的變量。

決策樹易于理解和實(shí)現(xiàn),人們在在學(xué)習(xí)過程中不需要使用者了解很多的背景知識,這同時是它的能夠直接體現(xiàn)數(shù)據(jù)的特點(diǎn),只要通過解釋后都有能力去理解決策樹所表達(dá)的意義。[1]

對于決策樹,數(shù)據(jù)的準(zhǔn)備往往是簡單或者是不必要的,而且能夠同時處理數(shù)據(jù)型和常規(guī)型屬性,在相對短的時間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。

易于通過靜態(tài)測試來對模型進(jìn)行評測,可以測定模型可信度;如果給定一個觀察的模型,那么根據(jù)所產(chǎn)生的決策樹很容易推出相應(yīng)的邏輯表達(dá)式。

1)對連續(xù)性的字段比較難預(yù)測。

2)對有時間順序的數(shù)據(jù),需要很多預(yù)處理的工作。

3)當(dāng)類別太多時,錯誤可能就會增加的比較快。

4)一般的算法分類的時候,只是根據(jù)一個字段來分類。[2]

為了適應(yīng)市場的需要,某地準(zhǔn)備擴(kuò)大電視機(jī)生產(chǎn)。市場預(yù)測表明:產(chǎn)品銷路好的概率為0.7;銷路差的概率為0.3。備選方案有三個:第一個方案是建設(shè)大工廠,需要投資600萬元,可使用10年;如銷路好,每年可贏利200萬元;如銷路不好,每年會虧損40萬元。第二個方案是建設(shè)小工廠,需投資280萬元;如銷路好,每年可贏利80萬元;如銷路不好,每年也會贏利60萬元。第三個方案也是先建設(shè)小工廠,但是如銷路好,3年后擴(kuò)建,擴(kuò)建需投資400萬元,可使用7年,擴(kuò)建后每年會贏利190萬元。

各點(diǎn)期望:

點(diǎn)②:0.7×200×10+0.3×(-40)×10-600(投資)=680(萬元)

點(diǎn)⑤:1.0×190×7-400=930(萬元)

點(diǎn)⑥:1.0×80×7=560(萬元)

比較決策點(diǎn)4的情況可以看到,由于點(diǎn)⑤(930萬元)與點(diǎn)⑥(560萬元)相比,點(diǎn)⑤的期望利潤值較大,因此應(yīng)采用擴(kuò)建的方案,而舍棄不擴(kuò)建的方案。把點(diǎn)⑤的930萬元移到點(diǎn)4來,可計算出點(diǎn)③的期望利潤值。

點(diǎn)③:0.7×80×3+0.7×930+0.3×60×(3+7)-280=719(萬元)

最后比較決策點(diǎn)1的情況。由于點(diǎn)③(719萬元)與點(diǎn)②(680萬元)相比,點(diǎn)③的期望利潤值較大,因此取點(diǎn)③而舍點(diǎn)②。這樣,相比之下,建設(shè)大工廠的方案不是最優(yōu)方案,合理的策略應(yīng)采用前3年建小工廠,如銷路好,后7年進(jìn)行擴(kuò)建的方案。[3]

剪枝是決策樹停止分支的方法之一,剪枝有分預(yù)先剪枝和后剪枝兩種。預(yù)先剪枝是在樹的生長過程中設(shè)定一個指標(biāo),當(dāng)達(dá)到該指標(biāo)時就停止生長,這樣做容易產(chǎn)生“視界局限”,就是一旦停止分支,使得節(jié)點(diǎn)N成為葉節(jié)點(diǎn),就斷絕了其后繼節(jié)點(diǎn)進(jìn)行“好”的分支操作的任何可能性。不嚴(yán)格的說這些已停止的分支會誤導(dǎo)學(xué)習(xí)算法,導(dǎo)致產(chǎn)生的樹不純度降差最大的地方過分靠近根節(jié)點(diǎn)。后剪枝中樹首先要充分生長,直到葉節(jié)點(diǎn)都有最小的不純度值為止,因而可以克服“視界局限”。然后對所有相鄰的成對葉節(jié)點(diǎn)考慮是否消去它們,如果消去能引起令人滿意的不純度增長,那么執(zhí)行消去,并令它們的公共父節(jié)點(diǎn)成為新的葉節(jié)點(diǎn)。這種“合并”葉節(jié)點(diǎn)的做法和節(jié)點(diǎn)分支的過程恰好相反,經(jīng)過剪枝后葉節(jié)點(diǎn)常常會分布在很寬的層次上,樹也變得非平衡。后剪枝技術(shù)的優(yōu)點(diǎn)是克服了“視界局限”效應(yīng),而且無需保留部分樣本用于交叉驗證,所以可以充分利用全部訓(xùn)練集的信息。但后剪枝的計算量代價比預(yù)剪枝方法大得多,特別是在大樣本集中,不過對于小樣本的情況,后剪枝方法還是優(yōu)于預(yù)剪枝方法的。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    日木乱偷人妻中文字幕在线| 欧美国产日韩在线综合| 麻豆印象传媒在线观看| 亚洲高清亚洲欧美一区二区| 国产精品国产亚洲看不卡| 亚洲最新中文字幕一区| 女厕偷窥一区二区三区在线| 午夜福利国产精品不卡| 国产日韩中文视频一区| 午夜亚洲精品理论片在线观看| 一区二区在线激情视频| 午夜亚洲少妇福利诱惑| 国内欲色一区二区三区| 日韩精品综合福利在线观看| 激情五月天深爱丁香婷婷| 中文字幕乱码一区二区三区四区| 不卡视频在线一区二区三区| 国产a天堂一区二区专区| 又大又长又粗又黄国产| 91精品欧美综合在ⅹ| 大屁股肥臀熟女一区二区视频| 久草热视频这里只有精品| 国产精品不卡免费视频| 99秋霞在线观看视频| 国产一区二区三区草莓av| 日本精品视频一二三区| 欧美极品欧美精品欧美| 中文文精品字幕一区二区| 日本午夜乱色视频在线观看| 久久成人国产欧美精品一区二区 | 中文字幕日韩一区二区不卡| 久久亚洲午夜精品毛片| 青青操精品视频在线观看| 国产丝袜极品黑色高跟鞋| 久久99国产精品果冻传媒| 久久91精品国产亚洲| 伊人久久青草地婷婷综合| 日韩一区二区三区18| 办公室丝袜高跟秘书国产| 国产不卡免费高清视频| 在线免费观看黄色美女|