決策樹是數(shù)據(jù)挖掘分類算法的一個重要方法。在各種分類算法中,決策樹是最直觀的一種。決策樹(Decision Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評價項目風(fēng)險,判斷其可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。在機(jī)器學(xué)習(xí)中,決策樹是一個預(yù)測模型,他代表的是對象屬性與對象值之間的一種映射關(guān)系。Entropy = 系統(tǒng)的凌亂程度,使用算法ID3,C4.5和C5.0生成樹算法使用熵。這一度量是基于信息學(xué)理論中熵的概念。
大事記光影集錦圖冊集錦花絮視頻□——決策點(diǎn),是對幾種可能方案的選擇,即最后選擇的最佳方案。如果決策屬于多級決策,則決策樹的中間可以有多個決策點(diǎn),以決策樹根部的決策點(diǎn)為最終決策方案。 ○——狀態(tài)節(jié)點(diǎn),代表備選方案的經(jīng)濟(jì)效果(期望值),通過各狀態(tài)節(jié)點(diǎn)的經(jīng)濟(jì)效果的對比,按照一定的決策標(biāo)準(zhǔn)就可以選出最佳方案。由狀態(tài)節(jié)點(diǎn)引出的分支稱為概率枝,概率枝的數(shù)目表示可能出現(xiàn)的自然狀態(tài)數(shù)目每個分枝上要注明該狀態(tài)出現(xiàn)的概率。 △——結(jié)果節(jié)點(diǎn),將每個方案在各種自然狀態(tài)下取得的損益值標(biāo)注于結(jié)果節(jié)點(diǎn)的右端。 【概述來源】 機(jī)器學(xué)習(xí)中,決策樹是一個預(yù)測模型;他代表的是對象屬性與對象值之間的一種映射關(guān)系。樹中每個節(jié)點(diǎn)表示某個對象,而每個分叉路徑則代表的某個可能的屬性值,而每個葉結(jié)點(diǎn)則對應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對象的值。決策樹僅有單一輸出,若欲有復(fù)數(shù)輸出,可以建立獨(dú)立的決策樹以處理不同輸出。數(shù)據(jù)挖掘中決策樹是一種經(jīng)常要用到的技術(shù),可以用于分析數(shù)據(jù),同樣也可以用來作預(yù)測。 從數(shù)據(jù)產(chǎn)生決策樹的機(jī)器學(xué)習(xí)技術(shù)叫做決策樹學(xué)習(xí),通俗說就是決策樹。 一個決策樹包含三種類型的節(jié)點(diǎn): 決策樹學(xué)習(xí)也是資料探勘中一個普通的方法。在這里,每個決策樹都表述了一種樹型結(jié)構(gòu),它由它的分支來對該類型的對象依靠屬性進(jìn)行分類。每個決策樹可以依靠對源數(shù)據(jù)庫的分割進(jìn)行數(shù)據(jù)測試。這個過程可以遞歸式的對樹進(jìn)行修剪。當(dāng)不能再進(jìn)行分割或一個單獨(dú)的類可以被應(yīng)用于某一分支時,遞歸過程就完成了。另外,隨機(jī)森林分類器將許多決策樹結(jié)合起來以提升分類的正確率。 決策樹同時也可以依靠計算條件概率來構(gòu)造。 決策樹如果依靠數(shù)學(xué)的計算方法可以取得更加理想的效果。數(shù)據(jù)庫已如下所示: (x,y)=(x1,x2,x3…,xk,y) 相關(guān)的變量Y表示我們嘗試去理解,分類或者更一般化的結(jié)果。其他的變量x1,x2,x3等則是幫助我們達(dá)到目的的變量。 決策樹易于理解和實(shí)現(xiàn),人們在在學(xué)習(xí)過程中不需要使用者了解很多的背景知識,這同時是它的能夠直接體現(xiàn)數(shù)據(jù)的特點(diǎn),只要通過解釋后都有能力去理解決策樹所表達(dá)的意義。[1] 對于決策樹,數(shù)據(jù)的準(zhǔn)備往往是簡單或者是不必要的,而且能夠同時處理數(shù)據(jù)型和常規(guī)型屬性,在相對短的時間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。 易于通過靜態(tài)測試來對模型進(jìn)行評測,可以測定模型可信度;如果給定一個觀察的模型,那么根據(jù)所產(chǎn)生的決策樹很容易推出相應(yīng)的邏輯表達(dá)式。 1)對連續(xù)性的字段比較難預(yù)測。 2)對有時間順序的數(shù)據(jù),需要很多預(yù)處理的工作。 3)當(dāng)類別太多時,錯誤可能就會增加的比較快。 4)一般的算法分類的時候,只是根據(jù)一個字段來分類。[2] 為了適應(yīng)市場的需要,某地準(zhǔn)備擴(kuò)大電視機(jī)生產(chǎn)。市場預(yù)測表明:產(chǎn)品銷路好的概率為0.7;銷路差的概率為0.3。備選方案有三個:第一個方案是建設(shè)大工廠,需要投資600萬元,可使用10年;如銷路好,每年可贏利200萬元;如銷路不好,每年會虧損40萬元。第二個方案是建設(shè)小工廠,需投資280萬元;如銷路好,每年可贏利80萬元;如銷路不好,每年也會贏利60萬元。第三個方案也是先建設(shè)小工廠,但是如銷路好,3年后擴(kuò)建,擴(kuò)建需投資400萬元,可使用7年,擴(kuò)建后每年會贏利190萬元。 各點(diǎn)期望: 點(diǎn)②:0.7×200×10+0.3×(-40)×10-600(投資)=680(萬元) 點(diǎn)⑤:1.0×190×7-400=930(萬元) 點(diǎn)⑥:1.0×80×7=560(萬元) 比較決策點(diǎn)4的情況可以看到,由于點(diǎn)⑤(930萬元)與點(diǎn)⑥(560萬元)相比,點(diǎn)⑤的期望利潤值較大,因此應(yīng)采用擴(kuò)建的方案,而舍棄不擴(kuò)建的方案。把點(diǎn)⑤的930萬元移到點(diǎn)4來,可計算出點(diǎn)③的期望利潤值。 點(diǎn)③:0.7×80×3+0.7×930+0.3×60×(3+7)-280=719(萬元) 最后比較決策點(diǎn)1的情況。由于點(diǎn)③(719萬元)與點(diǎn)②(680萬元)相比,點(diǎn)③的期望利潤值較大,因此取點(diǎn)③而舍點(diǎn)②。這樣,相比之下,建設(shè)大工廠的方案不是最優(yōu)方案,合理的策略應(yīng)采用前3年建小工廠,如銷路好,后7年進(jìn)行擴(kuò)建的方案。[3] 剪枝是決策樹停止分支的方法之一,剪枝有分預(yù)先剪枝和后剪枝兩種。預(yù)先剪枝是在樹的生長過程中設(shè)定一個指標(biāo),當(dāng)達(dá)到該指標(biāo)時就停止生長,這樣做容易產(chǎn)生“視界局限”,就是一旦停止分支,使得節(jié)點(diǎn)N成為葉節(jié)點(diǎn),就斷絕了其后繼節(jié)點(diǎn)進(jìn)行“好”的分支操作的任何可能性。不嚴(yán)格的說這些已停止的分支會誤導(dǎo)學(xué)習(xí)算法,導(dǎo)致產(chǎn)生的樹不純度降差最大的地方過分靠近根節(jié)點(diǎn)。后剪枝中樹首先要充分生長,直到葉節(jié)點(diǎn)都有最小的不純度值為止,因而可以克服“視界局限”。然后對所有相鄰的成對葉節(jié)點(diǎn)考慮是否消去它們,如果消去能引起令人滿意的不純度增長,那么執(zhí)行消去,并令它們的公共父節(jié)點(diǎn)成為新的葉節(jié)點(diǎn)。這種“合并”葉節(jié)點(diǎn)的做法和節(jié)點(diǎn)分支的過程恰好相反,經(jīng)過剪枝后葉節(jié)點(diǎn)常常會分布在很寬的層次上,樹也變得非平衡。后剪枝技術(shù)的優(yōu)點(diǎn)是克服了“視界局限”效應(yīng),而且無需保留部分樣本用于交叉驗證,所以可以充分利用全部訓(xùn)練集的信息。但后剪枝的計算量代價比預(yù)剪枝方法大得多,特別是在大樣本集中,不過對于小樣本的情況,后剪枝方法還是優(yōu)于預(yù)剪枝方法的。 |
|