一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

數(shù)據(jù)挖掘知識(shí)點(diǎn)整理

 rocky_gan 2017-07-10

歡迎加入AI社群矩陣>>

來(lái)源:數(shù)據(jù)挖掘入門與實(shí)戰(zhàn)


1.  數(shù)據(jù)信息知識(shí)是廣義數(shù)據(jù)表現(xiàn)的不同形式。

2.  主要知識(shí)模式類型有:廣義知識(shí),關(guān)聯(lián)知識(shí),類知識(shí),預(yù)測(cè)型知識(shí)特異型知識(shí)

3.  web挖掘研究的主要流派有:Web結(jié)構(gòu)挖掘、Web使用挖掘、Web內(nèi)容挖掘

4.  一般地說(shuō),KDD是一個(gè)多步驟的處理過(guò)程,一般分為問(wèn)題定義、數(shù)據(jù)抽取、數(shù)據(jù)預(yù)處理、.數(shù)據(jù)挖掘以及模式評(píng)估等基本階段。

5.  數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)處理過(guò)程模型有:階梯處理過(guò)程模型,螺旋處理過(guò)程模型,以用戶為中心的處理結(jié)構(gòu)模型,聯(lián)機(jī)KDD模型,支持多數(shù)據(jù)源多知識(shí)模式的KDD處理模型

6.  粗略地說(shuō),知識(shí)發(fā)現(xiàn)軟件或工具的發(fā)展經(jīng)歷了獨(dú)立的知識(shí)發(fā)現(xiàn)軟件、橫向的知識(shí)發(fā)現(xiàn)工具集和縱向的知識(shí)發(fā)現(xiàn)解決方案三個(gè)主要階段,其中后面兩種反映了目前知識(shí)發(fā)現(xiàn)軟件的兩個(gè)主要發(fā)展方向。

7.  決策樹分類模型的建立通常分為兩個(gè)步驟決策樹生成,決策樹修剪。

8.  使用的主要技術(shù)上看,可以把分類方法歸結(jié)為四種類型:

a) 基于距離的分類方法

b) 決策樹分類方法

c) 貝葉斯分類方法

d) 規(guī)則歸納方法

9.  關(guān)聯(lián)規(guī)則挖掘問(wèn)題可以劃分成兩個(gè)子問(wèn)題

a) 發(fā)現(xiàn)頻繁項(xiàng)目集:通過(guò)用戶給定Minsupport ,尋找所有頻繁項(xiàng)目集或者最大頻繁項(xiàng)目集。

b) 生成關(guān)聯(lián)規(guī)則:通過(guò)用戶給定Minconfidence ,在頻繁項(xiàng)目集中,尋找關(guān)聯(lián)規(guī)則。

10.   數(shù)據(jù)挖掘是相關(guān)學(xué)科充分發(fā)展的基礎(chǔ)上被提出和發(fā)展的,主要的相關(guān)技術(shù)

數(shù)據(jù)庫(kù)等信息技術(shù)的發(fā)展

統(tǒng)計(jì)學(xué)深入應(yīng)用

人工智能技術(shù)的研究和應(yīng)用

11.   衡量關(guān)聯(lián)規(guī)則挖掘結(jié)果的有效性,應(yīng)該從多種綜合角度來(lái)考慮:

準(zhǔn)確性:挖掘出的規(guī)則必須反映數(shù)據(jù)的實(shí)際情況。

實(shí)用性:挖掘出的規(guī)則必須是簡(jiǎn)潔可用的。

新穎性:挖掘出的關(guān)聯(lián)規(guī)則可以為用戶提供新的有價(jià)值信息。

12.   約束的常見(jiàn)類型有:

單調(diào)性約束;

反單調(diào)性約束;

可轉(zhuǎn)變的約束;

簡(jiǎn)潔性約束.

13.   根據(jù)規(guī)則中涉及到的層次多層次關(guān)聯(lián)規(guī)則可以分為

同層關(guān)聯(lián)規(guī)則:如果一個(gè)關(guān)聯(lián)規(guī)則對(duì)應(yīng)的項(xiàng)目是同一個(gè)粒度層次,那么它是同層關(guān)聯(lián)規(guī)則。

層間關(guān)聯(lián)規(guī)則:如果在不同的粒度層次上考慮問(wèn)題,那么可能得到的是層間關(guān)聯(lián)規(guī)

14.   按照聚類分析算法的主要思路,聚類方法可以被歸納為如下幾種。

劃分法:基于一定標(biāo)準(zhǔn)構(gòu)建數(shù)據(jù)的劃分。

屬于該類的聚類方法有:k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。

層次法:對(duì)給定數(shù)據(jù)對(duì)象集合進(jìn)行層次的分解。

密度法:基于數(shù)據(jù)對(duì)象的相連密度評(píng)價(jià)。

網(wǎng)格法:將數(shù)據(jù)空間劃分成為有限個(gè)單元(Cell)的網(wǎng)格結(jié)構(gòu),基于網(wǎng)格結(jié)構(gòu)進(jìn)行聚類。

模型法:給每一個(gè)簇假定一個(gè)模型,然后去尋找能夠很好的滿足這個(gè)模型的數(shù)據(jù)集。

15.   類間距離的度量主要有:

最短距離法:定義兩個(gè)類中最靠近的兩個(gè)元素間的距離為類間距離。

最長(zhǎng)距離法:定義兩個(gè)類中最遠(yuǎn)的兩個(gè)元素間的距離為類間距離。

中心法:定義兩類的兩個(gè)中心間的距離為類間距離。

類平均法:它計(jì)算兩個(gè)類中任意兩個(gè)元素間的距離,并且綜合他們?yōu)轭愰g距離:

離差平方和。

16.   層次聚類方法具體可分為:

凝聚的層次聚類:一種自底向上的策略,首先將每個(gè)對(duì)象作為一個(gè)簇,然后合并這些原子簇為越來(lái)越大的簇,直到某個(gè)終結(jié)條件被滿足。

分裂的層次聚類:采用自頂向下的策略,它首先將所有對(duì)象置于一個(gè)簇中,然后逐漸細(xì)分為越來(lái)越小的簇,直到達(dá)到了某個(gè)終結(jié)條件。

層次凝聚的代表是AGNES算法。層次分裂的代表是DIANA算法。

17.   文本挖掘(TD)的方式和目標(biāo)是多種多樣的,基本層次有:

關(guān)鍵詞檢索:最簡(jiǎn)單的方式,它和傳統(tǒng)的搜索技術(shù)類似。

挖掘項(xiàng)目關(guān)聯(lián):聚焦在頁(yè)面的信息(包括關(guān)鍵詞)之間的關(guān)聯(lián)信息挖掘上。

信息分類和聚類:利用數(shù)據(jù)挖掘的分類和聚類技術(shù)實(shí)現(xiàn)頁(yè)面的分類,將頁(yè)面在一個(gè)更到層次上進(jìn)行抽象和整理。

自然語(yǔ)言處理:揭示自然語(yǔ)言處理技術(shù)中的語(yǔ)義,實(shí)現(xiàn)Web內(nèi)容的更精確處理。

18.  在web訪問(wèn)挖掘中常用的技術(shù):                                                            

路徑分析

路徑分析最常用的應(yīng)用是用于判定在一個(gè)Web站點(diǎn)中最頻繁訪問(wèn)的路徑,這樣的知識(shí)對(duì)于一個(gè)電子商務(wù)網(wǎng)站或者信息安全評(píng)估是非常重要的。

關(guān)聯(lián)規(guī)則發(fā)現(xiàn)

使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法可以從Web訪問(wèn)事務(wù)集中,找到一般性的關(guān)聯(lián)知識(shí)。

序列模式發(fā)現(xiàn)

在時(shí)間戳有序的事務(wù)集中,序列模式的發(fā)現(xiàn)就是指找到那些如“一些項(xiàng)跟隨另一個(gè)項(xiàng)”這樣的內(nèi)部事務(wù)模式。

分類

發(fā)現(xiàn)分類規(guī)則可以給出識(shí)別一個(gè)特殊群體的公共屬性的描述。這種描述可以用于分類新的項(xiàng)。

聚類

可以從Web Usage數(shù)據(jù)中聚集出具有相似特性的那些客戶。在Web事務(wù)日志中,聚類顧客信息或數(shù)據(jù)項(xiàng),就能夠便于開(kāi)發(fā)和執(zhí)行未來(lái)的市場(chǎng)戰(zhàn)略。

 

19.   根據(jù)功能和側(cè)重點(diǎn)不同,數(shù)據(jù)挖掘語(yǔ)言可以分為三種類型:

數(shù)據(jù)挖掘查詢語(yǔ)言:希望以一種像SQL這樣的數(shù)據(jù)庫(kù)查詢語(yǔ)言完成數(shù)據(jù)挖掘的任務(wù)。

數(shù)據(jù)挖掘建模語(yǔ)言:對(duì)數(shù)據(jù)挖掘模型進(jìn)行描述和定義的語(yǔ)言,設(shè)計(jì)一種標(biāo)準(zhǔn)的數(shù)據(jù)挖掘建模語(yǔ)言,使得數(shù)據(jù)挖掘系統(tǒng)在模型定義和描述方面有標(biāo)準(zhǔn)可以遵循。

通用數(shù)據(jù)挖掘語(yǔ)言:通用數(shù)據(jù)挖掘語(yǔ)言合并了上述兩種語(yǔ)言的特點(diǎn),既具有定義模型的功能,又能作為查詢語(yǔ)言與數(shù)據(jù)挖掘系統(tǒng)通信,進(jìn)行交互式挖掘。通用數(shù)據(jù)挖掘語(yǔ)言標(biāo)準(zhǔn)化是目前解決數(shù)據(jù)挖掘行業(yè)出現(xiàn)問(wèn)題的頗具吸引力的研究方向。

20.   規(guī)則歸納有四種策略減法、加法,先加后減、先減后加策略。

減法策略:以具體例子為出發(fā)點(diǎn),對(duì)例子進(jìn)行推廣或泛化,推廣即減除條件(屬性值)或減除合取項(xiàng)(為了方便,我們不考慮增加析取項(xiàng)的推廣),使推廣后的例子或規(guī)則不覆蓋任何反例。

加法策略:起始假設(shè)規(guī)則的條件部分為空(永真規(guī)則),如果該規(guī)則覆蓋了反例,則不停地向規(guī)則增加條件或合取項(xiàng),直到該規(guī)則不再覆蓋反例。

先加后減策略:由于屬性間存在相關(guān)性,因此可能某個(gè)條件的加入會(huì)導(dǎo)致前面加入的條件沒(méi)什么作用,因此需要減除前面的條件。

先減后加策略:道理同先加后減,也是為了處理屬性間的相關(guān)性。

21.   數(shù)據(jù)挖掘定義有廣義和狹義之分。

廣義的觀點(diǎn),數(shù)據(jù)挖掘是從大型數(shù)據(jù)集(可能是不完全的、有噪聲的、不確定性的、各種存儲(chǔ)形式的)中,挖掘隱含在其中的、人們事先不知道的、對(duì)決策有用的知識(shí)的過(guò)程。

從這種狹義的觀點(diǎn)上,我們可以定義數(shù)據(jù)挖掘是從特定形式的數(shù)據(jù)集中提煉知識(shí)的過(guò)程。

22.   web挖掘的含義: 針對(duì)包括Web頁(yè)面內(nèi)容、頁(yè)面之間的結(jié)構(gòu)、用戶訪問(wèn)信息、電子商務(wù)信息等在內(nèi)的各種Web數(shù)據(jù),應(yīng)用數(shù)據(jù)挖掘方法以幫助人們從因特網(wǎng)中提取知識(shí),為訪問(wèn)者、站點(diǎn)經(jīng)營(yíng)者以及包括電子商務(wù)在內(nèi)的基于因特網(wǎng)的商務(wù)活動(dòng)提供決策支持。

23.   K-近鄰分類算法(K Nearest Neighbors,簡(jiǎn)稱KNN)的定義:通過(guò)計(jì)算每個(gè)訓(xùn)練數(shù)據(jù)到待分類元組的距離,取和待分類元組距離最近的K個(gè)訓(xùn)練數(shù)據(jù),K個(gè)數(shù)據(jù)中哪個(gè)類別的訓(xùn)練數(shù)據(jù)占多數(shù),則待分類元組就屬于哪個(gè)類別。

24. K-means算法的性能分析

主要優(yōu)點(diǎn):

是解決聚類問(wèn)題的一種經(jīng)典算法,簡(jiǎn)單、快速。

對(duì)處理大數(shù)據(jù)集,該算法是相對(duì)可伸縮和高效率的。

當(dāng)結(jié)果簇是密集的,它的效果較好。

主要缺點(diǎn)

在簇的平均值被定義的情況下才能使用,可能不適用于某些應(yīng)用。

必須事先給出k(要生成的簇的數(shù)目),而且對(duì)初值敏感,對(duì)于不同的初始值,可能會(huì)導(dǎo)致不同結(jié)果。

不適合于發(fā)現(xiàn)非凸面形狀的簇或者大小差別很大的簇。而且,它對(duì)于“躁聲”和孤立點(diǎn)數(shù)據(jù)是敏感的。

25.  ID3算法的性能分析

ID3算法的假設(shè)空間包含所有的決策樹,它是關(guān)于現(xiàn)有屬性的有限離散值函數(shù)的一個(gè)完整空間。所以ID3算法避免了搜索不完整假設(shè)空間的一個(gè)主要風(fēng)險(xiǎn):假設(shè)空間可能不包含目標(biāo)函數(shù)。

ID3算法在搜索的每一步都使用當(dāng)前的所有訓(xùn)練樣例,大大降低了對(duì)個(gè)別訓(xùn)練樣例錯(cuò)誤的敏感性。因此,通過(guò)修改終止準(zhǔn)則,可以容易地?cái)U(kuò)展到處理含有噪聲的訓(xùn)練數(shù)據(jù)。

ID3算法在搜索過(guò)程中不進(jìn)行回溯。所以,它易受無(wú)回溯的爬山搜索中的常見(jiàn)風(fēng)險(xiǎn)影響:收斂到局部最優(yōu)而不是全局最優(yōu)。

26.  Apriori算法有兩個(gè)致命的性能瓶頸:

a多次掃描事務(wù)數(shù)據(jù)庫(kù),需要很大的I/O負(fù)載

對(duì)每次k循環(huán),侯選集Ck中的每個(gè)元素都必須通過(guò)掃描數(shù)據(jù)庫(kù)一次來(lái)驗(yàn)證其是否加入Lk。假如有一個(gè)頻繁大項(xiàng)目集包含10個(gè)項(xiàng)的話,那么就至少需要掃描事務(wù)數(shù)據(jù)庫(kù)10遍。

b.可能產(chǎn)生龐大的侯選集

由Lk-1產(chǎn)生k-侯選集Ck是指數(shù)增長(zhǎng)的,例如104個(gè)1-頻繁項(xiàng)目集就有可能產(chǎn)生接近107個(gè)元素的2-侯選集。如此大的侯選集對(duì)時(shí)間和主存空間都是一種挑戰(zhàn)。a基于數(shù)據(jù)分割的方法:基本原理是“在一個(gè)劃分中的支持度小于最小支持度的k-項(xiàng)集不可能是全局頻繁的”。

27.  改善Apriori算法適應(yīng)性和效率的主要的改進(jìn)方法有:

a基于數(shù)據(jù)分割(Partition)的方法:基本原理是“在一個(gè)劃分中的支持度小于最小支持度的k-項(xiàng)集不可能是全局頻繁的”。

 

b基于散列的方法:基本原理是“在一個(gè)hash桶內(nèi)支持度小于最小支持度的k-項(xiàng)集不可能是全局頻繁的”。

c基于采樣的方法:基本原理是“通過(guò)采樣技術(shù),評(píng)估被采樣的子集中,并依次來(lái)估計(jì)k-項(xiàng)集的全局頻度”。

d其他:如,動(dòng)態(tài)刪除沒(méi)有用的事務(wù):“不包含任何Lk的事務(wù)對(duì)未來(lái)的掃描結(jié)果不會(huì)產(chǎn)生影響,因而可以刪除”。 

28.  面向Web的數(shù)據(jù)挖掘比面向數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘要復(fù)雜得多

a異構(gòu)數(shù)據(jù)源環(huán)境:Web網(wǎng)站上的信息是異構(gòu): 每個(gè)站點(diǎn)的信息和組織都不一樣;存在大量的無(wú)結(jié)構(gòu)的文本信息、復(fù)雜的多媒體信息;站點(diǎn)使用和安全性、私密性要求各異等等。

b數(shù)據(jù)的是復(fù)雜性:有些是無(wú)結(jié)構(gòu)的(如Web頁(yè)),通常都是用長(zhǎng)的句子或短語(yǔ)來(lái)表達(dá)文檔類信息;有些可能是半結(jié)構(gòu)的(如Email,HTML頁(yè))。當(dāng)然有些具有很好的結(jié)構(gòu)(如電子表格)。揭開(kāi)這些復(fù)合對(duì)象蘊(yùn)涵的一般性描述特征成為數(shù)據(jù)挖掘的不可推卸的責(zé)任。

c動(dòng)態(tài)變化的應(yīng)用環(huán)境:

Web的信息是頻繁變化的,像新聞、股票等信息是實(shí)時(shí)更新的。

這種高變化也體現(xiàn)在頁(yè)面的動(dòng)態(tài)鏈接和隨機(jī)存取上。

Web上的用戶是難以預(yù)測(cè)的。

Web上的數(shù)據(jù)環(huán)境是高噪音的。

29.  簡(jiǎn)述知識(shí)發(fā)現(xiàn)項(xiàng)目的過(guò)程化管理I-MIN過(guò)程模型。

MIN過(guò)程模型把KDD過(guò)程分成IM1、IM2、…、IM6等步驟處理,在每個(gè)步驟里,集中討論幾個(gè)問(wèn)題,并按一定的質(zhì)量標(biāo)準(zhǔn)來(lái)控制項(xiàng)目的實(shí)施。

IM1任務(wù)與目的:它是KDD項(xiàng)目的計(jì)劃階段,確定企業(yè)的挖掘目標(biāo),選擇知識(shí)發(fā)現(xiàn)模式,編譯知識(shí)發(fā)現(xiàn)模式得到的元數(shù)據(jù);其目的是將企業(yè)的挖掘目標(biāo)嵌入到對(duì)應(yīng)的知識(shí)模式中。

IM2任務(wù)與目的:它是KDD的預(yù)處理階段,可以用IM2a、IM2b、IM2c等分別對(duì)應(yīng)于數(shù)據(jù)清洗、數(shù)據(jù)選擇和數(shù)據(jù)轉(zhuǎn)換等階段。其目的是生成高質(zhì)量的目標(biāo)數(shù)據(jù)。

IM3任務(wù)與目的:它是KDD的挖掘準(zhǔn)備階段,數(shù)據(jù)挖掘工程師進(jìn)行挖掘?qū)嶒?yàn),反復(fù)測(cè)試和驗(yàn)證模型的有效性。其目的是通過(guò)實(shí)驗(yàn)和訓(xùn)練得到濃縮知識(shí)(Knowledge Concentrate),為最終用戶提供可使用的模型。

IM4任務(wù)與目的:它是KDD的數(shù)據(jù)挖掘階段,用戶通過(guò)指定數(shù)據(jù)挖掘算法得到對(duì)應(yīng)的知識(shí)。

IM5任務(wù)與目的:它是KDD的知識(shí)表示階段,按指定要求形成規(guī)格化的知識(shí)。

IM6任務(wù)與目的:它是KDD的知識(shí)解釋與使用階段,其目的是根據(jù)用戶要求直觀地輸出知識(shí)或集成到企業(yè)的知識(shí)庫(kù)中。

30.  改善Apriori算法適應(yīng)性和效率的主要的改進(jìn)方法有:

a基于數(shù)據(jù)分割(Partition)的方法:基本原理是“在一個(gè)劃分中的支持度小于最小支持度的k-項(xiàng)集不可能是全局頻繁的”。

b基于散列(Hash)的方法:基本原理是“在一個(gè)hash桶內(nèi)支持度小于最小支持度的k-項(xiàng)集不可能是全局頻繁的”。

c基于采樣(Sampling)的方法:基本原理是“通過(guò)采樣技術(shù),評(píng)估被采樣的子集中,并依次來(lái)估計(jì)k-項(xiàng)集的全局頻度”。

d其他:如,動(dòng)態(tài)刪除沒(méi)有用的事務(wù):“不包含任何Lk的事務(wù)對(duì)未來(lái)的掃描結(jié)果不會(huì)產(chǎn)生影響,因而可以刪除”。

31.  數(shù)據(jù)分類兩個(gè)步驟是什么?

a建立一個(gè)模型,描述預(yù)定的數(shù)據(jù)類集或概念集

數(shù)據(jù)元組也稱作樣本、實(shí)例或?qū)ο蟆?/span>

為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練數(shù)據(jù)集。

訓(xùn)練數(shù)據(jù)集中的單個(gè)元組稱作訓(xùn)練樣本,由于提供了每個(gè)訓(xùn)練樣本的類標(biāo)號(hào),因此也稱作有指導(dǎo)的學(xué)習(xí)。

通過(guò)分析訓(xùn)練數(shù)據(jù)集來(lái)構(gòu)造分類模型,可用分類規(guī)則、決策樹或數(shù)學(xué)公式等形式提供。

b使用模型進(jìn)行分類

首先評(píng)估模型(分類法)的預(yù)測(cè)準(zhǔn)確率。

如果認(rèn)為模型的準(zhǔn)確率可以接受,就可以用它對(duì)類標(biāo)號(hào)未知的數(shù)據(jù)元組或?qū)ο筮M(jìn)行分類。 

32.  web訪問(wèn)信息挖掘的特點(diǎn)

Web訪問(wèn)數(shù)據(jù)容量大、分布廣、內(nèi)涵豐富和形態(tài)多樣

一個(gè)中等大小的網(wǎng)站每天可以記載幾兆的用戶訪問(wèn)信息。

廣泛分布于世界各處。

訪問(wèn)信息形態(tài)多樣。

訪問(wèn)信息具有豐富的內(nèi)涵。

Web訪問(wèn)數(shù)據(jù)包含決策可用的信息

每個(gè)用戶的訪問(wèn)特點(diǎn)可以被用來(lái)識(shí)別該用戶和網(wǎng)站訪問(wèn)的特性。

同一類用戶的訪問(wèn),代表同一類用戶的個(gè)性。

一段時(shí)期的訪問(wèn)數(shù)據(jù)代表了群體用戶的行為和群體用戶的共性。

Web訪問(wèn)信息數(shù)據(jù)是網(wǎng)站的設(shè)計(jì)者和訪問(wèn)者進(jìn)行溝通的橋梁。

Web訪問(wèn)信息數(shù)據(jù)是開(kāi)展數(shù)據(jù)挖掘研究的良好的對(duì)象。

Web訪問(wèn)信息挖掘?qū)ο蟮奶攸c(diǎn)

訪問(wèn)事務(wù)的元素是Web頁(yè)面,事務(wù)元素之間存在著豐富的結(jié)構(gòu)信息。

訪問(wèn)事務(wù)的元素代表的是每個(gè)訪問(wèn)者的順序關(guān)系,事務(wù)元素之間存在著豐富的順序信息。

每個(gè)頁(yè)面的內(nèi)容可以被抽象出不同的概念,訪問(wèn)順序和訪問(wèn)量部分決定概念。

用戶對(duì)頁(yè)面存在不同的訪問(wèn)時(shí)長(zhǎng),訪問(wèn)長(zhǎng)代表了用戶的訪問(wèn)興趣。 

33.  web頁(yè)面內(nèi)文本信息的挖掘

挖掘的目標(biāo)是對(duì)頁(yè)面進(jìn)行摘要和分類。

頁(yè)面摘要:對(duì)每一個(gè)頁(yè)面應(yīng)用傳統(tǒng)的文本摘要方法可以得到相應(yīng)的摘要信息。

頁(yè)面分類:分類器輸入的是一個(gè)Web頁(yè)面集(訓(xùn)練集),再根據(jù)頁(yè)面文本信息內(nèi)容進(jìn)行監(jiān)督學(xué)習(xí),然后就可以把學(xué)成的分類器用于分類每一個(gè)新輸入的頁(yè)面。

{在文本學(xué)習(xí)中常用的方法是TFIDF向量表示法,它是一種文檔的詞集(Bag-of-Words)表示法,所有的詞從文檔中抽取出來(lái),而不考慮詞間的次序和文本的結(jié)構(gòu)。這種構(gòu)造二維表的方法是:

每一列為一個(gè)詞,列集(特征集)為辭典中的所有有區(qū)分價(jià)值的詞,所以整個(gè)列集可能有幾十萬(wàn)列之多。

每一行存儲(chǔ)一個(gè)頁(yè)面內(nèi)詞的信息,這時(shí),該頁(yè)面中的所有詞對(duì)應(yīng)到列集(特征集)上。列集中的每一個(gè)列(詞),如果在該頁(yè)面中不出現(xiàn),則其值為0;如果出現(xiàn)k次,那么其值就為k;頁(yè)面中的詞如果不出現(xiàn)在列集上,可以被放棄。這種方法可以表征出頁(yè)面中詞的頻度。

對(duì)中文頁(yè)面來(lái)說(shuō),還需先分詞然后再進(jìn)行以上兩步處理。

這樣構(gòu)造的二維表表示的是Web頁(yè)面集合的詞的統(tǒng)計(jì)信息,最終就可以采用Naive Bayesian方法或k-Nearest Neighbor等方法進(jìn)行分類挖掘。

在挖掘之前,一般要先進(jìn)行特征子集的選取,以降低維數(shù)}


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    91亚洲熟女少妇在线观看| 国产丝袜美女诱惑一区二区| 日本一本在线免费福利| 美女激情免费在线观看| 久久女同精品一区二区| 日韩欧美一区二区不卡视频| 欧美日韩一区二区午夜| 国产一区二区不卡在线播放| 亚洲av日韩一区二区三区四区| 亚洲国产精品一区二区毛片| 国产又粗又爽又猛又黄的| 日本最新不卡免费一区二区| 欧美一区二区不卡专区| 熟妇人妻av中文字幕老熟妇| 国产精品欧美一级免费| 国产又粗又长又大高潮视频| 亚洲国产av一二三区| 中文字幕高清不卡一区| 日韩成人动作片在线观看| 亚洲伦理中文字幕在线观看| 久久精视频免费视频观看| 亚洲做性视频在线播放| 大香蕉再在线大香蕉再在线| 日本东京热加勒比一区二区| 欧美成人国产精品高清| 国产亚洲精品岁国产微拍精品| 风韵人妻丰满熟妇老熟女av| 国产欧美一区二区三区精品视| 在线观看日韩欧美综合黄片| 99国产一区在线播放| 精品熟女少妇av免费久久野外| 亚洲欧美一二区日韩高清在线 | 成人免费视频免费观看| 日韩不卡一区二区三区色图| 色欧美一区二区三区在线| 国产99久久精品果冻传媒| 99久免费精品视频在线观| 99热九九热这里只有精品| 99国产成人免费一区二区| 欧美激情一区二区亚洲专区| 精品熟女少妇av免费久久野外|