BBS(Bulletin Board System),俗稱“電子布告欄”、“電子公告牌”,別名“論壇”。目前,各大高校的校園BBS均同時支持Telnet和Web兩種登錄方式,比如水木 清華、瀚海星云等。BBS虛擬社區(qū)中的信息傳播集中體現(xiàn)了網(wǎng)絡(luò)傳播隱匿、交互、跨時空及信息海量的特性,給對BBS虛擬社區(qū)的研究、管理帶來很大的挑戰(zhàn)。 在這種情況下,針對BBS的數(shù)據(jù)挖掘、分析技術(shù)的研究就顯得非常必要了。 數(shù)據(jù)挖掘?qū)嶒炇?/font> 地位與核心問題 數(shù)據(jù)挖掘工具 BBS數(shù)據(jù)挖掘是指綜合應(yīng)用Web挖掘、TDT、社會科學(xué)等領(lǐng)域的理論、技術(shù),獲取、分析BBS上話題和社區(qū)結(jié)構(gòu),為進(jìn)一步研究BBS、構(gòu)建基 于BBS的應(yīng)用提供數(shù)據(jù)源和技術(shù)支撐。相對于底層的Web挖掘、TDT、社科理論而言,BBS挖掘是一個應(yīng)用領(lǐng)域,而相對于上層的各領(lǐng)域應(yīng)用需求而言, BBS挖掘是作為技術(shù)支撐的基礎(chǔ)性研究。
包括所有可能的BBS挖掘應(yīng)用需求,列出的僅僅是幾個主要方面:
1.新聞傳播與輿論導(dǎo)向方面的應(yīng)用迫切需要BBS挖掘技術(shù)完成對BBS上信息的歸類、提取自動化。要實現(xiàn)輿論導(dǎo)向,首先要知道當(dāng)前輿論熱點是什 么,這是BBS挖掘中的話題發(fā)現(xiàn)研究的內(nèi)容;知道了熱點話題后需要了解話題的傳播態(tài)勢,這是話題追蹤的研究內(nèi)容;分析輿論產(chǎn)生的人群基礎(chǔ),這是虛擬社區(qū)結(jié) 構(gòu)分析的研究內(nèi)容。
2.市場營銷與安全管理都需要較強的自動分析能力。因為BBS的信息海量特點,完全人工處理是不切實際的。分析帖子觀點的傾向性,挖掘潛在的用戶群,挖掘用戶反饋信息,過濾敏感話題都需要BBS挖掘?qū)?nèi)容、社區(qū)結(jié)構(gòu)的自動分析能力。
3.隨著BBS的“升溫”,社會學(xué)研究對其關(guān)注也迅速增加,但是在研究方法上定量分析的力度不夠,亟需更強的BBS挖掘、分析能力。BBS挖掘技術(shù)可以為社科研究提供有力的數(shù)據(jù)支撐。 數(shù)據(jù)挖掘?qū)嶒炇?/font> 以上各領(lǐng)域的需求歸結(jié)于兩點:話題發(fā)現(xiàn)與追蹤(針對BBS的內(nèi)容分類、分析自動化)、虛擬社區(qū)結(jié)構(gòu)分析(對用戶群結(jié)構(gòu)、交互方式的研究)。這兩點是BBS挖掘的核心。 數(shù)據(jù)挖掘?qū)嶒炇?/font> 一方面它借助于Web挖掘、TDT、社科理論已有的研究成果,利用已有的技術(shù)手段去分析BBS上的對象:BBS上的話題發(fā)現(xiàn)與追蹤、虛擬社區(qū)結(jié)構(gòu)分析。但是由于BBS自身的特點,引入的各項技術(shù)都將有所改進(jìn),而且BBS自身的特點也產(chǎn)生具有特色的新技術(shù)。
研究現(xiàn)狀國外的研究
2002年,日本東京大學(xué)的Naohiro Matsumura,Yukio Osama和Mitsuru Ishizuka提出影響力傳播模型IDM(Influence Difusion Model),用于對BBS上有影響力的人物和話題的發(fā)現(xiàn)。IDM假定:
1.帖子的傳遞鏈反映了用戶之間影響的傳遞。比如,如果帖子Cy回復(fù)的是帖子Cx,那么Cy被認(rèn)為受到了Cx的影響。類似的,如果人物Y回復(fù)了人物X的帖子,那么認(rèn)為人物Y受到了X的影響。因此,影響力是通過帖子鏈傳播的。
2.帖子中的關(guān)鍵詞反映了人物的觀點。在帖子鏈中關(guān)鍵詞傳遞的多少反映了影響的程度。
基于上述兩個假設(shè),影響力模型被定義為:關(guān)鍵詞在帖子傳遞鏈中傳遞的程度即為影響力傳遞的程度。
其中,Wx和Wy是帖子Cx和帖子Cy中所使用的關(guān)鍵詞集合。ix,y是帖子X對帖子Y的影響力。影響力的傳遞計算:
在此模型基礎(chǔ)之上,Naohiro Matsumura等人研究了挖掘和分析BBS上觀點領(lǐng)袖(Opinion Leader)及其角色的方法。IDM模型的著眼點是用戶間的交互模式,通過分析帖子或者用戶間的影響力傳遞來發(fā)現(xiàn)焦點人物或者熱點話題。 數(shù)據(jù)挖掘論壇 Kleinberg的思路是把BBS上的帖子看成是一種文本流,類似于網(wǎng)絡(luò)流量建模中的排隊論,他用無窮狀態(tài)自動機的狀態(tài)轉(zhuǎn)移去模擬文本流中 burst的到來,最后在Email和科技文獻(xiàn)中驗證了模型的健壯性和效率。Kleinberg對文本流隨機到達(dá)的假設(shè)做了擴展,對原算法有所改進(jìn)。
值得一提的是,國外比較流行的新聞組(newsgroup)其實跟國內(nèi)的BBS論壇結(jié)構(gòu)很類似,因此這方面的研究也有借鑒的價值。有研究人員探 討了在USENET新聞組上利用統(tǒng)計和語言學(xué)方法獲取詞法、語意和對話三個層面信息的方法。也有研究人員基于新聞組上的回復(fù)關(guān)系形成的圖結(jié)構(gòu),分析用戶的 群體觀點對立特征,并且驗證其結(jié)果比單純的文本分類效果好。
微軟的研究人員對新聞組的結(jié)構(gòu)進(jìn)行了深入的研究,他們發(fā)現(xiàn)新聞組上的cross-post形成的網(wǎng)絡(luò)是一個小世界網(wǎng)絡(luò),提出基于cross- post模型的聚類算法優(yōu)于語意聚類方法。同時微軟的Netscan項目對USENET新聞組的結(jié)構(gòu)給出了可視化的分析結(jié)果,內(nèi)容見網(wǎng)址http: //netscan.research.microsoft.com/。
國內(nèi)的研究 數(shù)據(jù)挖掘論壇 國內(nèi)針對BBS的研究很多是從社會學(xué)、輿論引導(dǎo)、心理學(xué)、語言學(xué)的角度出發(fā)。從技術(shù)角度出發(fā)研究BBS的較少,其中有的介紹如何實現(xiàn)一個BBS 或者如何解決一個BBS搭建上的技術(shù)問題,其中一些具有一定價值,如提出一個針對Telnet協(xié)議下的BBS搜索引擎。針對BBS上的話題研究僅有復(fù)旦大 學(xué)計算機系的媒體計算與Web智能實驗室出過兩篇相關(guān)的論文:一個提出BBS熱點話題發(fā)現(xiàn)的一種方法,另外一個在其基礎(chǔ)上提出了幾種優(yōu)化方案。
展望 總的說來,國外對BBS挖掘的研究工作起步不久,國內(nèi)才剛剛起步,有待改進(jìn)的地方還很多。
1. 沒有擴展到跨BBS的情況。目前的研究基本(除了微軟對新聞組上cross-post的研究包括多個Channel)都是針對一個BBS上的某個版面。顯然這只是問題的簡化。如果把研究范圍擴展到多個BBS,將面臨以下幾個問題:
第一, 同一論壇的不同版面可能討論同一話題,這樣不同版面對此話題的計算評估怎么跨版面地合并?這無疑給話題的分類、同主題的合并提高了難度,現(xiàn)有的針對單個論壇的單個版面的算法能勝任么? 數(shù)據(jù)挖掘研究院 第二, 同一個論壇上的用戶有惟一的ID標(biāo)識,但是不同論壇上的用戶怎么惟一標(biāo)示呢?怎么計算跨論壇的用戶對同一個話題的關(guān)聯(lián)呢。尤其是分析發(fā)帖-回復(fù)結(jié)構(gòu)的算法依賴于對用戶的識別、計數(shù),跨論壇時怎么處理呢?
第三, 不同論壇間會出現(xiàn)大量雷同帖子的轉(zhuǎn)帖現(xiàn)象,記錄論壇間帖子的轉(zhuǎn)帖鏈對評估各論壇的傳播影響力,分析話題的傳播模式大有裨益。但是跨論壇轉(zhuǎn)帖鏈的記錄對帖子的主題識別提出了較高要求?,F(xiàn)有的算法能否勝任?
第四, 不同的BBS由于各自地域、用戶群體的差異導(dǎo)致帖子內(nèi)容的詞匯風(fēng)格、發(fā)帖、回帖習(xí)慣等方面大相徑庭,比如封閉的小論壇上容易出現(xiàn)熟人間的聊天,話題漂移現(xiàn)象顯著,而大論壇上這種情況就少得多。面對這樣的差異性,統(tǒng)計學(xué)習(xí)類的算法怎么適應(yīng)?
然而,很多應(yīng)用需求都要求解決跨多論壇問題,比如新聞傳播與輿論導(dǎo)向方面的應(yīng)用、在BBS上的大范圍的市場營銷手段等,僅僅一個論壇的一個版面的數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的。但目前這方面的工作還是空白。 3. BBS挖掘的兩個核心問題:話題發(fā)現(xiàn)與追蹤、論壇結(jié)構(gòu)分析并不是孤立的,兩者是可以互為補充的。IDM模型已經(jīng)事實上蘊含了這樣的思想,因為term的提取可以看作是對話題的分析。但是,這兩者結(jié)合還有多少改進(jìn)算法的空間呢?有待進(jìn)一步嘗試。 數(shù)據(jù)挖掘研究院 4. TDT、Web挖掘中已有的算法在應(yīng)用到BBS挖掘中時有哪些BBS特有的因素(比如帖子標(biāo)題、BBS特有的語言特征等)可以考慮,用以改進(jìn)算法?社科理論中的相關(guān)理論有哪些是對BBS適用的?這些都有待驗證。 |
|