信息檢索(Information Retrieval)是一門研究從一定規(guī)模的文檔庫(Document Collection)中找出滿足用戶提出的需求(User Information Need)的信息的學問。和數(shù)據(jù)庫檢索不同的是,一方面,IR處理的主要數(shù)據(jù)往往是無結(jié)構(gòu)(Unstructured)或者半結(jié)構(gòu)的(Semi-structured),最典型的例子如沒有任何結(jié)構(gòu)的文章或者有tag標記的Html文檔;另一方面, IR的檢索結(jié)果也往往是不精確的,而不象數(shù)據(jù)庫查詢那樣正確率一定是100%。比如,查關(guān)于“伊拉克戰(zhàn)爭”的文章,可能會漏掉有關(guān)“巴格達”或者其它城市的戰(zhàn)斗。因此,IR系統(tǒng)有可以相比較的性能評價指標。 信息檢索起源于圖書情報的查詢,一開始處理的文檔數(shù)目和規(guī)模極其有限,隨著硬件處理能力的提高、大規(guī)模數(shù)據(jù)以及WWW的出現(xiàn),IR技術(shù)也日益發(fā)展。 從處理對象的格式來說,現(xiàn)代IR不僅處理單純的文本格式數(shù)據(jù)(text),而且處理包括圖像、圖形、音頻、視頻在內(nèi)的各種載體格式,甚至WEB這種復(fù)雜的載體。 從處理的技術(shù)來說, 包括自然語言處理(NLP)、人工智能、模式識別、機器學習、神經(jīng)網(wǎng)絡(luò)、數(shù)理統(tǒng)計、運籌學等等學科和科目在內(nèi)的技術(shù)紛紛被應(yīng)用于現(xiàn)代IR。 從應(yīng)用來說,IR技術(shù)不僅可以用于搜索引擎、信息代理等一些傳統(tǒng)的信息應(yīng)用,還可以用于話題跟蹤、內(nèi)容安全、生物信息學等度中應(yīng)用。 從概念或者名詞來說,最近一些年來出現(xiàn)了WEB挖掘(WEB Mining)、知識挖掘(Knowledge Mining)、知識發(fā)現(xiàn)(Knowledge Discovery)、內(nèi)容管理(Content Management)、內(nèi)容計算(Content Computing)等等新名詞、新學科,有些其實就是IR,有些可能學科淵源或者處理內(nèi)容有所不同,但是IR技術(shù)是這些名詞的主要內(nèi)容,或者說這些都是傳統(tǒng)IR的拓展,是現(xiàn)代IR的內(nèi)容??梢哉f,現(xiàn)代IR的發(fā)展可以說是百花齊放、絢麗多彩,引無數(shù)英雄盡折腰。 WEB的出現(xiàn)大大地促進了IR技術(shù)的發(fā)展。WEB上有異常豐富但又充滿垃圾的信息資源,其中絕大部分有用的信息還沒有發(fā)掘出來。這是因為目前還沒有特別好的信息處理和檢索工具。人們常常抱怨搜索引擎表現(xiàn)太差,可又沒辦法,只能用它。這一領(lǐng)域的開發(fā)仍然處于初級階段。 傳統(tǒng)的數(shù)據(jù)庫是靜態(tài)的,結(jié)構(gòu)化的,有中央嚴格組織的。而Web是自發(fā)形成和發(fā)展的,Web上的頁面是動態(tài)的,半結(jié)構(gòu)化的,通過超鏈接彼此纏繞。因此對Web的查詢和對數(shù)據(jù)庫的查詢完全不同。 據(jù)說WEB上每天要新增大約一百萬個網(wǎng)頁, 目前的網(wǎng)頁數(shù)目達到上百億。這給信息組織和檢索技術(shù)提出了十分嚴峻的挑戰(zhàn)。對如此海量的數(shù)據(jù)幾秒鐘內(nèi)就要完成快而準的檢索,傳統(tǒng)的檢索技術(shù)顯得力不從心。 為此,人們提出各種各樣的辦法:或?qū)z索算法、數(shù)據(jù)結(jié)構(gòu)加以改進;或在應(yīng)用時,縮小查詢范圍局限于某一個領(lǐng)域,某一個站點;或采用一定人工參與;還有在用戶查詢界面上,誘導(dǎo)用戶與機器多次交互,或采用圖形界面;或?qū)τ脩艚o出的查詢悄悄做一下變換或修改。 WEB上的大部分網(wǎng)頁都是有一定格式的(如HTML),有豐富的標記。比如TITLE信 息、字體著重信息、大小信息,以及META信息等等或許都暗示了些什么? 最富有革命性的想法是WEB的鏈接分析。人們意識到WEB上異常豐富的超鏈接是非常寶貴的資源,它在一定程度上反映了頁面的意義。 總而言之,八仙過海,各顯神通。見仁見智,任君評說。 今天的Internet還處于幼年時期,它一直在進化。很難想象它會發(fā)展成什么樣子,或許那時我們對網(wǎng)絡(luò)搜索的基本觀念已經(jīng)發(fā)生了根本變化。 我們這個站點試圖收集國內(nèi)外IR領(lǐng)域的重要資料,希望跟蹤這方面最先進的成果,也希望能夠吸引更多的仁人志士加入到IR的行列中來,我們誠懇歡迎您的積極參與。
如果您有什么想法或者遇到這方面有價值的文章,請和我們聯(lián)系。謝謝! |