信息檢索評測技術概述

素行 2008-01-17

展開全文

一、信息檢索評測技術的發(fā)展
隨著計算機的出現(xiàn)與普及，尤其是上世紀90 年代互聯(lián)網(wǎng)蓬勃興起之后，人們擺脫了信息貧乏的桎梏，進入了一個信息極度豐富的社會。目前，僅Google 能索引到的網(wǎng)頁就超過80 億個，圖片超過10 億張。當信息的來源已不再是問題時，如何快捷準確地獲取感興趣的信息，就成為人們關注的主要問題。但互聯(lián)網(wǎng)信息天生的異構、分散以及海量等特性對檢索技術提出了更高的要求，各種信息檢索、過濾、提取技術逐漸成為研究的重點。現(xiàn)在，以Web 搜索引擎為代表的信息檢索技術已經取得了很大成功，Google、百度、Yahoo! 等搜索引擎已深入到大家的日常工作和生活之中，成為獲取信息不可或缺的工具。
目前存在很多基于不同的信息檢索技術發(fā)展而來的搜索引擎系統(tǒng)，對于同一個用戶查詢，這些系統(tǒng)返回的結果往往存在差異，由此產生了比較結果的問題。而基于主觀使用感受的評價既不客觀也不可靠，因此，必須發(fā)展出一套客觀的評測體系，這種評測不受個別人主觀感覺的影響，并且所作出的評價在通常情況下都能成立。在信息檢索領域，檢索系統(tǒng)的評價一直對系統(tǒng)的研究、設計與發(fā)展有顯著的影響力。一般來說，這種評測研究的方法具有以下特點：明確的形式化研究任務、公開的訓練與測試數(shù)據(jù)、公開的評測比較。它使得研究之間的比較更加客觀，從而讓研究者認清各種技術的優(yōu)劣，起到正確引導研究發(fā)展方向的目的。

文本檢索會議TREC
        二十世紀九十年代，基于軍事和反恐情報處理的需要，美國國防部高級研究計劃署（DARPA）提出了TIPSTER 文本處理計劃，文本檢索會議（Text REtrieval Conference，簡稱TREC）就是該計劃的重要組成部分。1992 年，在美國國防部高級研究與開發(fā)機構和DARPA 的資助下，NIST 召開了第一屆TREC 會議，以后每年舉辦一次，到2005 年已舉辦了14 屆。TREC的組織者認為，對不同系統(tǒng)的比較，其意義并不在于要證明某個系統(tǒng)優(yōu)于其他系統(tǒng)，而是要把更多不同的技術放在一起公開討論，這對技術的發(fā)展有很大好處。于是，TREC 自開辦之初，就明確提出了四個目標：
        1. 以大規(guī)模測試集為基礎，推動信息檢索的研究；
        2. 通過建立一個開放式的論壇，使與會者交流研究成果與心得，以增進學術界、產業(yè)界與政府的交流互通；
        3. 通過對真實檢索環(huán)境的模擬與重要改進，加速將實驗室研究技術轉化為商業(yè)產品；
        4. 開發(fā)適當且具有實用性的評價技術，供各界遵循采用。
        TREC 發(fā)展到現(xiàn)在，已經成為備受矚目的標尺性測試，對信息檢索研究領域產生了巨大而深遠的影響。今天，在TREC 評測中名列前茅的算法往往成為大家研究的重點，很多商用搜索引擎所采用的核心技術就是那些被TREC 證明成功的算法發(fā)展而來的。TREC 論壇成為研究人員互相交流學習的重要途徑，很多新的思想和方法正是從這里碰撞產生。TREC 為新的熱點研究提供了急需的數(shù)據(jù)和評價體系，促進了這些技術的快速發(fā)展。鑒于TREC 的巨大成功，現(xiàn)在的眾多評測，甚至其他研究領域的評測，如跨語言檢索評測會議NTCIR、CLEF，機器翻譯評測TC-STAR 等，都或多或少受到它的影響。

國內相關研究
中文信息處理研究起步較晚，上世紀八十年代，還面臨著漢字編碼、分詞等基本問題尚未解決的局面。
九十年代，隨著這些問題取得突破，中文信息處理技術取得了長足進展。此后，隨著中文信息處理數(shù)據(jù)規(guī)模的膨脹以及國內外學術交流的增加，國內研究者逐漸認識到評測對于研究的促進作用。2002 年，黃昌寧教授曾呼吁，“為了推動中文信息處理的發(fā)展，讓我們拿起評測這個武器，扎扎實實地研究其適用技術……沒有統(tǒng)一評測的研究成果，終究不是完全可信的。”同一時期，國內的相關研究機構開始嘗試參加TREC 等國際評測，并且相繼取得了不錯的成績。但專門針對中文的測試項目的缺位使中文信息處理技術還不能得到有效檢驗。這種狀況得到了國內的研究機構和科研管理部門的重視。經過大量的準備，國內相繼召開了多個面向中文信息處理技術的評測會議，其中比較有影響的是863 評測、全國搜索引擎和網(wǎng)上信息挖掘會議（SEWM）等。

二、信息檢索技術簡介
為了使讀者對信息檢索研究的進展有更深的了解，這里我們簡單介紹一下信息檢索技術的基本原理。信息檢索系統(tǒng)流程大致如下圖所示：

        總體上，系統(tǒng)可分為四個部分：1. 數(shù)據(jù)預處理，2.索引生成，3. 查詢處理，4. 檢索。下面我們分別對各個部分采用的技術加以介紹。
1. 數(shù)據(jù)預處理
        目前檢索系統(tǒng)的主要數(shù)據(jù)來源是Web，格式包括網(wǎng)頁、WORD 文檔、PDF 文檔等，這些格式的數(shù)據(jù)除了正文內容之外，還有大量的標記信息，因此從多種格式的數(shù)據(jù)中提取正文和其他所需的信息就成為數(shù)據(jù)預處理的主要任務。此外，眾所周知，中文字符存在多種編碼，比如GB2312、BIG5、Unicode（CJK 區(qū)），而原始數(shù)據(jù)集往往包含多種編碼，因此要正確地檢索到結果必須進行統(tǒng)一編碼轉換。研究者們對預處理部分要提取哪些信息并沒有共識，這與后續(xù)處理所需的信息密切相關，一般來說，正文、錨文本和鏈接地址都是要提取出來的。
2. 索引生成
        對原始數(shù)據(jù)建索引是為了快速定位查詢詞所在的位置，為了達到這個目的，索引的結構非常關鍵。目前主流的方法是以詞為單位構造倒排文檔表，其結構大致如下圖所示：

        每個文檔都由一串詞組成，而用戶輸入的查詢條件通常是若干關鍵詞，因此如果預先記錄這些詞出現(xiàn)的位置，那么只要在索引文件中找到這些詞，也就找到了包含它們的文檔。為了進一步提高查詢的速度，在組織索引時還可以采用一些更復雜的方法，比如B樹、TRIE 樹、哈希表等。這個階段還需要對預處理之后的文檔進行詞法分析，這是因為很多語言的文本都不宜直接把正文中的字符串用于建立索引。例如，中文里的詞與詞之間不存在分隔符，因此必須先進行分詞，而英文中的詞存在很多變形，比如“compute”就存在“computes”、“computing”、“computed”等多種變形，應先進行詞根還原。此外，有些詞雖然出現(xiàn)頻率很高，但對于查詢沒有任何幫助，比如“的”、“了”等，就無需放入索引，為此需要預備一個停用詞表（stop word list）對這類詞進行過濾。
3. 查詢處理
        用戶輸入的查詢條件可以有多種形式，包括關鍵詞、布爾表達式、自然語言形式的描述語句甚至是文本，但如果把這些輸入僅當作關鍵詞去檢索，顯然不能準確把握用戶的真實信息需求。很多系統(tǒng)采用查詢擴展來克服這一問題。各種語言中都會存在很多同義詞，比如查“計算機”的時候，包含“電腦”的結果也應一并返回，這種情況通常會采用查詞典的方法解決。但完全基于詞典所能提供的信息有限，而且很多時候并不適宜簡單地以同義詞替換方法進行擴展，因此很多研究者還采用相關反饋、關聯(lián)矩陣等方法對查詢條件進行深入挖掘。
4. 檢索
        最簡單的檢索系統(tǒng)只需要按照查詢詞之間的邏輯關系返回相應的文檔就可以了，但這種做法顯然不能表達結果與查詢之間的深層關系。為了把最符合用戶需求的結果顯示在前面，還需要利用各種信息對結果進行重排序。目前有兩大主流技術用于分析結果和查詢的相關性：鏈接分析和基于內容的計算。許多研究者發(fā)現(xiàn)，WWW 上超鏈結構是個非常豐富和重要的資源，如果能夠充分利用的話，可以極大地提高檢索結果的質量?；谶@種鏈接分析的思想，Sergey Brin 和Larry Page 在1998 年提出了PageRank 算法，同年J.Kleinberg 提出了HITS 算法，其它一些學者也相繼提出了另外的鏈接分析算法，如SALSA，PHITS，Bayesian等算法。這些算法有的已經在實際的系統(tǒng)中實現(xiàn)和使用，并且取得了良好的效果。而基于內容的計算則沿用傳統(tǒng)的文本分類方法，多采用向量空間模型、概率模型等方法來逐一計算用戶查詢和結果的相似度（相關性）。兩者各有優(yōu)缺點，而且恰好互補。鏈接分析充分利用了Web 上豐富的鏈接結構信息，但它很少考慮網(wǎng)頁本身的內容，而直觀上看，基于內容的計算則較為深入地揭示了查詢和結果之間的語義關系，但忽略了不同網(wǎng)頁之間的指向關系，因此現(xiàn)在很多系統(tǒng)嘗試把兩者結合起來，以達到更好的性能。

三、信息檢索技術研究現(xiàn)狀
評價指標
為便于理解評測結果所代表的意義，我們先來介紹一下評測中常用的指標。評測指標直接關系到參評系統(tǒng)的最終評價，指標不合理會導致對系統(tǒng)的評價也不合理，因此規(guī)范化的評測會議對于評價指標的選擇都是很慎重的。
早期常用的評測指標包括準確率（Precision）、召回率（Recall）、F1 值等，其意義如下：

        顯而易見，召回率考察系統(tǒng)找全答案的能力，而準確率考察系統(tǒng)找準答案的能力，兩者相輔相成，從兩個不同側面較為全面地反映了系統(tǒng)性能。F1 值是一個把準確率和召回率結合起來的指標?？紤]到某些情況下不同系統(tǒng)的準確率和召回率互有高低，不便于直接比較，而使用F1 值就可以更直觀地對系統(tǒng)性能進行排序。
        隨著測試集規(guī)模的擴大以及人們對評測結果理解的深入，更準確反映系統(tǒng)性能的新評價指標逐漸出現(xiàn)，包括：
        1. 平均準確率（Mean Average Precision，即MAP）：單個主題的MAP 是每篇相關文檔檢索出后的準確率的平均值。主題集合的MAP 是每個主題的MAP 的平均值。MAP 是反映系統(tǒng)在全部相關文檔上性能的單值指標。
        2. R-Precision：單個主題的R-Precision 是檢索出R 篇文檔時的準確率。其中R 是測試集中與主題相關的文檔的數(shù)目。主題集合的R-Precision 是每個主題的R-Precision 的平均值。
        3. P@10：P@10 是系統(tǒng)對于該主題返回的前10 個結果的準確率?？紤]到用戶在查看搜索引擎結果時，往往希望在第一個頁面（通常為10 個結果）就找到自己所需的信息，因此設置了這樣一個擬人化的指標，P@10 常常能比較有效地反映系統(tǒng)在真實應用環(huán)境下所表現(xiàn)的性能。

國外研究現(xiàn)狀
        一提及信息檢索，大家往往馬上會想起Google、yahoo 等搜索引擎公司。可以說，Web 搜索引擎與大家的日常生活最為密切，在某種程度上成了信息檢索技術的代稱。但作為實用化的系統(tǒng)，搜索引擎一般采用比較成熟的技術，并對穩(wěn)定性、反映速度、界面等工程化問題更為關注。因此，這些系統(tǒng)并不完全代表信息檢索技術的發(fā)展水平。但由于人們對于各種粒度的信息獲取的需求不斷增長，國外的學術界和企業(yè)界為此投入了相當大的力量進行前瞻性研究，這方面比較有代表性的機構包括馬薩諸塞大學、卡耐基梅隆大學、倫敦城市大學、IBM、微軟研究院、滑鐵盧大學等。
        總的來看，早期以Okapi、Smart、查詢擴展、相關反饋為代表的內容分析技術，后來以Pagerank、HITS 為代表的鏈接分析技術，以及近年來的語言模型，都曾在信息檢索發(fā)展過程中掀起研究熱潮，但近年來卻少有激動人心的新技術出現(xiàn)。2005 年，TREC 在其總結報告指出現(xiàn)在“信息檢索性能已進入平臺期”。這表明，與用戶無關的傳統(tǒng)信息檢索技術已相對成熟。這些技術已經被商用搜索引擎廣泛應用，并在一定程度上解決了用戶在粗粒度（文檔級）上的信息獲取需求。
        從TREC 來看，現(xiàn)在的任務設置向高精度、細粒度和大規(guī)模三個方向傾斜，比較有代表性的有高精度文檔檢索任務（HARD）、新信息檢測任務（Novelty）、問答任務（QA）、TB 級檢索（Terabyte）等。其中前三個任務要求返回的結果不再是簡單的一篇篇文檔，而是信息片斷，而TB 級檢索則是把測試集的規(guī)模提高到了TB 級，其他不變。從評測結果來看，這些任務已經取得了很大進展。但相對于目前的技術而言，這些任務還是相當困難的，與實用還有一段距離。
        總的來看，國外主流的Web 檢索技術已比較成熟，無論從結果、性能還是穩(wěn)定性來看，都能提供令人滿意的結果，并且已經在人們的日常信息獲取中發(fā)揮作用。更高精度和更細粒度的檢索技術仍處于實驗室階段，但這方面的研究方興未艾。也許在不遠的將來，我們就能看到基于這些新技術的搜索引擎的出現(xiàn)。

國內研究現(xiàn)狀
        作為扶持科技發(fā)展的重要措施之一，863 國家高技術研究發(fā)展計劃一直對國內的研究有著重要影響。而規(guī)范化評測作為檢驗系統(tǒng)性能的可信機制，逐漸成為863 關注的重點之一。2003 年，國家863 計劃軟硬件主題設立了“中文信息處理和智能人機接口技術評測”專項課題，對包括機器翻譯、語音識別、信息檢索在內的中文信息處理關鍵技術進行評測。該課題由中國科學院計算技術研究所承辦，從2003 年到2005年連續(xù)舉辦三屆，吸引了國內外眾多研究單位參加。
        信息檢索評測的目的并不僅僅定位為863 課題驗收或資格認證，而是要了解國內在中文信息檢索技術領域的研究現(xiàn)狀，驗證互聯(lián)網(wǎng)環(huán)境下大規(guī)模數(shù)據(jù)的中文信息檢索技術的系統(tǒng)有效性，推動技術進步和成果的應用和轉化，成為這個領域技術評價和交流的平臺。
        作為國內有較大影響的評測會議，863 信息檢索評測基本上反映了中文信息檢索技術的發(fā)展水平。下面我們通過2005 年度最新評測結果來分析國內的研究現(xiàn)狀。這次評測分為自動和手工構造查詢條件兩組。評測結果如下表所示（由于863 評測結果發(fā)布采用匿名方式，因此這里只給出最終結果而不顯示參賽單位名稱）：

        從所有參評隊伍的整體檢索效果看，這次評測的結果與以往的評測結果相比，各個指標都有了很大提高。這主要是因為研究者利用了鏈接分析技術、錨文本等相關評價因素來提高準確率，并針對評測采取有效的技術手段來克服中文檢索中的某些難點，比如命名實體識別等。此外，相關反饋或者重排序技術對于提高檢索效果也有一定的幫助。從檢索模型來說，參評隊伍采用了向量空間模型、概率模型、語言模型等基本模型或者混合模型，同時利用了PageRank、鏈入分析等鏈接分析或者頁面分析技術來提高檢索效果。中文檢索相對英文等其它語種來說，如何正確分詞對于檢索效果有所影響，尤其是命名實體、縮略語以及新詞等未登錄詞的正確識別對于某些查詢來說影響較大?，F(xiàn)在的大部分檢索系統(tǒng)在索引以及查詢分析階段采用了命名體識別，從結果來看，取得了比較好的效果。
        當前的中文檢索技術均基于國際主流的算法，在評測中成績較好的單位在TREC 評測中也曾取得不錯的成績?？梢钥闯觯@些算法提供了基準級的性能，系統(tǒng)級的創(chuàng)新或改進不多，不過現(xiàn)有系統(tǒng)都會針對中文的特點進行改進。總體上，如果用戶草擬的查詢條件能夠比較全面準確地表達用戶需求的話，現(xiàn)有的中文檢索技術一般能夠提供比較好的檢索結果，但是對于以下方面還存在著一些問題：
        ▲ 查詢條件與文檔詞匯內容失配；
        ▲ 部分命名體、新詞以及縮略語識別還存在著一些問題；
        ▲ 在計算相似度時，查詢詞匯權重的設定正確與否也在一定程度上影響檢索效果。
        這些問題的存在導致現(xiàn)有檢索系統(tǒng)性能下降，針對這些問題，現(xiàn)有的檢索技術還有很大的改善空間來獲得比較滿意的檢索結果。

四．總結與展望
經過眾多研究者的努力，規(guī)范化評測對信息檢索技術發(fā)展的重要作用已經得到了廣泛認同。雖然和國外相比起步較晚，但短短幾年間，中文信息檢索的規(guī)范化評測從無到有，已經取得了令人鼓舞的進步。但是，總的來說，國內仍處于學習國外的相關評測（尤其是TREC 系列會議）的階段。
規(guī)范化評測與公正客觀這個終極目標還有一定的距離，而如何降低人為因素的影響仍是擺在評測組織者面前的一道難題。而國內的信息檢索評測無論是從數(shù)據(jù)規(guī)模還是從評測手段來看，與國際知名評測仍有較大差距，這是由我國目前的科研和應用的總體水平決定的。但差距的存在也表明提升的空間巨大，國內的相關研究者任重而道遠。