隨著“眼球經(jīng)濟(jì)”席卷互聯(lián)網(wǎng),成千上萬的資金迅速流向最能吸引眼球的搜索引擎市場。有大量調(diào)查顯示搜索引擎市場正處在高速發(fā)展時期,成為未來幾年最具發(fā)展?jié)摿Φ漠a(chǎn)業(yè)之一。
當(dāng)你登錄某一個網(wǎng)站,在互聯(lián)網(wǎng)上搜索某一類內(nèi)容,希望得到最新、最全面的信息,你需要等待多長時間? 幾年前,人們希望十幾秒,最多30秒鐘就能得到結(jié)果,而現(xiàn)在的期望值是1~2秒,也就是說,伴隨鼠標(biāo)的“咔噠”一聲,顯示屏的頁面已經(jīng)變,排在最前面的十幾、二十條信息的標(biāo)題已經(jīng)出現(xiàn)在你的面前。 目前,搜索引擎技術(shù)成為僅次于門戶的互聯(lián)網(wǎng)第二大核心技術(shù),要用到信息檢索、人工智能、計算機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語言處理等多領(lǐng)域的理論和技術(shù),所以具有綜合性和挑戰(zhàn)性。伴隨互聯(lián)網(wǎng)的普及和網(wǎng)上信息的爆炸式增長,它越來越引起人們的重視。 上期我們介紹了傳統(tǒng)的幾種搜索引擎技術(shù),那么未來搜索引擎技術(shù)將如何發(fā)展?隨著人工智能技術(shù)的進(jìn)一步成熟和信息服務(wù)的多樣化,搜索引擎向著智能化、個性化方向發(fā)展。 檢索結(jié)果深加工 用戶在使用搜索引擎進(jìn)行信息搜索時,有時并不十分關(guān)注返回結(jié)果的多少,而是看檢索結(jié)果是符合自己的需求。對于一次普通查詢,傳統(tǒng)的搜索引擎動輒幾十萬、幾百萬篇文檔,這樣的搜索結(jié)果是沒有多大意義的。 解決檢索結(jié)果過多過雜的問題,目前有多種方法。一是通過各種方法獲得用戶沒有在檢索式表達(dá)出來的真正目的,包括智能代理跟蹤用戶檢索行為,分析用戶操作模型,使用相關(guān)反饋機(jī)制,確定文檔和用戶需求的相關(guān)性,提高檢索的精度。二是用文本分類技術(shù),將結(jié)果分類,使用可視化技術(shù)顯示分類結(jié)構(gòu),用戶只瀏覽自己感興趣的類別。三是進(jìn)行站點(diǎn)聚類或內(nèi)容聚類,減少信息的總量,從而有利于從大量返回結(jié)果中找到用戶所需要的信息。 提供個性化服務(wù) 為了實(shí)現(xiàn)個性化服務(wù),需要獲取用戶興趣信息。獲取用戶的興趣信息,有兩種方法。在訓(xùn)練階段,用信息論的觀點(diǎn)對關(guān)鍵詞分類并表示其特征程度(關(guān)鍵詞按貢獻(xiàn)率分為積極特征詞、消極特征詞和零特征詞),然后定義標(biāo)題的特征程度,并對各類特征詞進(jìn)行統(tǒng)計。 在測試階段,應(yīng)用興趣描述文件(通常以XML文件格式存儲),動態(tài)獲取用戶的興趣從而把用戶感興趣的頁面提供給用戶。這種方法避免了用戶描述興趣的困難。用戶很難描述興趣,但可以判斷一篇文章是否符合需要。 另一種方法是可以根據(jù)用戶的書簽文件以及每次檢索輸入的關(guān)鍵詞、用戶的反映來動態(tài)更新用戶的興趣。通過分析用戶行為的意圖,獲取用戶感興趣的相關(guān)信息及感興趣的感性程度。另外,用戶輸入的關(guān)鍵詞也作為積極特征詞來動態(tài)更新用戶興趣文件。 基于智能搜索 搜索引擎的智能化方向發(fā)展是毫無疑問的。智能搜索引擎(Smart Hunter) 是根據(jù)目前搜索引擎的發(fā)展趨勢,除提供傳統(tǒng)的全網(wǎng)快速檢索、相關(guān)度排序等功能外,還提供用戶角色登記、用戶興趣自動識別、內(nèi)容的語義理解、智能化信息過濾和推送等功能,為用戶提供一個真正個性化、智能化的網(wǎng)絡(luò)信息搜集工具(見圖示)。 智能搜索引擎利用神經(jīng)網(wǎng)絡(luò)、決策樹、關(guān)聯(lián)規(guī)則、范例推理、模糊聚類、粗糙集、隱馬爾科夫模型等技術(shù)實(shí)現(xiàn)分布式并行檢索,以數(shù)據(jù)挖掘與知識發(fā)現(xiàn)為主要手段,加上自然語言理解技術(shù),對檢索結(jié)果進(jìn)行進(jìn)一步的分析,濾掉與用戶需求不相關(guān)或弱相關(guān)的信息,從而提高系統(tǒng)性能和檢索的精度與效果。 1.自然語言檢索 智能搜索引擎基于自然語言的檢索形式,是建立在大規(guī)模的知識庫基礎(chǔ)上,用一個強(qiáng)有力的推理機(jī),根據(jù)用戶所提供的以自然語言表達(dá)的檢索要求進(jìn)行分析,然后形成檢索策略進(jìn)行搜索。用戶只需把自己的要求輸入計算機(jī),就可以得到檢索結(jié)果,使用戶可以從繁瑣的檢索規(guī)則中解脫出來。 自然語言查詢從用戶接口上分為兩種: 一種是輸入自然語言的句子,把它切分并抽出多對組詞,構(gòu)成一個有限狀態(tài)機(jī),然后去數(shù)據(jù)庫進(jìn)行匹配,對每一次檢索出的記錄進(jìn)行頻率累加,經(jīng)過幾次檢索后,按照命中頻率進(jìn)行排序,把最終的檢索結(jié)果返回給用戶。這只是對查詢請求進(jìn)行了自然語言分析。 另外一種是對目標(biāo)文檔也進(jìn)行自然語言分析,這不僅涉及到分詞技術(shù)、詞法分析、語法分析、語義分析,還涉及到篇章結(jié)構(gòu)的分析,就是要理解文章的意思,技術(shù)難度較大,目前還基本沒有成功的模型。 2.移動代理技術(shù)。 移動代理(Mobile Agent)技術(shù)是一種新型分布式計算技術(shù),是指在網(wǎng)絡(luò)上具有移動能力的、能夠自主運(yùn)行的、按照用戶的要求完成指定任務(wù)的程序。 移動代理技術(shù)是新一代分布式計算技術(shù),移動代理與傳統(tǒng)分布式計算技術(shù)完全不同。在移動代理模式下,客戶機(jī)向服務(wù)器提交的不再是一些簡單的請求,而是包含代碼和數(shù)據(jù)的移動對象。移動對象代表用戶,按照“程序靠近數(shù)據(jù)”的原則,在服務(wù)器間自主的移動,完成數(shù)據(jù)處理的任務(wù)。 基于移動代理的模式之上的應(yīng)用程序可以大大節(jié)省網(wǎng)絡(luò)帶寬,有效克服網(wǎng)絡(luò)延時帶來的種種問題,可以智能化地自主異步執(zhí)行。它克服了搜索引擎?zhèn)鹘y(tǒng)的“數(shù)據(jù)靠近程序”的運(yùn)行模式,大大降低了網(wǎng)絡(luò)的數(shù)據(jù)流量,節(jié)省了網(wǎng)絡(luò)資源。 3.并行檢索。 并行信息檢索是由多個可同時工作的處理部件或處理器構(gòu)成的計算機(jī)系統(tǒng)進(jìn)行信息檢索。信息檢索系統(tǒng)可以利用的并行策略有任務(wù)并行、數(shù)據(jù)并行和它們的混合方式。并行信息檢索把信息搜索過程建立在神經(jīng)網(wǎng)絡(luò)之上。 如果不用神經(jīng)網(wǎng)絡(luò),那就主要利用現(xiàn)有的信息檢索算法對數(shù)據(jù)和計算進(jìn)行分割。 數(shù)據(jù)分割有邏輯文檔分割與物理文檔分割兩種形式。邏輯文檔分割需要對倒排文件進(jìn)行擴(kuò)展,讓每個并行進(jìn)程能夠直接訪問一部分索引,這些索引對應(yīng)于處理器所要處理的那部分文檔子集;物理文檔分割把文檔分割為離散的、自包含的文檔子集,每個子集對應(yīng)一個并行處理器,每個子集有自己的倒排檔文件。 4.分布式檢索。 分布式搜索引擎把信息通過網(wǎng)絡(luò)物理的分布存儲和維護(hù),把更大范圍的分布、異構(gòu)文檔集聯(lián)合起來,形成一個邏輯整體,為用戶提供分布的信息檢索。 分布文檔集除了大量的文本以外,還包括其它類型的數(shù)據(jù):圖形、圖像、視頻、音頻等多媒體數(shù)據(jù)。分布信息檢索的目標(biāo)就是按照一致的信息描述,標(biāo)識和檢索分布文檔集。分布信息搜集工具引導(dǎo)用戶進(jìn)入分布式的信息空間,選擇合適的文檔集,并進(jìn)行檢索。 搜索引擎涉及人工智能、計算機(jī)網(wǎng)絡(luò)、分布式處理、并行計算、數(shù)據(jù)挖掘、知識發(fā)現(xiàn)、自然語言處理等多項(xiàng)技術(shù),富有綜合性和挑戰(zhàn)性。隨著這些技術(shù)的進(jìn)一步發(fā)展,不斷提高性能,更好滿足用戶需求的搜索引擎也必將出現(xiàn)。 大看臺 搜索引擎使用技巧 ◆ 使用邏輯詞輔助查找 常用邏輯詞有:AND(和)、OR(或)、NOT(否,有些是AND NOT)及NEAR(兩個單詞的靠近程度)。 ◆ 使用雙引號進(jìn)行精確查找 如果查找的是一個詞組或多個漢字,最好的辦法就是將它們用雙引號括起來。 ◆ 使用加減號限定查找 在搜索詞前冠以加號“+”限定搜索結(jié)果中必須包含的詞匯,用減號“-”限定搜索結(jié)果不能包含的詞匯。 ◆ 區(qū)分字母大小寫 許多搜索引擎都區(qū)分字母的大小寫,應(yīng)該正確使用它們的大小寫字母形式。 ◆ 限制查詢范圍 范圍限制的能力越強(qiáng),則越能準(zhǔn)確地找到需要的信息。 ◆ 盡量少用空格 在輸入漢字作關(guān)鍵詞的時候,不要在漢字后追加不必要的空格,因?yàn)榭崭駥⒈徽J(rèn)作特殊操作符,其作用與AND一樣。 ◆ 從頁面上部或底部尋找作者姓名、組織機(jī)構(gòu)名稱或公司名稱 Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=443263 |
|