一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

搜索引擎技術(shù)發(fā)展觀系列之二 - 搜索引擎技術(shù)發(fā)展觀系列之二 - 局域網(wǎng)搜索引擎研究與開發(fā) ...

 軟件團(tuán)隊(duì)頭目 2007-03-13
隨著“眼球經(jīng)濟(jì)”席卷互聯(lián)網(wǎng),成千上萬的資金迅速流向最能吸引眼球的搜索引擎市場。有大量調(diào)查顯示搜索引擎市場正處在高速發(fā)展時期,成為未來幾年最具發(fā)展?jié)摿Φ漠a(chǎn)業(yè)之一。

當(dāng)你登錄某一個網(wǎng)站,在互聯(lián)網(wǎng)上搜索某一類內(nèi)容,希望得到最新、最全面的信息,你需要等待多長時間?

幾年前,人們希望十幾秒,最多30秒鐘就能得到結(jié)果,而現(xiàn)在的期望值是1~2秒,也就是說,伴隨鼠標(biāo)的“咔噠”一聲,顯示屏的頁面已經(jīng)變,排在最前面的十幾、二十條信息的標(biāo)題已經(jīng)出現(xiàn)在你的面前。

目前,搜索引擎技術(shù)成為僅次于門戶的互聯(lián)網(wǎng)第二大核心技術(shù),要用到信息檢索、人工智能、計算機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語言處理等多領(lǐng)域的理論和技術(shù),所以具有綜合性和挑戰(zhàn)性。伴隨互聯(lián)網(wǎng)的普及和網(wǎng)上信息的爆炸式增長,它越來越引起人們的重視。

上期我們介紹了傳統(tǒng)的幾種搜索引擎技術(shù),那么未來搜索引擎技術(shù)將如何發(fā)展?隨著人工智能技術(shù)的進(jìn)一步成熟和信息服務(wù)的多樣化,搜索引擎向著智能化、個性化方向發(fā)展。

檢索結(jié)果深加工

用戶在使用搜索引擎進(jìn)行信息搜索時,有時并不十分關(guān)注返回結(jié)果的多少,而是看檢索結(jié)果是符合自己的需求。對于一次普通查詢,傳統(tǒng)的搜索引擎動輒幾十萬、幾百萬篇文檔,這樣的搜索結(jié)果是沒有多大意義的。

解決檢索結(jié)果過多過雜的問題,目前有多種方法。一是通過各種方法獲得用戶沒有在檢索式表達(dá)出來的真正目的,包括智能代理跟蹤用戶檢索行為,分析用戶操作模型,使用相關(guān)反饋機(jī)制,確定文檔和用戶需求的相關(guān)性,提高檢索的精度。二是用文本分類技術(shù),將結(jié)果分類,使用可視化技術(shù)顯示分類結(jié)構(gòu),用戶只瀏覽自己感興趣的類別。三是進(jìn)行站點(diǎn)聚類或內(nèi)容聚類,減少信息的總量,從而有利于從大量返回結(jié)果中找到用戶所需要的信息。

提供個性化服務(wù)

為了實(shí)現(xiàn)個性化服務(wù),需要獲取用戶興趣信息。獲取用戶的興趣信息,有兩種方法。在訓(xùn)練階段,用信息論的觀點(diǎn)對關(guān)鍵詞分類并表示其特征程度(關(guān)鍵詞按貢獻(xiàn)率分為積極特征詞、消極特征詞和零特征詞),然后定義標(biāo)題的特征程度,并對各類特征詞進(jìn)行統(tǒng)計。

在測試階段,應(yīng)用興趣描述文件(通常以XML文件格式存儲),動態(tài)獲取用戶的興趣從而把用戶感興趣的頁面提供給用戶。這種方法避免了用戶描述興趣的困難。用戶很難描述興趣,但可以判斷一篇文章是否符合需要。

另一種方法是可以根據(jù)用戶的書簽文件以及每次檢索輸入的關(guān)鍵詞、用戶的反映來動態(tài)更新用戶的興趣。通過分析用戶行為的意圖,獲取用戶感興趣的相關(guān)信息及感興趣的感性程度。另外,用戶輸入的關(guān)鍵詞也作為積極特征詞來動態(tài)更新用戶興趣文件。

基于智能搜索

搜索引擎的智能化方向發(fā)展是毫無疑問的。智能搜索引擎(Smart Hunter) 是根據(jù)目前搜索引擎的發(fā)展趨勢,除提供傳統(tǒng)的全網(wǎng)快速檢索、相關(guān)度排序等功能外,還提供用戶角色登記、用戶興趣自動識別、內(nèi)容的語義理解、智能化信息過濾和推送等功能,為用戶提供一個真正個性化、智能化的網(wǎng)絡(luò)信息搜集工具(見圖示)。



智能搜索引擎利用神經(jīng)網(wǎng)絡(luò)、決策樹、關(guān)聯(lián)規(guī)則、范例推理、模糊聚類、粗糙集、隱馬爾科夫模型等技術(shù)實(shí)現(xiàn)分布式并行檢索,以數(shù)據(jù)挖掘與知識發(fā)現(xiàn)為主要手段,加上自然語言理解技術(shù),對檢索結(jié)果進(jìn)行進(jìn)一步的分析,濾掉與用戶需求不相關(guān)或弱相關(guān)的信息,從而提高系統(tǒng)性能和檢索的精度與效果。

1.自然語言檢索
智能搜索引擎基于自然語言的檢索形式,是建立在大規(guī)模的知識庫基礎(chǔ)上,用一個強(qiáng)有力的推理機(jī),根據(jù)用戶所提供的以自然語言表達(dá)的檢索要求進(jìn)行分析,然后形成檢索策略進(jìn)行搜索。用戶只需把自己的要求輸入計算機(jī),就可以得到檢索結(jié)果,使用戶可以從繁瑣的檢索規(guī)則中解脫出來。

自然語言查詢從用戶接口上分為兩種:
一種是輸入自然語言的句子,把它切分并抽出多對組詞,構(gòu)成一個有限狀態(tài)機(jī),然后去數(shù)據(jù)庫進(jìn)行匹配,對每一次檢索出的記錄進(jìn)行頻率累加,經(jīng)過幾次檢索后,按照命中頻率進(jìn)行排序,把最終的檢索結(jié)果返回給用戶。這只是對查詢請求進(jìn)行了自然語言分析。
另外一種是對目標(biāo)文檔也進(jìn)行自然語言分析,這不僅涉及到分詞技術(shù)、詞法分析、語法分析、語義分析,還涉及到篇章結(jié)構(gòu)的分析,就是要理解文章的意思,技術(shù)難度較大,目前還基本沒有成功的模型。

2.移動代理技術(shù)。
移動代理(Mobile Agent)技術(shù)是一種新型分布式計算技術(shù),是指在網(wǎng)絡(luò)上具有移動能力的、能夠自主運(yùn)行的、按照用戶的要求完成指定任務(wù)的程序。

移動代理技術(shù)是新一代分布式計算技術(shù),移動代理與傳統(tǒng)分布式計算技術(shù)完全不同。在移動代理模式下,客戶機(jī)向服務(wù)器提交的不再是一些簡單的請求,而是包含代碼和數(shù)據(jù)的移動對象。移動對象代表用戶,按照“程序靠近數(shù)據(jù)”的原則,在服務(wù)器間自主的移動,完成數(shù)據(jù)處理的任務(wù)。

基于移動代理的模式之上的應(yīng)用程序可以大大節(jié)省網(wǎng)絡(luò)帶寬,有效克服網(wǎng)絡(luò)延時帶來的種種問題,可以智能化地自主異步執(zhí)行。它克服了搜索引擎?zhèn)鹘y(tǒng)的“數(shù)據(jù)靠近程序”的運(yùn)行模式,大大降低了網(wǎng)絡(luò)的數(shù)據(jù)流量,節(jié)省了網(wǎng)絡(luò)資源。

3.并行檢索。
并行信息檢索是由多個可同時工作的處理部件或處理器構(gòu)成的計算機(jī)系統(tǒng)進(jìn)行信息檢索。信息檢索系統(tǒng)可以利用的并行策略有任務(wù)并行、數(shù)據(jù)并行和它們的混合方式。并行信息檢索把信息搜索過程建立在神經(jīng)網(wǎng)絡(luò)之上。

如果不用神經(jīng)網(wǎng)絡(luò),那就主要利用現(xiàn)有的信息檢索算法對數(shù)據(jù)和計算進(jìn)行分割。

數(shù)據(jù)分割有邏輯文檔分割與物理文檔分割兩種形式。邏輯文檔分割需要對倒排文件進(jìn)行擴(kuò)展,讓每個并行進(jìn)程能夠直接訪問一部分索引,這些索引對應(yīng)于處理器所要處理的那部分文檔子集;物理文檔分割把文檔分割為離散的、自包含的文檔子集,每個子集對應(yīng)一個并行處理器,每個子集有自己的倒排檔文件。

4.分布式檢索。
分布式搜索引擎把信息通過網(wǎng)絡(luò)物理的分布存儲和維護(hù),把更大范圍的分布、異構(gòu)文檔集聯(lián)合起來,形成一個邏輯整體,為用戶提供分布的信息檢索。

分布文檔集除了大量的文本以外,還包括其它類型的數(shù)據(jù):圖形、圖像、視頻、音頻等多媒體數(shù)據(jù)。分布信息檢索的目標(biāo)就是按照一致的信息描述,標(biāo)識和檢索分布文檔集。分布信息搜集工具引導(dǎo)用戶進(jìn)入分布式的信息空間,選擇合適的文檔集,并進(jìn)行檢索。

搜索引擎涉及人工智能、計算機(jī)網(wǎng)絡(luò)、分布式處理、并行計算、數(shù)據(jù)挖掘、知識發(fā)現(xiàn)、自然語言處理等多項(xiàng)技術(shù),富有綜合性和挑戰(zhàn)性。隨著這些技術(shù)的進(jìn)一步發(fā)展,不斷提高性能,更好滿足用戶需求的搜索引擎也必將出現(xiàn)。

大看臺

搜索引擎使用技巧

◆ 使用邏輯詞輔助查找
常用邏輯詞有:AND(和)、OR(或)、NOT(否,有些是AND NOT)及NEAR(兩個單詞的靠近程度)。

◆ 使用雙引號進(jìn)行精確查找
如果查找的是一個詞組或多個漢字,最好的辦法就是將它們用雙引號括起來。

◆ 使用加減號限定查找
在搜索詞前冠以加號“+”限定搜索結(jié)果中必須包含的詞匯,用減號“-”限定搜索結(jié)果不能包含的詞匯。

◆ 區(qū)分字母大小寫
許多搜索引擎都區(qū)分字母的大小寫,應(yīng)該正確使用它們的大小寫字母形式。

◆ 限制查詢范圍
范圍限制的能力越強(qiáng),則越能準(zhǔn)確地找到需要的信息。

◆ 盡量少用空格
在輸入漢字作關(guān)鍵詞的時候,不要在漢字后追加不必要的空格,因?yàn)榭崭駥⒈徽J(rèn)作特殊操作符,其作用與AND一樣。

◆ 從頁面上部或底部尋找作者姓名、組織機(jī)構(gòu)名稱或公司名稱


Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=443263

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    午夜日韩在线观看视频| 国产精品久久久久久久久久久痴汉 | 在线观看中文字幕91| 久久这里只有精品中文字幕| 国产精品日韩欧美第一页| 欧美日韩亚洲巨色人妻| 黄色日韩欧美在线观看| 色鬼综合久久鬼色88| 中文字幕免费观看亚洲视频| 免费观看日韩一级黄色大片| 冬爱琴音一区二区中文字幕| 国产精品丝袜美腿一区二区| 男生和女生哪个更好色| 一区二区三区日韩中文| 亚洲人午夜精品射精日韩| 一区二区三区日韩在线| 国产精品超碰在线观看| 国产日韩欧美在线亚洲| 99少妇偷拍视频在线| 亚洲伊人久久精品国产| 亚洲超碰成人天堂涩涩| 国产精品香蕉免费手机视频| 国产又粗又猛又爽又黄| 日本乱论一区二区三区| 蜜桃传媒视频麻豆第一区| 成人午夜激情在线免费观看| 久久99热成人网不卡| 97精品人妻一区二区三区麻豆| 国产女高清在线看免费观看| 福利在线午夜绝顶三级| 噜噜中文字幕一区二区| 国产福利一区二区三区四区| 日韩中文字幕人妻精品| 中日韩美一级特黄大片| 中文字幕在线五月婷婷| 好吊日在线观看免费视频| 亚洲熟妇熟女久久精品 | 国产又粗又猛又黄又爽视频免费| 国产成人综合亚洲欧美日韩| 色偷偷偷拍视频在线观看| 国产欧美精品对白性色|