1.為什么需要搜索引擎? 什么叫搜索引擎呢?Internet是一個巨大的信息資源寶庫,幾乎所有的Internet用戶都希望寶庫中的資源越來越豐富,使之應(yīng)有盡有。每天都有新的主機(jī)被連接到Internet上,每天都有新的信息資源被增加到Internet中,使Internet中的信息以驚人的速度增長。然而Internet中的信息資源分散在無數(shù)臺主機(jī)之中,如果用戶想將所有主機(jī)中的信息都做一番詳盡的考察,無異于大海撈針。那么用戶如何在數(shù)百萬個網(wǎng)站中快速有效地查找到想要得到的信息呢?這就要借助于Internet中的搜索引擎。 2.搜索引擎使用的信息檢索技術(shù) 目前搜索引擎使用的信息檢索技術(shù)主要有:Robot技術(shù)、索引技術(shù)、翻譯技術(shù)、轉(zhuǎn)換技術(shù)、過濾技術(shù)、數(shù)據(jù)庫技術(shù)、結(jié)果處理技術(shù)等。 2.1Robot技術(shù) 搜索引擎通過蜘蛛機(jī)器人自動在選定的范圍內(nèi)進(jìn)行檢索,并將所檢索到的信息自動標(biāo)引導(dǎo)入數(shù)據(jù)庫中 2.2翻譯技術(shù) 翻譯技術(shù)主要運(yùn)用于跨語言搜索引擎工作過程。如下: 用戶向系統(tǒng)提交檢索詞,形成一個源語言的搜索式,系統(tǒng)對搜索式進(jìn)行語言識別,識別出語種后,就對進(jìn)行提問式的詞法分析和結(jié)構(gòu)分析,然后把這個分析過的搜索式翻譯成各種語言的搜索式,最后把這一系列的搜索式提交給系統(tǒng)進(jìn)行檢索就可以了。 2.3轉(zhuǎn)換技術(shù) 轉(zhuǎn)換技術(shù)主要針對中文繁簡轉(zhuǎn)換出理。如下: 大陸與臺灣、香港的文化背景不同,因此形成的一些詞匯方面的差異。例如: 大陸詞匯 錄像 知識產(chǎn)權(quán) 磁盤 新西蘭 克林頓 硅谷 臺港詞匯 錄影 智慧財產(chǎn)權(quán) 磁碟 紐西蘭 柯林頓 矽谷 搜索引擎應(yīng)該根據(jù)自動判別詞匯的繁簡編碼,轉(zhuǎn)成相對應(yīng)的詞匯意思,然后進(jìn)行檢索 2.4過濾技術(shù) 搜索引擎通過“關(guān)鍵字過濾”等過濾技術(shù)對檢索到的信息進(jìn)行過濾、屏蔽。 2.5結(jié)果處理技術(shù) 結(jié)果處理技術(shù)主要是將檢索到查詢結(jié)果,進(jìn)行去重、基本信息提取、排序等操作。 3.搜索引擎分類 3.1按信息的組織方式 按照信息的組織方式,一般把搜索引擎分為目錄式分類搜索引擎,機(jī)器人搜索引擎,“混合型”搜索引擎 (1)目錄式分類搜索引擎 錄搜索引擎是通過人工方式進(jìn)行資源搜集,且采取人工方式來進(jìn)行網(wǎng)站描述。 參照分類法的思路,按照主題建立分類索引,形成一個樹形等級式的分類體系結(jié)構(gòu),建立起一套既可搜索又可瀏覽的等級式主題分類目錄,以 超文本鏈接方式把資源按不同類型劃分成不同的目錄,各類目錄下面引出屬于這一類別的網(wǎng)站名稱和網(wǎng)址鏈接以及每個網(wǎng)站的內(nèi)容簡介 目前,對于中文網(wǎng)站來說,最重要的分類目錄有以下幾個:開放式目錄ODP,Yahoo!,門戶搜索引擎目錄搜狐、網(wǎng)易、新浪。 。當(dāng)用戶查詢某個關(guān)鍵詞,系統(tǒng)會在這些描述中進(jìn)行搜索。由于目錄是依靠人工進(jìn)行整理搜索的,而且只在保存的對站點的描述中進(jìn)行搜索, 因此搜索范圍較小,查全率較低,對偏僻主題、新興學(xué)科、交叉學(xué)科不能很好地涵蓋,類目間的交叉又會導(dǎo)致重復(fù)和資源浪費(fèi)。另外,由于數(shù) 據(jù)庫更新速度比較慢,站點本身的動態(tài)變化不能及時地反映到搜索結(jié)果中,嚴(yán)重影響了查詢結(jié)果的時效性。 夠提供更為準(zhǔn)確的查詢結(jié)果,但收集的內(nèi)容卻非常有限 (2)機(jī)器人搜索引擎 搜索引擎機(jī)器人(robots), 或者說是爬行程序(crawlers)、蜘蛛程序(spiders)。 機(jī)器人(robots)事實上是一個精心設(shè)計的網(wǎng)站爬行程序,依照網(wǎng)站的連接從一個網(wǎng)站游歷到另一個網(wǎng)站。根據(jù)這種自動化程序,基于預(yù)先設(shè)計 好的網(wǎng)站排名標(biāo)準(zhǔn)及算法,對網(wǎng)站進(jìn)行評估排名。 查全率,精確率 (3)“混合型”搜索引擎 提供分類瀏覽檢索和關(guān)鍵詞檢索兩種途徑.目前,大多數(shù)引擎都采用這種方式。 3.2按支持的語言進(jìn)行分類 目前國內(nèi)用戶使用的搜索引擎主要有兩類:即英文引擎和中文引擎。 常用的英文搜索引擎包括google、Yahoo!、MSN、Infoseek等。 常用的中文搜索引擎主要有:中文google、一搜、3721、百度、中搜、搜狐搜狗、網(wǎng)易等。 傳統(tǒng)中文引擎所采用的技術(shù): 中文分詞技術(shù); 索引技術(shù); 繁簡轉(zhuǎn)換; 關(guān)鍵詞加亮; 熱詞提??; 詞頻分析; 新詞發(fā)現(xiàn); 更新頻率; 新一代中文搜索引擎的技術(shù)特點: 海量級數(shù)據(jù)的精確搜索; 智能信息處理—基于語義理解的文本挖掘技術(shù); 3.3垂直搜索引擎和普通的網(wǎng)頁搜索引擎 垂直搜索是針對某一個行業(yè)的專業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是對網(wǎng)頁庫中的某類專門的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶。 垂直搜索引擎和普通的網(wǎng)頁搜索引擎的最大區(qū)別是對網(wǎng)頁信息進(jìn)行了結(jié)構(gòu)化信息抽取,也就是將網(wǎng)頁的非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù),好比網(wǎng)頁搜索是以網(wǎng)頁為最小單位,基于視覺的網(wǎng)頁塊分析是以網(wǎng)頁塊為最小單位,而垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為最小單位。然后將這些數(shù)據(jù)存儲到數(shù)據(jù)庫,進(jìn)行進(jìn)一步的加工處理,如:去重、分類等,最后分詞、索引再以搜索的方式滿足用戶的需求。 整個過程中,數(shù)據(jù)由非結(jié)構(gòu)化數(shù)據(jù)抽取成結(jié)構(gòu)化數(shù)據(jù),經(jīng)過深度加工處理后以非結(jié)構(gòu)化的方式和結(jié)構(gòu)化的方式返回給用戶。 垂直搜索引擎的應(yīng)用方向很多,比如企業(yè)庫搜索、供求信息搜索引擎、購物搜索、房產(chǎn)搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索… …幾乎各行各業(yè)各類信息都可以進(jìn)一步細(xì)化成各類的垂直搜索引擎。 舉個例子來說明會更容易理解,比如購物搜索引擎,整體流程大致如下:抓取網(wǎng)頁后,對網(wǎng)頁商品信息進(jìn)行抽取,抽取出商品名稱、價格、簡介……甚至可以進(jìn)一步將筆記本簡介細(xì)分成“品牌、型號、CPU、內(nèi)存、硬盤、顯示屏、……”然后對信息進(jìn)行清洗、去重、分類、分析比較、數(shù)據(jù)挖掘,最后通過分詞索引提供用戶搜索、通過分析挖掘提供市場行情報告。 垂直搜索引擎大體上需要以下技術(shù): 網(wǎng)頁結(jié)構(gòu)化信息抽取技術(shù)或元數(shù)據(jù)采集技術(shù) 分詞、索引 其他信息處理技術(shù) 垂直搜索引擎是相對通用搜索引擎的信息量大、查詢不準(zhǔn)確、深度不夠等提出來的新的搜索引擎服務(wù)模式,通過針對某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價值的信息和相關(guān)服務(wù)。其特點就是“專、精、深”,且具有行業(yè)色彩,相比較通用搜索引擎的海量信息無序化,垂直搜索引擎則顯得更加專注、具體和深入。 4.主流中文搜索引擎簡介 4.1、Google簡介 http://www.google.com Google的成功得益于其強(qiáng)大的功能和獨到的特點: Google檢索網(wǎng)頁數(shù)量達(dá)24億,搜索引擎中排名第一; Google支持多達(dá)132種語言,包括簡體中文和繁體中文; Google網(wǎng)站只提供搜索引擎功能,沒有花里胡哨的累贅; Google速度極快,年初時據(jù)說有15000多臺服務(wù)器,200多條T3級寬帶; Google的專利網(wǎng)頁級別技術(shù)PageRank能夠提供準(zhǔn)確率極高的搜索結(jié)果; Google智能化的“手氣不錯”功能,提供可能最符合要求的網(wǎng)站; Google的“網(wǎng)頁快照”功能,能從Google服務(wù)器里直接取出緩存的網(wǎng)頁。 Google具有獨到的圖片搜索功能; Google具有強(qiáng)大的新聞組搜索功能; Google具有二進(jìn)制文件搜索功能(PDF,DOC,SWF等); Google還有很多尚在開發(fā)階段的令人吃驚的設(shè)想和功能。 4.2、百度搜索 http://www.baidu.com 百度搜索引擎擁有目前世界上最大的中文搜索引擎,總量超過3億頁以上,并且還在保持快速的增長。百度搜索引擎具有高準(zhǔn)確性、高查全率、更新快以及服務(wù)穩(wěn)定的特點 4.3、雅虎中國 http://www. 雅虎在全球共有24個網(wǎng)站,12種語言版本,其中雅虎中國網(wǎng)站(www.)于1999年9月正式開通,它是雅虎在全球的第20個網(wǎng)站。 Yahoo!目錄是一個Web資源的導(dǎo)航指南,包括14個主題大類的內(nèi)容 支持中國用戶完成包括英文在內(nèi)的38種語言搜索 4.4、中國搜索 http://www./ 中國搜索(原慧聰搜索)2002年正式進(jìn)入中文搜索引擎市場,2003年8月24日慧聰搜索(現(xiàn)中國搜索)正式推出第三代智能中文搜索引擎.特點: 海量數(shù)據(jù):超過2億網(wǎng)頁的中文信息庫。 高速響應(yīng):檢索平均響應(yīng)時間不超過0.2秒,支持500次/秒高迸發(fā)量。 智能排序:非唯一主導(dǎo)因素的高級人工排序 行業(yè)分類:43個行業(yè)的分類,使搜索更加精準(zhǔn) 具備第三代智能中文搜索引擎的特點 4.5、搜狗搜索 http://www.sogou.com/ 搜狗是搜狐公司于2004年8月3日推出的完全自主技術(shù)開發(fā)的全球首個第三代互動式中文搜索引擎,是一個具有獨立域名的專業(yè)搜索網(wǎng)站--“搜狗”。以一種人工智能的新算法,分析和理解用戶可能的查詢意圖,給予多個主題的“搜索提示”,在用戶查詢和搜索引擎返回結(jié)果的人機(jī)交互過程中,引導(dǎo)用戶更快速準(zhǔn)確定位自己所關(guān)注的內(nèi)容,幫助用戶快速找到相關(guān)搜索結(jié)果,并可在用戶搜索沖浪時,給與用戶未曾意識到的主題提示。 搜狗搜索引擎的三大特點: 海量:全球首個網(wǎng)頁收錄量達(dá)到100億的中文搜索引擎 及時:每天更新5億網(wǎng)頁,最新資訊最快1分鐘即可被檢索到 4.6、奇虎社區(qū)搜索引擎 http://www.qihoo.com/ 特點: 奇虎社區(qū)搜索引擎是具備Web2.0特征的垂直搜索引擎 專著于社區(qū)搜索,增強(qiáng)與網(wǎng)民的互動,強(qiáng)調(diào)個性化搜索。 4.7、網(wǎng)易搜索引擎 (http://search.163.com/) 特點: 開放式目錄管理系統(tǒng)(ODP) 擁有超過一萬個類目,超過25萬條活躍站點信息, 日增加新站點信息500~1000條,日訪問量超過500萬次 4.8、北京大學(xué)天網(wǎng)中英文搜索引擎 http://e.pku.edu.cn/ 收錄 135 萬網(wǎng)頁和 9 萬新聞組文章, 支持電子郵件查詢。 無分類查詢。 不支持?jǐn)?shù)字關(guān)鍵詞和URL名檢索。 4.9、Openfind搜索引擎 http://www. Openfind創(chuàng)立于1998年1月,其技術(shù)源自臺灣中正大學(xué)吳升教授所領(lǐng)導(dǎo)的GAIS實驗室。Openfind起先只做中文搜索引擎,鼎盛時期同時為三大著名門戶新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市場逐漸被Baidu和Google瓜分。2002年6月,Openfind重新發(fā)布基于GAIS30 Project的Openfind搜索引擎Beta版,特點: 海量數(shù)據(jù):宣布累計抓取網(wǎng)頁35億, 多元排序(PolyRankTM):使用者用可以不同標(biāo)準(zhǔn)來排序查詢結(jié)果 |
|