互聯(lián)網(wǎng)上除一般網(wǎng)頁外,還如PDF,DOC,RTF,xls,PPT(S)等的文檔文件,雖然這些文件不象 HTM文件那樣多,但這些文件通常會包含一些別處沒有的重要資料,因此具有獨特的價值和吸引力!所以對網(wǎng)絡(luò)中這部分資源的挖掘和利用也是搜索引擎的一個重要功能.對網(wǎng)絡(luò)的這部分資源的挖掘和分析的水平也成了衡量一個搜索引擎完整與否,成熟與否的重要指標.多文檔搜索是高級搜索的重要內(nèi)容,與其他高級搜索功能一起,構(gòu)成高級搜索功能體系.
我們就一些搜索案例的比較來給大家展示一些網(wǎng)絡(luò)文檔搜索的技巧,并對主要提供文檔搜索的搜索引擎百度和google做一比較,這些比較和方法也許會對你進一步準確獲得你想要的信息有幫助!
主要比較文檔數(shù)量,語法使用的靈活性,準確性,多語法混合使用等等
數(shù)據(jù) Query
|
參比引擎
|
百度
|
Google
|
filetype:doc 搜索引擎
|
1050
|
743
|
filetype:doc 計算語言學
|
546
|
214
|
filetype:doc 計算機檢索
|
17700
|
6080
|
filetype:ppt課件
|
13900
|
1480
|
filetype:ppt 軟件開發(fā)模型
|
560
|
697
|
919000
|
697
|
filetype:pdf xml高級編程
|
55
|
116但是匹配的質(zhì)量很差,由各自不同的分次特點決定的。
|
filetype:pdf 服務器安全
|
17800
|
6240
|
filetype:xls 報名
|
9940
|
1890
|
filetype:xls 名單
|
32300
|
3000
|
表1 文檔數(shù)量比較
性能 功能
|
參比引擎
|
百度
|
Google
|
靈活性
|
支持三種方式查詢 1 filetype:格式 關(guān)鍵詞 2 關(guān)鍵詞filetype:格式 3 在高級搜索里選擇
|
支持三種方式查詢 1 filetype:格式 關(guān)鍵詞 2關(guān)鍵詞 filetype:格式 3 在高級搜索里選擇
|
準確性 整體上講根網(wǎng)頁搜索的效果差不多 ,由于各自分詞的特點不同,所以對中文語義的理解上就會出現(xiàn)差異,所以在結(jié)果的數(shù)量并不是全部,但是對大多數(shù)關(guān)鍵詞來說,百度的結(jié)果還是比較符合搜索目標的,而個別google的搜索結(jié)果就不太能令人滿意。這也是由于google的強行前臺分詞造成的,結(jié)果數(shù)量多,并不精準。對于文檔搜索來說準確恰當才是最重要的,數(shù)量只是其次。
|
多語法混用
|
一般的邏輯搜索:+ - | 均能很好的支持 filetype:doc 演講稿 吳敬璉 filetype:doc 演講稿 - 教師 filetype:doc 演講稿 | 演講
|
其他高級搜索指令: 吳敬璉 filetype:doc site:pku.edu.cn 歷史 filetype:doc inurl:org 經(jīng)濟 filetype:doc inurl:title 目前網(wǎng)絡(luò)上很少有中文文件夾所以這樣的檢索也是沒有意義的。
|
其他支持
|
1 支持對所有文檔類型的搜索,filetype:all 2 支持把原來文檔轉(zhuǎn)換成html格式文檔瀏覽 3 不支持對更多文檔類型的擴展,但是可以在mp3搜索中選擇flash類型搜索,但是百度支持在網(wǎng)頁搜索中輸入“mp3:劉德華”“flash:小兵”來搜索歌曲
|
1 不支持對所有文檔類型的搜索, 2 支持把原來文檔轉(zhuǎn)換成html格式文檔瀏覽 3支持對更多文檔類型的擴展,如swf/xml 目前google還不支持更多
|
|
|
|
|
表2其他參數(shù)比較
一搜也提供文檔搜索,目前支持的文件類型不多,文檔的數(shù)量也不夠(或者可檢出的數(shù)量不夠),而且使用習慣與其他的不同(google,altavista,alltheweb等)所以不列入比較范圍。
總體評價,百度多文檔搜索無論從搜索的質(zhì)量和數(shù)量都是要與google相當,甚至超出google,說明,中文搜索引擎在應用的深層次挖掘上已經(jīng)不再落后于外來服務商。
我們有理由相信百度會提供更多更好的功能!