robots.txt是一種專門用于搜索引擎網(wǎng)絡(luò)爬蟲的文件,當(dāng)構(gòu)造一個網(wǎng)站時,如果作者希望該網(wǎng)站的內(nèi)容被搜索引擎收錄,就可以再網(wǎng)站中創(chuàng)建一個純文本文件robots.txt,在這個文件中,可聲明該網(wǎng)站不想被robot訪問的部分。這樣,該網(wǎng)站的部分或全部內(nèi)容就可以不被搜索引擎收錄了,或者指定搜索引擎只收錄指定的內(nèi)容。 Heritrix在其說明文檔中,表明它是一個完全遵守robots.txt協(xié)議的網(wǎng)絡(luò)爬蟲。但是,在實際的網(wǎng)頁采集過程中,因為部分網(wǎng)站并不會設(shè)置一個robots.txt文件供搜索引擎讀取,這樣會導(dǎo)致Heritrix花費(fèi)大量時間重復(fù)多次嘗試訪問該文件,這無疑降低了爬蟲抓取效率。因此,為了提高抓取效率,Heritrix同時提供配置,支持忽略robots.txt。 【環(huán)境平臺@Dearggae】 操作系統(tǒng) WIN7 Eclipse Juno Service Release 1 Heritrix 1.14.4 【配置方法@Dearggae】 在正確配置基礎(chǔ)上,定位Settings->crawl-order->robots-honoring-policy->type,打開下拉菜單, 選中ignore,提交即可。 |
|