heritrix設(shè)置取消robots.txt限制

復(fù)雜網(wǎng)絡(luò)621 2013-11-22

展開全文

robots.txt是一種專門用于搜索引擎網(wǎng)絡(luò)爬蟲的文件，當(dāng)構(gòu)造一個網(wǎng)站時，如果作者希望該網(wǎng)站的內(nèi)容被搜索引擎收錄，就可以再網(wǎng)站中創(chuàng)建一個純文本文件robots.txt，在這個文件中，可聲明該網(wǎng)站不想被robot訪問的部分。這樣，該網(wǎng)站的部分或全部內(nèi)容就可以不被搜索引擎收錄了，或者指定搜索引擎只收錄指定的內(nèi)容。

Heritrix在其說明文檔中，表明它是一個完全遵守robots.txt協(xié)議的網(wǎng)絡(luò)爬蟲。但是，在實際的網(wǎng)頁采集過程中，因為部分網(wǎng)站并不會設(shè)置一個robots.txt文件供搜索引擎讀取，這樣會導(dǎo)致Heritrix花費(fèi)大量時間重復(fù)多次嘗試訪問該文件，這無疑降低了爬蟲抓取效率。因此，為了提高抓取效率，Heritrix同時提供配置，支持忽略robots.txt。

【環(huán)境平臺@Dearggae】

操作系統(tǒng) WIN7

Eclipse Juno Service Release 1

Heritrix 1.14.4

【配置方法@Dearggae】

在正確配置基礎(chǔ)上，定位Settings->crawl-order->robots-honoring-policy->type，打開下拉菜單，

選中ignore，提交即可。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：復(fù)雜網(wǎng)絡(luò)621 > 《Heritrix》

舉報/認(rèn)領(lǐng)