Heritrix源碼分析(一) 包介紹 - 真人假天下 - JavaEye技術(shù)網(wǎng)站

tianweibin 2010-09-14

展開(kāi)全文

Heritrix源碼分析(一) 包介紹

文章分類(lèi):互聯(lián)網(wǎng)

本博客屬原創(chuàng)文章,歡迎轉(zhuǎn)載！但轉(zhuǎn)載請(qǐng)務(wù)必注明出處:http://guoyunsky./blog/613249

    之前說(shuō)過(guò)要分享下我的爬蟲(chóng)經(jīng)驗(yàn)，但一直找不到突破口，現(xiàn)在才感覺(jué)寫(xiě)點(diǎn)東西真的很難，所以大家真的要感謝那些無(wú)私的前輩們，在網(wǎng)上留下的一篇篇可以指點(diǎn)迷津的文章。
想了很久，還是先從Heritrix的包開(kāi)始說(shuō)起，然后再說(shuō)類(lèi)，最后講下如何加工Heritrix，也就是將其打造成自己想要的爬蟲(chóng)，這里補(bǔ)充下，我用的版本是1.14.3.
    同時(shí)歡迎加入我建的Heritrix爬蟲(chóng)群一起討論學(xué)習(xí): 10447185

序號(hào)	包名	說(shuō)明
1	org.apache.commons.httpclient	封裝了apache的httpclient用于Fetch網(wǎng)頁(yè)內(nèi)容
2	org.apache.commons.httpclient.cookie	封裝了apache的httpclient用于Fetch網(wǎng)頁(yè)內(nèi)容,這里主要處理Cookie
3	org.apache.commons.pool.impl	封裝了apache的httpclient用于Fetch網(wǎng)頁(yè)內(nèi)容,還待研究
4	org.archive.crawler	Heritrix程序運(yùn)行的入口包,如Heritrix運(yùn)行可以直接抓取
5	org.archive.crawler.admin	Heritrix的管理包,比如CrawlJob表示一個(gè)抓取任務(wù)job,CrawlJobHandler管理JOB,以及日志統(tǒng)計(jì)等
6	org.archive.crawler.admin.ui	服務(wù)于UI管理界面,如Job參數(shù)的設(shè)置
7	org.archive.crawler.datamodel	Heritrix的數(shù)據(jù)模型包,如在Heritrix中代表一個(gè)URL的CandidateURI
8	org.archive.crawler.datamodel.credential	管理Heritrix數(shù)據(jù)模型中的憑證,如抓取某些網(wǎng)站需要用戶(hù)名和密碼
9	org.archive.crawler.deciderules	Heritrix的規(guī)則包,如決定哪些URL可以抓取可以調(diào)度
10	org.archive.crawler.deciderules.recrawl	還待研究,應(yīng)該是決定哪些URL需要重新抓取
11	org.archive.crawler.event	事件管理,如Heritrix的暫停、重啟、停止等
12	org.archive.crawler.extractor	Heritrix的造血器,通過(guò)它抽取新的URL再次進(jìn)行抓取
13	org.archive.crawler.fetcher	Heritrix的獲取包,如獲取HTTP、DNS、FTP數(shù)據(jù)
14	org.archive.crawler.filter	Heritrix的過(guò)濾器,如配合Rule過(guò)濾一些不要的URL
15	org.archive.crawler.framework	Heritrix的框架包,存放一些核心類(lèi),一般是父類(lèi),如Heritrix控制類(lèi)CrawlController;調(diào)度器類(lèi)Frontier
16	org.archive.crawler.framework.exceptions	Heritrix框架異常包,通常這里的異常拋出會(huì)導(dǎo)致Heritrix的停止
17	org.archive.crawler.frontier	Heritrix的調(diào)度器,決定抓取哪個(gè)URL
18	org.archive.crawler.io	Heritrix的IO格式包,感覺(jué)取名不合理,這里只是定義一些格式,如統(tǒng)計(jì)數(shù)據(jù)的格式,錯(cuò)誤日志的格式
19	org.archive.crawler.postprocessor	輔助處理器包,感覺(jué)取名也不合理,這里只是對(duì)處理URL前后進(jìn)行一些處理,如URL重定向
20	org.archive.crawler.prefetch	Heritrix的預(yù)處理器包,如確定一個(gè)URL是否已經(jīng)解析了DNS
21	org.archive.crawler.processor	還沒(méi)接觸到,待研究
22	org.archive.crawler.processor.recrawl	還沒(méi)接觸到,待研究
23	org.archive.crawler.scope	Heritrix抓取范圍管理,如種子
24	org.archive.crawler.selftest	管理Heritrix的Web工程self.war
25	org.archive.crawler.settings	管理Heritrix配置文件order.xml中的各項(xiàng)配置
26	org.archive.crawler.settings.refinements	管理Heritrix自己對(duì)數(shù)據(jù)格式的標(biāo)準(zhǔn),如時(shí)間格式
27	org.archive.crawler.url	還沒(méi)怎么接觸到,待研究
28	org.archive.crawler.url.canonicalize	Heritrix的URL規(guī)范化,用于規(guī)范每一個(gè)URL
29	org.archive.crawler.util	Heritrix用于抓取的工具包,如BDB操作工具,IO操作工具
30	org.archive.crawler.writer	Heritrix的下載包,用于將抓取的URL內(nèi)容寫(xiě)入硬盤(pán)
31	org.archive.extractor	還沒(méi)接觸到,待研究
32	org.archive.httpclient	Heritrix為結(jié)合httpclient量身打造的包,讓自身更好的獲取網(wǎng)頁(yè)內(nèi)容
33	org.archive.io	Heritrix的IO包,自己封裝的一些IO操作類(lèi)
34	org.archive.io.arc	針對(duì)arc格式的IO操作包
35	org.archive.io.warc	針對(duì)warc格式的IO操作包
36	org.archive.net	Heritrix擴(kuò)展了java.net的包,主要擴(kuò)展java.net.URI類(lèi)
37	org.archive.net.md5	Heritrix對(duì)URL MD5加密包,所用不多,待研究
38	org.archive.net.rsync	還沒(méi)接觸到,待研究
39	org.archive.net.s3	還沒(méi)接觸到,待研究
40	org.archive.queue	還沒(méi)接觸到,待研究
41	org.archive.uid	Heritrix ID管理,主要針對(duì)URI
42	org.archive.util	整個(gè)Heritrix的工具類(lèi)
43	org.archive.util.anvl	還沒(méi)接觸到,待研究
44	org.archive.util.bdbje	Heritrix對(duì)BDB的封裝
45	org.archive.util.fingerprint	還沒(méi)接觸到,待研究
46	org.archive.util.iterator	Heritrix自身封裝的迭代器
47	org.archive.util.ms	還沒(méi)接觸到,待研究
48	st.ata.util	擴(kuò)展的其他包,待研究

Heritrix自己的包有48個(gè)之多,還有它導(dǎo)入的第三方包也有30多個(gè),可見(jiàn)其復(fù)雜性...

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： tianweibin > 《heritrix》

舉報(bào)/認(rèn)領(lǐng)