一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

Heritrix源碼分析(一) 包介紹 - 真人假天下 - JavaEye技術(shù)網(wǎng)站

 tianweibin 2010-09-14

Heritrix源碼分析(一) 包介紹

文章分類(lèi):互聯(lián)網(wǎng)
本博客屬原創(chuàng)文章,歡迎轉(zhuǎn)載!但轉(zhuǎn)載請(qǐng)務(wù)必注明出處:http://guoyunsky./blog/613249

    之前說(shuō)過(guò)要分享下我的爬蟲(chóng)經(jīng)驗(yàn),但一直找不到突破口,現(xiàn)在才感覺(jué)寫(xiě)點(diǎn)東西真的很難,所以大家真的要感謝那些無(wú)私的前輩們,在網(wǎng)上留下的一篇篇可以指點(diǎn)迷津的文章。
想了很久,還是先從Heritrix的包開(kāi)始說(shuō)起,然后再說(shuō)類(lèi),最后講下如何加工Heritrix,也就是將其打造成自己想要的爬蟲(chóng),這里補(bǔ)充下,我用的版本是1.14.3.
    同時(shí)歡迎加入我建的Heritrix爬蟲(chóng)群一起討論學(xué)習(xí): 10447185
   
序號(hào) 包名                                   說(shuō)明
1   org.apache.commons.httpclient     封裝了apache的httpclient用于Fetch網(wǎng)頁(yè)內(nèi)容
2 org.apache.commons.httpclient.cookie 封裝了apache的httpclient用于Fetch網(wǎng)頁(yè)內(nèi)容,這里主要處理Cookie
3 org.apache.commons.pool.impl 封裝了apache的httpclient用于Fetch網(wǎng)頁(yè)內(nèi)容,還待研究
4 org.archive.crawler Heritrix程序運(yùn)行的入口包,如Heritrix運(yùn)行可以直接抓取
5 org.archive.crawler.admin Heritrix的管理包,比如CrawlJob表示一個(gè)抓取任務(wù)job,CrawlJobHandler管理JOB,以及日志統(tǒng)計(jì)等
6 org.archive.crawler.admin.ui 服務(wù)于UI管理界面,如Job參數(shù)的設(shè)置
7 org.archive.crawler.datamodel Heritrix的數(shù)據(jù)模型包,如在Heritrix中代表一個(gè)URL的CandidateURI
8 org.archive.crawler.datamodel.credential 管理Heritrix數(shù)據(jù)模型中的憑證,如抓取某些網(wǎng)站需要用戶(hù)名和密碼
9 org.archive.crawler.deciderules Heritrix的規(guī)則包,如決定哪些URL可以抓取可以調(diào)度
10 org.archive.crawler.deciderules.recrawl 還待研究,應(yīng)該是決定哪些URL需要重新抓取
11 org.archive.crawler.event 事件管理,如Heritrix的暫停、重啟、停止等
12 org.archive.crawler.extractor Heritrix的造血器,通過(guò)它抽取新的URL再次進(jìn)行抓取
13 org.archive.crawler.fetcher Heritrix的獲取包,如獲取HTTP、DNS、FTP數(shù)據(jù)
14 org.archive.crawler.filter Heritrix的過(guò)濾器,如配合Rule過(guò)濾一些不要的URL
15 org.archive.crawler.framework Heritrix的框架包,存放一些核心類(lèi),一般是父類(lèi),如Heritrix控制類(lèi)CrawlController;調(diào)度器類(lèi)Frontier
16 org.archive.crawler.framework.exceptions Heritrix框架異常包,通常這里的異常拋出會(huì)導(dǎo)致Heritrix的停止
17 org.archive.crawler.frontier Heritrix的調(diào)度器,決定抓取哪個(gè)URL
18 org.archive.crawler.io Heritrix的IO格式包,感覺(jué)取名不合理,這里只是定義一些格式,如統(tǒng)計(jì)數(shù)據(jù)的格式,錯(cuò)誤日志的格式
19 org.archive.crawler.postprocessor 輔助處理器包,感覺(jué)取名也不合理,這里只是對(duì)處理URL前后進(jìn)行一些處理,如URL重定向
20 org.archive.crawler.prefetch Heritrix的預(yù)處理器包,如確定一個(gè)URL是否已經(jīng)解析了DNS
21 org.archive.crawler.processor 還沒(méi)接觸到,待研究
22 org.archive.crawler.processor.recrawl 還沒(méi)接觸到,待研究
23 org.archive.crawler.scope Heritrix抓取范圍管理,如種子
24 org.archive.crawler.selftest 管理Heritrix的Web工程self.war
25 org.archive.crawler.settings 管理Heritrix配置文件order.xml中的各項(xiàng)配置
26 org.archive.crawler.settings.refinements 管理Heritrix自己對(duì)數(shù)據(jù)格式的標(biāo)準(zhǔn),如時(shí)間格式
27 org.archive.crawler.url 還沒(méi)怎么接觸到,待研究
28 org.archive.crawler.url.canonicalize Heritrix的URL規(guī)范化,用于規(guī)范每一個(gè)URL
29 org.archive.crawler.util Heritrix用于抓取的工具包,如BDB操作工具,IO操作工具
30 org.archive.crawler.writer Heritrix的下載包,用于將抓取的URL內(nèi)容寫(xiě)入硬盤(pán)
31 org.archive.extractor 還沒(méi)接觸到,待研究
32 org.archive.httpclient Heritrix為結(jié)合httpclient量身打造的包,讓自身更好的獲取網(wǎng)頁(yè)內(nèi)容
33 org.archive.io Heritrix的IO包,自己封裝的一些IO操作類(lèi)
34 org.archive.io.arc 針對(duì)arc格式的IO操作包
35 org.archive.io.warc 針對(duì)warc格式的IO操作包
36 org.archive.net Heritrix擴(kuò)展了java.net的包,主要擴(kuò)展java.net.URI類(lèi)
37 org.archive.net.md5 Heritrix對(duì)URL MD5加密包,所用不多,待研究
38 org.archive.net.rsync 還沒(méi)接觸到,待研究
39 org.archive.net.s3 還沒(méi)接觸到,待研究
40 org.archive.queue 還沒(méi)接觸到,待研究
41 org.archive.uid Heritrix ID管理,主要針對(duì)URI
42 org.archive.util 整個(gè)Heritrix的工具類(lèi)
43 org.archive.util.anvl 還沒(méi)接觸到,待研究
44 org.archive.util.bdbje Heritrix對(duì)BDB的封裝
45 org.archive.util.fingerprint 還沒(méi)接觸到,待研究
46 org.archive.util.iterator Heritrix自身封裝的迭代器
47 org.archive.util.ms 還沒(méi)接觸到,待研究
48 st.ata.util 擴(kuò)展的其他包,待研究            


Heritrix自己的包有48個(gè)之多,還有它導(dǎo)入的第三方包也有30多個(gè),可見(jiàn)其復(fù)雜性...

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多

    91蜜臀精品一区二区三区| 久久热九九这里只有精品| 亚洲精品国产精品日韩| 欧美小黄片在线一级观看| 91一区国产中文字幕| 在线中文字幕亚洲欧美一区 | 激情爱爱一区二区三区| 国产成人精品一区二三区在线观看| 亚洲中文字幕亲近伦片| 欧美日韩国产综合特黄| 国产亚洲视频香蕉一区| 少妇熟女亚洲色图av天堂| 在线日韩欧美国产自拍| 久久久免费精品人妻一区二区三区 | 女人精品内射国产99| 亚洲高清欧美中文字幕| 国产黑人一区二区三区| 九九视频通过这里有精品| 国产精品自拍杆香蕉视频| 亚洲中文在线男人的天堂| 好吊视频一区二区在线| 老司机精品国产在线视频| 黄色国产精品一区二区三区| 麻豆在线观看一区二区| 中文字幕乱码亚洲三区| 久久久精品日韩欧美丰满| 国产亚洲午夜高清国产拍精品| 国产精品欧美激情在线| 婷婷色香五月综合激激情| 国产精品久久精品毛片| 日本深夜福利视频在线| 国产一级内片内射免费看| 亚洲中文字幕在线观看黑人| 日本精品理论在线观看| 国产一级不卡视频在线观看| 欧美一本在线免费观看| 开心五月激情综合婷婷色| 扒开腿狂躁女人爽出白浆av | 亚洲午夜福利不卡片在线 | 欧美夫妻性生活一区二区| 日韩av生活片一区二区三区|