序號(hào) |
包名 |
說(shuō)明
|
1 |
org.apache.commons.httpclient |
封裝了apache的httpclient用于Fetch網(wǎng)頁(yè)內(nèi)容
|
2 |
org.apache.commons.httpclient.cookie |
封裝了apache的httpclient用于Fetch網(wǎng)頁(yè)內(nèi)容,這里主要處理Cookie
|
3 |
org.apache.commons.pool.impl |
封裝了apache的httpclient用于Fetch網(wǎng)頁(yè)內(nèi)容,還待研究
|
4 |
org.archive.crawler |
Heritrix程序運(yùn)行的入口包,如Heritrix運(yùn)行可以直接抓取
|
5 |
org.archive.crawler.admin |
Heritrix的管理包,比如CrawlJob表示一個(gè)抓取任務(wù)job,CrawlJobHandler管理JOB,以及日志統(tǒng)計(jì)等
|
6 |
org.archive.crawler.admin.ui |
服務(wù)于UI管理界面,如Job參數(shù)的設(shè)置
|
7 |
org.archive.crawler.datamodel |
Heritrix的數(shù)據(jù)模型包,如在Heritrix中代表一個(gè)URL的CandidateURI
|
8 |
org.archive.crawler.datamodel.credential |
管理Heritrix數(shù)據(jù)模型中的憑證,如抓取某些網(wǎng)站需要用戶(hù)名和密碼
|
9 |
org.archive.crawler.deciderules |
Heritrix的規(guī)則包,如決定哪些URL可以抓取可以調(diào)度
|
10 |
org.archive.crawler.deciderules.recrawl |
還待研究,應(yīng)該是決定哪些URL需要重新抓取
|
11 |
org.archive.crawler.event |
事件管理,如Heritrix的暫停、重啟、停止等
|
12 |
org.archive.crawler.extractor |
Heritrix的造血器,通過(guò)它抽取新的URL再次進(jìn)行抓取
|
13 |
org.archive.crawler.fetcher |
Heritrix的獲取包,如獲取HTTP、DNS、FTP數(shù)據(jù)
|
14 |
org.archive.crawler.filter |
Heritrix的過(guò)濾器,如配合Rule過(guò)濾一些不要的URL
|
15 |
org.archive.crawler.framework |
Heritrix的框架包,存放一些核心類(lèi),一般是父類(lèi),如Heritrix控制類(lèi)CrawlController;調(diào)度器類(lèi)Frontier
|
16 |
org.archive.crawler.framework.exceptions |
Heritrix框架異常包,通常這里的異常拋出會(huì)導(dǎo)致Heritrix的停止
|
17 |
org.archive.crawler.frontier |
Heritrix的調(diào)度器,決定抓取哪個(gè)URL
|
18 |
org.archive.crawler.io |
Heritrix的IO格式包,感覺(jué)取名不合理,這里只是定義一些格式,如統(tǒng)計(jì)數(shù)據(jù)的格式,錯(cuò)誤日志的格式
|
19 |
org.archive.crawler.postprocessor |
輔助處理器包,感覺(jué)取名也不合理,這里只是對(duì)處理URL前后進(jìn)行一些處理,如URL重定向
|
20 |
org.archive.crawler.prefetch |
Heritrix的預(yù)處理器包,如確定一個(gè)URL是否已經(jīng)解析了DNS
|
21 |
org.archive.crawler.processor |
還沒(méi)接觸到,待研究
|
22 |
org.archive.crawler.processor.recrawl |
還沒(méi)接觸到,待研究
|
23 |
org.archive.crawler.scope |
Heritrix抓取范圍管理,如種子
|
24 |
org.archive.crawler.selftest |
管理Heritrix的Web工程self.war
|
25 |
org.archive.crawler.settings |
管理Heritrix配置文件order.xml中的各項(xiàng)配置
|
26 |
org.archive.crawler.settings.refinements |
管理Heritrix自己對(duì)數(shù)據(jù)格式的標(biāo)準(zhǔn),如時(shí)間格式
|
27 |
org.archive.crawler.url |
還沒(méi)怎么接觸到,待研究
|
28 |
org.archive.crawler.url.canonicalize |
Heritrix的URL規(guī)范化,用于規(guī)范每一個(gè)URL
|
29 |
org.archive.crawler.util |
Heritrix用于抓取的工具包,如BDB操作工具,IO操作工具
|
30 |
org.archive.crawler.writer |
Heritrix的下載包,用于將抓取的URL內(nèi)容寫(xiě)入硬盤(pán)
|
31 |
org.archive.extractor |
還沒(méi)接觸到,待研究
|
32 |
org.archive.httpclient |
Heritrix為結(jié)合httpclient量身打造的包,讓自身更好的獲取網(wǎng)頁(yè)內(nèi)容
|
33 |
org.archive.io |
Heritrix的IO包,自己封裝的一些IO操作類(lèi)
|
34 |
org.archive.io.arc |
針對(duì)arc格式的IO操作包
|
35 |
org.archive.io.warc |
針對(duì)warc格式的IO操作包
|
36 |
org.archive.net |
Heritrix擴(kuò)展了java.net的包,主要擴(kuò)展java.net.URI類(lèi)
|
37 |
org.archive.net.md5 |
Heritrix對(duì)URL MD5加密包,所用不多,待研究
|
38 |
org.archive.net.rsync |
還沒(méi)接觸到,待研究
|
39 |
org.archive.net.s3 |
還沒(méi)接觸到,待研究
|
40 |
org.archive.queue |
還沒(méi)接觸到,待研究
|
41 |
org.archive.uid |
Heritrix ID管理,主要針對(duì)URI
|
42 |
org.archive.util |
整個(gè)Heritrix的工具類(lèi)
|
43 |
org.archive.util.anvl |
還沒(méi)接觸到,待研究
|
44 |
org.archive.util.bdbje |
Heritrix對(duì)BDB的封裝
|
45 |
org.archive.util.fingerprint |
還沒(méi)接觸到,待研究
|
46 |
org.archive.util.iterator |
Heritrix自身封裝的迭代器
|
47 |
org.archive.util.ms |
還沒(méi)接觸到,待研究
|
48 |
st.ata.util |
擴(kuò)展的其他包,待研究 |