一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

<menu id="kwqmy"><delect id="kwqmy"><label id="kwqmy"></label></delect></menu>

搜索

分享

QQ空間 QQ好友新浪微博微信

Heritrix源碼分析(四) 各個類說明(一) -

pengx 2010-08-14

展開全文

Heritrix的類的確很繁瑣,往往繼承了一層又一層,最多的繼承好像有7層。下面就一個包一個包的說明每個類的作用，由于里面Heritrix組件分明，很多組件沒用到的同時該組件的類我也沒怎么接觸,所以這里會忽略一部分，如果有知道的請補充，謝謝！如果對包還有不熟悉的,可以查看我前面的文章,這里也給出鏈接http://guoyunsky./admin/blogs/613249

1.org.archive.crawler
序號	類	說明
1	CommandLineParser	Heritrix也可以通過CMD命令進(jìn)行操作,該類用于解析CMD命令
2	Heritrix	Heritrix主類,可以通過該類啟動Heritrix
3	SimpleHttpServer	Heritrix Web服務(wù)器,可以通過Web管理Heritrix
4	WebappLifecycle	封裝Servlet,如此才可以通過Web啟動Heritrix,里面裝載Heritrix對象

2.org.archive.crawler.admin
序號	類	說明
1	CrawlJob	Heritrix的核心類,代表著一個抓取任務(wù),order.xml中大部分屬性都圍繞其配置,以后會著重說明
2	CrawlJobErrorHandler	維護(hù)者一個抓取任務(wù)(CrawlJob)的錯誤日志,UI中顯示的JOB錯誤就來自于它
3	CrawlJobHandler	抓取任務(wù)處理器,Heritrix可以有多個抓取任務(wù),都由它進(jìn)行管理
4	InvalidJobFileException	抓取任務(wù)文件異常,意義不大
5	SeedRecord	記錄種子的處理記錄,如該種子重定向到哪個URL,在seeds.txt里面會有說明，該重定向值就來源于它
6	StatisticsSummary	統(tǒng)計摘要類，所用不多
7	StatisticsTracker	Heritrix核心類，統(tǒng)計跟蹤器,貫穿整個Heritrix的運行,如統(tǒng)計抓取了多少URL，以后會著重說明

3.org.archive.crawler.admin.ui
序號	類	說明
1	CookieUtils	Cookie工具類,主要用于訪問Cookie
2	JobConfigureUtils	CrawlJob配置管理工具類,當(dāng)你通過Web Ui去配置一個CrawlJob時就會用到這個類
3	RootFilter	不熟

4.org.archive.crawler.datamodel
序號	類	說明
1	CandidateURI	Heritrix的核心類,代表著一個URL,貫穿整個抓取,與CrawlURI的區(qū)別是它還沒有通過調(diào)度器(Frontier)，只有通過了調(diào)度器的URL才可能去獲取網(wǎng)頁內(nèi)容區(qū)下載等，以后會著重說明
2	CandidateURITest	CandidateURI的測試類,比如可以用它獲知如何創(chuàng)建CanditeURI
3	Checkpoint	Heritrix會定期備份它的數(shù)據(jù),如日志、正在獲取的URL內(nèi)容，都是在底層定時運行,當(dāng)Heritrix異常中斷可以通過它來恢復(fù).也類似于各個數(shù)據(jù)庫的Ckeckpoint
4	CoreAttributeConstants	裝載著Heritrix的基本屬性變量名,一般是對應(yīng)order.xml中的標(biāo)簽名
5	CrawlHost	Heiritrix的核心類,代表著一個Host，里面主要包含域名、IP。由于Heritrix可以控制抓取速度，如對一個Host的抓取速度,這個類就代表著那個Host.以后會著重說明
6	CrawlOrder	Heritrix的核心類,基本上對應(yīng)著order.xml的各個屬性值,除了各個組件的詳細(xì)屬性，以后會著重說明
7	CrawlServer	Heritrix的核心類,也對應(yīng)著一個Host,里面裝載著一個Host的各種Heritrix數(shù)據(jù),如統(tǒng)計信息、爬蟲協(xié)議
8	CrawlSubstats	抓取統(tǒng)計類,主要統(tǒng)計抓取Url的個數(shù)、成功的個數(shù)、下載的字節(jié)數(shù)等等
9	CrawlURI	CandidateURI的子類,主要比CaidiateURI多了網(wǎng)頁內(nèi)容指紋、所屬隊列、組件處理器等
10	CredentialStore	憑證存儲類，負(fù)責(zé)存儲各種憑證,如登陸
11	FetchStatusCodes	抓取狀態(tài),有不同的屬性代表不同的抓取狀態(tài),如DNS獲取成功：S_DNS_SUCCESS
12	RobotsHonoringPolicy	爬蟲協(xié)議,代表著不同的抓取策略
13	Robotstxt	爬蟲協(xié)議,用于解析robots.txt
14	ServerCache	服務(wù)器緩存,主要緩存CrawlHost和CrawlServer
15	UriUniqFilter	接口,用于過濾已經(jīng)抓取過的URL

5.org.archive.crawler.datamodel.credential
序號	類	說明
1	Credential	憑證類,代表著一個憑證,從order.xml配置文件中獲取數(shù)據(jù)
2	CredentialAvatar	代表著一個具體的憑證
3	HtmlFormCredential	Credential的子類,代表著提交HTML FORM表單時所需要的憑證
4	Rfc2617Credential	Credential的子類,代表著RFC2617 HTTP 認(rèn)證憑證

6.org.archive.crawler.deciderules
序號	類	說明
1	AcceptDecideRule	URL規(guī)則,表示接受
2	ConfiguredDecideRule	URL規(guī)則，通過order.xml文件中的配置來決定是否拒絕(REJECT)或接受(ACCEPT)
3	DecideRule	URL規(guī)則的父類,審核一個URL是否接受(ACCEPT)、拒絕(REJECT)或放棄(PASS),通過decisionFor(Object object)方法,該方法由其子類實現(xiàn)
4	DecidingScope	驗證一個URL是否在范圍來決定是否接受、拒絕或放棄
5	MatchesRegExpDecideRule	通過配置的正則表達(dá)式來決定URL是否可接受、拒絕或放棄
6	NotMatchesRegExpDecideRule	MatchesRegExpDecideRule的子類,如果URL不匹配該正則則接受
7	PathologicalPathDecideRule	如果URL中相同目錄名超過配置文件中的個數(shù),則拒絕,如http://www./a/a/a/a/a其中a的個數(shù)超過一定限制則拒絕
8	PrerequisiteAcceptDecideRule	如果URL中有先決條件URL則接受,也就是該CandidateURI里的pathFromSeed屬性里含有P,表示運行該URL之前有先要運行的URL
9	RejectDecideRule	URL規(guī)則，表示拒絕
10	TooManyHopsDecideRule	如果超過配置文件中的約點數(shù)(max-hops),則拒絕

7.org.archive.crawler.event
序號	類	說明
1	CrawlStatusListener	爬蟲監(jiān)聽器,如監(jiān)聽爬蟲是否在運行，是否暫停等
2	CrawlURIDispositionListener	URL監(jiān)聽器,如監(jiān)聽URL是否失敗，是要要重新抓取等

8.org.archive.crawler.extractor
序號	類	說明
1	Extractor	所有抽取類的父類,用于從一個URL中抽取出新的URL
2	ExtractorCSS	從CSS中抽取出新的URL
3	ExtractorDOC	從DOC中抽取出新的URL
4	ExtractorHTML	從HTML中抽取出新的URL,Heritrix核心類
5	ExtractorHTTP	從HTTP中抽取出新的URL
6	ExtractorJS	從Javascript中抽取出新的URL
7	ExtractorPDF	從PDF中抽取出新的URL
8	ExtractorSWF	從SWF中抽取出新的URL
9	ExtractorXML	從XML中抽取出新的URL
10	HTTPContentDigest	網(wǎng)頁內(nèi)容文摘,實際上是通過MD5或SHA1算法將網(wǎng)頁內(nèi)容指紋化
11	Link	鏈接,代表抽取出來的URL

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： pengx > 《爬蟲相關(guān)》

舉報/認(rèn)領(lǐng)

0條評論

請遵守用戶評論公約

類似文章 更多

pengx

關(guān)注對話

TA的最新館藏

【大模型隨筆】名詞釋義：TOKEN
[轉(zhuǎn)] 帶團隊管下屬的12個“套路”，學(xué)會了，迅速提高你的管理水平！
[轉(zhuǎn)] 關(guān)于Kaggle入門，看這一篇就夠了
[轉(zhuǎn)] 系統(tǒng)集成方案
kafka查看消費了多少條數(shù)據(jù)
如何防止ElasticSearch集群出現(xiàn)腦裂現(xiàn)象

喜歡該文的人也喜歡更多

熱門閱讀換一換

视频一区二区国产精品| 亚洲av成人一区二区三区在线| 91香蕉视频精品在线看| 激情亚洲一区国产精品久久| 亚洲男人的天堂就去爱| 国产精品不卡免费视频| 久久99精品国产麻豆婷婷洗澡 | 欧美国产日产在线观看| 国产亚洲欧美自拍中文自拍| 亚洲综合激情另类专区老铁性| 欧美日本道一区二区三区| 精品国产成人av一区二区三区| 亚洲精品欧美精品一区三区| 91香蕉视频精品在线看| 亚洲国产欧美精品久久| 国产精品一区二区有码| 久久免费精品拍拍一区二区| 黄色美女日本的美女日人| 日韩18一区二区三区| 欧美一区二区三区十区| 国产一区二区三区四区免费| 福利专区久久精品午夜| 亚洲妇女黄色三级视频| 国产一级不卡视频在线观看| 女人高潮被爽到呻吟在线观看| 日本一区二区三区黄色| 亚洲国产成人精品一区刚刚| 久久99这里只精品热在线| 亚洲中文在线中文字幕91| 国产传媒欧美日韩成人精品| 中文日韩精品视频在线| 伊人欧美一区二区三区| 老司机亚洲精品一区二区| 中文字幕熟女人妻视频| 国产又大又硬又粗又黄| 91熟女大屁股偷偷对白| 精品日韩视频在线观看| 国产毛片不卡视频在线| 久久一区内射污污内射亚洲| 国产又粗又长又大的视频| 国产成人精品99在线观看|

<dl id="dhxbp"></dl>