一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

Heritrix源碼分析(十) Heritrix中的Http Status Code(Ht...

 tianweibin 2010-09-14

Heritrix源碼分析(十) Heritrix中的Http Status Code(Http狀態(tài)碼)

文章分類:互聯(lián)網(wǎng)

                   本博客屬原創(chuàng)文章,歡迎轉(zhuǎn)載!轉(zhuǎn)載請務(wù)必注明出處:http://guoyunsky./blog/649737

       歡迎加入Heritrix群(QQ):10447185 

 

      以前在做Web開發(fā)的時候就接觸過一些HttpStatus Code,比如404,500.后來接觸Heritrix之后才知道HttpStatus Code竟然有如此之多。不一樣的HttpStatus Code就代表不一樣的Http狀態(tài),簡單的如成功、失敗、重定向等。Heritrix自己也根據(jù)自己的需求增加了一些,同時由于Heritrix通過HttpClient去獲取網(wǎng)絡(luò)資源,其中一部分HttpStatus Code也來源于HttpClient,接下來我會逐個介紹。

         有興趣的朋友可以看下源代碼中各個HttpStatus Code的不同應(yīng)用場合和作用,可以說貫穿了真?zhèn)€抓取,設(shè)計得相當靈活。如只想大致了解下,可以參考org.archive.crawler.datamodel.FetchStatusCodes,里面有不同的HttpStatus Code以及英文注釋。

        

序號 Heritrix屬性 Heritrix屬性值 說明
1 S_UNATTEMPTED 0 初始狀態(tài)
2 S_DNS_SUCCESS 1 DNS獲取成功
3 S_DOMAIN_UNRESOLVABLE -1 DNS獲取失敗,該狀態(tài)的URL會繼續(xù)被抓取
4 S_CONNECT_FAILED -2 連接HTTP失敗,該狀態(tài)的URL會繼續(xù)被抓取
5 S_CONNECT_LOST -3 連接HTTP掉線,該狀態(tài)的URL會繼續(xù)被抓取
6 S_TIMEOUT -4 連接HTTP超時,該狀態(tài)的URL會繼續(xù)被抓取
6 S_RUNTIME_EXCEPTION -5 運行意外,該狀態(tài)的URL會記錄在runtime-errors.log日志中
7 S_DOMAIN_PREREQUISITE_FAILURE -6 運行先決條件(也就是DNS)失敗
8 S_UNFETCHABLE_URI -7 非法的URL,URL不符合規(guī)則。Heritrix也自定義了規(guī)則去限制URL
9 S_TOO_MANY_RETRIES -8 多次嘗試都是失敗,Heritrix可以讓未成功的URL嘗試多次
10 S_DEFERRED -50 該URL準備先獲取先決條件URL(也就是DNS)
11 S_UNQUEUEABLE -60 沒有通過調(diào)度器(Frontier)
12 S_ROBOTS_PREREQUISITE_FAILURE -61 獲取DNS失敗,被爬蟲協(xié)議(robots.txt)拒絕
13 S_OTHER_PREREQUISITE_FAILURE -62 獲取DNS失敗的其他原因
14 S_PREREQUISITE_UNSCHEDULABLE_FAILURE -63 獲取DNS失敗,該Host不在范圍中(也就是用戶定義的Url抓取范圍)
15 S_GETBYNAME_SUCCESS 1001 通過URL獲取IP成功
16 S_SERIOUS_ERROR -3000 嚴重錯誤,比如內(nèi)存溢出
17 S_DEEMED_CHAFF -4000 完全無用,可忽視的URL
18 S_TOO_MANY_EMBED_HOPS -4001 超出層數(shù)限制,也就是抓取深度,這里是抽取出來的連接
19 S_TOO_MANY_EMBED_HOPS -4002 超出層數(shù)限制,也就是抓取深度,這里是嵌套的連接
20 S_OUT_OF_SCOPE -5000 URL超出范圍
21 S_BLOCKED_BY_USER -5001 被用戶拒絕,heritrix可以配置很多規(guī)則(Rule)去過濾一部分Url
22 S_BLOCKED_BY_CUSTOM_PROCESSOR -5002 在預處理模塊被阻止
23 S_BLOCKED_BY_QUOTA -5003 超過抓取成本,Heritrix可以配置抓取一個URL的成本
24 S_BLOCKED_BY_RUNTIME_LIMIT -5004 超過抓取時間,Heritrix可以配置抓取一個URL的用時
25 S_DELETED_BY_USER -6000 被用戶刪除
26 S_PROCESSING_THREAD_KILLED 7000 heritrix可以多線程抓取,用戶可以刪除線程,當前狀態(tài)就表示運行該URL的線程被刪除
27 S_ROBOTS_PRECLUDED -9998 被爬蟲協(xié)議(robots.txt)拒絕
28      
29      

       

 

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    草草视频精品在线观看| 高清亚洲精品中文字幕乱码| 亚洲中文字幕亲近伦片| 人人妻在人人看人人澡| 日本乱论一区二区三区| 日韩精品视频高清在线观看| 免费大片黄在线观看国语| 国产欧美一区二区三区精品视| 国产又猛又黄又粗又爽无遮挡| 美女黄片大全在线观看| 2019年国产最新视频| 国产精欧美一区二区三区久久| 九九热在线免费在线观看| 老熟妇乱视频一区二区| 日本人妻熟女一区二区三区| 日韩精品视频高清在线观看| 欧美中文字幕一区在线 | 九七人妻一区二区三区| 办公室丝袜高跟秘书国产| 少妇激情在线免费观看| 麻豆视传媒短视频免费观看 | 免费播放一区二区三区四区| 欧美日韩国产综合在线| 久久精品久久久精品久久| 国产黑人一区二区三区| 欧美精品女同一区二区| 男女午夜在线免费观看视频 | 亚洲人午夜精品射精日韩| 精品日韩国产高清毛片| 欧美一区日韩一区日韩一区| 欧美日韩乱一区二区三区| 欧美精品中文字幕亚洲| 日本一二三区不卡免费| 欧美精品中文字幕亚洲| 国产一区二区三区草莓av| 亚洲午夜精品视频观看| 熟女一区二区三区国产| 粉嫩国产一区二区三区在线| 国产精品涩涩成人一区二区三区 | 欧美区一区二在线播放| 国产精品成人一区二区三区夜夜夜|