一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

Scrapy--settings配置

 小豬窩969 2019-01-04
#==>第一部分:基本配置<=== #1、項(xiàng)目名稱,默認(rèn)的USER_AGENT由它來(lái)構(gòu)成,也作為日志記錄的日志名 BOT_NAME = 'Amazon' #2、爬蟲(chóng)應(yīng)用路徑 SPIDER_MODULES = ['Amazon.spiders'] NEWSPIDER_MODULE = 'Amazon.spiders' #3、客戶端User-Agent請(qǐng)求頭 #USER_AGENT = 'Amazon (+http://www.)' #4、是否遵循爬蟲(chóng)協(xié)議 # Obey robots.txt rules ROBOTSTXT_OBEY = False #5、是否支持cookie,cookiejar進(jìn)行操作cookie,默認(rèn)開(kāi)啟 #COOKIES_ENABLED = False #6、Telnet用于查看當(dāng)前爬蟲(chóng)的信息,操作爬蟲(chóng)等...使用telnet ip port ,然后通過(guò)命令操作 #TELNETCONSOLE_ENABLED = False #TELNETCONSOLE_HOST = '127.0.0.1' #TELNETCONSOLE_PORT = [6023,] #7、Scrapy發(fā)送HTTP請(qǐng)求默認(rèn)使用的請(qǐng)求頭 #DEFAULT_REQUEST_HEADERS = { # 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', # 'Accept-Language': 'en', #} #===>第二部分:并發(fā)與延遲<=== #1、下載器總共最大處理的并發(fā)請(qǐng)求數(shù),默認(rèn)值16 #CONCURRENT_REQUESTS = 32 #2、每個(gè)域名能夠被執(zhí)行的最大并發(fā)請(qǐng)求數(shù)目,默認(rèn)值8 #CONCURRENT_REQUESTS_PER_DOMAIN = 16 #3、能夠被單個(gè)IP處理的并發(fā)請(qǐng)求數(shù),默認(rèn)值0,代表無(wú)限制,需要注意兩點(diǎn) #I、如果不為零,那CONCURRENT_REQUESTS_PER_DOMAIN將被忽略,即并發(fā)數(shù)的限制是按照每個(gè)IP來(lái)計(jì)算,而不是每個(gè)域名 #II、該設(shè)置也影響DOWNLOAD_DELAY,如果該值不為零,那么DOWNLOAD_DELAY下載延遲是限制每個(gè)IP而不是每個(gè)域 #CONCURRENT_REQUESTS_PER_IP = 16 #4、如果沒(méi)有開(kāi)啟智能限速,這個(gè)值就代表一個(gè)規(guī)定死的值,代表對(duì)同一網(wǎng)址延遲請(qǐng)求的秒數(shù) #DOWNLOAD_DELAY = 3 #===>第三部分:智能限速/自動(dòng)節(jié)流:AutoThrottle extension<=== #一:介紹 from scrapy.contrib.throttle import AutoThrottle #http://scrapy./en/latest/topics/autothrottle.html#topics-autothrottle 設(shè)置目標(biāo): 1、比使用默認(rèn)的下載延遲對(duì)站點(diǎn)更好 2、自動(dòng)調(diào)整scrapy到最佳的爬取速度,所以用戶無(wú)需自己調(diào)整下載延遲到最佳狀態(tài)。用戶只需要定義允許最大并發(fā)的請(qǐng)求,剩下的事情由該擴(kuò)展組件自動(dòng)完成 #二:如何實(shí)現(xiàn)? 在Scrapy中,下載延遲是通過(guò)計(jì)算建立TCP連接到接收到HTTP包頭(header)之間的時(shí)間來(lái)測(cè)量的。 注意,由于Scrapy可能在忙著處理spider的回調(diào)函數(shù)或者無(wú)法下載,因此在合作的多任務(wù)環(huán)境下準(zhǔn)確測(cè)量這些延遲是十分苦難的。 不過(guò),這些延遲仍然是對(duì)Scrapy(甚至是服務(wù)器)繁忙程度的合理測(cè)量,而這擴(kuò)展就是以此為前提進(jìn)行編寫(xiě)的。 #三:限速算法 自動(dòng)限速算法基于以下規(guī)則調(diào)整下載延遲 #1、spiders開(kāi)始時(shí)的下載延遲是基于AUTOTHROTTLE_START_DELAY的值 #2、當(dāng)收到一個(gè)response,對(duì)目標(biāo)站點(diǎn)的下載延遲=收到響應(yīng)的延遲時(shí)間/AUTOTHROTTLE_TARGET_CONCURRENCY #3、下一次請(qǐng)求的下載延遲就被設(shè)置成:對(duì)目標(biāo)站點(diǎn)下載延遲時(shí)間和過(guò)去的下載延遲時(shí)間的平均值 #4、沒(méi)有達(dá)到200個(gè)response則不允許降低延遲 #5、下載延遲不能變的比DOWNLOAD_DELAY更低或者比AUTOTHROTTLE_MAX_DELAY更高 #四:配置使用 #開(kāi)啟True,默認(rèn)False AUTOTHROTTLE_ENABLED = True #起始的延遲 AUTOTHROTTLE_START_DELAY = 5 #最小延遲 DOWNLOAD_DELAY = 3 #最大延遲 AUTOTHROTTLE_MAX_DELAY = 10 #每秒并發(fā)請(qǐng)求數(shù)的平均值,不能高于 CONCURRENT_REQUESTS_PER_DOMAIN或CONCURRENT_REQUESTS_PER_IP,調(diào)高了則吞吐量增大強(qiáng)奸目標(biāo)站點(diǎn),調(diào)低了則對(duì)目標(biāo)站點(diǎn)更加”禮貌“ #每個(gè)特定的時(shí)間點(diǎn),scrapy并發(fā)請(qǐng)求的數(shù)目都可能高于或低于該值,這是爬蟲(chóng)視圖達(dá)到的建議值而不是硬限制 AUTOTHROTTLE_TARGET_CONCURRENCY = 16.0 #調(diào)試 AUTOTHROTTLE_DEBUG = True CONCURRENT_REQUESTS_PER_DOMAIN = 16 CONCURRENT_REQUESTS_PER_IP = 16 #===>第四部分:爬取深度與爬取方式<=== #1、爬蟲(chóng)允許的最大深度,可以通過(guò)meta查看當(dāng)前深度;0表示無(wú)深度 # DEPTH_LIMIT = 3 #2、爬取時(shí),0表示深度優(yōu)先Lifo(默認(rèn));1表示廣度優(yōu)先FiFo # 后進(jìn)先出,深度優(yōu)先 # DEPTH_PRIORITY = 0 # SCHEDULER_DISK_QUEUE = 'scrapy.squeue.PickleLifoDiskQueue' # SCHEDULER_MEMORY_QUEUE = 'scrapy.squeue.LifoMemoryQueue' # 先進(jìn)先出,廣度優(yōu)先 # DEPTH_PRIORITY = 1 # SCHEDULER_DISK_QUEUE = 'scrapy.squeue.PickleFifoDiskQueue' # SCHEDULER_MEMORY_QUEUE = 'scrapy.squeue.FifoMemoryQueue' #3、調(diào)度器隊(duì)列 # SCHEDULER = 'scrapy.core.scheduler.Scheduler' # from scrapy.core.scheduler import Scheduler #4、訪問(wèn)URL去重 # DUPEFILTER_CLASS = 'step8_king.duplication.RepeatUrl' #===>第五部分:中間件、Pipelines、擴(kuò)展<=== #1、Enable or disable spider middlewares # See http://scrapy./en/latest/topics/spider-middleware.html #SPIDER_MIDDLEWARES = { # 'Amazon.middlewares.AmazonSpiderMiddleware': 543, #} #2、Enable or disable downloader middlewares # See http://scrapy./en/latest/topics/downloader-middleware.html DOWNLOADER_MIDDLEWARES = { # 'Amazon.middlewares.DownMiddleware1': 543, #爬蟲(chóng)代理 } #3、Enable or disable extensions # See http://scrapy./en/latest/topics/extensions.html #EXTENSIONS = { # 'scrapy.extensions.telnet.TelnetConsole': None, #} #4、Configure item pipelines # See http://scrapy./en/latest/topics/item-pipeline.html ITEM_PIPELINES = { # 'Amazon.pipelines.CustomPipeline': 200, } #===>第六部分:緩存<=== """ 1. 啟用緩存 目的用于將已經(jīng)發(fā)送的請(qǐng)求或相應(yīng)緩存下來(lái),以便以后使用 from scrapy.downloadermiddlewares.httpcache import HttpCacheMiddleware from scrapy.extensions.httpcache import DummyPolicy from scrapy.extensions.httpcache import FilesystemCacheStorage """ # 是否啟用緩存策略 # HTTPCACHE_ENABLED = True # 緩存策略:所有請(qǐng)求均緩存,下次在請(qǐng)求直接訪問(wèn)原來(lái)的緩存即可 # HTTPCACHE_POLICY = "scrapy.extensions.httpcache.DummyPolicy" # 緩存策略:根據(jù)Http響應(yīng)頭:Cache-Control、Last-Modified 等進(jìn)行緩存的策略 # HTTPCACHE_POLICY = "scrapy.extensions.httpcache.RFC2616Policy" # 緩存超時(shí)時(shí)間 # HTTPCACHE_EXPIRATION_SECS = 0 # 緩存保存路徑 # HTTPCACHE_DIR = 'httpcache' # 緩存忽略的Http狀態(tài)碼 # HTTPCACHE_IGNORE_HTTP_CODES = [] # 緩存存儲(chǔ)的插件 # HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

LOG
'''
LOG_ENABLED
默認(rèn): True
是否啟用logging。
LOG_ENCODING
默認(rèn): 'utf-8'
logging使用的編碼。
LOG_FILE
默認(rèn): None
logging輸出的文件名。如果為None,則使用標(biāo)準(zhǔn)錯(cuò)誤輸出(standard error)。
LOG_LEVEL
默認(rèn): 'DEBUG'
log的最低級(jí)別。可選的級(jí)別有: CRITICAL、 ERROR、WARNING、INFO、DEBUG。更多內(nèi)容請(qǐng)查看 Logging 。
LOG_STDOUT
默認(rèn): False
如果為 True ,進(jìn)程所有的標(biāo)準(zhǔn)輸出(及錯(cuò)誤)將會(huì)被重定向到log中。例如, 執(zhí)行 print 'hello' ,其將會(huì)在Scrapy log中顯示。'''
settings.py

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    成人精品一区二区三区在线| 久久亚洲国产视频三级黄| 日韩人妻一区中文字幕| 国产人妻精品区一区二区三区| 神马午夜福利免费视频| 亚洲国产天堂av成人在线播放| 日本不卡在线一区二区三区| 亚洲av在线视频一区| 手机在线不卡国产视频| 大屁股肥臀熟女一区二区视频| 国产精品香蕉一级免费| a久久天堂国产毛片精品| 永久福利盒子日韩日韩| 日本黄色美女日本黄色| 少妇淫真视频一区二区| 国产精品二区三区免费播放心| 亚洲视频一区自拍偷拍另类 | 久久综合日韩精品免费观看| 一级欧美一级欧美在线播| 偷拍美女洗澡免费视频| 99久久国产精品免费| 国产又大又猛又粗又长又爽| 国产在线成人免费高清观看av| 91福利视频日本免费看看| 欧美尤物在线视频91| 在线视频免费看你懂的| 国产一区二区三区精品免费| 国产午夜精品亚洲精品国产| 黄片在线免费看日韩欧美| 日本黄色录像韩国黄色录像| 欧美同性视频免费观看| 白白操白白在线免费观看| 久热青青草视频在线观看| 年轻女房东2中文字幕| 成人你懂的在线免费视频| 日韩成人中文字幕在线一区| 国产一级二级三级观看| 麻豆国产精品一区二区三区| 成人午夜在线视频观看| 成人三级视频在线观看不卡| 在线视频免费看你懂的|