Python爬蟲:Scrapy從腳本運行爬蟲的5種方式! Python編程學習圈 1周前 關(guān)注+星標,每天學習Python新技能 測試環(huán)境 一、命令行運行爬蟲 1、編寫爬蟲文件 baidu.py 圖片 2、運行爬蟲(2種方式) 圖片 二、文件中運行爬蟲 1、cmdline方式運行爬蟲 圖片 2、CrawlerProcess方式運行爬蟲 圖片 3、通過CrawlerRunner 運行爬蟲 圖片 三、文件中運行多個爬蟲 項目中新建一個爬蟲 SinaSpider 圖片 1、cmdline方式不可以運行多個爬蟲 如果將兩個語句放在一起,第一個語句執(zhí)行完后程序就退出了,執(zhí)行到不到第二句 圖片 不過有了以下兩個方法來替代,就更優(yōu)雅了 2、CrawlerProcess方式運行多個爬蟲 備注:爬蟲項目文件為: scrapy_demo/spiders/baidu.py scrapy_demo/spiders/sina.py 圖片 此方式運行,發(fā)現(xiàn)日志中中間件只啟動了一次,而且發(fā)送請求基本是同時的,說明這兩個爬蟲運行不是獨立的,可能會相互干擾 3、通過CrawlerRunner 運行多個爬蟲 圖片 此方式也只加載一次中間件,不過是逐個運行的,會減少干擾,官方文檔也推薦使用此方法來運行多個爬蟲 總結(jié) 圖片 cmdline.execute 運行單個爬蟲文件的配置最簡單,一次配置,多次運行 *聲明:本文于網(wǎng)絡(luò)整理,版權(quán)歸原作者所有,如來源信息有誤或侵犯權(quán)益,請聯(lián)系我們刪除或授權(quán)事宜。 圖片 閱讀原文 閱讀 187 |
|