目錄Scrapy框架簡單介紹Scrapy框架是一個基于Twisted的異步處理框架,是純Python實現(xiàn)的爬蟲框架,是提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應用框架,其架構(gòu)清晰,模塊之間的耦合程度低,可擴展性極強,我們只需要少量的代碼就能夠快速抓取數(shù)據(jù)。 其框架如下圖所示: Scrapy Engine是整個框架的核心,而涉及到我們編寫代碼的模塊一般只有Item Pipeline模塊和Spiders模塊。 創(chuàng)建Scrapy項目首先我們通過以下代碼來創(chuàng)建Scrapy項目,執(zhí)行代碼如下圖所示:
運行結(jié)果如下圖所示: 通過上圖可知,我們在C盤創(chuàng)建了一個新的Scrapy項目,項目名為Fiction,而且還提示我們可以通過以下命令創(chuàng)建第一個Spider爬蟲,命令如下所示:
其中example是我們爬蟲名,example.com是爬蟲爬取的范圍,也就是網(wǎng)站的域名。 Fiction文件夾內(nèi)容如下圖所示: 創(chuàng)建Spider爬蟲在上面的步驟我們成功創(chuàng)建了一個Scrapy項目,而且知道如何創(chuàng)建Spider爬蟲,接下來我們創(chuàng)建名為fiction的Spider爬蟲,其域名為www.,代碼如下所示:
運行后,spiders文件夾中多了我們剛才創(chuàng)建fiction.py,這個就是我們創(chuàng)建的Spider爬蟲。 如下圖所示: 看到這么多py文件是不是慌了,其實不用慌,一般情況我們主要在剛創(chuàng)建的spider爬蟲文件、items.py和pipelines.py進行編寫代碼,其中:
當數(shù)據(jù)需要保存在MongoDB數(shù)據(jù)庫時,則編寫以下代碼即可:
Spider爬蟲提取數(shù)據(jù)在提取數(shù)據(jù)前,首先我們進入要爬取小說網(wǎng)站并打開開發(fā)者工具,如下圖所示: 我們通過上圖可以發(fā)現(xiàn),<dl class="Volume">存放著我們所有小說章節(jié)名,點擊該章節(jié)就可以跳轉(zhuǎn)到對應的章節(jié)頁面,所以可以使用Xpath來通過這個div作為我們的xpath爬取范圍,通過for循環(huán)來遍歷獲取每個章節(jié)的名和URL鏈接。 跳轉(zhuǎn)章節(jié)內(nèi)容頁面后,打開開發(fā)者工具,如下圖所示: 通過上圖可以發(fā)現(xiàn),小說內(nèi)容存儲在<div class="readAreaBox">里面,我們可以通過for循環(huán)來遍歷該dl中的<div class="p">獲取到章節(jié)的全部內(nèi)容,當然也是通過使用Xpath來獲取。 items.py代碼定義字段細心的小伙伴就發(fā)現(xiàn)了,我們所需要提前的字段有章節(jié)名、章節(jié)URL鏈接和章節(jié)內(nèi)容,其中章節(jié)名和章節(jié)內(nèi)容是需要進行數(shù)據(jù)保存的,所以可以先在items.py文件中定義好字段名,具體代碼如下所示:
定義字段很簡單,字段名=scrapy.Field()即可。 對了,在items.py定義好字段有個最好的好處是當我們在獲取到數(shù)據(jù)的時候,使用不同的item來存放不同的數(shù)據(jù),在把數(shù)據(jù)交給pipeline的時候,可以通過isinstance(item,FictionItem)來判斷數(shù)據(jù)屬于哪個item,進行不同的數(shù)據(jù)(item)處理。 定義好字段后,這是我們通過在pipeline.py文件中編寫代碼,對不同的item數(shù)據(jù)進行區(qū)分,具體代碼如下:
當然,在我們爬取的項目中,只需要一個class類,在上面的代碼只是為了展示如何判斷區(qū)分數(shù)據(jù)屬于哪個item。 fiction.py代碼提取數(shù)據(jù)fiction.py文件也就是我們創(chuàng)建的spider爬蟲,打開fiction.py文件,其代碼內(nèi)容如下所示:
其中:
大致了解該文件內(nèi)容的各個部分后,我們開始提取首頁的章節(jié)名和章節(jié)URL鏈接,具體代碼如下所示:
首先導入FictionItem,再我們把start_urls鏈接修改為待會要爬的URL鏈接,在parse()方法中,使用xpath獲取章節(jié)名和章節(jié)URL鏈接,通過for循環(huán)調(diào)用FictionItem(),再把章節(jié)名存放在item里面。 通過生成器yield 返回調(diào)用scrapy.Request()方法,其中:
在上一步中我們指定了parse_detail函數(shù)作為解析處理,接下來將編寫parse_detail函數(shù)來獲取章節(jié)內(nèi)容,具體代碼如下所示:
首先我們定義了一個空變量string,在通過response.meta[]來接收item數(shù)據(jù),其參數(shù)為上一步中的meta={'item': item}的item,接下來獲取章節(jié)內(nèi)容,最后將章節(jié)內(nèi)容存儲在item['text']中,并通過生成器yield返回數(shù)據(jù)給引擎。 pipelines.py代碼保存數(shù)據(jù)章節(jié)名和章節(jié)內(nèi)容已經(jīng)全部獲取下來了,接下來我們把獲取下來的數(shù)據(jù)保存為txt文件,具體代碼如下所示:
首先我們導入FictionItem、time,在open_spider()和close_spider()方法編寫代碼調(diào)用time.time()來獲取爬取的開始時間和結(jié)束時間,再在process_item()方法中,把引擎返回的item['name']和item['text']分別存放在title和content中,并通過open打開txt文件,調(diào)用write()把章節(jié)內(nèi)容寫入在txt文件中。 settings.py代碼啟動爬蟲在啟動爬蟲前,我們先要在settings.py文件中啟動引擎,啟動方式很簡單,只要找到下圖中的代碼,并取消代碼的注釋即可: 有人可能問:那User-Agent在哪里設(shè)置?我們可以在settings.py文件中,設(shè)置User-Agent,具體代碼如下: 好了,所有代碼已經(jīng)編寫完畢了,接下來將啟動爬蟲了,執(zhí)行代碼如下:
啟動爬蟲后,發(fā)現(xiàn)我們控制臺里面多了很多l(xiāng)og日志數(shù)據(jù)的輸出,這時可以通過在settings.py添加以下代碼,就可以屏蔽這些log日志:
結(jié)果展示 |
|