一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

列舉幾個(gè)簡單的例子來更好的理解scrapy工作的原理

 路人甲Java 2021-06-11

image

說明:了解爬蟲的可能都會(huì)知道,在爬蟲里,requests入門簡單,即使是沒有基礎(chǔ)的小白,學(xué)個(gè)幾天也能簡單的去請(qǐng)求網(wǎng)站,但是scrapy就相對(duì)來說就比較難,本片文章能是列舉幾個(gè)簡單的例子去理解的scrapy工作的原理,理解了scrapy工作的原理之后,學(xué)起來就會(huì)簡單很多

適用:本篇文章適合有一點(diǎn)的爬蟲基礎(chǔ)但又是剛剛接觸或者想要學(xué)習(xí)scrapy的同學(xué)

scrapy框架:

scrapy是Python開發(fā)的一個(gè)快速、高層次的屏幕抓取和web抓取框架,用于抓取web站點(diǎn)并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。Scrapy用途廣泛,可以用于數(shù)據(jù)挖掘、監(jiān)測和自動(dòng)化測試。

scrapy框架的結(jié)構(gòu):

scrapy是一個(gè)5+2結(jié)構(gòu),見下圖

5表示:
1. spiders(蜘蛛)
2. engine(引擎)
3. downloader(下載器)
4. scheduler(調(diào)度器)
5. item pipeline(項(xiàng)目管道)

2表示:
1. downloder middlewares(下載中間件)
2. spider middlewares(蜘蛛中間件)

[圖片上傳失敗...(image-946ae8-1545285941079)]


接下來我們就列舉幾個(gè)列子來方便的理解scrapy原理:

先說一下爬蟲,對(duì)于一個(gè)爬蟲,整體來看,分為三個(gè)部分:

  • 請(qǐng)求

    就是請(qǐng)求網(wǎng)站,分為get和post

  • 解析

    就是解析網(wǎng)站返回的response,即對(duì)response進(jìn)行進(jìn)一步處理

  • 存儲(chǔ)

    就是把處理過的信息存儲(chǔ)到文件,或者數(shù)據(jù)庫的操作

image
而scrapy框架也無外乎也是這分三個(gè)部分,下面是4個(gè)情景設(shè)定,都是學(xué)習(xí)scrapy剛開始會(huì)遇到的,在每個(gè)設(shè)定后面對(duì)其工作的原理給出了簡單解釋,之所以不寫太過詳細(xì),是為了方便大家理解,讓大家在大腦里面對(duì)scrapy框架有大致的輪廓:

設(shè)定一:
初始url:1個(gè)
是否解析:否
是否存儲(chǔ)數(shù)據(jù):否

(1)spider將初始url經(jīng)過engine傳遞給scheduler,形成調(diào)度隊(duì)列(1個(gè)requests)
(2)scheduler將requests經(jīng)過engine調(diào)度給downloader進(jìn)行數(shù)據(jù)下載,形成原始數(shù)據(jù)

設(shè)定二:
初始url:1個(gè)
是否解析:是
是否存儲(chǔ)數(shù)據(jù):否

(1)spider將初始url經(jīng)過engine傳遞給scheduler,形成調(diào)度隊(duì)列(1個(gè)requests)
(2)scheduler將requests經(jīng)過engine調(diào)度給downloader進(jìn)行數(shù)據(jù)下載,形成原始數(shù)據(jù)
(3)將原始數(shù)據(jù)經(jīng)過engine傳遞給spider進(jìn)行解析

設(shè)定三:
初始url:1個(gè)
是否解析:是
是否存儲(chǔ)數(shù)據(jù):是

(1)spider將初始url經(jīng)過engine傳遞給scheduler,形成調(diào)度隊(duì)列(多個(gè)requests)
(2)scheduler將第一個(gè)requests經(jīng)過engine調(diào)度給downloader進(jìn)行數(shù)據(jù)下載,形成原始數(shù)據(jù)
(3)將原始數(shù)據(jù)經(jīng)過engine傳遞給spider進(jìn)行解析
(4)將解析后的數(shù)據(jù)經(jīng)過engine傳給item pipeline進(jìn)行數(shù)據(jù)存儲(chǔ)

設(shè)定四:
初始url:多個(gè)
是否解析:是
是否存儲(chǔ)數(shù)據(jù):是

(1)spider將初始url經(jīng)過engine傳遞給scheduler,形成調(diào)度隊(duì)列(多個(gè)requests)
(2)scheduler將第一個(gè)requests經(jīng)過engine調(diào)度給downloader進(jìn)行數(shù)據(jù)下載,形成原始數(shù)據(jù)
(3)將原始數(shù)據(jù)經(jīng)過engine傳遞給spider進(jìn)行解析
(4)將解析后的數(shù)據(jù)經(jīng)過engine傳給item pipeline進(jìn)行數(shù)據(jù)存儲(chǔ)
(5)scheduler將下一個(gè)requests經(jīng)過engine調(diào)度給downloader進(jìn)行數(shù)據(jù)下載,形成原始數(shù)據(jù)......#重復(fù)(2)到(4)步,直到scheduler中沒有更多的requests


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    免费在线播放一区二区| 日韩一级毛一欧美一级乱| 日本乱论一区二区三区| 午夜福利精品视频视频| 亚洲天堂一区在线播放| 亚洲在线观看福利视频| 国产精品色热综合在线| 亚洲少妇人妻一区二区| 亚洲精品一区二区三区免| 妻子的新妈妈中文字幕| 噜噜中文字幕一区二区| 国产永久免费高清在线精品| 日本深夜福利在线播放| 激情内射日本一区二区三区| 狠狠干狠狠操在线播放| 亚洲国产精品久久琪琪| 日韩无套内射免费精品| 亚洲熟妇熟女久久精品 | 91人妻人人澡人人人人精品| 一级片黄色一区二区三区| 沐浴偷拍一区二区视频| 精品人妻一区二区三区四在线| 国产传媒一区二区三区| 成人免费在线视频大香蕉| 欧美成人欧美一级乱黄| 日韩一区二区三区18| 少妇视频一区二区三区| 中文字幕一区二区熟女| 肥白女人日韩中文视频| 欧美日韩三区在线观看| 婷婷亚洲综合五月天麻豆| 大香蕉伊人精品在线观看| 亚洲熟女精品一区二区成人| 极品少妇一区二区三区精品视频 | 日本加勒比在线播放一区| 国产精品白丝久久av| 99久久国产精品成人观看| 久久综合亚洲精品蜜桃| 麻豆果冻传媒一二三区| 色婷婷人妻av毛片一区二区三区| 91爽人人爽人人插人人爽|