一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

Python新手寫出漂亮的爬蟲代碼1

 求知881 2018-11-20

初到大數(shù)據(jù)學(xué)習(xí)圈子的同學(xué)可能對爬蟲都有所耳聞,會覺得是一個高大上的東西,仿佛九陽神功和乾坤大挪移一樣,和別人說“老子會爬蟲”,就感覺特別有逼格,但是又不知從何入手,這里,博主給大家糾正一個誤區(qū):爬蟲并不神秘,也不高級,是一個非常好上手和掌握的東西(當然,里面也有很多坑,也有很多細節(jié),展開說的話其實也蠻復(fù)雜的,不過它的模式和套路就擺在那里,看了小編的博客,保證你能爬下你想要的內(nèi)容)。

一般情況下,爬蟲分為兩種,一種是靜態(tài)爬蟲,一種是動態(tài)爬蟲,所謂靜態(tài)爬蟲,就是大部分信息(至少你所需要的那些信息)是寫在html代碼中的,而動態(tài)爬蟲一般都是寫在一個json文檔中,這么說可能不太標準,不過初學(xué)者這樣理解即可,這篇博客將會帶大家領(lǐng)略靜態(tài)爬蟲,下一篇將會講解動態(tài)爬蟲。

補充一句,博主曾是忠實的Python2用戶,不過現(xiàn)在也改到Python3了,曾經(jīng)新的庫會在Python2中首先兼容,然后要過好久才在Python3中集成,現(xiàn)在完全不用擔(dān)心,Python2有了,Python3不日就會集成,Python3也會在編碼方面提供更多遍歷,推薦新手直接從Python3入手,當然,二者沒有什么太大區(qū)別,遇到問題問問度娘就可以了了,廢話不多說,我們開始爬蟲的第一課!

本篇博文將從以下幾個方面進行講解
- 啥是Html代碼?
- 怎么從Html代碼中定位到我要的東西?
- BeautifulSoup神器
- 案例:愛卡汽車


啥是Html代碼

所謂的html代碼,瀏覽博客的你右手一定在鼠標上,好的,跟著我左手右手一個慢動作,點擊右鍵,找到“查看網(wǎng)頁源代碼”,不同瀏覽器可能這個描述不太一樣,博主是Chrome,不過都差不太多,是不是有看到類似下面這個圖的一堆不知道是什么鬼的代碼?

看上去就很惡心對吧

其實,你可以按鍵盤上的F12或者右鍵選擇“檢查元素”(不同瀏覽器不同),這時,瀏覽器的右側(cè)(如果你是360瀏覽器,可能是在下方)彈出一個東東,類似下面紅色框中的區(qū)域
這里寫圖片描述

這個東西就是剛才我們看的那個不知道是什么鬼的東西的樹狀結(jié)構(gòu),看上去會整齊一些。這就是html代碼,html代碼其實就是用許多個"<Y yy='aaa'>xxxx</Y>"是的結(jié)構(gòu)將想要輸出在頁面上的內(nèi)容包含起來的一種語言。下一個小節(jié)將詳細介紹這個結(jié)構(gòu),總而言之,我們?nèi)庋鬯吹降臇|西大部分都來自于html代碼,html代碼的作用簡單來說就是程序員用一堆html代碼,將需要展示的信息放在指定的位置上的一種東西,有了html代碼,才有了你眼前頁面上的很多元素;當然,還有其他方式來將元素展示在頁面上,如css、js等渲染方式,這些我們下一篇會介紹。

知道我們所需要的信息位于html中,那么只需要找到我們需要的具體內(nèi)容在哪里,然后下載下來,就大功告成了,邏輯就是這么個邏輯,所以靜態(tài)爬蟲的關(guān)鍵問題是要準確的解析html代碼,一般使用BeautifulSoup這個庫或者正則表達式。

怎么從Html代碼中定位到我要的東西

標簽

上一節(jié)中提到,html代碼中都是"<Y yy='aaa'>xxxx</Y>"結(jié)構(gòu),一對”<>”我們稱之為標簽,這對標簽中通常會有一些內(nèi)容,可能是一個數(shù)字,一段字符串,一個網(wǎng)頁鏈接,或者一個圖片鏈接等等,總之,就是我們在網(wǎng)頁上看到的內(nèi)容?!盰”稱之為標簽名,”yy”為其屬性名,”aaa”是其屬性值,”xxxx”是這個標簽的內(nèi)容,也就是對應(yīng)于頁面上的信息。一般情況下我們要獲取的就是”xxxx”,有時我們可能也需要獲取標簽的屬性值”aaa”。標簽可能是唯一的,也可能是有重復(fù)的,回看剛才那張樹狀的標簽結(jié)構(gòu),有一種分明的層次感,同一層的標簽我們稱他們互為兄弟標簽,而一個標簽和包含他的標簽互為父子標簽,如果a包含b,b包含c,d,則c是a的后代標簽,是b的子標簽,是d的兄弟標簽,這個名字無所謂的,了解一下就好,一般標簽名可能會重復(fù),但標簽屬性名(yy)和屬性值“aaa”很少重復(fù),不過兄弟標簽之間可能會出現(xiàn)標簽名、屬性名、屬性值完全相同的情況,后面會介紹(就是find方法和findAll方法的區(qū)別)。

好,上實例,打開一個網(wǎng)址把:http://newcar.xcar.com.cn/257/review/0.htm,是愛卡汽車中比亞迪F3的口碑頁面,鼠標右鍵選擇“檢查元素”或者之間按鍵盤上的F12,選擇那個鼠標的按鈕(紅色框1),然后將鼠標放到評論框附近(紅色框2),如下圖所示,看到檢查元素界面中有一段代碼背景色變成了深色(如紅色框3)

這里寫圖片描述

每個頁面有10條口碑,可見這10條口碑均存儲在屬性名為’class’,屬性值為’review_comments_dl’的’div’標簽中,當然,這個標簽不是一個“葉節(jié)點”,也就是說這個標簽內(nèi)部還有其他標簽,我們進一步看看??聪旅娴膱D片。

這里寫圖片描述

我們可以看到紅框3中有很多相同的標簽<dl>...</dl>,他們都是屬性名為’class’,屬性值為’review_comments_dl’的’div’標簽的子標簽,他們之間互為兄弟標簽,我們把鼠標放在紅框3的位置并選中,這時左側(cè)網(wǎng)頁的第一條口碑的位置就會變成深色背景,也就是說,紅框3這個標簽實際上對應(yīng)著紅框2這個區(qū)域中的內(nèi)容,那么我們把紅框3再具體的看一看。如下圖所示。

可以看到,第一條口碑(紅框中的內(nèi)容)在第一個’dl’標簽中(紅色下劃線2),同理可以看到第二條口碑在第二個’dl’標簽中。再來看看這個’dl’標簽,他有兩個子標簽,’dt’和’dd’子標簽,口碑數(shù)據(jù)位于dd子標簽下;好的,再來看’dd’標簽,將’dd’標簽展開,如下圖所示。

這里寫圖片描述

紅框3是該車的第一頁的第一條口碑,位于dd標簽中,及圖中藍色下劃線<dd>...</dd> 中的內(nèi)容,圖中從開頭的dd指向紅框3,標注了“同級”,意思是紅框3的內(nèi)容是dd標簽的內(nèi)容,而dd標簽下還有子標簽,比如屬性為class,屬性值為useful的div標簽,里面的內(nèi)容1034是有多少人覺得這個口碑有用;還有一個子標簽p,p標簽的內(nèi)容是口碑的作者;p中有一個子標簽a,a標簽的內(nèi)容是評論來源,如圖中的“比亞迪F3論壇”。

好了,現(xiàn)在想必讀者已經(jīng)對通過標簽定位信息有所了解了,我們再來練習(xí)一下,我們將口碑頁切換到第2頁,可以看到地址變成了http://newcar.xcar.com.cn/257/review/0/0_2.htm,多了一個’0_2’。將’0_2’改成’0_1’就跳回了第一頁(實際上第一頁的真實url是http://newcar.xcar.com.cn/257/review/0/0_1.htm),而改成’0_3’就到了第三頁。那么我們應(yīng)該怎么獲取該車型的口碑一共有幾頁呢?看下面的圖。

這里寫圖片描述

依然是在開發(fā)者工具視角(及按F12彈出的窗口這個視角),將鼠標放在尾頁(這里是122)或者‘下一頁’上,右側(cè)的框中會出現(xiàn)如圖所示的畫面,可以看到尾頁122所在的位于屬性為class,屬性值為’pagers’的div標簽的倒數(shù)第二個子標簽中,如紅框1所示;而’下一頁’則位于屬性為class,屬性值為’pagers’的div標簽的最后一個子標簽中,如紅框2所示。在仔細貫徹一下會發(fā)現(xiàn)屬性為class,屬性值為’pagers’的div標簽與我們之前尋找口碑的標簽dl是兄弟標簽,位于全部的dl標簽的再后面一個,也就是說,該標簽的父標簽與dl標簽相同,即屬性名為’class’,屬性值為’review_comments_dl’的’div’標簽。

為什么要確定尾頁呢?因為構(gòu)造代碼時,我們要知道代碼的起止位置,使用for循環(huán)良好的控制代碼的開始與完結(jié)。

這個爬蟲的邏輯是這樣的:找到目標的車型,即其url,實際上,不同車型的url只有id不同,比如比亞迪F3的url是http://newcar.xcar.com.cn/257/,其車子id是257,當id更改為258時,車型就變成了比亞迪F0;然后查看html代碼,明確要爬取的內(nèi)容的所在位置,明確換頁規(guī)律,明確爬蟲的起止位置(獲取尾頁信息的html位置),然后構(gòu)造代碼。

BeautifulSoup神器

Python一個第三方庫bs4中有一個BeautifulSoup庫,是用于解析html代碼的,換句話說就是可以幫助你更方便的通過標簽定位你需要的信息。這里只介紹兩個比較關(guān)鍵的方法:

1、find方法和findAll方法:
首先,BeautifulSoup會先將整個html或者你所指定的html代碼編程一個BeautifulSoup對象的實例(不懂對象和實例不要緊,你只要把它當作是一套你使用F12看到的樹形html代碼代碼就好),這個實例可以使用很多方法,最常用的就是find和findAll,二者的功能是相同的,通過find( )的參數(shù),即find( )括號中指定的標簽名,屬性名,屬性值去搜索對應(yīng)的標簽,并獲取它,不過find只獲取搜索到的第一個標簽,而findAll將會獲取搜索到的所有符合條件的標簽,放入一個迭代器(實際上是將所有符合條件的標簽放入一個list),findAll常用于兄弟標簽的定位,如剛才定位口碑信息,口碑都在dl標簽下,而同一頁的10條口碑對應(yīng)于10個dl標簽,這時候用find方法只能獲取第一個,而findAll會獲取全部的10個標簽,存入一個列表,想要獲取每個標簽的內(nèi)容,只需對這個列表使用一個for循環(huán)遍歷一遍即可。

2、get_text()方法:
使用find獲取的內(nèi)容不僅僅是我們需要的內(nèi)容,而且包括標簽名、屬性名、屬性值等,比如使用find方法獲取"<Y yy='aaa'>xxxx</Y>" 的內(nèi)容xxxx,使用find后,我們會得到整個"<Y yy='aaa'>xxxx</Y>",十分冗長,實際我們想要的僅僅是這個標簽的內(nèi)容xxxx,因此,對使用find方法后的對象再使用get_text( )方法,就可以得到標簽的內(nèi)容了,對應(yīng)到這里,我們通過get_text( )方法就可以得到xxxx了。

好了,鋪墊做的差不多了,上代碼咯~~~

案例:愛卡汽車

使用Python3,需要提前安裝bs4庫,博主的環(huán)境是win7+Python3+Pycharm(有時候也用Ubuntu16.04+Python3+Pycharm),很多時候都有人問博主,什么ide好用呢?jupyter notebook?spyder?Pycharm?這里只能和大家說各個ide各有千秋,做工程(如爬蟲)使用pycharm肯定是首選,如果只是平時的練習(xí),寫個小程序,使用jupyter notebook和spyder就不錯,總之,如果涉及到頻繁打印輸出結(jié)果的東西,最好還是用pycharm,不要用jupyter notebook,不然會很卡。

言歸正傳,上代碼!

兩點說明:爬蟲代碼中,html代碼經(jīng)常會出現(xiàn)’class’這個屬性名,而class是python中“類”的關(guān)鍵字,而爬蟲的find方法對于屬性名而言,是不需要加引號的,如果直接輸入class是會出現(xiàn)問題的,所以需要注意,每次輸入class時應(yīng)當輸入為class_,即class后加一個下劃線;

第二就是下方代碼一開始有一個add_header的過程,為的是將代碼偽裝成瀏覽器。很多網(wǎng)站是反對爬蟲程序?qū)ζ湫畔⑦M行爬取的,所以會禁止一些程序訪問他們的網(wǎng)站,通過add_header將你的爬蟲程序偽裝成了瀏覽器,故在網(wǎng)站看來,訪問它的就不是一個程序,而是一個瀏覽器,或者說是一個人類用戶了。

import urllib
import urllib.request
from bs4 import BeautifulSoup
import re
import random
import time

# 設(shè)置目標url,使用urllib.request.Request創(chuàng)建請求
url0 = "http://newcar.xcar.com.cn/257/review/0.htm"
req0 = urllib.request.Request(url0)

# 使用add_header設(shè)置請求頭,將代碼偽裝成瀏覽器
req0.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36")

# 使用urllib.request.urlopen打開頁面,使用read方法保存html代碼
html0 = urllib.request.urlopen(req0).read()

# 使用BeautifulSoup創(chuàng)建html代碼的BeautifulSoup實例,存為soup0
soup0 = BeautifulSoup(html0)

# 獲取尾頁(對照前一小節(jié)獲取尾頁的內(nèi)容看你就明白了)
total_page = int(soup0.find("div",class_= "pagers").findAll("a")[-2].get_text())
myfile = open("aika_qc_gn_1_1_1.txt","a")
print("user","來源","認為有用人數(shù)","類型","評論時間","comment",sep="|",file=myfile)
for i in list(range(1,total_page+1)):
    # 設(shè)置隨機暫停時間
    stop = random.uniform(1, 3)
    url = "http://newcar.xcar.com.cn/257/review/0/0_" + str(i) + ".htm"
    req = urllib.request.Request(url)
    req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36")
    html = urllib.request.urlopen(req).read()
    soup = BeautifulSoup(html)
    contents = soup.find('div', class_="review_comments").findAll("dl")
    l = len(contents)
    for content in contents:
        tiaoshu = contents.index(content)
        try:
            ss = "正在爬取第%d頁的第%d的評論,網(wǎng)址為%s" % (i, tiaoshu + 1, url)
            print(ss)
            try:
                comment_jiaodu = content.find("dt").find("em").find("a").get_text().strip().replace("\n","").replace("\t","").replace("\r","")
            except:
                comment_jiaodu = ""
            try:
                comment_type0 = content.find("dt").get_text().strip().replace("\n","").replace("\t","").replace("\r","")
                comment_type1 = comment_type0.split("【")[1]
                comment_type = comment_type1.split("】")[0]
            except:
                comment_type = "好評"
            # 認為該條評價有用的人數(shù)
            try:
                useful = int(content.find("dd").find("div",class_ = "useful").find("i").find("span").get_text().strip().replace("\n","").replace("\t","").replace("\r",""))
            except:
                useful = ""
            # 評論來源
            try:
                comment_region = content.find("dd").find("p").find("a").get_text().strip().replace("\n","").replace("\t","").replace("\r","")
            except:
                comment_region = ""
            # 評論者名稱
            try:
                user = content.find("dd").find("p").get_text().strip().replace("\n","").replace("\t","").replace("\r","").split(":")[-1]
            except:
                user = ""
            # 評論內(nèi)容
            try:
                comment_url = content.find('dt').findAll('a')[-1]['href']
                urlc = comment_url
                reqc = urllib.request.Request(urlc)
                reqc.add_header("User-Agent",
                                "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36")
                htmlc = urllib.request.urlopen(reqc).read()
                soupc = BeautifulSoup(htmlc)
                comment0 =                 soupc.find('div', id='mainNew').find('div', class_='maintable').findAll('form')[1].find('table',class_='t_msg').findAll('tr')[1]
                try:
                    comment = comment0.find('font').get_text().strip().replace("\n", "").replace("\t", "")
                except:
                    comment = ""
                try:
                    comment_time = soupc.find('div', id='mainNew').find('div', class_='maintable').findAll('form')[1].find('table', class_='t_msg').                    find('div', style='padding-top: 4px;float:left').get_text().strip().replace("\n","").replace( "\t", "")[4:]
                except:
                    comment_time = ""
            except:
                try:
                    comment = content.find("dd").get_text().split("\n")[-1].split('\r')[-1].strip().replace("\n", "").replace("\t","").replace("\r", "").split(":")[-1]
                except:
                    comment = ""
            # time.sleep(stop)
            print(user,comment_region,useful,comment_type,comment_time,comment, sep="|", file=myfile)
        except:
            s = "爬取第%d頁的第%d的評論失敗,網(wǎng)址為%s" % (i, tiaoshu + 1, url)
            print(s)
            pass
myfile.close()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80
  • 81
  • 82
  • 83
  • 84
  • 85
  • 86
  • 87
  • 88
  • 89
  • 90
  • 91
  • 92
  • 93
  • 94
  • 95
  • 96

補充說明一下:try——except這個結(jié)構(gòu)(看起來有點像if——else的結(jié)構(gòu))是一個非常重要的過程,為了使爬蟲代碼可以良好的運行,不至于剛開始爬幾分鐘就報錯這種惡心人的情況,需要很好的利用try——except過程。程序會先執(zhí)行try下的語句,如果發(fā)生失敗,就會執(zhí)行except下的語句,你也可以使用多個try——except嵌套的結(jié)構(gòu)完成復(fù)雜的情況的覆蓋,最好要保證你的try——except過程包含了程序會遇到的所有情況,那么你的代碼就是趨于完美的。

講到這里,第一節(jié)爬蟲課程也就到這里了,不久之后會介紹動態(tài)爬蟲,如果之后還有時間,還會介紹一下selenium這個模擬瀏覽的庫,以及爬蟲框架還有反爬蟲的知識,給自己打個廣告,除了爬蟲可,近期也會分享一些關(guān)于word2vec和fastText文本分類算法的內(nèi)容,讀者有什么其他想交流的可以留言~我也是個正在學(xué)習(xí)路上的仔,希望能和各路朋友以及大牛交流。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    国产成人亚洲综合色就色| 亚洲妇女黄色三级视频| 中文字幕日韩欧美亚洲午夜 | 久久大香蕉精品在线观看| 欧美精品二区中文乱码字幕高清| 亚洲最新av在线观看| 福利在线午夜绝顶三级| 国产又粗又猛又黄又爽视频免费| 日韩中文字幕视频在线高清版 | 91精品国产综合久久不卡| 在线免费观看黄色美女| 色婷婷在线精品国自产拍| 台湾综合熟女一区二区| 国产又粗又爽又猛又黄的| 国产欧美日产久久婷婷| 视频一区二区 国产精品| 国产视频在线一区二区| 国产日韩在线一二三区| 成人国产激情在线视频| 亚洲高清亚洲欧美一区二区| 内用黄老外示儒术出处| 欧美欧美欧美欧美一区| 欧美午夜一级特黄大片| 99久免费精品视频在线观| 久久精品色妇熟妇丰满人妻91| 国产精品流白浆无遮挡| 日本理论片午夜在线观看| 国产美女精品人人做人人爽| 久久永久免费一区二区| 国语久精品在视频在线观看 | 二区久久久国产av色| 亚洲视频在线观看你懂的| 99亚洲综合精品成人网色播| 人妻一区二区三区多毛女| 微拍一区二区三区福利| 国产成人精品午夜福利| 91久久国产福利自产拍| 成人精品亚洲欧美日韩| 丰满人妻熟妇乱又乱精品古代| 在线观看那种视频你懂的| 亚洲一区二区精品免费视频|