一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

爬蟲實(shí)戰(zhàn):爬取豆瓣電影

 NeighborMrSun 2023-03-03 發(fā)布于湖南

1. 豆瓣電影排行榜的抓取

1.1 訓(xùn)練目的

  • 理解表單提交的內(nèi)容。
  • 熟悉爬蟲請(qǐng)求的語(yǔ)句結(jié)構(gòu)。
  • 對(duì)網(wǎng)頁(yè)結(jié)構(gòu)進(jìn)一步了解。

1.2 代碼實(shí)戰(zhàn)

import requests
url = 'https://movie.douban.com/j/chart/top_list'
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.102 Safari/537.36 Edg/104.0.1293.70'}
form ={
    'type''24',
    'interval_id':'100:90',
    'action''',
    'start''0',
    'limit''20',
}
resp = requests.get(url,params=form,headers=headers)
print(resp.json())
resp.close()# 關(guān)掉response

注意:表單當(dāng)中的start是指從排序第幾個(gè)開(kāi)始,limit是指顯示多少個(gè)。html頁(yè)面下滑的時(shí)候會(huì)發(fā)現(xiàn)請(qǐng)求更新,對(duì)比提交表單可以得到以上結(jié)論,因此在爬取的時(shí)候可以根據(jù)這個(gè)來(lái)更改這兩個(gè)參數(shù)。

2. 豆瓣電影TOP 250的抓取

2.1 訓(xùn)練目的

  • 理解RE的使用
  • 學(xué)會(huì)抓取之后的數(shù)據(jù)提取

2.2 單頁(yè)數(shù)據(jù)爬取

import requests
import re
# 數(shù)據(jù)抓取
url = 'https://movie.douban.com/top250'
headers = headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.102 Safari/537.36 Edg/104.0.1293.70'}
resp = requests.get(url,headers=headers)
pagecontent = resp.text
resp.close()# 關(guān)掉response
# 解析數(shù)據(jù)
obj = re.compile(r'<li>\n.*?<div class='item'>.*?<span class='title'>(?P<movie>.*?)</span>.*?導(dǎo)演: (?P<director>.*?)&nbsp.*?'
                 r'主演: (?P<actors>.*?)<br>(?P<year>.*?) / (?P<country>.*?) / (?P<type>.*?)</p>.*?<span class='rating_num' property='v:average'>(?P<rate>.*?)</span>.*?<span>(?P<comments>.*?)人評(píng)價(jià)</span>',re.S)
result = obj.finditer(pagecontent)
for i in result:
    print(i.group('movie'))
    print(i.group('director'))
    print(i.group('actors'))
    print(i.group('year').strip())
    print(i.group('type').strip())
    print(i.group('rate'))
    print(i.group('comments'))

2.3 寫入CSV文件

#保存數(shù)據(jù),導(dǎo)入csv庫(kù)
import csv
#寫入csv
result = obj.finditer(pagecontent)
with open('data.csv', mode='a',encoding='utf-8-sig', newline=''as f:
    csv_write = csv.writer(f)
    for it in result:
        # 將迭代器it轉(zhuǎn)換為字典
        dic = it.groupdict()
        # 對(duì)鍵為year和type的值去除空格
        dic['year'] = dic['year'].strip()
        dic['type'] = dic['type'].strip()
        # 將字典的values寫入data.csv
        csv_write.writerow(dic.values())
    print('寫入完成')

2.4 爬取多頁(yè)信息

上述只是爬取了第一頁(yè)的內(nèi)容,點(diǎn)擊網(wǎng)頁(yè)下方翻頁(yè)之后,發(fā)現(xiàn)每一頁(yè)的網(wǎng)址變化非常簡(jiǎn)單,start=的值就是起始序號(hào),網(wǎng)頁(yè)一共十頁(yè),第一頁(yè)為0,第二頁(yè)為25,依次等差遞增。因此,重新整合代碼如下:

import requests
import re
import csv
import time
# 數(shù)據(jù)抓取
headers = headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.102 Safari/537.36 Edg/104.0.1293.70'}
pagecontent=''
for t in range(0,250,25):
    url = f'https://movie.douban.com/top250?start={t}&filter='
    resp = requests.get(url,headers=headers)
    pagecontent = pagecontent+resp.text# 把所有的抓取的網(wǎng)頁(yè)字符串連接起來(lái)
    print(f'第{t+25}條結(jié)束')
    time.sleep(1)
resp.close()# 關(guān)掉response

# 解析數(shù)據(jù)
obj = re.compile(r'<li>.*?<span class='title'>(?P<movie>.*?)</span>.*?導(dǎo)演: (?P<director>.*?)&nbsp.*?主演: (?P<actors>.*?)<br>(?P<year>.*?) / (?P<country>.*?) / (?P<type>.*?)</p>.*?<span class='rating_num' property='v:average'>(?P<rate>.*?)</span>.*?<span>(?P<comments>.*?)人評(píng)價(jià)</span>',re.S)
result = obj.finditer(pagecontent)
with open('movie.csv', mode='a',encoding='utf-8-sig', newline=''as f:
    csv_write = csv.writer(f)

    for it in result:
        # 將迭代器it轉(zhuǎn)換為字典
        dic = it.groupdict()
        # 對(duì)鍵為year和type的值去除空格
        dic['year'] = dic['year'].strip()
        dic['type'] = dic['type'].strip()
        # 將字典的values寫入data.csv
        csv_write.writerow(dic.values())
    print('寫入完成')

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    激情视频在线视频在线视频| 不卡视频在线一区二区三区| 人妻少妇系列中文字幕| 欧美日韩亚洲综合国产人| 2019年国产最新视频| 久久精品偷拍视频观看| 国产超薄黑色肉色丝袜| 一区二区三区18禁看| 国产av一区二区三区久久不卡 | 中文字幕精品人妻一区| 蜜臀人妻一区二区三区| 成人免费高清在线一区二区| 年轻女房东2中文字幕| 91亚洲国产成人久久精品麻豆| 五月婷婷亚洲综合一区| 国产户外勾引精品露出一区| 欧美中文日韩一区久久| 国产精品欧美一区二区三区不卡| 熟女乱一区二区三区四区| 色哟哟哟在线观看视频| 国产精品亚洲综合天堂夜夜| 国产女同精品一区二区| 亚洲欧美日韩中文字幕二欧美| 男女午夜福利院在线观看| 男女午夜在线免费观看视频| 久草视频在线视频在线观看| 亚洲综合天堂一二三区| 欧美日韩精品一区二区三区不卡 | 爱草草在线观看免费视频| 欧美熟妇喷浆一区二区| 狠狠干狠狠操在线播放| 黄色污污在线免费观看| 国产又色又爽又黄又免费| 国产精品午夜一区二区三区| 高清一区二区三区大伊香蕉| 国产成人精品视频一二区| 亚洲国产色婷婷久久精品| 久久亚洲精品成人国产| 精品久久少妇激情视频| 男人大臿蕉香蕉大视频| 夫妻激情视频一区二区三区|