一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

如何利用Python爬取感興趣的公眾號文章

 老馬的程序人生 2020-08-17


LSGO軟件技術(shù)團隊 

貢獻人:李金原

如果喜歡這里的內(nèi)容,你能夠給我最大的幫助就是轉(zhuǎn)發(fā),告訴你的朋友,鼓勵他們一起來學習。

If you like the content here, the greatest help you can give me is forwarding, so tell your friends and encourage them to learn together.

每次在公眾號中搜索文章都很繁瑣,把自己關(guān)注的公眾號文章下載到本地就是我們需要解決的一個需求了。本篇圖文就是介紹這方面的內(nèi)容:如何利用Python爬取感興趣的公眾號文章

本次爬取需要的工具如下:

  • selenium 驅(qū)動器 https://baike.baidu.com/item/selenium/18266)

  • 對應(yīng)瀏覽器的 webdriver https://docs./projects/webdriver/

  • 一個微信訂閱號

在 2017 年 6 月左右,微信官方發(fā)布一篇文章 https://mp.weixin.qq.com/s/67sk-uKz9Ct4niT-f4u1KA, 大致意思就是以后發(fā)布文章的時候可以插入其它公眾號的文章。由此,我們即可獲得采集文章的接口。

一、登陸微信公眾號

在這里,我們使用 selenium + chromedriver(chrome 的 webdriver) 的方式來獲取登陸的 cookie,這樣,以后爬取文章時只需要載入 cookie 即可登陸。首先我們打開微信公眾平臺 https://mp.weixin.qq.com/ 進行賬號登陸:

1

我們用 insepect 檢查獲取登陸的賬號、密碼元素所在位置,來實現(xiàn)自動化登陸的目的 。

2

轉(zhuǎn)化成代碼如下:

# 用webdriver啟動谷歌瀏覽器
print("啟動瀏覽器,打開微信公眾號登錄界面")
driver = webdriver.Chrome(executable_path='/usr/bin/chromedriver'
# 此處 webdriver 根據(jù)自己的環(huán)境更改
# 打開微信公眾號登錄頁面
driver.get('https://mp.weixin.qq.com/')
# 等待5秒鐘
time.sleep(5)
print("正在輸入微信公眾號登錄賬號和密碼......")

#清空賬號框中的內(nèi)容
driver.find_element_by_name("account").clear()
#自動填入登錄用戶名
driver.find_element_by_name("account").send_keys("輸入你的公眾號賬號")
#清空密碼框中的內(nèi)容
driver.find_element_by_name("password").clear()
#自動填入登錄密碼
driver.find_element_by_name("password").send_keys("輸入公眾號密碼")

# 在自動輸完密碼之后需要手動點一下記住我
print("請在登錄界面點擊:記住賬號")
time.sleep(5)
#自動點擊登錄按鈕進行登錄
driver.find_element_by_class_name("btn_login").click()
# 拿手機掃二維碼!
print("請拿手機掃碼二維碼登錄公眾號")
time.sleep(20)
print("登錄成功")

之后,我們需要重新登陸一次,保存 cookie,以后則載入 cookie 即可,不需要再掃碼登陸。代碼如下:

# 定義一個空的字典,存放cookies內(nèi)容
post = {}

driver.get('https://mp.weixin.qq.com/')
# 獲取cookies
cookie_items = driver.get_cookies()

# 獲取到的cookies是列表形式,將cookies轉(zhuǎn)成json形式并存入本地名為cookie的文本中
for cookie_item in cookie_items:
    post[cookie_item['name']] = cookie_item['value']
cookie_str = json.dumps(post)
with open('cookie.txt''w+', encoding='utf-8'as f:
    f.write(cookie_str)
print("cookies信息已保存到本地")   

之后我們開始文章的爬取。

二、爬取文章

根據(jù)官方描述,接口應(yīng)該藏在新建圖文素材中的插入超鏈接中,和之前爬取幣乎一樣,我們用 F12-Network-XHR 來跟蹤這幾個頁面來獲取我們需要配置的請求:

3
4
5

接下來,我們來配置請求參數(shù):

#公眾號主頁
url = 'https://mp.weixin.qq.com'
#設(shè)置headers
header = {
    "HOST""mp.weixin.qq.com",
    "User-Agent""Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0"
}

#讀取上一步獲取到的cookies
with open('cookie.txt''r', encoding='utf-8'as f:
    cookie = f.read()
    cookies = json.loads(cookie)

#登錄之后的微信公眾號首頁url變化為:https://mp.weixin.qq.com/cgi-bin/home?t=home/index&lang=zh_CN&token=1086424384,從這里獲取token信息
response = requests.get(url=url, cookies=cookies)
token = re.findall(r'token=(\d+)', str(response.url))[0]

#搜索微信公眾號的接口地址
search_url = 'https://mp.weixin.qq.com/cgi-bin/searchbiz?'
#搜索微信公眾號接口需要傳入的參數(shù),有三個變量:微信公眾號token、隨機數(shù)random、搜索的微信公眾號名字query
query_id = {
    'action''search_biz',
    'token' : token,
    'lang''zh_CN',
    'f''json',
    'ajax''1',
    'random': random.random(),
    'query': query,
    'begin''0',
    'count''5'
}
#打開搜索微信公眾號接口地址,需要傳入相關(guān)參數(shù)信息如:cookies、params、headers
search_response = requests.get(search_url, cookies=cookies, headers=header, params=query_id)
#取搜索結(jié)果中的第一個公眾號
lists = search_response.json().get('list')[0]
#獲取這個公眾號的fakeid,后面爬取公眾號文章需要此字段
fakeid = lists.get('fakeid')

#微信公眾號文章接口地址
appmsg_url = 'https://mp.weixin.qq.com/cgi-bin/appmsg?'
#搜索文章需要傳入幾個參數(shù):登錄的公眾號token、要爬取文章的公眾號fakeid、隨機數(shù)random
query_id_data = {
    'token': token,
    'lang''zh_CN',
    'f''json',
    'ajax''1',
    'random': random.random(),
    'action''list_ex',
    'begin''0',#不同頁,此參數(shù)變化,變化規(guī)則為每頁加5
    'count''5',
    'query''',
    'fakeid': fakeid,
    'type''9'
}
#打開搜索的微信公眾號文章列表頁
appmsg_response = requests.get(appmsg_url, cookies=cookies, headers=header, params=query_id_data)

6

接下來,我們選擇要爬取的公眾號,進入文章列表界面:

7
8
9

分析第一頁、第二頁、…、第四百頁,我們可以知道頁碼數(shù)由 begin 參數(shù)決定,且每一頁 +5,初始頁為 0。這樣,我們可以通過對 begin 進行循環(huán)來爬取多個頁數(shù)。

接下來,我們來查看每篇文章的信息藏在哪里:

10

點擊右側(cè)的 Preview,可以找出 app_msg_list 即可獲取每篇文章的詳細信息,接下來,我們就可以提取我們需要的信息,這里筆者提取了 titlelink、update_time 方便之后存入數(shù)據(jù)庫。

# 起始頁 begin 參數(shù),往后每頁加 5
begin = 0
while begin <= 1995 :
    query_id_data = {
        'token': token,
        'lang''zh_CN',
        'f''json',
        'ajax''1',
        'random': random.random(),
        'action''list_ex',
        'begin''{}'.format(str(begin)),
        'count''5',
        'query''',
        'fakeid': fakeid,
        'type''9'
        }
    print('正在翻頁:--------------',begin)

    # 獲取每一頁文章的標題和鏈接地址,并寫入本地文本中
    query_fakeid_response = requests.get(appmsg_url, cookies=cookies, headers=header, params=query_id_data)
    fakeid_list = query_fakeid_response.json().get('app_msg_list')
    for item in fakeid_list:
        content_link=item.get('link')
        content_title=item.get('title')
        content_time=item.get('update_time')
        fileName=query+'.txt'
        with open(fileName,'a',encoding='utf-8'as fh:
            fh.write(content_title+":\n"+content_link+"\n")
    begin = int(begin)
    begin += 5
    time.sleep(20)

至此,我們就可以將所爬取的公眾號文章存入相應(yīng)的 txt 文件,文本每三行為一篇文章,分別是標題、鏈接、發(fā)表時間。

最后,整合代碼如下:

    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    91偷拍与自偷拍精品| 精品久久少妇激情视频| 亚洲国产一区精品一区二区三区色| 丰满少妇高潮一区二区| 国产精品一区二区视频成人| 人体偷拍一区二区三区| 少妇视频一区二区三区| 国产一区二区三区香蕉av| 亚洲天堂精品一区二区| 国产精品第一香蕉视频| 欧美视频在线观看一区| 欧美日韩在线观看自拍| 欧美亚洲综合另类色妞| 国产av精品高清一区二区三区| 亚洲精品国男人在线视频| 99热在线精品视频观看| 伊人网免费在线观看高清版| 日本加勒比在线播放一区| 在线欧洲免费无线码二区免费 | 欧美日韩三区在线观看| 夫妻性生活真人动作视频 | 中文字幕亚洲人妻在线视频| 国产在线一区二区三区不卡| 九九热这里只有精品视频| 国产精品午夜福利免费阅读 | 一区二区三区在线不卡免费| 国产户外勾引精品露出一区| 亚洲中文字幕在线视频频道| 欧美精品久久一二三区| 亚洲综合色在线视频香蕉视频| 久久精品国产99精品最新| 中文字幕av诱惑一区二区| 在线观看国产成人av天堂野外| 国产精品人妻熟女毛片av久| av一区二区三区天堂| 亚洲性日韩精品一区二区| 亚洲男人天堂成人在线视频| 人妻一区二区三区多毛女| 欧美乱视频一区二区三区| 麻豆剧果冻传媒一二三区| 中文字幕91在线观看|