百度文檔，用Python一鍵免費下載

網(wǎng)海拾貝網(wǎng)絡(luò)豬 2021-02-26

展開全文

百度文庫下載需要券，或者vip才能下載

Vip價格高，偶爾下載一次不劃算。

不下載復(fù)制？不好意思復(fù)制也需要vip否則只能一次復(fù)制兩行。

如何才能以最低成本獲取到百度文庫里的文檔內(nèi)容呢？

當然是用Python啦！

接下來教大家如何使用Python免費下載百度文檔。

由于百度文庫的內(nèi)容是通過網(wǎng)頁展示的，那我們猜他是通過后臺加載進來的?？梢韵韧ㄟ^Ctrl+u查看HTML源碼，看源碼里面是否有文檔數(shù)據(jù)。很遺憾HTML源碼里面并沒有文檔內(nèi)容。

確定不是通過HTML加載的之后，我們就可以大膽的猜測他是通過json異步加載。所以通過F12打開開發(fā)者管理工具network抓包，查看頁面加載過程請求的URL。這里會有大量的請求，但是我們仔細觀察會發(fā)現(xiàn)有一個0.json的URL返回的數(shù)據(jù)就是文檔的文本數(shù)據(jù)。

拿到請求文檔數(shù)據(jù)的URL后需要確定URL參數(shù)。通過查看headers確定請求方式為GET請求。請求參數(shù)里x-bce-range和token是變動的，其他都是固定不變。

token這個東西很多時候都會寫入到HTML頁面里去，用途是防csrf攻擊。但是百度文檔里面的token有什么用我們不用關(guān)心，重要的是這個token那里來。去HTML源代碼里查看這兩個變量能不能獲取到。

果然，在HTML源碼里有一段js代碼，其中就包含了所有請求文檔的URL。看起來有點像，但還是不一樣?。∑鋵嵾@里是包含了轉(zhuǎn)移符 \ ,還有一個比較奇怪的 \x22 其實是一個雙引號。把這段不規(guī)范的json數(shù)據(jù)提取出來替換掉 \ 和 \x22就是一個標準的json格式數(shù)據(jù)。

提取文檔數(shù)據(jù)URL代碼實現(xiàn)

def get_document():

# 文庫url

url = "https://wenku.baidu.com/view/eefef92fa1116c175f0e7cd184254b35eefd1a97.html?from=search"

sess = requests.Session()

html = sess.get(url).content.decode("gbk")

# 抓取到文檔標題

title = re.search('id="doc-tittle-0">(.*?)</span>', html).group(1)

# 使用正則提取文檔內(nèi)容的url

res = re.search("WkInfo.htmlUrls = '(.*)'", html).group(1)

# \\x22是linux中的引號，替換成Python中的引號

res = res.replace("\\x22", "\"")