今天 小帥b想給大家講一個(gè)小明的小故事 ... 話說(shuō) 在很久很久以前 小明不小心發(fā)現(xiàn)了一個(gè)叫做 學(xué)習(xí)python的正確姿勢(shì) 的公眾號(hào) 從此一發(fā)不可收拾 看到什么網(wǎng)站都想爬取 有一天 小明發(fā)現(xiàn)了一個(gè)小黃網(wǎng) 里面的小姐姐 一個(gè)比一個(gè)誘人 看了一會(huì)這個(gè)小黃網(wǎng) 小明不知道在倒騰什么 反正30秒之后小明虎軀一震 .... 那天晚上 小明躺在床上 夜不能寐 腦子一直都停留在那個(gè)小黃網(wǎng)上 突然靈光一閃 我這不是剛學(xué)了爬蟲(chóng)技術(shù)么 我應(yīng)該把那個(gè)網(wǎng)站上的小姐姐都爬取到自己的電腦啊 就算下次那個(gè)小黃網(wǎng)沒(méi)了 自己也還有東西可看 真是佩服自己的機(jī)智啊 ..... 第二天小明就開(kāi)始爬取小黃網(wǎng)了 小明使用 python爬蟲(chóng)入門(mén)01:教你在 Chrome 瀏覽器輕松抓包 抓了一下數(shù)據(jù)的請(qǐng)求 然后用 python爬蟲(chóng)04 | 長(zhǎng)江后浪推前浪,Reuqests庫(kù)把urllib庫(kù)拍在沙灘上 開(kāi)啟一頓的騷操作 ... 哎~ 小明還是太年輕了 這時(shí)候網(wǎng)絡(luò)運(yùn)維人員看到了自己的服務(wù)器 “瓦里割草” 怎么突然被瘋狂的請(qǐng)求? 趕緊看一下日志 媽的,都是同一個(gè) IP 誰(shuí)他媽閑著沒(méi)事來(lái)搞我? 小伙再定睛一看 我去, user-agent 是 python 程序 把小伙子給氣的啊 直接把對(duì)方的 ip 地址給封了(加入黑名單) .... 小明本來(lái)以為一切都能按自己計(jì)劃行事 沒(méi)想到突然中斷了 小明重新運(yùn)行了一下程序 發(fā)現(xiàn)完全無(wú)法連接了 以為是自己的網(wǎng)絡(luò)斷了 可是自己上百度是可以的啊 后來(lái)突然想到 好像之前 小帥b 說(shuō)過(guò) 爬蟲(chóng)要學(xué)會(huì)偽裝,要不然很容易被對(duì)方識(shí)破的 .... 原來(lái)如此 小明使用了代理ip 把 user-agent 設(shè)置為 Chrome 瀏覽器 然后又開(kāi)始一頓的爬取了 還特么開(kāi)啟了多線程 .... 運(yùn)維人員又發(fā)現(xiàn)不對(duì)勁 媽的 這數(shù)據(jù)不正常,這不正常 肯定有人又來(lái)搞事情了 然后就把網(wǎng)站設(shè)置為只有登錄的人才可以獲取數(shù)據(jù) ..... 小明發(fā)現(xiàn)了 覺(jué)得這是小意思 在這個(gè)網(wǎng)站注冊(cè)了賬號(hào) 然后設(shè)置了相應(yīng)的cookie 繼續(xù)爬! .... 沒(méi)過(guò)多久 小明的手機(jī)突然響了 小明以為是自己的外賣(mài)到了 拿起電話就說(shuō):來(lái)了~ 結(jié)果沒(méi)想到的是 手機(jī)那邊傳來(lái):wcnmlgb!你他媽再爬你看我不弄死你 嚇得小明差點(diǎn)yw 挖槽 原來(lái)剛剛自己注冊(cè)的是自己的手機(jī)號(hào)碼 小明突然覺(jué)得自己太 sb 了 .... 小明本來(lái)想就這樣算了的 可是剛被罵的覺(jué)得很不爽 小明把自己的手機(jī)關(guān)機(jī) 然后自己注冊(cè)了很多個(gè)賬號(hào) 搞了多個(gè) cookie 池 一起爬??! .... 這次運(yùn)維人員慌了 沒(méi)想到對(duì)方這么會(huì)搞事情 開(kāi)始對(duì)那些頻繁訪問(wèn)的ip給封了 然后給自己的網(wǎng)站加了驗(yàn)證碼 誰(shuí)他媽想要請(qǐng)求數(shù)據(jù) 都要先輸入一次驗(yàn)證碼才可以 這次看你怎么搞 .... 小明這次真的是杠上了 機(jī)器學(xué)習(xí)識(shí)別驗(yàn)證碼都搞上了 直接在程序自動(dòng)識(shí)別驗(yàn)證碼然后進(jìn)行請(qǐng)求 這次小明完全不把小帥b放在眼里了 .... 運(yùn)維人員快要沒(méi)辦法了 突然看到了一些大量的請(qǐng)求都只是獲取 HTML 數(shù)據(jù) 但是 js 和 css 這些都不請(qǐng)求的 不合理 于是把整個(gè)網(wǎng)站 都不直接返回 HTML 了 用 ajax 加載 ..... 小明呵呵一笑 這能難倒我? 拿出最近小帥b說(shuō)的 python爬蟲(chóng)09 | 上來(lái),自己動(dòng) !這就是 selenium 的牛逼之處 直接模仿人類操作 這還沒(méi)完 聽(tīng) 小帥b 說(shuō)還有一個(gè)叫做 phantomjs 的玩意 selenium + phantomjs 可以達(dá)到完全模擬瀏覽器操作 友情提示:小帥b 下篇推文會(huì)跟大家說(shuō)怎么使用selenium + phantomjs .... 這下 運(yùn)維人員真的沒(méi)辦法了 玩不動(dòng)了 只能說(shuō)一句 真的求求你們了,不要再來(lái)爬取了! ... 哈~ 本故事純屬亂吹 如有雷同 別在意 最后 大家都是程序員 不容易 別亂搞事情 掃一掃 學(xué)習(xí) Python 沒(méi)煩惱 |
|