1 前言 最近爬取的數(shù)據(jù)都是網(wǎng)頁(yè)端,今天來(lái)教大家如何爬取手機(jī)端app數(shù)據(jù)(本文以ios蘋果手機(jī)為例,其實(shí)安卓跟ios差不多)! 本文將以『某乎』為實(shí)戰(zhàn)案例,手把手教你從配置到代碼一步一步的爬取App數(shù)據(jù)! 2 配置抓包工具 1.安裝軟件本文選擇的抓包工具:Fiddler 具體的下載安裝這里不詳細(xì)贅述?。ňW(wǎng)上搜Fiddler安裝,一大堆教程),本文以實(shí)戰(zhàn)為例,就不再這里浪費(fèi)時(shí)間了! 2.配置Fiddler安裝好之后,接下來(lái)就開始配置Fiddler工具(這里是關(guān)鍵,仔細(xì)閱讀!) 配置Connections打開Fiddler后,點(diǎn)擊Tools->Options 點(diǎn)擊Connections 勾選上對(duì)應(yīng)的選項(xiàng) 配置HTTPS由于目前大部分APP都是https加密,包括本文實(shí)戰(zhàn)『某乎』案例也是https加密,因此配置HTTPS,來(lái)抓取https數(shù)據(jù)包! 勾選上對(duì)應(yīng)的選項(xiàng) 最后抓包工具Fiddler就配置好了 記得重啟Fiddler!重啟Fiddler!重啟Fiddler!不然可能不生效 3 配置手機(jī)代理 1.設(shè)置代理準(zhǔn)備工作首先看一下安裝Fiddler主機(jī)ip(電腦和手機(jī)必須處于同一局域網(wǎng)) 查看ip命令 window:ipconfig mac或linux:ifconfig 開始配置目標(biāo)代理主機(jī)信息 端口:8888 在wifi無(wú)線網(wǎng)處進(jìn)去,點(diǎn)擊配置代理 填寫好相關(guān)代理信息 2.安裝證書在瀏覽器輸入: http://192.168.31.195:8888 點(diǎn)擊下載證書后,下面就開始安裝(看圖操作) ok,這樣手機(jī)端就配置完成,下面開始抓取數(shù)據(jù)!??! 4 抓取數(shù)據(jù) 1.打開某乎app2.查看數(shù)據(jù)包列表打開app之后,F(xiàn)iddler就已經(jīng)抓取到數(shù)據(jù)了 這里可以看到app發(fā)送和接收了哪些數(shù)據(jù)包 為了更加精準(zhǔn)定位到某乎(只看目標(biāo)的數(shù)據(jù)包),添加一個(gè)過濾條件 這樣我們獲取的數(shù)據(jù)包列表就都是過濾條件內(nèi)的目標(biāo)網(wǎng)址 3.查找數(shù)據(jù)包比如點(diǎn)擊熱榜 對(duì)應(yīng)的https加密數(shù)據(jù)包如下: 數(shù)據(jù)包中的數(shù)據(jù)如下: 提取出url鏈接 https://api.zhihu.com/topstory/hot-list?limit=10&reverse_order=0 拿到url之后,接著開始編程爬取保存數(shù)據(jù)。 4.編寫爬蟲程序
ok這樣就可以將數(shù)據(jù)獲取下來(lái)! 5 總結(jié) 1.配置抓包工具Fiddler(重點(diǎn))。 2.ios蘋果手機(jī)配置證書和設(shè)置代理(安卓手機(jī)也類似)。 3.簡(jiǎn)單使用Fiddler(過濾數(shù)據(jù)包、查看數(shù)據(jù)包等)。 4.本文以某戶為實(shí)戰(zhàn),實(shí)現(xiàn)了python爬取手機(jī)app數(shù)據(jù)(詳細(xì)教程,推薦收藏)。 |
|