好書推薦：Python網(wǎng)絡(luò)數(shù)據(jù)采集（附代碼）

天道酬勤YXJ1 2017-04-18

展開全文

關(guān)注天善智能↑，走好數(shù)據(jù)之路

歡迎關(guān)注天善智能微信公眾號(hào)，我們是專注于商業(yè)智能BI，大數(shù)據(jù)，數(shù)據(jù)分析領(lǐng)域的垂直社區(qū)。

對(duì)商業(yè)智能BI、大數(shù)據(jù)分析挖掘、機(jī)器學(xué)習(xí)，python，R等數(shù)據(jù)領(lǐng)域感興趣的同學(xué)加微信：tstoutiao，邀請(qǐng)你進(jìn)入頭條數(shù)據(jù)愛好者交流群，數(shù)據(jù)愛好者們都在這兒。

小編最近在學(xué)習(xí)Python網(wǎng)絡(luò)爬蟲爬取數(shù)據(jù)，除了在天善學(xué)院學(xué)習(xí)教學(xué)視頻以外，也發(fā)現(xiàn)一本挺不錯(cuò)的教材《Python網(wǎng)絡(luò)數(shù)據(jù)采集》，推薦給大家，有需要電子書的可以加小編微信：tstoutiao獲取，當(dāng)然也會(huì)寫一些小的爬蟲程序，歡迎留言交流。

案例分享：為了找一份Python實(shí)習(xí)，我用爬蟲收集數(shù)據(jù)

import requests,xlwt,os
from bs4 import BeautifulSoup
from lxml import etree
from fake_useragent import UserAgent
ua = UserAgent()
headers = {'User-Agent': 'ua.random'}
job = []
location = []
company = []
salary = []
link = []
for k in range(1, 10):
url = 'http://www./interns?k=python&p=' + str(k)
r = requests.get(url, headers=headers).text
s = etree.HTML(r)
job1 = s.xpath('//a/h3/text()')
location1 = s.xpath('//span/span/text()')
company1 = s.xpath('//p/a/text()')
salary1 = s.xpath('//span[contains(@class,'money_box')]/text()')
link1 = s.xpath('//div[@class='job_head']/a/@href')
for i in link1:
url = 'http://www.' + i
link.append(url)
salary11 = salary1[1::2]
for i in salary11:
salary.append(i.replace('\n\n', ''))
job.extend(job1)
location.extend(location1)
company.extend(company1)
detail = []
for i in link:
r = requests.get(i, headers=headers).text
soup = BeautifulSoup(r, 'lxml')
word = soup.find_all(class_='dec_content')
for i in word:
a = i.get_text()
detail.append(a)
book = xlwt.Workbook()
sheet = book.add_sheet('sheet', cell_overwrite_ok=True)
path = 'D:\\Pycharm\\spider'
os.chdir(path)
j = 0
for i in range(len(job)):
try:
sheet.write(i + 1, j, job[i])
sheet.write(i + 1, j + 1, location[i])
sheet.write(i + 1, j + 2, company[i])
sheet.write(i + 1, j + 3, salary[i])
sheet.write(i + 1, j + 4, link[i])
sheet.write(i + 1, j + 5, detail[i])
except Exception as e:
print('出現(xiàn)異常：' + str(e))
continue
book.save('d:\\python.xls')

好書推薦：Python網(wǎng)絡(luò)數(shù)據(jù)采集（附代碼）

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：天道酬勤YXJ1 > 《讀書》

舉報(bào)/認(rèn)領(lǐng)

0條評(píng)論

發(fā)表

請(qǐng)遵守用戶評(píng)論公約

類似文章 更多

一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

好書推薦：Python網(wǎng)絡(luò)數(shù)據(jù)采集（附代碼）

關(guān)注天善智能↑，走好數(shù)據(jù)之路