Python常見(jiàn)的數(shù)據(jù)類型主要包括:不可變數(shù)據(jù)類型和可變數(shù)據(jù)類型,其中前者有:Number(數(shù)字類型),String(字符串類型),Tuple(元組);后者有:List(列表類型),Dict(字典類型),Set(集合類型)。 絕大多數(shù)爬蟲是按“發(fā)送請(qǐng)求——獲得頁(yè)面——解析頁(yè)面——抽取并儲(chǔ)存內(nèi)容”的流程運(yùn)行。 Python中和爬蟲有關(guān)的包有以下數(shù)量:
前輩們指導(dǎo)從requests+Xpath 開(kāi)始學(xué)習(xí),requests 的主要作用是連接網(wǎng)站,返回網(wǎng)頁(yè),Xpath 的主要作用是解析網(wǎng)頁(yè),便于抽取數(shù)據(jù)。 scrapy是一個(gè)功能非常強(qiáng)大的爬蟲框架,它不僅能便捷地構(gòu)建request,還有強(qiáng)大的 selector 能夠方便地解析response。 如果爬到的數(shù)據(jù)量較小時(shí),可以用文檔的形式來(lái)存儲(chǔ)這些小量數(shù)據(jù),如果爬到的數(shù)據(jù)量比較大,就不能采用上面的方法了。 MongoDB 可以方便你去存儲(chǔ)一些非結(jié)構(gòu)化的數(shù)據(jù)。 分布式爬蟲就是用多線程的原理讓多個(gè)爬蟲同時(shí)運(yùn)行,但需要掌握Scrapy+MongoDB + Redis 這三種工具。
用 lxml+Xpath代替 BeautifulSoup 來(lái)進(jìn)行網(wǎng)頁(yè)解析。 當(dāng)使用者不習(xí)慣使用IDLE,則可用熟悉的無(wú)格式文本編輯器編寫Python程序,如果是:
在編輯 Python 的文件時(shí),需要注意程序中單詞的大小寫,Python 程序中對(duì)于大小寫是嚴(yán)格區(qū)分的。 Python程序中沒(méi)有要求語(yǔ)句使用分號(hào)結(jié)尾,當(dāng)然使用分號(hào)也行,就是并沒(méi)有實(shí)質(zhì)的作用(除非同一行有更多的代碼),還有就是這種寫代碼的方法Python是不推薦的。 到現(xiàn)在這個(gè)階段,Python已經(jīng)經(jīng)歷多個(gè)版本了,并且每次更新,代碼的呈現(xiàn)方式會(huì)發(fā)生較大變化,看看下面這個(gè)最簡(jiǎn)單的Python程序:
print 'Hello World'
現(xiàn)階段,一般都在使用Python第三個(gè)版本了。 可以看看運(yùn)行的效果: 注意:Windows 系統(tǒng),Mac OS X 或 Linux 系統(tǒng)都區(qū)分大小寫。 可以看看大小寫的區(qū)別:
|
|
來(lái)自: 生物_醫(yī)藥_科研 > 《待分類》