最近接了一個(gè)大數(shù)據(jù)項(xiàng)目,需要進(jìn)行到數(shù)據(jù)分析,作為一個(gè)從程序員往數(shù)據(jù)挖掘工程師轉(zhuǎn)行的人來說,R語言在靈活性上不如Python,并且在深度神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)開源模塊上,python也比R語言有更好的支持。本文主要利用Ubuntu來搭建虛擬機(jī)來進(jìn)行數(shù)據(jù)分析工作,主要利用了sklearn和keras開源模塊。Google開發(fā)的深度神經(jīng)網(wǎng)絡(luò)python開源模塊tensorflow目前不支持windows系統(tǒng),因此強(qiáng)烈建議使用linux操作系統(tǒng),而redhat雖然是Linux系統(tǒng)中比較成熟的一種,但是其yum是付費(fèi)服務(wù),并且沒有預(yù)裝apt-get等大量的插件,因此選擇ubuntu系統(tǒng),對(duì)于剛?cè)腴T的新手來說更友好。 環(huán)境配置: VM Ware 12.0(在不同主機(jī)之間的文件復(fù)制粘貼比Visual Box要好一點(diǎn)) Anaconda2 (python2.7以及相關(guān)的科學(xué)計(jì)算集成,安裝完成后就可以直接使用科學(xué)計(jì)算所有的模塊,包括最流行的numpy,pandas) JetBrain Pycharm (Python開發(fā)最火的IDE集成開發(fā)工具,方便使用git和github進(jìn)行代碼的管理) Ubuntu16.01 amd64位 1、Ubuntu虛擬機(jī)安裝 選擇Ubuntu的ISO鏡像文件,這時(shí)VM Ware將自動(dòng)選擇為簡(jiǎn)易安裝,不用考慮分區(qū)問題 設(shè)置虛擬主機(jī)的名稱,新建一個(gè)user用戶,并設(shè)置登錄密碼,這個(gè)密碼必須記住,因?yàn)樵谶M(jìn)行管理員操作的時(shí)候必須用到。 選擇虛擬機(jī)的安裝目錄和名稱,這里命名為Ubunu64位 考慮到做大數(shù)據(jù)的數(shù)據(jù)分析,因此磁盤大小建議分配50G,反正只是邏輯磁盤,分配多點(diǎn)沒有問題。 點(diǎn)擊完成,則VM Ware自動(dòng)幫你安裝虛擬機(jī),此時(shí)你只要耐心等待即可。 輸入剛剛設(shè)置的登錄密碼,進(jìn)入桌面 2、安裝git 點(diǎn)擊左上角的圖標(biāo),點(diǎn)擊terminal,打開命令行窗口。 輸入sudo apt-get install git,下載git安裝包 輸入git config --global user.name 'Your Name'git config --global user.email 'youremail@domain.com'設(shè)置你的git的用戶名和郵箱 設(shè)置完成后,輸入git config -list,顯示信息如下: user.name=Your Name user.email=youremail@domain.com 在命令行中輸入git,要是有正確返回,則git安裝完成。 3、Anaconda2的安裝 從官網(wǎng)上直接下載Anaconda2 適合linux的安裝包,復(fù)制粘貼到/home/bigdata/Downloads下,建議直接在Ubuntu的火狐瀏覽器下直接下載,這樣直接從網(wǎng)上將Anaconda2、pycharm下載到相應(yīng)的目錄。pycharm下載后是tar.gz格式,可以右鍵點(diǎn)擊extract here進(jìn)行解壓到當(dāng)前目錄。同時(shí),在/home/bigdata/Downloads下新建data、tmp兩個(gè)文件夾,存放數(shù)據(jù)分析的數(shù)據(jù)和模型結(jié)果。 此時(shí),由于下載的Anaconda2是一個(gè).sh文件,Ubuntu系統(tǒng)對(duì)于.sh文件不能很好的兼容,所以不能直接點(diǎn)擊打開,必須使用命令行打開。 輸入cd /home/bigdata/Downloads跳轉(zhuǎn)到Anaconda2的目錄 輸入bash Anaconda2-4.1.1-Linux-x86_64.sh,啟動(dòng)安裝程序,按照提示進(jìn)行操作 完成后,/home/bigdata文件夾會(huì)有一個(gè)anaconda2的文件夾。 添加環(huán)境變量,使系統(tǒng)能夠使用Anaconda里的工具命令。 輸入sudo gedit /etc/environment,輸入登錄密碼,這里的密碼是不可見的。得到 在PATH路徑中添加anaconda的bin包路徑,注意要添加到“”中,并且用:隔開。 點(diǎn)擊save保存。然后退出 打開命令行,輸入python,如果出現(xiàn)下圖,則Anaconda安裝成功。 但這時(shí)安裝好的Anaconda2里的python2.7.12仍然不是系統(tǒng)默認(rèn)的Python工具 輸入sudo rm /usr/bin/python刪除原系統(tǒng)默認(rèn)的python工具 輸入sudo ln -s /home/bigdata/anaconda2/bin/python2.7 /usr/bin/python建立新連接 輸入source /etc/environment讓操作生效。 輸入python,得到下列信息,則python和anaconda徹底安裝成功。 4、機(jī)器學(xué)習(xí)相關(guān)開源模塊安裝 安裝Anaconda后,可以使用pip或conda工具進(jìn)行下載開源Python模塊,但是必須保持網(wǎng)絡(luò)連接狀態(tài)。由于深度神經(jīng)網(wǎng)絡(luò)和一些機(jī)器學(xué)習(xí)的模塊很新,所以必須兩個(gè)命令都用到。 輸入: conda install theano conda install keras pip install tensorflow pip install sklearn 安裝提示信息安裝,完成后,輸入python進(jìn)入python命令行工具,分別輸入import keras和import sklearn,如果沒有錯(cuò)誤信息,則模塊安裝完成。 5、使用pycharm 打開命令行輸入cd /home/bigdata/Downloads/pycharm-community-2016.2.2/bin 輸入 bash pycharm.sh運(yùn)行pycharm 點(diǎn)擊左上角的FIle-->settings--->version control----->github,輸入自己的github賬號(hào)和密碼,點(diǎn)擊測(cè)試 點(diǎn)擊Test后,第一次會(huì)讓你設(shè)置本地github的登錄密碼,這個(gè)密碼必須記住,因?yàn)槭遣皇窍到y(tǒng)在你提交代碼或者從github上clone時(shí)需要填寫這個(gè)密碼來驗(yàn)證。如果你的github賬號(hào)密碼都正確,則出現(xiàn)下圖。 在選擇git這個(gè)選項(xiàng),設(shè)置你已經(jīng)安裝好的git工具的路徑,一般為/usr/bin/git. 點(diǎn)擊Test,出現(xiàn)下圖則github和git都配置成功,可以使用了。 5、從github中導(dǎo)入項(xiàng)目 從菜單欄中點(diǎn)擊VCS,選擇checkout from version control,再選擇github。 然后就可以選擇你想要的項(xiàng)目導(dǎo)入到本地了 有興趣的同學(xué)可以在URL那欄復(fù)制粘貼https://github.com:braveld/PythonProgram.git,這是我分享的我找的一些機(jī)器學(xué)習(xí)的代碼,以及sklearn和keras的用法,比較容易入手。機(jī)器學(xué)習(xí)的訓(xùn)練集和測(cè)試集留言并留下你的郵箱,我會(huì)盡快發(fā)給你。 |
|