基因組學(xué)在生物學(xué)科的發(fā)展中,具有劃時(shí)代的意義。同時(shí),很多人在剛進(jìn)入生物信息學(xué)領(lǐng)域時(shí),最先接觸的也往往是組裝基因組,注釋基因組。這在我們生信技能樹的公號(hào)里有詳細(xì)的教程,需要者可去公號(hào)get資源。前面jimmy老師介紹了sra和ebi這兩個(gè)高通量測(cè)序數(shù)據(jù)存放中心: 其實(shí)在中國(guó)也有類似sra和ebi的數(shù)據(jù)庫(kù)資源存放中心,下面讓我們?nèi)チ私庀氯绾螐闹锌圃罕本┗蚪M所下載數(shù)據(jù)。 首先,當(dāng)你進(jìn)入中科院北京基因組所的官網(wǎng)時(shí),會(huì)看到各種介紹,最先看到的是對(duì)GSA數(shù)據(jù)的介紹。為確保與國(guó)際同類數(shù)據(jù)庫(kù)系統(tǒng)的兼容性,GSA遵循INSDC聯(lián)盟的數(shù)據(jù)標(biāo)準(zhǔn),GSA元數(shù)據(jù)類別主要包括:項(xiàng)目信息(BioProject)、樣本信息(BioSample)、實(shí)驗(yàn)信息(Experiment)、以及測(cè)序反應(yīng)(Run)信息。 顧名思義,項(xiàng)目信息是用來描述所開展研究的目的、涉及物種、數(shù)據(jù)類型、研究思路等信息;樣本信息是指本研究涉及的生物樣本描述,如樣本類型、樣本屬性等;實(shí)驗(yàn)信息包括實(shí)驗(yàn)?zāi)康摹⑽膸?kù)構(gòu)建方式、測(cè)序類型等信息;測(cè)序反應(yīng)信息包括測(cè)序文件和對(duì)應(yīng)的校驗(yàn)信息。你,詳(想)看下圖所示: 至于元數(shù)據(jù)的組織關(guān)系,一個(gè)Run里放一對(duì)paired-end測(cè)序數(shù)據(jù)文件。網(wǎng)站使用三株菌株的比較基因組數(shù)據(jù)做了詳細(xì)介紹,想看的同志可以移步https://bigd./gsa/documents。不同的是,GSA的數(shù)據(jù)庫(kù)將生物學(xué)重復(fù)作為不同的Biosample,技術(shù)性重復(fù)作為不同的experiments。 下面進(jìn)入正題(開始blablabla)… way1: 第一步:從官網(wǎng)進(jìn)入,需要注冊(cè)登錄BIG Sub系統(tǒng),在GSA數(shù)據(jù)庫(kù)列表中,找到Operation有個(gè)“Share”控件。又要拿圖說話了(圖真好用?。? 第二步:點(diǎn)擊“Share”,會(huì)生成如下圖所示的分享鏈接,復(fù)制該鏈接并提供給編審,其即可以查看數(shù)據(jù)。Again,如圖所示: Way2: 通過FTP傳輸數(shù)據(jù),相當(dāng)高效叻,想學(xué)的同志們,要注意聽講了哈! 單刀直入數(shù)據(jù)下載界面https://bigd./gsa/ 點(diǎn)進(jìn)去啊!同志們!選擇自己需要下載的數(shù)據(jù),比如我需要的數(shù)據(jù)網(wǎng)站是ftp://download./gsa/CRA000167 那么,問題來了,下載子文件夾中的一個(gè)很好下載,如果下載thousands of GSA data 腫么辦呢? 憋慌,姐姐已經(jīng)提前給你解決這個(gè)問題了。你們表太幸福啊。 Solution1:使用FTP傳輸軟件進(jìn)行下載,舉個(gè)栗子哈,filezilla(不管你是蘋果還是Windows,都好用到哭?。┗蛘遷inSCP。 Solution2: 使用wget啊,這可是入門生信的同志們最先接觸的命令啊(想當(dāng)年我也用wget下載第一個(gè)軟件時(shí)可是興奮得不要不要滴呀)BUT,光用wget 也只能一次下載一個(gè)數(shù)據(jù)文件,別慌,加參數(shù)啊 還記得Linux里面常用的迭代嗎?-r 好用到飛起來啊。Wget -r ftp://download./gsa/CRA000167就可以批量下載數(shù)據(jù)啦(我太快樂了)關(guān)鍵是 還能按照網(wǎng)站存放數(shù)據(jù)那樣,一個(gè)一個(gè)的文件夾分層次,真棒!當(dāng)然,你也可以用循環(huán),譬如我剛學(xué)的while 循環(huán)啦 for 循環(huán)了,也是相當(dāng)好用。至于如何使用循環(huán)語句批量下載GSA的FTP數(shù)據(jù),且聽下回分解啦哈哈。最后,咱也是與時(shí)俱進(jìn)的銀耳啊,在如今Python盛行的era,可不能忘了他。使用Python的scrapy也是闊以爬數(shù)據(jù)滴,至于怎么使用爬蟲爬取數(shù)據(jù),且聽下下回分解哈。 這個(gè)只能按照人家網(wǎng)站的規(guī)矩來咯! 賬戶注冊(cè)完成后,您可遵循以下原則進(jìn)行數(shù)據(jù)信息錄入: 1) 進(jìn)入GSA數(shù)據(jù)庫(kù)創(chuàng)建GSA 2) 如果您之前沒有創(chuàng)建項(xiàng)目(BioProject)和樣本(BioSample)請(qǐng)分別進(jìn)入BioProject數(shù)據(jù)庫(kù)和BioSample數(shù)據(jù)庫(kù)完成創(chuàng)建,詳見GSA使用說明。 3) 完成GSA數(shù)據(jù)集中Experiment和Run的元數(shù)據(jù)信息錄入——實(shí)現(xiàn)與BioProject、BioSample和數(shù)據(jù)文件的相互關(guān)聯(lián)。 4) 通過FTP完成數(shù)據(jù)文件上傳。 如果你有很多很多的數(shù)據(jù)需要批量提交的話呢?也肯定可以的了。 第一步,通過BIG Sub數(shù)據(jù)統(tǒng)一匯交入口,進(jìn)入GSA數(shù)據(jù)庫(kù) 第二步,點(diǎn)擊“Batch Submission”進(jìn)入“批量上傳表格”下載頁面,請(qǐng)根據(jù)提示信息下載相應(yīng)的表格模板與例子,填好后請(qǐng)發(fā)送至gsa@。 最后,還是要重磅推薦FTP傳輸tools啊,沒辦法,誰讓人家辦事能力強(qiáng)捏。 請(qǐng)使用 FTP客戶端軟件(比如FileZilla Client)登錄 FTP 服務(wù)器。請(qǐng)采用二進(jìn)制模式上傳,如果是用FTP軟件上傳,請(qǐng)參考軟件說明進(jìn)行設(shè)置;如果是用FTP指令上傳,請(qǐng)?jiān)凇癿put”指令前,先運(yùn)行“binary”指令。 FTP服務(wù)器地址:ftp://submit. 用戶賬號(hào)與BIG sub賬號(hào)一致。 注意:用戶登錄自己的FTP路徑后,先cd 到 /GSA目錄下再上傳文件。 數(shù)據(jù)上傳完畢后,GSA后臺(tái)系統(tǒng)需要進(jìn)行相應(yīng)的審核,請(qǐng)耐心等待并密切關(guān)注系統(tǒng)和郵箱的情況反饋。 Well,人網(wǎng)站也給介紹了呢。 MD5碼主要是用來校驗(yàn)遞交的數(shù)據(jù)在網(wǎng)絡(luò)傳輸過程中是否損壞或丟包,它是由數(shù)字和英文字母組成的長(zhǎng)度為32的定長(zhǎng)字符串。 ? Linux用戶請(qǐng)使用$md5sum命令計(jì)算; ? Mac用戶請(qǐng)使用$md5命令計(jì)算; ? Windows用戶請(qǐng)使用第三方工具進(jìn)行計(jì)算,例如winmd5free。 介紹到這,你應(yīng)該會(huì)從北京基因組所中心下載和提交數(shù)據(jù)了叭,給你一個(gè)任務(wù): 上面截圖里面的數(shù)據(jù)來源于百度李彥宏的食管癌文章的508個(gè)病人的全基因組測(cè)序,你試試看能不能申請(qǐng)下載它! 如果你要是想問能提交什么類型的數(shù)據(jù),網(wǎng)站是醬紫說滴:推薦提交FASTQ或BAM格式的測(cè)序文件。其中,F(xiàn)ASTQ格式數(shù)據(jù)只接收GZIP和BZIP2兩種壓縮格式的文件(不接收7-ZIP、RAR、TAR格式)。 文末友情宣傳
|
|