一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

北京基因組所數(shù)據(jù)庫(kù)介紹(類似sra和ebi)

 健明 2021-07-14

基因組學(xué)在生物學(xué)科的發(fā)展中,具有劃時(shí)代的意義。同時(shí),很多人在剛進(jìn)入生物信息學(xué)領(lǐng)域時(shí),最先接觸的也往往是組裝基因組,注釋基因組。這在我們生信技能樹的公號(hào)里有詳細(xì)的教程,需要者可去公號(hào)get資源。前面jimmy老師介紹了sra和ebi這兩個(gè)高通量測(cè)序數(shù)據(jù)存放中心:

其實(shí)在中國(guó)也有類似sra和ebi的數(shù)據(jù)庫(kù)資源存放中心,下面讓我們?nèi)チ私庀氯绾螐闹锌圃罕本┗蚪M所下載數(shù)據(jù)。

首先,當(dāng)你進(jìn)入中科院北京基因組所的官網(wǎng)時(shí),會(huì)看到各種介紹,最先看到的是對(duì)GSA數(shù)據(jù)的介紹。為確保與國(guó)際同類數(shù)據(jù)庫(kù)系統(tǒng)的兼容性,GSA遵循INSDC聯(lián)盟的數(shù)據(jù)標(biāo)準(zhǔn),GSA元數(shù)據(jù)類別主要包括:項(xiàng)目信息(BioProject)、樣本信息(BioSample)、實(shí)驗(yàn)信息(Experiment)、以及測(cè)序反應(yīng)(Run)信息。

顧名思義,項(xiàng)目信息是用來描述所開展研究的目的、涉及物種、數(shù)據(jù)類型、研究思路等信息;樣本信息是指本研究涉及的生物樣本描述,如樣本類型、樣本屬性等;實(shí)驗(yàn)信息包括實(shí)驗(yàn)?zāi)康摹⑽膸?kù)構(gòu)建方式、測(cè)序類型等信息;測(cè)序反應(yīng)信息包括測(cè)序文件和對(duì)應(yīng)的校驗(yàn)信息。,詳(想)看下圖所示:

至于元數(shù)據(jù)的組織關(guān)系,一個(gè)Run里放一對(duì)paired-end測(cè)序數(shù)據(jù)文件。網(wǎng)站使用三株菌株的比較基因組數(shù)據(jù)做了詳細(xì)介紹,想看的同志可以移步https://bigd./gsa/documents。不同的是,GSA的數(shù)據(jù)庫(kù)將生物學(xué)重復(fù)作為不同的Biosample,技術(shù)性重復(fù)作為不同的experiments。

下面進(jìn)入正題(開始blablabla)…

Question 1
如何從下載data捏?

way1:

第一步:從官網(wǎng)進(jìn)入,需要注冊(cè)登錄BIG Sub系統(tǒng),在GSA數(shù)據(jù)庫(kù)列表中,找到Operation有個(gè)“Share”控件。又要拿圖說話了(圖真好用?。?

第二步:點(diǎn)擊“Share”,會(huì)生成如下圖所示的分享鏈接,復(fù)制該鏈接并提供給編審,其即可以查看數(shù)據(jù)。Again,如圖所示:

Way2

通過FTP傳輸數(shù)據(jù),相當(dāng)高效叻,想學(xué)的同志們,要注意聽講了哈!

單刀直入數(shù)據(jù)下載界面https://bigd./gsa/

點(diǎn)進(jìn)去啊!同志們!選擇自己需要下載的數(shù)據(jù),比如我需要的數(shù)據(jù)網(wǎng)站是ftp://download./gsa/CRA000167

那么,問題來了,下載子文件夾中的一個(gè)很好下載,如果下載thousands of GSA data 腫么辦呢?

憋慌,姐姐已經(jīng)提前給你解決這個(gè)問題了。你們表太幸福啊。

Solution1:使用FTP傳輸軟件進(jìn)行下載,舉個(gè)栗子哈,filezilla(不管你是蘋果還是Windows,都好用到哭?。┗蛘遷inSCP。

Solution2: 使用wget啊,這可是入門生信的同志們最先接觸的命令啊(想當(dāng)年我也用wget下載第一個(gè)軟件時(shí)可是興奮得不要不要滴呀)BUT,光用wget 也只能一次下載一個(gè)數(shù)據(jù)文件,別慌,加參數(shù)啊 還記得Linux里面常用的迭代嗎?-r 好用到飛起來啊。Wget -r

ftp://download./gsa/CRA000167

就可以批量下載數(shù)據(jù)啦(我太快樂了)關(guān)鍵是 還能按照網(wǎng)站存放數(shù)據(jù)那樣,一個(gè)一個(gè)的文件夾分層次,真棒!當(dāng)然,你也可以用循環(huán),譬如我剛學(xué)的while 循環(huán)啦 for 循環(huán)了,也是相當(dāng)好用。至于如何使用循環(huán)語句批量下載GSA的FTP數(shù)據(jù),且聽下回分解啦哈哈。最后,咱也是與時(shí)俱進(jìn)的銀耳啊,在如今Python盛行的era,可不能忘了他。使用Python的scrapy也是闊以爬數(shù)據(jù)滴,至于怎么使用爬蟲爬取數(shù)據(jù),且聽下下回分解哈。

Question 2
如何向網(wǎng)站提交數(shù)據(jù)呢?

這個(gè)只能按照人家網(wǎng)站的規(guī)矩來咯!

賬戶注冊(cè)完成后,您可遵循以下原則進(jìn)行數(shù)據(jù)信息錄入:

1) 進(jìn)入GSA數(shù)據(jù)庫(kù)創(chuàng)建GSA

2) 如果您之前沒有創(chuàng)建項(xiàng)目(BioProject)和樣本(BioSample)請(qǐng)分別進(jìn)入BioProject數(shù)據(jù)庫(kù)和BioSample數(shù)據(jù)庫(kù)完成創(chuàng)建,詳見GSA使用說明

3) 完成GSA數(shù)據(jù)集中Experiment和Run的元數(shù)據(jù)信息錄入——實(shí)現(xiàn)與BioProject、BioSample和數(shù)據(jù)文件的相互關(guān)聯(lián)。

4) 通過FTP完成數(shù)據(jù)文件上傳。

如果你有很多很多的數(shù)據(jù)需要批量提交的話呢?也肯定可以的了。

第一步,通過BIG Sub數(shù)據(jù)統(tǒng)一匯交入口,進(jìn)入GSA數(shù)據(jù)庫(kù)

第二步,點(diǎn)擊“Batch Submission”進(jìn)入“批量上傳表格”下載頁面,請(qǐng)根據(jù)提示信息下載相應(yīng)的表格模板與例子,填好后請(qǐng)發(fā)送至gsa@。

最后,還是要重磅推薦FTP傳輸tools啊,沒辦法,誰讓人家辦事能力強(qiáng)捏。

請(qǐng)使用 FTP客戶端軟件(比如FileZilla Client)登錄 FTP 服務(wù)器。請(qǐng)采用二進(jìn)制模式上傳,如果是用FTP軟件上傳,請(qǐng)參考軟件說明進(jìn)行設(shè)置;如果是用FTP指令上傳,請(qǐng)?jiān)凇癿put”指令前,先運(yùn)行“binary”指令。

FTP服務(wù)器地址:ftp://submit.

用戶賬號(hào)與BIG sub賬號(hào)一致。

注意:用戶登錄自己的FTP路徑后,先cd 到 /GSA目錄下再上傳文件。

數(shù)據(jù)上傳完畢后,GSA后臺(tái)系統(tǒng)需要進(jìn)行相應(yīng)的審核,請(qǐng)耐心等待并密切關(guān)注系統(tǒng)和郵箱的情況反饋。

Question 3
什么是md5碼?怎么算?

Well,人網(wǎng)站也給介紹了呢。

MD5碼主要是用來校驗(yàn)遞交的數(shù)據(jù)在網(wǎng)絡(luò)傳輸過程中是否損壞或丟包,它是由數(shù)字和英文字母組成的長(zhǎng)度為32的定長(zhǎng)字符串。

? Linux用戶請(qǐng)使用$md5sum命令計(jì)算;

? Mac用戶請(qǐng)使用$md5命令計(jì)算;

? Windows用戶請(qǐng)使用第三方工具進(jìn)行計(jì)算,例如winmd5free

介紹到這,你應(yīng)該會(huì)從北京基因組所中心下載和提交數(shù)據(jù)了叭,給你一個(gè)任務(wù):

上面截圖里面的數(shù)據(jù)來源于百度李彥宏的食管癌文章的508個(gè)病人的全基因組測(cè)序,你試試看能不能申請(qǐng)下載它!

如果你要是想問能提交什么類型的數(shù)據(jù),網(wǎng)站是醬紫說滴:推薦提交FASTQ或BAM格式的測(cè)序文件。其中,F(xiàn)ASTQ格式數(shù)據(jù)只接收GZIP和BZIP2兩種壓縮格式的文件(不接收7-ZIP、RAR、TAR格式)。



文末友情宣傳

強(qiáng)烈建議你推薦我們生信技能樹給身邊的博士后以及年輕生物學(xué)PI,幫助他們多一點(diǎn)數(shù)據(jù)認(rèn)知,讓科研更上一個(gè)臺(tái)階:
推薦閱讀





    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    中国一区二区三区不卡| 好吊妞视频只有这里有精品| 久久少妇诱惑免费视频| 亚洲一区二区三区福利视频| 中国美女偷拍福利视频| 三级高清有码在线观看| 欧洲一区二区三区自拍天堂| 91精品蜜臀一区二区三区| 日韩午夜福利高清在线观看| 成人日韩视频中文字幕| 中文字幕乱码亚洲三区| 久热99中文字幕视频在线| 国产一区二区三区色噜噜| 中文字幕精品一区二区三| 九九热精品视频在线观看| 激情丁香激情五月婷婷| 欧美有码黄片免费在线视频| 不卡一区二区高清视频| 日韩一区二区三区嘿嘿| 精品丝袜一区二区三区性色| 欧美一级特黄特色大色大片| 观看日韩精品在线视频| 肥白女人日韩中文视频| 熟妇久久人妻中文字幕| 深夜少妇一区二区三区| 国产精品白丝一区二区| 激情图日韩精品中文字幕| 日本精品啪啪一区二区三区| 大香蕉伊人一区二区三区| 日韩免费午夜福利视频| 在线观看视频日韩精品| 国产精品欧美一区两区| 欧美一级特黄大片做受大屁股| 婷婷亚洲综合五月天麻豆| 91香蕉国产观看免费人人| 国产精品激情在线观看| 五月情婷婷综合激情综合狠狠| 东京不热免费观看日本| 91超精品碰国产在线观看| 99久久国产综合精品二区| 丝袜诱惑一区二区三区|