一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

Nature子刊 | 適用于生物學(xué)研究人員的機(jī)器學(xué)習(xí)指南(上)

 尐尐呅 2022-06-09 發(fā)布于湖北

基礎(chǔ)知識(shí)篇:關(guān)鍵概念+技術(shù)梗概

生物數(shù)據(jù)規(guī)模的擴(kuò)大和固有的復(fù)雜性促使機(jī)器學(xué)習(xí)在生物學(xué)中的應(yīng)用越來越多。所有的機(jī)器學(xué)習(xí)技術(shù)都能將模型與數(shù)據(jù)相匹配;然而,對(duì)于生物學(xué)研究人員來說如何正確理解和使用機(jī)器學(xué)習(xí)技術(shù),仍然存在很多困惑。去年9月《Nature reviews molecular cell biology》發(fā)表了一篇題為“A guide to machine learning  for biologists”的綜述文章,不僅概述了關(guān)鍵的機(jī)器學(xué)習(xí)技術(shù),還描述了不同技術(shù)如何適用于特定類型的生物數(shù)據(jù),同時(shí)討論了一些最佳實(shí)踐和在開始進(jìn)行涉及機(jī)器學(xué)習(xí)的實(shí)驗(yàn)時(shí)需要考慮的要點(diǎn)。

機(jī)器學(xué)習(xí)中的關(guān)鍵概念

通用術(shù)語

一個(gè)數(shù)據(jù)集由多個(gè)數(shù)據(jù)點(diǎn)示例組成,每個(gè)數(shù)據(jù)點(diǎn)或示例都可以被認(rèn)為是一個(gè)實(shí)驗(yàn)的單一觀察結(jié)果。每個(gè)數(shù)據(jù)點(diǎn)由(通常固定的)多個(gè)特征描述。這些特征包括長(zhǎng)度、時(shí)間、濃度和基因表達(dá)水平等。機(jī)器學(xué)習(xí)任務(wù)是我們希望機(jī)器學(xué)習(xí)模型完成的目標(biāo)的客觀規(guī)范。例如,對(duì)于一個(gè)研究基因表達(dá)隨時(shí)間變化的實(shí)驗(yàn),我們可能想要預(yù)測(cè)特定代謝物轉(zhuǎn)化為另一物種的速率。在這種情況下,“基因表達(dá)水平”和“時(shí)間”的特征可以被稱為輸入特征(或者只是模型的輸入),“轉(zhuǎn)換率”將是模型的期望輸出;也就是我們感興趣的預(yù)測(cè)數(shù)量。模型可以有任意數(shù)量的輸入和輸出特征。特征可以是連續(xù)的(取連續(xù)數(shù)值)或分類的(僅取離散值)。通常,分類特征是簡(jiǎn)單的二進(jìn)制,要么是真(1)要么是假(0)。

 有監(jiān)督和無監(jiān)督的學(xué)習(xí)

有監(jiān)督機(jī)器學(xué)習(xí)指的是將模型與已標(biāo)記的數(shù)據(jù)(或數(shù)據(jù)子集)進(jìn)行擬合,其中存在一些基本真實(shí)屬性,通常由人工通過實(shí)驗(yàn)測(cè)量或分配。例如蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)和基因組調(diào)控因子的基因組可及性預(yù)測(cè)。在這兩種情況下,基本事實(shí)最終都是從實(shí)驗(yàn)室觀察中得出的,但這些原始數(shù)據(jù)通常會(huì)以某種方式進(jìn)行預(yù)處理。如在二級(jí)結(jié)構(gòu)的情況下,基本真值數(shù)據(jù)來自分析蛋白質(zhì)數(shù)據(jù)庫(kù)中的蛋白質(zhì)晶體結(jié)構(gòu)數(shù)據(jù),在后一種情況下,基本真值來自DNA測(cè)序?qū)嶒?yàn)中的數(shù)據(jù)。相比之下,無監(jiān)督學(xué)習(xí)方法能夠識(shí)別未標(biāo)記數(shù)據(jù)中的模式,而無需以預(yù)定標(biāo)簽的形式向系統(tǒng)提供基本真實(shí)信息,比如在基因表達(dá)研究中發(fā)現(xiàn)具有相似表達(dá)水平的患者亞群,或者通過基因序列共變異預(yù)測(cè)突變效應(yīng)。有時(shí)這兩種方法結(jié)合在半監(jiān)督學(xué)習(xí)中,即少量標(biāo)記數(shù)據(jù)與大量未標(biāo)記數(shù)據(jù)相結(jié)合。在獲取標(biāo)簽數(shù)據(jù)成本較高的情況下,這可以提高性能。

 分類、回歸和聚類問題

當(dāng)一個(gè)問題涉及將數(shù)據(jù)點(diǎn)分配給一組離散的類別(例如“癌癥”或“非癌癥”)時(shí),該問題被稱為“分類問題”,任何執(zhí)行此類分類的算法都可以被稱為分類器。相比之下,回歸模型輸出一組連續(xù)的值,例如預(yù)測(cè)蛋白質(zhì)中一個(gè)殘基突變后折疊的自由能變化。連續(xù)值可以設(shè)定閾值或以其他方式離散化,這意味著通常可以將回歸問題重新表述為分類問題。例如,上面提到的自由能變化可以被劃分為對(duì)蛋白質(zhì)穩(wěn)定性有利或不利的數(shù)值范圍。聚類方法用于預(yù)測(cè)數(shù)據(jù)集中相似數(shù)據(jù)點(diǎn)的分組,通?;跀?shù)據(jù)點(diǎn)之間的某種相似性測(cè)量。它們是無監(jiān)督的方法,不要求數(shù)據(jù)集中的示例具有標(biāo)簽。例如,在基因表達(dá)研究中,聚類可以找到具有相似基因表達(dá)的患者子集。

分類和標(biāo)簽

分類器返回的離散值集可以被設(shè)置為相互排斥的,在這種情況下,它們被稱為“類(classes)”。當(dāng)這些值不需要相互排斥時(shí),它們被稱為“標(biāo)簽(labels)”。例如,蛋白質(zhì)結(jié)構(gòu)中的一個(gè)殘基只能位于多個(gè)二級(jí)結(jié)構(gòu)類別中的一個(gè),但可以同時(shí)被賦予α-螺旋和跨膜的非排他性標(biāo)簽。類和標(biāo)簽通常由encoding表示(例如 one-hot encoding)。

損失/成本函數(shù)

機(jī)器學(xué)習(xí)模型的輸出從來都不是理想的,而且會(huì)偏離基本事實(shí)。測(cè)量這種偏差的數(shù)學(xué)函數(shù),或者更一般地說,測(cè)量獲得的輸出和理想輸出之間的“不一致”量的數(shù)學(xué)函數(shù)被稱為“損失函數(shù)”或“成本函數(shù)”。在有監(jiān)督的學(xué)習(xí)環(huán)境中,損失函數(shù)是衡量輸出相對(duì)于真實(shí)輸出的偏差。例子包括回歸問題的均方誤差損失和分類問題的二元交叉熵。

參數(shù)和超參數(shù)

模型本質(zhì)上是數(shù)學(xué)函數(shù),對(duì)一些輸入特征集進(jìn)行操作,并產(chǎn)生一個(gè)或多個(gè)輸出值或特征。為了能夠在訓(xùn)練數(shù)據(jù)上進(jìn)行學(xué)習(xí),模型包含可調(diào)整的參數(shù),其值可以在訓(xùn)練過程中改變,以達(dá)到模型的最佳性能。例如,在一個(gè)簡(jiǎn)單的回歸模型中,每個(gè)特征都有一個(gè)乘以特征值的參數(shù),這些參數(shù)相加后就可以做出預(yù)測(cè)。超參數(shù)是可調(diào)整的值,不被認(rèn)為是模型本身的一部分,因?yàn)樗鼈冊(cè)谟?xùn)練過程中不被更新,但它們?nèi)匀粚?duì)模型的訓(xùn)練和性能有影響。超參數(shù)的一個(gè)常見例子是學(xué)習(xí)速率,它控制在訓(xùn)練期間模型參數(shù)改變的速率或速度。

訓(xùn)練、驗(yàn)證和測(cè)試

在用于預(yù)測(cè)之前,模型需要進(jìn)行訓(xùn)練,訓(xùn)練包括自動(dòng)調(diào)整模型的參數(shù)以提高其性能。在有監(jiān)督的學(xué)習(xí)環(huán)境中,這涉及通過最小化損失或成本函數(shù)的平均值,修改參數(shù),使模型在訓(xùn)練數(shù)據(jù)集上表現(xiàn)良好。通常,單獨(dú)的驗(yàn)證數(shù)據(jù)集用于監(jiān)控但不影響訓(xùn)練過程,以便檢測(cè)潛在的過度擬合。在無監(jiān)督的情況下,成本函數(shù)仍然是最小化的,盡管它不對(duì)真實(shí)輸出進(jìn)行操作。一旦一個(gè)模型被訓(xùn)練出來,它就可以在未用于訓(xùn)練的數(shù)據(jù)上進(jìn)行測(cè)試。

進(jìn)行機(jī)器學(xué)習(xí)的基本步驟:在接觸任何機(jī)器學(xué)習(xí)代碼之前,第一步應(yīng)該是完全理解手頭的數(shù)據(jù)(輸入)和預(yù)測(cè)任務(wù)(輸出)。接下來數(shù)據(jù)應(yīng)該被拆分,以便進(jìn)行訓(xùn)練、驗(yàn)證和測(cè)試。然后下一步是模型選擇,這取決于數(shù)據(jù)的性質(zhì)和預(yù)測(cè)任務(wù)。

過度擬合和欠擬合

對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行擬合的目的是為了捕捉數(shù)據(jù)中變量之間的 "真實(shí) "關(guān)系,從而使模型對(duì)未見過的(非訓(xùn)練)數(shù)據(jù)具有預(yù)測(cè)能力。過度擬合或欠擬合的模型對(duì)非訓(xùn)練集的數(shù)據(jù)會(huì)產(chǎn)生較差的預(yù)測(cè)效果。過度擬合的模型會(huì)在訓(xùn)練集的數(shù)據(jù)上產(chǎn)生很好的結(jié)果(通常是由于參數(shù)太多),但在非訓(xùn)練數(shù)據(jù)上會(huì)產(chǎn)生很差的結(jié)果。下圖中的過度擬合模型正好通過了每一個(gè)訓(xùn)練點(diǎn),因此它在訓(xùn)練集上的預(yù)測(cè)誤差為零。然而,很明顯,這個(gè)模型已經(jīng) "記住 "了訓(xùn)練數(shù)據(jù),不太可能在非訓(xùn)練的數(shù)據(jù)上產(chǎn)生好的結(jié)果。相比之下,欠擬合的模型不能充分捕捉到數(shù)據(jù)中變量之間的關(guān)系。這可能是由于對(duì)模型類型的選擇不正確,對(duì)數(shù)據(jù)的假設(shè)不完整或不正確,模型中的參數(shù)太少和/或訓(xùn)練過程不完整。下圖中描述的欠擬合模型對(duì)于它試圖擬合的數(shù)據(jù)來說是不充分的;在這種情況下,很明顯,這些變量具有非線性關(guān)系,不能用簡(jiǎn)單的線性模型來充分描述,因此非線性模型會(huì)更合適。

過度擬合和欠擬合示例

歸納偏差和偏差-方差權(quán)衡 

模型的“歸納偏差”是指學(xué)習(xí)算法中的一組假設(shè),這些假設(shè)使模型更傾向于學(xué)習(xí)問題的特定解決方案。它可以被認(rèn)為是模型對(duì)學(xué)習(xí)問題的特定類型解決方案的偏好。這種偏好通常使用其特定的數(shù)學(xué)形式和/或使用特定的損失函數(shù)編程到模型中。例如,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的歸納偏差是,輸入數(shù)據(jù)中存在的順序依賴性(如代謝物濃度隨時(shí)間的變化)。這種依賴性在RNN的數(shù)學(xué)形式中得到了明確的解釋。不同模型類型中不同的歸納偏差使它們更適合特定類型的數(shù)據(jù),通常也能更好地執(zhí)行。另一個(gè)重要的概念是偏差和方差之間的權(quán)衡。具有高偏差的模型可以說對(duì)經(jīng)過訓(xùn)練的模型具有更強(qiáng)的約束,而具有低偏差的模型對(duì)被建模的屬性所做的假設(shè)較少,并且理論上可以對(duì)各種函數(shù)類型建模。模型的方差描述了經(jīng)過訓(xùn)練的模型在不同訓(xùn)練數(shù)據(jù)集上進(jìn)行訓(xùn)練時(shí)的變化程度。一般來說,我們希望模型具有非常低的偏差和方差,盡管這些目標(biāo)往往是沖突的,因?yàn)榈推畹哪P屯ǔ?huì)在不同的訓(xùn)練集上學(xué)習(xí)不同的信號(hào)。控制偏差-方差權(quán)衡是避免過度擬合或欠擬合的關(guān)鍵。

機(jī)器學(xué)習(xí)技術(shù)概述

不同機(jī)器學(xué)習(xí)方法的比較

傳統(tǒng)機(jī)器學(xué)習(xí) 

非基于神經(jīng)網(wǎng)絡(luò)的方法,有時(shí)稱為“傳統(tǒng)機(jī)器學(xué)習(xí)。可以使用各種軟件包來訓(xùn)練此類模型,包括Python中的scikit-learn、R中的caret和Julia中的MLJ。

當(dāng)人們?cè)陂_發(fā)用于生物數(shù)據(jù)的機(jī)器學(xué)習(xí)方法時(shí),傳統(tǒng)的機(jī)器學(xué)習(xí)一般應(yīng)被看作是為給定任務(wù)尋找最合適方法的第一個(gè)探索領(lǐng)域。深度學(xué)習(xí)可以是一個(gè)強(qiáng)大的工具,而且不可否認(rèn)的是,它是目前的潮流。然而,在它擅長(zhǎng)的應(yīng)用領(lǐng)域,它仍然受到限制:當(dāng)大量數(shù)據(jù)可用時(shí)(例如數(shù)百萬數(shù)據(jù)點(diǎn)); 當(dāng)每個(gè)數(shù)據(jù)點(diǎn)具有多個(gè)特征時(shí); 當(dāng)特征是高度結(jié)構(gòu)化的(特征之間有清晰的關(guān)系,比如圖像中相鄰的像素)  。

傳統(tǒng)的機(jī)器學(xué)習(xí)方法

使用分類和回歸模型。嶺回歸(帶有正則化項(xiàng)的線性回歸)通常是開發(fā)模型的一個(gè)很好的起點(diǎn)。當(dāng)希望一個(gè)模型依賴于現(xiàn)有數(shù)據(jù)中最小數(shù)量的特征時(shí),線性回歸的其他變量,如LASSO回歸和彈性網(wǎng)絡(luò)回歸算法也值得考慮。然而數(shù)據(jù)中的特征之間的關(guān)系往往是非線性的,因此在這些情況下,使用SVM這樣的模型往往是更合適的選擇。SVM是一種強(qiáng)大的回歸和分類模型,它使用核函數(shù)將不可分離的問題轉(zhuǎn)變?yōu)楦菀捉鉀Q的可分離問題。

常用于回歸的模型也可用于分類。訓(xùn)練一個(gè)線性SVM和一個(gè)帶有徑向基函數(shù)核的SVM也是分類任務(wù)的一個(gè)很好的默認(rèn)起點(diǎn)。另一種可以嘗試的方法是kNN算法。此外還有一類穩(wěn)健的非線性方法是基于集合的模型,如隨機(jī)森林和XGBoost。

使用聚類模型。聚類算法的使用在生物學(xué)中非常普遍。k-means是一種強(qiáng)大的通用聚類方法。DBSCAN是一種替代方法。

降維。降維技術(shù)用于將具有大量屬性(或維度)的數(shù)據(jù)轉(zhuǎn)化為低維形式,同時(shí)盡可能地保留數(shù)據(jù)點(diǎn)之間的不同關(guān)系。生物學(xué)中常見的例子包括主成分分析(PCA)、均勻流形近似和投影(UMAP)和t分布隨機(jī)鄰域嵌入(t-SNE)。

人工神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)模型得名于這樣一個(gè)事實(shí),即正在擬合的數(shù)學(xué)模型的形式是受大腦中神經(jīng)元的連接和行為的啟發(fā),最初是為了了解大腦功能而設(shè)計(jì)的。由于深度神經(jīng)網(wǎng)絡(luò)的架構(gòu)和訓(xùn)練的快速發(fā)展,人們對(duì)神經(jīng)網(wǎng)絡(luò)模型的興趣與日俱增。

基本原理:神經(jīng)網(wǎng)絡(luò)的一個(gè)關(guān)鍵特性是它們是通用函數(shù)近似器,這意味著,在很少的假設(shè)下,正確配置的神經(jīng)網(wǎng)絡(luò)可以將任何數(shù)學(xué)函數(shù)近似到任意精度水平。換句話說,如果任何過程(生物或其他)可以被認(rèn)為是一組變量的函數(shù),那么該過程可以被建模到任意精度,只受模型的大小或復(fù)雜性的制約。人工神經(jīng)元是所有神經(jīng)網(wǎng)絡(luò)模型的組成部分。人工神經(jīng)元只是一個(gè)數(shù)學(xué)函數(shù),它以特定的方式將輸入映射(轉(zhuǎn)換)為輸出。單個(gè)人工神經(jīng)元接收任意數(shù)量的輸入值,對(duì)其應(yīng)用特定的數(shù)學(xué)函數(shù)并返回輸出值。使用的函數(shù)通常表示為:

* 其中xi代表一個(gè)單一的輸入變量或特征(有n個(gè)這樣的輸入),wi代表該輸入的可學(xué)習(xí)權(quán)重,b代表一個(gè)可學(xué)習(xí)的偏置項(xiàng),σ代表一個(gè)非線性激活函數(shù),它接受一個(gè)輸入并返回一個(gè)輸出。為了創(chuàng)建一個(gè)網(wǎng)絡(luò),人工神經(jīng)元被排列成層,一個(gè)層的輸出是下一個(gè)層的輸入。網(wǎng)絡(luò)的節(jié)點(diǎn)可以被認(rèn)為是持有上述方程中的y值,它成為下一層的x值。

神經(jīng)網(wǎng)絡(luò)方法

多層感知器:神經(jīng)網(wǎng)絡(luò)模型的最基本布局是以全連接方式排列的人工神經(jīng)元層。在這種布局中,固定數(shù)量的 "輸入神經(jīng)元 "代表了從輸入到網(wǎng)絡(luò)的數(shù)據(jù)中計(jì)算出的輸入特征值,而一對(duì)神經(jīng)元之間的每個(gè)連接代表了一個(gè)可訓(xùn)練的權(quán)重參數(shù)。這些權(quán)重是神經(jīng)網(wǎng)絡(luò)中的主要可調(diào)節(jié)參數(shù),優(yōu)化這些權(quán)重就是神經(jīng)網(wǎng)絡(luò)訓(xùn)練的意義。在網(wǎng)絡(luò)的另一端,一些輸出神經(jīng)元代表網(wǎng)絡(luò)的最終輸出值。這樣的網(wǎng)絡(luò),如果配置正確,可以用來對(duì)輸入進(jìn)行復(fù)雜的、分層次的決策,因?yàn)槟骋粚拥拿總€(gè)神經(jīng)元都會(huì)接受上一層所有神經(jīng)元的輸入。這種簡(jiǎn)單安排的神經(jīng)元層通常被稱為 "多層感知器",是最早用于生物信息學(xué)應(yīng)用的網(wǎng)絡(luò)。由于其訓(xùn)練的簡(jiǎn)易性和速度,它們今天仍被廣泛用于一些生物建模應(yīng)用中。

卷積神經(jīng)網(wǎng)絡(luò)(CNN):其非常適用于類似圖像的數(shù)據(jù),這些數(shù)據(jù)具有某種類型的局部結(jié)構(gòu),并且這種結(jié)構(gòu)的識(shí)別是分析的一個(gè)關(guān)鍵目標(biāo)(例如顯微鏡圖像中的細(xì)胞)。CNN由一個(gè)或多個(gè)卷積層組成,其中輸出是將一個(gè)小型的、單層的全連接神經(jīng)網(wǎng)絡(luò)(稱為 "過濾器 "或 "內(nèi)核")應(yīng)用于輸入中的局部特征組的結(jié)果。CNN還可以被配置成在不同空間結(jié)構(gòu)的數(shù)據(jù)上有效地運(yùn)行。

一維CNN只在一個(gè)方向滑動(dòng)的過濾器(例如從左到右);這種類型的CNN適合于只有一個(gè)空間維度的數(shù)據(jù)(如文本或生物序列)。二維CNN對(duì)具有兩個(gè)空間維度的數(shù)據(jù)進(jìn)行操作,如數(shù)字化圖像。三維CNN在體積數(shù)據(jù)上操作,如磁共振成像掃描。CNN在生物學(xué)中對(duì)各種數(shù)據(jù)類型都取得了重大成功,包括蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、基因序列數(shù)據(jù)的變異識(shí)別、3D基因組折疊、DNA -蛋白質(zhì)相互作用、低溫電子顯微鏡圖像分析和醫(yī)學(xué)重要背景下的圖像分類(如惡性腫瘤的檢測(cè))等。

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN):其最適用于有序序列形式的數(shù)據(jù),這樣的數(shù)據(jù)在序列中的一個(gè)點(diǎn)和下一個(gè)點(diǎn)之間存在(至少在概念上)某種依賴性或關(guān)聯(lián)性。RNN可以被認(rèn)為是一個(gè)神經(jīng)網(wǎng)絡(luò)層塊,它將序列中每個(gè)條目(或時(shí)間步長(zhǎng))對(duì)應(yīng)的數(shù)據(jù)作為輸入,并為每個(gè)條目產(chǎn)生一個(gè)輸出,該輸出依賴于先前處理過的條目。它們也可以用來生成整個(gè)序列的表示,并傳遞給網(wǎng)絡(luò)的后續(xù)層以生成輸出。

在生物學(xué)中使用RNN的明顯例子包括分析基因或蛋白質(zhì)序列,其任務(wù)包括從基因序列中識(shí)別啟動(dòng)子區(qū)域、預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)或建模隨時(shí)間變化的基因表達(dá)水平等。RNN更高級(jí)的長(zhǎng)期短期記憶或門循環(huán)單元變體在生物學(xué)上有許多用途,包括蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、肽設(shè)計(jì)和根據(jù)健康記錄預(yù)測(cè)臨床診斷。這些更先進(jìn)的方法通常與CNN結(jié)合使用,可以提高準(zhǔn)確性。RNN在分析基于序列的數(shù)據(jù)時(shí)非常穩(wěn)健。在RNNs中發(fā)現(xiàn)的一個(gè)問題是它們難以檢查輸入序列的特定部分,這對(duì)于產(chǎn)生高度準(zhǔn)確的輸出是很重要的。在RNN中加入注意力機(jī)制,使模型在計(jì)算每個(gè)輸出時(shí)能夠訪問輸入序列的所有部分,是為了緩解這個(gè)問題。最近,轉(zhuǎn)化器模型(Transformers)在生物序列的任務(wù)上顯示出比RNN更高的準(zhǔn)確性。AlphaFold2在CASP14中取得的突出成功表明使用注意力的模型也有希望用于結(jié)構(gòu)生物學(xué)的任務(wù)。

圖卷積神經(jīng)網(wǎng)絡(luò)(GCN):特別適用于那些雖然沒有像圖像那樣明顯的可見結(jié)構(gòu),但由任意的特定關(guān)系或相互作用連接的實(shí)體組成的數(shù)據(jù)。與生物學(xué)有關(guān)的此類數(shù)據(jù)的例子包括分子(由原子和鍵組成)和蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)(由蛋白質(zhì)相互作用組成)。圖卷積網(wǎng)絡(luò)使用生成的圖的結(jié)構(gòu)來確定神經(jīng)網(wǎng)絡(luò)模型中的信息流,例如結(jié)合藥物-基因和食物-基因關(guān)系圖來預(yù)測(cè)預(yù)防癌癥的食物。用于訓(xùn)練圖卷積網(wǎng)絡(luò)的軟件包括PyTorch Geometric和Graph Nets。

自編碼器(Autoencoders):是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過將數(shù)據(jù)點(diǎn)表示為具有預(yù)定維度的新空間中的點(diǎn)(通常遠(yuǎn)小于輸入維度的數(shù)量),對(duì)數(shù)據(jù)點(diǎn)集合進(jìn)行自編碼。其應(yīng)用包括預(yù)測(cè)兩個(gè)數(shù)據(jù)點(diǎn)之間的密切關(guān)系,以及在潛在空間上實(shí)施一些結(jié)構(gòu),這些結(jié)構(gòu)對(duì)于進(jìn)一步的預(yù)測(cè)任務(wù)非常有用。

編碼-解碼體系(encoder–decoder architecture)一旦經(jīng)過訓(xùn)練,解碼器就可以單獨(dú)使用,以生成新的合成數(shù)據(jù)樣本的預(yù)測(cè),這些樣本可以在實(shí)驗(yàn)室進(jìn)行測(cè)試,并有助于合成生物學(xué)的工作。自編碼技術(shù)已被應(yīng)用于一系列生物學(xué)問題,包括預(yù)測(cè)DNA甲基化狀態(tài)、基因和蛋白質(zhì)序列工程以及單細(xì)胞轉(zhuǎn)錄組測(cè)序分析

由于神經(jīng)網(wǎng)絡(luò)在結(jié)構(gòu)上比傳統(tǒng)的機(jī)器學(xué)習(xí)算法復(fù)雜得多,因此存在一些神經(jīng)網(wǎng)絡(luò)特有的問題。選擇一個(gè)神經(jīng)網(wǎng)絡(luò)作為預(yù)期應(yīng)用的合適模型,只在一個(gè)訓(xùn)練示例(例如,單個(gè)圖像或基因序列)上訓(xùn)練它通常是較高的選擇。當(dāng)網(wǎng)絡(luò)簡(jiǎn)單地記憶輸入時(shí),訓(xùn)練損失函數(shù)應(yīng)該很快變?yōu)榱?;如果沒有,則代碼中可能有錯(cuò)誤,或者算法不夠復(fù)雜,無法對(duì)輸入數(shù)據(jù)建模。一旦網(wǎng)絡(luò)通過了這個(gè)基本的調(diào)試測(cè)試,就可以對(duì)整個(gè)訓(xùn)練集進(jìn)行訓(xùn)練。用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的流行軟件包包括PyTorch和Tensorflow,訓(xùn)練神經(jīng)網(wǎng)絡(luò)對(duì)計(jì)算的要求很高。值得注意的是,對(duì)于小任務(wù),Colaboratory(Colab)允許在GPU或TPU上免費(fèi)測(cè)試Python代碼。使用Colab是開始基于Python的深度學(xué)習(xí)的一種很好的方式。

//

未完待續(xù)...

明日更新最佳實(shí)踐篇!

更多優(yōu)質(zhì)內(nèi)容請(qǐng)點(diǎn)擊下方名片,關(guān)注“國(guó)家基因庫(kù)大數(shù)據(jù)平臺(tái)”和“深圳國(guó)家基因庫(kù)”公眾號(hào)。

參考文獻(xiàn)

Greener, J.G., Kandathil, S.M., Moffat, L. et al. A guide to machine learning for biologists.Nat Rev Mol Cell Biol 23, 40–55 (2022). 

圖片均來源于參考文獻(xiàn),如有侵權(quán)請(qǐng)聯(lián)系刪除。

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    午夜久久久精品国产精品| 国产成人综合亚洲欧美日韩| 中文字幕av诱惑一区二区 | 色老汉在线视频免费亚欧| 又色又爽又黄的三级视频| 亚洲精品欧美精品一区三区| 插进她的身体里在线观看骚| 91久久国产福利自产拍| 国产成人精品视频一二区| 日本人妻免费一区二区三区| 日韩熟妇人妻一区二区三区| 日韩三级黄色大片免费观看| 国产综合香蕉五月婷在线| 尹人大香蕉中文在线播放| 亚洲黑人精品一区二区欧美| 在线观看视频日韩精品| 亚洲a码一区二区三区| 亚洲欧洲日韩综合二区| 五月婷婷六月丁香狠狠| 欧美一级黄片欧美精品| 国产精品流白浆无遮挡| 亚洲精品国男人在线视频| 日本加勒比在线播放一区| 麻豆亚州无矿码专区视频| 欧美韩国日本精品在线| 免费观看一级欧美大片| 久久经典一区二区三区| 九九热精彩视频在线免费| 亚洲天堂久久精品成人| 亚洲中文字幕免费人妻| 国产精品久久女同磨豆腐| 欧美精品久久99九九| 久久99热成人网不卡| 天堂av一区一区一区| 男女午夜视频在线观看免费| 天堂av一区一区一区| 国产女性精品一区二区三区| 日本一品道在线免费观看| 国产一区二区三区不卡| 国产一区二区三区丝袜不卡| 亚洲一区二区精品福利|