信息學正在跨學科發(fā)展,影響著化學、生物和生物醫(yī)學的多個領(lǐng)域。除了成熟的生物信息學學科,其他以信息學為基礎(chǔ)的跨學科領(lǐng)域也在不斷發(fā)展,如化學信息學和生物醫(yī)學信息學。其他相關(guān)的研究領(lǐng)域,如藥物信息學、食品信息學、表觀信息學、材料信息學和神經(jīng)信息學等最近才出現(xiàn),并作為獨立的子學科繼續(xù)發(fā)展。這些學科的目標和影響通常在文獻中被單獨回顧。因此,確定共同點和關(guān)鍵差異仍然具有挑戰(zhàn)性。研究人員結(jié)合自然科學和生命科學中的三個主要信息學學科,包括生物信息學、化學信息學和生物醫(yī)學信息學進行討論,并對相關(guān)的子學科進行簡要評論。重點討論了生物信息學、化學信息學和生物醫(yī)學信息學的定義、歷史背景、實際影響、主要異同,并對生物信息學、化學信息學和生物醫(yī)學信息學的傳播和教學進行了評價。 介紹 牛津詞典將信息學定義為 "研究存儲和獲取信息的過程"。劍橋詞典將信息學定義為 "研究存儲、處理和傳播信息的自然和人工系統(tǒng)的結(jié)構(gòu)、行為和相互作用的學科"。毫無疑問,計算機在存儲、處理和傳播信息方面發(fā)揮了重要作用。據(jù)此,牛津詞典將信息定義為計算機中 "由計算機處理、存儲或傳輸?shù)臄?shù)據(jù)"。因此,計算機通過歸納學習將數(shù)據(jù)或事實迅速轉(zhuǎn)化為信息,將信息轉(zhuǎn)化為知識的關(guān)鍵性作用不斷增強。 化學、生物學和生物醫(yī)學科學依賴于以多種方式收集的數(shù)據(jù)。高通量合成和測試、自動化、機器人小型化測序、蛋白質(zhì)組學、糖組學、脂質(zhì)組學和其他"-組學 "方法等技術(shù)的進步是信息學關(guān)于產(chǎn)生的海量數(shù)據(jù)的主要驅(qū)動力的例子。隨著橫跨許多領(lǐng)域的 "大數(shù)據(jù) "的出現(xiàn),信息量及其復(fù)雜性呈指數(shù)級增長,伴隨著對信息學在計算能力和信息網(wǎng)絡(luò)基礎(chǔ)設(shè)施方面的進步的要求越來越高,以精確地存儲、處理、傳播、建模、分析和預(yù)測這些信息。例如,從2006年到2018年,DrugBank數(shù)據(jù)庫中可用的在研藥物相關(guān)數(shù)據(jù)增加了近300%,藥物間相互作用數(shù)據(jù)增加了近600%,單核苷酸多態(tài)性(SNP)相關(guān)的藥物效應(yīng)數(shù)量增加了3000%以上?;瘜W、生物學、醫(yī)學與信息學之間的密切關(guān)系,促使信息學與其他領(lǐng)域?qū)拥奶囟ㄑ芯繉W科的發(fā)展。 從歷史上看,生物信息學作為生命科學中的一門信息學學科是在20世紀60年代發(fā)展起來的,這是20世紀50年代就已經(jīng)開始在醫(yī)療衛(wèi)生領(lǐng)域使用信息學的必然結(jié).此外,化學信息(chemoinformatics)也起源于20世紀60年代,早在這些名詞被創(chuàng)造出來之前,但發(fā)展的規(guī)模較小。生物信息學是和生物醫(yī)學信息學一起發(fā)展起來的,它們有著共同的根基。目前還有其他與信息學相關(guān)的學科在不斷發(fā)展,如材料信息學、高分子信息學、食品信息學,以及其他的子學科如表觀信息學等,都可以合理化為三大領(lǐng)域的子學科。這些領(lǐng)域之間的界限相當不固定,并沒有嚴格界定。這是因為這些學科具有很強的交叉學科領(lǐng)域,并且不斷發(fā)展。例如,在藥物發(fā)現(xiàn)中,化學信息學、生物信息學和生物醫(yī)學信息學相遇,并經(jīng)常共享類似的信息學方法。這些領(lǐng)域的一個特點是,它們的方法論基礎(chǔ)部分重疊,但又有區(qū)別。因此,能在文獻中找到諸如生物/化學信息學、生物化學信息學或化學-生物信息學等術(shù)語,以反映這些內(nèi)在的關(guān)系。 2 信息學相關(guān)的研究領(lǐng)域 信息學對化學和生物學的影響 隨著時間的推移,信息學相關(guān)學科的科學出版物數(shù)量顯著增加,如圖3所示,反映了這些領(lǐng)域的發(fā)展。今天,如果不使用計算機和專門的軟件工具,進一步發(fā)展化學和生物學幾乎變得不可能。實驗文件中越來越多地使用計算概念的主要原因之一是,越來越多的數(shù)據(jù)和信息必須在數(shù)據(jù)庫中被訪問,并為研究提供檢索。現(xiàn)在,信息學對于存儲、處理、分析和傳播生物學、化學等領(lǐng)域的異構(gòu)數(shù)據(jù)至關(guān)重要。此外,來自信息學的算法和數(shù)據(jù)結(jié)構(gòu)對于推導(dǎo)預(yù)測模型是必不可少的,這些模型往往是對實驗計劃的補充和指導(dǎo)?;瘜W和生物特性的預(yù)測以及分子系統(tǒng)的模擬已經(jīng)成為基礎(chǔ)和應(yīng)用研究中不可或缺的組成部分。例如,化學領(lǐng)域,合成反應(yīng)的規(guī)劃和設(shè)計為有機合成增加了一個新的維度;生物學領(lǐng)域,生理過程及其動力學的數(shù)值模擬進一步擴展了對實驗的認識,并產(chǎn)生了新的可檢驗的假設(shè)。此外,在這兩個領(lǐng)域,計算可視化方法已成為表示和表征日益復(fù)雜的化學和生物空間,如超大型化合物陣列或表達譜構(gòu)成的空間所不可缺少的。此外,如果沒有信息學的圖像分析方法,現(xiàn)代的高含量篩選活動、表型分析或基于圖像的醫(yī)學診斷將是不可行的。因此,正如在下一節(jié)中進一步討論的那樣,對受過訓練的生物信息學和化學信息學專家的需求正在穩(wěn)步增加。特別是,在醫(yī)院、大學、公共或私人研究機構(gòu)和公司中找到受過生物信息學培訓的科學家是很常見的。同樣,學術(shù)界和工業(yè)界對具有信息學專門知識的科學家的需求也在增加,盡管近年來化學信息學教育不斷增長,但規(guī)模仍然較小。 定義 對于不斷發(fā)展的信息學相關(guān)學科和子學科,提出了各種形式的定義. 科學傳播與教育 這些以信息學為導(dǎo)向的學科的發(fā)展也引發(fā)了對每個領(lǐng)域的同行評審科學期刊的引進和整合。表2總結(jié)了一些在標題中包含 "信息學 "和 "信息 "等相關(guān)術(shù)語的同行評審期刊的例子。值得注意的是,化學、生物學和生物醫(yī)學科學領(lǐng)域的計算期刊還有很多(除此之外,還有一些多學科期刊也發(fā)表了專注于化學信息學、生物信息學和生物醫(yī)學信息學的研究)。表2中具有代表性的期刊以及出版時期和出版者,進一步強調(diào)了這些單個學科的發(fā)展和鞏固。雖然科學期刊和教科書反映了這些領(lǐng)域的發(fā)展,但已經(jīng)建立的本科和研究生階段的教育計劃中的正式課程也反映了這些領(lǐng)域的發(fā)展,如表3所總結(jié)。值得注意的是,表3包括了所提供的數(shù)字的來源信息,旨在表明生物信息學期刊、教科書和課程的數(shù)量超過了化學信息學和生物醫(yī)學信息學。這至少在一定程度上是由于醫(yī)學課程到目前為止,靈活擴展到理論的機會有限。此外,化學系在實施信息學教育方面?zhèn)鹘y(tǒng)上是保守的。事實上,我們今天所認知的化學信息學學科,大部分都是源于制藥行業(yè)而非學術(shù)環(huán)境,這也解釋了化學信息學對藥物發(fā)現(xiàn)的強烈導(dǎo)向。 化學信息學與生物信息學之間的異同 不同的信息學驅(qū)動學科的核心是要處理和分析的數(shù)據(jù)類型。不同類型的數(shù)據(jù)需要開發(fā)特殊的表示形式,以處理,處理和分析特定于域的數(shù)據(jù)。 每個學科及其子學科所代表的數(shù)據(jù)和對象的復(fù)雜性和大小會轉(zhuǎn)化為組織,歸檔,處理和分析數(shù)據(jù)以及知識提取的部分共享且部分獨特的挑戰(zhàn)。藥物發(fā)現(xiàn)中,金屬信息學經(jīng)常被忽略在化學信息學中,這是因為精確計算類似藥物的特性非常復(fù)雜。與化學信息學相比,生物信息學處理的信息量要大得多。對于生物醫(yī)學信息學來說,由于大多數(shù)臨床數(shù)據(jù)無法在公共領(lǐng)域獲得,因此估計更具挑戰(zhàn)性。過去幾年中,生物數(shù)據(jù)的爆炸式增長促使需要在生物信息學中使用本體,以解決生物數(shù)據(jù)庫之間的語義和組織差異。另一方面,化學信息學面臨的挑戰(zhàn)是如何處理數(shù)量眾多的小分子,這些小分子分布在類似藥物的化學空間,并管理相關(guān)的結(jié)構(gòu)-財產(chǎn)關(guān)系。生物信息學中,主要的信息來源包括-組學技術(shù),而在化學信息學中,主要的數(shù)據(jù)來源是高通量合成和測試,以及按需或虛擬庫的枚舉。相反,在生物醫(yī)學信息學中,信息的主要來源是信號處理。 此外,每個學科都根據(jù)特定需求解決獨特的問題。例如,生物信息學涉及序列分析,建立和維護生物分子數(shù)據(jù)庫,進行蛋白質(zhì)構(gòu)建比較以及預(yù)測分子進化方面。相比之下,化學信息學專注于開發(fā)小分子化學文庫,多樣性分析,包括生物特性預(yù)測在內(nèi)的特性預(yù)測以及結(jié)構(gòu)生成。生物信息學更多地依賴于細胞數(shù)據(jù),而化學信息學則基于體外數(shù)據(jù),尤其是在藥物發(fā)現(xiàn)應(yīng)用中。與之形成鮮明對比的是,生物醫(yī)學信息學專注于在臨床水平上分析與健康相關(guān)的數(shù)據(jù)。 但是,不同的信息學領(lǐng)域也存在問題和挑戰(zhàn),例如,存儲,組織和管理不同類型的數(shù)據(jù)的能力。毫無疑問,需要處理越來越多的越來越多樣化和復(fù)雜的數(shù)據(jù)和信息以提取新知識。因此,所有學科共同的一個因素是需要處理“大數(shù)據(jù)”。隨著信息學的并行發(fā)展,計算工具和資源(商業(yè)和開源)的數(shù)量和質(zhì)量正在增加。不同的信息學學科也可以共享方法論。最近的無國界全面審查QSAR中對此進行了討論。這項工作強調(diào),最初建立的用于建立藥物化學和物理有機化學中的定量構(gòu)效關(guān)系(QSAR)的方法已擴展到納米技術(shù),材料科學,生物材料,合成計劃和臨床信息學。以此類推,至少對于某些任務(wù),有可能得出“無國界的信息學”的概括。 如上所述,所有信息學相關(guān)學科的共同目標是將信息轉(zhuǎn)化為知識。許多現(xiàn)實世界中的問題需要跨學科的方法以及兩個或多個研究領(lǐng)域的合作。突出的例子是藥物發(fā)現(xiàn)和開發(fā)項目,這些項目經(jīng)常涉及生物信息學,生物醫(yī)學信息學和化學信息學方法。 3 結(jié)論 本文研究人員分析了信息學在生物學,化學和醫(yī)學領(lǐng)域的影響,從而導(dǎo)致了新的基于信息學的學科的出現(xiàn)。重點介紹了三個主要學科,包括生物信息學,化學信息學和生物醫(yī)學信息學,它們在概念和方法上具有相似性并具有鮮明的特征。這些學科最初應(yīng)運而生,并進一步發(fā)展為解決生物學,化學和生物醫(yī)學方面的問題。但是,生命科學中復(fù)雜問題的多學科性質(zhì)通常需要適應(yīng)和應(yīng)用不同的信息學方法。在某些情況下,生物信息學,化學信息學和生物醫(yī)學信息學之間的常見概念重疊是,它們是由數(shù)據(jù)和主要是歸納學習機制驅(qū)動的。此外,所有學科都依賴數(shù)據(jù)庫,并面臨數(shù)據(jù)收集,標準化,集成,挖掘,可視化和屬性預(yù)測的挑戰(zhàn)。 每個與信息學相關(guān)的學科的主要區(qū)別特征包括主要目標和研究主題。例如,一個主要的區(qū)別特征是所使用的數(shù)據(jù)表示類型。生物信息學采用三維結(jié)構(gòu)的序列和坐標,而化學信息學則經(jīng)常依靠分子指紋和數(shù)字描述符。相比之下,生物醫(yī)學信息學使用以不同格式編碼的臨床或非臨床模式。 每個與信息學相關(guān)的學科都使用唯一表示法分析不同類型的數(shù)據(jù)。研究人員預(yù)計,隨著這些學科的進一步發(fā)展,各種子學科將繼續(xù)出現(xiàn),重點放在更專業(yè)的數(shù)據(jù)上(例如,食用化學品,聚合物或天然產(chǎn)物)。但是,由于與信息學相關(guān)的學科通常同時用于解決多學科問題,因此還期望它們將繼續(xù)處理連續(xù)的數(shù)據(jù)和問題,這也需要這些工作的協(xié)調(diào)和部分整合。例如,將化學信息學納入更廣泛的化學信息科學領(lǐng)域,將其主要關(guān)注點從小分子擴展到化學數(shù)據(jù)和任何來源的化學信息。同樣,關(guān)于與信息學有關(guān)的不同學科的科學家和從業(yè)人員的培訓和專業(yè)化,現(xiàn)在越來越多地被涵蓋在“數(shù)據(jù)科學”的跨學科范圍之內(nèi)。顯然,在融合和培養(yǎng)特定學科特征之間尋求平衡是基于信息學的學科前進的挑戰(zhàn)之一。 參考資料 Informatics for Chemistry, Biology, and Biomedical Sciences. Edgar López-López, Jürgen Bajorath, and José L. Medina-Franco. Journal of Chemical Information and Modeling Article ASAP. DOI: 10.1021/acs.jcim.0c01301 |
|