高通量技術(shù)和大規(guī)模數(shù)據(jù)處理技術(shù)在過去10年發(fā)展迅猛,作為二者載體的文獻也呈現(xiàn)爆炸性增長的勢頭。文獻的閱讀對于許多從事生物醫(yī)學(xué)研究的科學(xué)家和醫(yī)務(wù)工作者都是至關(guān)重要的,但是囿于文獻數(shù)量的龐大和迅速增長,想要全面掌握和跟蹤最新的科學(xué)進展顯得尤為困難。為此,NCBI不斷地為PubMed添加功能,使之更加有利于用戶的使用;同時,一些其他機構(gòu)(如Google Scholar)也投入到文獻服務(wù)中來,開發(fā)出一系列更加適于用戶使用的文獻服務(wù)工具。這些嘗試與文字信息挖掘(text mining)技術(shù)一起提供了更加先進的網(wǎng)絡(luò)工具,使PubMed的檢索質(zhì)量進一步提高。NCBI的Lu回顧了28種與PubMed相關(guān)的工具,闡明了它們的創(chuàng)新點、與PubMed及互相之間的關(guān)系,并前瞻了PubMed未來的發(fā)展方向。
巨量文獻需要更有效的檢索工具
文獻檢索即是指檢索人根據(jù)不同的需求通過工具來查找所需文獻的過程。在本文中檢索工具是網(wǎng)絡(luò)為基礎(chǔ)的在線系統(tǒng),文獻僅限于生物醫(yī)學(xué)領(lǐng)域,檢索人包括對特定內(nèi)容感興趣的用戶和需要特定文章中數(shù)據(jù)的用戶。2010年,PubMed中已有兩千多萬文獻。PubMed是NCBI數(shù)據(jù)庫系統(tǒng)的一個組成部分,提供38個數(shù)據(jù)庫的檢索。現(xiàn)在PubMed包括5000余種從1948年起生物醫(yī)學(xué)雜志的全文或摘要,成為至今為止最重要的生物醫(yī)學(xué)檢索工具,為全世界的研究人員提供最新的醫(yī)學(xué)信息。
盡管PubMed是一種強勁的檢索工具,但是對于個人來說,迅速檢索到自己感興趣的文章越來越難。結(jié)果,用戶經(jīng)常被成百上千的條目所困:1/3在PubMed上進行的檢索,其結(jié)果超過100條文獻。NCBI不得不建議用戶用更加精確的檢索詞來回避這種信息超載,除此以外,PubMed的公開性使得一些外部的工具得以替代PubMed成為更加有效的檢索方法。
對于這些替代工具以前也有過介紹,但本文與之不同的是首先大部分替代檢索系統(tǒng)以前未經(jīng)過詳細的介紹或是2008年以后出現(xiàn)的系統(tǒng);其次我們使用了不同的分類標準來對系統(tǒng)進行分類和比較,以便使用戶可以更加詳細地了解這些系統(tǒng)的異同;第三,我們提供了這些系統(tǒng)的細節(jié),并提供了我們對于PubMed認識的第一手資料;最后我們建立了一個這些工具的統(tǒng)一接口并且為將來新系統(tǒng)的注冊提供地址(http://www.ncbi.nlm./CBBresearch/Lu/search/)。我們提供了文獻檢索的一站式服務(wù)(one-stop shopping)。
PubMed的工作方式
PubMed提供自然語言(英語)檢索,自由寫入文字,反饋給用戶與檢索詞匹配的文獻列表。搜索策略有兩點特征:首先PubMed具有詞匯自動轉(zhuǎn)換功能(Automatic Term Mapping),這包括MeSH轉(zhuǎn)換表(MeSH Translation Table),包括MeSH詞、參見詞、副主題詞等;刊名轉(zhuǎn)換表(Journal Tanslation Table);短語表(Phrase list)及著者索引(Author Index)。并且支持布爾運算。
其次,PubMed的文獻排序并不以相關(guān)性而以時間為準,即所謂的逆時間排序。
類似檢索系統(tǒng)及特征比較
在本文中,我們選擇檢索工具的原則有三:首先,它們應(yīng)當基于網(wǎng)絡(luò)而提供的內(nèi)容應(yīng)當與PubMed相同。所以超出摘要檢索的檢索工具例如以全文為檢索對象的谷歌學(xué)術(shù)(google scholar)、PubMed central和以圖/表格為檢索對象的Biotext、耶魯大學(xué)的Yale image finder被排除在外。由于我們只關(guān)心生物醫(yī)學(xué)領(lǐng)域,所以一些更加普遍的工具例如谷歌被排除在外;第二,這些工具應(yīng)當涵蓋大多數(shù)的生物醫(yī)學(xué)領(lǐng)域,換言之,能夠提供更加廣泛的背景材料;第三,這些工具必須免費。以上面三點為標準,一共入選28種檢索工具,詳見表1及表2。表1所表示的是這些工具在何時面世以及各自的基本技術(shù)特征,表2則對28種工具及PubMed之間做出比較。這種比較的結(jié)論是基于我們所做的一項研究所得出的,以PubMed為參照,比較這些工具與PubMed的檢索結(jié)果的區(qū)別。
共同特征
通過表1及表2,我們很明顯可以得出以下結(jié)論:
- 大多數(shù)的工具的名稱都包含“Pub”或“Med”,表現(xiàn)出這些工具與PubMed的相關(guān)性
- 這些工具均是過去10年中開發(fā)出來的,這也正是文字信息挖掘技術(shù)取得進展并成熟的一個階段。
- 大多數(shù)此類工具都是大學(xué)或?qū)W院開發(fā)的。也有少數(shù)工具屬于個人。
- 大多數(shù)此類工具的查詢結(jié)果以條目的方式列出,也有一類工具提供了查詢詞的聚類查詢。
- 盡管僅有少數(shù)幾個工具提供全文鏈接,并且可通過文獻管理軟件來導(dǎo)出查詢結(jié)果,但幾乎所有的工具都提供對PubMed的鏈接。
- 衡量下來,參考文獻排序類的工具占大多數(shù),體現(xiàn)了現(xiàn)有技術(shù)的方向。
(一)查詢結(jié)果排序
- RefMed基于用戶的反饋來進行持續(xù)改進的排序算法。
- Quertle是一種語義檢索平臺,由Quertle公司與PubMed聯(lián)合推出。其技術(shù)核心是允許用戶將查詢結(jié)果與生物醫(yī)學(xué)概念相結(jié)合,這樣更容易使用戶獲得一種縱觀的印象并易于進一步的查詢。
- MedlineRanker使用貝葉斯模型對某一主題進行闡釋,當一些關(guān)鍵詞被提出來之后,某一主題的大致樣貌便浮出水面,然后利用貝葉斯模型來進行修改。這樣更有利于當新文獻出現(xiàn)后可以對某一主題重新審視。
- Misearch也是種基于用戶反饋的排序系統(tǒng),與RefMed不同的是它可以記錄用戶的檢索詞,然后根據(jù)這些有反饋的檢索詞以及用戶點擊文章的順序來獲得用戶的實際需求。
- Hikia是一個封閉系統(tǒng),由專業(yè)公司提供,它包括數(shù)千萬個條目,但具體排序算法未知。
- Semantic MEDLINE與Hikia類似,基本算法未知,但可能是以檢索詞概念和認知理論為基礎(chǔ)。
- MScanner與MedlineRanker最為相似,它不使用檢索詞,而使用期刊縮寫和Mesh。
- eTBLAST專注于相關(guān)文獻,與PubMed不同的是它首先使用文字統(tǒng)計來獲得兩篇文章重疊的部分。
- PubFocus則利用一些特定的參數(shù)來控制文獻排序,例如影響因子、每一作者的貢獻、文獻歷史、文獻動態(tài)(reference dynamics)。
- Twease采用傳統(tǒng)的BM25排序算法。
(二)參考文獻聚類
- Anne O' Tate將PubMed的檢索結(jié)果作為初步結(jié)果,以關(guān)鍵詞、MeSH主題詞、相關(guān)性、附屬關(guān)系、作者等實現(xiàn)設(shè)定含義的參數(shù)為指標對結(jié)果進行分類。
- McSyBi最重要的一點是可以確定參考文獻間的相關(guān)性,并允許用戶對其進行重排。
- GOPubMed GO即是基因?qū)嶓w(gene Ontology),它允許用戶在以下四個方面對文獻進行聚類:生物醫(yī)學(xué)概念、作者、文獻所在期刊以及日期。
- ClusterMed允許用戶進行如下排序:①標題、摘要、MeSH;②標題、摘要;③MeSH;④作者名;⑤從屬關(guān)系;⑥日期。
- XplorMed則代表一種逼近算法,當用戶獲得文獻后,既可以繼續(xù)下一步的查詢,也可以分析現(xiàn)有文獻中的關(guān)鍵詞以便進一步地進行分析,或者對參數(shù)進行限定來獲得更精確的檢索結(jié)果。
(三)基于語義的結(jié)果擴充
- MedEvi提供10類生物研究實體(例如基因、蛋白),這樣檢索結(jié)果便可以附著于每類實體的后面。
- EBIMED提取每篇文章中的概念實體(藥物、蛋白)將其匯總在一起。這樣之間的關(guān)系就更為明確。
- CiteXplore則將生物數(shù)據(jù)提取出來,除了PubMed中的數(shù)據(jù)之外,它還提供歐洲專利局的專利和中科院上海生命信息中心的數(shù)據(jù)。
- MEDIE則將每個MeSH嵌合到摘要的句群中,來獲得生物實體間的相互關(guān)系。這一點與下面的iHOP類似。
- Pubnet其中的net表示的是生物實體間的相互關(guān)系,當查詢結(jié)果出現(xiàn)后實際上輸出為XML語言的網(wǎng)絡(luò)圖。
(四)改善的檢索界面
- iPubMed是一個互動的檢索窗口,隨著查詢詞的不斷增加,參考文獻的數(shù)量不斷減少。
- PubGet直接顯示PDF。
- Babelmesh提供非英語的查詢。
- Hubmed包括多種文獻的顯示方法,既有以日期和相關(guān)性為基礎(chǔ)的文獻排序,也包括文獻聚類。
- askMEDLINE,所謂ask就是提出真正的問題而非檢索詞來讓PubMed回答,例如一些臨床上處置的問題。
- SLIM提供滑塊界面。
- PICO主要面向臨床醫(yī)生,以問題的形式進行查詢。
- PubCrawler每日的更新提醒。
(五)其他有益的嘗試
- iHOP以摘要的句子為基礎(chǔ),每句話一個條目。這樣便可以得到最迅速的關(guān)于某個基因的信息。
- PubMed Assistant、alibaba、PubMed-EX三者都是基于網(wǎng)絡(luò)的查詢助手,其中PubMed Assistant提供關(guān)鍵詞強調(diào)、易于導(dǎo)出到文獻管理軟件等功能,而alibaba、PubMed-EX則屬于基于語義的結(jié)果擴充工具,同時alibaba還以圖表形式提供生物實體間共出現(xiàn)的頻次。
對于新特征的討論
由于多數(shù)的查詢者僅僅關(guān)心極少量的查詢結(jié)果,所以文獻的相關(guān)性就顯得尤為重要。目前有十種工具可以解決這一問題。盡管它們都是用戶輸入關(guān)鍵詞然后將結(jié)果反饋給用戶,但是它們處理這些關(guān)鍵詞的方法不盡相同。例如與PubMed的詞匯自動轉(zhuǎn)換功能類似的,Twease在反饋參考文獻時還反饋相關(guān)的MeSH,這樣檢索者就可以沿著MeSH繼續(xù)查詢,這一點對于檢索結(jié)果為0篇及1篇時尤為重要。另外,檢索結(jié)果排序是針對PubMed默認排序的有效補充,但這種排序的技術(shù)路線又有很大差別,從最初的用戶排序,到相關(guān)性排序算法,再到特定領(lǐng)域重要因素算法以及一些未知的算法。
PubMed的默認搜索結(jié)果為一個長的條目,每頁20個,點擊每個條目后將顯示文獻的基本信息和摘要?,F(xiàn)有的其他系統(tǒng)對PubMed的查詢結(jié)果改善包括兩個方面。第一個方面是由于PubMed的檢索結(jié)果總是一列條目并且需要手動檢索,參考文獻聚類下面的各個工具則是為了把這個長的條目縮減為短的、意義明確的聚類條目,參考文獻被分配在條目之下,這樣當檢索者查看文獻時就會迅速地找到他們感興趣的文章。有鑒于此,選擇合適的主題詞匯到合適的聚類下面成為此類工具開發(fā)的中心?,F(xiàn)在所有的主題詞都是生物醫(yī)學(xué)參照詞匯(例如MeSH)。
第二種拓展來源于信息挖掘技術(shù),而基于語義學(xué)的數(shù)據(jù)挖掘有可能成為檢索技術(shù)的一項里程碑?;谠~匯內(nèi)涵的數(shù)據(jù)挖掘和生物信息提取技術(shù)使“基于語義的結(jié)果擴充”一類的工具有了長足的發(fā)展,不管這項技術(shù)將來的發(fā)展程度如何,疾病、藥物、基因、蛋白及它們之間的相互關(guān)系可能會在信息檢索之外的領(lǐng)域中大放光彩。
為了改善PubMed的檢索質(zhì)量,一些工具從不同的角度對其進行了改良,例如用戶特定的問題、非英語人士文獻檢索、新的限定條件的技術(shù)方法。結(jié)果輸出和直觀性改善則表現(xiàn)為兩個主要的方面,添加圖表顯示以增加摘要的可讀性,及提供更便捷的PDF下載。
PubMed的改變及未來趨勢
為了滿足文獻搜索的需要,PubMed自身也有了很多變化,在過去的10年中,28種工具因運而生。它們之間有可能會互相學(xué)習(xí),例如“相關(guān)文獻”是由PubMed首先提出的,而郵件更新提醒則是由其他工具提出的。PubMed也一直致力于生物醫(yī)學(xué)數(shù)據(jù)的整合,例如基因和蛋白序列等信息,現(xiàn)在已在較為醒目的位置給予檢索者提示。
其他值得一提的還有為了提醒檢索者其他一些重要的參考文獻或綜述,PubMed還提供了相關(guān)文獻的窗口。雖然eBLAST也提供類似的服務(wù),但兩者獲取相關(guān)文獻的算法并不相同。另外,對于臨床研究人員來說,有時僅需獲得臨床上的數(shù)據(jù)便可,所以PubMed最近又提供了臨床查詢界面,使文章僅限于臨床報道。另外一個例子是PubMed所提供的參考文獻匹配器(citation matcher)。最后為了改善從一長串文獻列表中提取出最重要的文獻,“also try”按鈕為檢索者提供包含有檢索詞的最重要的文獻。
考慮到界面和易用性,PubMed為所有的用戶提供特定的服務(wù),例如用戶可以自己添加喜好和篩選參數(shù)。另外2009年P(guān)ubMed重新設(shè)計了檢索界面和主頁,使用戶更容易使用。
為了使用戶跟上日益增長的新文獻,PubMed利用數(shù)據(jù)挖掘和提取技術(shù)使文獻檢索能力更加符合科學(xué),同時,PubMed還整合了上述各種工具在同一頁面下,使得“一站式”檢索成為可能。這樣也使當某種更加先進的檢索工具進入人們視野時可以更容易與現(xiàn)有檢索技術(shù)相融合。
|