1 新智元原創(chuàng) 作者:趙以文
有些事,只靠人力就是沒法做到。
由此,MSKCC (凱特琳癌癥中心)跟 IBM 合作,利用超級計算機IBM Watson 吸收知識的能力,擴展人類的極限:IBM Watson 每秒能夠掃描上萬億字節(jié)的醫(yī)療數(shù)據(jù),而且“過目不忘”,再結(jié)合強大的機器學(xué)習算法,從大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中得出洞察,進而助力醫(yī)生做出更加個性化的的治療方案。
在福布斯的報道中,與IBM Watson 合作的醫(yī)療機構(gòu)Wellpoint的醫(yī)生表示,試驗中IBM Watson 對肺癌診斷正確的幾率為 90%,而人類醫(yī)生只有 50%。使用IBM Watson 參與臨床教學(xué)的醫(yī)院 Cleveland Clinic 的醫(yī)生都經(jīng)常為IBM Watson 給出的建議治療方案感到驚嘆:“為什么我(們)當初就沒有想到那一點?!” 雖然“科學(xué)和技術(shù)飛速發(fā)展”已成了老生常談,而癌癥診療還是一個充滿迷思的領(lǐng)域。目前,人們經(jīng)常提及并感到恐懼的癌癥包含:“肺癌”“乳腺癌”等。
借助基因檢測等生物信息技術(shù),我們知道,所謂的“肺癌”“腎癌”“乳腺癌”,實際上是對成千上萬種不同的細胞突變模式或錯誤排列的總稱。根據(jù) 2015 年一篇研究腎癌的論文,正如世界上沒有兩片一模一樣的樹葉,地球上也沒有兩個一模一樣的腫瘤;還有研究發(fā)現(xiàn),就連同一個人的同一個腫瘤里面,也沒有兩個細胞在遺傳基因上是一樣的。
了解這一點,對癌癥診療十分關(guān)鍵。目前,癌癥診斷幾乎全都是靠“看”:人類醫(yī)生在顯微鏡下觀看細胞或組織樣本,有時候?qū)毎鸇NA、RNA 或者蛋白質(zhì)的一些測試結(jié)果可以幫助醫(yī)生做出判斷——但歸根結(jié)底,還是靠“看”。據(jù)媒體報道,2014 年,美國肺癌、乳腺癌和皮膚癌的死亡率將近 40%,所以對于癌癥而言,早發(fā)現(xiàn)早治療非常關(guān)鍵。 靶向藥物及療法的出現(xiàn),使癌癥醫(yī)療情形大為改觀。所謂“靶向治療”,就是針對含有某種癌癥有關(guān)的基因突變的細胞,開發(fā)“靶向藥物”,要么殺死這些細胞,要么使其不能復(fù)制。然而,據(jù)統(tǒng)計,目前癌癥藥物治療有效——即腫瘤體積顯著縮小——比例只有 22%。也就是說,再怎么“靶向”,當靶子的數(shù)量太多時,治療也鞭長莫及。
很容易想到的方法是,借助機器的計算力分析并預(yù)測醫(yī)療數(shù)據(jù)。1991年,用于醫(yī)學(xué)診斷的簡單貝葉斯方法 QMR 模型被提出。1994 年,《美國醫(yī)學(xué)信息學(xué)會》(JAMIA)發(fā)表了題為《醫(yī)療診斷決策支持系統(tǒng):過去、現(xiàn)在和未來》的調(diào)查文章。2005 年,《英國醫(yī)學(xué)雜志》(BMJ)發(fā)表了題為《用臨床決策支持系統(tǒng)提高臨床實踐》的論文。
近年來,隨著計算能力的提升和相關(guān)醫(yī)療大數(shù)據(jù)的發(fā)展,越來越多的醫(yī)生開始使用機器學(xué)習幫助癌癥診斷。機器學(xué)習算法使用各種統(tǒng)計、概率和優(yōu)化方法讓計算機從輸入中“學(xué)習”,從海量非結(jié)構(gòu)化的數(shù)據(jù)中識別出人類難以識別的模式。除了癌癥診斷,機器學(xué)習也可以用于癌癥預(yù)后及復(fù)發(fā)的判斷。
在癌癥診斷中使用的機器學(xué)習算法主要有三種:監(jiān)督學(xué)習、無監(jiān)督學(xué)習和強化學(xué)習。在監(jiān)督學(xué)習的情況下,癌癥診斷可以簡化為“分類”:模型根據(jù)訓(xùn)練結(jié)果,將輸入的數(shù)據(jù)分為幾類。假設(shè)采集了與乳腺癌有關(guān)的數(shù)據(jù),根據(jù)腫瘤的大小判斷該腫瘤是良性還是惡性,那么機器學(xué)習模型要問答的問題,就成了估計這個腫瘤是良性(或惡性)的概率,如下圖。
還一種廣泛使用的機器學(xué)習方法是半監(jiān)督學(xué)習,也就是監(jiān)督學(xué)習和無監(jiān)督學(xué)習的結(jié)合。采用半監(jiān)督學(xué)習時,輸入的數(shù)據(jù)有的打了標簽,有的則沒有標簽,通常沒有標簽的數(shù)據(jù)會更多。完善標簽的質(zhì)量后,機器學(xué)習算法相比一般的預(yù)測模型,正確率會有大幅提升。
2016 年1月,羅氏制藥收購了名不見經(jīng)傳的Foundation Medicine,獲得了 3.5 萬份癌癥基因測序及其推薦治療方案。2016 年 4 月,由原華大基因CEO王俊創(chuàng)辦的碳云智能對外公布 A 輪接受融資,估值 10 億美元,要構(gòu)建健康大數(shù)據(jù)平臺,整合遺傳、醫(yī)療、營養(yǎng)乃至美容健身等各類健康數(shù)據(jù)資源。像這樣的例子還有很多很多,奧巴馬政府去年初提出的“精準醫(yī)療計劃”、“Cancer Moonshot”,也都是想利用大數(shù)據(jù)和人工智能幫助人類醫(yī)生,提升癌癥的治愈率。
目前,對于某些疾病,算法的準確度已經(jīng)足夠高,遠遠超過人類醫(yī)生。越來越多的人類醫(yī)生開始意識到,借助機器學(xué)習,他們能夠快速精準地獲得臨床有用的醫(yī)療信息。 目前,每年花費在抗癌藥物研發(fā)的大量資源中,有很多都浪費在了所謂的“試錯”上面。近年來計算機科學(xué)的發(fā)展,讓很多醫(yī)療機構(gòu)都將認知計算和大數(shù)據(jù)用于癌癥診療,IBM 算是較早就開始嘗試這一點;截止 2015 年底,IBM Watson 閱讀了 1967 年到 2000 年的 470 萬份專利和 1100 萬份醫(yī)藥期刊,并從中生成了 250 多萬種新的化合物,構(gòu)建了一個強大的數(shù)據(jù)庫(Strategic IP Insight Platform)——就像計算材料科學(xué)家使用機器學(xué)習算法加速新材料的發(fā)現(xiàn),此舉也將有望大舉加速抗癌新藥的研發(fā)。 不僅如此,機器算法還能提升現(xiàn)有癌癥藥物的使用率。UCSF 研究人員開發(fā)了一種能夠系統(tǒng)性篩選現(xiàn)有癌癥藥物的程序,并檢測了 90 種現(xiàn)有抗癌藥各自針對 51 種基因突變的治療效果。根據(jù)去年在 Cancer Discovery 發(fā)表的論文,該團隊已經(jīng)發(fā)現(xiàn)了超過 10 種有望進入臨床試驗的藥物,其中包括一些此前根本沒人想到的方案,比如原本為了 AA 基因突變研發(fā)的 aa 藥,實際上對 BB 基因突的治療結(jié)果更好,乃至可以進入臨床試驗。
不單藥物研發(fā)理論,人工智能在實際藥物生產(chǎn)過程中也起到了很大的加速作用。前不久,MIT的 3 名教授在 Science 發(fā)表論文,宣布團隊成功將制藥工廠裝進了“電冰箱”。研究人員在論文中描述了一款電冰箱大小的一體化制藥機原型。 據(jù)介紹,這臺制藥機一天之內(nèi)可以生產(chǎn) 1000 劑量的藥片,將制藥速度提升了 10 倍,目前已經(jīng)可以生產(chǎn)Benadryl、lidocaine、Valium和Prozac 這 4 種常用藥。這款制藥機獨特的地方在于,它將傳統(tǒng)制藥過程中的電路、加熱器、混合器、反應(yīng)器等設(shè)備,集成為一個電冰箱大小的封閉工作站。一般而言,合成藥物所需要的溫度、壓強等參數(shù)都可以事先設(shè)置好,只有個別步驟需要技術(shù)人員控制或者加入原料。這臺機器可以根據(jù)藥物的特點,調(diào)整參數(shù)和配件,以往需要多個工廠聯(lián)合生產(chǎn)的藥物,只用這一臺機器就能夠完成。
最后,從藥物研發(fā)出來到經(jīng)過批準上市,一般也需要長達幾年甚至幾十年的時間,這對癌癥患者而言,恐怕比金錢更加難以承受。新智元智庫專家王飛躍教授在《虛擬現(xiàn)實:平行也可以相交》一文中指出:“現(xiàn)在制定和實施一項社會政策,往往需要多年才能檢驗到實際效果。如果有虛擬現(xiàn)實構(gòu)造的人工社會模型,政策制定后,拿虛擬人做試驗品,在‘計算’試驗中發(fā)現(xiàn)政策中的可能漏洞,推理中的可能局限甚至偏見,再通過虛擬現(xiàn)實把邏輯上的錯誤和個人的私利盡可能剔除出來加以修正。通過智能系統(tǒng)選擇最優(yōu)化的方案,而不是拿實際的人力、資源、財政來試錯。 此外,還可以在虛擬和物理社會中同時實施政策,比較兩者的結(jié)果,如果兩者不一樣,之間的差別就變成了修正政策的反饋信號。是不是當時的假設(shè)錯了?如果假設(shè)沒錯是不是現(xiàn)實社會中有人搞了鬼?通過虛擬現(xiàn)實,形成閉環(huán)的、有反饋的虛實互動,最后走向虛實一體、知行合一。不單是社會政策,未來甚至每個人每做一件事之前都應(yīng)該先虛擬化,模擬每一步有什么目標,怎樣實現(xiàn),這就是知識自動化的第一步,由于效率提高節(jié)省出來的時間將被用到事前虛擬中去,不難設(shè)想,事前虛擬將減少許多社會矛盾和資源浪費?!蓖瑯樱覀円材軙诚?,未來將虛擬現(xiàn)實應(yīng)用于藥物臨床試驗,必將極大縮短藥物從研發(fā)到上市的時間,此外還能解決樣本少、減輕臨床試驗者痛苦等其他問題。
目前,有幾百個基因療法正在研發(fā)之中,對于大約5000種由單一基因錯誤導(dǎo)致的罕見疾病來說,很多療法都將是百分百治愈的。 或許上面說的這些看起來都很遙遠,實際上機器學(xué)習已經(jīng)投入實用,在美國有很多醫(yī)生和護士都會利用機器進行決策。
醫(yī)療公司輝瑞和IBM合作,利用認知計算解析復(fù)雜數(shù)據(jù)的能力,整合可擴展的測量和分析系統(tǒng),預(yù)計推行 24 小時全天候的病患監(jiān)測,為患者提供更好的治療。
在中國,以房顫病人需接受干預(yù)為例,借助IBM認知醫(yī)療數(shù)據(jù)模型的確認和精準化分析,某些城市的醫(yī)院已經(jīng)實現(xiàn)了卒中(中風)風險預(yù)測精度提高,在高風險病人中精確地找到真正需要干預(yù)的病人,極大降低病人不必要的醫(yī)療花費。
就在常用的社交網(wǎng)絡(luò)中,也埋藏著大量有助于癌癥診療及預(yù)防的信息。由于患者經(jīng)常使用社交網(wǎng)絡(luò)分享就醫(yī)經(jīng)驗和治療感想,因此,收集并分析社交網(wǎng)絡(luò)上的有關(guān)信息,有望提供能用于癌癥預(yù)防和治療以及完善醫(yī)醫(yī)療體系和政策的輔助信息。
而確實也有研究人員使用機器學(xué)習算法和自然語言處理,分析 Twitter 中什么樣的關(guān)鍵詞會觸發(fā)關(guān)注,哪些醫(yī)療信息更容易得到傳播,這些信息都有助于健康政策以及疾病預(yù)防。不僅如此,去年 BMJ 一篇論文描述了一個由美英科學(xué)家組成的團隊,搜集人們在 Twitter 上發(fā)送的消息,評估患者就醫(yī)體驗,對于改善醫(yī)療體系也有幫助。
人工智能能夠改善就醫(yī)體驗,提高癌癥診斷正確率,加速新藥研發(fā)。隨著時間推移,越來越多的醫(yī)藥研究者與計算機科學(xué)家合作,共同完善機器學(xué)習等人工智能在醫(yī)藥領(lǐng)域中的應(yīng)用。不僅如此,還可以看到一大批綜合性人才的崛起。既擁有醫(yī)藥學(xué)知識,又具備人工智能洞見的研究者,將是未來醫(yī)藥界的發(fā)展基礎(chǔ)。
而且,我們沒有理由不充滿信心——當奧巴馬提出精準醫(yī)療計劃,宣稱要“治愈”癌癥時,很多美國醫(yī)藥界人士的反應(yīng)都比較積極,沒有人會天真地以為癌癥能被簡單“治愈”,但他們很高興奧巴馬用了“治愈”這個詞,這是人類一直努力的目標,有了人工智能,只會讓我們更快達到那里。
參考資料: 1. Watson Oncology,mskcc.org 2. BMJ 2015;351:h4901 3. Methods Inf Med. 1991Oct;30(4):241-55. 4. BMJ 2005;330:765 5. doi:10.1016/j.csbj.2014.11.005 6. CMAJ. 2013 Jun 11; 185(9): E367–E368. doi:10.1503/cmaj.109-444 7. Cruz JA, Wishart DS. Applications of Machine Learning inCancer Prediction and Prognosis. CancerInformatics. 2006;2:59-77. 8. Nature 512, 155–160 (14August 2014) doi:10.1038/nature13600 9. Nature Genetics 46, 225–233 (2014)doi:10.1038/ng.2891 10. Adamo A, Beingessner RL, Behnam M, Chen J, Jamison TF, et al. 2016. On-demand continuous-flowproduction of pharmaceuticals in a compact,reconfigurable system. Science 352:61-7 12. Cancer Discovery February2015 5:97-99; doi:10.1158/2159-8290.CD-ITI5-2 13. BMJ QualSaf doi:10.1136/bmjqs-2015-004309 14. Understanding Cancer-basedNetworks in Twitter using Social Network Analysis |
|