智東西3月31日消息,腦機接口研究又有新進展!美國加州大學舊金山分校研究人員研發(fā)了一種新型機器翻譯算法,能以較高準確率解碼腦神經(jīng)活動,并將其翻譯成文字,轉(zhuǎn)錄錯誤率低至3%,可媲美專業(yè)的語音轉(zhuǎn)錄算法。 該研究30日發(fā)表在英國《自然-神經(jīng)科學(Nature Neuroscience)》雜志上,論文題目為《翻譯大腦(Translating the brain)》。 對于失去語言能力但認知完整的人(比如中風病人)而言,這一研究為他們帶來了像正常人般順暢交流的希望。 論文鏈接:https://www./articles/s41593-020-0616-8 一、轉(zhuǎn)錄之難:表達過程復雜,表述方式多樣 大約在10年前,一些學者已在進行腦機接口相關研究。然而多年過去,腦機接口在解碼神經(jīng)活動方面普遍存在速度慢和準確率低的問題。 據(jù)論文介紹,此前的解碼模型錯誤率高至約60%。 1、語言表達過程復雜,難以切入 語言表達本身是一個復雜的過程: 首先,大腦要確定想要表達的意思,并在表達的過程中對語義進行不斷修正。 然后,大腦要選擇與語義相匹配的詞匯。當然,人類掌握了語言能力后,可以在說話或?qū)懳恼聲r自然而然地進行選擇。 最后,當組織好了語言,大腦會安排肌肉群來發(fā)聲。 面對這個過程,解碼模型很難找到合適的切入點來完成轉(zhuǎn)錄。 2、表達方式豐富,難以準確轉(zhuǎn)錄 除了語言表達過程本身的復雜性,腦機接口還受到表達方式的影響。說話時,多個不同的音節(jié)組成單詞、不同單詞再造成句子。 在這個過程中,不同的口音、口誤及其他聽覺問題都會對轉(zhuǎn)錄結(jié)果造成影響。多樣的表達方式、難以理解的表達錯誤大大提升了計算難度。 二、受翻譯軟件啟發(fā),實驗驗證錯誤率僅3%此次研究中,美國加州大學舊金山分校的神經(jīng)外科研究員約瑟夫·馬金(Joseph Makin)及其同事借助機器翻譯方法,訓練了一種循環(huán)神經(jīng)網(wǎng)絡,將大腦神經(jīng)信號直接映射成句子,平均錯誤率僅有3%。 1、從翻譯軟件獲得靈感 根據(jù)論文,研究人員是從翻譯軟件中獲得了啟發(fā)。 翻譯軟件的工作原理是先從句子層面對文本加以理解,根據(jù)語境推測出句子的意思,再根據(jù)語義排除歧義詞的影響。翻譯過程中,軟件會先將文本處理成一種過渡形式,從中提取意義,再倒推文字應該是什么。 馬金教授團隊認為,解碼神經(jīng)活動也可以借鑒文本翻譯過程,先將神經(jīng)活動處理為過渡形式,再解碼為語言。 論文寫道:“為了獲得更高的準確度,我們利用解碼語言神經(jīng)信號與機器翻譯的相似之處,他們都是從一種語言向另一種語言的算法翻譯。從概念上講,這兩件事的目標都是在同一基礎分析單元的兩種不同表達之間建立聯(lián)系?!?/p> 為了實現(xiàn)這種設想,研究人員計劃先將神經(jīng)信號轉(zhuǎn)化成各自獨立的單詞,而不是語序通順的語法模塊。這樣就可以在不擴大詞匯量的情況下獲得更高的準確度。 2、4位癲癇患者參與測試,轉(zhuǎn)錄錯誤率僅3% 為了驗證設想,研究團隊用兩種不同的神經(jīng)網(wǎng)絡和顱內(nèi)電極制作了一個解碼器模型,并邀請了4位女性癲癇患者來參與實驗。 實驗之前,研究人員在受試者大腦中植入顱內(nèi)電極,以監(jiān)測她們的腦電波。 實驗過程中,每位受試者被要求在40分鐘內(nèi)閱讀一組句子,每組句子重復兩次。據(jù)了解,每組句子約有30~50個句子,最多包含250個不同的單詞。 受試者朗讀的同時,研究者記錄了她們的大腦神經(jīng)活動。 朗讀完后,研究人員將受試者的神經(jīng)活動記錄,以及閱讀的錄音輸入一個循環(huán)神經(jīng)網(wǎng)絡數(shù)據(jù)庫。該神經(jīng)網(wǎng)絡會對實驗數(shù)據(jù)進行梳理,尋找元音、輔音等與語言相關的信號。通過比較相似之處,數(shù)據(jù)庫會識別出受試者閱讀同一句話的腦電波。然后,該數(shù)據(jù)庫會捕捉這些與語言相關的信號,將它們處理成一個過渡形式。 最后,這個過渡形式將被發(fā)至第二個神經(jīng)網(wǎng)絡。第二個神經(jīng)網(wǎng)絡系統(tǒng)會把過渡形式轉(zhuǎn)換成單詞,進而組成句子。 在這一過程中,算法并沒有記憶受試者說某個句子時的腦電波。馬金教授解釋說,每當一個人說同一個句子時,大腦活動是相似的,但并不完全相同,“記憶這些句子對大腦活動不會有幫助,所以網(wǎng)絡必須去學習它們的相似之處,以便它最后能概括出這個例子”。 研究人員發(fā)現(xiàn),在這四名女性之中,模型的平均錯誤率僅有3%,幾乎達到了專業(yè)語音轉(zhuǎn)錄算法的準確率??紤]到僅進行了少量訓練,它達到的準確率已經(jīng)算是十分優(yōu)秀。 3、經(jīng)過遷移學習,模型準確率再提高 除了對固定的幾組句子進行實驗,研究人員還訓練模型進行了各種形式的遷移學習。 例如,一位受試者說了一組在之前測試中沒有使用過的句子。經(jīng)過訓練,模型的轉(zhuǎn)錄錯誤率下降了30%。另外,研究人員還根據(jù)兩位用戶提供的數(shù)據(jù)對模型進行了訓練,最終模型的單詞錯誤率低于8%,與人工翻譯的錯誤率相當。 這些遷移學習具有重要意義: 一方面,它說明了該模型的模塊化特征可以讓它在源于文本的中間表征上進行訓練,而不是在任何時候都需要神經(jīng)記錄。盡管在最初,這種做法可能會導致解碼錯誤率增加,但長遠來說,這將使模型適宜于在更多情況下使用。 另一方面,這也表明了這個模型最終也可以為實驗受試者以外的人群服務,比如那些喪失發(fā)聲能力的人。此外,個人所需的訓練時間也將大大減少。 三、詞匯量少,訓練時間短,模型仍有局限性盡管這個模型在實驗中的準確率較高,但是它距離實際應用的要求仍有距離。 目前,模型能夠識別的語言還十分有限。研究人員在論文中坦承了這一點:“盡管我們希望解碼器能夠?qū)W習并利用語言的規(guī)律性,但是我們也知道從實驗中的少量語料擴展到常用英語還需要很多數(shù)據(jù)。” 倫敦大學學院的索菲·斯科特(Sophie Scott)也認為距離實現(xiàn)全面翻譯大腦信號數(shù)據(jù)還有很長的路要走,“他們實驗中使用的語言是非常有限的?!彼f到。 如果要做到為語言障礙者彌補語言能力,則“至少是幾年以后的事了?!瘪R金博士接受采訪時說。 另外,目前該解碼模型的安全性也還未經(jīng)驗證,植入人體仍需謹慎。 結(jié)語:研究仍在繼續(xù),語言障礙患者或能從中受益研究人員表示,他們將在之后的研究中繼續(xù)擴展這個模型的詞匯量和靈活性。遷移實驗的結(jié)果也說明了解碼模型還具有很大的發(fā)展?jié)摿Α?/p> 或許在未來,語言障礙患者可以通過植入這一類系統(tǒng)而獲得“說話”的能力,讓我們拭目以待。 |
|