作者 | 陳彩嫻、琰琰 5月12日,《Nature》發(fā)布最新一期封面研究:斯坦福大學(xué)的研究人員開發(fā)了一項新的腦機(jī)接口技術(shù),能夠使癱瘓患者直接將腦海里的“想法”轉(zhuǎn)換為電腦屏幕上的手寫文字,“打字”速度突飛猛進(jìn)! 研究一經(jīng)發(fā)布,立刻引起廣泛關(guān)注! 一般來說,正常人思考的速度遠(yuǎn)遠(yuǎn)快于交流的速度。比如,我們在使用手機(jī)或電腦時,往往是用手敲鍵盤,寫出腦海里事先已經(jīng)形成的“表達(dá)”。打字的速度是緊跟在想法后面的。 然而,對于絕大多數(shù)行動不便的癱瘓患者而言,盡管他們的大腦思考速度與正常人無異,但在信息時代,使用智能設(shè)備、與周圍人交流時,卻十分困難。 為此,來自斯坦福大學(xué)、布朗大學(xué)和哈佛醫(yī)學(xué)院的研究人員共同開發(fā)了一種專門用于打字的腦機(jī)接口技術(shù),使癱瘓患者的打字交流速度加快。 圖注:輸入速度對比(來源:NPG Press) 除了腦機(jī)接口界面,這項研究還用到了人工智能技術(shù)來提高“讀心”的準(zhǔn)確率: 研究人員用AI模型學(xué)習(xí)神經(jīng)活動和手指活動的映射關(guān)系,特定的手指活動對應(yīng)特定的字符,使用的算法是RNN(用于學(xué)習(xí)模式)以及降維方法(用于聚類),然后又用一個語言模型(通過前幾個字符預(yù)測下一個字符),對輸出的初始結(jié)果進(jìn)行校正,使最終屏幕上呈現(xiàn)的結(jié)果(文字)更加準(zhǔn)確。 ? 此前,腦機(jī)接口技術(shù)已經(jīng)成功幫助癱瘓患者做簡單的動作(比如伸手或操縱大型物體)。繼馬斯克公司Neuralink在上個月發(fā)布猴子用意念玩游戲后,腦機(jī)接口研究便被寄予提高癱瘓患者幸福感的更大期望。斯坦福的這項研究,也許是腦機(jī)接口+AI對“技術(shù)向善”的又一助力! 研究詳情 目前,市面上的打字輔助設(shè)備功能,是用戶通過眼睛眨動或語音傳遞來下達(dá)“打字”命令。 其中,癱瘓患者使用眼動追蹤鍵盤時,每分鐘可以打出大約47.5個字符,比正常打字的速度(每分鐘約115個字符)要慢許多,且可能對患者的身體造成一定程度的損害。而且,眼動追蹤鍵盤也不適用于視力或發(fā)聲有障礙的患者,也不方便用戶重新閱讀電子郵件、以便在用眼睛打字時根據(jù)郵件內(nèi)容組織回復(fù)內(nèi)容。 相比之下,腦機(jī)接口可以通過解析大腦里的想法來幫助患者“打字”交流,損害小,也更靈活。 然而,此前的腦機(jī)接口打字技術(shù)還無法與眼動儀等打字輔助設(shè)備相比,其中一個原因是:打字是一項復(fù)雜的任務(wù)。 在英語打字時,我們是從26個拉丁字母中進(jìn)行選擇?;谟脩舻纳窠?jīng)活動,建立分類算法來預(yù)測用戶想要選擇的字母,非常具有挑戰(zhàn)性,所以腦機(jī)接口已間接解決了鍵入任務(wù)。 例如,非侵入性腦機(jī)接口拼寫器向用戶提供了幾個順序的視覺提示,并分析了用戶對所有提示的神經(jīng)反應(yīng),從而確定了他們想敲打的字母。最成功的侵入式腦機(jī)接口是iBCI技術(shù),在大腦中植入電極(例如馬斯克的Neuralink溜豬、猴子用意念玩游戲),使用戶可以控制光標(biāo)來選擇字母鍵,并實現(xiàn)了每分鐘打40個字符的速度。 但是,這些iBCI與非侵入式眼動儀一樣,占據(jù)了用戶的視覺注意力,且無法保證提高他們的打字速度。 因此,來自斯坦福大學(xué)研究科學(xué)家Frank Willett與同事開發(fā)了一種不同的方法,可以直接解決iBCI中的打字任務(wù),在用戶思考時對字母進(jìn)行解碼(如圖1所示)。 圖1:Willett等人開發(fā)的腦機(jī)接口技術(shù),能夠通過預(yù)測神經(jīng)活動,將癱瘓患者腦海里想象的打字內(nèi)容轉(zhuǎn)換為電腦屏幕上的文本。在用戶想象要寫的字母時,植入大腦的電極可以測量許多神經(jīng)元的活動(線條表示每個神經(jīng)元發(fā)射的時間點)。遞歸神經(jīng)網(wǎng)絡(luò)(RNN)學(xué)習(xí)每個字母產(chǎn)生的神經(jīng)活動模式,并分析這些活動模式在多個試驗中的關(guān)系,從而生成聚類圖。算法會使用此信息來預(yù)測當(dāng)前試驗中參與者所想象的字母,并將該預(yù)測轉(zhuǎn)換為印刷輸出。 這項研究需要一種可以預(yù)測癱瘓用戶想寫的字母或標(biāo)點符號的分類算法。這是一個挑戰(zhàn),因為我們無法觀察到人類大腦中的真實想法。 為了克服這一挑戰(zhàn),Willett等人改寫了一個最初為語音識別而開發(fā)的機(jī)器學(xué)習(xí)算法,使得他們可以僅根據(jù)神經(jīng)活動,在用戶嘗試打字時對其手和手指進(jìn)行預(yù)測。每當(dāng)研究參與者想象的字母與給定的字母一致時,就會產(chǎn)生神經(jīng)活動的模式。根據(jù)這些信息,小組產(chǎn)生了一個標(biāo)記的數(shù)據(jù)集,數(shù)據(jù)集中包含與每個字母相對應(yīng)的神經(jīng)活動模式,然后他們再使用這個數(shù)據(jù)集來訓(xùn)練分類算法。 為了評估手寫的神經(jīng)表征,受試者需要按照電腦屏幕給出的指令,一次 “手寫” 一個字符,每個字母重復(fù) 27 次試驗。 圖注:受試者的 “手寫” 筆跡(來源:NPG Press) 為了在這樣的高維空間中實現(xiàn)準(zhǔn)確的分類,Willett及其同事的分類算法使用了當(dāng)前的多個機(jī)器學(xué)習(xí)方法,以及擅長預(yù)測順序數(shù)據(jù)的遞歸神經(jīng)網(wǎng)絡(luò)(RNN) 。 RNN需要足夠的訓(xùn)練數(shù)據(jù),但這些數(shù)據(jù)在神經(jīng)接口中受到限制,因為很少有用戶能夠連續(xù)幾個小時在思考自己要寫的內(nèi)容。 為此,研究人員使用一種數(shù)據(jù)增強的方法,在該方法中,先前由參與者生成的神經(jīng)活動模式可以用于生成人工語句,然后在人工語句上訓(xùn)練RNN。他們還通過在神經(jīng)活動模式中引入人工可變性來擴(kuò)展訓(xùn)練數(shù)據(jù),以模仿人腦中自然發(fā)生的變化。這種可變性可以使加了RNN的腦機(jī)接口技術(shù)更加魯棒。 圖注:筆跡的神經(jīng)表征。 研究結(jié)果與思考 通過上述方法,Willett和同事的算法能夠進(jìn)行非常準(zhǔn)確的分類,從而在94.1%的時間內(nèi)選出正確的字符。通過包含預(yù)測語言模型(類似于在智能手機(jī)上自動校正錯別字的模型),他們將腦中文字轉(zhuǎn)為屏幕文字的準(zhǔn)確性提高到99.1%。參與者能夠以每分鐘90個字符的速度準(zhǔn)確輸入內(nèi)容,性能比之前的iBCI提高了兩倍。 這項研究的成就不僅僅來自機(jī)器學(xué)習(xí),解碼器的性能與饋入解碼器的數(shù)據(jù)同樣出色,這一點也至關(guān)重要。研究人員發(fā)現(xiàn),與手寫嘗試相關(guān)的神經(jīng)數(shù)據(jù)特別適合打字任務(wù)和分類。實際上,即使使用更簡單的線性算法,手寫筆記也可以進(jìn)行很好的分類,這表明,神經(jīng)數(shù)據(jù)對這項研究的成功起了很大的作用。 通過模擬分類算法在用不同類型的神經(jīng)活動進(jìn)行測試時的表現(xiàn),Willett等人得出了重要的發(fā)現(xiàn):手寫時的神經(jīng)活動比用戶嘗試畫直線時的神經(jīng)活動具有更大的字母時間變化性,這種可變性使分類更容易。 Willett及其同事的研究展示了腦機(jī)接口技術(shù)的樂觀前景。iBCI將需要提供巨大的性能和可用性優(yōu)勢,以證明在大腦中植入電極的費用和風(fēng)險是合理的。 圖注:植入大腦的微型電極陣列(來源:BrainGate) 值得注意的是,打字速度并不是決定腦機(jī)接口技術(shù)是否被采用的唯一因素,生命周期和魯棒性也需要考慮。在這項研究中,斯坦福的研究人員證明了,他們的算法在有限的訓(xùn)練數(shù)據(jù)下也能很好地運行,但隨著神經(jīng)活動模式的改變,可能需要做進(jìn)一步的研究,以使該設(shè)備在其生命周期內(nèi)保持穩(wěn)定的性能。 另一個問題是:該方法要如何擴(kuò)展并轉(zhuǎn)換為其他語言?Willett和同事的模擬表明,26個拉丁字母中,有幾個字母的書寫方法是相似的(比如r、v和u),因此比其他字母更難分類。在其他語言中,比如泰米爾語,有247個緊密相關(guān)的字母,可能很難分類。對于機(jī)器學(xué)習(xí)預(yù)測語言模型中尚未很好表示的語言,翻譯問題尤為重要。 盡管仍有許多工作要做,但Willett和同事的研究是一個里程碑,拓寬了iBCI應(yīng)用落地的前景。這項研究使用了快速發(fā)展的機(jī)器學(xué)習(xí)方法,插入最新模型,為將來的腦機(jī)接口技術(shù)改進(jìn)提供了一條樂觀的途徑。 該團(tuán)隊還公開了他們的數(shù)據(jù)集,這也會加快腦機(jī)接口的發(fā)展速度,使癱瘓患者的交流速度加快成為現(xiàn)實。 真正的科學(xué)前沿研究 這一成果公布后,AI科技評論第一時間聯(lián)系到了國內(nèi)研究腦機(jī)接口的知名學(xué)者崔翯老師 ,崔翯老師中國科學(xué)院腦科學(xué)與智能技術(shù)創(chuàng)新中心高級研究員??吹酱隧椦芯砍晒?,他是興奮地說,它真正代表了科學(xué)前沿。 就在前一個多月前,馬斯克剛剛公布了其在腦機(jī)接口領(lǐng)域的最新研究成果:“讓猴子用意念玩游戲”,相關(guān)視頻在國內(nèi)引發(fā)軒然大波,甚至不少網(wǎng)友認(rèn)為它代表了腦際接口研究的最高成果。 相比于馬斯克Neualink的研究成果,本次研究是真正的技術(shù)創(chuàng)新。崔翯老師的學(xué)生肖永祥說: “Neualink優(yōu)勢在于神經(jīng)界面,能夠高通量地?zé)o線傳輸神經(jīng)信號。但它的游戲任務(wù)其實是非常簡單的,只是一維控制,Shenoy的工作難度要遠(yuǎn)高于它。Shenoy的工作是腦控解碼手寫字,它是需要解碼多個字母(記得是30個字符),還需要解碼字母出現(xiàn)時間。它在解碼算法上是一流的?!?/p> 我們知道,腦機(jī)接口技術(shù)包括三個部分:神經(jīng)界面(記錄系統(tǒng)),解碼算法,神經(jīng)假肢。算法優(yōu)勢是其中的一個關(guān)鍵部分。 在這項研究中,神經(jīng)界面是常規(guī)的,它主要創(chuàng)新點在解碼算法和算法對應(yīng)的效應(yīng)器。 “傳統(tǒng)解碼算法或者是解碼機(jī)械臂移動、抓握,或者是解碼屏幕上的光標(biāo)位置,或者是解碼屏幕上的打字鍵盤。而這篇工作不需要任何視覺提示,只需要被試想象手寫動作,就能夠解碼出被試想象手寫的字母。這在領(lǐng)域中是開創(chuàng)性的?!?/p> 另外,它與馬斯克研究不同的是,Neualink是自己開發(fā)的腦機(jī)接口記錄系統(tǒng),通過藍(lán)牙無線傳輸。而這項研究是用blackrock的記錄系統(tǒng),是有線傳輸。 參考文獻(xiàn) [1]https://www./articles/d41586-021-00776-8 [2]https://www./articles/s41586-021-03506-2 本文經(jīng)授權(quán)轉(zhuǎn)載自AI科技評論(ID:aitechtalk) |
|