AI知道你腦子里在想什么，還幫你畫了出來，項目代碼已開源

天承辦公室 2023-03-09 發(fā)布于江蘇

展開全文

機器之心專欄

機器之心編輯部

一個「所見即所思」的世界將是什么樣子？

在科幻小說《三體》中，企圖占領(lǐng)地球的三體人被賦予了一個很獨特的設(shè)定：通過腦電波共享信息，彼此之間思維透明、不善陰謀。在他們那里，想和說是同一個詞。而人類則利用自身思維不透明的特性想出了「面壁計劃」，最終成功騙過三體人，取得了階段性勝利。

那么問題來了，人類的思維真的是完全不透明的嗎？隨著一些技術(shù)手段的出現(xiàn)，這個問題的答案似乎沒有那么絕對了。很多研究者都在嘗試解碼人類思維的奧秘，將一些大腦中的信號解碼為文字、圖像等信息。

最近，兩個研究團隊同時在圖像解碼方向取得了重要進展，而且相關(guān)論文都被 CVPR 2023接收了。

第一個團隊來自大阪大學(xué)，他們使用最近非?；鸬?Stable Diffusion，能從功能磁共振成像 (fMRI) 獲得的人腦活動圖像中重建大腦活動中的高分辨率、高精準(zhǔn)圖像（參見《Stable Diffusion 讀你大腦信號就能重現(xiàn)圖像，研究還被 CVPR 接收了》）。

巧合的是，幾乎同一時間，來自新加坡國立大學(xué)、香港中文大學(xué)和斯坦福大學(xué)的華人團隊也做出了類似的成果。他們開發(fā)了一款名為「MinD-Vis」的人類視覺解碼器，通過預(yù)訓(xùn)練的一個 mask modeling 和 latent diffusion model，能從 fMRI 數(shù)據(jù)中直接解碼出人類視覺刺激。它生成的這些圖像不僅有合理的細節(jié)，而且還準(zhǔn)確地呈現(xiàn)了圖像的語義和特征（如紋理和形狀）。目前，這項研究的代碼已經(jīng)開源。

論文題目：Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding

論文鏈接：http:///abs/2211.06956
代碼鏈接：https://github.com/zjc062/mind-vis
項目鏈接：https://mind-vis./

接下來我們將詳細介紹這篇論文。

研究概覽

「所見即所思」。

人類的感知和先前知識在大腦中有著密切的關(guān)聯(lián)，我們對世界的感知不僅受到客觀刺激的影響，也受到我們的經(jīng)驗影響，這些影響形成了復(fù)雜的大腦活動。理解這些大腦活動并解碼信息是認知神經(jīng)科學(xué)的重要目標(biāo)之一，其中解碼視覺信息是一個具有挑戰(zhàn)性的問題。

功能性磁共振成像 (fMRI) 是一種常用的非侵入性且有效的方法，可以用于恢復(fù)視覺信息，如圖像類別。

MinD-Vis 的目的是探索使用深度學(xué)習(xí)模型直接從 fMRI 數(shù)據(jù)中解碼視覺刺激的可能性。

以往的方法直接從 fMRI 數(shù)據(jù)中解碼復(fù)雜神經(jīng)活動時，存在缺乏 {fMRI - 圖像} 配對和有效的生物學(xué)指導(dǎo)的問題，所以重建的圖像通常模糊且在語義上無意義。因此，有效地學(xué)習(xí) fMRI 表征是一項重要的挑戰(zhàn)，這有助于建立大腦活動與視覺刺激之間的聯(lián)系。

此外，個體變異性使問題更加復(fù)雜，我們需要從大型數(shù)據(jù)集中學(xué)習(xí)表征，并且放寬從 fMRI 生成條件合成的限制。

因此，作者認為使用自監(jiān)督學(xué)習(xí) (Self-supervised learning with pre-text task) 加上大規(guī)模生成模型可以使模型在相對較小的數(shù)據(jù)集上微調(diào)后具有上下文知識和令人驚嘆的生成能力。

在上述分析的驅(qū)動下，MinD-Vis 提出了人類視覺解碼的掩碼信號建模與雙條件潛在擴散模型，具體貢獻如下：

提出了 Sparse Coded-Masked Brain Modeling（SC-MBM），作為受生物學(xué)指導(dǎo)的有效視覺解碼大腦特征預(yù)訓(xùn)練學(xué)習(xí)器。
通過增加雙條件潛在擴散模型（DC-LDM），在相同語義下強化了解碼一致性，同時允許生成方差。
結(jié)合 SC-MBM 的表示能力和 DC-LDM 的生成能力，MinD-Vis 生成的圖像在保留語義信息的同時更加合理。
在多個數(shù)據(jù)集上進行了定量和定性測試。

與過往的方法進行對比 – 生成質(zhì)量

與過往的方法進行對比 – 評判指標(biāo)的定量對比

自監(jiān)督學(xué)習(xí) + 大規(guī)模生成模型

由于收集 {fMRI - 圖像} 配對非常昂貴且耗時，這個任務(wù)一直存在缺乏數(shù)據(jù)標(biāo)注的問題。另外，每個數(shù)據(jù)集、每個個體的數(shù)據(jù)都會存在一定的域偏移。

在這個任務(wù)中，研究人員的目標(biāo)是建立大腦活動與視覺刺激之間的聯(lián)系，并由此生成相應(yīng)的圖像信息。

為此，他們使用了自監(jiān)督學(xué)習(xí)和大規(guī)模生成模型。他們認為這種方法可以使模型在相對較小的數(shù)據(jù)集上進行微調(diào)，并獲得上下文知識和令人驚嘆的生成能力。

MinD-Vis 框架

接下來將詳細介紹 MinD-Vis 框架，并介紹設(shè)計的理由和思路。

fMRI 數(shù)據(jù)有這些特點和問題：

fMRI 用 3D 體素（voxel）來測量大腦血氧水平相關(guān)（BOLD）的變化，來觀測大腦活動變化。鄰近體素的幅度通常相似，表明 fMRI 數(shù)據(jù)中存在空間冗余。
在計算 fMRI 數(shù)據(jù)時，通常會提取 Region of Interest (ROI) 并把數(shù)據(jù)打成 1D vector。在這個任務(wù)里，只提取大腦 visual cortex 的信號，因此，體素的數(shù)量（約為 4000）遠比圖像里像素點的數(shù)量（256*256*3）少，這樣的數(shù)據(jù)在緯度方面和通常處理圖像數(shù)據(jù)的方式存在相當(dāng)?shù)牟罹唷?/span>
由于個體差異，實驗設(shè)計的差異，腦信號的復(fù)雜程度，每個數(shù)據(jù)集、每個個體的數(shù)據(jù)都會存在一定的域偏移。
對于一個固定的視覺刺激，研究者希望模型還原的圖像在語義上一致；但由于個體差異，每個人看到這個視覺刺激的反應(yīng)不同，研究者又希望模型有一定的方差和靈活性。

為了解決這些問題， MinD-Vis 包含兩個階段：

利用大規(guī)模的 fMRI 數(shù)據(jù)集來訓(xùn)練 Masked Autoencoder，來學(xué)習(xí) fMRI representation。
將預(yù)訓(xùn)練好的 fMRI encoder 與 LDM 通過 cross-attention conditioning 和 time-step conditioning 相集成進行 double conditioning，以進行條件合成。然后，通過使用配對的 {fMRI, Image} 來共同 finetune LDM 中的 cross attention head。

下面將在這里詳細介紹這兩步。

MinD-Vis Overview

（A）Sparse-Coded Masked Brain Modeling (SC-MBM) (MinD-Vis Overview 左)

由于 fMRI 空間信息冗余，即使大部分被遮蓋，fMRI 數(shù)據(jù)仍然可以恢復(fù)。因此，在 MinD-Vis 的第一階段，為了節(jié)省計算時間，大部分 fMRI 數(shù)據(jù)被遮蓋了。這里，作者使用了類似于 Masked Autoencoder 的做法：

將 fMRI voxels 劃分成 patches
使用有等于 patches 大小的步長的 1D 卷積層轉(zhuǎn)換成 embedding
把剩余的 fMRI patch 加入 positional embedding 后作為 vision transformer 的輸入
解碼得到重建的數(shù)據(jù)
計算重建的數(shù)據(jù)與原數(shù)據(jù)的 loss
通過反向傳播優(yōu)化模型，使得重建的數(shù)據(jù)盡可能地與原數(shù)據(jù)相似
重復(fù) 2-6 的步驟，訓(xùn)練出最終模型

SC-MBM 能有效還原被掩蓋的 fMRI 信息

這個設(shè)計和 Masked Autoencoder 有什么區(qū)別？

當(dāng) mask modelling 應(yīng)用于自然圖像時，模型一般使用等于或略大于 1 的 embedding-to-patch-size ratio。
在這個任務(wù)中，作者使用了比較大的 embedding-to-patch-size ratio，這能顯著提高信息容量，為 fMRI 創(chuàng)建了大的表征空間，這種設(shè)計也對應(yīng)于大腦中信息的稀疏編碼*。

SC-MBM 的消融實驗

（B）Double-Conditioned LDM (DC-LDM) (MinD-Vis Overview 右)

在 Stage A 中進行了 large-scale context learning 之后，fMRI encoder 可以將 fMRI 數(shù)據(jù)轉(zhuǎn)換為具有局部性約束的 sparse representation。在這里，作者將解碼任務(wù)表述為條件生成問題，并使用預(yù)訓(xùn)練的 LDM 來解決此問題。

LDM 在圖像的潛在空間上操作，fMRI 數(shù)據(jù) z 作為條件信息，目標(biāo)是學(xué)習(xí)通過反向擴散過程形成圖像。
在圖像生成任務(wù)中，多樣性和一致性是相反的目標(biāo)，fMRI 到圖像更依賴于生成一致性。
為了確保生成一致性，作者將 cross attention conditioning 和 time step conditioning 相結(jié)合，并在 UNet 的中間層使用帶有 time embedding 的條件機制。
他們進一步把優(yōu)化目標(biāo)式重新表述為雙重調(diào)節(jié)交替式。

我們通過多次解碼不同隨機狀態(tài)的圖像證明了我們方法的穩(wěn)定性。

微調(diào)

在 fMRI encoder 通過 SC-MBM 預(yù)訓(xùn)練后，它與預(yù)先訓(xùn)練的 LDM 通過 double conditioning 整合在一起。在這里，作者：

將 encoder 的輸出使用卷積層合并到 latent dimension 中；
聯(lián)合優(yōu)化 fMRI encoder、cross attention heads 和 projection heads，其他部分固定；
微調(diào) cross attention heads 是連接 pre-trained conditioning space 和 fMRI latent space 的關(guān)鍵；
在通過 fMRI 圖像對端到端進行微調(diào)的過程中，通過 large-capacity fMRI representations 將學(xué)到 fMRI 和圖像特征之間更清晰的聯(lián)系。

DC-LDM 的消融實驗

額外細節(jié)

意外的是，MinD-Vis 可以解碼出一些在 ground truth 圖像里并不實際存在，但與圖片內(nèi)容十分相關(guān)的細節(jié)。比如說，當(dāng)圖片是自然風(fēng)景時，MinD-Vis 解碼出了河流和藍天；在提供房屋時，MinD-Vis 解碼出了相似的室內(nèi)裝飾。這既有好處又有壞處。好處在于，這說明我們能夠解碼出想象到的內(nèi)容；壞處在于，這可能會影響對解碼結(jié)果的評估。

喜聞樂見的翻車集錦

作者認為，在訓(xùn)練樣本數(shù)量較少的情況下，刺激的解碼難度會有所不同。例如，GOD 數(shù)據(jù)集包含的動物訓(xùn)練樣本比服裝多。這意味著一個語義上類似于 “毛茸茸” 的詞更可能被解碼為動物而不是服裝，如上圖所示，其中一只襪子被解碼為一只羊。

實驗設(shè)置

數(shù)據(jù)集

在這里，作者用了三個公開數(shù)據(jù)集。

第一階段的預(yù)訓(xùn)練：用了 Human Connectome Project，它提供 136,000 個 fMRI 數(shù)據(jù)片段，沒有圖像，只有 fMRI。
微調(diào) Encoder 和第二階段的生成模型：用了 Generic Object Decoding Dataset (GOD) 和 Brain, Object, Landscape Dataset (BOLD5000) 數(shù)據(jù)集。這兩個數(shù)據(jù)集分別提供了 1250 張和 5254 張 {fMRI, Image} 配對，其中，分別取了 50 張和 113 張作為測試集。

模型結(jié)構(gòu)

本文模型結(jié)構(gòu)的設(shè)計（ViT 和擴散模型）主要是參照過去的文獻。模型參數(shù)細節(jié)請參照正文。同樣地，他們也采用了一種不對稱的體系結(jié)構(gòu)：編碼器旨在學(xué)習(xí)有意義的 fMRI 表示，而解碼器試圖預(yù)測被遮蓋的塊。因此，我們遵循以前的設(shè)計，使解碼器更小，預(yù)訓(xùn)練后我們將其舍棄。

評判指標(biāo)

跟過往的文獻一樣，作者也使用了 n-way top-1 和 top-5 分類準(zhǔn)確率來評估結(jié)果的語義正確性。這是一種在多次試驗中，通過計算 n-1 個隨機選擇的類別和正確類別的 top-1 和 top-5 分類準(zhǔn)確率來評估結(jié)果的方法。與先前的方法不同，他們在這里采用了更直接、可復(fù)制的評估方法，即使用預(yù)訓(xùn)練的 ImageNet1K 分類器來判斷生成圖像的語義正確性，而不是使用 handcrafted features。此外，他們還使用了 Fréchet inception distance（FID）作為參考來評估生成圖像的質(zhì)量。但是，由于數(shù)據(jù)集中圖像數(shù)量有限，因此 FID 可能無法完美地評估圖像分布。

效果

這篇文章的實驗是在個體水平上進行的，即模型在同一個個體上進行訓(xùn)練和測試。為了與之前的文獻進行比較，在這里報告了 GOD 數(shù)據(jù)集第三位被試的結(jié)果，并在附錄中列出了其他被試的結(jié)果。

寫在最后

通過這個項目，作者展示了通過 fMRI 還原人腦視覺信息的可行性。然而，這個領(lǐng)域有很多問題需要解決，例如如何更好地處理個體之間的差異性，如何減少噪聲和干擾對解碼的影響，如何將 fMRI 解碼與其他神經(jīng)科學(xué)技術(shù)結(jié)合起來，以更全面地理解人類大腦的機制和功能。同時，我們也需要更好地了解和尊重人類大腦和個體隱私方面的倫理和法律問題。

此外，我們還需要探索更廣泛的應(yīng)用場景，例如醫(yī)學(xué)和人機交互等領(lǐng)域，以便將這項技術(shù)轉(zhuǎn)化為實際應(yīng)用。在醫(yī)學(xué)領(lǐng)域，fMRI 解碼技術(shù)未來可能可以被用來幫助視覺障礙人士、聽覺障礙人士、甚至全身癱瘓患者等特殊群體來解碼出他們的想法。這些人由于身體上的障礙，無法通過傳統(tǒng)的交流方式來表達自己的思想和意愿。通過使用 fMRI 技術(shù)，科學(xué)家們可以解碼他們的大腦活動，從而獲取他們的想法和意愿，進而與他們進行更加自然和高效的交流。在人機交互領(lǐng)域，fMRI 解碼技術(shù)可以被用來開發(fā)更加智能和自適應(yīng)的人機界面和控制系統(tǒng)，例如通過解碼用戶的大腦活動來實現(xiàn)更加自然和高效的人機交互體驗。

我們相信，在大規(guī)模數(shù)據(jù)集 + 大模型 + 算力的加持下，fMRI 解碼將會有更加廣泛和深遠的影響，推動認知神經(jīng)科學(xué)和人工智能領(lǐng)域的發(fā)展。

注：*使用稀疏編碼在腦中學(xué)習(xí)視覺刺激表示的生物學(xué)基礎(chǔ)：稀疏編碼曾被提出來作為感覺信息表征的一種策略。研究表明，視覺刺激在視覺皮層中被稀疏編碼，這樣可以增加信息傳輸效率并減少腦中的冗余。使用 fMRI 可以從視覺皮層收集的少量數(shù)據(jù)中重建自然場景的視覺內(nèi)容。稀疏編碼可能是計算機視覺中編碼的有效方式。文章中提到了 SC-MBM 方法，它將 fMRI 數(shù)據(jù)分成小塊來引入局部性約束，然后將每個小塊稀疏編碼成高維向量空間，這樣可以作為生物學(xué)上有效且高效的腦特征學(xué)習(xí)器，用來進行視覺編碼解碼。