在未來科技的藍圖中,直接從人腦中讀取語言一直是科幻小說中常見的情節(jié)。而今天,這項技術(shù)正逐漸從科幻走向現(xiàn)實。2025年,哥倫比亞大學(xué)的研究團隊在預(yù)計將發(fā)表于Interspeech 2025的研究論文中,展示了一個名為"Neuro2Semantic"的創(chuàng)新框架,能夠從人類顱內(nèi)腦電圖(iEEG)信號中重建連續(xù)語言的語義內(nèi)容。這項由哥倫比亞大學(xué)電氣工程系的Siavash Shams、Richard Antonello、Gavin Mischler、Nima Mesgarani以及費恩斯坦醫(yī)學(xué)研究所的Stephan Bickel和Ashesh Mehta共同完成的研究,向我們展示了大腦解碼技術(shù)的巨大潛力。研究團隊已在GitHub上開源了他們的代碼和模型(github.com/SiavashShams/neuro2semantic),讓更多研究者能夠參與這一前沿領(lǐng)域的探索。
一、大腦解碼:從科幻到現(xiàn)實的跨越
想象一下,你因為某種疾病而失去說話能力,但醫(yī)生能通過一個設(shè)備直接從你的大腦中"讀取"你想表達的內(nèi)容,并將其轉(zhuǎn)化為自然流暢的語言。這聽起來像科幻電影中的場景,但實際上,這正是Neuro2Semantic這類腦機接口技術(shù)努力實現(xiàn)的目標(biāo)。
在人工智能和神經(jīng)科學(xué)交叉領(lǐng)域的最新進展中,神經(jīng)解碼模型扮演著越來越重要的角色。這些模型旨在根據(jù)測量到的神經(jīng)活動重建刺激或意圖。研究人員已經(jīng)在各種神經(jīng)成像技術(shù)上探索了這些模型,包括顱內(nèi)腦電圖(iEEG)、功能性磁共振成像(fMRI)、腦磁圖(MEG)和腦電圖(EEG)。這些技術(shù)被應(yīng)用于多種場景,如想象和感知語言、語音重建、運動控制和視覺。特別值得注意的是,最近的一些努力展示了這些模型能夠以接近實時的速度高精度解碼語音運動意圖的能力。
然而,現(xiàn)有的方法主要集中在解碼語音的運動意圖,這可能無法捕捉語言語義內(nèi)容的全部豐富性。而解碼語言語義內(nèi)容則是另一條技術(shù)路徑。雖然已有研究使用fMRI和MEG進行語義解碼,但利用時間分辨率更高、信號質(zhì)量更好的iEEG進行語義解碼的研究相對較少。
這項研究面臨的主要挑戰(zhàn)是數(shù)據(jù)稀缺。想象一下,你想教一個孩子識別蘋果,通常需要向他展示成百上千個不同的蘋果樣本。但在腦電研究中,由于種種限制,研究人員往往只能獲得非常有限的數(shù)據(jù)樣本。如何在這種數(shù)據(jù)稀缺的情況下,讓解碼模型仍能有效工作,是一個巨大的挑戰(zhàn)。
二、Neuro2Semantic:連接大腦與語言的橋梁
Neuro2Semantic框架就像是一位精通兩種語言的翻譯官,一邊理解"大腦語言"(神經(jīng)信號),另一邊熟悉"人類語言"(文本),能夠在兩者之間建立起溝通的橋梁。這個翻譯過程分為兩個主要階段:首先理解大腦的"語法和詞匯",然后組織成人類能理解的"自然語言"。
具體來說,Neuro2Semantic框架包含兩個關(guān)鍵階段。第一階段,研究團隊訓(xùn)練了一個名為LSTM(長短期記憶網(wǎng)絡(luò))的適配器,將神經(jīng)數(shù)據(jù)與預(yù)訓(xùn)練文本嵌入空間對齊。這就像是學(xué)習(xí)大腦信號和語言之間的對應(yīng)關(guān)系。第二階段,在神經(jīng)嵌入對齊后,研究人員微調(diào)了一個預(yù)訓(xùn)練的文本重建模型,從神經(jīng)對齊的嵌入中提取連貫的文本。
想象你正在學(xué)習(xí)一門外語。第一階段就像是建立一個詞匯表,將外語單詞與你熟悉的母語詞匯一一對應(yīng)。第二階段則像是學(xué)習(xí)如何將這些詞匯組織成符合語法、通順流暢的句子。Neuro2Semantic的工作原理與此類似,只不過它"翻譯"的是大腦神經(jīng)信號與自然語言之間的關(guān)系。
LSTM適配器的任務(wù)是將iEEG信號編碼成固定維度的嵌入,使其與預(yù)訓(xùn)練文本嵌入的語義空間對齊。為了實現(xiàn)神經(jīng)嵌入與相應(yīng)語義嵌入之間的有效對齊,研究團隊采用了一種結(jié)合對比目標(biāo)與批次級相似度優(yōu)化的對齊損失函數(shù)。這個損失函數(shù)是對比損失目標(biāo)與三元組邊際損失目標(biāo)的加權(quán)組合。這確保了神經(jīng)嵌入既與其對應(yīng)的文本嵌入緊密對齊,又與非對應(yīng)對足夠區(qū)分。
Neuro2Semantic框架的第二階段專注于將對齊的神經(jīng)嵌入轉(zhuǎn)化為連貫的文本序列。這是通過微調(diào)Vec2Text校正器模塊實現(xiàn)的,該模塊旨在將文本嵌入反向轉(zhuǎn)換回其原始文本形式。雖然Vec2Text模型是在大規(guī)模文本語料庫上預(yù)訓(xùn)練的,但通過使用神經(jīng)嵌入對其進行微調(diào),使模型能夠適應(yīng)神經(jīng)嵌入的特定特性,增強其從這些嵌入中準確重建原始文本的能力。
這個任務(wù)被框架為一個受控生成問題,目標(biāo)是生成文本x,其嵌入ê(x)與目標(biāo)嵌入e緊密近似。模型迭代操作,從初始假設(shè)x^(0)開始,經(jīng)過多個步驟t進行精煉。在每一步,模型最小化當(dāng)前假設(shè)嵌入ê(x^(t))與目標(biāo)嵌入e之間的距離,逐步提高生成文本的連貫性和準確性。
微調(diào)過程中,LSTM適配器保持凍結(jié)狀態(tài),以保留第一階段建立的語義對齊。只有Vec2Text校正器模塊的參數(shù)會被更新。整個過程首先將預(yù)處理的iEEG片段通過LSTM適配器生成固定維度的神經(jīng)嵌入en。這些與文本嵌入空間對齊的嵌入作為Vec2Text校正器的輸入,校正器旨在重建原始文本序列x = (x1, x2, ..., xT),使用標(biāo)準的NLL損失目標(biāo)。
三、實驗設(shè)計:少量數(shù)據(jù)如何產(chǎn)生驚人結(jié)果
在這項研究中,研究團隊采用了一種特殊的實驗設(shè)計,讓我們一起來看看他們是如何設(shè)計實驗并獲得那些令人驚嘆的結(jié)果的。
首先,讓我們了解一下實驗的參與者和數(shù)據(jù)收集過程。三名正在接受藥物難治性癲癇手術(shù)評估的患者參與了這項研究。為了定位癲癇病灶,研究人員在患者顱內(nèi)植入了立體定向腦電圖(iEEG)電極。所有參與者在電極植入前都提供了書面知情同意書,同意參與研究。實驗過程中,患者聆聽了自然錄制的人們進行類似播客的對話內(nèi)容。共使用了六種不同的對話。總體上,任務(wù)包含約30分鐘的語音內(nèi)容。研究人員使用希爾伯特變換計算了聆聽過程中神經(jīng)記錄的高伽馬頻帶(70-150 Hz)的包絡(luò),并將其下采樣至100 Hz。在過濾和顯著性選擇后,三名受試者共使用了864個電極。該研究方案獲得了北岸大學(xué)醫(yī)院機構(gòu)審查委員會的批準。
研究團隊采用了留一法交叉驗證的方法進行模型訓(xùn)練,即每個故事的最后一個試驗被留作測試。每個試驗被分成句子,使用說話時相應(yīng)的神經(jīng)數(shù)據(jù)片段進行訓(xùn)練。這種設(shè)置防止了在微調(diào)語言模型時出現(xiàn)任何反因果信息泄漏,同時允許模型在同一對話內(nèi)訓(xùn)練過去句子的語義內(nèi)容。對六個故事中的每一個都重復(fù)了這個過程,使用交叉驗證在每個時期后評估模型性能。每個故事中被保留的試驗作為該拆分的測試集。
在第一階段,LSTM適配器訓(xùn)練了100個時期,批量大小為8,使用Adam優(yōu)化器,學(xué)習(xí)率為1.3e-3。適配器訓(xùn)練完成后,其參數(shù)在第二階段被凍結(jié),預(yù)訓(xùn)練的校正器進行了2個時期的微調(diào)。在這個階段,校正器僅使用一個步驟進行細化過程。
基于CLIP的對比損失使用溫度參數(shù)τ = 0.1,α = 0.25項用于控制對比損失和三元組邊際損失之間的貢獻。選擇的參數(shù)通過坐標(biāo)下降進行了優(yōu)化。為了評估重建文本的質(zhì)量,研究團隊使用了神經(jīng)解碼分析中常用的兩個指標(biāo),特別是BLEU和BERTScore。這些指標(biāo)用于測量生成文本與真實情況相比的表面級別(BLEU)和語義準確性(BERTScore)。
為了基線比較,研究團隊使用了Tang等人提出的貝葉斯解碼方法來生成解碼刺激。簡而言之,該方法使用波束搜索生成候選延續(xù),然后使用編碼模型對其進行評估和排名,根據(jù)Mischler等人的研究,將觀察到腦反應(yīng)R的可能性p(R|S)建模為多變量高斯分布,平均值μ = R(S)和協(xié)方差Σ從編碼殘差中估計。研究團隊針對iEEG修改了這種方法,使用基于高伽馬頻帶的編碼模型,并應(yīng)用更少和更短的有限脈沖響應(yīng)延遲,以考慮血流動力學(xué)響應(yīng)延遲的缺失。選擇這種方法是因為它代表了fMRI解碼的最新結(jié)果,并與團隊通過連續(xù)生成解碼重建感知語音語義的目標(biāo)緊密一致。
四、驚人的研究結(jié)果:少即是多
研究團隊對Neuro2Semantic與基線模型和隨機控制進行了嚴格的評估,以全面了解其在實際應(yīng)用中的表現(xiàn)。結(jié)果令人驚訝:即使只使用30分鐘的數(shù)據(jù),Neuro2Semantic也能取得令人矚目的成果。
首先,讓我們看看Neuro2Semantic與基線模型的直接比較。研究結(jié)果以六個故事為測試集進行了k折交叉驗證。從圖2A的箱線圖中可以看出,Neuro2Semantic在BERTScore上明顯優(yōu)于基線模型,這表明它在語義準確性方面表現(xiàn)更好。這一優(yōu)勢尤其突出,因為BERTScore反映了生成文本與真實文本在語義理解層面的接近程度。
為了讓你更直觀地理解這些結(jié)果,研究團隊提供了一些實際的例子。比如,對于原始文本"任何花時間旅行或在不同地方生活的人可能都經(jīng)歷過思鄉(xiāng)病",Neuro2Semantic重建的文本是"你可能住在一個與你家不同的地方,如果你搬出去,你可能會非常想家",而基線模型重建的文本則是"誰在那樣的家庭環(huán)境中長大,我甚至很難..."。從這個例子可以看出,雖然Neuro2Semantic的重建并不完全與原始文本相同,但它捕捉到了核心的語義內(nèi)容,而基線模型則偏離得更遠。
更令人印象深刻的是,Neuro2Semantic不僅在已知語義環(huán)境中表現(xiàn)良好,在完全未見過的語義內(nèi)容上也表現(xiàn)出色。研究團隊通過保留整個未在訓(xùn)練中出現(xiàn)過的故事來評估模型的零樣本域外性能。圖2B的條形圖顯示,Neuro2Semantic的BERT和BLEU分數(shù)始終優(yōu)于基線模型。特別是BERTScore顯示了顯著的改進,這表明即使面對全新的故事,模型也能保持語義連貫性。這一結(jié)果進一步表明,Neuro2Semantic捕捉了更廣泛的語義模式,而不僅僅是記憶訓(xùn)練樣例。
研究團隊還評估了訓(xùn)練數(shù)據(jù)和電極數(shù)量對Neuro2Semantic模型性能的影響。首先,他們通過在可用數(shù)據(jù)的20%、40%、60%、80%和100%的隨機子集上訓(xùn)練模型來評估訓(xùn)練數(shù)據(jù)縮放的影響。對于每個子集百分比,進行了五次獨立運行,運行間的標(biāo)準偏差顯示為圖2D中的誤差條。隨著訓(xùn)練數(shù)據(jù)的增加,我們觀察到BERT和BLEU分數(shù)上的顯著性能改進,這些改進在各個評分上呈現(xiàn)線性關(guān)系。這表明更大的數(shù)據(jù)集增強了模型的泛化能力,導(dǎo)致更準確的文本重建。這強調(diào)了我們的方法在暴露于更大數(shù)據(jù)集時的擴展?jié)摿Α?/p>
同樣,研究團隊也研究了電極使用變化的影響,通過在可用電極的20%、40%、60%、80%和100%的隨機子集上訓(xùn)練模型。他們?yōu)槊總€百分比運行了五次實驗,每次選擇不同的子集。結(jié)果呈現(xiàn)在圖2E中。我們觀察到與電極數(shù)量類似的線性擴展,這表明Neuro2Semantic可能會從更密集的皮層覆蓋中獲益。然而,相對較大的誤差條意味著一些電極對解碼的價值顯著高于其他電極。這表明在解碼應(yīng)用中,存在最優(yōu)的覆蓋模式,可以使用固定數(shù)量的電極提取最有用的信息。
五、Neuro2Semantic的優(yōu)勢與局限性
Neuro2Semantic通過其新穎的兩階段架構(gòu)和高效的數(shù)據(jù)利用在神經(jīng)語言解碼方面展示了顯著的進步。與基于分類的方法或面向檢索的框架不同,這個模型直接將iEEG信號與語義嵌入對齊,實現(xiàn)了無約束的文本生成,無需預(yù)定義的詞匯表。
與復(fù)制的當(dāng)前最先進的連續(xù)解碼方法相比,該方法在語義準確性方面實現(xiàn)了顯著更高的性能,同時僅需要30分鐘的訓(xùn)練數(shù)據(jù),這僅僅是現(xiàn)有方法通常需要的16+小時的一小部分。這就像是一位學(xué)習(xí)語言的天才,只需要幾小時就能掌握別人需要幾個月才能學(xué)會的內(nèi)容。
研究團隊的消融研究證實,初始對齊階段對性能至關(guān)重要,而不僅僅是依賴語言模型的能力。這種方法還實現(xiàn)了對未見過的語義內(nèi)容的零樣本泛化,無需特定領(lǐng)域的微調(diào),這將其與受訓(xùn)練詞匯限制的以前方法區(qū)分開來。此外,擴展實驗表明,隨著數(shù)據(jù)和電極覆蓋的增加,性能持續(xù)提高,這表明隨著更多數(shù)據(jù)的可用,還有顯著的改進空間。
然而,這項研究也存在一些局限性。小樣本量和臨床人群限制了即時的泛化性。研究團隊當(dāng)前的目標(biāo)是驗證可行性,而不是得出人口水平的結(jié)論。此外,隨著更多數(shù)據(jù)的收集,他們計劃研究基于Transformer的架構(gòu)用于對齊階段,這通常需要更大的數(shù)據(jù)集,但可能提供增強的建模能力。這些發(fā)展將進一步加強Neuro2Semantic在不同受試者和語言環(huán)境中的能力。
六、未來展望:從實驗室到現(xiàn)實世界
Neuro2Semantic代表了神經(jīng)解碼領(lǐng)域的一個重要進步,但它的潛力遠不止于此。隨著技術(shù)的進一步發(fā)展和完善,我們可以展望它在醫(yī)療、輔助技術(shù)和其他領(lǐng)域的廣泛應(yīng)用。
在醫(yī)療領(lǐng)域,這項技術(shù)可能幫助失去說話能力的患者,如中風(fēng)、漸凍癥(ALS)或其他神經(jīng)系統(tǒng)疾病患者。通過直接從他們的大腦活動中解碼語言,可以開發(fā)出新型的輔助溝通設(shè)備,讓這些患者能夠更自然地表達自己的想法和需求。
在認知科學(xué)研究中,Neuro2Semantic提供了一個窗口,讓我們能夠更深入地了解大腦如何處理和表示語言。這可能幫助研究人員更好地理解語言處理的神經(jīng)機制,以及語言障礙的潛在原因。
隨著數(shù)據(jù)量的增加和算法的改進,我們可以期待Neuro2Semantic和類似技術(shù)的性能進一步提升。特別是,如研究團隊所指出的,基于Transformer的架構(gòu)可能在未來提供更強大的建模能力,進一步提高解碼準確性和泛化能力。
此外,將這項技術(shù)與其他神經(jīng)成像方法結(jié)合,如fMRI或MEG,可能提供更全面的大腦活動視圖,進一步提高解碼性能。多模態(tài)方法的發(fā)展可能是未來研究的一個重要方向。
最后,隨著腦機接口技術(shù)的進步,我們可以期待更加便攜、非侵入性的設(shè)備,使這類技術(shù)能夠更廣泛地應(yīng)用于實際生活中。雖然目前的研究使用的是侵入性的iEEG,但未來的技術(shù)可能使用更加便攜和非侵入性的方法來捕捉大腦活動。
總之,Neuro2Semantic開創(chuàng)了一個新的可能性領(lǐng)域,其應(yīng)用前景廣闊。隨著技術(shù)的不斷發(fā)展和完善,我們有理由相信,直接從大腦中解碼和理解語言的能力將不再是科幻小說中的情節(jié),而是將成為改變許多人生活的現(xiàn)實技術(shù)。
七、結(jié)語:搭建大腦與語言的橋梁
從本質(zhì)上講,Neuro2Semantic代表了一次重要的技術(shù)飛躍,它建立了大腦神經(jīng)活動與人類語言之間的直接橋梁。這項技術(shù)不僅展示了從神經(jīng)信號中重建語義內(nèi)容的可能性,更重要的是,它以極高的效率實現(xiàn)了這一目標(biāo),僅需30分鐘的數(shù)據(jù)就能取得令人印象深刻的結(jié)果。
這種高效性意味著,即使在數(shù)據(jù)收集受到嚴格限制的臨床環(huán)境中,類似的技術(shù)也有可能應(yīng)用于實際場景。對于那些因為各種原因失去語言能力的人來說,這項技術(shù)可能是恢復(fù)溝通的希望之光。
當(dāng)然,我們也應(yīng)該認識到,這項研究仍處于探索階段,樣本量較小,參與者都是臨床患者,這限制了研究結(jié)果的即時泛化性。然而,研究團隊明確表示,他們的目標(biāo)是驗證這種方法的可行性,而不是得出人口水平的結(jié)論。隨著更多數(shù)據(jù)的收集和技術(shù)的進一步改進,我們有理由相信,Neuro2Semantic及類似技術(shù)的性能將繼續(xù)提升。
對于普通人來說,這項研究告訴我們,大腦與計算機之間的直接通信不再是遙不可及的未來技術(shù),而是正在成為現(xiàn)實。雖然目前的應(yīng)用可能主要集中在醫(yī)療和輔助技術(shù)領(lǐng)域,但隨著技術(shù)的進步,我們可能會看到更廣泛的應(yīng)用場景。
最后,值得一提的是,研究團隊已經(jīng)在GitHub上開源了他們的代碼和模型,這使得更多的研究者能夠參與到這一領(lǐng)域的探索中來。這種開放的科研態(tài)度,無疑將加速這一領(lǐng)域的發(fā)展。
如果你對這項研究感興趣,可以通過GitHub上的鏈接(github.com/SiavashShams/neuro2semantic)獲取更多信息,或者期待這篇論文在Interspeech 2025上的正式發(fā)表。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。