在未來(lái)科技的藍(lán)圖中,直接從人腦中讀取語(yǔ)言一直是科幻小說(shuō)中常見(jiàn)的情節(jié)。而今天,這項(xiàng)技術(shù)正逐漸從科幻走向現(xiàn)實(shí)。2025年,哥倫比亞大學(xué)的研究團(tuán)隊(duì)在預(yù)計(jì)將發(fā)表于Interspeech 2025的研究論文中,展示了一個(gè)名為"Neuro2Semantic"的創(chuàng)新框架,能夠從人類顱內(nèi)腦電圖(iEEG)信號(hào)中重建連續(xù)語(yǔ)言的語(yǔ)義內(nèi)容。這項(xiàng)由哥倫比亞大學(xué)電氣工程系的Siavash Shams、Richard Antonello、Gavin Mischler、Nima Mesgarani以及費(fèi)恩斯坦醫(yī)學(xué)研究所的Stephan Bickel和Ashesh Mehta共同完成的研究,向我們展示了大腦解碼技術(shù)的巨大潛力。研究團(tuán)隊(duì)已在GitHub上開源了他們的代碼和模型(github.com/SiavashShams/neuro2semantic),讓更多研究者能夠參與這一前沿領(lǐng)域的探索。
一、大腦解碼:從科幻到現(xiàn)實(shí)的跨越
想象一下,你因?yàn)槟撤N疾病而失去說(shuō)話能力,但醫(yī)生能通過(guò)一個(gè)設(shè)備直接從你的大腦中"讀取"你想表達(dá)的內(nèi)容,并將其轉(zhuǎn)化為自然流暢的語(yǔ)言。這聽(tīng)起來(lái)像科幻電影中的場(chǎng)景,但實(shí)際上,這正是Neuro2Semantic這類腦機(jī)接口技術(shù)努力實(shí)現(xiàn)的目標(biāo)。
在人工智能和神經(jīng)科學(xué)交叉領(lǐng)域的最新進(jìn)展中,神經(jīng)解碼模型扮演著越來(lái)越重要的角色。這些模型旨在根據(jù)測(cè)量到的神經(jīng)活動(dòng)重建刺激或意圖。研究人員已經(jīng)在各種神經(jīng)成像技術(shù)上探索了這些模型,包括顱內(nèi)腦電圖(iEEG)、功能性磁共振成像(fMRI)、腦磁圖(MEG)和腦電圖(EEG)。這些技術(shù)被應(yīng)用于多種場(chǎng)景,如想象和感知語(yǔ)言、語(yǔ)音重建、運(yùn)動(dòng)控制和視覺(jué)。特別值得注意的是,最近的一些努力展示了這些模型能夠以接近實(shí)時(shí)的速度高精度解碼語(yǔ)音運(yùn)動(dòng)意圖的能力。
然而,現(xiàn)有的方法主要集中在解碼語(yǔ)音的運(yùn)動(dòng)意圖,這可能無(wú)法捕捉語(yǔ)言語(yǔ)義內(nèi)容的全部豐富性。而解碼語(yǔ)言語(yǔ)義內(nèi)容則是另一條技術(shù)路徑。雖然已有研究使用fMRI和MEG進(jìn)行語(yǔ)義解碼,但利用時(shí)間分辨率更高、信號(hào)質(zhì)量更好的iEEG進(jìn)行語(yǔ)義解碼的研究相對(duì)較少。
這項(xiàng)研究面臨的主要挑戰(zhàn)是數(shù)據(jù)稀缺。想象一下,你想教一個(gè)孩子識(shí)別蘋果,通常需要向他展示成百上千個(gè)不同的蘋果樣本。但在腦電研究中,由于種種限制,研究人員往往只能獲得非常有限的數(shù)據(jù)樣本。如何在這種數(shù)據(jù)稀缺的情況下,讓解碼模型仍能有效工作,是一個(gè)巨大的挑戰(zhàn)。
二、Neuro2Semantic:連接大腦與語(yǔ)言的橋梁
Neuro2Semantic框架就像是一位精通兩種語(yǔ)言的翻譯官,一邊理解"大腦語(yǔ)言"(神經(jīng)信號(hào)),另一邊熟悉"人類語(yǔ)言"(文本),能夠在兩者之間建立起溝通的橋梁。這個(gè)翻譯過(guò)程分為兩個(gè)主要階段:首先理解大腦的"語(yǔ)法和詞匯",然后組織成人類能理解的"自然語(yǔ)言"。
具體來(lái)說(shuō),Neuro2Semantic框架包含兩個(gè)關(guān)鍵階段。第一階段,研究團(tuán)隊(duì)訓(xùn)練了一個(gè)名為L(zhǎng)STM(長(zhǎng)短期記憶網(wǎng)絡(luò))的適配器,將神經(jīng)數(shù)據(jù)與預(yù)訓(xùn)練文本嵌入空間對(duì)齊。這就像是學(xué)習(xí)大腦信號(hào)和語(yǔ)言之間的對(duì)應(yīng)關(guān)系。第二階段,在神經(jīng)嵌入對(duì)齊后,研究人員微調(diào)了一個(gè)預(yù)訓(xùn)練的文本重建模型,從神經(jīng)對(duì)齊的嵌入中提取連貫的文本。
想象你正在學(xué)習(xí)一門外語(yǔ)。第一階段就像是建立一個(gè)詞匯表,將外語(yǔ)單詞與你熟悉的母語(yǔ)詞匯一一對(duì)應(yīng)。第二階段則像是學(xué)習(xí)如何將這些詞匯組織成符合語(yǔ)法、通順流暢的句子。Neuro2Semantic的工作原理與此類似,只不過(guò)它"翻譯"的是大腦神經(jīng)信號(hào)與自然語(yǔ)言之間的關(guān)系。
LSTM適配器的任務(wù)是將iEEG信號(hào)編碼成固定維度的嵌入,使其與預(yù)訓(xùn)練文本嵌入的語(yǔ)義空間對(duì)齊。為了實(shí)現(xiàn)神經(jīng)嵌入與相應(yīng)語(yǔ)義嵌入之間的有效對(duì)齊,研究團(tuán)隊(duì)采用了一種結(jié)合對(duì)比目標(biāo)與批次級(jí)相似度優(yōu)化的對(duì)齊損失函數(shù)。這個(gè)損失函數(shù)是對(duì)比損失目標(biāo)與三元組邊際損失目標(biāo)的加權(quán)組合。這確保了神經(jīng)嵌入既與其對(duì)應(yīng)的文本嵌入緊密對(duì)齊,又與非對(duì)應(yīng)對(duì)足夠區(qū)分。
Neuro2Semantic框架的第二階段專注于將對(duì)齊的神經(jīng)嵌入轉(zhuǎn)化為連貫的文本序列。這是通過(guò)微調(diào)Vec2Text校正器模塊實(shí)現(xiàn)的,該模塊旨在將文本嵌入反向轉(zhuǎn)換回其原始文本形式。雖然Vec2Text模型是在大規(guī)模文本語(yǔ)料庫(kù)上預(yù)訓(xùn)練的,但通過(guò)使用神經(jīng)嵌入對(duì)其進(jìn)行微調(diào),使模型能夠適應(yīng)神經(jīng)嵌入的特定特性,增強(qiáng)其從這些嵌入中準(zhǔn)確重建原始文本的能力。
這個(gè)任務(wù)被框架為一個(gè)受控生成問(wèn)題,目標(biāo)是生成文本x,其嵌入ê(x)與目標(biāo)嵌入e緊密近似。模型迭代操作,從初始假設(shè)x^(0)開始,經(jīng)過(guò)多個(gè)步驟t進(jìn)行精煉。在每一步,模型最小化當(dāng)前假設(shè)嵌入ê(x^(t))與目標(biāo)嵌入e之間的距離,逐步提高生成文本的連貫性和準(zhǔn)確性。
微調(diào)過(guò)程中,LSTM適配器保持凍結(jié)狀態(tài),以保留第一階段建立的語(yǔ)義對(duì)齊。只有Vec2Text校正器模塊的參數(shù)會(huì)被更新。整個(gè)過(guò)程首先將預(yù)處理的iEEG片段通過(guò)LSTM適配器生成固定維度的神經(jīng)嵌入en。這些與文本嵌入空間對(duì)齊的嵌入作為Vec2Text校正器的輸入,校正器旨在重建原始文本序列x = (x1, x2, ..., xT),使用標(biāo)準(zhǔn)的NLL損失目標(biāo)。
三、實(shí)驗(yàn)設(shè)計(jì):少量數(shù)據(jù)如何產(chǎn)生驚人結(jié)果
在這項(xiàng)研究中,研究團(tuán)隊(duì)采用了一種特殊的實(shí)驗(yàn)設(shè)計(jì),讓我們一起來(lái)看看他們是如何設(shè)計(jì)實(shí)驗(yàn)并獲得那些令人驚嘆的結(jié)果的。
首先,讓我們了解一下實(shí)驗(yàn)的參與者和數(shù)據(jù)收集過(guò)程。三名正在接受藥物難治性癲癇手術(shù)評(píng)估的患者參與了這項(xiàng)研究。為了定位癲癇病灶,研究人員在患者顱內(nèi)植入了立體定向腦電圖(iEEG)電極。所有參與者在電極植入前都提供了書面知情同意書,同意參與研究。實(shí)驗(yàn)過(guò)程中,患者聆聽(tīng)了自然錄制的人們進(jìn)行類似播客的對(duì)話內(nèi)容。共使用了六種不同的對(duì)話??傮w上,任務(wù)包含約30分鐘的語(yǔ)音內(nèi)容。研究人員使用希爾伯特變換計(jì)算了聆聽(tīng)過(guò)程中神經(jīng)記錄的高伽馬頻帶(70-150 Hz)的包絡(luò),并將其下采樣至100 Hz。在過(guò)濾和顯著性選擇后,三名受試者共使用了864個(gè)電極。該研究方案獲得了北岸大學(xué)醫(yī)院機(jī)構(gòu)審查委員會(huì)的批準(zhǔn)。
研究團(tuán)隊(duì)采用了留一法交叉驗(yàn)證的方法進(jìn)行模型訓(xùn)練,即每個(gè)故事的最后一個(gè)試驗(yàn)被留作測(cè)試。每個(gè)試驗(yàn)被分成句子,使用說(shuō)話時(shí)相應(yīng)的神經(jīng)數(shù)據(jù)片段進(jìn)行訓(xùn)練。這種設(shè)置防止了在微調(diào)語(yǔ)言模型時(shí)出現(xiàn)任何反因果信息泄漏,同時(shí)允許模型在同一對(duì)話內(nèi)訓(xùn)練過(guò)去句子的語(yǔ)義內(nèi)容。對(duì)六個(gè)故事中的每一個(gè)都重復(fù)了這個(gè)過(guò)程,使用交叉驗(yàn)證在每個(gè)時(shí)期后評(píng)估模型性能。每個(gè)故事中被保留的試驗(yàn)作為該拆分的測(cè)試集。
在第一階段,LSTM適配器訓(xùn)練了100個(gè)時(shí)期,批量大小為8,使用Adam優(yōu)化器,學(xué)習(xí)率為1.3e-3。適配器訓(xùn)練完成后,其參數(shù)在第二階段被凍結(jié),預(yù)訓(xùn)練的校正器進(jìn)行了2個(gè)時(shí)期的微調(diào)。在這個(gè)階段,校正器僅使用一個(gè)步驟進(jìn)行細(xì)化過(guò)程。
基于CLIP的對(duì)比損失使用溫度參數(shù)τ = 0.1,α = 0.25項(xiàng)用于控制對(duì)比損失和三元組邊際損失之間的貢獻(xiàn)。選擇的參數(shù)通過(guò)坐標(biāo)下降進(jìn)行了優(yōu)化。為了評(píng)估重建文本的質(zhì)量,研究團(tuán)隊(duì)使用了神經(jīng)解碼分析中常用的兩個(gè)指標(biāo),特別是BLEU和BERTScore。這些指標(biāo)用于測(cè)量生成文本與真實(shí)情況相比的表面級(jí)別(BLEU)和語(yǔ)義準(zhǔn)確性(BERTScore)。
為了基線比較,研究團(tuán)隊(duì)使用了Tang等人提出的貝葉斯解碼方法來(lái)生成解碼刺激。簡(jiǎn)而言之,該方法使用波束搜索生成候選延續(xù),然后使用編碼模型對(duì)其進(jìn)行評(píng)估和排名,根據(jù)Mischler等人的研究,將觀察到腦反應(yīng)R的可能性p(R|S)建模為多變量高斯分布,平均值μ = R(S)和協(xié)方差Σ從編碼殘差中估計(jì)。研究團(tuán)隊(duì)針對(duì)iEEG修改了這種方法,使用基于高伽馬頻帶的編碼模型,并應(yīng)用更少和更短的有限脈沖響應(yīng)延遲,以考慮血流動(dòng)力學(xué)響應(yīng)延遲的缺失。選擇這種方法是因?yàn)樗砹薴MRI解碼的最新結(jié)果,并與團(tuán)隊(duì)通過(guò)連續(xù)生成解碼重建感知語(yǔ)音語(yǔ)義的目標(biāo)緊密一致。
四、驚人的研究結(jié)果:少即是多
研究團(tuán)隊(duì)對(duì)Neuro2Semantic與基線模型和隨機(jī)控制進(jìn)行了嚴(yán)格的評(píng)估,以全面了解其在實(shí)際應(yīng)用中的表現(xiàn)。結(jié)果令人驚訝:即使只使用30分鐘的數(shù)據(jù),Neuro2Semantic也能取得令人矚目的成果。
首先,讓我們看看Neuro2Semantic與基線模型的直接比較。研究結(jié)果以六個(gè)故事為測(cè)試集進(jìn)行了k折交叉驗(yàn)證。從圖2A的箱線圖中可以看出,Neuro2Semantic在BERTScore上明顯優(yōu)于基線模型,這表明它在語(yǔ)義準(zhǔn)確性方面表現(xiàn)更好。這一優(yōu)勢(shì)尤其突出,因?yàn)锽ERTScore反映了生成文本與真實(shí)文本在語(yǔ)義理解層面的接近程度。
為了讓你更直觀地理解這些結(jié)果,研究團(tuán)隊(duì)提供了一些實(shí)際的例子。比如,對(duì)于原始文本"任何花時(shí)間旅行或在不同地方生活的人可能都經(jīng)歷過(guò)思鄉(xiāng)病",Neuro2Semantic重建的文本是"你可能住在一個(gè)與你家不同的地方,如果你搬出去,你可能會(huì)非常想家",而基線模型重建的文本則是"誰(shuí)在那樣的家庭環(huán)境中長(zhǎng)大,我甚至很難..."。從這個(gè)例子可以看出,雖然Neuro2Semantic的重建并不完全與原始文本相同,但它捕捉到了核心的語(yǔ)義內(nèi)容,而基線模型則偏離得更遠(yuǎn)。
更令人印象深刻的是,Neuro2Semantic不僅在已知語(yǔ)義環(huán)境中表現(xiàn)良好,在完全未見(jiàn)過(guò)的語(yǔ)義內(nèi)容上也表現(xiàn)出色。研究團(tuán)隊(duì)通過(guò)保留整個(gè)未在訓(xùn)練中出現(xiàn)過(guò)的故事來(lái)評(píng)估模型的零樣本域外性能。圖2B的條形圖顯示,Neuro2Semantic的BERT和BLEU分?jǐn)?shù)始終優(yōu)于基線模型。特別是BERTScore顯示了顯著的改進(jìn),這表明即使面對(duì)全新的故事,模型也能保持語(yǔ)義連貫性。這一結(jié)果進(jìn)一步表明,Neuro2Semantic捕捉了更廣泛的語(yǔ)義模式,而不僅僅是記憶訓(xùn)練樣例。
研究團(tuán)隊(duì)還評(píng)估了訓(xùn)練數(shù)據(jù)和電極數(shù)量對(duì)Neuro2Semantic模型性能的影響。首先,他們通過(guò)在可用數(shù)據(jù)的20%、40%、60%、80%和100%的隨機(jī)子集上訓(xùn)練模型來(lái)評(píng)估訓(xùn)練數(shù)據(jù)縮放的影響。對(duì)于每個(gè)子集百分比,進(jìn)行了五次獨(dú)立運(yùn)行,運(yùn)行間的標(biāo)準(zhǔn)偏差顯示為圖2D中的誤差條。隨著訓(xùn)練數(shù)據(jù)的增加,我們觀察到BERT和BLEU分?jǐn)?shù)上的顯著性能改進(jìn),這些改進(jìn)在各個(gè)評(píng)分上呈現(xiàn)線性關(guān)系。這表明更大的數(shù)據(jù)集增強(qiáng)了模型的泛化能力,導(dǎo)致更準(zhǔn)確的文本重建。這強(qiáng)調(diào)了我們的方法在暴露于更大數(shù)據(jù)集時(shí)的擴(kuò)展?jié)摿Α?/p>
同樣,研究團(tuán)隊(duì)也研究了電極使用變化的影響,通過(guò)在可用電極的20%、40%、60%、80%和100%的隨機(jī)子集上訓(xùn)練模型。他們?yōu)槊總€(gè)百分比運(yùn)行了五次實(shí)驗(yàn),每次選擇不同的子集。結(jié)果呈現(xiàn)在圖2E中。我們觀察到與電極數(shù)量類似的線性擴(kuò)展,這表明Neuro2Semantic可能會(huì)從更密集的皮層覆蓋中獲益。然而,相對(duì)較大的誤差條意味著一些電極對(duì)解碼的價(jià)值顯著高于其他電極。這表明在解碼應(yīng)用中,存在最優(yōu)的覆蓋模式,可以使用固定數(shù)量的電極提取最有用的信息。
五、Neuro2Semantic的優(yōu)勢(shì)與局限性
Neuro2Semantic通過(guò)其新穎的兩階段架構(gòu)和高效的數(shù)據(jù)利用在神經(jīng)語(yǔ)言解碼方面展示了顯著的進(jìn)步。與基于分類的方法或面向檢索的框架不同,這個(gè)模型直接將iEEG信號(hào)與語(yǔ)義嵌入對(duì)齊,實(shí)現(xiàn)了無(wú)約束的文本生成,無(wú)需預(yù)定義的詞匯表。
與復(fù)制的當(dāng)前最先進(jìn)的連續(xù)解碼方法相比,該方法在語(yǔ)義準(zhǔn)確性方面實(shí)現(xiàn)了顯著更高的性能,同時(shí)僅需要30分鐘的訓(xùn)練數(shù)據(jù),這僅僅是現(xiàn)有方法通常需要的16+小時(shí)的一小部分。這就像是一位學(xué)習(xí)語(yǔ)言的天才,只需要幾小時(shí)就能掌握別人需要幾個(gè)月才能學(xué)會(huì)的內(nèi)容。
研究團(tuán)隊(duì)的消融研究證實(shí),初始對(duì)齊階段對(duì)性能至關(guān)重要,而不僅僅是依賴語(yǔ)言模型的能力。這種方法還實(shí)現(xiàn)了對(duì)未見(jiàn)過(guò)的語(yǔ)義內(nèi)容的零樣本泛化,無(wú)需特定領(lǐng)域的微調(diào),這將其與受訓(xùn)練詞匯限制的以前方法區(qū)分開來(lái)。此外,擴(kuò)展實(shí)驗(yàn)表明,隨著數(shù)據(jù)和電極覆蓋的增加,性能持續(xù)提高,這表明隨著更多數(shù)據(jù)的可用,還有顯著的改進(jìn)空間。
然而,這項(xiàng)研究也存在一些局限性。小樣本量和臨床人群限制了即時(shí)的泛化性。研究團(tuán)隊(duì)當(dāng)前的目標(biāo)是驗(yàn)證可行性,而不是得出人口水平的結(jié)論。此外,隨著更多數(shù)據(jù)的收集,他們計(jì)劃研究基于Transformer的架構(gòu)用于對(duì)齊階段,這通常需要更大的數(shù)據(jù)集,但可能提供增強(qiáng)的建模能力。這些發(fā)展將進(jìn)一步加強(qiáng)Neuro2Semantic在不同受試者和語(yǔ)言環(huán)境中的能力。
六、未來(lái)展望:從實(shí)驗(yàn)室到現(xiàn)實(shí)世界
Neuro2Semantic代表了神經(jīng)解碼領(lǐng)域的一個(gè)重要進(jìn)步,但它的潛力遠(yuǎn)不止于此。隨著技術(shù)的進(jìn)一步發(fā)展和完善,我們可以展望它在醫(yī)療、輔助技術(shù)和其他領(lǐng)域的廣泛應(yīng)用。
在醫(yī)療領(lǐng)域,這項(xiàng)技術(shù)可能幫助失去說(shuō)話能力的患者,如中風(fēng)、漸凍癥(ALS)或其他神經(jīng)系統(tǒng)疾病患者。通過(guò)直接從他們的大腦活動(dòng)中解碼語(yǔ)言,可以開發(fā)出新型的輔助溝通設(shè)備,讓這些患者能夠更自然地表達(dá)自己的想法和需求。
在認(rèn)知科學(xué)研究中,Neuro2Semantic提供了一個(gè)窗口,讓我們能夠更深入地了解大腦如何處理和表示語(yǔ)言。這可能幫助研究人員更好地理解語(yǔ)言處理的神經(jīng)機(jī)制,以及語(yǔ)言障礙的潛在原因。
隨著數(shù)據(jù)量的增加和算法的改進(jìn),我們可以期待Neuro2Semantic和類似技術(shù)的性能進(jìn)一步提升。特別是,如研究團(tuán)隊(duì)所指出的,基于Transformer的架構(gòu)可能在未來(lái)提供更強(qiáng)大的建模能力,進(jìn)一步提高解碼準(zhǔn)確性和泛化能力。
此外,將這項(xiàng)技術(shù)與其他神經(jīng)成像方法結(jié)合,如fMRI或MEG,可能提供更全面的大腦活動(dòng)視圖,進(jìn)一步提高解碼性能。多模態(tài)方法的發(fā)展可能是未來(lái)研究的一個(gè)重要方向。
最后,隨著腦機(jī)接口技術(shù)的進(jìn)步,我們可以期待更加便攜、非侵入性的設(shè)備,使這類技術(shù)能夠更廣泛地應(yīng)用于實(shí)際生活中。雖然目前的研究使用的是侵入性的iEEG,但未來(lái)的技術(shù)可能使用更加便攜和非侵入性的方法來(lái)捕捉大腦活動(dòng)。
總之,Neuro2Semantic開創(chuàng)了一個(gè)新的可能性領(lǐng)域,其應(yīng)用前景廣闊。隨著技術(shù)的不斷發(fā)展和完善,我們有理由相信,直接從大腦中解碼和理解語(yǔ)言的能力將不再是科幻小說(shuō)中的情節(jié),而是將成為改變?cè)S多人生活的現(xiàn)實(shí)技術(shù)。
七、結(jié)語(yǔ):搭建大腦與語(yǔ)言的橋梁
從本質(zhì)上講,Neuro2Semantic代表了一次重要的技術(shù)飛躍,它建立了大腦神經(jīng)活動(dòng)與人類語(yǔ)言之間的直接橋梁。這項(xiàng)技術(shù)不僅展示了從神經(jīng)信號(hào)中重建語(yǔ)義內(nèi)容的可能性,更重要的是,它以極高的效率實(shí)現(xiàn)了這一目標(biāo),僅需30分鐘的數(shù)據(jù)就能取得令人印象深刻的結(jié)果。
這種高效性意味著,即使在數(shù)據(jù)收集受到嚴(yán)格限制的臨床環(huán)境中,類似的技術(shù)也有可能應(yīng)用于實(shí)際場(chǎng)景。對(duì)于那些因?yàn)楦鞣N原因失去語(yǔ)言能力的人來(lái)說(shuō),這項(xiàng)技術(shù)可能是恢復(fù)溝通的希望之光。
當(dāng)然,我們也應(yīng)該認(rèn)識(shí)到,這項(xiàng)研究仍處于探索階段,樣本量較小,參與者都是臨床患者,這限制了研究結(jié)果的即時(shí)泛化性。然而,研究團(tuán)隊(duì)明確表示,他們的目標(biāo)是驗(yàn)證這種方法的可行性,而不是得出人口水平的結(jié)論。隨著更多數(shù)據(jù)的收集和技術(shù)的進(jìn)一步改進(jìn),我們有理由相信,Neuro2Semantic及類似技術(shù)的性能將繼續(xù)提升。
對(duì)于普通人來(lái)說(shuō),這項(xiàng)研究告訴我們,大腦與計(jì)算機(jī)之間的直接通信不再是遙不可及的未來(lái)技術(shù),而是正在成為現(xiàn)實(shí)。雖然目前的應(yīng)用可能主要集中在醫(yī)療和輔助技術(shù)領(lǐng)域,但隨著技術(shù)的進(jìn)步,我們可能會(huì)看到更廣泛的應(yīng)用場(chǎng)景。
最后,值得一提的是,研究團(tuán)隊(duì)已經(jīng)在GitHub上開源了他們的代碼和模型,這使得更多的研究者能夠參與到這一領(lǐng)域的探索中來(lái)。這種開放的科研態(tài)度,無(wú)疑將加速這一領(lǐng)域的發(fā)展。
如果你對(duì)這項(xiàng)研究感興趣,可以通過(guò)GitHub上的鏈接(github.com/SiavashShams/neuro2semantic)獲取更多信息,或者期待這篇論文在Interspeech 2025上的正式發(fā)表。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。