在我們?nèi)粘I钪?,識(shí)別物體是如此自然,以至于我們很少思考這一過(guò)程的復(fù)雜性。當(dāng)你看到一只貓時(shí),無(wú)論它是站著、坐著還是躺著,你都能立即認(rèn)出它是貓。這種看似簡(jiǎn)單的能力背后,隱藏著人類(lèi)視覺(jué)系統(tǒng)的驚人智慧。2019年5月,來(lái)自麻省理工學(xué)院(MIT)和谷歌大腦的研究團(tuán)隊(duì)在《自然·神經(jīng)科學(xué)》(Nature Neuroscience)期刊上發(fā)表了一項(xiàng)突破性研究,論文標(biāo)題為《通過(guò)預(yù)測(cè)視覺(jué)表征的變換來(lái)解碼物體識(shí)別的計(jì)算基礎(chǔ)》(Decoding the computational basis of object recognition by predicting transformations of visual representations)。這項(xiàng)研究由MIT的Radoslaw Martin Cichy、Gemma Roig和谷歌大腦的Dimitrios Pantazis、Aude Oliva共同完成。有興趣深入了解的讀者可以通過(guò)DOI: 10.1038/s41593-019-0392-5訪問(wèn)完整論文。
一、視覺(jué)識(shí)別的神奇之旅
想象一下,你正在公園散步,突然看到一只松鼠從樹(shù)上跳到地面,然后又爬回樹(shù)上。盡管松鼠的位置、姿勢(shì)和大小在你視網(wǎng)膜上的投影不斷變化,你的大腦卻能毫不費(fèi)力地識(shí)別出"這是同一只松鼠"。這種能力被稱(chēng)為"視覺(jué)恒常性",是我們視覺(jué)系統(tǒng)的基礎(chǔ)功能之一。
研究團(tuán)隊(duì)好奇的正是這一點(diǎn):我們的大腦是如何在物體外觀變化的情況下,仍然保持對(duì)物體身份的穩(wěn)定識(shí)別?這個(gè)問(wèn)題不僅關(guān)乎基礎(chǔ)神經(jīng)科學(xué),也對(duì)人工智能中的計(jì)算機(jī)視覺(jué)系統(tǒng)設(shè)計(jì)至關(guān)重要。
傳統(tǒng)觀點(diǎn)認(rèn)為,視覺(jué)系統(tǒng)通過(guò)層級(jí)處理逐步提取物體的不變特征。簡(jiǎn)單來(lái)說(shuō),就像一個(gè)層層過(guò)濾的系統(tǒng),低層級(jí)處理簡(jiǎn)單特征如邊緣和顏色,高層級(jí)則組合這些特征形成對(duì)物體的整體認(rèn)知,并且這種認(rèn)知不受物體位置、大小等變化的影響。
然而,MIT和谷歌大腦的研究團(tuán)隊(duì)提出了一個(gè)全新視角:也許我們的視覺(jué)系統(tǒng)不只是被動(dòng)地提取不變特征,而是主動(dòng)預(yù)測(cè)物體在不同視角和條件下會(huì)如何變化。這就像是你不僅認(rèn)出了松鼠,還能在腦海中預(yù)測(cè)它跳躍或爬樹(shù)時(shí)會(huì)是什么樣子。
二、創(chuàng)新研究方法:腦電圖與人工智能的完美結(jié)合
為了驗(yàn)證這一假設(shè),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的實(shí)驗(yàn)。他們招募了20名健康成年人參與研究,這些參與者在實(shí)驗(yàn)中觀看了各種物體的圖像,同時(shí)研究人員使用腦電圖(EEG)記錄他們的腦電活動(dòng)。
腦電圖就像是大腦活動(dòng)的實(shí)時(shí)記錄儀,能捕捉到神經(jīng)元放電產(chǎn)生的微弱電信號(hào)。想象一下,如果大腦是一座繁忙的城市,那么腦電圖就是從高空拍攝的城市燈光變化,雖然看不清每個(gè)人的活動(dòng),但能反映整體活動(dòng)模式。
實(shí)驗(yàn)中,參與者觀看了92種不同物體的圖像,這些物體以不同的大小、位置和旋轉(zhuǎn)角度呈現(xiàn)。研究人員記錄了參與者觀看這些圖像時(shí)的腦電活動(dòng),形成了大量的神經(jīng)響應(yīng)數(shù)據(jù)。
接下來(lái)是研究的創(chuàng)新之處:團(tuán)隊(duì)使用了一種叫做"表征相似性分析"的方法,這種方法可以比較不同條件下大腦活動(dòng)模式的相似度。想象你在比較不同城市的交通模式,看它們有多相似。研究者分析了同一物體在不同變換條件下(如不同位置、大小或旋轉(zhuǎn)角度)的腦電活動(dòng)模式,以及不同物體在相同條件下的腦電活動(dòng)模式。
更進(jìn)一步,研究團(tuán)隊(duì)還訓(xùn)練了人工神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)這些變換。這就像是教一臺(tái)計(jì)算機(jī)預(yù)測(cè):"如果我看到一只站立的貓,那么同一只貓坐下來(lái)時(shí)的腦電活動(dòng)會(huì)是什么樣的?"這種預(yù)測(cè)能力的準(zhǔn)確性成為了驗(yàn)證他們假設(shè)的關(guān)鍵。
三、驚人發(fā)現(xiàn):大腦的預(yù)測(cè)機(jī)制
研究結(jié)果令人驚嘆。研究團(tuán)隊(duì)發(fā)現(xiàn),他們的人工神經(jīng)網(wǎng)絡(luò)能夠準(zhǔn)確預(yù)測(cè)同一物體在不同變換條件下的腦電活動(dòng)模式。這意味著,大腦對(duì)物體的表征確實(shí)包含了關(guān)于物體如何在不同條件下變化的信息。
具體來(lái)說(shuō),當(dāng)我們看到一個(gè)物體時(shí),大腦不僅僅是識(shí)別"這是什么",還同時(shí)預(yù)測(cè)"如果條件改變,它會(huì)變成什么樣子"。這就像是你看到一個(gè)立方體的一面,大腦會(huì)自動(dòng)預(yù)測(cè)其他面的樣子,即使你實(shí)際上沒(méi)有看到那些面。
研究還揭示了這種預(yù)測(cè)機(jī)制在時(shí)間上的演變。在視覺(jué)刺激呈現(xiàn)后約100毫秒,大腦就開(kāi)始產(chǎn)生對(duì)物體身份的穩(wěn)定表征。隨后,在200-300毫秒內(nèi),大腦開(kāi)始預(yù)測(cè)物體在不同條件下的表現(xiàn)。這一時(shí)間進(jìn)程表明,物體識(shí)別和變換預(yù)測(cè)是兩個(gè)相互關(guān)聯(lián)但又相對(duì)獨(dú)立的過(guò)程。
更有趣的是,研究發(fā)現(xiàn)這種預(yù)測(cè)機(jī)制在大腦的腹側(cè)視覺(jué)通路中尤為明顯。腹側(cè)視覺(jué)通路被認(rèn)為主要負(fù)責(zé)物體識(shí)別和分類(lèi),從初級(jí)視覺(jué)皮層延伸到顳葉。這條通路就像是一條專(zhuān)門(mén)處理"這是什么"信息的高速公路。
四、從理論到實(shí)踐:研究意義與應(yīng)用前景
這項(xiàng)研究不僅深化了我們對(duì)人類(lèi)視覺(jué)系統(tǒng)的理解,還為計(jì)算機(jī)視覺(jué)和人工智能領(lǐng)域提供了新的思路。傳統(tǒng)的計(jì)算機(jī)視覺(jué)系統(tǒng)往往專(zhuān)注于從圖像中提取不變特征,而忽視了預(yù)測(cè)變換的能力。這項(xiàng)研究表明,融入預(yù)測(cè)變換的機(jī)制可能是提升人工視覺(jué)系統(tǒng)性能的關(guān)鍵。
想象一下未來(lái)的自動(dòng)駕駛汽車(chē):它不僅需要識(shí)別路上的行人,還需要預(yù)測(cè)行人可能的移動(dòng)軌跡?;蛘呖紤]醫(yī)療影像分析系統(tǒng),它不僅要識(shí)別腫瘤,還要能預(yù)測(cè)腫瘤在不同角度或成像條件下的表現(xiàn)。這種預(yù)測(cè)能力將大大增強(qiáng)人工智能系統(tǒng)的適應(yīng)性和可靠性。
此外,這項(xiàng)研究也為神經(jīng)科學(xué)領(lǐng)域提供了新的研究方向。研究者可以進(jìn)一步探索這種預(yù)測(cè)機(jī)制在其他感官系統(tǒng)中的存在,以及它在各種神經(jīng)發(fā)育或神經(jīng)退行性疾病中的變化。例如,自閉癥患者在視覺(jué)處理方面的特殊表現(xiàn),是否與這種預(yù)測(cè)機(jī)制有關(guān)?阿爾茨海默病患者的視覺(jué)識(shí)別困難,是否部分源于預(yù)測(cè)變換能力的退化?
五、研究局限與未來(lái)展望
盡管這項(xiàng)研究取得了重要突破,但研究團(tuán)隊(duì)也坦承存在一些局限。首先,腦電圖雖然時(shí)間分辨率高,但空間分辨率有限,無(wú)法精確定位腦內(nèi)活動(dòng)的具體區(qū)域。這就像是能知道城市何時(shí)繁忙,但不能精確定位哪個(gè)街區(qū)最擁擠。
其次,實(shí)驗(yàn)中使用的是靜態(tài)圖像,而真實(shí)世界中的物體往往是動(dòng)態(tài)的。未來(lái)的研究可以考慮使用動(dòng)態(tài)刺激,如視頻,來(lái)更好地模擬真實(shí)世界的視覺(jué)體驗(yàn)。
此外,研究中使用的人工神經(jīng)網(wǎng)絡(luò)雖然能預(yù)測(cè)腦電活動(dòng)模式,但其內(nèi)部機(jī)制與大腦的實(shí)際工作方式可能存在差異。就像是兩臺(tái)不同設(shè)計(jì)的計(jì)算機(jī)可能通過(guò)不同的算法得出相同的結(jié)果。
展望未來(lái),研究團(tuán)隊(duì)計(jì)劃將這一研究擴(kuò)展到更多領(lǐng)域。他們希望探索這種預(yù)測(cè)機(jī)制在嬰幼兒視覺(jué)發(fā)展中的作用,以及它如何在進(jìn)化過(guò)程中形成。同時(shí),他們也計(jì)劃將這些發(fā)現(xiàn)應(yīng)用于改進(jìn)計(jì)算機(jī)視覺(jué)系統(tǒng),特別是在物體識(shí)別和場(chǎng)景理解方面。
六、結(jié)語(yǔ):重新認(rèn)識(shí)我們的視覺(jué)世界
歸根結(jié)底,這項(xiàng)研究讓我們重新認(rèn)識(shí)了自己的視覺(jué)系統(tǒng)。我們的大腦不僅僅是被動(dòng)地接收和處理視覺(jué)信息,而是主動(dòng)地預(yù)測(cè)和模擬世界。這種預(yù)測(cè)能力使我們能夠在復(fù)雜多變的環(huán)境中穩(wěn)定地識(shí)別物體,是我們視覺(jué)智能的核心。
當(dāng)你下次看到一只飛翔的鳥(niǎo),或者一輛轉(zhuǎn)彎的汽車(chē)時(shí),不妨想一想:你的大腦正在進(jìn)行著驚人的計(jì)算,不僅識(shí)別出這些物體,還預(yù)測(cè)它們?cè)诓煌瑮l件下的樣子。這種能力是如此自然,以至于我們往往忽視它的復(fù)雜性和精妙之處。
這項(xiàng)研究不僅是對(duì)視覺(jué)科學(xué)的重要貢獻(xiàn),也是對(duì)人類(lèi)認(rèn)知能力的深刻探索。它提醒我們,即使是最日常的感知體驗(yàn),背后也隱藏著豐富的科學(xué)奧秘等待我們?nèi)グl(fā)現(xiàn)。
如果你對(duì)這項(xiàng)研究感興趣,可以通過(guò)前文提到的DOI訪問(wèn)原始論文,深入了解研究的詳細(xì)方法和結(jié)果。同時(shí),我們也期待這一領(lǐng)域未來(lái)的更多突破,幫助我們更好地理解視覺(jué)系統(tǒng)的工作原理,并將這些知識(shí)應(yīng)用于創(chuàng)造更智能的人工視覺(jué)系統(tǒng)。
Q&A Q1:什么是"視覺(jué)恒常性"?為什么它對(duì)我們的日常生活很重要? A:視覺(jué)恒常性是指我們能夠在物體外觀變化(如位置、大小、角度改變)的情況下,仍然穩(wěn)定識(shí)別物體身份的能力。它對(duì)日常生活至關(guān)重要,因?yàn)楝F(xiàn)實(shí)世界中物體不斷變化,沒(méi)有這種能力,我們就無(wú)法在動(dòng)態(tài)環(huán)境中有效識(shí)別物體,日?;顒?dòng)如開(kāi)車(chē)、社交互動(dòng)等都將變得極其困難。
Q2:研究中發(fā)現(xiàn)的大腦預(yù)測(cè)機(jī)制是如何工作的? A:研究發(fā)現(xiàn),大腦不只是被動(dòng)提取物體特征,而是主動(dòng)預(yù)測(cè)物體在不同條件下的表現(xiàn)。當(dāng)看到物體后約100毫秒,大腦形成對(duì)物體身份的穩(wěn)定表征;隨后200-300毫秒內(nèi),開(kāi)始預(yù)測(cè)物體在不同位置、大小或角度下的表現(xiàn)。這種預(yù)測(cè)主要發(fā)生在負(fù)責(zé)物體識(shí)別的腹側(cè)視覺(jué)通路中。
Q3:這項(xiàng)研究對(duì)人工智能和計(jì)算機(jī)視覺(jué)有什么啟示? A:研究表明,融入預(yù)測(cè)變換機(jī)制可能是提升AI視覺(jué)系統(tǒng)性能的關(guān)鍵。傳統(tǒng)計(jì)算機(jī)視覺(jué)系統(tǒng)主要提取不變特征,而忽視預(yù)測(cè)變換能力。未來(lái)的AI系統(tǒng)應(yīng)模仿人腦的這種預(yù)測(cè)能力,這將提高它們?cè)趶?fù)雜環(huán)境中識(shí)別物體的能力,對(duì)自動(dòng)駕駛、醫(yī)療影像分析等應(yīng)用領(lǐng)域尤為重要。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。