這項(xiàng)由麻省大學(xué)阿默斯特分校的楊澤源、余雪陽、陳德霖團(tuán)隊(duì)與麻省理工學(xué)院的申茂浩、甘闖合作完成的研究發(fā)表于2025年6月,題為《機(jī)器心理想象:用潛在視覺標(biāo)記賦能多模態(tài)推理》。有興趣深入了解的讀者可以通過項(xiàng)目主頁 https://vlm-mirage.github.io 或GitHub代碼庫 https://github.com/UMass-Embodied-AGI/Mirage 訪問完整研究資料。
說到底,當(dāng)我們?nèi)祟惤鉀Q復(fù)雜問題時(shí),大腦并不總是需要看到完整清晰的畫面。比如當(dāng)你在拼拼圖時(shí),你會(huì)在腦海中"想象"兩個(gè)碎片拼在一起的樣子,而不是真的去畫出完整的圖片。類似地,當(dāng)你在陌生城市導(dǎo)航時(shí),你會(huì)在心中構(gòu)建一個(gè)簡單的路線圖,而不是繪制詳細(xì)的地圖。這種能力被科學(xué)家稱為"心理想象"——我們的大腦能夠構(gòu)建和操作簡化的視覺線索來幫助推理。
然而,目前的視覺語言模型雖然在理解圖片和文字方面表現(xiàn)出色,但它們只能通過文字來表達(dá)所有的推理過程。這就像讓一個(gè)只會(huì)說話的人來解決需要畫圖才能解決的數(shù)學(xué)題一樣困難。當(dāng)遇到需要空間想象的任務(wù)時(shí),比如走迷宮或者判斷拼圖碎片是否匹配,這些AI模型往往力不從心。
最近確實(shí)有一些研究嘗試讓AI既能生成文字又能生成圖片,但這種做法就像讓一個(gè)人同時(shí)成為文學(xué)家和畫家一樣,往往顧此失彼。生成完整圖片需要大量的計(jì)算資源和訓(xùn)練數(shù)據(jù),而這種訓(xùn)練往往會(huì)削弱模型的推理能力。更重要的是,這些模型無法生成與輸入圖片相關(guān)的中間推理步驟。
麻省大學(xué)的研究團(tuán)隊(duì)受到人類心理想象機(jī)制的啟發(fā),提出了一個(gè)名為"Mirage"的創(chuàng)新框架。這個(gè)框架的核心思想是讓AI模型像人類一樣,在推理過程中生成簡化的"心理圖像",而不是完整的像素級(jí)圖片。這些"心理圖像"以潛在的數(shù)學(xué)向量形式存在,就像人腦中模糊但有用的想象畫面一樣。
**一、從文字推理到多模態(tài)想象的飛躍**
傳統(tǒng)的視覺語言模型就像一個(gè)只會(huì)用語言描述的導(dǎo)游。當(dāng)你問它如何走出迷宮時(shí),它只能說"先向右走,然后向上走",但無法在腦海中構(gòu)建路徑的視覺表示。這種純文字的推理方式在處理空間關(guān)系、視覺匹配等任務(wù)時(shí)顯得力不從心。
Mirage框架的突破在于讓AI模型學(xué)會(huì)在推理過程中插入"latent visual tokens"——我們可以把它們理解為壓縮的視覺記憶片段。當(dāng)模型需要"視覺思考"時(shí),它會(huì)將當(dāng)前的內(nèi)部狀態(tài)轉(zhuǎn)換為這些特殊的視覺標(biāo)記,然后繼續(xù)基于這些標(biāo)記進(jìn)行推理。這個(gè)過程完全在模型內(nèi)部進(jìn)行,不需要生成實(shí)際的圖片。
這種方法的巧妙之處在于模仿了人類的思考過程。當(dāng)你解決拼圖問題時(shí),你并不會(huì)在腦海中生成照片級(jí)別的完整圖像,而是構(gòu)建一些關(guān)鍵的視覺線索——比如邊緣的形狀、顏色的匹配等。Mirage正是讓AI學(xué)會(huì)了這種簡化但有效的視覺推理方式。
為了實(shí)現(xiàn)這個(gè)目標(biāo),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)兩階段的訓(xùn)練方法。在第一階段,他們讓模型學(xué)會(huì)生成與真實(shí)圖像特征相匹配的潛在視覺標(biāo)記,就像教孩子認(rèn)識(shí)物體的輪廓和特征。在第二階段,他們移除了對(duì)這些視覺標(biāo)記的直接監(jiān)督,讓模型自由地調(diào)整這些標(biāo)記來更好地服務(wù)于最終的推理目標(biāo)。
**二、巧妙的數(shù)據(jù)合成:為AI制造"想象素材"**
要訓(xùn)練AI學(xué)會(huì)視覺想象,首先需要為它準(zhǔn)備合適的訓(xùn)練材料。這就像教孩子畫畫,你需要先給他看一些范例。研究團(tuán)隊(duì)為不同類型的推理任務(wù)設(shè)計(jì)了專門的"輔助圖像"生成方法。
對(duì)于迷宮導(dǎo)航任務(wù),他們會(huì)在地圖上用紅色箭頭標(biāo)出正確的路徑,就像在旅游地圖上畫出推薦路線一樣。對(duì)于拼圖任務(wù),他們會(huì)將候選的拼圖片段與參考圖像組合在一起,讓模型能夠直觀地看到組合效果。對(duì)于需要空間推理的任務(wù),他們甚至使用了先進(jìn)的視頻生成模型來創(chuàng)建相應(yīng)的場(chǎng)景圖像。
有了這些輔助圖像后,研究團(tuán)隊(duì)會(huì)讓一個(gè)大型的視覺語言模型(Qwen2.5-VL 32B)來生成相應(yīng)的推理過程。他們會(huì)給這個(gè)模型展示原始問題、輔助圖像和正確答案,然后要求它生成一個(gè)逐步的推理鏈,說明如何利用輔助圖像來得出答案。
這個(gè)過程就像是創(chuàng)建一個(gè)詳細(xì)的思考示例集。比如對(duì)于一個(gè)迷宮問題,生成的推理過程可能是這樣的:"我首先向上移動(dòng)以避開前方的障礙物,然后根據(jù)紅色箭頭的指引繼續(xù)向右移動(dòng),直到到達(dá)目標(biāo)位置。"通過這種方式,研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含圖像和文字交替出現(xiàn)的訓(xùn)練數(shù)據(jù)集。
**三、兩階段訓(xùn)練:從模仿到創(chuàng)新的學(xué)習(xí)過程**
Mirage的訓(xùn)練過程分為兩個(gè)精心設(shè)計(jì)的階段,每個(gè)階段都有其獨(dú)特的目的和方法。
第一階段被稱為"聯(lián)合監(jiān)督階段",這個(gè)階段的目標(biāo)是讓模型學(xué)會(huì)生成有意義的潛在視覺標(biāo)記。研究團(tuán)隊(duì)首先將輔助圖像通過視覺編碼器轉(zhuǎn)換為圖像特征,然后使用平均池化等技術(shù)將這些特征壓縮為幾個(gè)關(guān)鍵的向量。這些壓縮后的向量就代表了圖像中最重要的視覺信息。
在訓(xùn)練過程中,模型需要同時(shí)完成兩個(gè)任務(wù)。一方面,它要像普通的語言模型一樣預(yù)測(cè)下一個(gè)文字;另一方面,當(dāng)輪到生成視覺標(biāo)記時(shí),它的內(nèi)部狀態(tài)必須與目標(biāo)的壓縮圖像向量相匹配。這種雙重監(jiān)督確保了潛在視覺標(biāo)記能夠真正承載有用的視覺信息。
第二階段被稱為"潛在松弛階段",這個(gè)階段的核心思想是給模型更多的自由度。研究團(tuán)隊(duì)移除了對(duì)視覺標(biāo)記的直接監(jiān)督,只保留對(duì)文字部分的監(jiān)督。模型現(xiàn)在需要自己生成潛在視覺標(biāo)記,并利用這些自生成的標(biāo)記來幫助后續(xù)的文字推理。
這種設(shè)計(jì)的巧妙之處在于平衡了約束和自由。第一階段確保了視覺標(biāo)記有實(shí)際意義,而第二階段讓模型學(xué)會(huì)靈活運(yùn)用這些標(biāo)記。就像學(xué)習(xí)繪畫,先要臨摹大師作品掌握基本技法,然后才能發(fā)揮創(chuàng)意畫出自己的作品。
訓(xùn)練完成后,研究團(tuán)隊(duì)還使用了強(qiáng)化學(xué)習(xí)來進(jìn)一步優(yōu)化模型的表現(xiàn)。他們采用了組相對(duì)策略優(yōu)化(GRPO)方法,根據(jù)答案的正確性和格式規(guī)范性來給模型打分,引導(dǎo)它朝著更好的方向發(fā)展。
**四、實(shí)驗(yàn)驗(yàn)證:從空間推理到拼圖匹配的全面測(cè)試**
為了驗(yàn)證Mirage框架的有效性,研究團(tuán)隊(duì)在四個(gè)不同的空間推理基準(zhǔn)測(cè)試上進(jìn)行了全面評(píng)估。這些測(cè)試涵蓋了從簡單的路徑規(guī)劃到復(fù)雜的視覺匹配等各種任務(wù)。
在VSP(視覺空間規(guī)劃)任務(wù)中,模型需要在模擬的迷宮環(huán)境中進(jìn)行導(dǎo)航。這個(gè)任務(wù)包含兩個(gè)子任務(wù):空間推理和空間規(guī)劃。在空間推理任務(wù)中,給定一系列動(dòng)作,模型需要預(yù)測(cè)最終狀態(tài);在空間規(guī)劃任務(wù)中,模型需要設(shè)計(jì)一條從起點(diǎn)到終點(diǎn)的路徑。實(shí)驗(yàn)結(jié)果顯示,Mirage在空間推理任務(wù)上達(dá)到了89%的準(zhǔn)確率,比純文字方法提高了4個(gè)百分點(diǎn);在空間規(guī)劃任務(wù)上達(dá)到了60%的準(zhǔn)確率,比純文字方法提高了9個(gè)百分點(diǎn)。
BLINK-Jigsaw任務(wù)測(cè)試的是模型從不完整視覺輸入中推斷全局結(jié)構(gòu)的能力。在這個(gè)任務(wù)中,模型需要判斷哪個(gè)拼圖片段能夠完成缺失的部分。Mirage在這個(gè)任務(wù)上的表現(xiàn)同樣出色,達(dá)到了98%的準(zhǔn)確率,顯著超過了其他基線方法。
SAT(空間能力訓(xùn)練)任務(wù)評(píng)估的是靜態(tài)和動(dòng)態(tài)空間關(guān)系的理解能力。在合成數(shù)據(jù)上,Mirage達(dá)到了98%的準(zhǔn)確率,在真實(shí)數(shù)據(jù)上也達(dá)到了72%的準(zhǔn)確率,都明顯優(yōu)于傳統(tǒng)方法。
研究團(tuán)隊(duì)還在COMT數(shù)學(xué)幾何子集上進(jìn)行了測(cè)試,這個(gè)任務(wù)涉及更正式的空間推理。Mirage在這個(gè)任務(wù)上達(dá)到了77%的準(zhǔn)確率,同樣展現(xiàn)出了良好的性能。
有趣的是,當(dāng)研究團(tuán)隊(duì)與其他嘗試生成完整圖像的統(tǒng)一模型(如Anole和MVoT)進(jìn)行比較時(shí),發(fā)現(xiàn)這些復(fù)雜的模型反而表現(xiàn)不如Mirage。這證明了"少即是多"的哲學(xué)——專注于生成關(guān)鍵的視覺線索比試圖生成完整圖像更有效。
**五、深入分析:揭開"機(jī)器想象"的神秘面紗**
為了更好地理解Mirage框架的工作機(jī)制,研究團(tuán)隊(duì)進(jìn)行了一系列深入的分析實(shí)驗(yàn)。
首先,他們驗(yàn)證了兩階段訓(xùn)練的必要性。實(shí)驗(yàn)顯示,如果只進(jìn)行第一階段訓(xùn)練,模型雖然能生成有意義的視覺標(biāo)記,但這些標(biāo)記過于受限,無法靈活適應(yīng)不同的推理需求。如果只進(jìn)行第二階段訓(xùn)練,模型缺乏視覺基礎(chǔ),生成的標(biāo)記與視覺內(nèi)容關(guān)聯(lián)性很弱。只有兩個(gè)階段結(jié)合,才能實(shí)現(xiàn)既有視覺基礎(chǔ)又有推理靈活性的效果。
其次,他們研究了不同超參數(shù)對(duì)性能的影響。實(shí)驗(yàn)發(fā)現(xiàn),潛在視覺標(biāo)記的數(shù)量在2到6個(gè)之間時(shí)效果最好,超過8個(gè)會(huì)導(dǎo)致性能下降,這可能是因?yàn)檫^長的潛在序列在自回歸生成過程中容易累積錯(cuò)誤。損失函數(shù)的權(quán)重系數(shù)在0.1到1之間都能獲得不錯(cuò)的效果,顯示了框架的穩(wěn)健性。
研究團(tuán)隊(duì)還對(duì)模型在不同規(guī)模上的表現(xiàn)進(jìn)行了測(cè)試。他們發(fā)現(xiàn),即使在較小的Qwen2.5-VL 3B模型上,Mirage仍然能夠帶來顯著的性能提升,在某些任務(wù)上的改進(jìn)甚至比7B模型更明顯。這說明了這種方法的通用性和可擴(kuò)展性。
為了驗(yàn)證合成數(shù)據(jù)的質(zhì)量,研究團(tuán)隊(duì)將生成的輔助圖像直接提供給模型作為輸入。結(jié)果發(fā)現(xiàn),在這種情況下,模型幾乎能夠達(dá)到100%的準(zhǔn)確率,這證明了合成數(shù)據(jù)的高質(zhì)量,也為Mirage的性能提升提供了理論上限。
最引人注目的是對(duì)潛在標(biāo)記本身的分析。研究團(tuán)隊(duì)使用t-SNE可視化技術(shù)將潛在視覺標(biāo)記、文字標(biāo)記和圖像標(biāo)記映射到二維空間中。結(jié)果顯示,文字標(biāo)記分布在整個(gè)空間中,圖像標(biāo)記聚集在一個(gè)緊密的視覺子空間內(nèi),而Mirage生成的潛在視覺標(biāo)記則位于視覺子空間的邊緣附近。這種分布模式表明,潛在視覺標(biāo)記既保持了與視覺內(nèi)容的聯(lián)系,又通過第二階段的訓(xùn)練獲得了適應(yīng)任務(wù)需求的靈活性。
**六、技術(shù)創(chuàng)新:從理論到實(shí)踐的完美結(jié)合**
Mirage框架的技術(shù)創(chuàng)新體現(xiàn)在多個(gè)層面上。從理論角度來看,它首次在視覺語言模型中引入了類似人類心理想象的機(jī)制,這為AI推理能力的發(fā)展開辟了新的方向。從實(shí)踐角度來看,它提供了一種既高效又有效的解決方案。
在架構(gòu)設(shè)計(jì)上,Mirage的巧妙之處在于它不需要任何外部的圖像解碼器。當(dāng)模型決定進(jìn)行"視覺思考"時(shí),它簡單地重用當(dāng)前的隱藏狀態(tài)作為視覺標(biāo)記,跳過語言投影層直接將這些狀態(tài)添加到上下文中。這種設(shè)計(jì)既簡單又高效,避免了復(fù)雜的多模態(tài)架構(gòu)帶來的計(jì)算開銷。
在訓(xùn)練策略上,兩階段的訓(xùn)練方法體現(xiàn)了教育學(xué)中"先模仿后創(chuàng)新"的原理。第一階段讓模型學(xué)會(huì)了視覺表示的基礎(chǔ)知識(shí),第二階段則給予了它創(chuàng)新的空間。這種漸進(jìn)式的學(xué)習(xí)方法比一步到位的訓(xùn)練更穩(wěn)定、更有效。
在數(shù)據(jù)合成方面,針對(duì)不同任務(wù)設(shè)計(jì)專門的輔助圖像生成方法體現(xiàn)了"因材施教"的思想。每種任務(wù)都有其獨(dú)特的視覺需求,統(tǒng)一的方法往往無法滿足所有需求。通過任務(wù)特定的數(shù)據(jù)合成,Mirage能夠?yàn)槊糠N推理類型提供最合適的視覺支持。
從效率角度來看,Mirage的兩個(gè)訓(xùn)練階段在單個(gè)NVIDIA H100 GPU上分別需要3.5小時(shí)和7.2小時(shí),總計(jì)不到11小時(shí)。相比之下,傳統(tǒng)的純文字鏈?zhǔn)剿季S訓(xùn)練需要5.5小時(shí)。雖然Mirage的訓(xùn)練時(shí)間略長,但考慮到性能的顯著提升,這種額外的計(jì)算成本是完全值得的。
**七、應(yīng)用前景:從實(shí)驗(yàn)室到現(xiàn)實(shí)世界的轉(zhuǎn)化**
Mirage框架的成功不僅僅是學(xué)術(shù)上的突破,更重要的是它為實(shí)際應(yīng)用開辟了廣闊的前景。在自動(dòng)駕駛領(lǐng)域,這種視覺推理能力可以幫助車輛更好地理解復(fù)雜的交通場(chǎng)景,在腦海中構(gòu)建路徑規(guī)劃而不需要生成完整的環(huán)境地圖。在機(jī)器人導(dǎo)航方面,Mirage可以讓機(jī)器人像人類一樣在心中構(gòu)建簡化的空間表示來指導(dǎo)行動(dòng)。
在教育技術(shù)領(lǐng)域,這種技術(shù)可以用于開發(fā)更智能的學(xué)習(xí)輔助系統(tǒng)。比如在幾何教學(xué)中,AI可以像人類老師一樣在"腦海"中構(gòu)建圖形來解釋復(fù)雜的空間關(guān)系。在游戲AI領(lǐng)域,Mirage可以讓非玩家角色具備更自然的空間推理能力,提供更真實(shí)的游戲體驗(yàn)。
在醫(yī)療影像分析方面,這種技術(shù)可以幫助AI系統(tǒng)更好地理解復(fù)雜的醫(yī)學(xué)圖像。醫(yī)生在診斷時(shí)往往需要在腦海中構(gòu)建病變的三維結(jié)構(gòu),Mirage式的推理方法可以讓AI系統(tǒng)具備類似的能力。
在建筑設(shè)計(jì)和城市規(guī)劃領(lǐng)域,這種視覺推理能力可以幫助AI系統(tǒng)理解空間布局和功能關(guān)系,協(xié)助設(shè)計(jì)師進(jìn)行更合理的規(guī)劃。在制造業(yè)中,這種技術(shù)可以用于質(zhì)量檢測(cè)和裝配規(guī)劃,讓機(jī)器能夠像熟練工人一樣理解復(fù)雜的空間關(guān)系。
**八、局限性與未來發(fā)展方向**
盡管Mirage框架取得了顯著的成功,但研究團(tuán)隊(duì)也誠實(shí)地指出了當(dāng)前方法的一些局限性。
首先是合成數(shù)據(jù)質(zhì)量的問題。Mirage的性能很大程度上依賴于高質(zhì)量的多模態(tài)訓(xùn)練軌跡,而這些軌跡的生成需要精心設(shè)計(jì)的工具和方法。當(dāng)前的數(shù)據(jù)合成方法雖然有效,但仍有改進(jìn)空間。研究團(tuán)隊(duì)提到,開發(fā)更好的數(shù)據(jù)合成方法是一個(gè)重要的未來研究方向。
其次是與統(tǒng)一模型的整合問題。雖然Mirage在當(dāng)前的實(shí)驗(yàn)中表現(xiàn)優(yōu)于統(tǒng)一的文字-圖像生成模型,但這些統(tǒng)一模型在訓(xùn)練過程中已經(jīng)通過圖像和文字標(biāo)記的聯(lián)合生成對(duì)齊了潛在空間。如何將Mirage的設(shè)計(jì)理念與這些預(yù)訓(xùn)練的對(duì)齊特征空間結(jié)合,仍然是一個(gè)開放的研究問題。
第三是任務(wù)范圍的限制。目前的評(píng)估主要集中在空間推理任務(wù)上,雖然這些任務(wù)具有代表性,但Mirage在其他類型的多模態(tài)推理任務(wù)上的表現(xiàn)還需要進(jìn)一步驗(yàn)證。將這種方法擴(kuò)展到更廣泛的任務(wù)類型,包括純文本任務(wù),是一個(gè)值得探索的方向。
研究團(tuán)隊(duì)也指出了一些技術(shù)層面的改進(jìn)空間。比如,當(dāng)前的壓縮方法使用的是簡單的平均池化,更sophisticated的壓縮技術(shù)可能會(huì)帶來更好的效果。在訓(xùn)練策略方面,如何更好地平衡兩個(gè)階段的學(xué)習(xí)目標(biāo),以及是否可以設(shè)計(jì)端到端的訓(xùn)練方法,都是值得研究的問題。
**九、科學(xué)意義:重新定義AI的思考方式**
Mirage框架的意義遠(yuǎn)超出了技術(shù)本身,它為我們重新思考AI的認(rèn)知機(jī)制提供了新的視角。傳統(tǒng)的AI系統(tǒng)往往采用"輸入-處理-輸出"的線性模式,而Mirage引入了類似人類思維的"內(nèi)部想象"機(jī)制,這種機(jī)制讓AI能夠在推理過程中構(gòu)建和操作內(nèi)部表示。
從認(rèn)知科學(xué)的角度來看,這項(xiàng)研究為"具身認(rèn)知"理論提供了計(jì)算層面的支持。具身認(rèn)知理論認(rèn)為,智能不僅僅來自于抽象的符號(hào)操作,還需要與感知和行動(dòng)的緊密結(jié)合。Mirage通過讓AI系統(tǒng)在推理中使用壓縮的視覺表示,體現(xiàn)了這種認(rèn)知理論的核心思想。
從機(jī)器學(xué)習(xí)的角度來看,Mirage提供了一種新的多模態(tài)學(xué)習(xí)范式。它表明,不是所有的多模態(tài)推理都需要生成完整的感知輸出,有時(shí)候壓縮的、任務(wù)特定的表示可能更加有效。這種觀點(diǎn)可能會(huì)影響未來多模態(tài)AI系統(tǒng)的設(shè)計(jì)方向。
研究還為理解大規(guī)模語言模型的內(nèi)部機(jī)制提供了新的工具。通過分析潛在視覺標(biāo)記在嵌入空間中的分布,研究團(tuán)隊(duì)展示了一種理解和可視化模型內(nèi)部表示的方法,這種方法可以推廣到其他類型的AI系統(tǒng)中。
**十、對(duì)比分析:Mirage與現(xiàn)有方法的深度比較**
為了更好地理解Mirage的優(yōu)勢(shì),有必要將其與現(xiàn)有的幾類方法進(jìn)行詳細(xì)比較。
與純文字推理方法相比,Mirage的主要優(yōu)勢(shì)在于引入了視覺維度的思考。傳統(tǒng)的鏈?zhǔn)剿季S方法雖然能夠產(chǎn)生逐步的推理過程,但在處理空間關(guān)系時(shí)往往力不從心。就像用語言描述一個(gè)復(fù)雜的幾何圖形一樣,純文字的描述很難傳達(dá)空間的直觀性。Mirage通過潛在視覺標(biāo)記補(bǔ)充了這種直觀性,讓AI能夠"看見"推理過程中的關(guān)鍵視覺線索。
與統(tǒng)一的圖像-文字生成模型相比,Mirage采用了一種更加專注和高效的方法。統(tǒng)一模型試圖掌握從像素級(jí)圖像生成到復(fù)雜推理的所有能力,這種"全才"的設(shè)計(jì)往往導(dǎo)致在特定任務(wù)上的性能妥協(xié)。Mirage專注于推理任務(wù)的核心需求,避免了生成完整圖像的復(fù)雜性和計(jì)算開銷。實(shí)驗(yàn)結(jié)果也證實(shí)了這種專注策略的有效性。
與使用外部工具的多模態(tài)推理方法相比,Mirage提供了一種更加內(nèi)化和流暢的解決方案。外部工具方法雖然能夠利用專門的視覺分析工具,但這種方法往往需要復(fù)雜的工具調(diào)用機(jī)制,而且工具的選擇和使用本身就是一個(gè)需要學(xué)習(xí)的復(fù)雜問題。Mirage將視覺推理能力內(nèi)化到模型中,避免了這些額外的復(fù)雜性。
與人類認(rèn)知機(jī)制相比,Mirage展現(xiàn)了有趣的相似性和差異性。相似之處在于,人類在進(jìn)行空間推理時(shí)確實(shí)會(huì)構(gòu)建簡化的心理圖像,而不是完整的視覺場(chǎng)景。差異之處在于,人類的心理想象是一個(gè)動(dòng)態(tài)的、交互的過程,而Mirage目前生成的是靜態(tài)的潛在表示。未來的研究可以探索更加動(dòng)態(tài)的潛在視覺推理機(jī)制。
**十一、實(shí)驗(yàn)細(xì)節(jié):嚴(yán)謹(jǐn)?shù)目茖W(xué)驗(yàn)證過程**
Mirage框架的驗(yàn)證過程體現(xiàn)了嚴(yán)謹(jǐn)?shù)目茖W(xué)研究態(tài)度。研究團(tuán)隊(duì)不僅在多個(gè)基準(zhǔn)測(cè)試上進(jìn)行了評(píng)估,還進(jìn)行了全面的消融實(shí)驗(yàn)和分析。
在數(shù)據(jù)集構(gòu)建方面,研究團(tuán)隊(duì)為每個(gè)任務(wù)精心設(shè)計(jì)了合成方法。對(duì)于VSP任務(wù),他們確保每個(gè)地圖都包含有效路徑,陷阱塊不超過20%,并且按照不同的網(wǎng)格大小進(jìn)行分層采樣。對(duì)于拼圖任務(wù),他們隨機(jī)選擇候選片段與參考圖像組合。對(duì)于SAT任務(wù),他們使用了最新的視頻生成模型來創(chuàng)建相應(yīng)的場(chǎng)景。
在訓(xùn)練配置方面,研究團(tuán)隊(duì)采用了精心調(diào)優(yōu)的超參數(shù)。他們使用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為1e-5,批次大小為8,梯度累積步數(shù)為2。這些參數(shù)的選擇基于大量的預(yù)實(shí)驗(yàn)和調(diào)優(yōu)過程。訓(xùn)練過程中,除了視覺編碼器外,模型的所有組件都是可訓(xùn)練的。
在評(píng)估方法方面,研究團(tuán)隊(duì)不僅關(guān)注最終的準(zhǔn)確率,還分析了模型在不同難度級(jí)別上的表現(xiàn)。比如在VSP任務(wù)中,他們分別報(bào)告了不同級(jí)別(Level 3-6)的性能,展示了模型隨任務(wù)復(fù)雜度變化的表現(xiàn)趨勢(shì)。
在統(tǒng)計(jì)分析方面,研究團(tuán)隊(duì)進(jìn)行了多次獨(dú)立運(yùn)行以確保結(jié)果的可靠性。他們固定了隨機(jī)種子以確保實(shí)驗(yàn)的可重復(fù)性,這種做法體現(xiàn)了開放科學(xué)的精神。
在對(duì)比實(shí)驗(yàn)設(shè)計(jì)方面,研究團(tuán)隊(duì)不僅與自己的基線方法進(jìn)行比較,還與其他最新的方法進(jìn)行了對(duì)比。他們特別關(guān)注了公平性,確保所有方法都在相同的數(shù)據(jù)集和評(píng)估標(biāo)準(zhǔn)下進(jìn)行比較。
說到底,Mirage框架為AI領(lǐng)域帶來了一個(gè)重要的啟示:有時(shí)候,模仿人類的認(rèn)知機(jī)制比追求技術(shù)的復(fù)雜性更有效。通過讓AI學(xué)會(huì)"想象"而不是"看見",研究團(tuán)隊(duì)找到了一條通向更智能推理的新路徑。
這項(xiàng)研究不僅在技術(shù)上取得了顯著突破,更重要的是它改變了我們對(duì)AI推理能力的理解。它告訴我們,智能不僅僅來自于處理復(fù)雜信息的能力,更來自于抓住關(guān)鍵信息并靈活運(yùn)用的智慧。正如人類在思考時(shí)不需要在腦海中重現(xiàn)完整的現(xiàn)實(shí)世界一樣,AI也可以通過簡化但有效的內(nèi)部表示來實(shí)現(xiàn)強(qiáng)大的推理能力。
對(duì)于普通人來說,這項(xiàng)研究的意義在于它讓我們看到了AI發(fā)展的新可能性。未來的AI助手可能不再是冰冷的計(jì)算機(jī)器,而是能夠像人類一樣進(jìn)行空間想象和視覺推理的智能伙伴。當(dāng)你向它詢問路線規(guī)劃或空間布局問題時(shí),它能夠在"腦海"中構(gòu)建相應(yīng)的場(chǎng)景來給出更準(zhǔn)確的答案。
研究團(tuán)隊(duì)在論文的最后謙遜地指出,雖然Mirage取得了令人鼓舞的結(jié)果,但這只是探索"機(jī)器心理想象"這個(gè)新領(lǐng)域的第一步。未來還有許多問題需要解決,比如如何處理更復(fù)雜的推理任務(wù),如何與大規(guī)模的統(tǒng)一模型更好地結(jié)合,以及如何將這種方法擴(kuò)展到更廣泛的應(yīng)用領(lǐng)域。但正是這種開放和謙遜的態(tài)度,讓我們對(duì)這個(gè)研究方向的未來發(fā)展充滿期待。
最終,Mirage框架提醒我們,在追求AI技術(shù)進(jìn)步的道路上,有時(shí)候回頭看看人類是如何思考和推理的,可能會(huì)給我們帶來意想不到的啟發(fā)。畢竟,最好的技術(shù)往往不是最復(fù)雜的,而是最貼近自然智能本質(zhì)的。
Q&A
Q1:Mirage是什么?它和普通的AI有什么不同? A:Mirage是麻省大學(xué)開發(fā)的一種新型AI推理框架,最大的不同在于它能像人類一樣進(jìn)行"視覺想象"。普通AI只能用文字描述來推理,而Mirage能在"腦海"中生成簡化的視覺線索來輔助思考,就像人類解拼圖時(shí)會(huì)在心中想象片段拼接的樣子。
Q2:Mirage會(huì)不會(huì)比生成完整圖像的AI模型更好? A:實(shí)驗(yàn)證明確實(shí)如此。那些能生成完整圖像的AI模型雖然看起來更強(qiáng)大,但往往在推理任務(wù)上表現(xiàn)不如Mirage。這是因?yàn)樯赏暾麍D像需要大量計(jì)算資源,反而削弱了推理能力。Mirage專注于生成關(guān)鍵的視覺線索,更高效也更有效。
Q3:普通人什么時(shí)候能用到這種技術(shù)? A:目前Mirage還在研究階段,但它的應(yīng)用前景很廣闊。未來可能出現(xiàn)在導(dǎo)航軟件、教育軟件、游戲AI等領(lǐng)域。比如你問導(dǎo)航軟件路線時(shí),它能像人類一樣在"腦海"中構(gòu)建路徑圖給出更好的建議,或者在學(xué)習(xí)幾何時(shí)AI老師能更直觀地解釋空間關(guān)系。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。