這項由麻省大學(xué)阿默斯特分校的楊澤源、余雪陽、陳德霖團隊與麻省理工學(xué)院的申茂浩、甘闖合作完成的研究發(fā)表于2025年6月,題為《機器心理想象:用潛在視覺標記賦能多模態(tài)推理》。有興趣深入了解的讀者可以通過項目主頁 https://vlm-mirage.github.io 或GitHub代碼庫 https://github.com/UMass-Embodied-AGI/Mirage 訪問完整研究資料。
說到底,當我們?nèi)祟惤鉀Q復(fù)雜問題時,大腦并不總是需要看到完整清晰的畫面。比如當你在拼拼圖時,你會在腦海中"想象"兩個碎片拼在一起的樣子,而不是真的去畫出完整的圖片。類似地,當你在陌生城市導(dǎo)航時,你會在心中構(gòu)建一個簡單的路線圖,而不是繪制詳細的地圖。這種能力被科學(xué)家稱為"心理想象"——我們的大腦能夠構(gòu)建和操作簡化的視覺線索來幫助推理。
然而,目前的視覺語言模型雖然在理解圖片和文字方面表現(xiàn)出色,但它們只能通過文字來表達所有的推理過程。這就像讓一個只會說話的人來解決需要畫圖才能解決的數(shù)學(xué)題一樣困難。當遇到需要空間想象的任務(wù)時,比如走迷宮或者判斷拼圖碎片是否匹配,這些AI模型往往力不從心。
最近確實有一些研究嘗試讓AI既能生成文字又能生成圖片,但這種做法就像讓一個人同時成為文學(xué)家和畫家一樣,往往顧此失彼。生成完整圖片需要大量的計算資源和訓(xùn)練數(shù)據(jù),而這種訓(xùn)練往往會削弱模型的推理能力。更重要的是,這些模型無法生成與輸入圖片相關(guān)的中間推理步驟。
麻省大學(xué)的研究團隊受到人類心理想象機制的啟發(fā),提出了一個名為"Mirage"的創(chuàng)新框架。這個框架的核心思想是讓AI模型像人類一樣,在推理過程中生成簡化的"心理圖像",而不是完整的像素級圖片。這些"心理圖像"以潛在的數(shù)學(xué)向量形式存在,就像人腦中模糊但有用的想象畫面一樣。
**一、從文字推理到多模態(tài)想象的飛躍**
傳統(tǒng)的視覺語言模型就像一個只會用語言描述的導(dǎo)游。當你問它如何走出迷宮時,它只能說"先向右走,然后向上走",但無法在腦海中構(gòu)建路徑的視覺表示。這種純文字的推理方式在處理空間關(guān)系、視覺匹配等任務(wù)時顯得力不從心。
Mirage框架的突破在于讓AI模型學(xué)會在推理過程中插入"latent visual tokens"——我們可以把它們理解為壓縮的視覺記憶片段。當模型需要"視覺思考"時,它會將當前的內(nèi)部狀態(tài)轉(zhuǎn)換為這些特殊的視覺標記,然后繼續(xù)基于這些標記進行推理。這個過程完全在模型內(nèi)部進行,不需要生成實際的圖片。
這種方法的巧妙之處在于模仿了人類的思考過程。當你解決拼圖問題時,你并不會在腦海中生成照片級別的完整圖像,而是構(gòu)建一些關(guān)鍵的視覺線索——比如邊緣的形狀、顏色的匹配等。Mirage正是讓AI學(xué)會了這種簡化但有效的視覺推理方式。
為了實現(xiàn)這個目標,研究團隊設(shè)計了一個兩階段的訓(xùn)練方法。在第一階段,他們讓模型學(xué)會生成與真實圖像特征相匹配的潛在視覺標記,就像教孩子認識物體的輪廓和特征。在第二階段,他們移除了對這些視覺標記的直接監(jiān)督,讓模型自由地調(diào)整這些標記來更好地服務(wù)于最終的推理目標。
**二、巧妙的數(shù)據(jù)合成:為AI制造"想象素材"**
要訓(xùn)練AI學(xué)會視覺想象,首先需要為它準備合適的訓(xùn)練材料。這就像教孩子畫畫,你需要先給他看一些范例。研究團隊為不同類型的推理任務(wù)設(shè)計了專門的"輔助圖像"生成方法。
對于迷宮導(dǎo)航任務(wù),他們會在地圖上用紅色箭頭標出正確的路徑,就像在旅游地圖上畫出推薦路線一樣。對于拼圖任務(wù),他們會將候選的拼圖片段與參考圖像組合在一起,讓模型能夠直觀地看到組合效果。對于需要空間推理的任務(wù),他們甚至使用了先進的視頻生成模型來創(chuàng)建相應(yīng)的場景圖像。
有了這些輔助圖像后,研究團隊會讓一個大型的視覺語言模型(Qwen2.5-VL 32B)來生成相應(yīng)的推理過程。他們會給這個模型展示原始問題、輔助圖像和正確答案,然后要求它生成一個逐步的推理鏈,說明如何利用輔助圖像來得出答案。
這個過程就像是創(chuàng)建一個詳細的思考示例集。比如對于一個迷宮問題,生成的推理過程可能是這樣的:"我首先向上移動以避開前方的障礙物,然后根據(jù)紅色箭頭的指引繼續(xù)向右移動,直到到達目標位置。"通過這種方式,研究團隊構(gòu)建了一個包含圖像和文字交替出現(xiàn)的訓(xùn)練數(shù)據(jù)集。
**三、兩階段訓(xùn)練:從模仿到創(chuàng)新的學(xué)習(xí)過程**
Mirage的訓(xùn)練過程分為兩個精心設(shè)計的階段,每個階段都有其獨特的目的和方法。
第一階段被稱為"聯(lián)合監(jiān)督階段",這個階段的目標是讓模型學(xué)會生成有意義的潛在視覺標記。研究團隊首先將輔助圖像通過視覺編碼器轉(zhuǎn)換為圖像特征,然后使用平均池化等技術(shù)將這些特征壓縮為幾個關(guān)鍵的向量。這些壓縮后的向量就代表了圖像中最重要的視覺信息。
在訓(xùn)練過程中,模型需要同時完成兩個任務(wù)。一方面,它要像普通的語言模型一樣預(yù)測下一個文字;另一方面,當輪到生成視覺標記時,它的內(nèi)部狀態(tài)必須與目標的壓縮圖像向量相匹配。這種雙重監(jiān)督確保了潛在視覺標記能夠真正承載有用的視覺信息。
第二階段被稱為"潛在松弛階段",這個階段的核心思想是給模型更多的自由度。研究團隊移除了對視覺標記的直接監(jiān)督,只保留對文字部分的監(jiān)督。模型現(xiàn)在需要自己生成潛在視覺標記,并利用這些自生成的標記來幫助后續(xù)的文字推理。
這種設(shè)計的巧妙之處在于平衡了約束和自由。第一階段確保了視覺標記有實際意義,而第二階段讓模型學(xué)會靈活運用這些標記。就像學(xué)習(xí)繪畫,先要臨摹大師作品掌握基本技法,然后才能發(fā)揮創(chuàng)意畫出自己的作品。
訓(xùn)練完成后,研究團隊還使用了強化學(xué)習(xí)來進一步優(yōu)化模型的表現(xiàn)。他們采用了組相對策略優(yōu)化(GRPO)方法,根據(jù)答案的正確性和格式規(guī)范性來給模型打分,引導(dǎo)它朝著更好的方向發(fā)展。
**四、實驗驗證:從空間推理到拼圖匹配的全面測試**
為了驗證Mirage框架的有效性,研究團隊在四個不同的空間推理基準測試上進行了全面評估。這些測試涵蓋了從簡單的路徑規(guī)劃到復(fù)雜的視覺匹配等各種任務(wù)。
在VSP(視覺空間規(guī)劃)任務(wù)中,模型需要在模擬的迷宮環(huán)境中進行導(dǎo)航。這個任務(wù)包含兩個子任務(wù):空間推理和空間規(guī)劃。在空間推理任務(wù)中,給定一系列動作,模型需要預(yù)測最終狀態(tài);在空間規(guī)劃任務(wù)中,模型需要設(shè)計一條從起點到終點的路徑。實驗結(jié)果顯示,Mirage在空間推理任務(wù)上達到了89%的準確率,比純文字方法提高了4個百分點;在空間規(guī)劃任務(wù)上達到了60%的準確率,比純文字方法提高了9個百分點。
BLINK-Jigsaw任務(wù)測試的是模型從不完整視覺輸入中推斷全局結(jié)構(gòu)的能力。在這個任務(wù)中,模型需要判斷哪個拼圖片段能夠完成缺失的部分。Mirage在這個任務(wù)上的表現(xiàn)同樣出色,達到了98%的準確率,顯著超過了其他基線方法。
SAT(空間能力訓(xùn)練)任務(wù)評估的是靜態(tài)和動態(tài)空間關(guān)系的理解能力。在合成數(shù)據(jù)上,Mirage達到了98%的準確率,在真實數(shù)據(jù)上也達到了72%的準確率,都明顯優(yōu)于傳統(tǒng)方法。
研究團隊還在COMT數(shù)學(xué)幾何子集上進行了測試,這個任務(wù)涉及更正式的空間推理。Mirage在這個任務(wù)上達到了77%的準確率,同樣展現(xiàn)出了良好的性能。
有趣的是,當研究團隊與其他嘗試生成完整圖像的統(tǒng)一模型(如Anole和MVoT)進行比較時,發(fā)現(xiàn)這些復(fù)雜的模型反而表現(xiàn)不如Mirage。這證明了"少即是多"的哲學(xué)——專注于生成關(guān)鍵的視覺線索比試圖生成完整圖像更有效。
**五、深入分析:揭開"機器想象"的神秘面紗**
為了更好地理解Mirage框架的工作機制,研究團隊進行了一系列深入的分析實驗。
首先,他們驗證了兩階段訓(xùn)練的必要性。實驗顯示,如果只進行第一階段訓(xùn)練,模型雖然能生成有意義的視覺標記,但這些標記過于受限,無法靈活適應(yīng)不同的推理需求。如果只進行第二階段訓(xùn)練,模型缺乏視覺基礎(chǔ),生成的標記與視覺內(nèi)容關(guān)聯(lián)性很弱。只有兩個階段結(jié)合,才能實現(xiàn)既有視覺基礎(chǔ)又有推理靈活性的效果。
其次,他們研究了不同超參數(shù)對性能的影響。實驗發(fā)現(xiàn),潛在視覺標記的數(shù)量在2到6個之間時效果最好,超過8個會導(dǎo)致性能下降,這可能是因為過長的潛在序列在自回歸生成過程中容易累積錯誤。損失函數(shù)的權(quán)重系數(shù)在0.1到1之間都能獲得不錯的效果,顯示了框架的穩(wěn)健性。
研究團隊還對模型在不同規(guī)模上的表現(xiàn)進行了測試。他們發(fā)現(xiàn),即使在較小的Qwen2.5-VL 3B模型上,Mirage仍然能夠帶來顯著的性能提升,在某些任務(wù)上的改進甚至比7B模型更明顯。這說明了這種方法的通用性和可擴展性。
為了驗證合成數(shù)據(jù)的質(zhì)量,研究團隊將生成的輔助圖像直接提供給模型作為輸入。結(jié)果發(fā)現(xiàn),在這種情況下,模型幾乎能夠達到100%的準確率,這證明了合成數(shù)據(jù)的高質(zhì)量,也為Mirage的性能提升提供了理論上限。
最引人注目的是對潛在標記本身的分析。研究團隊使用t-SNE可視化技術(shù)將潛在視覺標記、文字標記和圖像標記映射到二維空間中。結(jié)果顯示,文字標記分布在整個空間中,圖像標記聚集在一個緊密的視覺子空間內(nèi),而Mirage生成的潛在視覺標記則位于視覺子空間的邊緣附近。這種分布模式表明,潛在視覺標記既保持了與視覺內(nèi)容的聯(lián)系,又通過第二階段的訓(xùn)練獲得了適應(yīng)任務(wù)需求的靈活性。
**六、技術(shù)創(chuàng)新:從理論到實踐的完美結(jié)合**
Mirage框架的技術(shù)創(chuàng)新體現(xiàn)在多個層面上。從理論角度來看,它首次在視覺語言模型中引入了類似人類心理想象的機制,這為AI推理能力的發(fā)展開辟了新的方向。從實踐角度來看,它提供了一種既高效又有效的解決方案。
在架構(gòu)設(shè)計上,Mirage的巧妙之處在于它不需要任何外部的圖像解碼器。當模型決定進行"視覺思考"時,它簡單地重用當前的隱藏狀態(tài)作為視覺標記,跳過語言投影層直接將這些狀態(tài)添加到上下文中。這種設(shè)計既簡單又高效,避免了復(fù)雜的多模態(tài)架構(gòu)帶來的計算開銷。
在訓(xùn)練策略上,兩階段的訓(xùn)練方法體現(xiàn)了教育學(xué)中"先模仿后創(chuàng)新"的原理。第一階段讓模型學(xué)會了視覺表示的基礎(chǔ)知識,第二階段則給予了它創(chuàng)新的空間。這種漸進式的學(xué)習(xí)方法比一步到位的訓(xùn)練更穩(wěn)定、更有效。
在數(shù)據(jù)合成方面,針對不同任務(wù)設(shè)計專門的輔助圖像生成方法體現(xiàn)了"因材施教"的思想。每種任務(wù)都有其獨特的視覺需求,統(tǒng)一的方法往往無法滿足所有需求。通過任務(wù)特定的數(shù)據(jù)合成,Mirage能夠為每種推理類型提供最合適的視覺支持。
從效率角度來看,Mirage的兩個訓(xùn)練階段在單個NVIDIA H100 GPU上分別需要3.5小時和7.2小時,總計不到11小時。相比之下,傳統(tǒng)的純文字鏈式思維訓(xùn)練需要5.5小時。雖然Mirage的訓(xùn)練時間略長,但考慮到性能的顯著提升,這種額外的計算成本是完全值得的。
**七、應(yīng)用前景:從實驗室到現(xiàn)實世界的轉(zhuǎn)化**
Mirage框架的成功不僅僅是學(xué)術(shù)上的突破,更重要的是它為實際應(yīng)用開辟了廣闊的前景。在自動駕駛領(lǐng)域,這種視覺推理能力可以幫助車輛更好地理解復(fù)雜的交通場景,在腦海中構(gòu)建路徑規(guī)劃而不需要生成完整的環(huán)境地圖。在機器人導(dǎo)航方面,Mirage可以讓機器人像人類一樣在心中構(gòu)建簡化的空間表示來指導(dǎo)行動。
在教育技術(shù)領(lǐng)域,這種技術(shù)可以用于開發(fā)更智能的學(xué)習(xí)輔助系統(tǒng)。比如在幾何教學(xué)中,AI可以像人類老師一樣在"腦海"中構(gòu)建圖形來解釋復(fù)雜的空間關(guān)系。在游戲AI領(lǐng)域,Mirage可以讓非玩家角色具備更自然的空間推理能力,提供更真實的游戲體驗。
在醫(yī)療影像分析方面,這種技術(shù)可以幫助AI系統(tǒng)更好地理解復(fù)雜的醫(yī)學(xué)圖像。醫(yī)生在診斷時往往需要在腦海中構(gòu)建病變的三維結(jié)構(gòu),Mirage式的推理方法可以讓AI系統(tǒng)具備類似的能力。
在建筑設(shè)計和城市規(guī)劃領(lǐng)域,這種視覺推理能力可以幫助AI系統(tǒng)理解空間布局和功能關(guān)系,協(xié)助設(shè)計師進行更合理的規(guī)劃。在制造業(yè)中,這種技術(shù)可以用于質(zhì)量檢測和裝配規(guī)劃,讓機器能夠像熟練工人一樣理解復(fù)雜的空間關(guān)系。
**八、局限性與未來發(fā)展方向**
盡管Mirage框架取得了顯著的成功,但研究團隊也誠實地指出了當前方法的一些局限性。
首先是合成數(shù)據(jù)質(zhì)量的問題。Mirage的性能很大程度上依賴于高質(zhì)量的多模態(tài)訓(xùn)練軌跡,而這些軌跡的生成需要精心設(shè)計的工具和方法。當前的數(shù)據(jù)合成方法雖然有效,但仍有改進空間。研究團隊提到,開發(fā)更好的數(shù)據(jù)合成方法是一個重要的未來研究方向。
其次是與統(tǒng)一模型的整合問題。雖然Mirage在當前的實驗中表現(xiàn)優(yōu)于統(tǒng)一的文字-圖像生成模型,但這些統(tǒng)一模型在訓(xùn)練過程中已經(jīng)通過圖像和文字標記的聯(lián)合生成對齊了潛在空間。如何將Mirage的設(shè)計理念與這些預(yù)訓(xùn)練的對齊特征空間結(jié)合,仍然是一個開放的研究問題。
第三是任務(wù)范圍的限制。目前的評估主要集中在空間推理任務(wù)上,雖然這些任務(wù)具有代表性,但Mirage在其他類型的多模態(tài)推理任務(wù)上的表現(xiàn)還需要進一步驗證。將這種方法擴展到更廣泛的任務(wù)類型,包括純文本任務(wù),是一個值得探索的方向。
研究團隊也指出了一些技術(shù)層面的改進空間。比如,當前的壓縮方法使用的是簡單的平均池化,更sophisticated的壓縮技術(shù)可能會帶來更好的效果。在訓(xùn)練策略方面,如何更好地平衡兩個階段的學(xué)習(xí)目標,以及是否可以設(shè)計端到端的訓(xùn)練方法,都是值得研究的問題。
**九、科學(xué)意義:重新定義AI的思考方式**
Mirage框架的意義遠超出了技術(shù)本身,它為我們重新思考AI的認知機制提供了新的視角。傳統(tǒng)的AI系統(tǒng)往往采用"輸入-處理-輸出"的線性模式,而Mirage引入了類似人類思維的"內(nèi)部想象"機制,這種機制讓AI能夠在推理過程中構(gòu)建和操作內(nèi)部表示。
從認知科學(xué)的角度來看,這項研究為"具身認知"理論提供了計算層面的支持。具身認知理論認為,智能不僅僅來自于抽象的符號操作,還需要與感知和行動的緊密結(jié)合。Mirage通過讓AI系統(tǒng)在推理中使用壓縮的視覺表示,體現(xiàn)了這種認知理論的核心思想。
從機器學(xué)習(xí)的角度來看,Mirage提供了一種新的多模態(tài)學(xué)習(xí)范式。它表明,不是所有的多模態(tài)推理都需要生成完整的感知輸出,有時候壓縮的、任務(wù)特定的表示可能更加有效。這種觀點可能會影響未來多模態(tài)AI系統(tǒng)的設(shè)計方向。
研究還為理解大規(guī)模語言模型的內(nèi)部機制提供了新的工具。通過分析潛在視覺標記在嵌入空間中的分布,研究團隊展示了一種理解和可視化模型內(nèi)部表示的方法,這種方法可以推廣到其他類型的AI系統(tǒng)中。
**十、對比分析:Mirage與現(xiàn)有方法的深度比較**
為了更好地理解Mirage的優(yōu)勢,有必要將其與現(xiàn)有的幾類方法進行詳細比較。
與純文字推理方法相比,Mirage的主要優(yōu)勢在于引入了視覺維度的思考。傳統(tǒng)的鏈式思維方法雖然能夠產(chǎn)生逐步的推理過程,但在處理空間關(guān)系時往往力不從心。就像用語言描述一個復(fù)雜的幾何圖形一樣,純文字的描述很難傳達空間的直觀性。Mirage通過潛在視覺標記補充了這種直觀性,讓AI能夠"看見"推理過程中的關(guān)鍵視覺線索。
與統(tǒng)一的圖像-文字生成模型相比,Mirage采用了一種更加專注和高效的方法。統(tǒng)一模型試圖掌握從像素級圖像生成到復(fù)雜推理的所有能力,這種"全才"的設(shè)計往往導(dǎo)致在特定任務(wù)上的性能妥協(xié)。Mirage專注于推理任務(wù)的核心需求,避免了生成完整圖像的復(fù)雜性和計算開銷。實驗結(jié)果也證實了這種專注策略的有效性。
與使用外部工具的多模態(tài)推理方法相比,Mirage提供了一種更加內(nèi)化和流暢的解決方案。外部工具方法雖然能夠利用專門的視覺分析工具,但這種方法往往需要復(fù)雜的工具調(diào)用機制,而且工具的選擇和使用本身就是一個需要學(xué)習(xí)的復(fù)雜問題。Mirage將視覺推理能力內(nèi)化到模型中,避免了這些額外的復(fù)雜性。
與人類認知機制相比,Mirage展現(xiàn)了有趣的相似性和差異性。相似之處在于,人類在進行空間推理時確實會構(gòu)建簡化的心理圖像,而不是完整的視覺場景。差異之處在于,人類的心理想象是一個動態(tài)的、交互的過程,而Mirage目前生成的是靜態(tài)的潛在表示。未來的研究可以探索更加動態(tài)的潛在視覺推理機制。
**十一、實驗細節(jié):嚴謹?shù)目茖W(xué)驗證過程**
Mirage框架的驗證過程體現(xiàn)了嚴謹?shù)目茖W(xué)研究態(tài)度。研究團隊不僅在多個基準測試上進行了評估,還進行了全面的消融實驗和分析。
在數(shù)據(jù)集構(gòu)建方面,研究團隊為每個任務(wù)精心設(shè)計了合成方法。對于VSP任務(wù),他們確保每個地圖都包含有效路徑,陷阱塊不超過20%,并且按照不同的網(wǎng)格大小進行分層采樣。對于拼圖任務(wù),他們隨機選擇候選片段與參考圖像組合。對于SAT任務(wù),他們使用了最新的視頻生成模型來創(chuàng)建相應(yīng)的場景。
在訓(xùn)練配置方面,研究團隊采用了精心調(diào)優(yōu)的超參數(shù)。他們使用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為1e-5,批次大小為8,梯度累積步數(shù)為2。這些參數(shù)的選擇基于大量的預(yù)實驗和調(diào)優(yōu)過程。訓(xùn)練過程中,除了視覺編碼器外,模型的所有組件都是可訓(xùn)練的。
在評估方法方面,研究團隊不僅關(guān)注最終的準確率,還分析了模型在不同難度級別上的表現(xiàn)。比如在VSP任務(wù)中,他們分別報告了不同級別(Level 3-6)的性能,展示了模型隨任務(wù)復(fù)雜度變化的表現(xiàn)趨勢。
在統(tǒng)計分析方面,研究團隊進行了多次獨立運行以確保結(jié)果的可靠性。他們固定了隨機種子以確保實驗的可重復(fù)性,這種做法體現(xiàn)了開放科學(xué)的精神。
在對比實驗設(shè)計方面,研究團隊不僅與自己的基線方法進行比較,還與其他最新的方法進行了對比。他們特別關(guān)注了公平性,確保所有方法都在相同的數(shù)據(jù)集和評估標準下進行比較。
說到底,Mirage框架為AI領(lǐng)域帶來了一個重要的啟示:有時候,模仿人類的認知機制比追求技術(shù)的復(fù)雜性更有效。通過讓AI學(xué)會"想象"而不是"看見",研究團隊找到了一條通向更智能推理的新路徑。
這項研究不僅在技術(shù)上取得了顯著突破,更重要的是它改變了我們對AI推理能力的理解。它告訴我們,智能不僅僅來自于處理復(fù)雜信息的能力,更來自于抓住關(guān)鍵信息并靈活運用的智慧。正如人類在思考時不需要在腦海中重現(xiàn)完整的現(xiàn)實世界一樣,AI也可以通過簡化但有效的內(nèi)部表示來實現(xiàn)強大的推理能力。
對于普通人來說,這項研究的意義在于它讓我們看到了AI發(fā)展的新可能性。未來的AI助手可能不再是冰冷的計算機器,而是能夠像人類一樣進行空間想象和視覺推理的智能伙伴。當你向它詢問路線規(guī)劃或空間布局問題時,它能夠在"腦海"中構(gòu)建相應(yīng)的場景來給出更準確的答案。
研究團隊在論文的最后謙遜地指出,雖然Mirage取得了令人鼓舞的結(jié)果,但這只是探索"機器心理想象"這個新領(lǐng)域的第一步。未來還有許多問題需要解決,比如如何處理更復(fù)雜的推理任務(wù),如何與大規(guī)模的統(tǒng)一模型更好地結(jié)合,以及如何將這種方法擴展到更廣泛的應(yīng)用領(lǐng)域。但正是這種開放和謙遜的態(tài)度,讓我們對這個研究方向的未來發(fā)展充滿期待。
最終,Mirage框架提醒我們,在追求AI技術(shù)進步的道路上,有時候回頭看看人類是如何思考和推理的,可能會給我們帶來意想不到的啟發(fā)。畢竟,最好的技術(shù)往往不是最復(fù)雜的,而是最貼近自然智能本質(zhì)的。
Q&A
Q1:Mirage是什么?它和普通的AI有什么不同? A:Mirage是麻省大學(xué)開發(fā)的一種新型AI推理框架,最大的不同在于它能像人類一樣進行"視覺想象"。普通AI只能用文字描述來推理,而Mirage能在"腦海"中生成簡化的視覺線索來輔助思考,就像人類解拼圖時會在心中想象片段拼接的樣子。
Q2:Mirage會不會比生成完整圖像的AI模型更好? A:實驗證明確實如此。那些能生成完整圖像的AI模型雖然看起來更強大,但往往在推理任務(wù)上表現(xiàn)不如Mirage。這是因為生成完整圖像需要大量計算資源,反而削弱了推理能力。Mirage專注于生成關(guān)鍵的視覺線索,更高效也更有效。
Q3:普通人什么時候能用到這種技術(shù)? A:目前Mirage還在研究階段,但它的應(yīng)用前景很廣闊。未來可能出現(xiàn)在導(dǎo)航軟件、教育軟件、游戲AI等領(lǐng)域。比如你問導(dǎo)航軟件路線時,它能像人類一樣在"腦海"中構(gòu)建路徑圖給出更好的建議,或者在學(xué)習(xí)幾何時AI老師能更直觀地解釋空間關(guān)系。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。