這項(xiàng)由浙江大學(xué)王子軒、李定銘等研究團(tuán)隊(duì)領(lǐng)導(dǎo)的突破性研究發(fā)表于2025年8月,論文全名為《OMNIEAR: BENCHMARKING AGENT REASONING IN EMBODIED TASKS》。有興趣深入了解的讀者可以通過(guò)arXiv:2508.05614v1訪問(wèn)完整論文,或訪問(wèn)項(xiàng)目主頁(yè)https://zju-real.github.io/OmniEmbodied獲取更多資料。
在科幻電影中,機(jī)器人總能輕松完成各種復(fù)雜任務(wù)——搬運(yùn)重物、修理設(shè)備、與人協(xié)作。然而現(xiàn)實(shí)卻截然不同:即便是最先進(jìn)的AI模型,在面對(duì)真實(shí)世界的物理任務(wù)時(shí)往往表現(xiàn)糟糕。為什么會(huì)這樣?浙江大學(xué)的研究團(tuán)隊(duì)決定深入探究這個(gè)問(wèn)題的根源。
他們發(fā)現(xiàn)了一個(gè)令人意外的現(xiàn)象:當(dāng)前最強(qiáng)大的語(yǔ)言模型雖然在抽象推理方面表現(xiàn)優(yōu)異,但一旦需要理解物理世界的約束條件,比如判斷一個(gè)物體是否太重而需要兩個(gè)人合作搬運(yùn),或者識(shí)別什么情況下需要使用特定工具,它們的表現(xiàn)就會(huì)急劇下降。更有趣的是,給模型提供更完整的環(huán)境信息反而會(huì)讓它們的協(xié)作能力變差,這就像給一個(gè)已經(jīng)迷路的人更多的地圖反而讓他更加困惑。
為了系統(tǒng)性地揭示這些問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了名為OmniEAR的綜合評(píng)估框架。這個(gè)框架就像是給AI模型設(shè)計(jì)的"駕照考試",但測(cè)試的不是開(kāi)車(chē)技能,而是在現(xiàn)實(shí)世界中進(jìn)行物理推理的能力。他們創(chuàng)建了1500個(gè)不同的測(cè)試場(chǎng)景,涵蓋從家庭到工業(yè)環(huán)境的各種情況,包含超過(guò)64000個(gè)虛擬物體和6000多種不同的物理屬性。
研究結(jié)果令人震驚:即使是最先進(jìn)的GPT-4o模型,在面對(duì)明確指令時(shí)能達(dá)到85-96%的成功率,但當(dāng)需要從物理約束中推斷出應(yīng)該采取的行動(dòng)時(shí),成功率驟降至56-85%。在需要多個(gè)智能體協(xié)作的復(fù)雜任務(wù)中,失敗率甚至超過(guò)50%。這相當(dāng)于一個(gè)在紙面考試中表現(xiàn)優(yōu)秀的學(xué)生,一旦面臨需要?jiǎng)邮植僮鞯膶?shí)驗(yàn)就完全不知所措。
一、揭開(kāi)"體感推理"的神秘面紗
想象你要幫朋友搬家,看到一個(gè)巨大的書(shū)柜時(shí),你會(huì)本能地知道這需要兩個(gè)人才能抬得動(dòng)。這種判斷能力對(duì)人類(lèi)來(lái)說(shuō)是天生的,但對(duì)AI來(lái)說(shuō)卻異常困難。研究團(tuán)隊(duì)將這種能力稱(chēng)為"體感推理"(Embodied Reasoning),它涉及三個(gè)核心方面。
第一個(gè)方面是屬性推理。就像你能通過(guò)觀察判斷哪個(gè)杯子更重、哪塊材料更硬一樣,AI需要能夠理解和比較物體的連續(xù)物理屬性。然而現(xiàn)有的大多數(shù)評(píng)估體系只關(guān)注離散的狀態(tài)變化,比如門(mén)是開(kāi)著還是關(guān)著,物體是被拿起還是放下,完全忽略了重量、溫度、材質(zhì)等連續(xù)變化的屬性。
第二個(gè)方面是工具使用推理。在現(xiàn)實(shí)生活中,當(dāng)你發(fā)現(xiàn)手頭的工具不夠用時(shí),你會(huì)主動(dòng)尋找合適的工具來(lái)擴(kuò)展自己的能力。比如需要清潔桌面時(shí),你會(huì)去找抹布;需要修理電器時(shí),你會(huì)準(zhǔn)備螺絲刀。但現(xiàn)有的AI評(píng)估框架通常提供固定的工具集合,無(wú)法測(cè)試AI是否能夠識(shí)別能力缺陷并主動(dòng)獲取所需工具。
第三個(gè)方面是協(xié)作推理。當(dāng)面對(duì)超出個(gè)人能力范圍的任務(wù)時(shí),人類(lèi)會(huì)自然而然地尋求合作。比如搬運(yùn)重物、組裝大型家具或者進(jìn)行需要多人配合的操作。關(guān)鍵在于,這種協(xié)作需求應(yīng)該從任務(wù)的物理約束中自然產(chǎn)生,而不是通過(guò)明確的指令告訴AI"你們需要合作"。
浙大團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的評(píng)估方法存在根本性缺陷。它們就像在測(cè)試一個(gè)人的駕駛技能時(shí)只讓他在空曠的停車(chē)場(chǎng)里開(kāi)車(chē),而不是在真實(shí)的交通環(huán)境中應(yīng)對(duì)各種突發(fā)狀況。這種測(cè)試方法無(wú)法反映AI在真實(shí)世界中的表現(xiàn)能力。
研究團(tuán)隊(duì)意識(shí)到,要真正評(píng)估AI的體感推理能力,需要?jiǎng)?chuàng)建一個(gè)全新的評(píng)估框架,這個(gè)框架必須能夠模擬真實(shí)世界的復(fù)雜性和不確定性,同時(shí)又要足夠高效以便進(jìn)行大規(guī)模測(cè)試。
二、構(gòu)建虛擬的"現(xiàn)實(shí)世界實(shí)驗(yàn)室"
為了解決現(xiàn)有評(píng)估方法的局限性,研究團(tuán)隊(duì)開(kāi)發(fā)了一套創(chuàng)新的文本基礎(chǔ)環(huán)境建模系統(tǒng)。這就像是用文字構(gòu)建了一個(gè)詳細(xì)的虛擬世界,但這個(gè)世界擁有真實(shí)的物理屬性和復(fù)雜的空間關(guān)系。
他們將環(huán)境表示為一個(gè)有向圖,其中每個(gè)節(jié)點(diǎn)代表空間位置、物體或智能體,每條邊表示它們之間的關(guān)系。這種方法的巧妙之處在于,它避免了傳統(tǒng)3D仿真的巨大計(jì)算開(kāi)銷(xiāo),同時(shí)保留了進(jìn)行物理推理所必需的核心信息。就像用建筑圖紙代替實(shí)體模型來(lái)規(guī)劃房屋布局一樣,這種文本表示既高效又準(zhǔn)確。
更重要的是,這個(gè)系統(tǒng)實(shí)現(xiàn)了動(dòng)態(tài)能力管理。在傳統(tǒng)評(píng)估中,AI的行動(dòng)能力在開(kāi)始時(shí)就已經(jīng)固定,就像給一個(gè)工人一個(gè)固定的工具箱,無(wú)論遇到什么任務(wù)都只能使用這些工具。而在OmniEAR框架中,AI可以通過(guò)獲取新工具來(lái)動(dòng)態(tài)擴(kuò)展自己的能力。當(dāng)AI拿起一個(gè)扳手時(shí),它就獲得了修理能力;當(dāng)它放下扳手時(shí),這種能力就會(huì)消失。這種機(jī)制更真實(shí)地反映了現(xiàn)實(shí)世界中人與工具的交互方式。
協(xié)作機(jī)制的設(shè)計(jì)也非常巧妙。系統(tǒng)不會(huì)明確告訴AI什么時(shí)候需要合作,而是通過(guò)物理約束來(lái)自然引發(fā)協(xié)作需求。比如,當(dāng)一個(gè)物體的重量超過(guò)單個(gè)智能體的承載能力時(shí),系統(tǒng)允許智能體主動(dòng)發(fā)起協(xié)作請(qǐng)求。這就像現(xiàn)實(shí)生活中,當(dāng)你發(fā)現(xiàn)桌子太重搬不動(dòng)時(shí),會(huì)自然而然地請(qǐng)朋友來(lái)幫忙一樣。
為了確保評(píng)估的全面性和可靠性,研究團(tuán)隊(duì)還開(kāi)發(fā)了自動(dòng)化的基準(zhǔn)生成流水線。這個(gè)系統(tǒng)結(jié)合了大語(yǔ)言模型的創(chuàng)造性和基于規(guī)則的一致性檢驗(yàn)。首先,語(yǔ)言模型根據(jù)從互聯(lián)網(wǎng)收集的語(yǔ)義種子生成多樣化的場(chǎng)景描述;然后,自動(dòng)驗(yàn)證器檢查這些場(chǎng)景的結(jié)構(gòu)一致性、物理可行性和邏輯連貫性;最后,人工評(píng)估員嘗試解決每個(gè)任務(wù),識(shí)別自動(dòng)檢查可能遺漏的微妙問(wèn)題。
這種人機(jī)結(jié)合的質(zhì)量保證流程確保了所有任務(wù)既具有挑戰(zhàn)性又是可解決的。就像制作高質(zhì)量的考試試題一樣,既要有足夠的難度來(lái)區(qū)分不同水平的考生,又要確保優(yōu)秀的考生確實(shí)能夠找到正確答案。
三、七個(gè)層次的"智能體駕考"體系
研究團(tuán)隊(duì)精心設(shè)計(jì)了一個(gè)七級(jí)難度的任務(wù)分類(lèi)體系,就像駕駛考試從基礎(chǔ)的交通規(guī)則測(cè)試逐步提升到復(fù)雜路況的實(shí)際駕駛一樣。這個(gè)體系沿著兩個(gè)維度展開(kāi):智能體配置(單個(gè)vs多個(gè))和認(rèn)知復(fù)雜度(基礎(chǔ)、中級(jí)、高級(jí))。
在單智能體任務(wù)中,基礎(chǔ)級(jí)別是"直接指令"任務(wù),相當(dāng)于最簡(jiǎn)單的"請(qǐng)把杯子放到桌子上"。這類(lèi)任務(wù)主要測(cè)試AI的基本理解和執(zhí)行能力,就像測(cè)試一個(gè)人是否能按照明確的指示完成簡(jiǎn)單動(dòng)作。
中級(jí)任務(wù)分為兩個(gè)并行挑戰(zhàn)。"屬性推理"任務(wù)要求AI通過(guò)比較連續(xù)的物理屬性來(lái)識(shí)別目標(biāo)對(duì)象,比如"移動(dòng)最重的杯子"。這需要AI不僅理解"重量"這個(gè)概念,還要能夠比較不同物體的重量并做出判斷。另一類(lèi)是"工具使用"任務(wù),要求AI識(shí)別能力缺陷并獲取合適的工具。比如面對(duì)"清潔桌子"的任務(wù)時(shí),AI需要意識(shí)到自己缺乏清潔能力,然后主動(dòng)尋找并獲取清潔用具。
高級(jí)的"復(fù)合推理"任務(wù)整合了多個(gè)挑戰(zhàn),比如"清潔最重的桌子",這同時(shí)需要屬性比較、工具獲取和多步驟規(guī)劃能力。這就像要求一個(gè)人不僅要找到最重的桌子,還要準(zhǔn)備合適的清潔工具,并制定完整的清潔方案。
多智能體任務(wù)遵循類(lèi)似的復(fù)雜度遞增模式。基礎(chǔ)的"顯式協(xié)作"任務(wù)提供明確的協(xié)作指令,比如"智能體A和智能體B合作打開(kāi)重柜子"。這主要測(cè)試基本的同步和協(xié)調(diào)能力。
中級(jí)的"隱式協(xié)作"任務(wù)移除了明確的協(xié)作指令,要求智能體自主識(shí)別何時(shí)需要合作。比如"將餐桌移動(dòng)到儲(chǔ)藏室"的任務(wù)中,智能體需要推斷餐桌的重量超出了單個(gè)智能體的能力范圍,從而主動(dòng)啟動(dòng)協(xié)作。
最具挑戰(zhàn)性的"復(fù)合協(xié)作"任務(wù)結(jié)合了所有元素,比如"協(xié)作修理故障電視"。這需要智能體進(jìn)行工具獲取、能力評(píng)估和協(xié)調(diào)執(zhí)行的全套復(fù)雜操作。
這種層次化的設(shè)計(jì)使得研究團(tuán)隊(duì)能夠精確定位不同模型在哪個(gè)認(rèn)知層面開(kāi)始出現(xiàn)性能下降,就像醫(yī)生通過(guò)系列檢查來(lái)確定病癥的具體位置一樣。
四、令人震驚的測(cè)試結(jié)果
當(dāng)研究團(tuán)隊(duì)將九個(gè)代表性的AI模型放入這個(gè)"智能體駕考"系統(tǒng)時(shí),結(jié)果讓所有人都感到意外。這些測(cè)試結(jié)果就像是給當(dāng)前AI技術(shù)照了一面"照妖鏡",暴露出了許多隱藏的問(wèn)題。
在最基礎(chǔ)的直接指令任務(wù)中,表現(xiàn)最好的模型能夠達(dá)到85-96%的成功率,這看起來(lái)相當(dāng)不錯(cuò)。但當(dāng)任務(wù)復(fù)雜度稍有提升時(shí),性能就開(kāi)始急劇下降。在工具使用任務(wù)中,成功率跌落到73-86%;在屬性推理任務(wù)中,更是下降到42-78%。這種下降幅度就像一個(gè)在平地上健步如飛的人,一旦遇到稍微傾斜的坡道就開(kāi)始步履蹣跚。
最讓人意外的發(fā)現(xiàn)是關(guān)于模型規(guī)模的影響。研究團(tuán)隊(duì)測(cè)試了從30億參數(shù)到6710億參數(shù)的各種規(guī)模模型,發(fā)現(xiàn)了一些出人意料的規(guī)律。直接指令和工具使用任務(wù)的性能隨著模型規(guī)模急劇提升,從30億參數(shù)模型的接近零成功率躍升到720億參數(shù)模型的90%以上。但屬性推理和復(fù)合推理任務(wù)的性能提升卻在720億參數(shù)后就趨于平緩,這表明單純?cè)黾訁?shù)數(shù)量并不能解決所有問(wèn)題。
更有趣的是,專(zhuān)門(mén)針對(duì)推理優(yōu)化的模型表現(xiàn)出了截然不同的特征。這些模型在需要邏輯規(guī)劃的任務(wù)上表現(xiàn)優(yōu)異,但在需要將抽象概念映射到具體物理屬性的任務(wù)上卻表現(xiàn)不佳。比如,Deepseek-R1模型在復(fù)合協(xié)作任務(wù)上達(dá)到了48.5%的最高成功率,但在屬性推理上只有41.9%,甚至低于GPT-4o的77.8%。這就像一個(gè)邏輯思維極強(qiáng)的數(shù)學(xué)家,在處理需要直覺(jué)和經(jīng)驗(yàn)的實(shí)際問(wèn)題時(shí)反而不如普通人。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)令人困惑的現(xiàn)象:給模型提供更完整的環(huán)境信息反而會(huì)降低協(xié)作性能。這個(gè)被稱(chēng)為"信息過(guò)載效應(yīng)"的現(xiàn)象表明,當(dāng)前的注意力機(jī)制無(wú)法有效過(guò)濾與任務(wù)相關(guān)的約束信息。就像給一個(gè)已經(jīng)信息超載的決策者更多資料,反而會(huì)讓他更難做出正確決策。
在多智能體任務(wù)中,性能下降更加顯著。即使是表現(xiàn)最好的模型,在隱式協(xié)作任務(wù)上的成功率也比顯式協(xié)作任務(wù)低了10-15個(gè)百分點(diǎn)。而在最復(fù)雜的復(fù)合協(xié)作任務(wù)中,所有模型的成功率都不超過(guò)50%,大多數(shù)模型甚至低于40%。
為了驗(yàn)證這些問(wèn)題是否可以通過(guò)訓(xùn)練來(lái)解決,研究團(tuán)隊(duì)對(duì)一個(gè)30億參數(shù)的模型進(jìn)行了監(jiān)督微調(diào)。結(jié)果顯示,雖然單智能體任務(wù)的性能從0.6%大幅提升到76.3%,但多智能體任務(wù)的改善微乎其微,從1.5%僅提升到5.5%。這表明協(xié)作推理需要的不僅僅是更好的訓(xùn)練數(shù)據(jù),而是根本性的架構(gòu)改進(jìn)。
五、深層問(wèn)題的根源分析
為了理解這些令人困惑的結(jié)果背后的原因,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的失效模式分析。他們發(fā)現(xiàn),不同類(lèi)型的任務(wù)失敗有著截然不同的根本原因。
在工具使用任務(wù)中,最主要的失敗原因是探索不足,占總失敗案例的31.2%。這些模型往往無(wú)法系統(tǒng)性地搜索環(huán)境來(lái)定位所需的工具,就像一個(gè)人在找鑰匙時(shí)只看了幾個(gè)顯眼的地方就放棄了一樣。有趣的是,參數(shù)少于70億的模型在這類(lèi)任務(wù)上的失敗率高達(dá)84.2%,而較大模型的失敗率只有31.2%,這表明存在一個(gè)關(guān)鍵的規(guī)模閾值。
復(fù)合推理任務(wù)的失敗主要源于規(guī)劃能力的退化,占28.7%的失敗案例。模型在執(zhí)行過(guò)程中會(huì)逐漸丟失對(duì)中間子目標(biāo)的跟蹤,就像一個(gè)人在做復(fù)雜菜譜時(shí)忘記了某些步驟一樣。這種失敗模式反映了當(dāng)前模型在維持長(zhǎng)期工作記憶方面的根本局限性。
最令人意外的是隱式協(xié)作任務(wù)的失敗模式。35.8%的失敗源于時(shí)機(jī)判斷錯(cuò)誤,模型要么過(guò)早啟動(dòng)協(xié)作,要么錯(cuò)過(guò)了協(xié)作的最佳時(shí)機(jī)。更重要的是,這種失敗模式與模型規(guī)模沒(méi)有相關(guān)性,這表明協(xié)作時(shí)機(jī)判斷需要的是當(dāng)前架構(gòu)中完全缺失的推理機(jī)制。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了執(zhí)行效率方面的顯著差異。通過(guò)比較模型解決方案與專(zhuān)家演示的相對(duì)步數(shù)比,他們發(fā)現(xiàn)單智能體任務(wù)顯示出一致的中等效率(中位相對(duì)步數(shù)比0.40-0.55),而多智能體任務(wù)則表現(xiàn)出更低的效率和更高的變異性。
最引人注目的是復(fù)合協(xié)作任務(wù)中出現(xiàn)的雙峰分布現(xiàn)象。模型要么采用簡(jiǎn)單的順序執(zhí)行策略,要么嘗試復(fù)雜的并行協(xié)作,但很少有成功的中等復(fù)雜度策略。這種兩極分化表明,當(dāng)前模型缺乏適應(yīng)性協(xié)作機(jī)制,無(wú)法根據(jù)任務(wù)約束選擇合適的策略。
計(jì)算效率分析揭示了三種截然不同的效率模式?;A(chǔ)模型以最少的計(jì)算資源(456-1400個(gè)令牌)達(dá)到中等性能;商業(yè)模型通過(guò)更高的計(jì)算投入(1817-2457個(gè)令牌)獲得更好的成功率;而推理專(zhuān)門(mén)化模型消耗多達(dá)12000個(gè)令牌,但在復(fù)雜任務(wù)上表現(xiàn)最佳。這種效率前沿在單智能體和多智能體場(chǎng)景之間發(fā)生了戲劇性轉(zhuǎn)移,表明建模多個(gè)智能體狀態(tài)和協(xié)作協(xié)議的計(jì)算復(fù)雜性是不可避免的。
六、微調(diào)實(shí)驗(yàn)的意外發(fā)現(xiàn)
為了驗(yàn)證這些限制是否可以通過(guò)改進(jìn)的訓(xùn)練方法來(lái)克服,研究團(tuán)隊(duì)進(jìn)行了一系列監(jiān)督微調(diào)實(shí)驗(yàn)。他們收集了1942個(gè)成功的專(zhuān)家演示軌跡,形成20346個(gè)指令-行動(dòng)對(duì),用于訓(xùn)練一個(gè)30億參數(shù)的模型。
實(shí)驗(yàn)結(jié)果既令人鼓舞又讓人擔(dān)憂。在單智能體任務(wù)上,監(jiān)督微調(diào)取得了戲劇性的改進(jìn)。直接指令任務(wù)的成功率從0.6%躍升至76.3%,工具使用任務(wù)從1.8%提升至45.0%,屬性推理從0.6%改善至33.5%。這表明較小的模型確實(shí)可以通過(guò)適當(dāng)?shù)挠?xùn)練學(xué)會(huì)體感推理的基礎(chǔ)技能。
然而,多智能體任務(wù)的改進(jìn)卻微乎其微。顯式協(xié)作任務(wù)僅從8.5%提升至22.5%,隱式協(xié)作從1.5%勉強(qiáng)改善至5.5%,而復(fù)合協(xié)作任務(wù)幾乎沒(méi)有變化,從0.5%僅上升至1.0%。這種巨大的差異表明,協(xié)作推理涉及的不僅僅是學(xué)習(xí)更好的行為模式,而是需要根本性的架構(gòu)能力。
進(jìn)一步分析顯示,學(xué)到的行為無(wú)法泛化到需要自主評(píng)估物理約束和協(xié)作需求的場(chǎng)景中。模型能夠很好地模仿專(zhuān)家的單智能體決策,但無(wú)法內(nèi)化產(chǎn)生這些決策的底層推理過(guò)程。這就像教一個(gè)人背誦鋼琴曲的指法,他可能彈得很好,但無(wú)法理解音樂(lè)理論來(lái)創(chuàng)作新曲子。
這個(gè)發(fā)現(xiàn)具有深遠(yuǎn)的意義。它表明當(dāng)前的訓(xùn)練范式,無(wú)論是預(yù)訓(xùn)練還是監(jiān)督微調(diào),都無(wú)法充分解決體感推理的根本挑戰(zhàn)。問(wèn)題不在于缺乏數(shù)據(jù)或計(jì)算資源,而在于當(dāng)前的架構(gòu)缺乏理解和推理物理約束所需的基本機(jī)制。
七、對(duì)未來(lái)AI發(fā)展的深刻啟示
這項(xiàng)研究的發(fā)現(xiàn)對(duì)人工智能的未來(lái)發(fā)展具有重要意義,它不僅揭示了當(dāng)前技術(shù)的局限性,也為未來(lái)的研究方向提供了清晰的指引。
研究結(jié)果表明,體感推理需要與抽象推理根本不同的計(jì)算機(jī)制。當(dāng)前的transformer架構(gòu)在符號(hào)操作方面表現(xiàn)優(yōu)異,但缺乏將抽象表示映射到連續(xù)物理屬性所需的專(zhuān)門(mén)化組件。這就像試圖用專(zhuān)門(mén)設(shè)計(jì)用來(lái)處理文字的大腦區(qū)域來(lái)理解音樂(lè)或視覺(jué)藝術(shù)一樣,工具本身就不適合這項(xiàng)任務(wù)。
約束選擇失效問(wèn)題揭示了當(dāng)前注意力機(jī)制的另一個(gè)根本局限。與抽象推理任務(wù)不同,在體感場(chǎng)景中,并非所有提供的信息都與任務(wù)相關(guān)。系統(tǒng)需要能夠動(dòng)態(tài)過(guò)濾空間和時(shí)間分布的約束集合,這是當(dāng)前注意力機(jī)制無(wú)法有效處理的。
研究團(tuán)隊(duì)觀察到的70億參數(shù)閾值現(xiàn)象表明,體感推理需要足夠的工作記憶容量來(lái)同時(shí)跟蹤環(huán)境狀態(tài)、能力約束和協(xié)作需求。這種計(jì)算瓶頸在純語(yǔ)言任務(wù)中并不存在,因?yàn)檎Z(yǔ)言任務(wù)通常不需要維持如此復(fù)雜的多維狀態(tài)表示。
更深層次的問(wèn)題在于,當(dāng)前的訓(xùn)練目標(biāo)和架構(gòu)都是為了優(yōu)化語(yǔ)言建模目標(biāo)而設(shè)計(jì)的。語(yǔ)言具有離散的、符號(hào)的性質(zhì),而物理世界是連續(xù)的、多模態(tài)的。這種根本性的不匹配可能需要全新的訓(xùn)練范式和架構(gòu)創(chuàng)新來(lái)解決。
研究團(tuán)隊(duì)建議,未來(lái)的體感AI系統(tǒng)可能需要結(jié)合符號(hào)推理和連續(xù)控制的混合架構(gòu)。這種系統(tǒng)應(yīng)該具備專(zhuān)門(mén)用于物理約束處理的組件、動(dòng)態(tài)注意力機(jī)制來(lái)過(guò)濾任務(wù)相關(guān)信息,以及支持多智能體狀態(tài)建模的架構(gòu)元素。
從更廣闊的視角來(lái)看,這項(xiàng)研究強(qiáng)調(diào)了在追求通用人工智能的過(guò)程中,我們不能僅僅依靠擴(kuò)大模型規(guī)模和數(shù)據(jù)量。真正的突破可能需要對(duì)智能本身的理解有根本性的進(jìn)步,特別是關(guān)于物理智能和社交智能如何與抽象推理能力相互作用的理解。
說(shuō)到底,這項(xiàng)研究為我們描繪了一個(gè)更加現(xiàn)實(shí)的AI發(fā)展圖景。雖然當(dāng)前的大語(yǔ)言模型在許多任務(wù)上表現(xiàn)出色,但它們距離真正理解和操作物理世界還有很長(zhǎng)的路要走。OmniEAR框架不僅為評(píng)估這些能力提供了標(biāo)準(zhǔn)化工具,更重要的是,它為未來(lái)的研究指明了具體的方向和挑戰(zhàn)。
對(duì)于普通人來(lái)說(shuō),這意味著我們可能需要重新調(diào)整對(duì)AI能力的期望。在可預(yù)見(jiàn)的未來(lái),AI更適合作為人類(lèi)的助手和工具,而不是完全自主的物理世界操作者。同時(shí),這也意味著在AI系統(tǒng)的設(shè)計(jì)和部署中,我們需要更加重視人機(jī)協(xié)作的模式,充分發(fā)揮人類(lèi)在物理推理和社交協(xié)作方面的天然優(yōu)勢(shì)。
最終,這項(xiàng)研究提醒我們,智能的本質(zhì)比我們想象的更加復(fù)雜和多面。體感智能不僅僅是抽象推理的簡(jiǎn)單擴(kuò)展,而是需要全新的理論框架和技術(shù)方法來(lái)解決的獨(dú)特挑戰(zhàn)。浙江大學(xué)團(tuán)隊(duì)的這項(xiàng)工作為這一重要研究領(lǐng)域奠定了堅(jiān)實(shí)的基礎(chǔ),相信它將激發(fā)更多創(chuàng)新性的研究,推動(dòng)AI技術(shù)向更加實(shí)用和可靠的方向發(fā)展。
Q&A
Q1:OmniEAR基準(zhǔn)測(cè)試是什么,它能測(cè)試AI的哪些能力?
A:OmniEAR是浙江大學(xué)開(kāi)發(fā)的AI體感推理評(píng)估框架,專(zhuān)門(mén)測(cè)試AI在現(xiàn)實(shí)物理世界中的推理能力。它包含1500個(gè)測(cè)試場(chǎng)景,主要評(píng)估三大能力:屬性推理(比較物體重量、材質(zhì)等物理屬性),工具使用推理(識(shí)別能力不足并主動(dòng)獲取合適工具),以及協(xié)作推理(判斷何時(shí)需要多個(gè)AI協(xié)作完成任務(wù))。這就像給AI設(shè)計(jì)的"現(xiàn)實(shí)世界駕照考試"。
Q2:為什么先進(jìn)的AI模型在OmniEAR測(cè)試中表現(xiàn)這么差?
A:研究發(fā)現(xiàn)了幾個(gè)關(guān)鍵問(wèn)題。首先是信息過(guò)載效應(yīng),給AI更多環(huán)境信息反而讓它更困惑,無(wú)法篩選出任務(wù)相關(guān)的重要信息。其次,當(dāng)前AI架構(gòu)缺乏理解連續(xù)物理屬性的機(jī)制,只能處理離散的符號(hào)信息。最重要的是,這些模型無(wú)法將抽象推理能力轉(zhuǎn)化為物理世界的約束理解,就像一個(gè)理論很強(qiáng)的學(xué)生無(wú)法解決實(shí)際動(dòng)手問(wèn)題一樣。
Q3:這項(xiàng)研究對(duì)未來(lái)AI發(fā)展有什么啟示?
A:研究表明單純?cè)黾幽P蛥?shù)和數(shù)據(jù)量無(wú)法解決體感推理問(wèn)題,需要全新的架構(gòu)創(chuàng)新。未來(lái)AI系統(tǒng)可能需要結(jié)合符號(hào)推理和連續(xù)控制的混合架構(gòu),具備專(zhuān)門(mén)處理物理約束的組件。對(duì)普通人而言,這意味著短期內(nèi)AI更適合作為助手而非完全自主的物理操作者,人機(jī)協(xié)作仍然是最現(xiàn)實(shí)的應(yīng)用模式。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。