這項(xiàng)由香港大學(xué)的林明賢、黃偉等研究者領(lǐng)導(dǎo)的研究團(tuán)隊(duì),聯(lián)合清華大學(xué)、LIGHTSPEED公司和北京師范大學(xué)的科學(xué)家們,于2025年7月發(fā)表了一篇關(guān)于機(jī)器人智能的重要論文。有興趣深入了解的讀者可以通過arXiv:2507.10548訪問完整論文。
當(dāng)你走進(jìn)一個陌生的房間,想要找到桌子上的鑰匙時,你會怎么做?你可能會先環(huán)顧四周,記住房間的布局,然后有條不紊地搜索每個可能的位置。如果第一眼沒看到鑰匙,你不會立即放棄,而是會轉(zhuǎn)動頭部,移動身體,甚至走到房間的另一邊繼續(xù)尋找。整個過程中,你的大腦在不斷地處理視覺信息,制定搜索策略,并根據(jù)新的發(fā)現(xiàn)調(diào)整行動方案。
然而,當(dāng)研究人員讓目前最先進(jìn)的AI模型——包括GPT-4o、Claude 3.5 Sonnet和Gemini 2.5 Pro——來完成同樣的任務(wù)時,卻發(fā)現(xiàn)了一個令人意外的現(xiàn)象:這些在圖像理解和文字處理方面表現(xiàn)出色的AI系統(tǒng),在需要主動探索和與環(huán)境互動的任務(wù)中卻顯得笨拙不堪。
這種差異的根本原因在于,現(xiàn)有的AI模型就像是習(xí)慣了看靜態(tài)照片的人,突然被要求在真實(shí)世界中導(dǎo)航。它們擅長分析已經(jīng)拍攝好的圖片或視頻,但當(dāng)需要主動決定下一步該看哪里、該走向何方時,就會陷入困境。這個問題并不是簡單的技術(shù)缺陷,而是反映了當(dāng)前AI系統(tǒng)訓(xùn)練方式的根本局限性。
為了解決這個問題,研究團(tuán)隊(duì)開發(fā)了一個名為EmbRACE-3K的數(shù)據(jù)集,這個名字代表"在復(fù)雜環(huán)境中的具身推理和行動"。這個數(shù)據(jù)集包含了超過3000個任務(wù)和26000個決策步驟,每個步驟都詳細(xì)記錄了AI應(yīng)該如何觀察、思考和行動。
一、現(xiàn)有AI系統(tǒng)的三大"盲點(diǎn)"
在開始介紹新的解決方案之前,研究團(tuán)隊(duì)首先深入分析了當(dāng)前AI系統(tǒng)在處理需要主動探索的任務(wù)時會出現(xiàn)的三個主要問題。這些問題就像是AI系統(tǒng)患上了某種"空間失調(diào)癥",讓它們無法在真實(shí)環(huán)境中正常工作。
第一個問題是"短視探索"現(xiàn)象。這就好比一個人站在十字路口找餐廳,只是匆匆向左看了一眼,沒看到目標(biāo)就立即向右轉(zhuǎn)彎,完全沒有進(jìn)行系統(tǒng)性的搜索。當(dāng)研究人員給AI系統(tǒng)一個"找到紅色汽車并走近它"的任務(wù)時,AI會表現(xiàn)出類似的行為模式。它會快速地向左看看,發(fā)現(xiàn)沒有立即看到紅色汽車,然后向右瞄一眼,同樣沒有發(fā)現(xiàn)目標(biāo),接著就會不假思索地直接向前走,完全放棄了更廣泛的搜索策略。
這種行為模式的根本原因在于,現(xiàn)有的AI模型在訓(xùn)練時從來沒有學(xué)會如何主動尋找信息。在傳統(tǒng)的圖像識別任務(wù)中,AI系統(tǒng)總是被動地接收完整的圖像,然后基于這些圖像回答問題或進(jìn)行分類。它們從未需要決定應(yīng)該主動看向哪里,或者如何制定搜索策略,因此也就不具備主動探索的能力。
第二個問題是"動態(tài)空間語義漂移"。這個聽起來很復(fù)雜的術(shù)語,實(shí)際上描述的是一個很容易理解的現(xiàn)象。當(dāng)你站在房間的一端時,"左邊的椅子"指的是某個特定的椅子。但當(dāng)你走到房間的另一端時,同樣的"左邊的椅子"可能指的是完全不同的椅子,因?yàn)槟愕囊暯前l(fā)生了變化。
人類的大腦天生就能處理這種視角變化,我們會根據(jù)自己當(dāng)前的位置和朝向來理解空間關(guān)系。但AI系統(tǒng)卻無法做到這一點(diǎn)。當(dāng)研究人員給AI一個"走向第二個垃圾桶"的任務(wù)時,AI在最初的位置可能能夠正確識別哪個是"第二個"垃圾桶。但當(dāng)它開始移動,視角發(fā)生變化后,它就會變得困惑,無法正確更新對空間關(guān)系的理解。
這個問題的根源在于,大部分AI模型的訓(xùn)練數(shù)據(jù)都是靜態(tài)的圖像或者松散關(guān)聯(lián)的視頻片段。即使在處理視頻時,AI系統(tǒng)通常也只是在進(jìn)行時間順序的分析,而不是真正理解空間位置的變化。因此,它們?nèi)狈S護(hù)動態(tài)空間參照系的能力,無法隨著視角的變化而更新對空間關(guān)系的理解。
第三個問題是"目標(biāo)遺忘"。這就像一個人在尋找鑰匙時,一旦鑰匙暫時從視線中消失,就完全忘記了自己原本在找什么。在AI系統(tǒng)中,這種問題更加嚴(yán)重。當(dāng)給AI一個"走向紅色汽車"的任務(wù)時,如果紅色汽車在某個時刻暫時被障礙物遮擋或者移出了視野范圍,AI就會完全忘記這個目標(biāo),開始做其他事情。
更復(fù)雜的情況是多階段任務(wù)中的目標(biāo)遺忘。比如當(dāng)AI被要求"首先走到垃圾桶旁邊,然后走向紅色汽車"時,它可能會成功完成第一個任務(wù),但在執(zhí)行過程中完全忘記了第二個目標(biāo)。這種遺忘不是偶發(fā)的,而是系統(tǒng)性的,反映了AI模型在處理需要長期記憶和目標(biāo)維護(hù)的任務(wù)時的根本缺陷。
這些問題的出現(xiàn)并不是偶然的,而是源于現(xiàn)有AI模型訓(xùn)練方式的根本局限性。大部分視頻理解模型都專注于幀級別的識別、計(jì)數(shù)或者序列級別的問答,而不是持續(xù)的目標(biāo)跟蹤和維護(hù)。因此,當(dāng)目標(biāo)對象暫時出現(xiàn)或消失時,AI系統(tǒng)無法將其視為有意義的事件,也就無法維持對不可見但相關(guān)實(shí)體的持續(xù)關(guān)注。
二、EmbRACE-3K數(shù)據(jù)集的構(gòu)建過程
為了解決這些問題,研究團(tuán)隊(duì)意識到需要從根本上重新思考AI系統(tǒng)的訓(xùn)練方式。他們開始構(gòu)建一個全新的數(shù)據(jù)集,這個過程就像是為AI系統(tǒng)量身定制一套完整的"現(xiàn)實(shí)世界生存指南"。
EmbRACE-3K數(shù)據(jù)集的構(gòu)建過程可以比作制作一部詳細(xì)的紀(jì)錄片,記錄人類在各種環(huán)境中如何觀察、思考和行動。整個過程分為四個相互關(guān)聯(lián)的階段,每個階段都有其獨(dú)特的作用和挑戰(zhàn)。
第一階段是環(huán)境取樣和姿態(tài)選擇。研究團(tuán)隊(duì)首先需要創(chuàng)建一個足夠豐富和多樣的虛擬世界,這個世界要能夠模擬真實(shí)生活中的各種場景。他們使用了UnrealCV-Zoo框架,這是一個基于虛幻引擎的平臺,能夠創(chuàng)建極其逼真的虛擬環(huán)境。從100個可用的虛擬環(huán)境中,他們精心選擇了24個不同的場景,這些場景涵蓋了室內(nèi)和室外的各種情況,包括不同的物體密度、空間布局、光照條件和導(dǎo)航復(fù)雜性。
在這些環(huán)境中,研究團(tuán)隊(duì)需要選擇合適的觀察位置和角度。這個過程就像是一個專業(yè)攝影師在為拍攝選擇最佳機(jī)位,既要自動化地探索所有可能的位置,又要通過人工檢查確保每個位置都有意義。自動化腳本會利用虛幻引擎的導(dǎo)航系統(tǒng)來均勻探索所有可通行的區(qū)域,但隨后還需要人工驗(yàn)證,過濾掉那些視覺上過于單調(diào)(比如只能看到無特征的墻壁)或者物理上無法到達(dá)的位置。
每個被選中的位置都會被記錄下完整的六自由度坐標(biāo)信息,包括位置和朝向,同時還會從該位置的第一人稱視角捕獲對應(yīng)的RGB圖像。這個過程確保了數(shù)據(jù)集中的每個觀察點(diǎn)都是有意義的,能夠?yàn)楹罄m(xù)的任務(wù)生成和訓(xùn)練提供豐富的信息。
第二階段是任務(wù)指令生成。這個階段的工作就像是一個經(jīng)驗(yàn)豐富的老師,根據(jù)學(xué)生當(dāng)前的位置和能看到的東西,為他們設(shè)計(jì)合適的練習(xí)題。對于每個選定的觀察位置,研究團(tuán)隊(duì)會收集附近1000米范圍內(nèi)的所有物體信息,包括物體的語義名稱和空間位置。這些信息與從該位置捕獲的第一人稱視角圖像一起,被提供給Gemini 2.5 Pro模型來生成自然語言任務(wù)指令。
這個過程的關(guān)鍵在于確保生成的任務(wù)既現(xiàn)實(shí)可行,又具有挑戰(zhàn)性。AI模型需要根據(jù)當(dāng)前的空間布局和視覺環(huán)境來創(chuàng)建既合理又可解決的任務(wù)。為了確保任務(wù)的多樣性和針對性,研究團(tuán)隊(duì)會在任務(wù)生成前告訴AI模型需要創(chuàng)建哪種類型的任務(wù)。
任務(wù)被分為五個不同的類別,每個類別都針對具身推理中的特定挑戰(zhàn)?;A(chǔ)任務(wù)是那些目標(biāo)清晰可見且立即可達(dá)的簡單任務(wù),主要用于驗(yàn)證系統(tǒng)的基本功能。探索任務(wù)則要求AI主動搜索最初不在視野范圍內(nèi)的目標(biāo),這直接針對了前面提到的"短視探索"問題。動態(tài)空間語義任務(wù)使用相對或序數(shù)的空間描述來描述目標(biāo),旨在測試AI系統(tǒng)處理視角變化的能力。多階段任務(wù)需要按特定順序完成一系列子目標(biāo),這對AI的長期規(guī)劃和目標(biāo)維護(hù)能力構(gòu)成了挑戰(zhàn)。交互任務(wù)則要求AI進(jìn)行直接的物體操作,如開門或拾取物品。
為了確保質(zhì)量和多樣性,所有生成的指令都會經(jīng)過后處理階段,包括人工驗(yàn)證和有針對性的人工創(chuàng)作。標(biāo)注員會檢查生成的指令是否與視覺和空間環(huán)境一致,糾正模糊的表述,并為代表性不足的情況補(bǔ)充新的、人工創(chuàng)作的任務(wù)。這種混合生成和策劃的方式既確保了規(guī)?;直WC了與具身智能體能力的高質(zhì)量匹配。
第三階段是人類示范和軌跡捕獲。這個階段就像是邀請一位經(jīng)驗(yàn)豐富的向?qū)硌菔救绾卧趶?fù)雜環(huán)境中導(dǎo)航和完成任務(wù)。每個生成的指令都會由人類玩家實(shí)時控制智能體來執(zhí)行,研究團(tuán)隊(duì)會記錄整個過程中的所有第一人稱視角幀、執(zhí)行的動作和精確的姿態(tài)軌跡。
這些人類示范提供了高質(zhì)量的行為樣本,展示了感知、動作環(huán)境和意圖之間的閉環(huán)依賴關(guān)系。人類玩家在執(zhí)行任務(wù)時會展現(xiàn)出現(xiàn)實(shí)的探索和目標(biāo)完成策略,這些策略通常是稀疏和高效的,反映了人類在處理空間導(dǎo)航和目標(biāo)導(dǎo)向行為時的自然模式。
第四階段是逐步推理標(biāo)注。這個階段可能是整個數(shù)據(jù)集構(gòu)建過程中最具創(chuàng)新性的部分,它試圖捕捉人類在做決策時的思維過程。與傳統(tǒng)的思維鏈方法不同,這種標(biāo)注方法植根于智能體的第一人稱視角和完整的任務(wù)環(huán)境。
在這個階段,Gemini系統(tǒng)會接收任務(wù)指令、完整的第一人稱視角序列和整個動作軌跡,這使得它能夠進(jìn)行關(guān)于每個動作如何有助于最終目標(biāo)以及如何影響未來觀察的整體推理。這些解釋不僅捕捉了所采取的動作,還捕捉了它與空間結(jié)構(gòu)、任務(wù)動態(tài)和總體意圖的相關(guān)性。
這種方法確保了思維鏈軌跡提供了與感知-動作循環(huán)緊密匹配的決策級監(jiān)督。每個步驟的標(biāo)注都會解釋為什么在當(dāng)前情況下選擇這個特定的動作,這個動作如何推進(jìn)整體目標(biāo),以及它可能如何影響后續(xù)的觀察和決策。
三、數(shù)據(jù)集的特點(diǎn)和創(chuàng)新之處
EmbRACE-3K數(shù)據(jù)集的獨(dú)特之處在于它完全重新定義了AI系統(tǒng)學(xué)習(xí)與環(huán)境交互的方式。傳統(tǒng)的AI訓(xùn)練數(shù)據(jù)就像是一本靜態(tài)的教科書,而EmbRACE-3K更像是一個交互式的實(shí)踐指南,記錄了在真實(shí)情況下應(yīng)該如何觀察、思考和行動。
整個數(shù)據(jù)集包含了超過3000個語言引導(dǎo)的任務(wù),總共產(chǎn)生了約26000個決策步驟。每個決策步驟都包含了豐富的多模態(tài)信息:第一人稱視角的視覺觀察、所選擇的動作、以及解釋智能體意圖的自然語言推理過程。這種設(shè)計(jì)創(chuàng)造了細(xì)粒度的、時間上有根據(jù)的標(biāo)注,將感知與決策制定緊密結(jié)合。
從任務(wù)類型的分布來看,基礎(chǔ)任務(wù)占了大約一半的比例,這確保了數(shù)據(jù)集有足夠的基礎(chǔ)樣本來訓(xùn)練基本的導(dǎo)航和識別能力。探索任務(wù)、動態(tài)空間語義任務(wù)、多階段任務(wù)和交互任務(wù)各占一定比例,這種平衡的分布確保了AI系統(tǒng)能夠在各種不同的挑戰(zhàn)場景中得到充分訓(xùn)練。
數(shù)據(jù)集在軌跡長度方面也經(jīng)過了精心設(shè)計(jì)。大多數(shù)任務(wù)的動作軌跡長度在15步以內(nèi),這既保證了任務(wù)的復(fù)雜性,又避免了過長的序列可能帶來的訓(xùn)練困難。同時,推理標(biāo)注的平均長度約為80個詞匯單元,這個長度既足夠詳細(xì)地解釋決策過程,又不會過于冗長而影響訓(xùn)練效率。
從詞匯分析的角度來看,任務(wù)指令和推理標(biāo)注展現(xiàn)出了截然不同的詞匯特征。任務(wù)指令更多地包含目標(biāo)描述和空間關(guān)系的詞匯,如"走向"、"找到"、"左邊"、"第二個"等。而推理標(biāo)注則更多地包含分析和決策相關(guān)的詞匯,如"應(yīng)該"、"因?yàn)?、"接下來"、"觀察到"等。這種詞匯分布的差異反映了目標(biāo)設(shè)定和中間推理過程的不同性質(zhì)。
數(shù)據(jù)集的另一個重要特點(diǎn)是它的環(huán)境多樣性。24個精心選擇的虛擬環(huán)境涵蓋了從簡單的室內(nèi)空間到復(fù)雜的室外場景,從光線充足的開放區(qū)域到昏暗的封閉空間。這種多樣性確保了訓(xùn)練出的AI系統(tǒng)具有良好的泛化能力,能夠適應(yīng)各種不同的環(huán)境條件。
在數(shù)據(jù)格式標(biāo)準(zhǔn)化方面,研究團(tuán)隊(duì)將所有軌跡統(tǒng)一為包含有序第一人稱視角幀、離散動作序列、六自由度姿態(tài)和對齊的語言字段的格式。視覺內(nèi)容在分辨率和視野范圍方面進(jìn)行了標(biāo)準(zhǔn)化,確保了樣本間的一致性。這種標(biāo)準(zhǔn)化不僅簡化了模型訓(xùn)練過程,還確保了數(shù)據(jù)集的可重復(fù)性和可擴(kuò)展性。
四、評估框架和基準(zhǔn)測試
為了全面評估AI系統(tǒng)在具身環(huán)境中的表現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了一套綜合的評估框架。這個框架就像是為AI系統(tǒng)設(shè)計(jì)的"駕駛考試",不僅要測試它們的基本技能,還要評估它們在復(fù)雜情況下的應(yīng)對能力。
評估框架包含五個核心指標(biāo),每個指標(biāo)都從不同角度衡量AI系統(tǒng)的能力。成功率是最直觀的指標(biāo),它衡量AI系統(tǒng)成功完成任務(wù)的比例。一個任務(wù)被認(rèn)為是成功的,當(dāng)且僅當(dāng)智能體在任務(wù)特定的空間和行為約束下達(dá)到了目標(biāo),比如到達(dá)目標(biāo)位置300米范圍內(nèi)并發(fā)出完成動作。
目標(biāo)距離誤差則量化了智能體最終位置與指定目標(biāo)之間的歐幾里得距離。對于多階段任務(wù),這個指標(biāo)被計(jì)算為到每個子目標(biāo)的距離之和,并特別處理了遺漏或不準(zhǔn)確的中間目標(biāo)。這個指標(biāo)能夠反映AI系統(tǒng)空間定位的精確程度。
基于路徑長度的成功率評估了成功片段的效率,它被定義為最優(yōu)步數(shù)與實(shí)際步數(shù)的比值,并根據(jù)成功情況進(jìn)行加權(quán)。這個指標(biāo)獎勵那些不僅能夠完成任務(wù),還能以高效方式完成任務(wù)的AI系統(tǒng)。
步數(shù)指標(biāo)報告了每個任務(wù)中智能體執(zhí)行的離散動作的平均數(shù)量,無論成功與否,這反映了行為成本。而超時率則測量了智能體超過最大步數(shù)閾值而未完成任務(wù)的片段比例,高超時率表明系統(tǒng)經(jīng)常出現(xiàn)效率低下或無法適當(dāng)終止的情況。
為了確保評估的公平性和全面性,研究團(tuán)隊(duì)在域內(nèi)和域外兩種設(shè)置下進(jìn)行了測試。域內(nèi)測試使用與訓(xùn)練數(shù)據(jù)相似的環(huán)境和任務(wù)類型,主要評估AI系統(tǒng)對已學(xué)習(xí)模式的掌握程度。域外測試則使用完全不同的環(huán)境和更具挑戰(zhàn)性的任務(wù)變體,評估AI系統(tǒng)的泛化能力。
在具體的測試設(shè)置中,每個測試提示都包含結(jié)構(gòu)化的輸入,包括任務(wù)指令、當(dāng)前場景的簡要描述和之前執(zhí)行動作的歷史記錄。對于視覺輸入,系統(tǒng)提供當(dāng)前時間步的第一人稱視角以及五個最近的幀和初始幀。這種有限幀策略在時間上下文和計(jì)算可處理性之間取得了平衡,因?yàn)榘暾壽E往往會導(dǎo)致過度的延遲和模型超時。
五、實(shí)驗(yàn)結(jié)果和性能分析
實(shí)驗(yàn)結(jié)果揭示了當(dāng)前AI系統(tǒng)在具身推理任務(wù)中的真實(shí)表現(xiàn),這些結(jié)果既令人驚訝又具有啟發(fā)性。當(dāng)研究團(tuán)隊(duì)讓最先進(jìn)的AI模型——GPT-4o、Gemini 2.5 Pro和原版Qwen2.5-VL——在零樣本設(shè)置下完成這些任務(wù)時,所有模型的成功率都低于20%,這個結(jié)果清楚地表明了現(xiàn)有AI系統(tǒng)在交互式環(huán)境中的局限性。
在域內(nèi)測試中,不同任務(wù)類型的表現(xiàn)差異很大?;A(chǔ)任務(wù)的成功率相對較高,GPT-4o達(dá)到了53.6%,Gemini 2.5 Pro甚至達(dá)到了76.4%。這表明當(dāng)目標(biāo)清晰可見且立即可達(dá)時,現(xiàn)有的AI系統(tǒng)還是能夠較好地完成任務(wù)的。然而,一旦任務(wù)變得復(fù)雜,需要探索或涉及空間推理時,性能就會急劇下降。
在探索任務(wù)中,GPT-4o的成功率僅為14.3%,而原版Qwen2.5-VL的表現(xiàn)更是糟糕,成功率為0%。這直接證實(shí)了前面提到的"短視探索"問題的嚴(yán)重性。AI系統(tǒng)在需要主動搜索不在當(dāng)前視野范圍內(nèi)的目標(biāo)時,表現(xiàn)出了明顯的困難。
動態(tài)空間語義任務(wù)的結(jié)果同樣令人關(guān)注。GPT-4o在這類任務(wù)中的成功率為62.9%,相對較好,但Qwen2.5-VL的表現(xiàn)仍然很差,只有14.3%。這表明不同的AI系統(tǒng)在處理空間關(guān)系變化時的能力存在顯著差異。
多階段任務(wù)的結(jié)果最為嚴(yán)峻。GPT-4o的成功率只有27.3%,而Qwen2.5-VL在這類任務(wù)中完全失敗,成功率為0%。這說明現(xiàn)有AI系統(tǒng)在維持長期目標(biāo)和執(zhí)行復(fù)雜計(jì)劃方面存在根本性困難。
域外測試的結(jié)果更加凸顯了泛化能力的重要性。在完全不同的環(huán)境中,所有模型的性能都出現(xiàn)了顯著下降。GPT-4o在基礎(chǔ)任務(wù)中的成功率從53.6%降至20.8%,在探索任務(wù)中從14.3%降至3.6%,在多階段任務(wù)中從27.3%降至2.7%。這種急劇的性能下降表明,現(xiàn)有AI系統(tǒng)嚴(yán)重依賴于訓(xùn)練時見過的環(huán)境特征,缺乏真正的泛化能力。
研究團(tuán)隊(duì)隨后使用EmbRACE-3K數(shù)據(jù)集對Qwen2.5-VL模型進(jìn)行了微調(diào),結(jié)果顯示了顯著的改善。經(jīng)過監(jiān)督微調(diào)的模型在各個任務(wù)類型上都表現(xiàn)出了大幅提升。在基礎(chǔ)任務(wù)中,成功率從26.4%提高到72.9%,在探索任務(wù)中從0%提高到71.4%,在多階段任務(wù)中從0%提高到81.8%。
更重要的是,當(dāng)研究團(tuán)隊(duì)進(jìn)一步使用強(qiáng)化學(xué)習(xí)對模型進(jìn)行優(yōu)化后,性能得到了進(jìn)一步提升,特別是在泛化能力方面。強(qiáng)化學(xué)習(xí)后的模型在域外測試中的表現(xiàn)明顯優(yōu)于僅使用監(jiān)督學(xué)習(xí)的模型。例如,在探索任務(wù)的域外測試中,純監(jiān)督學(xué)習(xí)模型的成功率為22.8%,而加入強(qiáng)化學(xué)習(xí)后提高到了30.9%。
為了驗(yàn)證推理標(biāo)注的重要性,研究團(tuán)隊(duì)還測試了一個去除了所有思維鏈標(biāo)注的模型變體。結(jié)果顯示,推理標(biāo)注對于決策質(zhì)量的提升有著顯著作用。在動態(tài)空間語義任務(wù)的域內(nèi)測試中,包含推理的模型成功率為68.6%,而去除推理的模型成功率只有27.1%。這個對比清楚地表明了逐步推理監(jiān)督對于維持空間定位和任務(wù)上下文的重要性。
六、訓(xùn)練方法的創(chuàng)新設(shè)計(jì)
為了有效利用EmbRACE-3K數(shù)據(jù)集,研究團(tuán)隊(duì)設(shè)計(jì)了一個兩階段的訓(xùn)練框架,這個框架就像是為AI系統(tǒng)設(shè)計(jì)的"技能培訓(xùn)課程",先通過理論學(xué)習(xí)建立基礎(chǔ),再通過實(shí)踐練習(xí)提高熟練度。
第一階段是監(jiān)督微調(diào),這個階段就像是讓AI系統(tǒng)在經(jīng)驗(yàn)豐富的導(dǎo)師指導(dǎo)下學(xué)習(xí)基本技能。研究團(tuán)隊(duì)使用Qwen2.5-VL-7B作為基礎(chǔ)模型,利用EmbRACE-3K中的2344個高質(zhì)量推理軌跡進(jìn)行訓(xùn)練,這些軌跡包含了總計(jì)10000個可訓(xùn)練的動作。訓(xùn)練過程被設(shè)計(jì)為基于指令的多輪對話形式,每個對話包含了完整的感知-推理-行動循環(huán)。
監(jiān)督訓(xùn)練的輸出包含兩個關(guān)鍵組成部分:用``標(biāo)簽包圍的推理過程和用``標(biāo)簽包圍的最終動作決策。這種設(shè)計(jì)確保了AI系統(tǒng)不僅學(xué)會了如何行動,還學(xué)會了如何思考和解釋自己的行動。推理過程的標(biāo)注提供了決策制定的透明度,使得AI系統(tǒng)的行為更加可解釋和可調(diào)試。
第二階段是基于強(qiáng)化學(xué)習(xí)的探索推理框架。這個階段就像是讓AI系統(tǒng)在實(shí)際環(huán)境中反復(fù)練習(xí),通過試錯來提高決策質(zhì)量。研究團(tuán)隊(duì)采用了組相對策略優(yōu)化(GRPO)算法,這是一種經(jīng)過驗(yàn)證的強(qiáng)化學(xué)習(xí)方法,已經(jīng)在數(shù)學(xué)和編程等領(lǐng)域的推理任務(wù)中取得了突破性進(jìn)展。
在強(qiáng)化學(xué)習(xí)階段,系統(tǒng)會為每個給定的問題生成一組候選回答,然后基于規(guī)則化的獎勵函數(shù)對這些回答進(jìn)行評估。獎勵函數(shù)包含兩個主要組成部分:格式獎勵和準(zhǔn)確性獎勵。格式獎勵確保AI系統(tǒng)的輸出符合預(yù)期的``和``格式,而準(zhǔn)確性獎勵則直接評估動作內(nèi)容的正確性。
考慮到EmbRACE-3K包含的動作軌跡長度可達(dá)32步,研究團(tuán)隊(duì)設(shè)置了特定的參數(shù)來處理這種長序列。他們將候選回答組的大小設(shè)置為6,并使用標(biāo)準(zhǔn)化的獎勵來計(jì)算優(yōu)勢函數(shù)。這種設(shè)計(jì)旨在引導(dǎo)具身智能體在開放環(huán)境中自由探索推理策略,而不是簡單地模仿訓(xùn)練數(shù)據(jù)中的固定模式。
強(qiáng)化學(xué)習(xí)的目標(biāo)函數(shù)經(jīng)過精心設(shè)計(jì),平衡了策略改進(jìn)和穩(wěn)定性之間的關(guān)系。目標(biāo)函數(shù)包含了策略比率的裁剪項(xiàng),防止策略更新過于激進(jìn),以及KL散度正則化項(xiàng),確保新策略不會偏離參考策略太遠(yuǎn)。這種設(shè)計(jì)確保了訓(xùn)練過程的穩(wěn)定性和效率。
整個訓(xùn)練過程在計(jì)算資源方面也進(jìn)行了優(yōu)化。監(jiān)督微調(diào)階段使用8個GPU進(jìn)行,而強(qiáng)化學(xué)習(xí)階段則在R1V框架上使用8個GPU進(jìn)行。這種資源配置在訓(xùn)練效率和模型性能之間取得了良好的平衡。
七、技術(shù)挑戰(zhàn)和解決方案
在構(gòu)建EmbRACE-3K數(shù)據(jù)集和開發(fā)相應(yīng)的訓(xùn)練方法過程中,研究團(tuán)隊(duì)遇到了許多技術(shù)挑戰(zhàn),每個挑戰(zhàn)都需要創(chuàng)新的解決方案。這些挑戰(zhàn)就像是在開拓一個全新領(lǐng)域時必須克服的技術(shù)障礙。
首先是數(shù)據(jù)質(zhì)量控制的挑戰(zhàn)。由于數(shù)據(jù)集包含了大量的人類示范和AI生成的推理標(biāo)注,確保數(shù)據(jù)的一致性和高質(zhì)量成為了一個重要問題。研究團(tuán)隊(duì)采用了多層次的質(zhì)量控制策略。在任務(wù)生成階段,他們結(jié)合了自動化生成和人工策劃,確保生成的任務(wù)既具有多樣性又符合實(shí)際情況。在推理標(biāo)注階段,他們使用了完整的上下文信息,包括任務(wù)指令、完整的視覺序列和動作軌跡,來確保標(biāo)注的準(zhǔn)確性和一致性。
其次是計(jì)算復(fù)雜性的挑戰(zhàn)。處理長序列的視覺輸入和多步推理過程需要大量的計(jì)算資源。研究團(tuán)隊(duì)通過優(yōu)化輸入表示來解決這個問題。他們使用了有限幀策略,只保留當(dāng)前時間步的第一人稱視角、五個最近的幀和初始幀,這在保持時間上下文的同時顯著減少了計(jì)算負(fù)擔(dān)。
第三個挑戰(zhàn)是泛化能力的提升。早期的實(shí)驗(yàn)顯示,僅使用監(jiān)督學(xué)習(xí)訓(xùn)練的模型在域外測試中表現(xiàn)不佳。研究團(tuán)隊(duì)通過引入強(qiáng)化學(xué)習(xí)來解決這個問題。強(qiáng)化學(xué)習(xí)允許模型在不同的環(huán)境中探索和學(xué)習(xí),提高了在未見環(huán)境中的適應(yīng)能力。
評估指標(biāo)的設(shè)計(jì)也是一個重要挑戰(zhàn)。傳統(tǒng)的AI評估指標(biāo)無法充分捕捉具身智能體的性能特征。研究團(tuán)隊(duì)設(shè)計(jì)了一套綜合的評估框架,包括成功率、目標(biāo)距離誤差、基于路徑長度的成功率、步數(shù)和超時率等多個指標(biāo),全面評估AI系統(tǒng)在不同維度上的表現(xiàn)。
訓(xùn)練穩(wěn)定性是另一個重要挑戰(zhàn)。強(qiáng)化學(xué)習(xí)過程本身就具有一定的不穩(wěn)定性,加上長序列和復(fù)雜的獎勵函數(shù),使得訓(xùn)練過程更加困難。研究團(tuán)隊(duì)通過精心設(shè)計(jì)的獎勵函數(shù)和訓(xùn)練參數(shù)來確保訓(xùn)練過程的穩(wěn)定性。他們使用了裁剪和正則化技術(shù)來防止策略更新過于激進(jìn),同時使用了適當(dāng)?shù)膶W(xué)習(xí)率和批次大小來平衡訓(xùn)練效率和穩(wěn)定性。
八、研究成果的實(shí)際意義和應(yīng)用前景
EmbRACE-3K數(shù)據(jù)集和相關(guān)研究成果的意義遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)研究的范圍,它們?yōu)槲磥淼闹悄芟到y(tǒng)發(fā)展指明了方向,并為實(shí)際應(yīng)用提供了堅(jiān)實(shí)的基礎(chǔ)。
從技術(shù)發(fā)展的角度來看,這項(xiàng)研究填補(bǔ)了現(xiàn)有AI系統(tǒng)的一個重要空白。傳統(tǒng)的AI系統(tǒng)在處理靜態(tài)任務(wù)方面表現(xiàn)出色,但在需要與環(huán)境動態(tài)交互的場景中卻顯得力不從心。EmbRACE-3K提供了一個系統(tǒng)化的解決方案,使得AI系統(tǒng)能夠?qū)W習(xí)如何在復(fù)雜環(huán)境中進(jìn)行主動探索、空間推理和長期規(guī)劃。
在機(jī)器人技術(shù)領(lǐng)域,這項(xiàng)研究的影響尤為深遠(yuǎn)。未來的服務(wù)機(jī)器人需要能夠在家庭或辦公環(huán)境中自主導(dǎo)航,理解和執(zhí)行復(fù)雜的指令,處理各種意外情況。EmbRACE-3K提供的訓(xùn)練方法和評估框架為開發(fā)這樣的機(jī)器人系統(tǒng)提供了重要的技術(shù)基礎(chǔ)。
在自動駕駛領(lǐng)域,這項(xiàng)研究也具有重要的參考價值。自動駕駛系統(tǒng)需要能夠在復(fù)雜的交通環(huán)境中做出快速而準(zhǔn)確的決策,這需要強(qiáng)大的環(huán)境感知、空間推理和決策制定能力。EmbRACE-3K中體現(xiàn)的多模態(tài)感知和推理方法可以為自動駕駛系統(tǒng)的開發(fā)提供有價值的啟示。
在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用中,這項(xiàng)研究也展現(xiàn)了巨大的潛力。未來的VR/AR系統(tǒng)需要能夠理解用戶的意圖,預(yù)測用戶的行為,并提供適當(dāng)?shù)慕换シ答?。EmbRACE-3K中的多步推理和目標(biāo)導(dǎo)向行為模型可以為開發(fā)更加智能和自然的VR/AR交互系統(tǒng)提供技術(shù)支持。
在教育和訓(xùn)練領(lǐng)域,這項(xiàng)研究也開辟了新的可能性?;贓mbRACE-3K開發(fā)的AI系統(tǒng)可以作為智能教練或訓(xùn)練助手,幫助學(xué)習(xí)者在模擬環(huán)境中練習(xí)復(fù)雜的操作技能,提供個性化的指導(dǎo)和反饋。
從商業(yè)應(yīng)用的角度來看,這項(xiàng)研究的成果可以應(yīng)用于智能客服、智能助手、游戲AI等多個領(lǐng)域。能夠進(jìn)行復(fù)雜推理和長期規(guī)劃的AI系統(tǒng)將能夠提供更加自然和有效的服務(wù)。
然而,研究團(tuán)隊(duì)也注意到了當(dāng)前成果的局限性。雖然經(jīng)過訓(xùn)練的模型在域內(nèi)測試中表現(xiàn)良好,但在域外測試中仍然存在性能下降的問題。這表明AI系統(tǒng)的泛化能力還需要進(jìn)一步提升。此外,當(dāng)前的研究主要集中在模擬環(huán)境中,將這些技術(shù)應(yīng)用到真實(shí)世界環(huán)境中還需要解決許多額外的挑戰(zhàn)。
九、未來發(fā)展方向和研究展望
基于EmbRACE-3K的研究成果,未來的發(fā)展方向呈現(xiàn)出多個令人興奮的可能性。這些發(fā)展方向不僅將推動技術(shù)的進(jìn)步,也將為解決現(xiàn)實(shí)世界中的復(fù)雜問題提供新的工具和方法。
首先是數(shù)據(jù)集規(guī)模和多樣性的擴(kuò)展。雖然EmbRACE-3K已經(jīng)提供了豐富的訓(xùn)練數(shù)據(jù),但為了進(jìn)一步提高AI系統(tǒng)的泛化能力,未來需要構(gòu)建更大規(guī)模、更多樣化的數(shù)據(jù)集。這包括增加更多的環(huán)境類型、任務(wù)復(fù)雜度和交互方式。特別是需要增加更多的真實(shí)世界場景數(shù)據(jù),以縮小模擬環(huán)境和真實(shí)環(huán)境之間的差距。
其次是推理能力的深化。當(dāng)前的研究主要關(guān)注于基本的空間推理和目標(biāo)導(dǎo)向行為,未來的研究可以探索更加復(fù)雜的推理模式,如因果推理、抽象推理和創(chuàng)造性問題解決。這將需要開發(fā)新的標(biāo)注方法和訓(xùn)練技術(shù),以捕捉更加復(fù)雜的認(rèn)知過程。
第三個重要方向是多模態(tài)融合的改進(jìn)。當(dāng)前的研究主要關(guān)注視覺和語言的結(jié)合,未來可以探索加入其他感知模態(tài),如聽覺、觸覺甚至嗅覺等。這種多模態(tài)融合將使AI系統(tǒng)能夠更全面地理解和響應(yīng)環(huán)境變化,提供更加自然和有效的交互體驗(yàn)。
在技術(shù)方法方面,未來的研究可以探索更加先進(jìn)的學(xué)習(xí)算法。例如,可以研究如何結(jié)合元學(xué)習(xí)、終身學(xué)習(xí)和遷移學(xué)習(xí)等技術(shù),使AI系統(tǒng)能夠更快地適應(yīng)新的環(huán)境和任務(wù)。此外,還可以探索如何利用大規(guī)模語言模型的能力來改進(jìn)具身智能體的推理和決策過程。
在評估方法方面,未來需要開發(fā)更加全面和細(xì)致的評估框架。當(dāng)前的評估主要關(guān)注任務(wù)完成情況,未來可以加入對推理過程、學(xué)習(xí)效率、適應(yīng)性等多個維度的評估. 這將有助于更好地理解AI系統(tǒng)的能力和局限性,指導(dǎo)技術(shù)的進(jìn)一步發(fā)展。
在實(shí)際應(yīng)用方面,未來的研究需要更加關(guān)注從模擬到真實(shí)世界的遷移問題。這包括開發(fā)更加逼真的模擬環(huán)境、設(shè)計(jì)有效的域適應(yīng)方法,以及建立安全可靠的真實(shí)世界測試框架。只有解決了這些問題,基于EmbRACE-3K的技術(shù)才能真正應(yīng)用到實(shí)際場景中。
在倫理和安全方面,隨著AI系統(tǒng)變得越來越智能和自主,需要更加關(guān)注其行為的可解釋性、可控性和安全性。未來的研究需要開發(fā)相應(yīng)的技術(shù)和方法,確保AI系統(tǒng)的行為符合人類的價值觀和社會規(guī)范。
從長遠(yuǎn)來看,基于EmbRACE-3K的研究為實(shí)現(xiàn)真正的人工通用智能(AGI)提供了重要的技術(shù)基礎(chǔ)。具身智能體的研究不僅關(guān)注AI系統(tǒng)的認(rèn)知能力,還關(guān)注其在物理世界中的行動能力,這是實(shí)現(xiàn)AGI的重要組成部分。
十、結(jié)論與思考
說到底,香港大學(xué)團(tuán)隊(duì)的這項(xiàng)研究揭示了一個深刻的事實(shí):讓AI真正理解和適應(yīng)我們的世界,遠(yuǎn)比我們想象的要復(fù)雜。當(dāng)我們?nèi)祟愖哌M(jìn)一個房間尋找鑰匙時,這個看似簡單的行為實(shí)際上包含了極其復(fù)雜的認(rèn)知過程——空間感知、記憶維護(hù)、策略規(guī)劃、動態(tài)適應(yīng)等等。而現(xiàn)有的AI系統(tǒng),盡管在靜態(tài)任務(wù)上表現(xiàn)出色,卻在這些基本的具身智能任務(wù)上顯得笨拙不堪。
EmbRACE-3K數(shù)據(jù)集的創(chuàng)建過程本身就是一個了不起的成就。研究團(tuán)隊(duì)不僅構(gòu)建了一個包含26000個決策步驟的龐大數(shù)據(jù)集,更重要的是,他們?yōu)槊總€步驟都提供了詳細(xì)的推理標(biāo)注,就像是為AI系統(tǒng)編寫了一部完整的"現(xiàn)實(shí)世界生存指南"。這種細(xì)致入微的標(biāo)注工作,使得AI系統(tǒng)能夠?qū)W習(xí)到不僅僅是"應(yīng)該做什么",還包括"為什么要這樣做"。
實(shí)驗(yàn)結(jié)果既令人鼓舞又發(fā)人深省。經(jīng)過專門訓(xùn)練的AI系統(tǒng)在各類具身任務(wù)中都表現(xiàn)出了顯著的改進(jìn),這證明了正確的訓(xùn)練方法確實(shí)能夠讓AI系統(tǒng)獲得更強(qiáng)的環(huán)境交互能力。然而,域外測試中的性能下降也提醒我們,AI系統(tǒng)的泛化能力仍然是一個需要持續(xù)關(guān)注的重要問題。
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)層面。它向我們展示了實(shí)現(xiàn)真正智能系統(tǒng)的路徑:不是簡單地增加參數(shù)或擴(kuò)大數(shù)據(jù)規(guī)模,而是要重新思考AI系統(tǒng)的學(xué)習(xí)方式,讓它們能夠像人類一樣在與環(huán)境的交互中不斷學(xué)習(xí)和改進(jìn)。這種具身智能的研究方向,為未來的AI發(fā)展指明了一個重要的方向。
從實(shí)際應(yīng)用的角度來看,這項(xiàng)研究為服務(wù)機(jī)器人、自動駕駛、虛擬現(xiàn)實(shí)等領(lǐng)域的發(fā)展提供了重要的技術(shù)基礎(chǔ)。未來的智能系統(tǒng)將不再是被動的信息處理器,而是能夠主動探索、理解和適應(yīng)環(huán)境的智能體。這種轉(zhuǎn)變將深刻地改變我們與AI系統(tǒng)的交互方式,也將為解決現(xiàn)實(shí)世界中的復(fù)雜問題提供新的工具和方法。
當(dāng)然,這項(xiàng)研究也讓我們認(rèn)識到,實(shí)現(xiàn)真正的人工智能還有很長的路要走。當(dāng)前的AI系統(tǒng)在處理復(fù)雜的多步推理、動態(tài)環(huán)境適應(yīng)和長期目標(biāo)維護(hù)方面仍然存在明顯的不足。但正是這些挑戰(zhàn),使得這個研究領(lǐng)域充滿了機(jī)遇和潛力。
對于普通人來說,這項(xiàng)研究提醒我們,AI技術(shù)的發(fā)展不僅僅是在實(shí)驗(yàn)室里的技術(shù)突破,而是在逐步接近我們?nèi)粘I钪械膶?shí)際需求。未來的AI助手將能夠真正理解我們的生活環(huán)境,幫助我們完成各種復(fù)雜的任務(wù),這個未來可能比我們想象的要近得多。
有興趣深入了解這項(xiàng)研究的讀者,可以通過訪問https://mxllc.github.io/EmbRACE-3K/獲取更多信息,或者通過arXiv:2507.10548訪問完整的論文。這項(xiàng)研究不僅代表了當(dāng)前AI技術(shù)的前沿進(jìn)展,也為我們理解智能的本質(zhì)提供了新的視角。
Q&A
Q1:EmbRACE-3K是什么?它解決了什么問題? A:EmbRACE-3K是一個專門訓(xùn)練AI在復(fù)雜環(huán)境中進(jìn)行推理和行動的數(shù)據(jù)集,包含超過3000個任務(wù)和26000個決策步驟。它解決了現(xiàn)有AI系統(tǒng)在需要主動探索和與環(huán)境交互時表現(xiàn)不佳的問題,比如找不到暫時看不見的物體、無法適應(yīng)視角變化、容易忘記任務(wù)目標(biāo)等。
Q2:這項(xiàng)研究對普通人的生活會有什么影響? A:這項(xiàng)研究將推動更智能的服務(wù)機(jī)器人、自動駕駛系統(tǒng)和虛擬助手的發(fā)展。未來的AI系統(tǒng)將能夠更好地理解和適應(yīng)我們的生活環(huán)境,幫助完成家務(wù)、導(dǎo)航、客服等各種需要與環(huán)境交互的任務(wù),使人機(jī)交互變得更加自然和有效。
Q3:為什么現(xiàn)有的先進(jìn)AI模型在這些任務(wù)上表現(xiàn)不好? A:現(xiàn)有AI模型主要在靜態(tài)圖像和文本上訓(xùn)練,就像習(xí)慣看照片的人突然要在真實(shí)世界導(dǎo)航一樣。它們?nèi)狈χ鲃犹剿髂芰?,無法處理視角變化帶來的空間關(guān)系變化,也無法維持長期目標(biāo)記憶。這些模型需要專門的訓(xùn)練才能學(xué)會在動態(tài)環(huán)境中進(jìn)行推理和行動。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。