這項(xiàng)由上海交通大學(xué)、香港大學(xué)、深圳大學(xué)等多家機(jī)構(gòu)聯(lián)合開展的研究發(fā)表于2025年8月的arXiv預(yù)印本平臺,論文編號為arXiv:2508.02629v2。想要深入了解這項(xiàng)突破性成果的讀者可以通過該編號在arXiv官網(wǎng)查找完整論文。研究團(tuán)隊(duì)的主要成員包括來自上海交通大學(xué)ScaleLab實(shí)驗(yàn)室的劉藝斌、穆瑤教授,香港大學(xué)多媒體實(shí)驗(yàn)室的梁志軒,以及來自東北大學(xué)、D-Robotics公司、上海人工智能實(shí)驗(yàn)室等多個(gè)機(jī)構(gòu)的研究人員。
想象一個(gè)孩子第一次學(xué)習(xí)用筷子吃飯的場景。剛開始時(shí),食物總是掉到桌子上,但孩子會觀察自己哪里做錯(cuò)了,調(diào)整握筷子的方式,再次嘗試。經(jīng)過反復(fù)練習(xí)和調(diào)整,最終掌握了這項(xiàng)技能?,F(xiàn)在,研究團(tuán)隊(duì)成功地讓機(jī)器人也具備了這種"從錯(cuò)誤中學(xué)習(xí)"的能力。
傳統(tǒng)的機(jī)器人就像只會按照固定食譜做菜的廚師,一旦遇到意外情況就束手無策。比如,當(dāng)機(jī)器人被指令"把杯子放到桌子上"時(shí),如果事先編寫的程序出現(xiàn)問題,機(jī)器人就會徹底失敗,無法自我修正。這就好比一個(gè)嚴(yán)格按照食譜做菜的廚師,如果發(fā)現(xiàn)鹽放多了,卻不知道該如何補(bǔ)救,只能重新開始或者放棄。
研究團(tuán)隊(duì)開發(fā)的HyCodePolicy系統(tǒng)就像給機(jī)器人裝上了一雙"眼睛"和一個(gè)"大腦",讓它能夠觀察自己的行為,判斷哪里出了問題,并且自動修正錯(cuò)誤。這個(gè)系統(tǒng)的工作原理可以比作一個(gè)有經(jīng)驗(yàn)的廚師:不僅會按照食譜做菜,還會不斷品嘗、觀察、調(diào)整,直到做出滿意的菜品。
研究的核心突破在于創(chuàng)建了一個(gè)完整的"學(xué)習(xí)-執(zhí)行-反思-改進(jìn)"循環(huán)。當(dāng)機(jī)器人接到一個(gè)任務(wù)時(shí),它首先會將復(fù)雜任務(wù)分解成若干個(gè)簡單步驟,就像做一道復(fù)雜菜品時(shí)會分解成備料、調(diào)味、烹飪等步驟。然后,機(jī)器人在模擬環(huán)境中執(zhí)行這些步驟,同時(shí)用"眼睛"(視覺系統(tǒng))記錄每個(gè)關(guān)鍵時(shí)刻的畫面。
最有趣的是,當(dāng)某個(gè)步驟失敗時(shí),系統(tǒng)會像一個(gè)細(xì)心的老師一樣分析問題。它不僅會查看程序運(yùn)行時(shí)的錯(cuò)誤信息(就像檢查食譜是否有誤),還會通過分析拍攝的畫面來理解為什么會失?。ň拖裼^察菜品的顏色、形狀來判斷問題所在)。這種結(jié)合程序日志和視覺觀察的雙重診斷方法,讓機(jī)器人能夠更準(zhǔn)確地找到問題的根源。
為了驗(yàn)證這個(gè)系統(tǒng)的效果,研究團(tuán)隊(duì)設(shè)計(jì)了十個(gè)不同的機(jī)器人操作任務(wù),包括遞交物品、堆疊積木、放置鞋子等日常生活中常見的動作。實(shí)驗(yàn)結(jié)果令人振奮:使用HyCodePolicy系統(tǒng)的機(jī)器人在任務(wù)成功率上有了顯著提升。在基礎(chǔ)平臺上,成功率從47.4%提升到了63.9%,而在改進(jìn)后的Bi2Code平臺上,成功率更是從62.1%躍升至71.3%。
這種提升就像一個(gè)學(xué)習(xí)能力很強(qiáng)的學(xué)生,通過不斷練習(xí)和反思,考試成績從不及格逐漸提升到良好水平。更重要的是,機(jī)器人現(xiàn)在需要的"練習(xí)次數(shù)"也大幅減少了,從平均2.42次嘗試減少到1.76次就能掌握一個(gè)新任務(wù),這意味著學(xué)習(xí)效率的顯著提高。
研究團(tuán)隊(duì)還開發(fā)了一個(gè)名為Bi2Code的全新機(jī)器人控制接口,就像為機(jī)器人設(shè)計(jì)了一套更加靈活的"工具箱"。這個(gè)工具箱不僅支持雙臂協(xié)作(想象一個(gè)人同時(shí)用兩只手協(xié)調(diào)工作),還具備了更加模塊化的設(shè)計(jì),讓機(jī)器人能夠處理更多類型的任務(wù)。
在具體的任務(wù)測試中,研究團(tuán)隊(duì)發(fā)現(xiàn)HyCodePolicy在需要精確空間推理和感知判斷的任務(wù)上表現(xiàn)尤其出色。比如在"堆疊三個(gè)積木"的任務(wù)中,傳統(tǒng)方法的成功率只有1%到4%,而使用新系統(tǒng)后成功率提升到了82%。這就像一個(gè)原本笨手笨腳的人,通過學(xué)習(xí)和練習(xí),最終能夠熟練地搭建復(fù)雜的積木城堡。
有趣的是,系統(tǒng)在某些任務(wù)上的表現(xiàn)差異也揭示了其工作原理。對于邏輯相對簡單、步驟固定的任務(wù)(如抓取雙瓶子),各種方法的效果差異不大。但對于需要精細(xì)操作和感知判斷的復(fù)雜任務(wù),HyCodePolicy的優(yōu)勢就非常明顯了。這說明這套系統(tǒng)特別擅長處理那些需要"眼手協(xié)調(diào)"的復(fù)雜情況。
為了更全面地評估系統(tǒng)的能力,研究團(tuán)隊(duì)還在包含50個(gè)不同任務(wù)的大型測試集上進(jìn)行了驗(yàn)證。結(jié)果顯示,HyCodePolicy在各種類型的操作技能上都表現(xiàn)良好,平均成功率達(dá)到了43.34%。雖然這個(gè)數(shù)字聽起來不算特別高,但要知道這是在沒有針對性訓(xùn)練的情況下實(shí)現(xiàn)的"零樣本"表現(xiàn),就像一個(gè)從未見過某道菜的廚師,僅憑經(jīng)驗(yàn)和觀察就能做出及格的菜品。
系統(tǒng)在不同技能類型上的表現(xiàn)也很有意思。在基礎(chǔ)的抓取、放置、堆疊等操作上,成功率普遍在60%以上,最高可達(dá)70%。但在一些需要特殊技巧的任務(wù)上,如傾倒、懸掛、按壓、掃描等,成功率還有待提高。這主要是因?yàn)楫?dāng)前的"工具箱"中還缺少這些特殊操作的專用工具,就像一個(gè)廚師工具齊全時(shí)能做各種菜,但缺少特殊工具時(shí)就無法完成某些特定料理。
從技術(shù)實(shí)現(xiàn)角度來看,HyCodePolicy的工作流程就像一個(gè)經(jīng)驗(yàn)豐富的工匠師傅帶徒弟的過程。首先,師傅(語言模型)根據(jù)任務(wù)要求制定詳細(xì)的工作計(jì)劃,并將其轉(zhuǎn)換成具體的操作代碼。然后,徒弟(機(jī)器人)在模擬車間里按照計(jì)劃進(jìn)行操作,同時(shí)師傅在關(guān)鍵節(jié)點(diǎn)進(jìn)行觀察和記錄。
當(dāng)操作出現(xiàn)問題時(shí),師傅會從兩個(gè)角度進(jìn)行診斷:一是檢查計(jì)劃本身是否有邏輯錯(cuò)誤(通過程序日志),二是觀察實(shí)際操作過程是否有執(zhí)行偏差(通過視覺分析)?;谶@種雙重診斷,師傅會對原計(jì)劃進(jìn)行針對性修改,然后讓徒弟重新嘗試。這個(gè)過程會持續(xù)進(jìn)行,直到任務(wù)成功完成或達(dá)到預(yù)設(shè)的嘗試次數(shù)上限。
這種方法的巧妙之處在于它模仿了人類學(xué)習(xí)的自然過程。我們在學(xué)習(xí)新技能時(shí),通常會先制定計(jì)劃,然后實(shí)踐,觀察結(jié)果,分析問題,調(diào)整方法,再次嘗試。HyCodePolicy正是將這種人類學(xué)習(xí)的智慧融入了機(jī)器人系統(tǒng)中。
在具體的觀察和診斷環(huán)節(jié),系統(tǒng)展現(xiàn)出了相當(dāng)?shù)闹悄苄?。它不會對每個(gè)微小動作都進(jìn)行記錄,而是會智能識別那些可能產(chǎn)生明顯場景變化的關(guān)鍵時(shí)刻。這就像一個(gè)攝影師不會拍攝每一個(gè)瞬間,而是會抓拍最重要的精彩瞬間。這種選擇性觀察不僅提高了效率,還確保了診斷的準(zhǔn)確性。
研究團(tuán)隊(duì)在論文中詳細(xì)展示了生成代碼與人類專家編寫代碼的對比。有趣的發(fā)現(xiàn)是,AI生成的代碼往往比人類編寫的更加詳細(xì)和謹(jǐn)慎。人類專家可能會省略一些看似顯而易見的步驟,而AI則會明確記錄每個(gè)中間狀態(tài),這反而有助于后續(xù)的錯(cuò)誤診斷和修正。這就像一個(gè)新手廚師會仔細(xì)記錄烹飪過程中的每個(gè)細(xì)節(jié),而經(jīng)驗(yàn)豐富的廚師可能會省略一些"常識性"步驟。
從實(shí)用性角度來看,這項(xiàng)研究最大的貢獻(xiàn)是證明了機(jī)器人可以具備真正的自主學(xué)習(xí)能力。以前的機(jī)器人系統(tǒng)就像是"一次性"的工具,編程完成后就固定不變。而HyCodePolicy展示了機(jī)器人系統(tǒng)可以成為"進(jìn)化型"工具,能夠在使用過程中不斷改進(jìn)和完善。
當(dāng)然,這個(gè)系統(tǒng)也有其局限性。研究團(tuán)隊(duì)坦誠地指出,當(dāng)前版本在處理需要精細(xì)力控制的任務(wù)、涉及可變形物體的操作,以及需要復(fù)雜時(shí)序推理的任務(wù)上還有改進(jìn)空間。這就像一個(gè)剛學(xué)會基礎(chǔ)烹飪技巧的廚師,雖然能做出不錯(cuò)的家常菜,但要成為能夠駕馭所有料理類型的大廚,還需要更多的學(xué)習(xí)和練習(xí)。
研究的另一個(gè)重要貢獻(xiàn)是開發(fā)了Bi2Code這個(gè)新的機(jī)器人控制平臺。相比之前的RoboTwin 1.0平臺,Bi2Code就像是從老式的手動工具升級到了現(xiàn)代化的電動工具套裝。它不僅支持更復(fù)雜的雙臂協(xié)作操作,還提供了更加模塊化和用戶友好的編程接口,讓研究人員能夠更容易地開發(fā)和測試新的機(jī)器人行為。
在代碼生成質(zhì)量方面,Bi2Code平臺展現(xiàn)出了顯著優(yōu)勢。生成的代碼不僅更加簡潔(平均代碼長度從1236.6個(gè)標(biāo)記減少到569.4個(gè)標(biāo)記),而且與人類專家編寫的代碼相似度也更高。這就像從冗長復(fù)雜的古文翻譯成了簡潔明了的現(xiàn)代文,既保持了原意,又大大提高了可讀性和可維護(hù)性。
值得注意的是,研究團(tuán)隊(duì)在評估系統(tǒng)性能時(shí)采用了非常嚴(yán)格的標(biāo)準(zhǔn)。每個(gè)任務(wù)都會進(jìn)行10次獨(dú)立測試,然后取平均成功率,這確保了結(jié)果的可靠性。同時(shí),他們還引入了"收斂迭代次數(shù)"這個(gè)指標(biāo),用來衡量系統(tǒng)學(xué)習(xí)新任務(wù)的效率。這種全面的評估方法就像是對一個(gè)學(xué)生進(jìn)行多科目、多次考試,以確保評估結(jié)果的客觀性和全面性。
在技術(shù)架構(gòu)設(shè)計(jì)上,HyCodePolicy采用了分層模塊化的設(shè)計(jì)理念。整個(gè)系統(tǒng)就像一個(gè)精心設(shè)計(jì)的工廠流水線,每個(gè)模塊都有明確的職責(zé)和接口,既保證了整體功能的完整性,又允許單獨(dú)優(yōu)化和升級某個(gè)模塊。這種設(shè)計(jì)哲學(xué)不僅提高了系統(tǒng)的可維護(hù)性,也為未來的功能擴(kuò)展留下了充足的空間。
從更宏觀的角度來看,這項(xiàng)研究代表了機(jī)器人技術(shù)發(fā)展的一個(gè)重要里程碑。它不僅解決了機(jī)器人操作的技術(shù)問題,更重要的是展示了一種全新的機(jī)器人智能范式:從被動執(zhí)行指令轉(zhuǎn)向主動學(xué)習(xí)和適應(yīng)。這種轉(zhuǎn)變就像計(jì)算機(jī)從早期的專用計(jì)算器演進(jìn)為現(xiàn)代的通用智能設(shè)備一樣,具有深遠(yuǎn)的意義。
研究團(tuán)隊(duì)還特別關(guān)注了系統(tǒng)的泛化能力。他們發(fā)現(xiàn),在核心任務(wù)集上訓(xùn)練的系統(tǒng)能夠很好地推廣到其他相關(guān)任務(wù)上,這說明HyCodePolicy學(xué)到的不僅是特定任務(wù)的執(zhí)行方法,更是一種通用的問題解決策略。這就像一個(gè)學(xué)會了基礎(chǔ)數(shù)學(xué)原理的學(xué)生,不僅能解決教科書上的練習(xí)題,還能應(yīng)用這些原理解決生活中的實(shí)際問題。
在實(shí)際應(yīng)用前景方面,這項(xiàng)技術(shù)有著廣闊的應(yīng)用空間。在制造業(yè)中,配備了HyCodePolicy的機(jī)器人可以更快地適應(yīng)新的生產(chǎn)任務(wù),減少重新編程的時(shí)間和成本。在服務(wù)機(jī)器人領(lǐng)域,這種自學(xué)習(xí)能力將使機(jī)器人能夠更好地適應(yīng)不同家庭的具體環(huán)境和需求。在醫(yī)療、教育、娛樂等領(lǐng)域,這種能夠從互動中學(xué)習(xí)和改進(jìn)的機(jī)器人也將提供更加個(gè)性化和有效的服務(wù)。
研究還揭示了一個(gè)有趣的現(xiàn)象:不同類型的任務(wù)對這種學(xué)習(xí)方法的依賴程度不同。簡單、重復(fù)性的任務(wù)可能不需要太多的自適應(yīng)學(xué)習(xí),而復(fù)雜、變化多樣的任務(wù)則能從這種學(xué)習(xí)能力中獲得巨大收益。這提醒我們,技術(shù)的應(yīng)用應(yīng)該根據(jù)具體場景和需求來選擇,而不是盲目追求最先進(jìn)的方法。
從科學(xué)方法論的角度來看,這項(xiàng)研究展現(xiàn)了現(xiàn)代AI研究的一個(gè)重要趨勢:多模態(tài)融合和閉環(huán)學(xué)習(xí)。通過將符號推理、視覺感知、語言理解等多種AI能力有機(jī)結(jié)合,創(chuàng)造出了超越單一技術(shù)局限的綜合智能系統(tǒng)。這種跨學(xué)科融合的研究方法為未來AI技術(shù)的發(fā)展提供了有益的啟示。
總的來說,HyCodePolicy不僅是一個(gè)技術(shù)突破,更是對機(jī)器人智能發(fā)展方向的有益探索。它證明了機(jī)器人不僅可以執(zhí)行預(yù)定的任務(wù),還可以像人類一樣從經(jīng)驗(yàn)中學(xué)習(xí),不斷改進(jìn)自己的能力。這種"會學(xué)習(xí)的機(jī)器人"將為我們的生活和工作帶來更多的便利和可能性。
隨著這項(xiàng)技術(shù)的不斷完善和推廣,我們有理由期待在不久的將來,能夠看到更多智能化、自適應(yīng)的機(jī)器人系統(tǒng)出現(xiàn)在我們的日常生活中。它們不再是冷冰冰的機(jī)器,而是能夠理解、學(xué)習(xí)、成長的智能伙伴,真正實(shí)現(xiàn)人機(jī)協(xié)作的美好愿景。
Q&A
Q1:HyCodePolicy機(jī)器人系統(tǒng)是什么?它與傳統(tǒng)機(jī)器人有什么區(qū)別?
A:HyCodePolicy是由上海交通大學(xué)等機(jī)構(gòu)開發(fā)的新型機(jī)器人控制系統(tǒng),最大特點(diǎn)是讓機(jī)器人具備了"自我反思"的學(xué)習(xí)能力。傳統(tǒng)機(jī)器人就像按固定食譜做菜的廚師,一旦出錯(cuò)就束手無策。而HyCodePolicy讓機(jī)器人像有經(jīng)驗(yàn)的廚師一樣,能夠觀察自己的操作過程,分析失敗原因,自動調(diào)整策略直到成功完成任務(wù)。
Q2:HyCodePolicy系統(tǒng)是如何讓機(jī)器人學(xué)會自我改進(jìn)的?
A:系統(tǒng)采用了"觀察-分析-改進(jìn)"的循環(huán)機(jī)制。當(dāng)機(jī)器人執(zhí)行任務(wù)時(shí),系統(tǒng)會在關(guān)鍵節(jié)點(diǎn)拍照記錄,同時(shí)監(jiān)控程序運(yùn)行狀態(tài)。一旦失敗,系統(tǒng)就像老師批改作業(yè)一樣,既檢查程序邏輯是否正確,又通過分析照片了解實(shí)際操作哪里出了問題,然后針對性地修改代碼,讓機(jī)器人重新嘗試直到成功。
Q3:這項(xiàng)技術(shù)在實(shí)際應(yīng)用中效果如何?能用在哪些地方?
A:實(shí)驗(yàn)結(jié)果顯示,使用HyCodePolicy的機(jī)器人任務(wù)成功率從47.4%提升到63.9%,學(xué)習(xí)效率也大幅提高。這項(xiàng)技術(shù)可以廣泛應(yīng)用于制造業(yè)、服務(wù)機(jī)器人、醫(yī)療輔助等領(lǐng)域。比如工廠中的機(jī)器人能更快適應(yīng)新產(chǎn)品生產(chǎn),家用機(jī)器人能更好地適應(yīng)不同家庭環(huán)境,醫(yī)療機(jī)器人能在復(fù)雜手術(shù)中自我調(diào)整操作策略。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。