這項由AgiBot公司聯(lián)合新加坡國立大學視覺學習實驗室、北京航空航天大學共同完成的突破性研究于2025年8月發(fā)表在預印本平臺arXiv上。論文的第一作者包括廖躍、周鵬飛、黃思遠等多位研究員,通訊作者為嚴首成教授和任光輝教授。有興趣深入了解的讀者可以通過https://genie-envisioner.github.io訪問完整論文和相關資源。
說起機器人,你可能會想到科幻電影里那些能夠完成各種復雜任務的智能伙伴。但現(xiàn)實中的機器人往往只能執(zhí)行預設的簡單動作,就像一個只會按照固定食譜做菜的廚師,無法應對突發(fā)情況或者學習新的技能。這個問題的核心在于,傳統(tǒng)機器人系統(tǒng)就像是由許多獨立部門組成的公司——視覺部門負責"看",規(guī)劃部門負責"想",執(zhí)行部門負責"做",但這些部門之間缺乏有效的溝通和協(xié)調。
AgiBot團隊提出的Genie Envisioner(簡稱GE)就像是為機器人配備了一個統(tǒng)一的"大腦",能夠將看、想、做三個過程完美融合。這個系統(tǒng)最神奇的地方在于,它能夠像人類一樣,通過觀察和想象來預測行動的結果,然后做出最佳決策。
研究團隊訓練這個系統(tǒng)時使用了一個名為AgiBot-World-Beta的超大規(guī)模數(shù)據(jù)集,包含了大約100萬個真實機器人操作的視頻片段,總時長達到近3000小時。這就好比讓一個新手廚師觀看了100萬個烹飪視頻,從中學會了各種料理技巧和應對方法。
Genie Envisioner的核心創(chuàng)新在于將機器人控制問題轉化為了一個視頻生成問題。傳統(tǒng)的機器人系統(tǒng)需要復雜的物理建模和精確的數(shù)學計算,就像建造房子時需要詳細的建筑圖紙和復雜的結構計算。而GE則采用了一種全新的思路——通過學習大量的操作視頻,讓機器人能夠"想象"出執(zhí)行某個任務時會發(fā)生什么,然后基于這種想象來制定行動計劃。
這種方法的巧妙之處在于,它避開了傳統(tǒng)方法中最困難的物理建模問題。就像一個經(jīng)驗豐富的司機不需要計算復雜的物理方程就能準確判斷如何轉彎和剎車一樣,GE讓機器人能夠基于"經(jīng)驗"和"直覺"來執(zhí)行任務。
一、世界基礎模型:機器人的視覺想象力
GE-Base是整個系統(tǒng)的核心,可以把它想象成機器人的"視覺想象中心"。就像人類在執(zhí)行某個動作之前會在腦海中預演一遍一樣,GE-Base能夠根據(jù)當前看到的情況和接收到的指令,生成一段顯示機器人應該如何行動的視頻。
這個過程的精妙之處在于它的多視角設計。傳統(tǒng)的機器人系統(tǒng)往往只能從一個角度觀察環(huán)境,就像只用一只眼睛看世界一樣,缺乏立體感和全面性。而GE-Base同時處理來自三個攝像頭的視頻信息——一個裝在機器人"頭部"的攝像頭提供全局視野,兩個裝在機器臂上的攝像頭則專注于精細操作的細節(jié)。
更令人驚嘆的是它的"記憶機制"。GE-Base不僅關注當前的畫面,還會記住之前發(fā)生的關鍵場景。這就像一個有經(jīng)驗的廚師在做菜時不僅看當前鍋里的情況,還會記得之前每個步驟的狀態(tài),從而做出更好的判斷。
訓練GE-Base的過程分為兩個階段。第一階段被稱為"多分辨率時間適應",研究團隊讓系統(tǒng)觀看以3Hz到30Hz不同速度拍攝的機器人操作視頻。這就像讓一個學習者同時觀看慢鏡頭和正常速度的教學視頻,既能看清楚精細動作的細節(jié),又能理解整體的節(jié)奏和流程。
第二階段則是"低頻率策略對齊",專門針對實際控制需要進行優(yōu)化。這個階段的訓練讓系統(tǒng)學會了在較低的幀率下仍然能夠準確理解和預測機器人的行為,就像一個熟練的動畫師能夠用較少的關鍵幀就創(chuàng)造出流暢的動畫效果。
GE-Base在生成視頻時采用了一種巧妙的"分塊生成"策略。它不會一次性生成整段視頻,而是像連載小說一樣,一章一章地生成。每一"章"包含幾幀視頻,每生成一章后,系統(tǒng)會根據(jù)新的情況調整后續(xù)的生成計劃。這種方法既保證了生成質量,又提高了系統(tǒng)的靈活性。
這種視頻生成能力的實際效果令人印象深刻。當你給GE-Base一個指令,比如"拿起桌上的牛奶",它能夠生成一段完整的視頻,展示機器人應該如何從當前位置出發(fā),精確地抓取牛奶,并將其移動到指定位置。更重要的是,這段生成的視頻在空間一致性、時間連貫性和語義準確性方面都表現(xiàn)出色。
二、世界行動模型:從想象到現(xiàn)實的橋梁
如果說GE-Base是機器人的"想象中心",那么GE-Act就是連接想象與現(xiàn)實的"執(zhí)行翻譯器"。它的任務是將GE-Base生成的視覺預測轉化為機器人能夠實際執(zhí)行的精確控制指令。
GE-Act的設計理念就像是在原有的視覺系統(tǒng)旁邊添加了一個專門的"行動規(guī)劃部門"。這個部門與視覺系統(tǒng)并行工作,共享相同的"辦公樓層"(DiT架構),但專注于不同的任務。視覺系統(tǒng)負責理解和預測畫面,而行動系統(tǒng)則專注于制定具體的執(zhí)行方案。
這種并行設計的巧妙之處在于兩個系統(tǒng)之間的信息交流。行動系統(tǒng)會定期向視覺系統(tǒng)"咨詢"當前的環(huán)境理解,而視覺系統(tǒng)則為行動系統(tǒng)提供豐富的上下文信息。這種協(xié)作模式確保了生成的行動計劃既符合物理規(guī)律,又與當前的環(huán)境狀況高度匹配。
GE-Act的訓練過程采用了一種漸進式的策略。首先是"行動預訓練"階段,系統(tǒng)學習如何將視覺特征轉化為基本的控制信號。這就像教會一個新手司機基本的駕駛技能——如何轉方向盤、如何踩剎車、如何判斷距離。
接下來是"任務特定適應"階段,包括視頻適應和行動?;瘍蓚€步驟。視頻適應階段讓系統(tǒng)學會針對特定任務調整其視覺理解能力,而行動?;A段則進一步優(yōu)化控制策略的精確度。這個過程就像一個通用司機學習駕駛特定類型的車輛——先熟悉車輛的視覺特征,然后掌握其獨特的操控特性。
GE-Act的一個突出特點是其"異步推理"能力。在實際應用中,視覺處理和動作控制有著不同的時間要求。視覺理解可以相對較慢但要求準確,而動作控制則需要快速響應。GE-Act巧妙地利用了這種差異,讓視覺系統(tǒng)以5Hz的頻率更新環(huán)境理解,而動作系統(tǒng)則以30Hz的頻率生成控制指令。
這種設計就像一個經(jīng)驗豐富的乒乓球選手,不需要時刻重新分析對手的整體戰(zhàn)術,而是在理解大致策略的基礎上,快速調整每一拍的具體動作。這種方法大大提高了系統(tǒng)的實時性能,使得整個54步的控制序列能夠在200毫秒內完成計算,滿足了實時控制的嚴格要求。
在實際應用中,GE-Act展現(xiàn)出了令人印象深刻的能力。它不僅能夠完成基本的抓取和放置任務,還能處理復雜的多步驟操作,如制作三明治、清理桌面、使用微波爐等。更令人驚嘆的是,它還能處理需要記憶的任務。比如在包裝任務中,機器人需要根據(jù)不同顏色的糖果選擇相應的印章,即使糖果被放入盒子后不再可見,系統(tǒng)仍然能夠記住之前的觀察結果并做出正確的選擇。
三、跨平臺適應:一套系統(tǒng)適配多種機器人
Genie Envisioner最讓人興奮的特性之一是其出色的跨平臺適應能力。就像一個多語言的翻譯軟件可以在不同的語言之間自由轉換一樣,GE系統(tǒng)能夠快速適應不同類型的機器人平臺。
研究團隊專門測試了系統(tǒng)在Agilex Cobot Magic和雙臂Franka機器人上的表現(xiàn)。這些平臺與原始訓練平臺AgiBot G1在機械結構、控制接口和傳感器配置方面都存在顯著差異。這就像讓一個習慣駕駛轎車的司機去開卡車或摩托車,需要適應完全不同的操控方式。
適應過程采用了一種"兩階段微調"策略。第一階段專注于視覺適應,讓系統(tǒng)學會理解新平臺的視覺特征。這包括不同的攝像頭位置、視角變化以及機器人外觀的差異。這個過程就像一個攝影師在不同的拍攝環(huán)境中調整相機設置和構圖方式。
第二階段則是動作適應,針對新平臺的控制特性重新訓練動作生成模塊。不同的機器人有著不同的自由度、運動范圍和精度特性,需要相應調整控制策略。令人驚訝的是,這種適應只需要約250個演示樣本,相當于僅僅一小時的遙操作數(shù)據(jù)。
在Agilex Cobot Magic平臺上的實驗特別引人注目,因為這個平臺面臨的是極具挑戰(zhàn)性的可變形物體操作任務——折疊衣服和組裝紙盒。這類任務對傳統(tǒng)機器人系統(tǒng)來說是極其困難的,因為可變形物體的狀態(tài)變化難以預測和建模。
然而,GE系統(tǒng)通過其視覺理解能力,能夠實時觀察物體的變形過程,并相應調整操作策略。在折疊衣服的任務中,系統(tǒng)需要準確判斷布料的褶皺狀態(tài),掌握合適的抓取點,并執(zhí)行復雜的折疊動作序列。在組裝紙盒任務中,系統(tǒng)需要理解紙盒的折疊機制,施加適當?shù)牧Χ龋⒈3指鱾€部分的正確對齊。
實驗結果顯示,GE-Act在這些復雜任務上的表現(xiàn)明顯優(yōu)于現(xiàn)有的先進方法。在與GR00T N1、π0、UniVLA等知名系統(tǒng)的對比中,GE-Act在折疊任務上取得了顯著的成功率優(yōu)勢。特別值得注意的是,一些傳統(tǒng)方法在面對這類復雜任務時幾乎完全失敗,而GE-Act仍能保持相當高的成功率。
在雙臂Franka平臺上的實驗進一步驗證了系統(tǒng)的適應性。盡管數(shù)據(jù)收集條件相對簡化,使用的是空間鼠標控制系統(tǒng)而非專業(yè)的遙操作設備,GE-Act仍然成功適應了新平臺并完成了折疊任務。這種靈活性表明該系統(tǒng)具備了真正的泛化能力,能夠應對實際部署中可能遇到的各種硬件約束和環(huán)境變化。
四、神經(jīng)模擬器:虛擬世界中的現(xiàn)實演練
GE-Sim代表了機器人仿真領域的一次重要突破。傳統(tǒng)的機器人仿真器需要精確建模物理定律、材料屬性和環(huán)境約束,就像建造一個完整的虛擬物理實驗室。而GE-Sim采用了一種全新的思路——通過學習真實世界的視覺規(guī)律來創(chuàng)建仿真環(huán)境。
這種方法的核心思想是將仿真問題轉化為一個條件視頻生成問題。給定機器人的當前狀態(tài)和預定的動作序列,GE-Sim能夠生成展示執(zhí)行結果的視頻。這就像一個經(jīng)驗豐富的象棋大師能夠在心中"看到"幾步棋后的棋盤局面一樣。
GE-Sim的技術架構建立在GE-Base的基礎上,但增加了專門的動作條件處理機制。這個機制包含兩個關鍵組件:姿態(tài)到圖像的條件處理和運動向量條件處理。
姿態(tài)到圖像的條件處理系統(tǒng)能夠將機器人的關節(jié)角度和末端執(zhí)行器位置轉換為視覺信息。這個過程就像在視頻中疊加一個透明的軌跡線,顯示機器人應該移動的路徑。系統(tǒng)使用標定的相機參數(shù)將三維空間中的位置投影到二維圖像平面上,并用不同的顏色和符號表示左右臂的目標位置和姿態(tài)方向。
運動向量條件處理則專注于捕捉動作的時間特性。它計算連續(xù)時間步之間的位置和姿態(tài)變化,形成"運動增量"信息。這種信息幫助系統(tǒng)理解動作的速度、方向和連續(xù)性,確保生成的視頻在時間維度上保持自然流暢。
訓練GE-Sim時,研究團隊特別注意包含了各種"失敗案例"。這些包括執(zhí)行錯誤的動作、不完整的任務執(zhí)行、以及次優(yōu)的控制軌跡。這種訓練策略就像讓一個飛行模擬器不僅包含正常飛行場景,也包含各種緊急情況和異常狀況。這樣的訓練讓GE-Sim能夠更真實地反映機器人操作的復雜性和不確定性。
在實際應用中,GE-Sim表現(xiàn)出了令人印象深刻的精確度。當給定一個真實的控制軌跡時,生成的視頻能夠準確反映機器人末端執(zhí)行器的運動路徑。研究團隊通過將預測的末端執(zhí)行器位置與實際軌跡進行對比,發(fā)現(xiàn)兩者之間的一致性非常高。
GE-Sim的一個重要應用是支持閉環(huán)策略評估。在這種模式下,一個策略模型可以在GE-Sim創(chuàng)建的虛擬環(huán)境中執(zhí)行多個回合的任務,就像在一個逼真的訓練場中反復練習。每次執(zhí)行后,系統(tǒng)都會根據(jù)生成的視頻評估任務完成情況,并為策略模型提供反饋。
這種仿真方式相比傳統(tǒng)的物理仿真器具有多個優(yōu)勢。首先是成本效益,不需要昂貴的硬件和復雜的環(huán)境設置。其次是擴展性,可以輕松支持大規(guī)模并行仿真,在分布式計算集群上同時運行數(shù)千個仿真實例。最重要的是真實性,因為GE-Sim是基于真實世界數(shù)據(jù)訓練的,它生成的場景更貼近實際部署環(huán)境。
五、綜合評估基準:機器人智能的全面體檢
EWMBench(具身世界模型基準)的開發(fā)反映了研究團隊對評估標準化的深刻理解。傳統(tǒng)的視頻生成評估主要關注視覺質量和人類偏好,但機器人操作視頻有著更嚴格的約束條件。這就像評估一個外科手術視頻不能僅僅看畫面是否清晰美觀,更要看手術步驟是否準確、操作是否規(guī)范。
EWMBench的設計理念是建立一個多維度的評估體系。場景一致性維度評估生成視頻是否保持了環(huán)境布局、物體位置和視角的穩(wěn)定性。這就像檢查一部電影中的場景連續(xù)性,確保前后鏡頭之間沒有穿幫錯誤。
具體來說,場景一致性通過精調的DINOv2視覺編碼器來測量。這個編碼器專門針對機器人操作場景進行了優(yōu)化,能夠準確識別場景中的關鍵元素。系統(tǒng)會提取視頻幀之間對應區(qū)域的特征,計算它們的相似度,從而量化場景的穩(wěn)定性。
動作軌跡質量評估則更加復雜和精細。這個維度包含空間對齊、時間對齊和動態(tài)一致性三個子指標。空間對齊使用對稱Hausdorff距離來測量預測軌跡與真實軌跡之間的幾何差異,就像比較兩條路線圖之間的偏差程度。
時間對齊采用歸一化動態(tài)時間規(guī)整技術,這種方法能夠處理速度變化帶來的時序差異。即使機器人在某些階段執(zhí)行得較快或較慢,只要整體的動作序列是正確的,就能得到合理的評分。這就像評價一個音樂演奏,即使節(jié)奏有細微變化,只要旋律和結構正確就是好的表演。
動態(tài)一致性評估則關注運動的自然性。系統(tǒng)會分析速度和加速度的分布特征,與真實數(shù)據(jù)進行對比。如果生成的動作軌跡出現(xiàn)突然的速度跳躍或不自然的加減速,就會被相應扣分。
運動語義評估采用了多層次的方法。全局層面的評估使用視覺語言模型生成視頻摘要,然后與原始任務指令進行BLEU相似度比較。這就像讓一個觀察者看完視頻后描述發(fā)生了什么,然后檢查這個描述是否與預期的任務一致。
關鍵步驟一致性評估更加細致,它會將生成的視頻和真實視頻都分解為若干個關鍵步驟,然后比較對應步驟之間的相似性。這種評估方法能夠識別出任務執(zhí)行過程中的具體問題,比如某個中間步驟被遺漏或執(zhí)行錯誤。
邏輯正確性評估則專注于識別各種常見錯誤。研究團隊首先使用GPT模型定義了機器人操作中常見的邏輯錯誤類型,包括物體憑空消失、違反物理定律的動作、以及不符合常識的行為等。然后使用專門訓練的視覺語言模型來檢測這些錯誤的出現(xiàn)。
在與其他先進視頻生成模型的對比評估中,GE-Base展現(xiàn)出了明顯的優(yōu)勢。特別是在時間對齊和動態(tài)一致性方面,GE-Base的表現(xiàn)顯著優(yōu)于通用視頻生成模型如Kling、Hailuo、OpenSora等。這種優(yōu)勢主要來源于GE-Base專門針對機器人操作場景的訓練和優(yōu)化。
EWMBench還包含了一個重要的人類偏好一致性驗證。研究團隊收集了人類評估者對不同模型生成視頻的排序偏好,并與自動評估指標的結果進行對比。結果顯示,EWMBench的評估結果與人類判斷高度一致,而傳統(tǒng)的通用視頻評估基準VBench則存在明顯的偏差。
六、實際應用效果:從實驗室到現(xiàn)實世界
Genie Envisioner在實際應用中的表現(xiàn)證明了其技術路線的正確性和實用價值。在原始訓練平臺AgiBot G1上的測試涵蓋了五個具有代表性的日常任務場景,每個任務都對機器人的不同能力提出了獨特挑戰(zhàn)。
制作三明治任務要求機器人具備精確的物體操作能力和正確的步驟序列理解。機器人需要準確抓取面包、培根、生菜等不同質地和形狀的食材,并按照正確的順序進行組裝。這個任務特別考驗系統(tǒng)對物體屬性的理解和多步驟協(xié)調能力。
倒茶任務則主要測試精細運動控制和液體操作技能。機器人需要準確控制茶壺的傾斜角度和速度,避免溢出或倒空。這種任務對傳統(tǒng)機器人系統(tǒng)來說極具挑戰(zhàn)性,因為液體的動態(tài)特性難以精確建模。
清潔桌面任務考驗機器人的路徑規(guī)劃和力度控制能力。機器人需要抓取抹布或海綿,在桌面上執(zhí)行覆蓋性的擦拭動作,同時施加適當?shù)膲毫η宄蹪n。這個任務要求系統(tǒng)能夠生成平滑、覆蓋完整的運動軌跡。
微波爐加熱食物任務涉及復雜的人機交互和設備操作。機器人需要打開微波爐門、放入食物、關閉門、設置時間并啟動設備。這個任務測試了系統(tǒng)對機械裝置操作的理解和多步驟任務的執(zhí)行能力。
傳送帶包裝任務代表了工業(yè)應用場景,要求機器人能夠識別和追蹤移動的目標物體。機器人需要在傳送帶運行過程中準確抓取洗衣液袋,并將其放入包裝盒中。這種動態(tài)環(huán)境下的操作對視覺追蹤和運動協(xié)調提出了很高要求。
在與先進基準系統(tǒng)的對比中,GE-Act在所有任務上都表現(xiàn)出了明顯優(yōu)勢。相比UniVLA和GR00T N1這樣的大規(guī)模視覺語言動作模型,GE-Act在步驟級成功率和端到端成功率兩個指標上都有顯著提升。這種提升主要歸功于GE-Base提供的強大時空先驗知識和精確的視覺語言對齊能力。
特別值得注意的是GE-Act的"快速模式"表現(xiàn)。這種模式利用了視覺處理和動作控制之間的時間不對稱性,在保持準確性的同時大幅提升了響應速度。在需要快速反應的動態(tài)任務中,如傳送帶包裝,快速模式的優(yōu)勢尤為明顯。
最令人印象深刻的是系統(tǒng)處理長序列記憶任務的能力。在復雜的包裝場景中,機器人需要根據(jù)糖果顏色選擇對應的印章,而糖果一旦被放入盒子就不再可見。GE-Act能夠在任務執(zhí)行過程中維持對之前觀察結果的記憶,并在需要時正確調用這些信息。這種記憶能力對于復雜的現(xiàn)實世界任務至關重要。
系統(tǒng)的泛化能力在跨平臺測試中得到了充分驗證。僅用一小時的適應數(shù)據(jù),GE-Act就能在全新的機器人平臺上達到令人滿意的性能水平。這種快速適應能力大大降低了系統(tǒng)部署的成本和復雜度,為實際應用奠定了基礎。
在處理可變形物體的任務中,GE-Act展現(xiàn)出了傳統(tǒng)方法難以企及的能力。無論是折疊衣物還是組裝紙盒,系統(tǒng)都能夠實時適應物體的形變,調整抓取點和操作策略。這種能力的獲得主要依賴于GE-Base強大的視覺理解能力,它能夠準確識別和預測可變形物體的狀態(tài)變化。
說到底,Genie Envisioner代表了機器人技術發(fā)展的一個重要里程碑。它成功地將視頻生成、語言理解、動作控制和環(huán)境仿真統(tǒng)一到了一個框架中,創(chuàng)造了一種全新的機器人智能實現(xiàn)方式。這個系統(tǒng)不僅在技術上實現(xiàn)了突破,更重要的是它展示了一條通向通用機器人智能的可行路徑。
傳統(tǒng)的機器人系統(tǒng)往往需要針對特定任務進行專門設計和調優(yōu),就像為每道菜都配備專用廚具的廚房。而Genie Envisioner更像是一個技藝高超的多面手廚師,能夠憑借深厚的經(jīng)驗和靈活的思維應對各種烹飪挑戰(zhàn)。這種通用性和適應性對于機器人技術的產(chǎn)業(yè)化應用具有重要意義。
當然,這項研究也還存在一些局限性。目前的系統(tǒng)主要專注于桌面操作任務,使用的是平行爪夾持器。更復雜的全身運動、靈巧手操作以及移動操作等能力還有待進一步開發(fā)。此外,評估方法雖然相比傳統(tǒng)標準有了很大改進,但仍然依賴于代理指標和部分人工驗證。
不過,這些局限性并不能掩蓋Genie Envisioner的重要價值。它為機器人智能研究開辟了一個新的方向,證明了基于大規(guī)模數(shù)據(jù)和生成模型的技術路線的可行性。隨著數(shù)據(jù)規(guī)模的進一步擴大、算法的持續(xù)優(yōu)化以及硬件性能的提升,我們有理由期待這種技術能夠在不遠的將來真正走入千家萬戶,成為人們日常生活的智能助手。
這項研究的意義不僅在于技術本身,更在于它所代表的思路轉變——從精確建模到經(jīng)驗學習,從特定任務到通用能力,從獨立系統(tǒng)到統(tǒng)一平臺。這種轉變可能會深刻影響整個機器人產(chǎn)業(yè)的發(fā)展方向,推動智能機器人技術向更高水平邁進。對于關注人工智能發(fā)展的讀者來說,Genie Envisioner無疑是一個值得持續(xù)關注的重要進展。
Q&A
Q1:Genie Envisioner是什么?它與傳統(tǒng)機器人有什么不同?
A:Genie Envisioner是由AgiBot團隊開發(fā)的機器人操作統(tǒng)一平臺,最大的不同在于它能讓機器人像人類一樣先"想象"再行動。傳統(tǒng)機器人需要復雜的物理建模和數(shù)學計算,而GE通過學習大量操作視頻,讓機器人能夠預測行動結果并制定最佳策略,就像經(jīng)驗豐富的廚師憑直覺做菜一樣。
Q2:這個系統(tǒng)需要多少數(shù)據(jù)才能訓練出來?普通人能使用嗎?
A:研究團隊使用了包含約100萬個機器人操作視頻片段的AgiBot-World-Beta數(shù)據(jù)集,總時長近3000小時。目前這還是一個科研項目,普通消費者暫時無法直接使用。不過研究團隊承諾會開源所有代碼和模型,這意味著未來可能會有更多公司基于這項技術開發(fā)實用產(chǎn)品。
Q3:Genie Envisioner能夠適應不同類型的機器人嗎?
A:是的,這是它的一大優(yōu)勢。系統(tǒng)能夠快速適應不同平臺,比如從AgiBot G1轉換到Agilex Cobot Magic或雙臂Franka機器人,只需要約一小時的適應數(shù)據(jù)。這種跨平臺能力大大降低了系統(tǒng)部署成本,讓同一套"大腦"可以控制不同"身體"的機器人。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。