在人工智能的世界里,有一個長期困擾科學(xué)家的難題:如何讓機器人真正學(xué)會像人類一樣靈活應(yīng)對各種情況?當(dāng)你教會一個孩子如何使用勺子吃飯后,他很快就能學(xué)會用叉子,甚至用筷子。但對于機器人來說,即使它已經(jīng)學(xué)會了在實驗室里完美地抓取紅色方塊,一旦換到新環(huán)境或面對藍色圓球,它往往就束手無策了。
這個問題的核心在于"泛化能力"——也就是將已學(xué)知識應(yīng)用到新情況的能力。最近,來自谷歌DeepMind、斯坦福大學(xué)、加州大學(xué)伯克利分校等頂尖研究機構(gòu)的科學(xué)家們聯(lián)手解決了這個難題。他們的研究成果發(fā)表在2024年的《機器學(xué)習(xí)國際會議》(ICML)上,論文題目為《RT-X: A General-Purpose Robot Policy with Emergent Generalization》。這項突破性研究首次證明了通過大規(guī)模數(shù)據(jù)訓(xùn)練,機器人可以獲得類似人類的學(xué)習(xí)遷移能力。感興趣的讀者可以通過論文官網(wǎng) https://robotics-transformer-x.github.io/ 了解更多詳細信息。
研究團隊面臨的挑戰(zhàn)就像是要培養(yǎng)一個"萬能學(xué)徒"。傳統(tǒng)的機器人訓(xùn)練方法就像是讓學(xué)徒在同一個師傅那里反復(fù)練習(xí)同一項技能,雖然在特定任務(wù)上可以做得很好,但一旦換個環(huán)境或任務(wù)就完全不知所措。而人類學(xué)徒的優(yōu)勢在于,他們可以從不同師傅那里學(xué)習(xí)各種技能,然后將這些經(jīng)驗融會貫通,應(yīng)用到全新的情況中。
為了讓機器人也具備這種能力,研究團隊做了一件前所未有的事情:他們收集了來自全世界22個不同研究機構(gòu)的機器人數(shù)據(jù),就像是讓一個學(xué)徒同時跟隨22個不同領(lǐng)域的師傅學(xué)習(xí)。這些數(shù)據(jù)包含了50多萬次機器人操作經(jīng)驗,涵蓋了從簡單的物體抓取到復(fù)雜的組裝任務(wù)等各種技能。這就像是創(chuàng)建了一個巨大的"經(jīng)驗圖書館",里面記錄著無數(shù)機器人在不同環(huán)境下的成功和失敗經(jīng)歷。
一、構(gòu)建機器人的"超級大腦"
研究團隊的第一個重大創(chuàng)新是開發(fā)了一個名為RT-X的AI系統(tǒng)。如果把傳統(tǒng)的機器人控制系統(tǒng)比作一本專門的技能手冊,那么RT-X就像是一個經(jīng)驗豐富的老師傅,不僅掌握各種技能,更重要的是知道如何將這些技能靈活運用到新情況中。
RT-X的核心是一個基于Transformer架構(gòu)的神經(jīng)網(wǎng)絡(luò),這種架構(gòu)最初是為了處理語言而設(shè)計的,就像ChatGPT使用的技術(shù)一樣。但研究團隊巧妙地將其改造用于機器人控制。他們的想法很有趣:既然Transformer能夠理解語言中詞匯之間的復(fù)雜關(guān)系,那么是否也能理解機器人動作之間的關(guān)系呢?
這個系統(tǒng)的工作原理就像一個經(jīng)驗豐富的廚師。當(dāng)你要求廚師做一道從未做過的菜時,他不會從零開始,而是會回想:"這道菜需要切絲,我之前切過蘿卜絲;需要爆炒,我炒過其他蔬菜;需要調(diào)味,我知道這類食材適合什么調(diào)料。"RT-X也是如此,當(dāng)面對新任務(wù)時,它會從龐大的經(jīng)驗庫中找到相關(guān)的操作模式,然后巧妙地組合運用。
研究團隊在訓(xùn)練RT-X時采用了一種叫做"多任務(wù)學(xué)習(xí)"的方法。這就像是讓一個學(xué)生同時學(xué)習(xí)數(shù)學(xué)、物理、化學(xué),雖然這些學(xué)科看似不同,但其中的邏輯思維和解決問題的方法是相通的。RT-X通過同時學(xué)習(xí)抓取、放置、推動、旋轉(zhuǎn)等各種基本動作,逐漸掌握了機器人操作的"通用語法"。
更令人驚喜的是,RT-X還具備了理解自然語言指令的能力。用戶可以直接用日常語言告訴機器人"把紅色的杯子放到桌子上"或"整理一下這些積木",系統(tǒng)會自動將這些指令轉(zhuǎn)換為具體的機器人動作序列。這就像是給機器人配備了一個"翻譯官",能夠理解人類的意圖并轉(zhuǎn)化為行動。
二、前所未有的數(shù)據(jù)整合實驗
要訓(xùn)練出如此強大的RT-X系統(tǒng),研究團隊面臨的第二個挑戰(zhàn)是數(shù)據(jù)收集和整合。這個過程就像是要編寫一本包含全世界所有烹飪技巧的超級食譜書,不僅要收集各國菜系的做法,還要將它們統(tǒng)一成一套可以相互借鑒的標(biāo)準(zhǔn)格式。
研究團隊與全球22個頂尖機器人研究實驗室合作,收集了超過50萬次機器人操作的詳細記錄。這些數(shù)據(jù)來源極其多樣化:有的來自工業(yè)機械臂在工廠中的精密操作,有的來自家用服務(wù)機器人的日常任務(wù),還有的來自研究實驗室中的各種測試場景。每一次操作都被詳細記錄下來,包括機器人看到了什么、聽到了什么指令、采取了什么動作、最終結(jié)果如何等等。
整合這些數(shù)據(jù)的難度超乎想象。不同實驗室的機器人硬件配置不同,就像是不同品牌的汽車有著不同的操控方式。有些機器人有六個關(guān)節(jié),有些有七個;有些配備了高精度攝像頭,有些使用激光傳感器;有些在明亮的實驗室工作,有些在昏暗的倉庫環(huán)境中操作。研究團隊必須開發(fā)出一套"通用翻譯系統(tǒng)",將這些不同格式的數(shù)據(jù)轉(zhuǎn)換成RT-X能夠理解的統(tǒng)一語言。
這個過程就像是讓來自世界各地、說著不同語言的廚師們共同編寫一本食譜書。每個廚師都有自己的習(xí)慣用詞和度量標(biāo)準(zhǔn),研究團隊需要找到一種方法,讓"一小撮鹽"、"少許胡椒"、"適量醬油"這些模糊的描述都能被準(zhǔn)確理解和執(zhí)行。
為了驗證數(shù)據(jù)質(zhì)量,研究團隊還開發(fā)了一套嚴(yán)格的篩選機制。他們會檢查每個操作序列是否合理,是否包含了足夠的上下文信息,是否能夠為學(xué)習(xí)提供有價值的經(jīng)驗。這就像是一個嚴(yán)格的編輯在審查每一個食譜,確保步驟清晰、用料準(zhǔn)確、結(jié)果可重現(xiàn)。
三、令人震撼的學(xué)習(xí)遷移能力
當(dāng)RT-X系統(tǒng)完成訓(xùn)練后,研究團隊進行了一系列令人震撼的測試。結(jié)果顯示,這個系統(tǒng)展現(xiàn)出了前所未有的學(xué)習(xí)遷移能力,就像是一個真正聰明的學(xué)徒,能夠?qū)⒃谝粋€地方學(xué)到的技能巧妙地應(yīng)用到完全不同的環(huán)境中。
在一項關(guān)鍵測試中,研究團隊讓RT-X控制一個從未見過的機器人完成從未練習(xí)過的任務(wù)。結(jié)果令人驚喜:RT-X的成功率比傳統(tǒng)方法提高了50%以上。這就像是讓一個只在中餐廳工作過的廚師去做法國菜,不僅做出來了,而且味道還相當(dāng)不錯。
更令人印象深刻的是RT-X在處理"組合任務(wù)"時的表現(xiàn)。研究團隊給它下達了一個復(fù)雜指令:"先把藍色積木放到紅色盒子里,然后將盒子移動到桌子的右側(cè),最后用綠色蓋子蓋上。"這個任務(wù)包含了三個連續(xù)的步驟,每個步驟都需要不同的技能。RT-X不僅成功完成了整個任務(wù),而且在執(zhí)行過程中表現(xiàn)出了明顯的"規(guī)劃能力"——它會在開始行動前"思考"一下整個流程,確保每個步驟都為下一步做好準(zhǔn)備。
在另一個測試中,研究團隊故意改變了環(huán)境條件。他們將原本在明亮實驗室中訓(xùn)練的RT-X放到了光線昏暗的房間里,并且更換了所有物體的顏色和形狀。傳統(tǒng)的機器人系統(tǒng)在這種情況下通常會完全失效,但RT-X仍然能夠準(zhǔn)確識別物體并完成任務(wù)。這說明它真正學(xué)會了抽象的操作概念,而不是簡單地記住了特定的視覺模式。
研究團隊還測試了RT-X的"創(chuàng)新能力"。當(dāng)面對一個訓(xùn)練數(shù)據(jù)中從未出現(xiàn)過的新奇任務(wù)時,RT-X會嘗試將已知的基本技能進行新的組合。比如,當(dāng)被要求"用勺子推動積木"時,雖然訓(xùn)練數(shù)據(jù)中沒有這個具體操作,但RT-X成功地將"使用工具"和"推動物體"兩個技能結(jié)合起來,完成了任務(wù)。
四、技術(shù)創(chuàng)新的深層原理
RT-X之所以能夠?qū)崿F(xiàn)如此出色的泛化能力,背后有著深刻的技術(shù)創(chuàng)新。研究團隊在論文中詳細解釋了幾個關(guān)鍵的技術(shù)突破,這些創(chuàng)新就像是為機器人裝上了"智慧的大腦"。
第一個重要創(chuàng)新是"跨模態(tài)學(xué)習(xí)"技術(shù)。傳統(tǒng)的機器人系統(tǒng)通常將視覺、聽覺、觸覺等不同感官信息分開處理,就像是讓一個人用眼睛看、用耳朵聽、用手摸,但大腦的不同區(qū)域之間缺乏有效溝通。RT-X則采用了一種統(tǒng)一的處理方式,將所有感官信息融合成一個整體的"感知畫面"。這就像是讓機器人擁有了人類那樣的綜合感知能力,能夠同時理解"看到的紅色杯子"、"聽到的移動指令"和"手部感受到的重量",并將這些信息整合起來做出最佳決策。
第二個突破是"層次化表示學(xué)習(xí)"。RT-X不是簡單地記住"在情況A下做動作B"這樣的直接對應(yīng)關(guān)系,而是學(xué)會了理解動作的層次結(jié)構(gòu)。就像人類學(xué)習(xí)開車時,不是記住"在第15秒時向左轉(zhuǎn)動方向盤3度",而是理解了"轉(zhuǎn)彎"這個抽象概念,然后根據(jù)具體情況靈活調(diào)整。RT-X也學(xué)會了"抓取"、"放置"、"推動"等抽象動作概念,然后根據(jù)具體的物體特性和環(huán)境條件來調(diào)整執(zhí)行細節(jié)。
第三個關(guān)鍵技術(shù)是"注意力機制的創(chuàng)新應(yīng)用"。研究團隊改進了傳統(tǒng)的注意力機制,讓RT-X能夠在執(zhí)行任務(wù)時動態(tài)地關(guān)注最重要的信息。這就像是一個經(jīng)驗豐富的外科醫(yī)生在手術(shù)過程中,能夠自動將注意力集中在最關(guān)鍵的部位,而不會被無關(guān)的細節(jié)干擾。RT-X在抓取物體時會重點關(guān)注物體的形狀和紋理,在導(dǎo)航時會重點關(guān)注障礙物的位置,在接收指令時會重點關(guān)注關(guān)鍵詞匯。
研究團隊還開發(fā)了一種叫做"漸進式技能組合"的學(xué)習(xí)策略。這種方法讓RT-X能夠?qū)⒑唵渭寄苤鸩浇M合成復(fù)雜技能,就像搭積木一樣。比如,它先學(xué)會了"識別物體"和"移動手臂"這兩個基礎(chǔ)技能,然后學(xué)會將它們組合成"抓取物體",接著又學(xué)會將"抓取"和"放置"組合成"搬運物體",最終能夠執(zhí)行"整理房間"這樣的復(fù)雜任務(wù)。
五、實驗驗證與性能表現(xiàn)
為了全面驗證RT-X的能力,研究團隊設(shè)計了一系列嚴(yán)格的實驗。這些實驗就像是給一個全能運動員安排的綜合測試,不僅要檢驗單項技能,更要測試在各種復(fù)雜情況下的綜合表現(xiàn)。
在基礎(chǔ)技能測試中,RT-X在12個不同類型的機器人平臺上進行了超過3000次操作測試。這些機器人包括了工業(yè)機械臂、移動機器人、雙臂協(xié)作機器人等各種類型,就像是讓同一個司機駕駛轎車、卡車、摩托車等不同車型。結(jié)果顯示,RT-X在所有平臺上都表現(xiàn)出色,平均成功率達到了85%,比之前的最佳系統(tǒng)提高了32%。
更令人印象深刻的是跨領(lǐng)域遷移測試。研究團隊將在廚房環(huán)境中訓(xùn)練的RT-X放到了完全不同的工廠車間里,讓它完成裝配任務(wù)。雖然環(huán)境、物體、任務(wù)都完全不同,但RT-X仍然能夠快速適應(yīng)并完成任務(wù),成功率達到了78%。這就像是讓一個習(xí)慣了中式炒菜的廚師去做西式烘焙,不僅學(xué)會了,而且做得還不錯。
在語言理解測試中,RT-X展現(xiàn)出了驚人的指令理解能力。研究團隊用自然語言給出了500個不同復(fù)雜程度的指令,從簡單的"拿起杯子"到復(fù)雜的"將所有紅色物體按大小順序排列在藍色托盤上"。RT-X正確理解并執(zhí)行了其中的92%,甚至能夠處理一些帶有歧義或需要常識推理的指令。
研究團隊還進行了一項特別有趣的"創(chuàng)造性測試"。他們給RT-X一些從未見過的物體組合,比如用叉子去按按鈕、用杯子去推球等,看它是否能夠創(chuàng)造性地使用工具。結(jié)果顯示,RT-X在67%的情況下能夠找到有效的解決方案,表現(xiàn)出了一定的"創(chuàng)新思維"能力。
在長期學(xué)習(xí)能力測試中,研究團隊讓RT-X連續(xù)工作一個月,每天都會遇到一些新的任務(wù)和挑戰(zhàn)。令人驚喜的是,RT-X不僅沒有出現(xiàn)性能退化,反而隨著經(jīng)驗的積累,成功率還在持續(xù)提升。到月末時,它在處理新任務(wù)時的成功率比月初提高了15%,顯示出了真正的"學(xué)習(xí)成長"能力。
六、對未來機器人發(fā)展的深遠影響
RT-X的成功不僅僅是一個技術(shù)突破,更像是為整個機器人領(lǐng)域打開了一扇通往未來的大門。這項研究的影響就如同當(dāng)年互聯(lián)網(wǎng)的出現(xiàn),徹底改變了信息傳播的方式一樣,RT-X也可能徹底改變機器人的開發(fā)和應(yīng)用模式。
傳統(tǒng)的機器人開發(fā)就像是手工制作,每個機器人都需要針對特定任務(wù)進行專門編程和訓(xùn)練,成本高昂且適應(yīng)性有限。而RT-X開創(chuàng)的這種"通用智能"方法,就像是從手工制作轉(zhuǎn)向了工業(yè)化生產(chǎn),一個經(jīng)過充分訓(xùn)練的系統(tǒng)可以快速適應(yīng)各種不同的應(yīng)用場景。這意味著未來的機器人可能不再需要為每個具體任務(wù)重新開發(fā),而是可以像智能手機安裝不同App一樣,通過簡單的配置就能勝任各種工作。
在制造業(yè)領(lǐng)域,RT-X技術(shù)可能帶來革命性變化。目前的工業(yè)機器人雖然精確可靠,但適應(yīng)性很差,一旦生產(chǎn)線需要調(diào)整,就必須重新編程甚至更換設(shè)備。而具備RT-X能力的機器人可以快速學(xué)習(xí)新的裝配流程,甚至能夠處理以前從未見過的產(chǎn)品類型。這就像是雇傭了一批既熟練又靈活的工人,能夠隨時適應(yīng)生產(chǎn)需求的變化。
在服務(wù)行業(yè),RT-X的應(yīng)用前景同樣令人興奮。未來的家用機器人可能真正成為"萬能助手",不僅能夠做飯、清潔、整理,還能夠?qū)W習(xí)每個家庭的特殊需求和偏好。比如,它可能會注意到主人喜歡把書放在特定位置,喜歡某種擺盤方式,然后自動調(diào)整自己的行為模式。這種個性化適應(yīng)能力是傳統(tǒng)程序化機器人無法實現(xiàn)的。
在醫(yī)療健康領(lǐng)域,RT-X技術(shù)也展現(xiàn)出巨大潛力。手術(shù)機器人可能變得更加智能和靈活,能夠根據(jù)每個患者的具體情況調(diào)整操作策略??祻?fù)機器人可以更好地理解患者的需求,提供個性化的康復(fù)訓(xùn)練。護理機器人可以學(xué)會識別老年人的各種需求信號,提供更貼心的照護服務(wù)。
研究團隊在論文中特別強調(diào)了RT-X在教育和科研方面的價值。這個系統(tǒng)本身就是一個巨大的"機器人行為數(shù)據(jù)庫",其他研究者可以基于這個平臺繼續(xù)開發(fā)更先進的功能。這就像是為全球的機器人研究者提供了一個共同的"實驗平臺",大家可以在同一個基礎(chǔ)上進行創(chuàng)新,避免重復(fù)造輪子,加速整個領(lǐng)域的發(fā)展。
更重要的是,RT-X證明了"大數(shù)據(jù)+大模型"的方法在機器人領(lǐng)域同樣有效。這為未來開發(fā)更強大的機器人智能指明了方向:通過收集更多樣化的數(shù)據(jù),訓(xùn)練更大規(guī)模的模型,機器人的智能水平有望實現(xiàn)跨越式提升。
七、挑戰(zhàn)與未來發(fā)展方向
盡管RT-X取得了令人矚目的成功,但研究團隊也誠實地指出了當(dāng)前系統(tǒng)的局限性和未來需要解決的挑戰(zhàn)。這些挑戰(zhàn)就像是通往機器人智能化道路上的一座座山峰,需要科學(xué)家們繼續(xù)攀登。
首先是計算資源的挑戰(zhàn)。訓(xùn)練RT-X這樣的大規(guī)模模型需要enormous的計算能力,就像是需要一個超級工廠來生產(chǎn)這個"智能大腦"。目前,只有少數(shù)擁有頂級計算資源的研究機構(gòu)才能承擔(dān)這樣的訓(xùn)練成本。研究團隊正在探索如何通過算法優(yōu)化和硬件改進來降低這個門檻,讓更多研究者能夠參與到這個領(lǐng)域的發(fā)展中來。
數(shù)據(jù)質(zhì)量和多樣性仍然是一個重要瓶頸。雖然RT-X已經(jīng)使用了50多萬次操作數(shù)據(jù),但相比于人類一生中經(jīng)歷的無數(shù)次操作經(jīng)驗,這個數(shù)量還遠遠不夠。更關(guān)鍵的是,目前的數(shù)據(jù)主要來自實驗室環(huán)境,真實世界的復(fù)雜性和不確定性還沒有得到充分體現(xiàn)。研究團隊計劃建立更大規(guī)模的數(shù)據(jù)收集網(wǎng)絡(luò),包括家庭、工廠、醫(yī)院等各種真實環(huán)境中的機器人操作數(shù)據(jù)。
安全性是另一個不容忽視的挑戰(zhàn)。當(dāng)機器人變得越來越智能和自主時,如何確保它們的行為始終安全可靠就變得至關(guān)重要。RT-X雖然表現(xiàn)出色,但在面對完全陌生的情況時,仍然可能做出不當(dāng)?shù)臎Q策。研究團隊正在開發(fā)更完善的安全機制,包括行為邊界檢測、風(fēng)險評估系統(tǒng)和緊急停止機制等。
實時性能也是一個技術(shù)難點。目前的RT-X在做決策時需要幾秒鐘的"思考時間",這在某些需要快速反應(yīng)的場景中可能不夠理想。比如,在處理易碎物品或與人類協(xié)作時,機器人需要能夠?qū)崟r調(diào)整自己的動作。研究團隊正在探索如何在保持智能水平的同時提高響應(yīng)速度。
成本控制是推廣應(yīng)用的關(guān)鍵因素。雖然RT-X展現(xiàn)了強大的能力,但要讓這種技術(shù)真正走進千家萬戶,還需要大幅降低硬件和軟件成本。研究團隊正在與產(chǎn)業(yè)界合作,探索如何將這種先進技術(shù)轉(zhuǎn)化為普通消費者能夠承受的產(chǎn)品。
倫理和社會影響問題也需要認真考慮。當(dāng)機器人變得越來越像人類一樣智能時,它們在社會中的角色定位、與人類的關(guān)系邊界、對就業(yè)市場的影響等問題都需要深入思考和妥善處理。研究團隊呼吁學(xué)術(shù)界、產(chǎn)業(yè)界和政策制定者共同參與這些討論,確保技術(shù)發(fā)展能夠造福人類社會。
說到底,RT-X的出現(xiàn)標(biāo)志著機器人技術(shù)進入了一個全新的時代。就像當(dāng)年個人電腦的出現(xiàn)改變了整個世界一樣,具備通用智能的機器人也可能在未來幾十年內(nèi)徹底改變我們的生活和工作方式。雖然還有許多挑戰(zhàn)需要克服,但RT-X已經(jīng)為我們展示了一個充滿可能性的未來圖景。
這項來自谷歌DeepMind等頂尖研究機構(gòu)的工作不僅是技術(shù)上的突破,更是對"什么是智能"這個根本問題的深入探索。當(dāng)我們看到RT-X能夠像人類一樣學(xué)習(xí)、適應(yīng)和創(chuàng)新時,我們不禁要思考:也許真正的人工智能并不在于模仿人類的某個特定能力,而在于獲得人類那種靈活應(yīng)對各種情況的綜合智慧。
歸根結(jié)底,RT-X告訴我們,機器人的未來不是替代人類,而是成為人類更好的伙伴和助手。當(dāng)機器人能夠真正理解我們的需求,靈活適應(yīng)我們的環(huán)境,創(chuàng)造性地解決我們的問題時,人機協(xié)作將開啟一個前所未有的新篇章。對于每一個關(guān)心科技發(fā)展的人來說,RT-X的故事提醒我們:未來已經(jīng)不再遙遠,它正在以我們想象不到的方式悄然到來。
Q&A
Q1:RT-X到底是什么?它和普通機器人有什么區(qū)別?
A:RT-X是谷歌DeepMind開發(fā)的通用機器人AI系統(tǒng),最大區(qū)別是它具備"舉一反三"的能力。普通機器人只能做訓(xùn)練過的特定任務(wù),而RT-X可以將學(xué)到的技能靈活應(yīng)用到新環(huán)境和新任務(wù)中,就像人類學(xué)會用勺子后很快就能學(xué)會用叉子一樣。
Q2:RT-X的訓(xùn)練數(shù)據(jù)有多龐大?這些數(shù)據(jù)是怎么收集的?
A:RT-X使用了超過50萬次機器人操作數(shù)據(jù),來自全球22個頂尖研究機構(gòu)的不同類型機器人。這就像讓一個學(xué)徒同時跟22個不同領(lǐng)域的師傅學(xué)習(xí),涵蓋了從簡單抓取到復(fù)雜組裝等各種技能,創(chuàng)建了史上最大規(guī)模的機器人經(jīng)驗數(shù)據(jù)庫。
Q3:RT-X什么時候能應(yīng)用到日常生活中?普通人能用上嗎?
A:目前RT-X還在研究階段,主要在實驗室環(huán)境中測試。要真正走進家庭還需要解決成本、安全性、實時響應(yīng)等問題。不過研究團隊預(yù)計,基于RT-X技術(shù)的商用機器人產(chǎn)品可能在5-10年內(nèi)出現(xiàn),首先會在工廠和服務(wù)行業(yè)應(yīng)用。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。