這項(xiàng)由北京大學(xué)的李政道、張澤宇、唐豪團(tuán)隊(duì)以及江蘇大學(xué)的王思恒等研究人員共同完成的突破性研究,發(fā)表于2025年8月的arXiv預(yù)印本平臺。有興趣深入了解的讀者可以通過GitHub項(xiàng)目頁面(https://github.com/AIGeeksGroup/ReMoMask)或項(xiàng)目網(wǎng)站(https://aigeeksgroup.github.io/ReMoMask)訪問完整論文和代碼。
在我們生活的數(shù)字時代,電影制作、游戲開發(fā)和虛擬現(xiàn)實(shí)體驗(yàn)正變得越來越重要。然而,制作逼真的人體動作動畫一直是個巨大的挑戰(zhàn)。設(shè)想你想制作一部動畫電影,需要角色做出"一個人在圈子里走路"這樣的動作,傳統(tǒng)方法需要動畫師花費(fèi)大量時間手工制作每一幀畫面。而現(xiàn)在,研究團(tuán)隊(duì)開發(fā)出了一個名為ReMoMask的AI系統(tǒng),它就像一個智能動畫師,只需要你用自然語言描述想要的動作,比如"一個人正在繞圈行走",系統(tǒng)就能自動生成對應(yīng)的3D人體動作序列。
這項(xiàng)研究的核心創(chuàng)新在于將文本描述轉(zhuǎn)換為逼真的人體動作。可以把這個過程比作一個精通多種語言的翻譯官,它能將我們?nèi)粘S玫奈淖置枋?翻譯"成計算機(jī)能理解并生成的動作序列。研究團(tuán)隊(duì)在這個領(lǐng)域取得了顯著突破,在權(quán)威的HumanML3D數(shù)據(jù)集上,他們的方法比之前的最佳技術(shù)提升了3.88%的FID評分,在KIT-ML數(shù)據(jù)集上更是實(shí)現(xiàn)了10.97%的驚人提升。這種提升意味著生成的動作更加自然、逼真,更符合人們的期待。
一、智能動作生成的雙重挑戰(zhàn)
要理解這項(xiàng)研究的重要性,我們需要先了解當(dāng)前文本到動作生成技術(shù)面臨的困境。就像烹飪一道復(fù)雜菜肴時會遇到各種問題一樣,現(xiàn)有的AI動作生成技術(shù)也面臨著兩大類挑戰(zhàn)。
第一類挑戰(zhàn)來自于傳統(tǒng)的生成模型,比如擴(kuò)散模型。這些模型就像一個缺乏經(jīng)驗(yàn)的廚師,雖然能做出菜,但往往缺乏創(chuàng)意,做出的菜品種類有限,而且容易在制作過程中出錯,最終端上桌的菜可能看起來不太自然,甚至違反了基本的烹飪規(guī)律。具體到動作生成上,這些模型會產(chǎn)生動作多樣性不足、錯誤累積以及物理上不合理的問題。比如生成的人物可能會做出違反人體關(guān)節(jié)限制的動作,或者動作缺乏自然的連貫性。
第二類挑戰(zhàn)則來自于檢索增強(qiáng)生成方法。這類方法就像一個過度依賴食譜的廚師,雖然會參考大量現(xiàn)有的成功案例(從數(shù)據(jù)庫中檢索相關(guān)信息),但在融合這些參考信息時經(jīng)常出現(xiàn)問題。具體表現(xiàn)為擴(kuò)散惰性(生成過程過于保守)、部分模式崩塌(只能生成有限種類的動作)以及異步偽影(動作的不同部分不協(xié)調(diào))。這就像廚師參考了多個食譜,但在組合時沒有處理好各種食材的搭配時間,結(jié)果有些食材過熟,有些還是生的。
研究團(tuán)隊(duì)敏銳地觀察到,這些挑戰(zhàn)的根本原因在于兩個關(guān)鍵問題。首先,現(xiàn)有的動作檢索器在訓(xùn)練時受到小批量限制,就像在一個小廚房里只能同時處理少量食材,無法接觸到足夠多樣的"負(fù)樣本"來學(xué)習(xí)區(qū)分好壞。其次,簡單地將文本條件與一維動作標(biāo)記連接起來,無法有效建模文本條件、動作時空信息和檢索知識之間的復(fù)雜關(guān)系,就像用簡單的攪拌無法讓不同特性的食材充分融合。
這些觀察為團(tuán)隊(duì)指明了解決方向:需要一個能夠處理更大規(guī)模負(fù)樣本池的檢索訓(xùn)練范式,以及一個更強(qiáng)大的信息融合機(jī)制,能夠同時處理動作的時間動態(tài)和空間結(jié)構(gòu)。
二、三重創(chuàng)新的技術(shù)突破
面對這些挑戰(zhàn),研究團(tuán)隊(duì)提出了ReMoMask框架,這個框架就像一個經(jīng)驗(yàn)豐富且裝備精良的專業(yè)廚房,配備了三個核心的創(chuàng)新"設(shè)備"。
首先是雙向動量文本-動作模型,這個組件解決了訓(xùn)練時負(fù)樣本不足的問題。傳統(tǒng)方法就像在一個小鍋里煮湯,只能放入有限的食材進(jìn)行對比學(xué)習(xí)。而這個新方法建立了兩個"動量隊(duì)列",就像擁有了兩個巨大的儲料倉,可以存儲大量的文本特征和動作特征作為負(fù)樣本。這些隊(duì)列通過指數(shù)移動平均的方式更新,確保存儲的樣本保持時間一致性。更重要的是,這種設(shè)計將負(fù)樣本池的大小從小批量的限制中解放出來,讓模型能夠接觸到成千上萬個對比樣本,大大提升了跨模態(tài)檢索的精度。
具?來說,這個系統(tǒng)維護(hù)兩個動量編碼器和對應(yīng)的隊(duì)列。當(dāng)處理一個訓(xùn)練批次時,模型不僅使用當(dāng)前批次中的負(fù)樣本,還使用隊(duì)列中存儲的歷史樣本。這就像廚師不僅使用今天采購的食材,還能使用之前精心保存的各種調(diào)料和配菜,讓每道菜的味道層次更加豐富。通過這種方式,文本到動作的對比學(xué)習(xí)變得更加有效,因?yàn)槟P湍軌驅(qū)W習(xí)區(qū)分當(dāng)前文本與大量不相關(guān)文本和動作的差異。
第二個核心創(chuàng)新是語義時空注意力機(jī)制。如果說傳統(tǒng)方法是用平底鍋簡單翻炒所有食材,那么這個機(jī)制就像是一個多層蒸籠,能夠精確控制不同層次食材的處理方式。該機(jī)制強(qiáng)制執(zhí)行生物力學(xué)約束,在部分級融合過程中消除異步偽影。
這個機(jī)制的工作原理是將動作序列量化為2D時空標(biāo)記圖,而不是傳統(tǒng)的1D標(biāo)記。這就像將一道菜的制作過程從線性的步驟序列轉(zhuǎn)變?yōu)橥瑫r考慮時間順序和空間布局的3D烹飪過程。在2D標(biāo)記圖中,時間維度捕獲動作的時序演變,空間維度則保留了人體關(guān)節(jié)之間的空間關(guān)系。當(dāng)進(jìn)行注意力計算時,系統(tǒng)重新定義了查詢、鍵值矩陣,將扁平化的時空向量作為查詢,將文本嵌入、檢索到的文本特征和動作特征連接作為鍵值對。這種設(shè)計確保了文本指導(dǎo)、檢索知識、動作時間動態(tài)和空間結(jié)構(gòu)之間的全面對齊。
第三個創(chuàng)新是檢索增強(qiáng)的無分類器指導(dǎo)。這個組件就像為整個烹飪過程添加了一個智能調(diào)味系統(tǒng),能夠根據(jù)情況自動調(diào)整"口味"。傳統(tǒng)的無分類器指導(dǎo)只考慮文本條件,而這個擴(kuò)展版本將文本嵌入、檢索的文本特征和檢索的動作特征都作為條件輸入。在訓(xùn)練過程中,系統(tǒng)會以10%的概率進(jìn)行無條件采樣,這就像廚師偶爾會嘗試不加調(diào)料的原味烹飪,讓系統(tǒng)學(xué)會在有指導(dǎo)和無指導(dǎo)之間找到平衡,從而增強(qiáng)泛化能力。
三、精妙的技術(shù)架構(gòu)設(shè)計
ReMoMask的整體架構(gòu)就像一個設(shè)計精良的流水線工廠,每個環(huán)節(jié)都經(jīng)過精心設(shè)計和優(yōu)化。整個系統(tǒng)建立在MoMask的RVQ-VAE基礎(chǔ)之上,但進(jìn)行了重要的2D擴(kuò)展和增強(qiáng)。
系統(tǒng)的核心是2D殘差向量量化變分自編碼器。與傳統(tǒng)的1D量化不同,這個組件將動作序列編碼為2D潛在特征,就像將一部電影從單純的時間序列轉(zhuǎn)換為同時包含時間和空間信息的復(fù)合表示。編碼過程使用2D卷積編碼器,然后應(yīng)用多層殘差向量量化,每一層都捕獲不同級別的動作細(xì)節(jié)。解碼時,系統(tǒng)將量化后的表示通過2D卷積解碼器重建為原始動作序列。
在生成階段,系統(tǒng)使用兩個不同的transformer結(jié)構(gòu)。2D檢索增強(qiáng)掩碼transformer負(fù)責(zé)生成基礎(chǔ)層標(biāo)記,它利用語義時空注意力機(jī)制融合文本條件和檢索信息。這個transformer從完全掩碼的2D標(biāo)記圖開始,通過多次迭代逐步預(yù)測被掩碼的標(biāo)記。而2D殘差transformer則負(fù)責(zé)細(xì)化剩余的標(biāo)記層,捕獲精細(xì)的動作細(xì)節(jié)。
部分級雙向動量模型的訓(xùn)練是整個系統(tǒng)的關(guān)鍵環(huán)節(jié)。為了建模精細(xì)的動作細(xì)節(jié),系統(tǒng)將全身動作分解為六個部分:四肢、脊柱和根部。每個部分都單獨(dú)編碼,然后連接并重投影到潛在維度以產(chǎn)生精細(xì)的動作特征。這種設(shè)計使得檢索能夠在更細(xì)粒度的級別上進(jìn)行,就像專業(yè)廚師會分別處理每種食材的特點(diǎn),然后再進(jìn)行最終的組合。
訓(xùn)練過程采用了精心設(shè)計的掩碼策略。系統(tǒng)首先沿時間維度隨機(jī)掩碼,然后在未掩碼的幀上沿空間維度隨機(jī)掩碼。這種2D掩碼策略確保模型既能學(xué)習(xí)時間連續(xù)性,也能理解空間結(jié)構(gòu)。同時,系統(tǒng)采用掩碼比例調(diào)度和BERT風(fēng)格的重掩碼策略,讓訓(xùn)練過程更加穩(wěn)定和有效。
四、卓越的實(shí)驗(yàn)表現(xiàn)
研究團(tuán)隊(duì)在兩個權(quán)威數(shù)據(jù)集上進(jìn)行了全面的實(shí)驗(yàn)驗(yàn)證,結(jié)果令人印象深刻。HumanML3D數(shù)據(jù)集是目前最大的專門針對3D人體動作和文本描述的數(shù)據(jù)集,包含14616個動作序列和44970個文本描述。KIT-ML數(shù)據(jù)集則包含3911個動作和6278個文本。這兩個數(shù)據(jù)集為評估提供了豐富的測試場景。
在HumanML3D數(shù)據(jù)集上,ReMoMask在多個關(guān)鍵指標(biāo)上都取得了最佳性能。R-Precision指標(biāo)顯示,該方法在Top1、Top2、Top3檢索精度上分別達(dá)到了53.1%、72.2%和81.3%,超越了之前的最佳方法。更重要的是,F(xiàn)ID分?jǐn)?shù)降至0.099,相比之前的SOTA方法RAG-T2M實(shí)現(xiàn)了3.88%的顯著提升。MM Dist分?jǐn)?shù)為2.865,也達(dá)到了新的最佳水平。這些數(shù)字背后意味著生成的動作與真實(shí)動作在分布上更加接近,語義對齊度更高。
在KIT-ML數(shù)據(jù)集上,改進(jìn)更加顯著。ReMoMask的FID分?jǐn)?shù)為0.138,相比之前最佳方法實(shí)現(xiàn)了10.97%的大幅提升。R-Precision在各個層級都表現(xiàn)出色,Top1達(dá)到45.3%,Top3達(dá)到80.5%。這種跨數(shù)據(jù)集的一致性表現(xiàn)證明了方法的泛化能力。
研究團(tuán)隊(duì)還專門評估了檢索模塊的性能。在文本到動作檢索任務(wù)中,雙向動量模型在R1、R2、R3、R5指標(biāo)上分別達(dá)到13.76%、21.03%、25.63%、32.40%,全面超越了基線方法。雖然在R10指標(biāo)上略有不足,但整體性能仍然是最佳的。在動作到文本檢索任務(wù)中,該方法在R1和R3上表現(xiàn)最佳,分別達(dá)到14.80%和25.60%。
五、深入的消融實(shí)驗(yàn)分析
為了驗(yàn)證每個組件的有效性,研究團(tuán)隊(duì)進(jìn)行了詳盡的消融實(shí)驗(yàn)。這些實(shí)驗(yàn)就像一個優(yōu)秀廚師在開發(fā)新菜譜時,會單獨(dú)測試每種調(diào)料的作用一樣重要。
雙向動量模型的重要性通過數(shù)據(jù)得到了充分證明。當(dāng)移除BMM模塊時,Top1 R-Precision從53.1%下降到44.5%,降幅達(dá)16.2%,F(xiàn)ID分?jǐn)?shù)從0.411惡化到0.825,增幅高達(dá)50.18%。這表明大規(guī)模負(fù)樣本池對于跨模態(tài)對齊至關(guān)重要。進(jìn)一步的分析顯示,雙向隊(duì)列設(shè)計是關(guān)鍵因素。在文本到動作檢索中,使用雙向隊(duì)列比不使用隊(duì)列的R1提升了31.3%。更有趣的是,如果只使用單向隊(duì)列進(jìn)行動作到文本檢索,會導(dǎo)致災(zāi)難性失敗(R1僅為0.70%),而雙向隊(duì)列則能將R1提升41.0%至14.80%。
語義時空注意力機(jī)制的效果同樣顯著。當(dāng)用簡單的特征連接替換SSTA時,多模態(tài)性能崩塌了61.2%(從2.823降至1.094),MM Dist增加了6.1%(從2.865增至3.04)。這說明SSTA在保持動作多樣性方面發(fā)揮了關(guān)鍵作用。該機(jī)制通過2D注意力模式能夠同時建模時間動態(tài)和空間結(jié)構(gòu),避免了傳統(tǒng)1D方法的局限性。
檢索增強(qiáng)無分類器指導(dǎo)的貢獻(xiàn)也很明顯。當(dāng)停用RAG-CFG時,Top1 R-Precision下降22.6%(從53.1%降至41.1%),這證實(shí)了其在增強(qiáng)文本-動作一致性方面的有效性。該機(jī)制通過在訓(xùn)練時引入10%的無條件生成,讓模型學(xué)會平衡有指導(dǎo)和無指導(dǎo)的生成,從而提高了泛化能力。
局部檢索機(jī)制相比全局檢索也顯示出優(yōu)勢。使用全局檢索時,Top3 R-Precision下降9.8%(從81.3%降至73.3%),多樣性降低4.8%(從9.535降至9.08)。這表明細(xì)粒度的局部上下文檢索比粗粒度的全局檢索更有效。
六、用戶研究的真實(shí)反饋
除了客觀指標(biāo),研究團(tuán)隊(duì)還進(jìn)行了全面的用戶研究來評估生成動作的主觀質(zhì)量。他們隨機(jī)選擇了HumanML3D測試集中的20個文本提示,使用ReMoMask、當(dāng)前最佳的檢索增強(qiáng)方法ReMoDiffuse、生成模型MoMask以及真實(shí)動作生成對應(yīng)的動作序列。
用戶研究采用了強(qiáng)制選擇范式,參與者需要回答兩個關(guān)鍵問題:"哪個動作更真實(shí)?"和"哪個動作與文本提示對應(yīng)得更好?"為確保公平性,研究過程中隱藏了生成模型的名稱,并隨機(jī)化了呈現(xiàn)順序。超過50名參與者參與了這項(xiàng)評估。
結(jié)果令人鼓舞。在動作真實(shí)性方面,ReMoMask獲得了42%的偏好率超過真實(shí)動作。雖然真實(shí)動作來自人類數(shù)據(jù),但這個結(jié)果表明ReMoMask生成的動作在人眼中具有可比的真實(shí)感。更重要的是,該模型顯著優(yōu)于基線方法:相對于MoMask獲得67%的偏好率,相對于ReMoDiffuse獲得75%的偏好率。
在文本對應(yīng)性方面,ReMoMask獲得了47%的偏好率超過真實(shí)動作,這表明其生成的動作與文本提示的對齊程度接近人類水平。與基線方法相比,改進(jìn)更加顯著:相對于MoMask獲得72%的偏好率,相對于ReMoDiffuse獲得86%的偏好率。
這些用戶研究結(jié)果從主觀角度驗(yàn)證了客觀指標(biāo)的發(fā)現(xiàn),證明ReMoMask不僅在數(shù)值指標(biāo)上表現(xiàn)優(yōu)秀,在實(shí)際的人類感知中也確實(shí)產(chǎn)生了更自然、更符合描述的動作序列。
七、視覺效果的生動展示
研究團(tuán)隊(duì)提供的可視化結(jié)果清晰地展示了ReMoMask的能力。在隨機(jī)采樣的16個動作樣本中,系統(tǒng)展現(xiàn)了處理復(fù)雜動作模式的能力,包括方向轉(zhuǎn)換("走向前方,然后向右轉(zhuǎn)")、節(jié)奏性動作("舉手三次")以及語義豐富的行為("假裝是一只雞")。這些例子展示了模型在捕獲細(xì)致動作動態(tài)和時間轉(zhuǎn)換方面的熟練程度。
與MoGenTS、TMR和ReMoDiffuse的比較分析更加有說服力。當(dāng)基線模型生成步行或平衡等基本動作時,ReMoMask始終產(chǎn)生更自然的轉(zhuǎn)換。例如,對于"先向前走然后轉(zhuǎn)彎"的描述,基線方法可能只生成簡單的線性運(yùn)動,而ReMoMask能夠生成包含明確轉(zhuǎn)彎動作的復(fù)雜序列。對于"向前跳三次"這樣的描述,ReMoMask生成的是物理上合理的多步跳躍序列,而不是單一重復(fù)動作。
這些視覺比較突出了ReMoMask在處理動作復(fù)雜性和行為表現(xiàn)力方面的優(yōu)越性。生成的動作不僅在技術(shù)指標(biāo)上優(yōu)秀,在視覺效果上也更加自然和符合人類期待。
八、當(dāng)前限制與未來發(fā)展
盡管取得了顯著成就,研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前方法的一些限制。BMM的雙隊(duì)列和SSTA的2D注意力機(jī)制顯著增加了模型參數(shù)(達(dá)到238M),這對實(shí)時部署造成了挑戰(zhàn)。就像一臺功能強(qiáng)大但體積龐大的設(shè)備,雖然性能卓越,但在某些應(yīng)用場景中可能不夠靈活。
另一個限制是實(shí)驗(yàn)主要在短序列(小于100幀)上進(jìn)行,缺乏對需要強(qiáng)時空連貫性的復(fù)雜動作(如舞蹈)的驗(yàn)證。部分級檢索在處理抽象文本描述(如"快樂地跳躍")時也存在困難,因?yàn)樗蕾囉陬A(yù)定義的動作分割。此外,生成的動作可能違反生物力學(xué)約束(如關(guān)節(jié)旋轉(zhuǎn)限制),因?yàn)槿狈谖锢淼尿?yàn)證。
針對這些限制,研究團(tuán)隊(duì)提出了未來的發(fā)展方向。他們計劃采用知識蒸餾或稀疏注意力機(jī)制來減少模型大小,將長動作分解為子動作并應(yīng)用分階段SSTA來增強(qiáng)時間一致性。同時,他們考慮集成大語言模型來解析抽象文本并動態(tài)適應(yīng)部分級檢索,在RVQ-VAE解碼過程中融入物理約束損失以確保生物力學(xué)有效的動作。
九、技術(shù)創(chuàng)新的深遠(yuǎn)影響
ReMoMask的技術(shù)創(chuàng)新不僅在學(xué)術(shù)層面具有重要意義,更在實(shí)際應(yīng)用中展現(xiàn)出巨大潛力。在電影制作領(lǐng)域,這項(xiàng)技術(shù)可以顯著降低動畫制作成本,讓小型工作室也能制作出高質(zhì)量的動畫作品。游戲開發(fā)者可以利用這項(xiàng)技術(shù)快速生成NPC動作,讓游戲世界更加生動真實(shí)。
在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用中,ReMoMask可以實(shí)現(xiàn)更自然的人機(jī)交互。用戶只需用自然語言描述想要的動作,系統(tǒng)就能生成相應(yīng)的虛擬角色動畫。這對于教育、培訓(xùn)和娛樂應(yīng)用都有重要價值。
在機(jī)器人技術(shù)方面,這項(xiàng)研究為機(jī)器人動作規(guī)劃提供了新的思路。機(jī)器人可以通過理解自然語言指令來規(guī)劃和執(zhí)行復(fù)雜的動作序列,使人機(jī)協(xié)作更加直觀和高效。
從技術(shù)發(fā)展的角度來看,ReMoMask代表了多模態(tài)學(xué)習(xí)領(lǐng)域的重要進(jìn)展。它成功地將檢索增強(qiáng)生成技術(shù)應(yīng)用到動作生成任務(wù)中,為其他跨模態(tài)生成任務(wù)提供了有價值的參考。雙向動量學(xué)習(xí)和語義時空注意力機(jī)制的創(chuàng)新也可能啟發(fā)其他需要處理時空序列數(shù)據(jù)的應(yīng)用。
說到底,ReMoMask不僅僅是一個技術(shù)系統(tǒng),它代表了人工智能向更自然、更直觀的人機(jī)交互方向發(fā)展的重要一步。通過讓計算機(jī)理解和生成人類動作,我們離創(chuàng)造真正智能的數(shù)字助手又近了一步。雖然目前還存在一些限制,但這項(xiàng)研究為未來的發(fā)展奠定了堅實(shí)的基礎(chǔ)。隨著技術(shù)的不斷完善,我們有理由期待看到更多令人興奮的應(yīng)用和突破。有興趣的讀者可以通過項(xiàng)目的GitHub頁面和官方網(wǎng)站深入了解這項(xiàng)技術(shù)的細(xì)節(jié)和最新進(jìn)展。
Q&A
Q1:ReMoMask是什么?它是如何工作的?
A:ReMoMask是北京大學(xué)團(tuán)隊(duì)開發(fā)的AI系統(tǒng),能夠根據(jù)文字描述自動生成逼真的3D人體動作。它的工作原理類似于智能翻譯官,將"一個人在圈子里走路"這樣的文字描述轉(zhuǎn)換成計算機(jī)能理解并生成的動作序列。系統(tǒng)使用了三個核心技術(shù):雙向動量模型用于提升檢索精度,語義時空注意力機(jī)制用于融合多種信息,以及檢索增強(qiáng)的分類器指導(dǎo)用于提升生成質(zhì)量。
Q2:ReMoMask相比其他動作生成技術(shù)有什么優(yōu)勢?
A:ReMoMask在權(quán)威數(shù)據(jù)集上的表現(xiàn)顯著優(yōu)于現(xiàn)有方法,在HumanML3D數(shù)據(jù)集上FID分?jǐn)?shù)提升3.88%,在KIT-ML數(shù)據(jù)集上更是提升了10.97%。用戶研究顯示,相比其他方法,67-86%的用戶認(rèn)為ReMoMask生成的動作更真實(shí)、更符合文字描述。它能處理復(fù)雜的動作轉(zhuǎn)換,如"先向前走然后轉(zhuǎn)彎",而傳統(tǒng)方法通常只能生成簡單的線性動作。
Q3:ReMoMask有哪些實(shí)際應(yīng)用前景?
A:ReMoMask在多個領(lǐng)域都有廣闊應(yīng)用前景。在電影制作中,它可以大幅降低動畫制作成本,讓小工作室也能制作高質(zhì)量動畫。游戲開發(fā)者可以用它快速生成NPC動作,讓游戲更加生動。在虛擬現(xiàn)實(shí)中,用戶只需語言描述就能生成虛擬角色動畫。此外,它還能應(yīng)用于機(jī)器人動作規(guī)劃,讓機(jī)器人通過自然語言指令執(zhí)行復(fù)雜動作,使人機(jī)協(xié)作更直觀高效。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。