這項(xiàng)由快手技術(shù)團(tuán)隊(duì)和清華大學(xué)、浙江大學(xué)共同完成的研究發(fā)表于2025年8月,研究成果已在arXiv平臺(tái)公開發(fā)布。這個(gè)名為MIDAS的系統(tǒng)代表著數(shù)字人技術(shù)的一次重大突破,有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過論文編號(hào)arXiv:2508.19320v2訪問完整研究內(nèi)容。
想象一下你正在和朋友視頻聊天,對(duì)方不僅能聽懂你說的話,還能立即做出自然的表情回應(yīng),眼神交流也恰到好處?,F(xiàn)在,研究人員已經(jīng)讓計(jì)算機(jī)生成的虛擬人物也能做到這一點(diǎn)??焓謭F(tuán)隊(duì)開發(fā)的MIDAS系統(tǒng)就像是給數(shù)字世界創(chuàng)造了一個(gè)能夠?qū)崟r(shí)交流的虛擬朋友,它不僅能聽懂你的話,還能同步做出相應(yīng)的面部表情和肢體動(dòng)作。
這項(xiàng)技術(shù)的革命性在于它徹底改變了我們與數(shù)字世界交互的方式。以往的數(shù)字人就像是提前錄制好的電影片段,只能按照預(yù)設(shè)的劇本表演。而MIDAS創(chuàng)造的數(shù)字人更像是一個(gè)真正的對(duì)話伙伴,能夠根據(jù)你的話語實(shí)時(shí)調(diào)整自己的表情和動(dòng)作。這種能力對(duì)于在線教育、客戶服務(wù)、娛樂互動(dòng)等領(lǐng)域都具有巨大的應(yīng)用潛力。
研究團(tuán)隊(duì)面臨的最大挑戰(zhàn)是讓數(shù)字人能夠在毫秒級(jí)的時(shí)間內(nèi)做出反應(yīng),就像真人對(duì)話時(shí)那樣自然流暢。傳統(tǒng)的視頻生成技術(shù)就像是用復(fù)雜的工廠流水線制作產(chǎn)品,雖然質(zhì)量很好,但速度太慢,無法滿足實(shí)時(shí)交流的需求。MIDAS采用了一種全新的技術(shù)路徑,將整個(gè)生成過程重新設(shè)計(jì)為像自動(dòng)駕駛汽車那樣的連續(xù)決策系統(tǒng),每一幀畫面都基于前一幀和當(dāng)前輸入信息進(jìn)行預(yù)測(cè)生成。
為了訓(xùn)練這個(gè)系統(tǒng),研究團(tuán)隊(duì)收集了大約兩萬小時(shí)的對(duì)話視頻數(shù)據(jù),相當(dāng)于一個(gè)人不停地看視頻看兩年半的時(shí)間。這些數(shù)據(jù)來源廣泛,包括公開的演講視頻、訪談節(jié)目,以及專門錄制的對(duì)話場景。就像教孩子說話需要大量的語言環(huán)境一樣,MIDAS也需要通過觀察大量真實(shí)對(duì)話來學(xué)習(xí)如何自然地表達(dá)。
一、核心技術(shù)架構(gòu):讓機(jī)器像人腦一樣思考
MIDAS的工作原理可以用廚師做菜來比喻。傳統(tǒng)的視頻生成技術(shù)就像是嚴(yán)格按照菜譜做菜,每個(gè)步驟都必須完成后才能進(jìn)行下一步,整個(gè)過程既耗時(shí)又缺乏靈活性。而MIDAS更像是一位經(jīng)驗(yàn)豐富的廚師,能夠一邊品嘗一邊調(diào)整,實(shí)時(shí)根據(jù)食材的狀態(tài)和客人的口味偏好來調(diào)整烹飪方法。
系統(tǒng)的核心是一個(gè)基于大型語言模型的自回歸架構(gòu)。這個(gè)架構(gòu)的巧妙之處在于它借鑒了人類語言交流的模式。當(dāng)你和朋友聊天時(shí),你會(huì)根據(jù)對(duì)方剛才說的話來組織自己的回應(yīng),同時(shí)考慮之前對(duì)話的上下文。MIDAS也是這樣工作的,它將視頻生成過程轉(zhuǎn)化為類似于文本對(duì)話的序列預(yù)測(cè)任務(wù)。
為了實(shí)現(xiàn)這種實(shí)時(shí)性,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)多模態(tài)條件投影器。這個(gè)組件就像是一個(gè)多語言翻譯官,能夠?qū)⒉煌愋偷妮斎胄畔⒔y(tǒng)一翻譯成系統(tǒng)能夠理解的"語言"。無論是音頻、姿態(tài)控制信號(hào)還是文本指令,都會(huì)被轉(zhuǎn)換成統(tǒng)一的表示形式,然后輸入到核心的語言模型中。
音頻處理采用了Whisper-VQ模塊,將每80毫秒的音頻片段壓縮成單個(gè)音頻標(biāo)記。這種壓縮就像是將一首完整的歌曲提煉成幾個(gè)關(guān)鍵的音符,既保留了重要信息,又大大減少了計(jì)算量。對(duì)于姿態(tài)信息,系統(tǒng)使用關(guān)節(jié)速度而不是靜態(tài)關(guān)節(jié)位置來表示動(dòng)作軌跡,這種方法能更好地捕捉運(yùn)動(dòng)的動(dòng)態(tài)特征。
系統(tǒng)采用了分塊處理的策略,每個(gè)處理塊對(duì)應(yīng)6幀畫面,大約480毫秒的視頻內(nèi)容。這種設(shè)計(jì)既保證了處理效率,又維持了足夠的時(shí)間連續(xù)性。在每個(gè)塊內(nèi),條件標(biāo)記能夠被所有后續(xù)幀標(biāo)記訪問,而幀標(biāo)記只能訪問條件標(biāo)記、之前的幀標(biāo)記以及自身的內(nèi)部標(biāo)記,這種因果注意力機(jī)制確保了生成過程的時(shí)間一致性。
二、深度壓縮自編碼器:讓畫面"減肥"不失真
為了讓系統(tǒng)能夠?qū)崟r(shí)處理高質(zhì)量視頻,研究團(tuán)隊(duì)開發(fā)了一個(gè)深度壓縮自編碼器,壓縮比高達(dá)64倍。這就像是發(fā)明了一種神奇的壓縮技術(shù),能夠?qū)⒁徊亢窈竦陌倏迫珪鴫嚎s成一張卡片的大小,但當(dāng)你需要查閱時(shí)又能完整還原出所有內(nèi)容。
這個(gè)壓縮過程分為三個(gè)階段進(jìn)行。第一階段是空間壓縮訓(xùn)練,系統(tǒng)學(xué)習(xí)如何將高分辨率圖像有效壓縮到緊湊的潛在空間中。這個(gè)過程使用了空間到通道的變換技術(shù),通過學(xué)習(xí)殘差特征來實(shí)現(xiàn)高效的空間壓縮。
第二階段引入了因果時(shí)間模塊訓(xùn)練。系統(tǒng)需要學(xué)習(xí)如何處理視頻序列中的時(shí)間依賴關(guān)系,但又要保持因果性約束,即只能使用歷史信息而不能"預(yù)見未來"。這就像是讓一個(gè)畫家在作畫時(shí)只能參考已經(jīng)畫好的部分,而不能偷看完整的參考圖。
第三階段是全模型微調(diào),使用8幀時(shí)間窗口對(duì)整個(gè)系統(tǒng)進(jìn)行端到端優(yōu)化。在推理過程中,系統(tǒng)緩存每幀的時(shí)間特征,包括3D卷積輸出和鍵值緩存,通過5幀歷史信息實(shí)現(xiàn)流式編碼和解碼。
這種設(shè)計(jì)的巧妙之處在于它在壓縮效率和重建質(zhì)量之間找到了最佳平衡點(diǎn)。雖然更長的歷史信息可能帶來更好的重建效果,但5幀窗口在計(jì)算效率和質(zhì)量之間提供了實(shí)用的折衷方案。
三、訓(xùn)練策略:讓AI學(xué)會(huì)從錯(cuò)誤中恢復(fù)
自回歸模型訓(xùn)練面臨的一個(gè)核心挑戰(zhàn)是暴露偏差問題。在訓(xùn)練時(shí),模型總是基于標(biāo)準(zhǔn)答案進(jìn)行學(xué)習(xí),但在實(shí)際應(yīng)用中卻需要基于自己之前可能出錯(cuò)的預(yù)測(cè)繼續(xù)工作。這就像是一個(gè)學(xué)生在考試時(shí)只練習(xí)過標(biāo)準(zhǔn)題目,但真正考試時(shí)卻遇到了變形題,往往會(huì)手足無措。
為了解決這個(gè)問題,研究團(tuán)隊(duì)采用了受控噪聲注入策略。在訓(xùn)練過程中,他們故意對(duì)上下文幀添加不同程度的高斯噪聲,模擬推理時(shí)可能遇到的不完美預(yù)測(cè)情況。這種訓(xùn)練方法就像是讓學(xué)生在準(zhǔn)備考試時(shí)故意在練習(xí)材料上加入一些模糊或錯(cuò)誤的信息,讓學(xué)生學(xué)會(huì)在不完美的條件下也能正確作答。
具體來說,研究團(tuán)隊(duì)將噪聲水平統(tǒng)一設(shè)置到最大噪聲尺度的0.5,將其離散化為20個(gè)等級(jí),并為每個(gè)等級(jí)學(xué)習(xí)專門的嵌入表示。對(duì)于每個(gè)批次,系統(tǒng)會(huì)隨機(jī)確定每幀的噪聲水平ID,然后將這些ID映射到相應(yīng)的噪聲嵌入中。噪聲的應(yīng)用采用插值方式,按照采樣的損壞水平在原始潛在表示和高斯噪聲之間進(jìn)行插值。
這種方法系統(tǒng)性地彌合了訓(xùn)練和推理之間的域差距,教會(huì)網(wǎng)絡(luò)如何從之前生成的幀中糾正錯(cuò)誤。這對(duì)于在長序列上保持幀質(zhì)量和時(shí)間一致性至關(guān)重要。
對(duì)于多模態(tài)訓(xùn)練,研究團(tuán)隊(duì)將不同的數(shù)據(jù)集按照一致的標(biāo)記組織模式進(jìn)行組合,即音頻標(biāo)記、姿態(tài)標(biāo)記、文本標(biāo)記,然后是幀標(biāo)記。對(duì)于缺少某些條件信號(hào)的數(shù)據(jù)集,他們使用特殊的占位符標(biāo)記來維持不同輸入間的結(jié)構(gòu)一致性。
四、擴(kuò)散頭渲染:讓粗糙變精致
雖然自回歸模型能夠預(yù)測(cè)視頻幀的潛在表示,但要生成高質(zhì)量的視覺內(nèi)容還需要一個(gè)專門的渲染組件。這就是擴(kuò)散頭的作用,它就像是一個(gè)精通修復(fù)技術(shù)的藝術(shù)家,能夠?qū)⒋植诘牟莞鍧櫳删赖乃囆g(shù)品。
擴(kuò)散頭的設(shè)計(jì)靈感來源于MAR架構(gòu),但研究團(tuán)隊(duì)完全消除了掩碼建模。由于空間關(guān)系和語義連貫性已經(jīng)由語言模型主干隱式建模,擴(kuò)散組件只需要專注于去噪和渲染清晰幀,而無需處理完整的時(shí)空建模復(fù)雜性。
這種簡化方法在保持視覺保真度的同時(shí)提升了計(jì)算效率。擴(kuò)散頭更像是一個(gè)精修機(jī)制,而不是處理完整的時(shí)空建模復(fù)雜性的組件。研究團(tuán)隊(duì)探索了多種架構(gòu)選擇,包括標(biāo)準(zhǔn)的多層感知機(jī)架構(gòu)和更復(fù)雜的DiT(擴(kuò)散變換器)設(shè)計(jì)。
DiT架構(gòu)為角色渲染中的結(jié)構(gòu)一致性提供了更強(qiáng)的保證,只需要對(duì)條件注入機(jī)制進(jìn)行少量修改。訓(xùn)練目標(biāo)采用流匹配公式,通過學(xué)習(xí)從噪聲分布到干凈幀的最優(yōu)向量場來指導(dǎo)模型學(xué)習(xí)。
在推理過程中,系統(tǒng)采用4個(gè)去噪步驟,這在效率和合成質(zhì)量之間找到了有效平衡。這種設(shè)計(jì)使得系統(tǒng)能夠在保持高質(zhì)量輸出的同時(shí)實(shí)現(xiàn)實(shí)時(shí)性能。
五、推理策略:實(shí)現(xiàn)真正的流式生成
MIDAS的推理過程被精心設(shè)計(jì)為支持真正的流式生成。系統(tǒng)將生成過程組織為480毫秒的時(shí)間塊,在每個(gè)塊內(nèi),自回歸模型順序生成幀標(biāo)記,然后傳遞給擴(kuò)散頭進(jìn)行去噪處理。完成一個(gè)塊后,模型繼續(xù)處理下一個(gè)塊,實(shí)現(xiàn)連續(xù)視頻生成而無需一次處理整個(gè)序列。
為了確保視覺一致性,系統(tǒng)對(duì)每個(gè)推理步驟內(nèi)的所有幀應(yīng)用統(tǒng)一的噪聲水平,這個(gè)水平可以根據(jù)質(zhì)量需求進(jìn)行調(diào)整。即使使用最小的添加噪聲,與標(biāo)準(zhǔn)自回歸生成相比也能觀察到顯著的時(shí)間穩(wěn)定性改善。
對(duì)于長時(shí)間推理,系統(tǒng)實(shí)施了幀截?cái)嗖呗?。這種方法認(rèn)識(shí)到超過特定時(shí)間距離的歷史幀不再提供有用信息,反而可能引入錯(cuò)誤累積。通過將上下文窗口限制為最近的8個(gè)塊并丟棄低相關(guān)性的歷史幀,系統(tǒng)有效減少了累積錯(cuò)誤,同時(shí)保持了連貫運(yùn)動(dòng)合成所需的基本時(shí)間依賴關(guān)系。
這種截?cái)嗖呗跃拖袷侨祟愑洃浀墓ぷ鞣绞剑覀兺浀米罱l(fā)生的事情以及一些重要的歷史事件,而會(huì)自然地忘記那些不太重要的細(xì)節(jié)。這種"遺忘"實(shí)際上有助于我們更好地專注于當(dāng)前和未來的決策。
六、實(shí)驗(yàn)結(jié)果:多場景應(yīng)用展現(xiàn)強(qiáng)大能力
研究團(tuán)隊(duì)在多個(gè)應(yīng)用場景中驗(yàn)證了MIDAS的效果。在雙人對(duì)話生成中,系統(tǒng)能夠創(chuàng)建自然的輪流對(duì)話,每個(gè)數(shù)字人在對(duì)方說話時(shí)展現(xiàn)適當(dāng)?shù)膬A聽行為,在被相應(yīng)音頻驅(qū)動(dòng)時(shí)則變得生動(dòng)活潑,展現(xiàn)同步的唇部動(dòng)作和面部表情。音頻波形清晰地劃分了說話輪次,展示了模型在處理對(duì)話互動(dòng)復(fù)雜動(dòng)態(tài)方面的能力。
在跨語言合成方面,MIDAS展現(xiàn)出了令人印象深刻的能力。系統(tǒng)能夠?yàn)橹形钠胀ㄔ?、日語和英語的歌曲生成令人信服的唇部動(dòng)作,適應(yīng)每種語言的獨(dú)特語音特征,而無需語言特定的訓(xùn)練。值得注意的是,模型能夠生成長達(dá)4分鐘的視頻而不出現(xiàn)顯著漂移。
更令人驚訝的是,MIDAS的架構(gòu)具有很強(qiáng)的泛化能力。通過將多模態(tài)條件重新表述為方向控制信號(hào)并在Minecraft數(shù)據(jù)集上訓(xùn)練,該方法有效地充當(dāng)了實(shí)時(shí)交互世界模型。生成的世界模型實(shí)現(xiàn)了強(qiáng)視覺一致性并展現(xiàn)了顯著的記憶能力,能夠記住和維持游戲世界中的狀態(tài)變化。
在技術(shù)性能方面,整個(gè)模型基于Qwen2.5-3B作為自回歸主干,擴(kuò)散頭采用PixArt-α架構(gòu),包含約5億個(gè)參數(shù)。系統(tǒng)在訓(xùn)練和推理時(shí)都采用4個(gè)去噪步驟,在效率和合成質(zhì)量之間實(shí)現(xiàn)有效平衡。訓(xùn)練使用DeepSpeed ZeRO-2優(yōu)化框架,在64塊NVIDIA H800 GPU上進(jìn)行約7天時(shí)間。
七、技術(shù)創(chuàng)新與突破意義
MIDAS系統(tǒng)的創(chuàng)新之處在于它完美融合了大型語言模型的序列建模能力和擴(kuò)散模型的高質(zhì)量生成能力。這種融合就像是將兩位頂尖專家的技能結(jié)合在一起,一位擅長理解和推理,另一位擅長精確的視覺表現(xiàn)。
傳統(tǒng)的視頻生成方法通常需要預(yù)先指定所有控制參數(shù),這就像是要求導(dǎo)演在開拍前就確定電影中每個(gè)鏡頭的所有細(xì)節(jié)。而MIDAS允許在生成過程中動(dòng)態(tài)調(diào)整控制條件,為交互式應(yīng)用提供了真正的靈活性。
系統(tǒng)采用的深度壓縮自編碼器技術(shù)也代表了一個(gè)重要突破。64倍的壓縮比在保持重建質(zhì)量的同時(shí)顯著降低了計(jì)算復(fù)雜度,使得實(shí)時(shí)生成成為可能。這種壓縮技術(shù)的應(yīng)用范圍遠(yuǎn)超數(shù)字人生成,可以為各種視頻處理任務(wù)提供高效的解決方案。
控制噪聲注入策略的引入解決了自回歸視頻生成中的一個(gè)根本問題。通過在訓(xùn)練時(shí)故意引入不完美的條件,系統(tǒng)學(xué)會(huì)了如何在實(shí)際應(yīng)用中處理累積誤差,這種方法可能對(duì)其他序列生成任務(wù)也具有借鑒意義。
八、應(yīng)用前景與社會(huì)影響
MIDAS技術(shù)的成熟將為多個(gè)行業(yè)帶來革命性變化。在在線教育領(lǐng)域,虛擬教師可以根據(jù)學(xué)生的提問實(shí)時(shí)調(diào)整教學(xué)內(nèi)容和表達(dá)方式,提供更個(gè)性化的學(xué)習(xí)體驗(yàn)。這就像是每個(gè)學(xué)生都有了一位專門的家庭教師,能夠隨時(shí)回答問題并調(diào)整教學(xué)節(jié)奏。
在客戶服務(wù)方面,智能客服代表將不再是冷冰冰的聊天機(jī)器人,而是能夠展現(xiàn)真實(shí)情感和專業(yè)態(tài)度的虛擬助手??蛻艨梢酝ㄟ^自然的對(duì)話獲得幫助,而不需要在復(fù)雜的菜單選項(xiàng)中迷失方向。
娛樂行業(yè)也將迎來新的可能性。虛擬主播、游戲角色甚至是已故名人的數(shù)字復(fù)現(xiàn)都可能成為現(xiàn)實(shí)。觀眾可以與自己喜愛的角色進(jìn)行實(shí)時(shí)互動(dòng),體驗(yàn)前所未有的沉浸式娛樂。
然而,這種技術(shù)的發(fā)展也帶來了需要認(rèn)真考慮的倫理問題。如何確保技術(shù)不被惡意使用,如何保護(hù)個(gè)人隱私和肖像權(quán),如何防止深度偽造技術(shù)的濫用,這些都是技術(shù)發(fā)展過程中必須面對(duì)的挑戰(zhàn)。
研究團(tuán)隊(duì)在論文中也強(qiáng)調(diào)了負(fù)責(zé)任技術(shù)開發(fā)的重要性。他們建議在技術(shù)應(yīng)用過程中建立適當(dāng)?shù)谋O(jiān)管機(jī)制和使用規(guī)范,確保這項(xiàng)強(qiáng)大的技術(shù)能夠?yàn)樯鐣?huì)帶來積極影響。
說到底,MIDAS代表了人工智能向更自然、更人性化交互方向邁出的重要一步。這不僅僅是一項(xiàng)技術(shù)突破,更是對(duì)未來人機(jī)交互模式的一次深刻探索。當(dāng)數(shù)字世界中的角色能夠像真人一樣與我們交流時(shí),虛擬與現(xiàn)實(shí)的界限將變得更加模糊,我們的數(shù)字生活體驗(yàn)也將更加豐富和真實(shí)。
對(duì)于普通用戶而言,這意味著我們很快就能體驗(yàn)到更加智能和自然的數(shù)字服務(wù)。無論是在線學(xué)習(xí)、遠(yuǎn)程辦公還是娛樂休閑,AI數(shù)字人都將成為我們生活中不可或缺的伙伴。而對(duì)于技術(shù)開發(fā)者和企業(yè)來說,MIDAS提供了一個(gè)強(qiáng)大的基礎(chǔ)平臺(tái),可以在此基礎(chǔ)上開發(fā)各種創(chuàng)新應(yīng)用。
這項(xiàng)研究的開源精神也值得贊賞。通過公開技術(shù)細(xì)節(jié)和實(shí)現(xiàn)方案,快手團(tuán)隊(duì)為整個(gè)學(xué)術(shù)界和產(chǎn)業(yè)界貢獻(xiàn)了寶貴的知識(shí)財(cái)富。這種開放的態(tài)度將加速相關(guān)技術(shù)的發(fā)展和應(yīng)用,最終讓更多人受益于這項(xiàng)技術(shù)創(chuàng)新。
歸根結(jié)底,MIDAS不僅展示了當(dāng)前AI技術(shù)的強(qiáng)大能力,更為我們描繪了一個(gè)更加智能、更加人性化的數(shù)字未來。在這個(gè)未來中,人與AI的交互將變得更加自然和深入,數(shù)字技術(shù)將真正成為增強(qiáng)人類能力和改善生活質(zhì)量的有力工具。
Q&A
Q1:MIDAS系統(tǒng)能做什么?它與傳統(tǒng)視頻生成技術(shù)有什么區(qū)別?
A:MIDAS是快手團(tuán)隊(duì)開發(fā)的數(shù)字人實(shí)時(shí)生成系統(tǒng),能夠根據(jù)音頻、姿態(tài)和文本等多種輸入實(shí)時(shí)生成自然的人物對(duì)話視頻。與傳統(tǒng)技術(shù)相比,MIDAS最大的優(yōu)勢(shì)是實(shí)時(shí)交互能力,就像真人對(duì)話一樣能夠即時(shí)響應(yīng),而不是像以往那樣需要預(yù)先設(shè)定所有參數(shù)后才能生成固定內(nèi)容。傳統(tǒng)方法就像播放錄制好的視頻,而MIDAS更像是與真人進(jìn)行實(shí)時(shí)視頻通話。
Q2:這項(xiàng)技術(shù)會(huì)對(duì)在線教育和客戶服務(wù)產(chǎn)生什么影響?
A:MIDAS將徹底改變這些領(lǐng)域的用戶體驗(yàn)。在在線教育中,虛擬教師可以根據(jù)學(xué)生的提問實(shí)時(shí)調(diào)整表情和講解方式,提供個(gè)性化的互動(dòng)教學(xué)。在客戶服務(wù)方面,AI客服將不再是冷冰冰的文字回復(fù),而是能展現(xiàn)真實(shí)情感的虛擬助手,客戶可以通過自然對(duì)話獲得幫助,大大提升服務(wù)質(zhì)量和用戶滿意度。
Q3:MIDAS技術(shù)在處理不同語言時(shí)表現(xiàn)如何?普通人什么時(shí)候能使用到?
A:MIDAS展現(xiàn)了出色的跨語言能力,能夠?yàn)橹形?、日語、英語等不同語言生成精確的唇部同步動(dòng)作,無需針對(duì)特定語言進(jìn)行額外訓(xùn)練。系統(tǒng)還能生成長達(dá)4分鐘的穩(wěn)定視頻。目前該技術(shù)仍處于研究階段,研究團(tuán)隊(duì)已開源相關(guān)技術(shù)細(xì)節(jié),預(yù)計(jì)隨著進(jìn)一步優(yōu)化和產(chǎn)業(yè)化,未來幾年內(nèi)可能會(huì)在教育、娛樂等領(lǐng)域看到相關(guān)應(yīng)用產(chǎn)品。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。