這項由清華大學(xué)電子工程系周杰教授和盧繼文教授團(tuán)隊完成的研究于2025年7月發(fā)表在計算機(jī)視覺領(lǐng)域的頂級會議上,論文標(biāo)題為"Streaming 4D Visual Geometry Transformer"。有興趣深入了解的讀者可以通過項目網(wǎng)站https://wzzheng.net/StreamVGGT/ 或GitHub代碼庫https://github.com/wzzheng/StreamVGGT 獲取完整論文和相關(guān)資料。這項研究的核心作者包括鄭文昭、郭佳賀、吳雨麒等博士生,他們在導(dǎo)師指導(dǎo)下攻克了一個困擾計算機(jī)視覺領(lǐng)域多年的難題。
當(dāng)我們走進(jìn)一個房間時,眼睛能夠瞬間理解空間的深度、物體的位置關(guān)系,甚至預(yù)測移動物體的軌跡。這種看似簡單的能力背后蘊(yùn)含著極其復(fù)雜的視覺處理機(jī)制。然而,讓計算機(jī)也具備這樣的"視覺智慧"一直是科學(xué)家們面臨的巨大挑戰(zhàn)。傳統(tǒng)的計算機(jī)視覺系統(tǒng)在處理動態(tài)場景時,就像一個行動緩慢的攝影師,必須等所有照片都拍完后才能開始拼接全景圖,這種方式既耗時又無法應(yīng)對實(shí)時變化的環(huán)境。
清華大學(xué)的研究團(tuán)隊提出了一個革命性的解決方案——StreamVGGT(流式4D視覺幾何變換器)。這個系統(tǒng)的工作原理就像一個經(jīng)驗豐富的電影導(dǎo)演,能夠在拍攝過程中實(shí)時構(gòu)建場景,而不需要等到所有鏡頭都拍完。更重要的是,這個AI系統(tǒng)具備了類似人類視覺系統(tǒng)的"時間因果感知"能力,也就是說它能夠基于過去和當(dāng)前看到的信息來理解場景,而不需要"預(yù)知未來"。
這項研究的突破性意義在于,它首次實(shí)現(xiàn)了真正意義上的實(shí)時4D場景重建。這里的4D指的是三維空間加上時間維度,簡單來說就是能夠理解動態(tài)的三維世界。傳統(tǒng)方法就像制作拼圖游戲,需要把所有拼圖塊都拿到手才能開始拼接。而StreamVGGT更像是一個熟練的拼圖高手,能夠在拿到新拼圖塊的瞬間就知道它應(yīng)該放在哪里,并且能夠利用之前已經(jīng)拼好的部分來指導(dǎo)新的拼接工作。
研究團(tuán)隊通過巧妙的"知識蒸餾"技術(shù)來訓(xùn)練這個系統(tǒng)。他們先創(chuàng)建了一個"全知全能"的老師模型,這個老師能夠看到整個場景的所有信息。然后,他們訓(xùn)練一個"學(xué)生"模型,讓它學(xué)會在只能看到過去和當(dāng)前信息的情況下,做出與老師模型幾乎一樣準(zhǔn)確的判斷。這就像是讓一個學(xué)生通過觀察老師的解題過程,學(xué)會在沒有完整題目信息的情況下也能做出正確答案。
實(shí)驗結(jié)果令人振奮。在處理40幀視頻序列時,傳統(tǒng)的VGGT方法需要超過2秒鐘才能處理完最后一幀,而StreamVGGT只需要0.07秒。這意味著速度提升了近30倍,真正實(shí)現(xiàn)了實(shí)時處理。更令人驚喜的是,在保持如此高速度的同時,系統(tǒng)的準(zhǔn)確性幾乎沒有下降,在多個標(biāo)準(zhǔn)測試數(shù)據(jù)集上都表現(xiàn)出色。
一、突破傳統(tǒng)的視覺感知范式
傳統(tǒng)的計算機(jī)視覺系統(tǒng)面臨著一個根本性的矛盾:準(zhǔn)確性與實(shí)時性的沖突。這就像是讓一個人在黑暗中摸索房間的布局,傳統(tǒng)方法要求必須摸遍房間里的每一個角落,記住所有物體的位置,然后再在腦海中構(gòu)建完整的房間地圖。這種方法雖然準(zhǔn)確,但顯然太慢了,無法應(yīng)對現(xiàn)實(shí)世界中快速變化的環(huán)境需求。
清華大學(xué)團(tuán)隊深入分析了這個問題的本質(zhì)。他們發(fā)現(xiàn),現(xiàn)有的最先進(jìn)方法,比如VGGT(Visual Geometry Grounded Transformer),采用的是"全局自注意力機(jī)制"。這種機(jī)制就像是一個必須同時關(guān)注所有信息的多任務(wù)處理器,每當(dāng)有新的視頻幀輸入時,系統(tǒng)都需要重新處理整個序列,計算復(fù)雜度呈平方級增長。當(dāng)處理長時間視頻時,這種方法的計算負(fù)擔(dān)變得不可承受。
研究團(tuán)隊提出的解決方案源于對人類視覺系統(tǒng)的深刻觀察。人眼在觀察世界時遵循著一種天然的"因果性原則"——我們總是基于過去的經(jīng)驗和當(dāng)前的觀察來理解環(huán)境,而不會依賴尚未發(fā)生的未來信息。這種處理方式不僅符合物理世界的時間規(guī)律,而且具有天然的實(shí)時性優(yōu)勢。
StreamVGGT的核心創(chuàng)新在于引入了"時間因果注意力機(jī)制"。這種機(jī)制確保每一幀畫面只能"看到"它之前和當(dāng)前的信息,就像人類視覺系統(tǒng)一樣。通過這種約束,系統(tǒng)的計算復(fù)雜度從平方級降低到了線性級,這意味著處理時間不再隨著視頻長度的增加而急劇增長。
為了更好地理解這種改進(jìn)的意義,我們可以用觀看電影的經(jīng)歷來類比。傳統(tǒng)方法就像是一個奇怪的觀影方式:每當(dāng)新的一幕開始時,觀眾都必須從頭重新觀看整部電影才能理解當(dāng)前情節(jié)。而StreamVGGT的方法更接近正常的觀影體驗:觀眾基于之前看到的劇情和當(dāng)前的畫面來理解故事發(fā)展,這樣既自然又高效。
二、巧妙的記憶緩存機(jī)制
在實(shí)現(xiàn)流式處理的過程中,研究團(tuán)隊面臨著另一個關(guān)鍵挑戰(zhàn):如何讓系統(tǒng)在處理當(dāng)前幀時有效利用歷史信息。這就像是讓一個偵探在調(diào)查案件時,既要關(guān)注當(dāng)前發(fā)現(xiàn)的新線索,又要充分利用之前收集的所有證據(jù)。
傳統(tǒng)的方法通常采用顯式的外部內(nèi)存模塊來存儲歷史信息,但這種方法往往導(dǎo)致信息傳遞效率低下,而且容易在長期處理過程中出現(xiàn)"記憶衰減"現(xiàn)象。清華團(tuán)隊采用了一種更加優(yōu)雅的解決方案:隱式的緩存記憶機(jī)制。
這種機(jī)制的工作原理類似于大語言模型中成熟的KV緩存技術(shù)。系統(tǒng)在處理每一幀時,會將重要的特征信息以鍵值對的形式保存在內(nèi)存中。當(dāng)處理新的一幀時,系統(tǒng)會將當(dāng)前幀的特征與歷史緩存進(jìn)行交互,就像是在進(jìn)行一場跨時間的"對話"。這樣,歷史信息不會丟失,同時當(dāng)前處理又能保持高效率。
這種設(shè)計的巧妙之處在于它的自適應(yīng)性。隨著場景的復(fù)雜程度變化,系統(tǒng)會自動調(diào)整需要緩存的信息量。對于變化較小的靜態(tài)場景,系統(tǒng)會保留更多的長期記憶;而對于快速變化的動態(tài)場景,系統(tǒng)會更加關(guān)注近期的歷史信息。這種動態(tài)調(diào)整機(jī)制確保了系統(tǒng)在各種不同場景下都能保持最佳性能。
實(shí)驗數(shù)據(jù)顯示,采用緩存記憶機(jī)制的StreamVGGT在處理40幀視頻序列時,能夠完美復(fù)現(xiàn)全序列處理的結(jié)果,同時將處理速度提升了67倍。這意味著系統(tǒng)真正實(shí)現(xiàn)了"魚和熊掌兼得"——既保持了高精度,又獲得了實(shí)時處理能力。
三、知識蒸餾的創(chuàng)新應(yīng)用
在機(jī)器學(xué)習(xí)領(lǐng)域,從理論上設(shè)計一個優(yōu)秀的模型架構(gòu)只是成功的一半,另一半的挑戰(zhàn)在于如何有效地訓(xùn)練這個模型。對于StreamVGGT這樣的因果系統(tǒng)來說,訓(xùn)練過程面臨著一個特殊的難題:由于只能看到部分信息,模型容易出現(xiàn)"近視"問題,導(dǎo)致長期預(yù)測精度下降。
研究團(tuán)隊創(chuàng)造性地采用了知識蒸餾技術(shù)來解決這個問題。知識蒸餾的核心思想是讓一個簡單的"學(xué)生"模型學(xué)習(xí)復(fù)雜"老師"模型的能力。在這個研究中,"老師"是能夠看到完整序列信息的全局注意力模型VGGT,而"學(xué)生"就是只能看到歷史和當(dāng)前信息的StreamVGGT。
這個訓(xùn)練過程就像是一位經(jīng)驗豐富的老師指導(dǎo)一個只能看到部分信息的學(xué)生。老師能夠看到"全局",知道故事的完整發(fā)展脈絡(luò),而學(xué)生只能看到"局部",但老師會通過自己的示范來教會學(xué)生如何在信息不完整的情況下做出正確的判斷。
具體來說,訓(xùn)練過程包含多個精心設(shè)計的損失函數(shù)。相機(jī)位置預(yù)測損失確保系統(tǒng)能夠準(zhǔn)確估計每一幀的拍攝角度和位置;深度估計損失讓系統(tǒng)學(xué)會判斷場景中每個點(diǎn)的遠(yuǎn)近距離;點(diǎn)云重建損失保證系統(tǒng)能夠準(zhǔn)確恢復(fù)三維幾何結(jié)構(gòu);點(diǎn)追蹤損失則訓(xùn)練系統(tǒng)跟蹤場景中移動物體的軌跡。每一個損失函數(shù)都像是一門專門的課程,教會系統(tǒng)掌握4D重建的不同技能。
通過這種多任務(wù)聯(lián)合訓(xùn)練,StreamVGGT學(xué)會了如何在信息受限的情況下仍然做出準(zhǔn)確判斷。實(shí)驗結(jié)果表明,經(jīng)過知識蒸餾訓(xùn)練的StreamVGGT在多個評估指標(biāo)上都接近甚至超越了只能離線處理的傳統(tǒng)方法,證明了這種訓(xùn)練策略的有效性。
四、多維度性能驗證
為了驗證StreamVGGT的實(shí)際效果,研究團(tuán)隊在多個權(quán)威數(shù)據(jù)集上進(jìn)行了全面的性能測試。這些測試就像是對一個全能運(yùn)動員進(jìn)行的綜合體能測試,從不同角度評估系統(tǒng)的各項能力。
在3D重建能力測試中,研究團(tuán)隊使用了7-Scenes、NRGBD和ETH3D等經(jīng)典數(shù)據(jù)集。這些數(shù)據(jù)集包含了各種復(fù)雜的室內(nèi)外場景,從簡單的辦公室環(huán)境到復(fù)雜的街道景觀,全面考驗系統(tǒng)的適應(yīng)性。測試結(jié)果令人驚喜:StreamVGGT在準(zhǔn)確性指標(biāo)上達(dá)到了0.129(7-Scenes)和0.084(NRGBD),完整性指標(biāo)分別為0.115和0.074,這些數(shù)字都明顯優(yōu)于其他流式處理方法,甚至在某些指標(biāo)上接近了需要完整序列處理的離線方法。
深度估計是另一個重要的測試項目。研究團(tuán)隊在Sintel、Bonn、KITTI和NYU-v2等四個不同類型的數(shù)據(jù)集上測試了系統(tǒng)的單幀深度估計能力。這些數(shù)據(jù)集涵蓋了動態(tài)場景、靜態(tài)場景、室內(nèi)環(huán)境和室外環(huán)境等各種情況。StreamVGGT在所有測試中都表現(xiàn)出色,相對誤差最低達(dá)到0.052,精度指標(biāo)(δ<1.25)最高達(dá)到97.2%,全面超越了現(xiàn)有的流式處理方法。
相機(jī)位姿估計測試采用了CO3Dv2數(shù)據(jù)集,這個數(shù)據(jù)集包含了大量復(fù)雜的多視角圖像序列。StreamVGGT在AUC@30指標(biāo)上達(dá)到了82.4分,這個成績雖然略低于離線處理的最佳方法(87.7分),但考慮到它具備實(shí)時處理能力,這樣的性能差距是完全可以接受的。
最引人注目的是運(yùn)行效率測試。當(dāng)處理包含40幀的視頻序列時,傳統(tǒng)的VGGT方法需要2.089秒來處理最后一幀,而StreamVGGT僅需0.067秒,速度提升超過30倍。這種巨大的效率提升為實(shí)時4D重建應(yīng)用打開了大門。
五、技術(shù)架構(gòu)的深度解析
StreamVGGT的技術(shù)架構(gòu)體現(xiàn)了研究團(tuán)隊對計算機(jī)視覺系統(tǒng)設(shè)計的深刻理解。整個系統(tǒng)由三個核心組件構(gòu)成:圖像編碼器、時空解碼器和多任務(wù)預(yù)測頭,它們之間的協(xié)作就像一支訓(xùn)練有素的樂隊,每個部分都發(fā)揮著不可替代的作用。
圖像編碼器負(fù)責(zé)將輸入的原始圖像轉(zhuǎn)換為計算機(jī)能夠理解的特征表示。這個組件基于先進(jìn)的DINO視覺變換器架構(gòu),能夠捕獲圖像中的豐富語義信息。編碼過程就像是將一幅畫作轉(zhuǎn)換為一系列精確的數(shù)學(xué)描述,保留了原始視覺信息的所有重要特征。
時空解碼器是整個系統(tǒng)的核心創(chuàng)新點(diǎn)。與傳統(tǒng)的全局自注意力機(jī)制不同,這個解碼器采用了交替的空間注意力和時間因果注意力層??臻g注意力層負(fù)責(zé)理解單幀圖像內(nèi)部的幾何關(guān)系,就像分析一張照片中各個物體的相對位置。時間因果注意力層則負(fù)責(zé)整合歷史信息,理解場景隨時間的變化規(guī)律,確保系統(tǒng)能夠基于過去的觀察來預(yù)測當(dāng)前的狀態(tài)。
多任務(wù)預(yù)測頭體現(xiàn)了系統(tǒng)的綜合智能。相機(jī)預(yù)測頭能夠估計每一幀的拍攝參數(shù),包括相機(jī)的位置、朝向和焦距信息。幾何預(yù)測頭負(fù)責(zé)生成詳細(xì)的深度圖和三維點(diǎn)云,重建場景的完整幾何結(jié)構(gòu)。追蹤預(yù)測頭則專門處理動態(tài)信息,能夠跟蹤場景中移動物體的運(yùn)動軌跡。這種多任務(wù)并行處理的設(shè)計不僅提高了系統(tǒng)的功能完整性,還通過任務(wù)間的相互監(jiān)督提升了整體精度。
系統(tǒng)架構(gòu)的另一個亮點(diǎn)是其高度的模塊化設(shè)計。每個組件都可以獨(dú)立優(yōu)化和升級,這為未來的技術(shù)改進(jìn)提供了極大的靈活性。同時,系統(tǒng)還集成了FlashAttention-2等最新的計算優(yōu)化技術(shù),進(jìn)一步提升了運(yùn)行效率。
六、實(shí)際應(yīng)用前景展望
StreamVGGT技術(shù)的突破為眾多實(shí)際應(yīng)用領(lǐng)域帶來了新的可能性。在自動駕駛領(lǐng)域,這項技術(shù)可以幫助車輛實(shí)時理解復(fù)雜的道路環(huán)境。當(dāng)汽車行駛在繁忙的城市街道上時,系統(tǒng)能夠同時跟蹤多個行人、車輛和障礙物,預(yù)測它們的運(yùn)動軌跡,為安全駕駛提供關(guān)鍵信息支持。傳統(tǒng)方法由于處理延遲較高,往往無法滿足自動駕駛對實(shí)時性的嚴(yán)格要求,而StreamVGGT的低延遲特性正好填補(bǔ)了這個空白。
在增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)應(yīng)用中,這項技術(shù)同樣具有重要價值。用戶在使用AR眼鏡或VR設(shè)備時,需要系統(tǒng)能夠?qū)崟r理解周圍環(huán)境的三維結(jié)構(gòu),以便準(zhǔn)確地放置虛擬物體或提供沉浸式體驗。StreamVGGT能夠?qū)崟r構(gòu)建詳細(xì)的環(huán)境地圖,確保虛擬內(nèi)容與真實(shí)世界完美融合,大大提升用戶體驗的真實(shí)感和流暢性。
機(jī)器人技術(shù)是另一個重要的應(yīng)用領(lǐng)域。無論是家用服務(wù)機(jī)器人還是工業(yè)生產(chǎn)機(jī)器人,都需要準(zhǔn)確理解周圍環(huán)境的三維結(jié)構(gòu)才能安全有效地執(zhí)行任務(wù)。StreamVGGT技術(shù)可以讓機(jī)器人具備類似人類的空間感知能力,在復(fù)雜環(huán)境中自主導(dǎo)航,避開障礙物,甚至預(yù)測移動物體的軌跡以做出相應(yīng)調(diào)整。
在建筑和工程測量領(lǐng)域,這項技術(shù)可以實(shí)現(xiàn)高效的現(xiàn)場3D掃描和重建。傳統(tǒng)的測量方法往往需要昂貴的專用設(shè)備和大量的時間,而基于StreamVGGT的系統(tǒng)只需要普通的攝像設(shè)備就能實(shí)時生成精確的三維模型,大大降低了測量成本并提高了工作效率。
醫(yī)療影像分析也是一個潛在的應(yīng)用方向。在手術(shù)導(dǎo)航系統(tǒng)中,醫(yī)生需要實(shí)時了解手術(shù)器械與患者器官的相對位置關(guān)系。StreamVGGT技術(shù)可以幫助系統(tǒng)實(shí)時重建手術(shù)區(qū)域的三維結(jié)構(gòu),為醫(yī)生提供更加直觀和準(zhǔn)確的視覺指導(dǎo)。
七、技術(shù)局限性與未來改進(jìn)方向
盡管StreamVGGT取得了顯著的技術(shù)突破,但研究團(tuán)隊也誠實(shí)地指出了現(xiàn)有系統(tǒng)的一些局限性。最主要的問題是內(nèi)存使用量的持續(xù)增長。由于系統(tǒng)需要緩存歷史幀的特征信息來保持時間連續(xù)性,隨著處理視頻長度的增加,內(nèi)存占用量會不斷累積。這就像是一個不斷積累資料的檔案管理員,雖然保存的信息越多越有助于做出準(zhǔn)確判斷,但存儲空間的需求也會不斷增長。
當(dāng)處理非常長的視頻序列時,這種內(nèi)存累積可能成為系統(tǒng)部署的瓶頸,特別是在計算資源有限的移動設(shè)備或嵌入式系統(tǒng)上。研究團(tuán)隊正在探索幾種解決方案,包括開發(fā)更智能的記憶管理策略,能夠識別并保留最重要的歷史信息,同時丟棄不太相關(guān)的內(nèi)容。
另一個局限性來自于知識蒸餾訓(xùn)練策略本身。由于學(xué)生模型的性能上限受到老師模型的約束,當(dāng)老師模型在某些極端場景下表現(xiàn)不佳時,學(xué)生模型也會繼承這些缺陷。特別是在處理快速運(yùn)動、極端光照變化或大幅度視角變換等挑戰(zhàn)性場景時,系統(tǒng)的精度可能會有所下降。
研究團(tuán)隊提出了幾個有望的改進(jìn)方向。首先是開發(fā)更加高效的內(nèi)存管理機(jī)制,比如基于注意力權(quán)重的動態(tài)內(nèi)存分配策略,或者采用層次化的記憶結(jié)構(gòu)來平衡記憶容量與檢索效率。其次是探索更加先進(jìn)的訓(xùn)練策略,比如多教師知識蒸餾或者自適應(yīng)的課程學(xué)習(xí)方法,以進(jìn)一步提升模型在復(fù)雜場景下的表現(xiàn)。
此外,研究團(tuán)隊還在考慮將最新的硬件加速技術(shù)集成到系統(tǒng)中,比如專門的AI芯片或者GPU集群,以支持更大規(guī)模的實(shí)時處理任務(wù)。他們也在研究如何將StreamVGGT與其他感知模態(tài)(如激光雷達(dá)、IMU等)相結(jié)合,構(gòu)建更加魯棒的多模態(tài)感知系統(tǒng)。
說到底,StreamVGGT代表了計算機(jī)視覺領(lǐng)域向?qū)崟r化、智能化方向發(fā)展的重要一步。這項研究不僅在技術(shù)層面實(shí)現(xiàn)了顯著突破,更重要的是為我們展示了一種全新的思路:通過模仿人類視覺系統(tǒng)的工作原理,計算機(jī)也能夠獲得類似人眼的實(shí)時感知能力。
這種技術(shù)突破的意義遠(yuǎn)超學(xué)術(shù)范疇。在不久的將來,我們可能會看到更加智能的自動駕駛汽車、更加自然的AR/VR體驗、更加靈活的服務(wù)機(jī)器人。這些應(yīng)用將深刻改變我們的日常生活方式,讓技術(shù)真正成為提升人類生活品質(zhì)的有力工具。
當(dāng)然,任何新技術(shù)的發(fā)展都不是一帆風(fēng)順的。StreamVGGT目前還處于研究階段,距離大規(guī)模商業(yè)應(yīng)用還需要時間。但正如研究團(tuán)隊在論文中展示的詳實(shí)實(shí)驗數(shù)據(jù)和開源代碼所證明的那樣,這項技術(shù)已經(jīng)具備了堅實(shí)的技術(shù)基礎(chǔ)和巨大的發(fā)展?jié)摿?。隨著后續(xù)研究的不斷深入和技術(shù)的持續(xù)完善,我們有理由相信,真正智能的實(shí)時4D視覺系統(tǒng)將很快從實(shí)驗室走向現(xiàn)實(shí)世界,為人類創(chuàng)造更加美好的未來。
對于那些希望深入了解這項研究的讀者,清華大學(xué)團(tuán)隊已經(jīng)在GitHub上開源了完整的代碼實(shí)現(xiàn),并提供了詳細(xì)的技術(shù)文檔。這種開放的研究態(tài)度不僅體現(xiàn)了學(xué)術(shù)界的合作精神,也為全球的研究者和開發(fā)者提供了寶貴的學(xué)習(xí)和改進(jìn)機(jī)會。
Q&A Q1:StreamVGGT是什么?它解決了什么問題? A:StreamVGGT是清華大學(xué)開發(fā)的實(shí)時4D視覺重建系統(tǒng),它解決了傳統(tǒng)方法無法實(shí)時處理動態(tài)場景的問題。就像讓計算機(jī)具備了人眼一樣的實(shí)時空間感知能力,能夠邊看邊理解三維世界的變化,而不需要等看完所有畫面才開始分析。
Q2:這項技術(shù)會不會很快應(yīng)用到日常生活中? A:目前還在研究階段,但應(yīng)用前景廣闊。最有可能率先應(yīng)用的領(lǐng)域包括自動駕駛汽車的環(huán)境感知、AR/VR設(shè)備的空間追蹤、以及機(jī)器人的導(dǎo)航系統(tǒng)。不過從實(shí)驗室到產(chǎn)品化還需要解決工程化問題,預(yù)計幾年內(nèi)會看到初步應(yīng)用。
Q3:StreamVGGT比傳統(tǒng)方法快多少?準(zhǔn)確性怎么樣? A:在處理40幀視頻時,StreamVGGT比傳統(tǒng)VGGT方法快30倍以上,處理時間從2秒縮短到0.067秒。同時準(zhǔn)確性幾乎沒有下降,在多個測試數(shù)據(jù)集上都達(dá)到了接近離線方法的性能水平,真正實(shí)現(xiàn)了速度和精度的平衡。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。