這項由俄羅斯莫斯科國立大學(xué)和該校人工智能研究所聯(lián)合開展的研究于2025年6月29日發(fā)表在arXiv預(yù)印本平臺上(論文編號:arXiv:2506.23151v1),研究團隊包括Vladislav Bargatin、Egor Chistov、Alexander Yakovenko和Dmitriy Vatolin。對這項研究感興趣的讀者可以通過GitHub地址https://github.com/msu-video-group/memfof獲取完整代碼,或在arXiv平臺搜索論文編號查看詳細內(nèi)容。
當(dāng)我們觀看一段視頻時,大腦會自動追蹤畫面中每個物體的運動軌跡,這個過程看起來毫不費力。然而對于計算機來說,要精確分析視頻中每個像素點的運動變化卻是一項極其復(fù)雜的任務(wù)。這種分析技術(shù)被稱為"光流估計",就像給視頻中的每個微小區(qū)域都安裝了一個運動追蹤器,記錄它們從一幀畫面到下一幀畫面的移動路徑。
光流估計技術(shù)在我們的數(shù)字生活中發(fā)揮著重要作用。當(dāng)你使用手機拍攝運動視頻并希望軟件自動穩(wěn)定畫面時,當(dāng)視頻編輯軟件需要智能地在兩幀之間插入平滑過渡時,當(dāng)自動駕駛汽車需要實時理解周圍物體的運動狀態(tài)時,背后都依賴著光流估計技術(shù)。這項技術(shù)就像一位經(jīng)驗豐富的運動分析師,能夠精確捕捉畫面中最細微的變化。
傳統(tǒng)的光流估計方法面臨著一個嚴重的困境,就像試圖在一臺老式電腦上運行最新的大型游戲一樣。當(dāng)處理超高清視頻(比如我們常說的1080p全高清)時,現(xiàn)有的先進算法需要消耗大量的GPU內(nèi)存。以目前最優(yōu)秀的RAFT算法為例,分析一段1080p視頻需要占用約8GB的顯存,而處理更高分辨率的視頻甚至需要25GB以上的內(nèi)存。這就好比用一個小水杯去裝大桶的水,根本裝不下。
為了解決這個問題,研究人員通常采用兩種"妥協(xié)"方案。第一種是將高清視頻"縮小"處理,就像把一張大照片壓縮成小圖片再分析,雖然省了內(nèi)存但丟失了很多重要細節(jié)。第二種是將大視頻"切塊"處理,就像把一幅拼圖拆散后分別分析每一小塊,雖然能處理完整分辨率但失去了整體的運動連貫性。這兩種方法都像是"丟了西瓜撿芝麻",為了解決內(nèi)存問題而犧牲了分析精度。
在這樣的背景下,莫斯科國立大學(xué)的研究團隊開發(fā)了一種名為MEMFOF的新方法。這個名字聽起來很技術(shù)化,但它代表的理念很簡單:在保持高精度分析的同時,大幅降低內(nèi)存消耗。就像設(shè)計一臺既省油又馬力強勁的汽車引擎一樣,MEMFOF在光流估計領(lǐng)域?qū)崿F(xiàn)了效率與性能的完美平衡。
研究團隊的突破在于重新設(shè)計了分析過程的"記憶方式"。傳統(tǒng)方法就像一個貪心的學(xué)生,試圖同時記住所有細節(jié),結(jié)果大腦超負荷運轉(zhuǎn)。而MEMFOF更像一個聰明的策略家,它知道哪些信息最重要,如何高效地存儲和調(diào)用關(guān)鍵數(shù)據(jù)。通過這種優(yōu)化,MEMFOF在處理1080p視頻時僅需2.09GB的GPU內(nèi)存,相比傳統(tǒng)方法減少了約4倍的內(nèi)存消耗。
更令人印象深刻的是,MEMFOF不僅解決了內(nèi)存問題,還在分析精度上超越了現(xiàn)有的最先進方法。在多個國際標(biāo)準(zhǔn)測試中,這種方法都取得了頂尖的成績。在Spring基準(zhǔn)測試中,MEMFOF的1像素誤差率僅為3.289%,在Sintel測試中的端點誤差為0.963,在KITTI-2015測試中的錯誤率僅為2.94%。這些數(shù)字背后代表的是更精確的運動分析能力,就像一位眼力極佳的裁判員,能夠準(zhǔn)確判斷運動員的每一個細微動作。
一、巧妙的多幀策略:從單一視角到立體觀察
傳統(tǒng)的光流估計方法通常只分析相鄰的兩幀畫面,就像只用一只眼睛看東西,雖然能感知到運動,但對深度和連續(xù)性的理解有限。MEMFOF采用了一種更加智能的"三幀策略",同時分析前一幀、當(dāng)前幀和后一幀的畫面信息。
這種方法的巧妙之處可以用觀察一個跳躍的球來比喻。如果你只看球從位置A到位置B的變化,可能無法準(zhǔn)確判斷球的真實運動軌跡。但如果你同時觀察球從位置A到B再到C的完整過程,就能更準(zhǔn)確地理解球的運動規(guī)律,甚至預(yù)測它的下一個位置。
在技術(shù)層面,MEMFOF會計算兩個"運動向量":一個描述當(dāng)前幀到前一幀的運動(向后看),另一個描述當(dāng)前幀到后一幀的運動(向前看)。這種雙向分析就像同時擁有了后視鏡和前瞻鏡,能夠更全面地理解物體的運動狀態(tài)。研究團隊發(fā)現(xiàn),這種雙向流動預(yù)測比單向預(yù)測的準(zhǔn)確率提高了約14.75%。
這種多幀策略特別擅長處理復(fù)雜的運動場景。當(dāng)畫面中出現(xiàn)物體遮擋、快速運動或運動邊界模糊等情況時,單純的兩幀分析往往會產(chǎn)生錯誤判斷。而三幀分析能夠利用時間上的連續(xù)性信息,就像偵探通過更多線索來還原事件真相一樣,顯著提高了分析的可靠性。
更重要的是,這種多幀處理并沒有成倍增加計算負擔(dān)。研究團隊通過巧妙的設(shè)計,讓系統(tǒng)能夠重復(fù)利用已經(jīng)計算過的特征信息。當(dāng)分析視頻序列時,前一次計算的結(jié)果可以被后續(xù)分析過程復(fù)用,就像搭積木時能夠利用已經(jīng)搭好的底層結(jié)構(gòu)一樣,大大提高了整體效率。
二、內(nèi)存優(yōu)化的核心技術(shù):巧妙的空間壓縮策略
MEMFOF最突出的創(chuàng)新在于對"相關(guān)性體積"的重新設(shè)計。要理解這個概念,可以把視頻分析過程想象成一個巨大的對比工作。系統(tǒng)需要將當(dāng)前幀的每個區(qū)域與其他幀的每個區(qū)域進行比較,找出最相似的對應(yīng)關(guān)系。這個比較過程產(chǎn)生的數(shù)據(jù)就是"相關(guān)性體積"。
在傳統(tǒng)方法中,這個相關(guān)性體積就像一個龐大的查找表,記錄著畫面中每個點與其他所有點的相似度信息。對于高分辨率視頻,這張表的大小會隨著分辨率的平方增長。一個1080p視頻包含約200萬個像素點,兩兩比較產(chǎn)生的數(shù)據(jù)量達到數(shù)萬億級別,這就解釋了為什么傳統(tǒng)方法需要如此大的內(nèi)存空間。
MEMFOF的解決方案類似于地圖的不同精度級別。當(dāng)你查看世界地圖時,不需要看到每條小街道的細節(jié);而當(dāng)你在城市中導(dǎo)航時,才需要詳細的街道信息。研究團隊將相關(guān)性體積的分辨率從傳統(tǒng)的1/8降低到1/16,同時增加了每個"網(wǎng)格點"存儲的信息密度。
這種策略的巧妙之處在于,雖然降低了空間分辨率,但通過增加信息密度來補償精度損失。就像用更厚的畫筆繪畫,雖然單次筆觸覆蓋的區(qū)域更大,但可以承載更豐富的顏色信息。具體來說,研究團隊將特征圖的維度從256提升到1024,將更新模塊的維度從128提升到512。
這種優(yōu)化帶來了顯著的內(nèi)存節(jié)省效果。對于三幀處理,相關(guān)性體積的內(nèi)存占用從10.4GB降低到僅0.65GB,減少了約16倍。雖然其他組件(如特征圖和中間計算結(jié)果)也占用內(nèi)存,但總體內(nèi)存使用量從8.19GB降低到2.09GB,實現(xiàn)了約4倍的內(nèi)存節(jié)省。
三、高分辨率訓(xùn)練的創(chuàng)新策略:解決數(shù)據(jù)與應(yīng)用的錯配問題
現(xiàn)有的光流估計算法面臨一個根本性的挑戰(zhàn):訓(xùn)練數(shù)據(jù)與實際應(yīng)用場景之間存在巨大差距。大部分訓(xùn)練數(shù)據(jù)集包含的都是相對較小的圖像和有限的運動幅度,就像一個只在平靜湖面練習(xí)的游泳運動員,當(dāng)面對洶涌海浪時會顯得力不從心。
研究團隊深入分析了這個問題的根源。他們發(fā)現(xiàn),常用的訓(xùn)練數(shù)據(jù)集如FlyingThings、KITTI等,其運動幅度分布與真實高分辨率視頻存在顯著差異。在訓(xùn)練數(shù)據(jù)中,大部分物體的運動幅度較小,而在實際的1080p視頻中,物體可能出現(xiàn)大幅度的快速運動。這種不匹配導(dǎo)致算法在面對真實高分辨率場景時表現(xiàn)不佳。
為了解決這個問題,MEMFOF采用了一種創(chuàng)新的"數(shù)據(jù)放大"策略。研究團隊將訓(xùn)練數(shù)據(jù)按2倍比例放大,同時相應(yīng)地放大運動向量。這個過程就像將小型訓(xùn)練場擴建成真實比賽場地,讓算法能夠適應(yīng)更大規(guī)模的運動模式。
這種策略的效果通過詳細的對比實驗得到了驗證。研究團隊比較了三種不同的訓(xùn)練方式:使用原始分辨率數(shù)據(jù)、使用放大數(shù)據(jù)但裁剪到原始尺寸、以及使用完整的放大數(shù)據(jù)。結(jié)果顯示,使用完整放大數(shù)據(jù)訓(xùn)練的模型在高分辨率測試中表現(xiàn)最佳,端點誤差從0.430降低到0.341,準(zhǔn)確率提升了約21%。
更重要的是,這種高分辨率訓(xùn)練策略使得MEMFOF成為第一個能夠在原生1080p分辨率下進行訓(xùn)練的多幀光流估計方法。訓(xùn)練過程中的內(nèi)存消耗被控制在28.5GB以內(nèi),這意味著可以在標(biāo)準(zhǔn)的專業(yè)級GPU上完成完整的訓(xùn)練過程。這為研究社區(qū)提供了一個新的標(biāo)桿,證明了高質(zhì)量的光流估計不一定需要昂貴的超大內(nèi)存系統(tǒng)。
四、性能優(yōu)化技術(shù):從實驗室到實際應(yīng)用的橋梁
MEMFOF不僅在算法層面實現(xiàn)了突破,還在工程實現(xiàn)上進行了多項優(yōu)化,使其更適合實際應(yīng)用場景。這些優(yōu)化就像汽車制造中的精細調(diào)校,雖然單項改進看似微小,但組合起來能帶來顯著的性能提升。
首先是特征網(wǎng)絡(luò)的重用機制。在處理視頻序列時,MEMFOF能夠智能地緩存和重用已經(jīng)計算過的特征信息。當(dāng)分析三幀畫面時,系統(tǒng)可以重用其中兩幀的特征提取結(jié)果,只需要為新加入的幀進行特征計算。這種機制類似于流水線生產(chǎn),避免了重復(fù)勞動,顯著提高了處理效率。
其次是"延遲上采樣"策略的應(yīng)用。在訓(xùn)練過程中,系統(tǒng)需要對每次迭代的結(jié)果都進行上采樣以計算損失函數(shù)。但在實際推理時,只有最終結(jié)果需要上采樣到完整分辨率。MEMFOF利用這個特點,只在最后一次迭代時進行上采樣,避免了大量不必要的計算開銷。
第三個優(yōu)化是相關(guān)性體積的重用機制。在處理視頻序列時,MEMFOF能夠巧妙地重新排列和復(fù)用已經(jīng)計算過的相關(guān)性數(shù)據(jù)。通過軸變換和多次池化操作,系統(tǒng)可以從已有的相關(guān)性體積中派生出新的相關(guān)性信息,而無需進行昂貴的矩陣乘法運算。
這些優(yōu)化策略的綜合效果相當(dāng)顯著。相比于樸素實現(xiàn),優(yōu)化后的MEMFOF在推理速度上提升了約22%,同時保持了相同的精度水平。對于三幀版本,推理時間從611毫秒降低到472毫秒;對于五幀版本,推理時間從597毫秒降低到329毫秒。
研究團隊還重新引入了全局運動注意力(GMA)模塊,這是一個能夠幫助系統(tǒng)聚焦于重要運動區(qū)域的組件。通過調(diào)整注意力機制的縮放因子,使其能夠更好地適應(yīng)不同分辨率的輸入,進一步提升了運動邊界檢測的精度。
五、實驗驗證與性能表現(xiàn):在多個戰(zhàn)場上的全面勝利
MEMFOF的優(yōu)越性通過一系列嚴格的基準(zhǔn)測試得到了全面驗證。這些測試就像奧運會的不同項目,每個都考驗著算法的特定能力,而MEMFOF在多個項目中都取得了金牌級別的成績。
在Spring基準(zhǔn)測試中,MEMFOF展現(xiàn)出了壓倒性的優(yōu)勢。Spring是一個專門針對高分辨率場景設(shè)計的測試集,包含復(fù)雜的現(xiàn)代場景和大幅度運動。在零樣本評估(即不在該數(shù)據(jù)集上進行專門訓(xùn)練)中,MEMFOF的1像素誤差率為3.600%,顯著優(yōu)于其他所有方法。更令人印象深刻的是,即使與在Spring數(shù)據(jù)集上專門微調(diào)過的方法相比,MEMFOF經(jīng)過微調(diào)后的表現(xiàn)(3.289%的誤差率)仍然位居榜首。
在Sintel基準(zhǔn)測試中,MEMFOF同樣表現(xiàn)出色。Sintel是一個基于動畫電影制作的數(shù)據(jù)集,包含復(fù)雜的光照變化、大幅度運動和精細的運動邊界。在干凈版本(clean)的測試中,MEMFOF達到了0.963的端點誤差,超越了包括五幀VideoFlow在內(nèi)的所有競爭方法。在最終版本(final)的測試中,MEMFOF的誤差為1.907,相比SEA-RAFT大型版本提升了約27%。
KITTI-2015基準(zhǔn)測試專注于自動駕駛場景,強調(diào)真實世界的運動分析能力。在這個測試中,MEMFOF取得了2.94%的Fl-all錯誤率,在所有非場景流方法中排名第一。這個結(jié)果特別有意義,因為它證明了MEMFOF不僅在實驗室環(huán)境中表現(xiàn)優(yōu)秀,在實際應(yīng)用場景中也具有很強的實用價值。
除了精度優(yōu)勢,MEMFOF在計算效率方面也顯示出明顯的競爭力。在1080p分辨率下,MEMFOF的推理時間為472毫秒,明顯快于其他多幀方法:MemFlow需要885毫秒,StreamFlow需要1403毫秒,VideoFlow-BOF更是需要1648毫秒。這種速度優(yōu)勢使得MEMFOF更適合實時或近實時的應(yīng)用場景。
內(nèi)存消耗方面的對比更加引人注目。在處理1080p視頻時,MEMFOF僅需要2.09GB內(nèi)存,而競爭對手的內(nèi)存需求都顯著更高:RAFT需要7.97GB,MemFlow需要8.08GB,StreamFlow需要18.97GB。這種巨大的內(nèi)存優(yōu)勢意味著MEMFOF可以在普通的消費級GPU上運行,而不需要昂貴的專業(yè)級硬件。
六、深入的消融實驗:解構(gòu)成功的關(guān)鍵要素
為了深入理解MEMFOF成功的原因,研究團隊進行了全面的消融實驗,就像醫(yī)生通過各種檢查來確定治療方案的有效成分一樣。這些實驗系統(tǒng)地驗證了設(shè)計中每個組件的貢獻,為未來的改進指明了方向。
關(guān)于高分辨率訓(xùn)練策略的實驗結(jié)果特別有啟發(fā)性。研究團隊對比了三種不同的訓(xùn)練方法,發(fā)現(xiàn)數(shù)據(jù)放大策略的重要性遠超預(yù)期。在使用原始分辨率數(shù)據(jù)訓(xùn)練時,模型的端點誤差為0.430,表現(xiàn)相對較差。當(dāng)使用放大數(shù)據(jù)但裁剪到原始尺寸時,性能有所改善但仍然有限。只有在使用完整的2倍放大數(shù)據(jù)進行訓(xùn)練時,端點誤差才降到0.341,實現(xiàn)了最佳性能。
這個發(fā)現(xiàn)揭示了一個重要的原理:算法的泛化能力很大程度上取決于訓(xùn)練數(shù)據(jù)與目標(biāo)應(yīng)用場景的匹配程度。通過分析不同運動幅度下的性能表現(xiàn),研究團隊發(fā)現(xiàn),使用放大數(shù)據(jù)訓(xùn)練的模型在處理大幅度運動(s40+類別)時表現(xiàn)尤其出色,這正是高分辨率視頻分析中最具挑戰(zhàn)性的部分。
關(guān)于多幀策略的實驗同樣富有洞察力。研究團隊比較了雙向流動預(yù)測(當(dāng)前幀到前一幀和后一幀)與單向流動預(yù)測(前一幀到當(dāng)前幀和當(dāng)前幀到后一幀)的效果。結(jié)果顯示,雙向策略在Spring訓(xùn)練數(shù)據(jù)上的端點誤差比單向策略低14.75%。研究團隊分析認為,這種優(yōu)勢來源于運動邊界學(xué)習(xí)的簡化:雙向流動共享相同的中心幀邊界,而單向流動需要處理不同方向的不同邊界,增加了學(xué)習(xí)難度。
相關(guān)性體積分辨率的實驗提供了效率與精度權(quán)衡的重要信息。研究團隊測試了1/16和1/24兩種分辨率設(shè)置,發(fā)現(xiàn)1/16分辨率在大多數(shù)情況下提供了更好的精度-內(nèi)存平衡。同時,特征維度的增加(從256到1024)被證明是補償分辨率降低的有效策略。
幀數(shù)量的實驗結(jié)果顯示了一個有趣的現(xiàn)象:從兩幀增加到三幀帶來了顯著的性能提升,但從三幀增加到五幀反而出現(xiàn)了性能下降。研究團隊將這個現(xiàn)象歸因于上下文網(wǎng)絡(luò)和循環(huán)模塊的容量限制,這為未來的架構(gòu)設(shè)計提供了重要啟示。
迭代次數(shù)的實驗表明,8次迭代為精度和速度提供了最佳平衡點。雖然繼續(xù)增加迭代次數(shù)可以帶來微小的精度提升,但收益遞減效應(yīng)明顯,而計算成本卻線性增長。
七、技術(shù)創(chuàng)新的深層意義:重新定義可能性邊界
MEMFOF的成功不僅僅是一個技術(shù)突破,更重要的是它重新定義了光流估計領(lǐng)域的可能性邊界。這種影響就像第一臺個人電腦的出現(xiàn),不僅解決了計算問題,更開啟了普通人接觸高級計算能力的新時代。
首先,MEMFOF證明了高精度和高效率并非不可調(diào)和的矛盾。長期以來,研究界普遍認為要獲得更高的分析精度就必須承受更大的計算開銷。MEMFOF通過巧妙的架構(gòu)設(shè)計和優(yōu)化策略,展示了"魚和熊掌可以兼得"的可能性。這種突破為整個領(lǐng)域樹立了新的標(biāo)桿,激勵研究者重新思考效率與性能的關(guān)系。
其次,MEMFOF的內(nèi)存優(yōu)化策略具有廣泛的啟發(fā)意義。其核心思想是通過增加信息密度來補償空間分辨率的降低,這種"用深度換寬度"的策略可能適用于許多其他的計算機視覺任務(wù)。研究團隊展示的這種設(shè)計哲學(xué)可能會影響未來神經(jīng)網(wǎng)絡(luò)架構(gòu)的發(fā)展方向。
第三,高分辨率原生訓(xùn)練的實現(xiàn)具有重要的實踐意義。MEMFOF證明了在合理的硬件資源約束下進行高質(zhì)量訓(xùn)練是可能的,這降低了研究和應(yīng)用的門檻。更多的研究團隊和開發(fā)者可以參與到高分辨率光流估計的研究中,加速整個領(lǐng)域的發(fā)展。
從應(yīng)用角度來看,MEMFOF的突破為許多實際應(yīng)用場景打開了新的可能性。在視頻編輯領(lǐng)域,更高效的光流估計可以支持更復(fù)雜的實時效果處理。在自動駕駛領(lǐng)域,更精確且更高效的運動分析可以提高系統(tǒng)的可靠性和響應(yīng)速度。在增強現(xiàn)實和虛擬現(xiàn)實領(lǐng)域,更好的運動理解可以創(chuàng)造更自然、更沉浸的用戶體驗。
MEMFOF還在訓(xùn)練策略方面提供了重要洞察。其數(shù)據(jù)放大和多階段訓(xùn)練的方法論可能適用于其他需要處理分辨率差異的機器學(xué)習(xí)任務(wù)。這種方法論強調(diào)了訓(xùn)練數(shù)據(jù)與目標(biāo)應(yīng)用場景匹配的重要性,為解決"訓(xùn)練-測試不匹配"這一機器學(xué)習(xí)領(lǐng)域的普遍問題提供了新思路。
技術(shù)上,MEMFOF展示了如何在保持算法核心優(yōu)勢的同時進行大膽的架構(gòu)創(chuàng)新。研究團隊沒有簡單地追求更深或更寬的網(wǎng)絡(luò)結(jié)構(gòu),而是從問題的本質(zhì)出發(fā),重新審視了每個組件的設(shè)計合理性。這種"回到原點"的思考方式為算法創(chuàng)新提供了重要借鑒。
歸根結(jié)底,MEMFOF的出現(xiàn)標(biāo)志著光流估計技術(shù)從實驗室向?qū)嶋H應(yīng)用邁出的重要一步。它不僅解決了長期困擾研究界的內(nèi)存瓶頸問題,還在精度上實現(xiàn)了新的突破,為計算機視覺技術(shù)的普及和應(yīng)用提供了強有力的支撐。這項研究讓我們看到,通過深入理解問題本質(zhì)和巧妙的工程實現(xiàn),技術(shù)突破的邊界遠比我們想象的更廣闊。對于希望深入了解這項研究細節(jié)的讀者,可以通過訪問GitHub倉庫https://github.com/msu-video-group/memfof獲取完整的代碼實現(xiàn),或在arXiv平臺查看完整論文內(nèi)容。
Q&A
Q1:MEMFOF是什么?它能解決什么問題? A:MEMFOF是莫斯科國立大學(xué)開發(fā)的光流估計算法,專門用于分析視頻中物體的運動。它解決了傳統(tǒng)方法在處理高清視頻時內(nèi)存消耗過大的問題,將1080p視頻分析的內(nèi)存需求從8GB降低到2GB,同時還提高了分析精度。
Q2:MEMFOF會不會讓視頻分析變得更便宜? A:是的。MEMFOF大幅降低了硬件要求,讓普通的消費級GPU也能處理高清視頻分析任務(wù),不再需要昂貴的專業(yè)級設(shè)備。這意味著更多開發(fā)者和研究者可以使用高質(zhì)量的視頻分析技術(shù),降低了技術(shù)應(yīng)用的門檻。
Q3:普通人能用到MEMFOF技術(shù)嗎?應(yīng)用場景有哪些? A:雖然MEMFOF是底層技術(shù),但它的應(yīng)用會間接影響普通用戶。比如手機視頻穩(wěn)定、視頻編輯軟件的智能處理、自動駕駛汽車的環(huán)境感知等都可能受益。目前代碼已在GitHub開源,技術(shù)開發(fā)者可以直接使用。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。