在視頻理解的人工智能領(lǐng)域,一項重要突破正在改變多模態(tài)大型語言模型的學(xué)習方式。這項研究來自于新加坡國立大學(xué)和新加坡海洋人工智能實驗室的聯(lián)合團隊,由Haonan Wang、Hongfu Liu、Xiangyan Liu、Chao Du、Kenji Kawaguchi和Ye Wang領(lǐng)導(dǎo),并由Tianyu Pang擔任通訊作者。他們的論文《Fostering Video Reasoning via Next-Event Prediction》于2025年5月28日發(fā)表在arXiv預(yù)印本平臺上,為視頻理解領(lǐng)域帶來了全新的學(xué)習范式。
如果你曾經(jīng)好奇過電影中的人工智能如何能預(yù)測接下來會發(fā)生什么,這項研究正在讓這種能力成為現(xiàn)實。就像人類能夠根據(jù)所見情況預(yù)測未來可能發(fā)生的事件一樣,研究團隊開發(fā)的方法讓AI系統(tǒng)也能具備這種時間推理能力。
傳統(tǒng)的大型語言模型(LLM)通過預(yù)測下一個詞語來學(xué)習推理能力,但在視頻理解領(lǐng)域,研究者們一直在尋找最有效的學(xué)習方式?,F(xiàn)有的方法如視頻問答通常依賴人類或更強大模型的標注,而視頻描述則往往將時間推理與空間信息糾纏在一起。新加坡國立大學(xué)的研究團隊提出了一個簡單而優(yōu)雅的解決方案:讓AI學(xué)會預(yù)測接下來會發(fā)生什么。
他們提出的方法稱為"下一事件預(yù)測"(Next-Event Prediction, NEP),這是一種自監(jiān)督學(xué)習任務(wù),利用未來視頻片段作為豐富的信號來培養(yǎng)時間推理能力。想象一下,就像你看了電影的前半部分后猜測后半部分的情節(jié)一樣,AI模型會接收視頻的前半部分作為輸入,然后預(yù)測后半部分可能發(fā)生的事件。這種方法自然地要求模型整合視覺感知與預(yù)訓(xùn)練的常識知識,從而豐富其對動態(tài)視覺事件的理解。
為了支持這項研究,團隊創(chuàng)建了V1-33K數(shù)據(jù)集,包含約33,000個自動提取的視頻片段,涵蓋了從簡單短片到復(fù)雜多步驟場景的各種內(nèi)容。這種多樣性有效地挑戰(zhàn)了多模態(tài)大型語言模型進行短期和長期時間推理的能力。
此外,研究團隊還引入了FutureBench,一個全面的基準測試,用于評估模型在預(yù)測未見過的未來事件時的邏輯一致性和因果一致性。實驗結(jié)果表明,將NEP作為學(xué)習任務(wù)顯著提高了多模態(tài)大型語言模型的時間理解和推理能力,同時保持了它們在常規(guī)視頻任務(wù)上的性能。
讓我們深入探索這項創(chuàng)新研究的細節(jié),看看它如何為視頻人工智能帶來革命性的變化。
一、下一事件預(yù)測:培養(yǎng)視頻推理的新范式
在人工智能領(lǐng)域,大型語言模型通過預(yù)測下一個詞語來學(xué)習復(fù)雜的推理能力,這已經(jīng)成為一種基本的學(xué)習任務(wù)。那么,當我們想要讓多模態(tài)大型語言模型具備時間推理能力時,應(yīng)該采用什么樣的學(xué)習任務(wù)呢?
研究團隊通過對比分析發(fā)現(xiàn)了現(xiàn)有方法的局限性。傳統(tǒng)的視頻問答任務(wù)往往依賴于關(guān)鍵幀,忽略了視頻的時間維度。例如,當模型被問到"防守者是否阻擋了快攻上籃?"時,它可能只關(guān)注包含防守動作的單一關(guān)鍵幀,而不是理解整個動作序列。另一方面,視頻描述任務(wù)雖然考慮了整個視頻,但往往將時間線索與空間信息混雜在一起,限制了模型理解動態(tài)事件發(fā)展的能力。
為了解決這個問題,研究團隊提出了"下一事件預(yù)測"(NEP)任務(wù)。這種方法將每個視頻分割為過去和未來的幀:模型接收過去的幀作為輸入,然后預(yù)測從未來幀中提取的事件摘要。這種設(shè)計自然地利用了視頻的時間性質(zhì),因為未來幀的描述可以作為自監(jiān)督信號,無需昂貴的人工標注。
想象一下,就像我們看完電影的前半部分后,根據(jù)已經(jīng)發(fā)生的情節(jié)和我們的常識知識來預(yù)測后半部分可能發(fā)生的事件。NEP任務(wù)要求模型做同樣的事情—僅基于觀察到的前半部分視頻,推斷未來可能發(fā)生什么。
NEP任務(wù)的核心在于它要求模型不僅要進行簡單的視覺感知(如物體檢測或當前動作識別),還需要推斷事件動態(tài)并整合視覺理解與常識知識。視覺線索很少明確指示未來結(jié)果,這迫使模型利用一般世界知識,如物理學(xué)、社會規(guī)范和人類行為,來預(yù)測合理的下一個事件。
這種推理過程類似于大型語言模型中的"思維鏈"(Chain-of-Thought)推理。就像數(shù)學(xué)推理中的中間步驟一樣,視頻預(yù)測需要模型生成基于視覺觀察的邏輯推導(dǎo)。例如,如果觀察到"一名球員無人防守地接近籃筐",模型可能推斷"成功上籃的可能性很高"。
然而,模型還需要考慮更微妙的線索,如研究者給出的例子:在一個籃球比賽視頻中,當看到一次防守成功后隊伍可能會快速推進(基于常識知識),但如果是第四節(jié)比賽最后兩分鐘(視覺事實),教練可能會叫暫停,或球員可能會放慢節(jié)奏以確保謹慎的執(zhí)行。這種推理需要模型不僅觀察到當前狀態(tài),還要考慮比賽的上下文和籃球比賽的常識規(guī)則。
這種預(yù)測未來事件的能力對于各種實際應(yīng)用至關(guān)重要,從自動駕駛汽車預(yù)測行人行為,到安全監(jiān)控系統(tǒng)識別潛在危險情況,再到輔助機器人預(yù)測人類意圖以更好地協(xié)作。通過訓(xùn)練模型預(yù)測實際觀察到的未來,NEP任務(wù)強化了對現(xiàn)實因果模式的學(xué)習,即使具體的未來可能有所不同,底層的推理過程也會學(xué)習到可泛化的模式。
二、V1-33K:構(gòu)建預(yù)測未來事件的數(shù)據(jù)集
為了實現(xiàn)下一事件預(yù)測任務(wù),研究團隊構(gòu)建了V1-33K數(shù)據(jù)集,這是一個包含約33,000個視頻實例的大規(guī)模數(shù)據(jù)集。每個實例由一個觀察到的視頻片段與其隨后的續(xù)集摘要配對,后者作為地面真實目標。
構(gòu)建這樣一個數(shù)據(jù)集并非易事,團隊設(shè)計了一個簡單而有效的四階段流水線來自動處理原始視頻:
**事實轉(zhuǎn)換階段**首先將視覺內(nèi)容轉(zhuǎn)換為詳細的文本描述。研究團隊使用視覺-語言模型為每個視頻生成全面描述,這確保了文本可以捕捉到視頻中的豐富視覺細節(jié),為后續(xù)基于文本的推理奠定基礎(chǔ)。
在**分析階段**,這些描述被送入大型語言模型,執(zhí)行兩個關(guān)鍵任務(wù):識別不同場景并確定基于因果關(guān)系的最佳分割點。例如,模型會分析像"庫里和伊戈達拉帶頭快攻"和"伊戈達拉接球后突破"這樣的場景,確定它們之間的因果關(guān)系,并找出一個合適的分割點,使得前半部分提供足夠的上下文來預(yù)測后續(xù)事件。
**分割階段**使用確定的最佳分割點將原始視頻及其描述分為兩部分。第一部分作為模型的輸入,包含初始事件,確保視頻推理基于已建立的事實。第二部分被保留作為評估模型預(yù)測的真實參考。
最后是**推理與批評階段**,這一階段特別有趣。研究團隊利用文本推理模型(如DeepSeek-R1)處理第一部分的描述,記錄其推理過程并生成未來事件的預(yù)測??紤]到文本推理有時會引入錯誤,團隊隨后使用另一個大型語言模型對推理過程和預(yù)測結(jié)果進行批判性評估。這種批評微調(diào)(CFT)的方法讓模型學(xué)會批評嘈雜的響應(yīng),而不是簡單地模仿它們,確保只有穩(wěn)健的推理能夠指導(dǎo)最終模型的訓(xùn)練。
V1-33K數(shù)據(jù)集的多樣性是其另一個重要特點。它包含來自多種來源的視頻(如YouTube、YouCook2、NextQA、Charades和ActivityNet),涵蓋了廣泛的場景:物理事件(如溢出、碰撞、物體交互)、人類互動(如爭論導(dǎo)致反應(yīng)、惡作劇導(dǎo)致驚訝)、體育(如一次配合導(dǎo)致進球或失敗)等。這種多樣性確保了模型能夠?qū)W習廣泛的時間關(guān)系和事件序列。
值得注意的是,所有監(jiān)督信號都是自動生成的;未來事件的描述本質(zhì)上是模型為后續(xù)片段生成的描述,但通過流水線進行過濾和驗證以確保正確性和相關(guān)性。這種自動化方法使得數(shù)據(jù)集能夠大規(guī)模擴展,而無需昂貴的人工標注。
三、視頻指令調(diào)優(yōu)策略與實現(xiàn)
一旦有了V1-33K數(shù)據(jù)集,研究團隊探索了四種不同的視頻指令調(diào)優(yōu)策略,每種策略都利用數(shù)據(jù)集中的特定注釋和結(jié)構(gòu)。
**監(jiān)督式微調(diào)(SFT)**是最直接的方法。模型接收視頻的第一部分描述,并預(yù)測其續(xù)集,通過交叉熵損失進行訓(xùn)練。這一階段使模型具備基本的預(yù)測能力,讓它能夠直接模仿真實未來事件的描述。
**批評微調(diào)(CFT)**是一種更復(fù)雜的策略,模型學(xué)習批評嘈雜的響應(yīng),而不是簡單地模仿答案。研究團隊利用外部大型語言模型(如GPT-4)生成的批評數(shù)據(jù),這些批評識別了模型預(yù)測相對于真實續(xù)集的優(yōu)點和錯誤。在微調(diào)過程中,模型學(xué)習根據(jù)提供的批評來完善有缺陷的續(xù)集或評估預(yù)測,內(nèi)化反饋以增強邏輯一致性和預(yù)測準確性。
**蒸餾微調(diào)(Distill)**從DeepSeek-R1這一強大的推理模型中提取知識。對于每個樣本,DeepSeek-R1生成詳細的推理步驟和預(yù)測描述。學(xué)生模型被微調(diào)以重現(xiàn)整個推理序列,采用結(jié)構(gòu)化的推理模式以提高推理和預(yù)測準確性。
**混合微調(diào)(Mix)**將上述三種方法在每個訓(xùn)練周期中平均結(jié)合。通過交替直接預(yù)測、批評引導(dǎo)的完善和顯式推理演示,模型整合了各種監(jiān)督信號。這種混合策略促進了穩(wěn)健學(xué)習,平衡了事實準確性、批評反饋整合和結(jié)構(gòu)化推理能力。
在技術(shù)實現(xiàn)上,研究團隊考慮了類似于最近的多模態(tài)大型語言模型Llava的編碼器-解碼器架構(gòu)。視覺編碼器處理視頻幀并產(chǎn)生視覺嵌入序列,語言解碼器通過交叉注意力機制接收這些嵌入,然后生成文本。具體來說,對于每個輸入視頻V≤t,編碼器提取幀特征,這些特征通過交叉注意力機制被送入解碼器。然后,解碼器被提示輸出下一事件描述。在訓(xùn)練過程中,解碼器被監(jiān)督以匹配真實事件描述,使用標準的語言建模損失(即下一個標記的交叉熵)。
四、FutureBench:評估時間推理能力的基準
為了評估多模態(tài)大型語言模型在時間推理方面的進展,研究團隊引入了FutureBench,這是一個專門設(shè)計用于評估模型預(yù)測未見過的未來事件的邏輯一致性的基準測試。
FutureBench與NEP目標密切相關(guān),要求模型具備強大的視覺感知和常識推理能力。與傳統(tǒng)視頻問答基準不同,F(xiàn)utureBench強調(diào)面向未觀察到的未來目標的時間-因果推理,而不是從可見幀中提取答案。
評估任務(wù)被設(shè)計為多項選擇問答形式。每個視頻片段都配有一個明確定義的任務(wù)目標或事件結(jié)果(稱為錨點),這是從完整視頻的最終狀態(tài)派生出來的。這種設(shè)計反映了現(xiàn)實世界的敘事通常遵循目標驅(qū)動的軌跡,并有助于約束潛在未來事件的搜索空間。給定錨點,模型需要向前和向后推理,推斷最終達到指定結(jié)果的合理中間步驟或事件。
FutureBench的一個顯著特點是其按邏輯跳數(shù)(即模型必須預(yù)測的推理步驟或缺失事件的數(shù)量)結(jié)構(gòu)化劃分的任務(wù)。這種設(shè)計使研究者能夠全面評估模型在單跳(1跳)推理任務(wù)中的分布內(nèi)性能,以及在涉及擴展事件序列的更復(fù)雜多跳推理中的分布外泛化能力。
具體來說,F(xiàn)utureBench包含兩個主要子任務(wù):
**未來事件預(yù)測—外推**要求模型預(yù)測一系列未來事件,這些事件在邏輯上將初始觀察場景與指定的最終結(jié)果連接起來。任務(wù)難度通過調(diào)整缺失事件的數(shù)量來控制,從一個到三個不等: - **1跳**:模型預(yù)測一個未來事件,直接將觀察到的場景與最終場景連接起來,這對應(yīng)于標準的NEP任務(wù)。 - **2跳**:模型推斷兩個連續(xù)的未來事件,需要一個短鏈推理過程,將觀察到的場景與最終事件順序連接起來。 - **3跳**:模型預(yù)測三個連續(xù)的未來事件,通過要求跨越更長時間跨度的更深因果推理,顯著增加了任務(wù)復(fù)雜性。
**未來事件預(yù)測—插值**引入了一個互補挑戰(zhàn),模型必須在給定部分觀察到的場景(包括中間錨點事件)的情況下,推斷多個非連續(xù)的未來事件。與外推不同,這個任務(wù)要求模型在片段觀察中進行插值,強調(diào)在片段觀察中對因果連續(xù)性和時間連貫性的推理。
為了設(shè)計高質(zhì)量的問題和答案選項,研究團隊采用了一個基于大型語言模型的生成流水線,特別是使用GPT-4(僅文本模式)從詳細的視頻注釋中生成問答對。每個視頻都附有豐富的文本元數(shù)據(jù),包括概要、場景級描述、觀察到的場景(初始上下文)和最終場景(目標結(jié)果)。研究者使用結(jié)構(gòu)化模板提示GPT-4,模擬人類出題者。
為了確保問題需要真正的推理,提示明確要求實現(xiàn)最終結(jié)果,并精心設(shè)計以防止快捷解決方案—例如,避免正確答案與問題之間的詞匯重疊,或容易被排除的干擾項。此外,干擾選項在視頻的主題上下文中是常識上合理的,但在結(jié)果軌跡上邏輯不一致,從而增加了任務(wù)難度。
所有生成的問答項都經(jīng)過了人工驗證和過濾。被認為過于簡單的項目(例如答案可以從單個幀中直接推斷,或干擾項不合理)被丟棄。需要小修正的問答對被編輯以確保語義連貫性和與視頻敘事的一致性。這種人在環(huán)中的審查過程使團隊能夠在有效利用GPT-4高效擴展數(shù)據(jù)生成的同時,保持高注釋質(zhì)量。
最終,F(xiàn)utureBench包含總共1056個精心策劃的問答對,跨越外推和插值子任務(wù)。為了評估基準的質(zhì)量并強調(diào)視覺感知和時間推理的重要性,研究團隊在沒有任何視覺輸入的情況下,僅使用文本版本的問題評估了一個強大的推理模型o4-mini。該模型的準確率為32.0%,表明即使是先進的推理能力也不足以一致地解決任務(wù),這強調(diào)了視覺感知在解決FutureBench中未來事件預(yù)測的關(guān)鍵作用。
五、實驗與結(jié)果分析
為了系統(tǒng)地評估下一事件預(yù)測作為學(xué)習任務(wù)的有效性,研究團隊在NEP任務(wù)上微調(diào)了Qwen2.5-VL-7B-Instruct模型,并將其性能與在三種先前指令調(diào)優(yōu)任務(wù)上訓(xùn)練的模型進行比較:描述(Captioning)、多選問答(MCQA)和開放式問答(OEQA)。為了公平比較,所有模型都在相同大小的數(shù)據(jù)集(使用3K樣本)上訓(xùn)練。
研究團隊通過兩組基準測試對模型性能進行了全面評估。首先,他們評估了一般視頻理解能力,使用三個廣泛使用的基準,這些基準并非專門設(shè)計用于測試時間推理:VideoMME(不包括字幕)、MVBench和LongVideoBench驗證集。其次,為了檢驗時間理解和推理能力,他們評估了四個時間聚焦的基準:TemporalBench、TempCompass、SeedBench-R1和他們提出的FutureBench。這些基準挑戰(zhàn)模型進行復(fù)雜的時間理解和推理。
結(jié)果令人印象深刻:在部分觀察視頻上使用NEP任務(wù)訓(xùn)練的模型在時間基準測試上表現(xiàn)出顯著改進,相比于在完整觀察視頻上使用描述、MCQA和OEQA任務(wù)訓(xùn)練的模型。值得注意的是,NEP訓(xùn)練的模型在一般基準測試上也保持了競爭性能,這凸顯了NEP任務(wù)的優(yōu)越性和兼容性。
這些發(fā)現(xiàn)表明,NEP不僅增強了模型對時間序列進行推理的能力,而且在不犧牲其總體理解能力的情況下做到了這一點。NEP作為一種有效的學(xué)習信號,促進了視覺感知和時間推理,在一般性能方面幾乎沒有權(quán)衡。
此外,研究團隊還研究了三種經(jīng)典邏輯推理形式:歸納、演繹和溯因在視頻指令調(diào)優(yōu)上下文中的相對功效。這些推理范式分別對應(yīng)于不同的任務(wù)形式:視頻問答(歸納)、下一事件預(yù)測(演繹)和先前事件預(yù)測(溯因)。通過使用相同的3K樣本訓(xùn)練集微調(diào)Qwen2.5-VL-7B-Instruct模型,僅改變?nèi)蝿?wù)表述以符合每種推理,研究者發(fā)現(xiàn)通過下一事件預(yù)測的演繹推理在時間基準測試上產(chǎn)生了顯著更大的改進,相比于歸納和溯因推理。
在進一步探索NEP任務(wù)上的有效訓(xùn)練策略時,研究團隊比較了四種指令調(diào)優(yōu)方法:監(jiān)督式微調(diào)(SFT)、批評微調(diào)(CFT)、蒸餾(Distill)和混合調(diào)優(yōu)(Mix)。他們在Qwen2.5-VL-3B-Instruct和Qwen2.5-VL-7B-Instruct上進行了實驗,評估每種策略在一般和時間視頻基準測試上的性能。
結(jié)果表明,簡單的SFT在NEP訓(xùn)練上是一種有效策略,在時間基準測試上產(chǎn)生了顯著的增益。雖然CFT和Distill也貢獻了顯著的改進,但它們依賴于來自輔助大型語言模型的額外注釋或反饋,使它們相比SFT效率較低。重要的是,Mix策略在時間基準測試上取得了最高的平均性能,有效結(jié)合了所有調(diào)優(yōu)方法的優(yōu)勢。
研究團隊還研究了訓(xùn)練集大小的影響,通過將SFT和Distill從1K擴展到25K樣本,以及將CFT和Mix從1K擴展到10K樣本。有趣的是,增加訓(xùn)練數(shù)據(jù)超過5K樣本并不會一致地提高所有調(diào)優(yōu)策略的性能,在某些情況下,甚至會導(dǎo)致一般和時間基準測試上的性能下降。研究者將此歸因于大規(guī)模單獨NEP訓(xùn)練引入的潛在分布偏移,這可能導(dǎo)致模型過擬合或偏離平衡的一般理解。這一觀察表明,雖然NEP是一個有價值的訓(xùn)練任務(wù),但需要仔細混合和選擇數(shù)據(jù)規(guī)模,以避免收益遞減或?qū)δP头夯牟焕绊憽?/p>
最后,研究團隊探索了將強化學(xué)習(RL)作為增強推理能力的替代學(xué)習范式。他們構(gòu)建了一個專用訓(xùn)練集,包含2,000個多選題問答對,使用與FutureBench相同的流水線生成,但僅限于1跳和2跳外推任務(wù)。這使得3跳外推任務(wù)被視為分布外(OOD)設(shè)置,旨在評估模型對更長、未見過的因果鏈的泛化能力。同樣,插值任務(wù)呈現(xiàn)了另一個OOD挑戰(zhàn),要求模型對片段未來上下文進行推理。
實驗表明,使用群組相對策略優(yōu)化(GRPO)訓(xùn)練的模型在分布內(nèi)任務(wù)上表現(xiàn)出強勁的性能改進,并且很好地泛化到OOD任務(wù),包括3跳問題和插值任務(wù)。這些結(jié)果凸顯了RL訓(xùn)練在未來事件預(yù)測任務(wù)中的有效性。然而,RL訓(xùn)練的模型在一般視頻理解基準測試上遭受了非平凡的性能下降,這表明雖然RL訓(xùn)練促進了適合未來事件預(yù)測的推理風格,但它可能帶來了不利于不需要面向未來預(yù)測的任務(wù)泛化的歸納偏差。
此外,研究者觀察到了獎勵黑客的實例,其中使用多選題問答和結(jié)果監(jiān)督的RL訓(xùn)練可能鼓勵模型利用表面模式,如答案選項與問題文本之間的詞匯相似性,而不是通過整合視覺感知和因果推理進行真正的推理。鑒于這些限制,研究團隊強調(diào)SFT仍然是NEP訓(xùn)練的一種簡單而有效的方法。
六、總結(jié)與展望
這項由新加坡國立大學(xué)和新加坡海洋人工智能實驗室合作完成的研究提出了下一事件預(yù)測(NEP),這是一種專門設(shè)計用于提高多模態(tài)大型語言模型時間推理能力的自監(jiān)督學(xué)習任務(wù)。通過將視頻分為過去和未來幀,NEP迫使模型預(yù)測未見過的未來事件,使模型能夠隱式建立因果和敘事動態(tài)的穩(wěn)健內(nèi)部表示。
為了研究NEP并促進這一領(lǐng)域的研究,研究團隊創(chuàng)建了V1-33K,一個包含約33,000個視頻實例的大型數(shù)據(jù)集,涵蓋了廣泛的真實世界場景和時間復(fù)雜性。此外,他們提出了FutureBench,一個全面的基準,用于評估模型生成邏輯連貫和因果一致的未來事件預(yù)測的能力。
實驗表明,將NEP納入訓(xùn)練顯著提高了多模態(tài)大型語言模型的時間推理能力,同時保持了它們在傳統(tǒng)視頻理解任務(wù)上的性能。通過比較不同的視頻指令調(diào)優(yōu)策略,研究團隊發(fā)現(xiàn)監(jiān)督式微調(diào)(SFT)提供了一種簡單而有效的方法,而混合策略在利用多種互補監(jiān)督信號方面表現(xiàn)最佳。
這項研究為視頻理解領(lǐng)域開辟了新的方向,彌合了靜態(tài)視覺描述和時間事件推斷之間的差距。通過教導(dǎo)模型不僅描述所見,還推理未見,研究者正在推動我們朝著更全面的視頻理解系統(tǒng)邁進,這些系統(tǒng)能夠在動態(tài)視覺敘事中導(dǎo)航因果關(guān)系和時間依賴性。
隨著這一領(lǐng)域的發(fā)展,未來研究可能會探索更多樣化的數(shù)據(jù)源、改進的注釋策略和新穎的架構(gòu)設(shè)計,以進一步增強模型的時間推理能力。此外,將NEP與其他自監(jiān)督和監(jiān)督學(xué)習任務(wù)相結(jié)合,可能會產(chǎn)生對動態(tài)視覺內(nèi)容有更深理解的更全面的模型。
這項研究的實際應(yīng)用十分廣泛,從增強視頻監(jiān)控系統(tǒng)預(yù)測潛在危險情況,到改進自動駕駛汽車預(yù)測行人行為,再到開發(fā)能夠理解并預(yù)測人類意圖的更直觀的人機交互系統(tǒng)。通過培養(yǎng)真正的時間推理能力,這項工作為更智能、更有用的視頻AI系統(tǒng)鋪平了道路。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。