這項由新加坡國立大學Show Lab實驗室的白澤宸、茨海和沈銘正領導的研究發(fā)表于2025年3月的arXiv預印本平臺,論文編號為arXiv:2503.14378v1。有興趣深入了解的讀者可以通過https://showlab.github.io/Impossible-Videos/訪問完整論文和相關資源。
在當今AI視頻技術飛速發(fā)展的時代,我們每天都能看到各種令人驚嘆的AI生成視頻。從逼真的人物對話到精美的風景畫面,AI似乎已經能夠創(chuàng)造出任何我們能想象的視覺內容。然而,一個有趣的問題浮現出來:這些看似無所不能的AI視頻模型,能否處理那些在現實世界中根本不可能發(fā)生的場景呢?比如說,一塊餅干會自己慢慢長大,或者一個人能夠神奇地把手伸進鏡子里觸摸自己的倒影?
這正是新加坡國立大學研究團隊關注的核心問題。他們發(fā)現,現有的AI視頻研究幾乎都專注于模仿和重現真實世界的場景,卻很少有人探索AI在處理"不可能視頻"方面的能力。這就像是我們一直在教機器人如何在平地上走路,卻從未測試過它們能否在倒立的世界里移動一樣。
為了填補這個研究空白,研究團隊開發(fā)了一個名為IPV-BENCH的綜合性基準測試平臺。這個平臺就像是專門為AI視頻模型設計的"不可能任務訓練營",包含了各種挑戰(zhàn)常識、違反物理定律、突破生物限制的奇特場景。通過這個平臺,研究者們想要回答兩個關鍵問題:現在的AI視頻生成模型能否根據文字描述創(chuàng)造出不可能的視頻內容?現在的AI視頻理解模型能否準確識別和理解這些不可能的場景?
研究團隊首先構建了一個詳細的分類體系,將不可能場景分為四大類別。第一類是違反物理定律的場景,比如物體憑空增長、刀切向東邊但食物卻從南邊裂開等。第二類是違反生物規(guī)律的場景,包括煎蛋開口說話、玫瑰花從向日葵中心長出等奇異現象。第三類是違反地理規(guī)律的場景,比如云朵在天空中變成英文字母、熱帶國家新加坡下雪等。第四類是違反社會常識的場景,比如卡車從地下洞穴中鉆出、人類可以神奇地觸摸鏡中的倒影等。
基于這個分類體系,研究團隊構建了兩個核心組件。首先是IPV-TXT,一個包含260個高質量文字提示的數據集,每個提示都描述了一個不可能的場景。這些提示不是簡單地說"創(chuàng)造一個不可能的場景",而是詳細描述了具體的不可能現象,比如"一個不完整的餅干隨著時間推移慢慢變完整"。其次是IPV-VID,一個包含902個高質量視頻的數據集,這些視頻展示了各種不可能的場景,并配有詳細的標注信息。
**一、深入探索不可能視頻的生成能力**
當研究團隊開始測試當前最先進的AI視頻生成模型時,他們發(fā)現了一個令人意外的現實。這些在生成普通視頻時表現出色的模型,在面對不可能場景時卻顯得力不從心。就像是一位技藝精湛的廚師,雖然能夠制作出各種美味佳肴,但當被要求制作一道"會自己跳舞的湯"時,卻無從下手。
研究團隊測試了包括開源模型和商業(yè)模型在內的十個主流視頻生成系統。開源模型包括LTX、Open-Sora、Pyramid-Flow、CogVidX-1.5、Mochi 1和HunyuanVideo等,商業(yè)模型則包括Luma、Sora、Kling和Hailuo等知名產品。測試結果令人深思:即使是表現最好的Mochi 1模型,也只能在37.3%的情況下生成既具有高視覺質量又準確遵循不可能提示的視頻。
這個結果就像是發(fā)現了一位看似全能的魔法師其實只會一半的魔法一樣。研究團隊發(fā)現,這些模型在處理不可能場景時主要面臨兩個挑戰(zhàn)。第一個挑戰(zhàn)是視覺質量問題。當模型試圖生成違反常識的內容時,往往會產生視覺偽影或生成失敗。這是因為不可能的提示對模型來說是"超出分布"的數據,就像要求一個只學過正常烹飪的廚師去制作完全顛倒的料理一樣困難。
第二個挑戰(zhàn)更加微妙但同樣重要:過度遵循物理定律的限制。許多模型雖然能夠準確捕捉提示中的語義元素,但卻無法展現關鍵的不可能現象。相反,它們會生成符合現實世界規(guī)律的正常場景。這就像是一個過于理性的畫家,即使被要求繪制超現實主義作品,也會不自覺地畫出符合物理邏輯的正常畫面。
研究團隊還發(fā)現了一個有趣的現象:不同模型在視覺質量和提示遵循能力之間表現出了不平衡的特點。比如Luma模型展現出了卓越的視覺質量,超越了大多數開源模型,但其提示遵循能力卻相對較弱。相反,一些開源模型如Mochi 1在提示遵循方面表現出色,甚至超過了許多商業(yè)模型。理想的模型應該在兩個維度上都表現優(yōu)異,實現研究團隊提出的IPV-Score指標所量化的平衡。
**二、深入探索不可能視頻的理解能力**
在測試AI視頻理解能力時,研究團隊設計了三個層次遞進的任務,就像是為AI設置的"理解力闖關游戲"。這些任務從簡單的判斷開始,逐步升級到復雜的開放式分析,全面考察AI模型對不可能場景的理解深度。
第一關是判斷任務,要求模型區(qū)分AI生成的視頻和真實視頻。這個任務看似簡單,但實際上需要模型具備敏銳的觀察力和深層的語義理解能力。測試結果顯示,大多數模型在這個基礎任務上表現相當,Qwen2-VL以76.2%的準確率領先,甚至比Gemini模型高出3.1個百分點。然而,研究團隊發(fā)現一些模型存在明顯的偏向性問題,比如Intern-VL模型傾向于將大部分視頻判斷為AI生成,而NVILA和Gemini則傾向于相反的判斷。
第二關是多選題任務,要求模型從幾個選項中選擇最能描述視頻中不可能現象的答案。這個任務的難度顯著提升,因為模型不僅需要識別出不可能現象,還要從相似的干擾選項中做出準確判斷。測試結果顯示模型性能差異巨大,表現最好的LLaVA-Next達到了86.4%的準確率,超越了GPT-4o和Gemini等商業(yè)模型。相比之下,Video-LLaVA只達到了26.8%的準確率,接近隨機猜測的水平。
第三關是開放式問答任務,這是最具挑戰(zhàn)性的測試。模型需要在沒有任何提示的情況下,獨立識別并詳細描述視頻中的不可能現象。這就像是要求一個偵探在沒有任何線索的情況下,僅憑觀察就能發(fā)現犯罪現場的異常之處。測試結果顯示,大多數當前模型在這個任務上表現不佳,即使是表現最好的GPT-4o,也只在某些評估標準下取得了相對較好的成績。
研究團隊在分析這些結果時發(fā)現了幾個重要規(guī)律。首先,商業(yè)模型整體上顯示出了更好的潛力,在多選題和開放式問答任務上普遍優(yōu)于開源模型。然而,即使是最先進的模型,在獨立識別不可能現象方面的能力仍然有待提高。其次,模型在不同領域的表現存在明顯差異。"物理定律"類別成為最具挑戰(zhàn)性的領域,大多數模型在這個類別上得分最低。研究團隊推測這可能是因為物理類別包含了更多需要時間動態(tài)推理的復雜樣本。
最有趣的發(fā)現是關于空間理解與時間推理能力的對比。研究團隊將測試視頻分為兩類:一類是可以通過靜態(tài)畫面和常識知識理解的視頻,另一類是需要觀察時間變化才能理解的視頻。結果顯示,所有模型在需要時間推理的視頻上表現明顯較差。這清楚地證明了時間動態(tài)推理對當前大多數模型來說仍然是一個重大挑戰(zhàn)。
更令人驚訝的是,那些專門為視頻設計的高幀率模型(如LongVU)并沒有顯示出明顯優(yōu)勢。反而,表現最好的模型(如LLaVA-Next和GPT-4o)都是基于圖像的模型。特別值得注意的是,GPT-4o在評估時僅使用了1幀每秒的采樣率。這個觀察結果提示,比起簡單地擴展上下文窗口,設計更加復雜精妙的時間模塊可能是理解和推理不可能視頻的關鍵所在。
**三、揭示當前AI視頻技術的局限性**
通過這項大規(guī)模的評估研究,研究團隊揭示了當前AI視頻技術中一些深層次的問題。這些發(fā)現就像是在看似光鮮的技術表面下發(fā)現的隱藏裂痕,提醒我們AI視頻技術仍有很長的路要走。
在視頻生成方面,研究團隊發(fā)現當前模型普遍存在創(chuàng)造力受限的問題。這些模型在生成符合現實世界規(guī)律的內容時表現出色,但一旦要求它們"打破規(guī)則"創(chuàng)造不可能的場景,就會顯露出明顯的局限性。這種現象類似于一個只學過傳統繪畫技法的畫家,雖然能夠創(chuàng)作出技巧精湛的寫實作品,但在面對抽象派或超現實主義的創(chuàng)作要求時卻束手無策。
更深層的問題在于,這些模型似乎被它們的訓練數據"困住"了。由于訓練時主要接觸的是現實世界的視頻內容,模型學會了強化物理定律和常識規(guī)律,而這種強化效應在面對不可能場景時反而成為了障礙。就像是一個在嚴格規(guī)則環(huán)境中長大的孩子,當被要求發(fā)揮想象力時,反而比那些在自由環(huán)境中成長的孩子更加拘謹。
在視頻理解方面,研究揭示了一個更加根本性的挑戰(zhàn):時間推理能力的不足。大多數當前的視頻理解模型雖然能夠處理靜態(tài)信息和簡單的動作識別,但在理解復雜的時間演變過程時顯得力不從心。這就像是一個只能看懂照片的人,突然被要求理解一部電影的情節(jié)發(fā)展一樣困難。
研究團隊特別指出,這種時間推理的困難在處理不可能場景時變得更加明顯。因為不可能現象往往需要觀察者理解事物如何以違反常識的方式隨時間變化,比如物體憑空增長、重力倒轉等。這種理解需要模型不僅能夠識別視覺元素,還能夠推理這些元素之間的時間關系和因果關系。
另一個重要發(fā)現是模型在不同類型推理任務上的能力不平衡。研究顯示,基于世界知識的推理(比如識別新加坡不應該下雪)相對容易一些,因為這主要依賴于模型預訓練時積累的知識。然而,需要動態(tài)時間推理的任務(比如識別物體異常的運動模式)則困難得多,因為這需要模型具備更高層次的抽象推理能力。
研究團隊還觀察到一個有趣的現象:在某些情況下,簡單的方法反而比復雜的方法更有效。比如,使用較低幀率的圖像模型有時比專門設計的高幀率視頻模型表現更好。這提示我們,解決這些問題可能需要的不是更多的計算資源或更大的模型,而是在算法設計上的根本性創(chuàng)新。
**四、對未來發(fā)展的啟示和展望**
這項研究為AI視頻技術的未來發(fā)展指明了幾個重要方向。首先,研究團隊建議未來的視頻生成模型需要在保持視覺質量的同時,增強對創(chuàng)造性和反常識內容的生成能力。這可能需要在訓練過程中專門引入不可能場景的數據,或者開發(fā)新的訓練策略來平衡現實性和創(chuàng)造性。
對于視頻理解模型,研究強調了開發(fā)更強大時間推理能力的重要性。這不僅僅是簡單地增加更多幀數或擴大上下文窗口的問題,而是需要從根本上改進模型理解和推理時間關系的能力。研究團隊建議,未來的模型可能需要專門的時間推理模塊,而不是依賴簡單的注意力機制來處理時間信息。
研究還揭示了評估AI能力時的一個重要原則:我們不應該僅僅在AI擅長的領域測試它們,也應該在它們可能失敗的邊界情況下進行測試。就像測試一個駕駛員不僅要看他在好天氣下的表現,也要測試他在暴風雨中的應對能力一樣。不可能視頻為我們提供了這樣一個測試AI系統魯棒性和泛化能力的獨特視角。
從更廣泛的角度來看,這項研究提出了一個關于AI創(chuàng)造力的深刻問題:真正的創(chuàng)造力是否需要具備"打破規(guī)則"的能力?當我們的AI系統在模仿現實世界方面越來越出色時,我們是否也應該培養(yǎng)它們的想象力和創(chuàng)造性思維?這個問題不僅對技術發(fā)展有重要意義,也涉及到我們對人工智能本質的理解。
研究團隊還指出,不可能視頻的研究可能在娛樂、廣告、教育等領域有廣泛應用。比如,能夠生成創(chuàng)意十足的不可能場景的AI模型可能會成為電影制作、廣告創(chuàng)意和藝術創(chuàng)作的強大工具。同時,能夠準確理解和分析不可能場景的AI系統可能在內容審核、媒體分析和創(chuàng)意評估方面發(fā)揮重要作用。
最后,這項研究提醒我們,AI技術的發(fā)展不應該只關注在已有任務上的性能提升,也應該探索新的挑戰(zhàn)和可能性。通過引入不可能視頻這樣的新測試范式,我們不僅能夠更全面地評估AI系統的能力,也能夠發(fā)現技術發(fā)展的新方向和新機遇。
說到底,這項研究告訴我們一個簡單而深刻的道理:要真正理解AI的能力邊界,我們需要敢于向它們提出"不可能"的挑戰(zhàn)。只有當AI能夠在這些看似荒誕的任務中表現出色時,我們才能說它們真正具備了接近人類的理解和創(chuàng)造能力。新加坡國立大學研究團隊的這項工作,不僅為我們提供了一個新的評估工具,更重要的是,它為AI視頻技術的未來發(fā)展開辟了一片全新的探索領域。對于那些希望深入了解這項研究細節(jié)的讀者,可以訪問研究團隊提供的在線平臺和完整論文,體驗這個充滿想象力的"不可能視頻世界"。
Q&A Q1:IPV-BENCH是什么?它能做什么? A:IPV-BENCH是新加坡國立大學開發(fā)的AI視頻評估平臺,專門測試AI模型處理"不可能場景"的能力。它包含260個文字提示和902個不可能視頻,能評估AI生成和理解違反物理定律、生物規(guī)律等奇特場景的能力,就像給AI設置的"不可能任務訓練營"。
Q2:為什么要測試AI處理不可能場景的能力? A:因為現有AI評估都專注于模仿現實場景,但真正的智能需要具備創(chuàng)造性和"打破規(guī)則"的能力。通過測試不可能場景,能發(fā)現AI的能力邊界和局限性,推動技術在創(chuàng)造力、想象力和深層理解方面的發(fā)展,這對娛樂、廣告、藝術創(chuàng)作等領域都有重要意義。
Q3:目前AI模型在處理不可能場景方面表現如何? A:表現并不理想。最好的視頻生成模型Mochi 1也只能在37.3%的情況下成功生成高質量的不可能視頻。視頻理解方面,大多數模型在獨立識別不可能現象時表現不佳,特別是需要時間推理的場景。這說明當前AI技術在創(chuàng)造力和復雜推理方面還有很大提升空間。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統,首次實現AI根據復雜指令創(chuàng)作完整長篇音頻故事。該系統結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數據集和MM-AlignBench評測基準,通過創(chuàng)新的數據生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內完成10天全球天氣預報,準確性超越傳統方法90%的指標。該模型采用圖神經網絡技術,通過學習40年歷史數據掌握天氣變化規(guī)律,在極端天氣預測方面表現卓越,能耗僅為傳統方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。