這項由Meta FAIR和UC Berkeley聯(lián)合進行的研究于2025年1月發(fā)表在arXiv預(yù)印本平臺上,研究團隊由Jathushan Rajasegaran、Ilija Radosavovic等多位學者組成。有興趣深入了解的讀者可以通過論文標題"An Empirical Study of Autoregressive Pre-training from Videos"在arXiv平臺上找到完整論文。
當我們看電視時,大腦會根據(jù)前面的畫面預(yù)測接下來可能發(fā)生什么。如果一個人正在跑步,我們能預(yù)測他的下一個動作;如果一輛車正在轉(zhuǎn)彎,我們能預(yù)測它的行駛軌跡?,F(xiàn)在,研究人員想讓人工智能也具備這種能力,不僅能理解單張照片,還能像人類一樣理解連續(xù)的視頻畫面。
這項研究的核心在于訓練一個名為Toto的AI模型,讓它通過觀看大量視頻來學習預(yù)測下一個畫面。就像教孩子看圖說話一樣,研究團隊讓Toto觀看了超過十萬小時的視頻內(nèi)容,包括日常生活、運動、各種活動場景。通過這種訓練,Toto不僅學會了識別圖像中的物體,還學會了理解動作、預(yù)測物體的運動軌跡,甚至能在復(fù)雜場景中持續(xù)跟蹤特定目標。
這種訓練方式被稱為"自回歸預(yù)訓練",本質(zhì)上就是讓AI通過"看前面猜后面"的游戲來學習理解世界。研究團隊發(fā)現(xiàn),盡管這種方法看起來很簡單,沒有復(fù)雜的規(guī)則和約束,但訓練出的AI在各種視覺任務(wù)上都表現(xiàn)出色,包括圖像分類、視頻理解、物體跟蹤,甚至機器人操作。
更有趣的是,研究人員發(fā)現(xiàn)AI學習視頻的規(guī)律和人類學習語言的規(guī)律非常相似。當我們增加更多的計算資源和訓練數(shù)據(jù)時,AI的能力會按照一定規(guī)律持續(xù)提升,就像語言模型隨著規(guī)模增大而變得更聰明一樣。不過,視頻AI的提升速度比語言AI稍慢一些,這可能是因為視頻信息比文字信息更加復(fù)雜和冗余。
一、讓AI學會"看前猜后"的訓練秘訣
要理解這項研究的核心方法,可以想象教一個孩子看連環(huán)畫的過程。當孩子看到前幾幅畫后,我們會遮住后面的畫面,讓他猜測接下來會發(fā)生什么。Toto的訓練過程本質(zhì)上就是這樣一個巨大規(guī)模的"看圖猜后續(xù)"游戲。
研究團隊首先需要將視頻轉(zhuǎn)換成AI能夠理解的"語言"。就像我們需要將復(fù)雜的想法轉(zhuǎn)換成文字來表達一樣,視頻也需要被轉(zhuǎn)換成數(shù)字符號。他們使用了一種稱為dVAE的技術(shù),將每一幀視頻畫面轉(zhuǎn)換成256個離散的"視覺單詞"。這樣,一個16幀的短視頻片段就變成了4096個"單詞"組成的"句子"。
在這種轉(zhuǎn)換下,一張256×256像素的圖片被分解成16×16個小塊,每個小塊用一個特定的數(shù)字代碼表示。這個過程就像將一幅拼圖分解成小塊,然后用數(shù)字給每個小塊編號。通過這種方式,原本連續(xù)的視頻畫面變成了離散的數(shù)字序列,為后續(xù)的AI訓練奠定了基礎(chǔ)。
Toto的核心架構(gòu)采用了類似GPT語言模型的transformer結(jié)構(gòu),但專門針對視頻內(nèi)容進行了優(yōu)化。這種結(jié)構(gòu)讓AI能夠同時關(guān)注畫面中的多個位置和時間點,就像人類看視頻時能同時注意到畫面中不同區(qū)域的變化一樣。研究團隊構(gòu)建了三個不同規(guī)模的模型,參數(shù)量分別為1.2億、2.8億和11億,就像訓練三個不同"智力水平"的AI學生。
訓練數(shù)據(jù)的規(guī)模令人驚嘆。研究團隊收集了包括ImageNet圖像數(shù)據(jù)集、Kinetics-600動作視頻、Ego4D第一人稱視頻,以及HowTo100M教學視頻在內(nèi)的海量數(shù)據(jù)。這些數(shù)據(jù)總共包含超過十萬小時的視頻內(nèi)容和約1萬億個視覺"單詞"。相當于讓AI觀看了幾千年的電視內(nèi)容,涵蓋了人類生活的方方面面。
在訓練過程中,每個批次的數(shù)據(jù)按照特定比例混合:20%是靜態(tài)圖像,10%是第一人稱生活視頻,10%是動作識別視頻,60%是教學類視頻。這種搭配就像給AI提供營養(yǎng)均衡的"視覺餐",確保它能夠?qū)W習到不同類型的視覺模式和規(guī)律。整個訓練過程使用了AdamW優(yōu)化器,學習率設(shè)置為0.0003,并采用余弦衰減策略逐漸降低學習率。
二、從像素到智能:視覺信息的魔法轉(zhuǎn)換
將連續(xù)的視頻畫面轉(zhuǎn)換成AI能夠理解的離散符號,這個過程充滿了技術(shù)巧思。研究團隊面臨的第一個挑戰(zhàn)是選擇合適的"翻譯器",將豐富的視覺信息轉(zhuǎn)換成數(shù)字代碼,同時盡可能保留重要信息。
他們比較了三種主要的轉(zhuǎn)換方法。第一種是dVAE方法,將每個圖像塊轉(zhuǎn)換成8000個可能符號中的一個,就像用8000種不同的"積木塊"來重建圖像。第二種是VQGAN方法,提供了1000到16000種不同的選擇。第三種是連續(xù)塊標準化方法,不使用離散符號,而是保持連續(xù)的數(shù)值表示。
實驗結(jié)果顯示,在相同分辨率下,dVAE和VQGAN的表現(xiàn)相當,都能達到約61%的圖像分類準確率。然而,dVAE有一個重要優(yōu)勢:它的符號使用更加均勻。通過分析1-gram分布發(fā)現(xiàn),dVAE幾乎使用了所有8000個可能的符號,而VQGAN只使用了不到50%的符號。這就像一個詞匯豐富的作家使用了更多樣化的詞匯來表達思想,而不是反復(fù)使用同樣的詞語。
分辨率選擇也是一個關(guān)鍵考慮。更高分辨率意味著更多細節(jié),但也意味著更多計算成本。研究發(fā)現(xiàn),從低分辨率開始訓練,然后微調(diào)到高分辨率,這種策略不僅節(jié)省了計算資源,還獲得了更好的最終性能。128×128分辨率訓練后微調(diào)到256×256分辨率的模型,表現(xiàn)甚至超過了直接用256×256分辨率訓練的模型。
這種現(xiàn)象的原因在于RoPE位置編碼的使用。RoPE允許模型在訓練后適應(yīng)更長的序列,就像一個學會了短篇寫作的作者可以逐步適應(yīng)長篇創(chuàng)作。當研究團隊調(diào)整RoPE的基值參數(shù)從10000到50000時,模型對高分辨率的適應(yīng)能力進一步提升。
在架構(gòu)選擇方面,研究團隊比較了三種不同的模型結(jié)構(gòu)。LLaMA架構(gòu)表現(xiàn)最佳,達到53.2%的準確率,而傳統(tǒng)的GPT2架構(gòu)只有48.5%,新興的Mamba架構(gòu)為40.7%。這說明LLaMA的設(shè)計更適合視覺信息的處理,可能因為它使用了RMSNorm標準化、SwiGLU激活函數(shù)和RoPE位置編碼等先進技術(shù)。
三、解碼AI的"視覺大腦":不同層級的智能表現(xiàn)
當我們深入研究Toto模型的內(nèi)部工作機制時,發(fā)現(xiàn)了一個有趣的現(xiàn)象:就像人腦的不同區(qū)域負責不同功能一樣,AI模型的不同層次也展現(xiàn)出不同的能力特征。這個發(fā)現(xiàn)對理解AI如何處理視覺信息具有重要意義。
在對模型不同層次的探測中,研究團隊發(fā)現(xiàn)了一個令人驚訝的規(guī)律。與傳統(tǒng)的編碼器-解碼器結(jié)構(gòu)不同,這種純解碼器模型的最佳表現(xiàn)出現(xiàn)在大約50%的深度位置。換句話說,既不是最淺層,也不是最深層,而是中間層提供了最好的視覺理解能力。
這種現(xiàn)象可以用一個生動的比喻來理解。如果把AI模型比作一個復(fù)雜的視覺處理工廠,那么前半部分就像工廠的原料處理車間,負責將原始的視覺信息逐步提煉和抽象,形成越來越高級的特征表示。而后半部分則像產(chǎn)品組裝車間,將這些抽象特征重新組合,生成最終的預(yù)測結(jié)果。
這種結(jié)構(gòu)特征在不同任務(wù)上表現(xiàn)一致。無論是圖像分類、動作識別還是物體跟蹤,所有模型規(guī)模都顯示出相同的規(guī)律:中間層表現(xiàn)最優(yōu)。但有一個例外值得注意,那就是機器人操作任務(wù)。在這類任務(wù)中,除了中間層表現(xiàn)良好外,最后幾層也顯示出不錯的性能。
這個例外現(xiàn)象揭示了一個深刻的道理。機器人操作本質(zhì)上是一個生成性任務(wù),需要模型根據(jù)當前觀察生成具體的動作指令。因此,那些專門訓練來生成下一個視覺符號的后期層次,恰好也適合生成動作指令。這就像一個既會畫畫又會寫字的藝術(shù)家,他用來創(chuàng)作文字的技能也能幫助他更好地創(chuàng)作繪畫作品。
為了充分利用這些中間層的表示能力,研究團隊采用了注意力池化技術(shù),而不是簡單的平均池化。原因在于,在自回歸模型中,序列中較晚位置的符號能夠"看到"更多前面的信息,就像站在山頂?shù)娜吮日驹谏窖娜丝吹酶h一樣。注意力池化允許模型動態(tài)地給予這些"視野更廣"的位置更多權(quán)重。
實驗證明,注意力池化比平均池化的效果好7.9個百分點,這個提升相當可觀。這種方法學習兩個權(quán)重矩陣和一個查詢向量,通過交叉注意力機制將所有位置的信息整合成單一的表示向量。雖然這增加了一些計算成本,但顯著提升了下游任務(wù)的性能。
四、從理論到實踐:全面驗證AI的視覺理解能力
研究團隊設(shè)計了一系列全面的測試來驗證Toto模型的實際能力,這些測試覆蓋了從基礎(chǔ)圖像識別到復(fù)雜視頻理解的各個方面。每個測試都像是給AI學生出的不同類型的"期末考試",檢驗它在不同領(lǐng)域的學習成果。
在圖像識別這個最基礎(chǔ)的測試中,Toto在ImageNet數(shù)據(jù)集上的表現(xiàn)令人矚目?;A(chǔ)版本達到64.7%的準確率,大型版本提升到71.1%,而10億參數(shù)的版本更是達到了75.3%。雖然這個成績還無法與專門設(shè)計用于判別任務(wù)的模型相比(比如DINO的80.1%),但在生成式模型中已經(jīng)是相當優(yōu)秀的表現(xiàn)。
更重要的是,當我們將Toto與同樣采用自回歸方式訓練的iGPT模型對比時,優(yōu)勢就很明顯了。在相似的10億參數(shù)規(guī)模下,Toto達到75.3%的準確率,而iGPT-XL只有72%。這個4個百分點的提升證明了Toto在模型設(shè)計和訓練策略上的優(yōu)勢。特別值得一提的是,Toto用1.1萬億視覺符號的訓練數(shù)據(jù)就達到了與iGPT用更多數(shù)據(jù)訓練的相當性能。
在視頻理解方面,Toto展現(xiàn)出了更加令人印象深刻的能力。在Kinetics-400動作識別數(shù)據(jù)集上,基礎(chǔ)版本達到59.3%,大型版本提升到65.3%,10億參數(shù)版本更是達到74.4%。這個成績已經(jīng)接近專門設(shè)計的視頻理解模型,比如VideoMAE的79.8%??紤]到Toto是一個通用模型,這個表現(xiàn)相當不錯。
視頻預(yù)測任務(wù)更能體現(xiàn)Toto對時間序列的理解能力。在Ego4D短期動作預(yù)測任務(wù)中,模型需要觀看一個人的動作,然后預(yù)測他接下來可能與什么物體交互、進行什么操作,以及這個交互何時發(fā)生。Toto-large模型在這個任務(wù)上達到2.70的平均精度,超過了專門設(shè)計的StillFast模型的2.48分。
物體跟蹤是另一個重要的測試項目。在這個任務(wù)中,模型需要在視頻序列中持續(xù)跟蹤特定目標,即使目標被其他物體遮擋或部分消失也要保持跟蹤。Toto在DAVIS數(shù)據(jù)集上的表現(xiàn)相當出色,特別是在512×512高分辨率下達到62.4的J&F分數(shù),超過了DINO等專門模型。
最令人興奮的可能是機器人應(yīng)用測試。研究團隊在模擬環(huán)境中測試了四個不同的機器人操作任務(wù):Franka機械臂抓取、Kuka機械臂抓取、Franka機械臂開柜門和Kuka機械臂開柜門。在所有四個任務(wù)中,使用Toto預(yù)訓練特征的機器人都比使用傳統(tǒng)MAE預(yù)訓練特征的機器人學習得更快,達到目標性能所需的訓練步數(shù)更少。
真實世界的機器人測試更加嚴格。研究團隊使用7自由度Franka機械臂進行立方體抓取任務(wù),Toto-base模型達到了63%的成功率,雖然略低于專門為機器人設(shè)計的MVP模型的75%,但考慮到Toto并非專門為機器人應(yīng)用設(shè)計,這個成績已經(jīng)相當不錯。
五、意想不到的發(fā)現(xiàn):AI也有"物體永恒性"概念
在所有測試中,最有趣的發(fā)現(xiàn)之一是Toto在物體永恒性理解方面的能力。物體永恒性是心理學中的一個重要概念,指的是即使物體暫時從視野中消失,我們也知道它仍然存在。這是人類智力發(fā)展的一個重要里程碑,通常在嬰兒8-12個月時開始顯現(xiàn)。
研究團隊使用CATER數(shù)據(jù)集來測試這種能力。在這個任務(wù)中,一個小球在場景中移動,但會被其他物體遮擋或隱藏。模型需要在看不到球的情況下,推測球的最終位置。這就像玩杯中球游戲,需要在杯子不斷移動的過程中記住球在哪個杯子下面。
Toto-large模型在這個任務(wù)上表現(xiàn)出色,在16幀測試中達到62.8%的準確率,在32幀測試中達到72.9%的準確率。這個成績超過了專門設(shè)計用于這類任務(wù)的V3D和TFC-V3D模型。更有趣的是,更長的視頻序列(32幀vs16幀)帶來了更好的性能,說明模型確實學會了利用時間信息來推理被遮擋物體的位置。
這種能力的出現(xiàn)是自然涌現(xiàn)的結(jié)果,并非研究團隊特意設(shè)計。Toto通過觀看大量視頻自然學會了物體在空間中的連續(xù)性概念,理解了即使暫時看不到物體,它們依然遵循物理定律繼續(xù)存在和移動。這種理解對于真實世界的應(yīng)用至關(guān)重要,比如自動駕駛汽車需要記住被其他車輛暫時遮擋的行人位置。
除了基本的物體永恒性,Toto還展現(xiàn)出了更復(fù)雜的時空推理能力。在處理視頻時,模型學會了預(yù)測物體的運動軌跡,理解不同物體之間的交互關(guān)系,甚至能夠推斷出某些因果關(guān)系。這些能力都不是通過明確的規(guī)則編程實現(xiàn)的,而是通過大量觀看視頻數(shù)據(jù)自然涌現(xiàn)的。
六、規(guī)模的力量:視覺AI的成長規(guī)律
就像生物學家發(fā)現(xiàn)動物的大腦大小與智力水平之間存在某種關(guān)系一樣,研究團隊發(fā)現(xiàn)了AI模型規(guī)模與性能之間的數(shù)學關(guān)系。這種關(guān)系被稱為"縮放定律",它揭示了增加計算資源和模型參數(shù)如何轉(zhuǎn)化為性能提升。
通過訓練六個不同規(guī)模的模型(參數(shù)量從1480萬到19億),研究團隊發(fā)現(xiàn)Toto遵循著明確的冪律關(guān)系:L(C) = 7.32 × C^(-0.0378)。這個公式告訴我們,當計算資源增加時,模型的損失(可以理解為"錯誤率")會按照特定比例下降。簡單來說,投入更多計算資源確實能夠帶來更好的性能,而且這種提升是可預(yù)測的。
有趣的是,這個縮放規(guī)律與大型語言模型的縮放規(guī)律既相似又不同。GPT-3的縮放公式是L(C) = 2.57 × C^(-0.048),指數(shù)部分-0.048比Toto的-0.0378更大,意味著語言模型對計算資源的利用效率更高。換句話說,同樣增加一倍的計算資源,語言模型的性能提升會比視覺模型更明顯。
這種差異可能源于視頻數(shù)據(jù)的特殊性質(zhì)。視頻幀之間存在大量冗余信息,相鄰幀往往非常相似,這使得"預(yù)測下一幀"這個任務(wù)比"預(yù)測下一個詞"相對容易一些。研究團隊通過分析發(fā)現(xiàn),在16幀視頻序列中,第一幀的預(yù)測損失最高,后續(xù)幀的預(yù)測損失逐漸降低并趨于穩(wěn)定。這說明模型很快學會了利用時間冗余來簡化預(yù)測任務(wù)。
盡管視覺模型的縮放效率略低于語言模型,但這種可預(yù)測的縮放關(guān)系依然具有重要價值。它為研究團隊和工程師提供了明確的指導:如果想要達到特定的性能目標,需要投入多少計算資源;如果預(yù)算有限,能夠期望達到什么樣的性能水平。
為了找到最優(yōu)的縮放策略,研究團隊使用了μ參數(shù)化技術(shù)。這種技術(shù)確保了不同規(guī)模的模型都能使用相同的學習率(2^(-7) = 0.0078125),簡化了訓練過程。通過系統(tǒng)性的實驗,他們證明了線性增加模型寬度和深度是一種有效的縮放策略。
七、突破與局限:誠實面對研究的邊界
每項研究都有其光輝的成就和誠實的局限,這項工作也不例外。在取得令人矚目成果的同時,研究團隊也坦誠地指出了當前方法的不足之處和未來需要改進的方向。
最明顯的局限來自于訓練數(shù)據(jù)的質(zhì)量。由于使用了大量來自互聯(lián)網(wǎng)的視頻數(shù)據(jù),不可避免地包含了質(zhì)量參差不齊的內(nèi)容。與精心策劃的數(shù)據(jù)集相比,這種"野生"數(shù)據(jù)包含噪聲、模糊片段、甚至錯誤標注的內(nèi)容。這種數(shù)據(jù)質(zhì)量的不一致性會影響模型的最終性能,特別是在需要精確理解的任務(wù)中。
另一個重要局限是對分詞器的依賴。目前的方法需要先將連續(xù)的視頻畫面轉(zhuǎn)換成離散的符號,然后再進行訓練。這種轉(zhuǎn)換過程不可避免地會丟失一些信息,就像將高清照片壓縮成低分辨率圖像一樣。更關(guān)鍵的是,模型的表現(xiàn)上限受到分詞器質(zhì)量的制約。即使后續(xù)的AI學習過程再完美,也無法超越分詞器本身的信息提取能力。
視頻數(shù)據(jù)的冗余性也帶來了挑戰(zhàn)。相鄰視頻幀之間的高度相似性雖然降低了預(yù)測難度,但也可能阻礙模型學習更深層的時間模式。模型可能過度依賴簡單的時間插值,而沒有真正理解復(fù)雜的動態(tài)過程。這就像一個學生通過記憶相似題目的答案來應(yīng)付考試,而沒有真正掌握解題的原理。
在任務(wù)覆蓋范圍方面,當前的評估主要集中在分類、識別和跟蹤等相對基礎(chǔ)的任務(wù)上。對于更復(fù)雜的密集預(yù)測任務(wù)(如語義分割、深度估計)、細粒度識別(如區(qū)分不同品種的鳥類),以及長時間跨度的時間理解,模型的能力還沒有得到充分驗證。
研究團隊的設(shè)計選擇評估也主要基于ImageNet分類任務(wù)的表現(xiàn)。雖然這個任務(wù)具有一定代表性,但可能不是所有應(yīng)用場景的最優(yōu)配置。不同任務(wù)可能需要不同的架構(gòu)設(shè)計、訓練策略和數(shù)據(jù)配比,這些都需要進一步的研究和優(yōu)化。
八、未來展望:視覺AI的無限可能
盡管存在這些局限,這項研究為視覺AI的發(fā)展開辟了一條充滿希望的道路。它證明了簡單的"看前猜后"策略能夠讓AI獲得豐富的視覺理解能力,為構(gòu)建更加通用的視覺智能系統(tǒng)提供了重要啟發(fā)。
從技術(shù)發(fā)展角度來看,這項工作最重要的貢獻是證明了視覺領(lǐng)域也存在類似語言模型的縮放規(guī)律。這意味著隨著計算能力的提升和數(shù)據(jù)規(guī)模的擴大,視覺AI的能力將繼續(xù)按照可預(yù)測的方式增長。這為未來的研究投資和技術(shù)規(guī)劃提供了科學依據(jù)。
在實際應(yīng)用方面,Toto展現(xiàn)出的多任務(wù)能力特別有價值。一個模型能夠同時處理圖像分類、視頻理解、物體跟蹤和機器人控制等不同任務(wù),這大大降低了系統(tǒng)的復(fù)雜性和維護成本。未來,我們可能看到更多基于這種通用視覺模型的應(yīng)用,從智能監(jiān)控到自動駕駛,從醫(yī)療影像分析到增強現(xiàn)實。
對于機器人領(lǐng)域來說,這項研究特別具有啟發(fā)意義。傳統(tǒng)的機器人視覺系統(tǒng)往往需要針對特定任務(wù)進行精心設(shè)計和調(diào)優(yōu),而Toto展現(xiàn)的通用視覺能力可能讓機器人更容易適應(yīng)新環(huán)境和新任務(wù)。一個經(jīng)過大規(guī)模視頻預(yù)訓練的機器人可能只需要少量特定任務(wù)的訓練就能勝任復(fù)雜的操作。
在創(chuàng)意應(yīng)用方面,具備時間理解能力的AI模型開辟了全新的可能性。從自動視頻編輯、智能內(nèi)容推薦,到沉浸式虛擬現(xiàn)實體驗,這些應(yīng)用都需要AI深刻理解視頻內(nèi)容的時空結(jié)構(gòu)。Toto在這些方向上展現(xiàn)的潛力令人期待。
說到底,這項研究最重要的價值在于它的哲學啟示:智能不一定需要復(fù)雜的規(guī)則和精巧的設(shè)計,有時候最簡單的學習原理就能產(chǎn)生最強大的能力。就像人類嬰兒通過觀察世界就能自然發(fā)展出豐富的認知能力一樣,AI也能通過"觀看"大量視頻數(shù)據(jù)自然涌現(xiàn)出各種智能行為。這種發(fā)現(xiàn)讓我們對構(gòu)建真正通用的人工智能系統(tǒng)更加樂觀。
當然,距離創(chuàng)建能夠像人類一樣理解和互動世界的AI系統(tǒng),我們還有很長的路要走。但這項研究無疑是朝著正確方向邁出的重要一步。它不僅推動了技術(shù)邊界,更重要的是為整個領(lǐng)域提供了新的思考框架和研究范式。在AI快速發(fā)展的今天,這樣的基礎(chǔ)性探索具有不可估量的價值。
有興趣深入了解技術(shù)細節(jié)的讀者可以通過搜索"An Empirical Study of Autoregressive Pre-training from Videos"在學術(shù)平臺上找到完整論文,其中包含了詳細的實驗設(shè)計、數(shù)學推導和補充分析。
Q&A
Q1:Toto模型是如何學習理解視頻的?
A:Toto采用"看前猜后"的訓練方式,就像教孩子看連環(huán)畫一樣。它觀看了超過十萬小時的各種視頻內(nèi)容,包括日常生活、運動場景等,通過不斷預(yù)測下一個畫面來學習理解視覺世界的規(guī)律。這種方法被稱為自回歸預(yù)訓練,讓AI自然獲得了圖像識別、動作理解和物體跟蹤等多種能力。
Q2:為什么視覺AI的縮放效率比語言模型低?
A:主要因為視頻數(shù)據(jù)的冗余性更高。相鄰的視頻幀往往非常相似,這使得"預(yù)測下一幀"比"預(yù)測下一個詞"相對容易一些。研究發(fā)現(xiàn)第一幀預(yù)測最難,后續(xù)幀預(yù)測逐漸變?nèi)菀?,說明模型很快學會利用時間冗余。因此同樣增加計算資源,視覺模型的性能提升沒有語言模型那么明顯。
Q3:Toto在實際應(yīng)用中表現(xiàn)如何?
A:Toto在多個任務(wù)中都表現(xiàn)出色。在圖像分類上達到75.3%準確率,在視頻理解任務(wù)中達到74.4%,在物體跟蹤和機器人操作中也超越了多個專門模型。特別值得一提的是,它展現(xiàn)出了"物體永恒性"理解能力,能夠跟蹤被遮擋的物體,這種能力是通過觀看視頻自然涌現(xiàn)的,并非特意設(shè)計。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領(lǐng)域帶來了效率和精度的雙重突破。