**一項由人民大學高瓴人工智能學院團隊領導的突破性研究**
你有沒有好奇過,為什么人工智能在識別圖片、生成文本方面已經如此強大,但在理解空間關系和物體變化方面卻顯得笨拙?這就像一個能流利背誦詩歌的孩子,卻無法理解積木是如何從一種形狀變成另一種的。這種AI與人類智能之間的差距,正是人民大學宗昭李、馬宗陽等研究者們關注的焦點。他們最新的研究成果《STAR-R1: Spatial TrAnsformation Reasoning by Reinforcing Multimodal LLMs》發(fā)表于arXiv(預印本編號:2505.15804v2),為解決這一問題提供了創(chuàng)新方案。
空間變化推理能力是人類智能的基本元素之一。想象一下,當你看到一個玩具積木從紅色變成藍色,或者從方形變成圓形,你能輕松識別這種變化。但對于當今最先進的多模態(tài)大語言模型(MLLMs)來說,這卻是一項巨大挑戰(zhàn),尤其是當視角發(fā)生變化時,比如你從不同角度觀察這些物體時。這種名為"變換驅動的視覺推理"(TVR)的任務,需要AI像偵探一樣,仔細分析兩張圖片,找出哪些物體發(fā)生了什么變化。
令人驚訝的是,即使是當前頂尖的商業(yè)AI模型如GPT-4o在這項任務上的準確率也僅有23.5%,遠遠不及人類。為什么會這樣呢?研究團隊發(fā)現,傳統(tǒng)的監(jiān)督微調(SFT)方法雖然能夠提高模型性能,但它們只是讓AI模仿人類的答案,而沒有真正教會它如何像偵探一樣思考和推理。而現有的強化學習方法則往往因為獎勵機制過于簡單(只有對錯兩種結果),導致AI難以找到正確的探索方向。
面對這些挑戰(zhàn),人民大學和中科院自動化所的研究團隊提出了一種名為STAR-R1的全新方法。這個方法就像是為AI設計了一個更加細致的學習計劃,通過精心設計的獎勵機制引導AI一步步掌握空間推理能力。與其簡單地告訴AI"你全對了"或"你全錯了",STAR-R1會根據AI回答的部分正確程度給予相應的獎勵,同時懲罰它過度列舉答案或消極不作為的行為。
這種方法就像是教孩子學習一樣,不僅鼓勵他們嘗試回答問題,還會針對部分正確的回答給予適當的肯定,引導他們逐步接近完全正確的答案。研究結果表明,這種方法在所有11個評估指標上都取得了最佳表現,特別是在跨視角場景下,比傳統(tǒng)SFT方法提高了23%的準確率。
更令人驚訝的是,研究團隊發(fā)現,經過STAR-R1訓練的AI表現出了人類般的行為模式。面對簡單場景時,它會快速做出判斷;而面對復雜場景(如視角變化)時,它會像人類一樣更加仔細地比較所有物體,確保準確匹配。這種行為完全是AI自主學習得來的,而非人為編程的結果。
這項研究不僅提供了提升AI空間推理能力的有效方法,還為我們理解AI如何通過強化學習逐步接近人類認知能力提供了寶貴洞察。接下來,讓我們一起深入了解STAR-R1是如何工作的,以及它為什么能取得如此顯著的進步。
**二、任務與挑戰(zhàn):物體變換推理的艱難問題**
想象你正在玩一個"找不同"的游戲。游戲給你兩張照片,上面有各種各樣的物體——方塊、球體、圓柱體,它們有著不同的顏色、大小和材質。你的任務是找出哪些物體發(fā)生了變化,以及變化的具體內容。聽起來簡單,對吧?但現在,讓我們增加游戲難度:第二張照片是從不同角度拍攝的。突然間,原本簡單的任務變得復雜起來了,因為你不僅需要找出變化,還要先確定兩張照片中哪些物體是對應的。
這就是研究團隊所面對的"變換驅動的視覺推理"(TVR)任務。在這個任務中,AI需要分析一張初始圖像和一張最終圖像,識別出哪些物體的哪些屬性(顏色、形狀、大小或材質)發(fā)生了什么樣的變化。比如,AI需要能夠識別出"編號為2的物體從木質變成了金屬"或"編號為1的物體從綠色變成了紅色"這樣的轉換。
這個任務之所以困難,主要有兩個原因。首先,即使在相同視角下,AI也需要正確識別每個物體并比較其屬性變化。其次,當視角改變時(例如,從中心視角變?yōu)樽笠暯腔蛴乙暯牵?,物體在圖像中的位置和外觀也會隨之變化,這使得匹配變得更加困難。
研究團隊針對這一問題進行了深入分析。他們發(fā)現,即使是當前最先進的商業(yè)AI模型如GPT-4o在這項任務上的表現也令人失望,準確率僅為23.5%。這一數據充分說明了空間推理對AI來說確實是一個巨大挑戰(zhàn)。
為什么現有方法難以解決這個問題呢?研究團隊指出了兩個主要原因:
首先,傳統(tǒng)的監(jiān)督微調(SFT)方法雖然能夠通過模仿人類標注的答案來提高AI的表現,但它們無法使AI形成有效的推理鏈。這就像是讓學生記住答案,而不是教會他們解題方法。特別是在視角變化的場景下,這種方法的局限性更加明顯。
其次,現有的強化學習方法往往采用稀疏獎勵機制,即只有當AI給出完全正確的答案時才會獲得獎勵。這種方法就像是告訴學生"你全對了"或"你全錯了",而不給出任何中間反饋。在復雜的TVR任務中,這種獎勵機制導致AI很難找到正確的探索方向,學習效率低下且收斂速度慢。
研究團隊通過在TRANCE數據集上進行實驗驗證了這些問題。他們發(fā)現,當AI需要識別多個物體的多種屬性變化時,如果完全正確的情況較少,稀疏獎勵機制幾乎不會給AI提供有效的學習信號。這就導致AI在訓練早期幾乎無法獲得正面反饋,無法判斷哪些嘗試是有效的,從而嚴重阻礙了學習過程。
面對這些挑戰(zhàn),研究團隊提出了STAR-R1方法,旨在通過更加細致的獎勵機制和懲罰機制,引導AI更有效地探索和學習空間推理能力。下面,我們將詳細介紹這一創(chuàng)新方法的設計理念和實現方式。
**三、STAR-R1方法:如何訓練AI進行空間推理**
想象你正在教一個孩子學習如何識別物體的變化。你不會僅僅告訴他答案對了或錯了,而是會給予更詳細的指導:「你正確發(fā)現了這個方塊變色了,真棒!但它不是變成了綠色,而是藍色。」「你不僅找出了顏色變化,還注意到了大小變化,做得很好!」這種漸進式的反饋讓學習變得更加高效。STAR-R1正是基于這種理念設計的。
STAR-R1的核心是一套精心設計的獎勵機制,它不再簡單地判斷AI的回答是對是錯,而是根據回答的不同正確程度給予相應的獎勵。具體來說,這套獎勵機制包含兩大部分:格式獎勵和準確性獎勵。
格式獎勵確保AI的回答遵循特定的結構。就像在考試中,即使答案不完全正確,但如果書寫格式規(guī)范也會得到一定的分數。STAR-R1要求AI在標簽內記錄推理過程,在標簽內給出最終答案。如果AI正確使用了這些標簽,就會獲得1分的格式獎勵,否則為0分。
準確性獎勵則是STAR-R1的核心創(chuàng)新,它為AI的部分正確回答提供了細致的反饋。具體來說,對于每一個物體變換預測(如「2號物體的材質變成了金屬」),STAR-R1會根據其正確程度給予不同級別的獎勵:
如果AI正確識別了物體編號、變化的屬性和具體變化值(如「2號物體的材質變成了金屬」完全正確),它將獲得最高獎勵5.0分。這相當于在考試中得到了滿分。
如果AI正確識別了物體編號和變化的屬性,但變化值不正確(如「2號物體的材質變了」,但沒有正確指出變成了金屬),它將獲得1.5分的部分獎勵。這就像是在考試中答對了一半的問題。
如果AI僅正確識別了物體編號但屬性和變化值都錯了,它仍然會獲得0.5分的最低獎勵,以鼓勵它在正確的方向上繼續(xù)探索。
除了獎勵機制外,STAR-R1還引入了懲罰機制,以防止AI采取投機取巧的策略。如果AI預測了不存在的變換(例如,聲稱3號物體變成了紅色,但實際上它沒有任何變化),每一個錯誤預測都會被扣除1分。此外,如果AI預測的變換數量少于實際變換數量,也會受到懲罰,以鼓勵它積極探索所有可能的變換。
這種設計理念背后的思想是:寧可嘗試可能錯誤的答案,也不要漏掉正確的答案。就像偵探工作,寧可多調查一些線索,也不要放過任何可能的證據。通過這種方式,STAR-R1鼓勵AI進行全面而細致的探索,而不是消極被動地避免錯誤。
在訓練過程中,STAR-R1采用了GRPO(Group-based Reward-optimal Policy Optimization)算法,這是一種高效的強化學習方法。與傳統(tǒng)的PPO算法不同,GRPO不需要訓練額外的價值網絡,而是通過對比同一批次內不同回答的獎勵來計算優(yōu)勢值,大大提高了訓練效率。
具體來說,對于每個訓練樣本,STAR-R1會生成一組不同的回答,然后計算每個回答的總獎勵(格式獎勵+準確性獎勵)。接著,它會計算這組回答的平均獎勵和標準差,并據此為每個回答計算一個相對優(yōu)勢值。優(yōu)勢值越高的回答,模型就會被鼓勵生成更多類似的回答,而優(yōu)勢值低的回答則會被抑制。通過這種方式,模型能夠逐步學會生成更加準確的空間變換推理。
STAR-R1的另一個創(chuàng)新之處在于,它采用了單階段純強化學習訓練范式,無需像其他方法那樣先進行監(jiān)督微調再進行強化學習。這種方法不僅簡化了訓練流程,還避免了監(jiān)督微調可能引入的偏見和限制,使AI能夠更加自由地探索和發(fā)現最優(yōu)的推理策略。
通過這套精心設計的訓練方法,STAR-R1能夠有效地引導AI學習如何進行空間變換推理,特別是在具有視角變化的復雜場景中。接下來,我們將探討這種方法在實際實驗中的表現,以及它帶來的驚人結果。
**四、實驗結果:STAR-R1如何超越現有模型**
想象一場智力競賽,參賽者需要找出兩張照片中物體的變化。有些選手只看表面,有些卻深入分析。這場競賽中,STAR-R1表現卓越,不僅在簡單題目上拿高分,在難題上更是遙遙領先。讓我們看看它是如何擊敗其他選手的。
研究團隊對STAR-R1進行了全面而嚴格的評估,選擇了4.5K個測試樣本,包括相同視角(In-Domain)和不同視角(Out-of-Domain)的場景。為了確保評估的全面性,他們設計了11個評估指標,覆蓋了不同的角度和難度級別。
評估結果令人印象深刻。在所有11個指標上,STAR-R1都取得了最佳表現,遠超其他模型。特別是與商業(yè)模型相比,STAR-R1的總體準確率(TAcc)達到了61.4%,比GPT-4o高出37.9個百分點,比Gemini-1.5-pro高出45.5個百分點。這一成績充分證明了STAR-R1方法的有效性和優(yōu)越性。
在屬性準確率方面,STAR-R1在顏色、形狀、大小和材質這四類屬性上都表現出色,準確率分別達到81.3%、83.2%、86.1%和85.5%。這種均衡的表現表明,STAR-R1能夠全面理解物體的各種屬性變化,而不是僅僅擅長某一類特定的變化。
更令人驚訝的是,當場景中物體數量增加時,STAR-R1的性能下降得比其他模型要慢得多。在含有1-3個物體的場景中,它的準確率高達91.0%;即使在含有9-10個物體的復雜場景中,它仍然保持了37.5%的準確率。相比之下,其他模型在復雜場景中的表現急劇下降,有些甚至接近于隨機猜測。
但最令人矚目的是STAR-R1在跨視角(Out-of-Domain)任務上的表現。在這種更加困難的場景下,STAR-R1的準確率達到了53.9%,比基于監(jiān)督微調(SFT)的方法高出23個百分點。這一巨大差距表明,STAR-R1不僅能夠理解物體的變化,還能夠在視角變化的情況下正確匹配對應的物體,這是一項遠超其他模型的能力。
為什么STAR-R1在跨視角任務上表現如此出色?研究團隊通過深入分析發(fā)現了一個有趣的現象:STAR-R1會像人類一樣,根據場景的復雜程度調整其推理策略。
在相同視角的簡單場景中,STAR-R1會進行有限的物體比較,因為變化通常很容易識別。但在跨視角的復雜場景中,它會系統(tǒng)地比較所有物體,以確保正確匹配。具體來說,在相同視角場景中,STAR-R1在67%的案例中會進行全面物體比較;而在跨視角場景中,這一比例上升到81%。
這種自適應行為完全是模型自主學習得來的,而非人為編程的結果。它表明,STAR-R1通過強化學習,不僅學會了如何識別物體變化,還學會了如何根據場景復雜度調整其推理策略,這是一種接近人類認知的行為模式。
研究團隊還觀察到了一個有趣的現象:STAR-R1在訓練過程中,其回答的長度先減少后增加,最終趨于穩(wěn)定。這表明,模型在訓練初期會嘗試各種推理策略,并逐漸簡化其語言表達;但隨后,它意識到僅關注少數幾個物體可能導致匹配錯誤,于是開始系統(tǒng)地比較所有物體,最終找到了平衡點。這種動態(tài)變化進一步證明了STAR-R1學習過程的自然性和有效性。
最后,研究團隊還進行了廣泛的消融實驗,以驗證STAR-R1各組件的重要性。結果表明,無論是移除物體獎勵、屬性獎勵還是懲罰機制,都會導致模型性能顯著下降。這充分證明了STAR-R1設計的合理性和必要性。
總的來說,STAR-R1在空間變換推理任務上的卓越表現,特別是在跨視角場景中的顯著優(yōu)勢,為提高AI的空間理解能力提供了一種有效方法,也為我們理解AI如何通過強化學習逐步接近人類認知能力提供了寶貴洞察。
**五、人類化行為:強化學習與監(jiān)督學習的對比**
想象兩個學生學習同一門課程。第一個學生只是死記硬背老師給的答案,第二個學生則通過不斷嘗試和反饋來理解解題方法。當面對新問題時,哪個學生更有可能找到解決方案呢?這正是監(jiān)督學習(SFT)和強化學習(RL)的區(qū)別所在。
研究團隊進行了一項深入比較,探究了基于強化學習(STAR-R1)和基于監(jiān)督學習(STAR-SFT)的模型之間的差異。他們發(fā)現,兩種方法在相同視角(In-Domain)和不同視角(Out-of-Domain)的任務上表現出明顯的差異。
在相同視角的任務中,STAR-SFT的準確率達到了84.2%,略高于STAR-R1的76.3%。這是合理的,因為監(jiān)督學習善于記憶訓練數據中的模式,而相同視角的任務與訓練數據更為相似。然而,當轉向更具挑戰(zhàn)性的跨視角任務時,情況發(fā)生了戲劇性的逆轉:STAR-R1的準確率達到53.9%,而STAR-SFT僅為30.9%,相差高達23個百分點。
為什么會出現如此大的差距?研究團隊通過案例研究揭示了一個關鍵原因:STAR-R1和STAR-SFT采用了截然不同的推理策略。
STAR-SFT模型傾向于進行快速但不全面的比較,通常只關注少數幾個物體。在相同視角的簡單場景中,這種策略足夠有效,因為變化通常很容易識別。但在跨視角的復雜場景中,這種方法會導致嚴重的錯誤。
例如,當視角變化時,STAR-SFT錯誤地認為兩張圖片中相同位置的物體就是同一個物體,而忽略了視角變化會導致物體在圖像中的位置發(fā)生變化。這就像一個人只看物體在照片中的位置而不考慮實際場景中的位置關系一樣,這種方法在視角變化時必然會失敗。
相比之下,STAR-R1會像偵探一樣,系統(tǒng)地比較兩張圖片中的所有物體,包括那些未發(fā)生變化的物體。在具有多個物體的場景中,這種全面比較使它能夠建立準確的物體對應關系,即使在視角變化的情況下也能正確匹配物體。
研究團隊通過具體案例展示了這種差異。在一個案例中,STAR-SFT錯誤地將最終圖像中的物體0、3和5識別為物體3、5和6,導致完全錯誤的推理結果。而STAR-R1則通過系統(tǒng)比較所有物體的狀態(tài),成功建立了正確的對應關系,從而得出準確的推理結果。
這種行為差異揭示了強化學習的獨特價值:它不僅僅讓AI學會了回答問題,還讓AI學會了如何思考和推理。更令人驚訝的是,STAR-R1表現出的自適應行為與人類非常相似。在簡單場景中,它會進行有限的比較;而在復雜場景中,它會更加全面地比較所有物體,就像人類會根據任務難度調整思考深度一樣。
這種人類化的行為完全是模型通過強化學習自主發(fā)展出來的,而非人為設計的結果。這表明,通過適當的獎勵機制,AI可以自主學習發(fā)展出類似人類的認知策略,而不需要明確的指導或規(guī)則。
研究團隊還嘗試將強化學習應用于已經接受監(jiān)督微調的模型(STAR-SFT&RL),結果表明,這種方法確實能夠提升模型在跨視角任務上的表現,從30.9%提高到36.5%。但這一提升仍遠低于純強化學習模型STAR-R1的53.9%。這一發(fā)現暗示,監(jiān)督微調可能會使模型鎖定某種推理模式,限制其在后續(xù)強化學習中的探索空間。
總的來說,STAR-R1與STAR-SFT的對比研究不僅證明了強化學習在提高AI空間推理能力方面的卓越表現,還揭示了AI可以通過強化學習自主發(fā)展出人類化的認知策略。這一發(fā)現為我們理解AI如何逐步接近人類認知能力提供了寶貴洞察,也為未來AI研究指明了方向。
**六、訓練動態(tài):AI如何學會推理**
學習一項新技能通常不是一條直線,而是充滿起伏的旅程。STAR-R1的學習過程也是如此。研究團隊對模型的訓練過程進行了深入分析,發(fā)現了一些有趣的現象,這些現象揭示了AI如何逐步掌握空間推理能力。
最引人注目的是模型回答長度的變化。在訓練初期,STAR-R1的回答非常冗長,充滿了詳細的多物體描述,如:"第3號物體在第一張圖像中是一個灰色的大型圓柱體。在第二張圖像中,它變成了金屬金色。這表明顏色和材質發(fā)生了變化。第1號物體在第一張圖像中是..."。
隨著訓練的進行,模型的回答逐漸變得簡潔,轉向了單物體推理,如:"棕色小球改變了顏色,變成了灰色"。這一階段,模型的回答長度達到最低點。但有趣的是,在此之后,回答長度又開始增加,最終趨于穩(wěn)定。
研究團隊分析認為,這種動態(tài)變化反映了模型探索策略的演變。在訓練初期,模型嘗試各種推理方式并逐漸簡化其語言表達。但隨后,它意識到僅關注少數幾個物體可能導致匹配錯誤,特別是在視角變化的情況下。因此,它開始系統(tǒng)地比較所有物體的狀態(tài),包括那些未發(fā)生變化的物體,以建立更準確的物體對應關系。
這種轉變使模型最終形成了一種平衡的推理策略:為每個物體保持簡潔的推理風格,同時系統(tǒng)地比較所有物體。例如:"大型紫色玻璃立方體(索引2)變成了大型紫色玻璃立方體。小型紫色金屬圓柱體(索引0)變成了小型紫色金屬圓柱體。..."。這種策略不僅提高了準確率,還保持了推理的清晰度和可解釋性。
研究團隊還發(fā)現,模型在訓練過程中的獎勵曲線穩(wěn)步上升,最終穩(wěn)定在一個較高水平。這表明STAR-R1的獎勵設計成功地引導模型持續(xù)改進,而不是陷入局部最優(yōu)解。
此外,研究團隊通過比較不同屬性(顏色、形狀、大小和材質)的準確率變化,發(fā)現所有屬性的準確率都呈現類似的增長趨勢,最終穩(wěn)定在較高水平。這種均衡的進步表明,模型能夠全面理解各種屬性變化,而不是偏向某一特定類型的變化。
為了驗證模型性能與訓練數據量的關系,研究團隊還進行了數據量消融實驗。結果表明,隨著訓練數據量從1,000增加到9,000,模型的準確率從13.8%提升到61.4%,表現出明顯的數據量效應。但有趣的是,準確率增長率呈現先增后減的趨勢,暗示在數據量較少時,增加數據能帶來顯著提升;而當數據量達到一定水平后,增益開始減少。
研究團隊還研究了模型規(guī)模對性能的影響。他們將基礎模型從Qwen-2.5VL-7B替換為Qwen-2.5VL-3B,發(fā)現較小的模型在相同訓練設置下,雖然也能從強化學習中獲益,但性能提升要小得多。這表明基礎模型的能力對最終性能有重要影響,更強大的基礎模型能夠達到更高的推理能力上限。
總的來說,STAR-R1的訓練動態(tài)分析不僅揭示了模型如何逐步掌握空間推理能力,還為我們理解AI學習過程中的策略演變提供了寶貴洞察。這些發(fā)現既有實際價值,能指導未來模型的設計和訓練,也有理論意義,有助于我們理解AI如何通過強化學習自主發(fā)展出有效的認知策略。
**七、結論與未來展望**
想象一個孩子從只會機械記憶答案,到能夠理解并解決問題的過程——這正是STAR-R1所展現的AI進化之路。這項研究不僅在技術上取得了突破,更展示了AI如何逐步發(fā)展出類似人類的推理能力。
STAR-R1通過創(chuàng)新的獎勵設計和強化學習方法,成功提高了AI在空間變換推理任務上的表現,尤其是在具有視角變化的復雜場景中。它在所有11個評估指標上都取得了最佳表現,比最先進的商業(yè)模型如GPT-4o和Gemini-1.5-pro高出30-40個百分點,比基于監(jiān)督微調的方法在跨視角任務上高出23個百分點。
更重要的是,STAR-R1展現出了人類化的行為模式。它能夠根據場景復雜度自適應地調整推理策略,在簡單場景中進行有限比較,在復雜場景中進行全面比較,這種行為與人類處理不同難度任務的方式極為相似。而這種行為完全是模型通過強化學習自主發(fā)展出來的,而非人為設計的結果。
這項研究的意義遠超過提高AI在特定任務上的表現。它為我們理解AI如何通過強化學習逐步接近人類認知能力提供了寶貴洞察。特別是,它證明了通過適當設計的獎勵機制,AI可以自主學習發(fā)展出有效的推理策略,而不需要明確的指導或規(guī)則。
當然,這項研究也存在一些局限性。首先,當前的模型只能處理單時間戳的物體變換,而現實世界中的變換往往是隨時間延展的序列,具有潛在的依賴關系。其次,雖然STAR-R1在視覺推理方面取得了顯著進步,但它仍主要關注物體的基本屬性變化,而沒有處理更復雜的空間關系和交互。
未來的研究方向可能包括將這種方法擴展到時間序列變換,考慮物體間的相互作用,以及整合更復雜的空間關系理解。此外,研究團隊還計劃探索將這種基于強化學習的方法應用到其他多模態(tài)推理任務中,如視頻理解、場景描述等。
更廣泛地說,這項研究為AI朝著更加接近人類認知能力的方向邁進提供了一條可行路徑。通過結合視覺感知和邏輯推理,AI可以逐步發(fā)展出更加全面和深入的世界理解。這不僅有助于提高AI在各種實際應用中的表現,還可能為我們理解人類認知過程提供新的視角。
正如研究團隊所言,STAR-R1驗證了R1-Zero范式(純強化學習訓練)在高級推理任務中的潛力。這一發(fā)現可能為未來的AI研究指明方向,推動AI從簡單的模式匹配向真正的理解和推理能力轉變。
這項由人民大學高瓴人工智能學院宗昭李、馬宗陽等研究人員領導的工作,不僅是AI技術的一次重要突破,更是我們理解智能本質的一次寶貴探索。隨著研究的深入,我們或許能夠解開更多關于智能形成和發(fā)展的奧秘,無論是人工的還是自然的。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現AI根據復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數據集和MM-AlignBench評測基準,通過創(chuàng)新的數據生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經網絡技術,通過學習40年歷史數據掌握天氣變化規(guī)律,在極端天氣預測方面表現卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。