大語言模型(LLMs)在完成訓(xùn)練后,經(jīng)常需要進(jìn)一步的"后訓(xùn)練"階段來增強(qiáng)其推理能力。麻省理工學(xué)院電氣工程與計算機(jī)科學(xué)系(EECS)LIDS實(shí)驗(yàn)室的研究團(tuán)隊Mingyang Liu、Gabriele Farina和Asuman Ozdaglar在2025年5月22日發(fā)表于arXiv(arXiv:2505.16984v1)的論文中,提出了一種創(chuàng)新性的后訓(xùn)練方法——統(tǒng)一微調(diào)(Unified Fine-Tuning,UFT)。這項(xiàng)研究旨在解決當(dāng)前大語言模型微調(diào)中的一個根本性問題:如何在"記憶"和"思考"之間取得平衡。
正如論文開篇引用的孔子名言所說:"學(xué)而不思則罔,思而不學(xué)則殆"(Learning without thinking leads to confusion; thinking without learning is perilous)。這句古老的智慧恰好點(diǎn)明了當(dāng)前大語言模型后訓(xùn)練的核心挑戰(zhàn)。目前,大語言模型的后訓(xùn)練主要分為兩大類:監(jiān)督式微調(diào)(Supervised Fine-Tuning,SFT)和強(qiáng)化式微調(diào)(Reinforcement Fine-Tuning,RFT)。簡單來說,SFT就像是讓模型"死記硬背"標(biāo)準(zhǔn)答案,而RFT則是讓模型"自己思考"并從嘗試中學(xué)習(xí)。
在人類學(xué)習(xí)過程中,我們通常會結(jié)合這兩種方式:在做題時自己思考(類似RFT),遇到困難時參考解答(類似SFT)。然而,在當(dāng)前的大語言模型訓(xùn)練中,這兩種學(xué)習(xí)方式卻被人為地分離開來。傳統(tǒng)做法要么全程使用SFT,要么全程使用RFT,或者先用SFT再用RFT(稱為SFT-RFT),就像是強(qiáng)制學(xué)生要么只做題不看答案,要么只看答案不做題,這顯然不是最佳的學(xué)習(xí)方式。
研究團(tuán)隊提出的UFT方法巧妙地將這兩種學(xué)習(xí)模式融合起來,讓模型既能通過自己探索答案獲得思考能力,又能從標(biāo)準(zhǔn)答案中獲取知識。這就像給學(xué)生一道數(shù)學(xué)題,先讓他自己嘗試解決,但同時提供部分解題步驟作為提示,隨著學(xué)習(xí)的深入,逐漸減少提示的數(shù)量,最終讓學(xué)生能夠完全獨(dú)立思考。
研究表明,無論模型大小如何,UFT都能取得比SFT和RFT更好的表現(xiàn)。對于較小的模型(如0.5B參數(shù)),UFT能幫助模型更好地"記憶"解題步驟;對于較大的模型(如3B參數(shù)),UFT則能保持RFT的泛化能力,避免SFT容易導(dǎo)致的過擬合問題。更令人興奮的是,研究團(tuán)隊通過理論證明,UFT能夠?qū)FT在長序列推理任務(wù)上的指數(shù)級采樣復(fù)雜度降低到多項(xiàng)式級別,這意味著訓(xùn)練效率的極大提升。
讓我們一起深入了解這項(xiàng)創(chuàng)新研究,看看它如何改變大語言模型的訓(xùn)練方式,以及為什么這種"學(xué)習(xí)"與"思考"的統(tǒng)一方法對于未來AI的發(fā)展具有重要意義。
一、問題背景:大語言模型微調(diào)中的兩難困境
目前,大語言模型的微調(diào)主要有兩種方法:監(jiān)督式微調(diào)(SFT)和強(qiáng)化式微調(diào)(RFT)。這兩種方法各有優(yōu)缺點(diǎn),就像學(xué)習(xí)中的"記憶"和"思考"兩種能力。
SFT就像是傳統(tǒng)的教科書學(xué)習(xí)法。想象一下,老師給你一道數(shù)學(xué)題和它的完整解答,然后讓你反復(fù)記憶這個解答過程。SFT的做法是讓模型通過最大化已知解答的對數(shù)似然(log-likelihood)來"記住"標(biāo)準(zhǔn)答案。這種方法簡單高效,特別適合參數(shù)量較小的模型。但問題是,如果模型只會"背誦"而不會"思考",遇到稍微變形的新問題就可能束手無策。
RFT則像是鼓勵自主探索的學(xué)習(xí)方法。想象老師只告訴你一道題的最終答案是對是錯,但不告訴你解題步驟,你需要通過不斷嘗試來找到正確的解法。RFT讓模型自己探索解決方案,然后根據(jù)最終結(jié)果的正確與否來調(diào)整自己的策略。這種方法能夠培養(yǎng)模型的"思考能力",對于較大的模型來說,通常能獲得更好的泛化效果。但RFT的問題是,如果模型基礎(chǔ)知識不夠扎實(shí)(比如參數(shù)量太?。赡軙?yàn)樘剿骺臻g太大而難以找到正確答案。
研究者們發(fā)現(xiàn),當(dāng)模型較小時(如Qwen2.5-0.5B),SFT往往表現(xiàn)更好,因?yàn)檫@些模型通過預(yù)訓(xùn)練獲得的知識有限,難以通過自主探索找到正確答案。而當(dāng)模型較大時(如Qwen2.5-3B),RFT則通常更勝一籌,因?yàn)檫@些模型已經(jīng)具備了足夠的基礎(chǔ)知識,能夠更好地進(jìn)行自主推理。
這就形成了一個兩難困境:對于不同規(guī)模的模型,我們需要使用不同的微調(diào)策略。而業(yè)界常見的解決方案是先使用SFT再使用RFT(即SFT-RFT),就像先讓學(xué)生背誦公式,再讓他們自己解題。但這種方法仍然是將"記憶"和"思考"人為分開,而不是像人類學(xué)習(xí)那樣自然地融合兩者。
這正是UFT要解決的核心問題:如何設(shè)計一種微調(diào)方法,能夠融合SFT的知識獲取能力和RFT的推理泛化能力,讓模型既能"學(xué)"又能"思"?
二、UFT方法:統(tǒng)一"記憶"與"思考"的創(chuàng)新框架
UFT(統(tǒng)一微調(diào))的核心思想是將監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)融合在一個統(tǒng)一的框架中,就像將"看答案"和"自己做題"這兩種學(xué)習(xí)方式有機(jī)結(jié)合。這種方法主要包含兩個關(guān)鍵創(chuàng)新:一是基于提示的探索機(jī)制,二是混合目標(biāo)函數(shù)。
### 基于提示的探索機(jī)制
在傳統(tǒng)的RFT中,模型需要從頭開始生成整個解決方案,這就像讓學(xué)生完全靠自己解決一道復(fù)雜的數(shù)學(xué)題。對于基礎(chǔ)知識不足的小模型來說,這個任務(wù)太過艱巨,導(dǎo)致很難找到正確答案。
而UFT引入了"提示"(hint)的概念,它是完整解答的一部分。想象一下,老師不是直接給你整個解答,而是根據(jù)你的學(xué)習(xí)進(jìn)度,提供部分解題步驟作為提示,讓你在此基礎(chǔ)上繼續(xù)思考。這種方式既給了你一定的指導(dǎo),又保留了思考的空間。
具體來說,UFT在訓(xùn)練過程中,會將問題和部分解答(提示)連接起來,讓模型從這個部分解答的位置開始,繼續(xù)生成剩余的解題步驟。這樣,模型就能更容易地探索到正確的解決方案,大大提高了強(qiáng)化學(xué)習(xí)的效率。
為了讓模型逐漸學(xué)會獨(dú)立思考,UFT采用了一種平滑的提示長度調(diào)度策略。在訓(xùn)練初期,提供較長的提示,讓模型容易成功;隨著訓(xùn)練的進(jìn)行,提示長度逐漸減少,直到最后模型完全不依賴提示,能夠獨(dú)立生成完整解答。這就像學(xué)習(xí)騎自行車時,開始時有輔助輪,隨著技能的提升,逐漸減少輔助,最終獨(dú)立騎行。
研究團(tuán)隊采用了余弦退火(cosine annealing)策略來調(diào)度提示長度,比起階段性調(diào)整提示長度(如Xi等人的R?方法)或固定提示長度分布(如均勻分布),這種平滑過渡的方式避免了訓(xùn)練過程中的劇烈分布變化,使得模型學(xué)習(xí)更加穩(wěn)定。
### 混合目標(biāo)函數(shù)
UFT的第二個創(chuàng)新是混合目標(biāo)函數(shù),它將SFT的監(jiān)督學(xué)習(xí)信號和RFT的強(qiáng)化學(xué)習(xí)信號融合在一起。
傳統(tǒng)的RFT只關(guān)注最終答案是否正確,而忽略了解題過程的正確性。這就像老師只告訴你"答案錯了",但不指出哪一步出了問題。這種反饋信息太少,學(xué)習(xí)效率低下。
而UFT的混合目標(biāo)函數(shù)包含三部分: 1. 最大化模型在探索過程中獲得的獎勵(RFT的目標(biāo)) 2. 最小化模型策略與參考策略的KL散度(保持探索的穩(wěn)定性) 3. 最大化提示部分的對數(shù)似然(SFT的目標(biāo))
第三部分是UFT的關(guān)鍵創(chuàng)新,它讓模型不僅關(guān)注最終答案的正確性,還要學(xué)習(xí)解題的正確步驟。這就像老師不僅告訴你答案對錯,還指導(dǎo)你解題的方法。
通過這種混合目標(biāo)函數(shù),UFT使得模型能夠同時從監(jiān)督信號和強(qiáng)化信號中學(xué)習(xí),既獲取知識,又培養(yǎng)推理能力。當(dāng)提示長度為零時,UFT等同于標(biāo)準(zhǔn)的RFT;當(dāng)提示長度等于解答全長時,UFT等同于標(biāo)準(zhǔn)的SFT。這種平滑過渡的設(shè)計,使得UFT能夠兼顧兩種方法的優(yōu)點(diǎn)。
### UFT的技術(shù)細(xì)節(jié)
從技術(shù)角度看,UFT的目標(biāo)函數(shù)可以表示為:
J_UFT = E[J_value - β∑(KL(π(·|s_h)∥π_ref(·|s_h))) + β∑(log π(a*_h|s*_h))]
其中,第一項(xiàng)J_value代表強(qiáng)化學(xué)習(xí)的價值函數(shù),第二項(xiàng)是策略與參考策略的KL散度(常見于RLHF),第三項(xiàng)是提示部分的對數(shù)似然(SFT的目標(biāo))。
通過這個統(tǒng)一的目標(biāo)函數(shù),UFT在訓(xùn)練過程中自然地將"記憶"(監(jiān)督學(xué)習(xí))和"思考"(強(qiáng)化學(xué)習(xí))融合在一起,讓模型能夠在探索的同時學(xué)習(xí)已知的知識,提高學(xué)習(xí)效率。
三、理論突破:從指數(shù)級到多項(xiàng)式級的效率提升
UFT的一個重要理論貢獻(xiàn)是證明了它能夠?qū)鹘y(tǒng)RFT在長序列推理任務(wù)上的指數(shù)級采樣復(fù)雜度降低到多項(xiàng)式級別,這意味著訓(xùn)練效率的巨大提升。
想象一下,你在玩一個迷宮游戲,每個十字路口有多個方向可以選擇。如果你完全隨機(jī)地探索,那么找到出口的難度將隨著迷宮的復(fù)雜度指數(shù)級增加。這就是RFT面臨的問題:解題步驟越長,探索空間就呈指數(shù)級增長,找到正確解法的難度也隨之飆升。
研究團(tuán)隊通過理論分析證明,對于任何分支因子為B、高度為H的搜索樹(可以理解為一個解題過程),標(biāo)準(zhǔn)RFT需要至少B^H/4次探索才能達(dá)到50%的成功率。這意味著,解題步驟每增加一步,所需的探索次數(shù)就會乘以分支因子B。
然而,當(dāng)引入UFT方法后,研究團(tuán)隊證明所需的探索次數(shù)可以降低到O(B·H^5·(log B)^2/Δ^2),其中Δ是子最優(yōu)解與最優(yōu)解之間的獎勵差距。這是一個多項(xiàng)式級別的復(fù)雜度,意味著解題步驟增加時,所需的探索次數(shù)不再呈指數(shù)級增長,而是以一個更加可控的速度增長。
這一理論突破解釋了為什么UFT在長序列推理任務(wù)上能夠取得如此顯著的性能提升。通過提供部分解答作為提示,UFT大大縮小了模型需要探索的空間,使得即使是小模型也能有效地學(xué)習(xí)復(fù)雜的推理任務(wù)。
四、實(shí)驗(yàn)結(jié)果:UFT在各種模型和任務(wù)上的優(yōu)勢
研究團(tuán)隊在多種模型和任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn),以驗(yàn)證UFT的有效性。他們使用了不同規(guī)模的模型,包括Qwen2.5-0.5B/1.5B/3B和Llama3.2-1B/3B,在三種典型的推理任務(wù)上進(jìn)行測試:
1. Countdown(倒計時游戲):使用給定的數(shù)字和基本算術(shù)運(yùn)算(加、減、乘、除)得到目標(biāo)數(shù)字。 2. MATH(3,4,5):難度等級為3-5的數(shù)學(xué)問題集。 3. Logic(Knights and Knaves邏輯謎題):需要復(fù)雜的邏輯推理能力的謎題。
實(shí)驗(yàn)結(jié)果令人印象深刻:UFT在不同規(guī)模的模型和不同類型的任務(wù)上,都表現(xiàn)出了顯著的優(yōu)勢。
對于小模型(如Qwen2.5-0.5B),傳統(tǒng)的RFT幾乎無法有效學(xué)習(xí),因?yàn)槟P碗y以通過隨機(jī)探索找到正確答案。而UFT通過提供部分解答作為提示,大大提高了探索的成功率,使得即使是小模型也能有效地學(xué)習(xí)復(fù)雜的推理任務(wù)。實(shí)驗(yàn)顯示,在Logic任務(wù)上,RFT幾乎無法探索到正確答案,而UFT能夠在每一步都成功探索,從而實(shí)現(xiàn)有效學(xué)習(xí)。
對于大模型(如Qwen2.5-3B),SFT容易導(dǎo)致過擬合,而RFT則能獲得更好的泛化效果。UFT繼承了RFT的優(yōu)勢,同時通過混合目標(biāo)函數(shù)進(jìn)一步提升了性能。
研究者還對Llama3.2系列模型進(jìn)行了測試,發(fā)現(xiàn)UFT能夠顯著提升這些模型的表現(xiàn),特別是在Countdown任務(wù)上,甚至讓Llama3.2-1B的表現(xiàn)超過了經(jīng)過RFT訓(xùn)練的Llama3.2-3B。這說明UFT不僅能提高模型的推理能力,還能幫助模型獲取新知識,突破模型預(yù)訓(xùn)練時獲得的知識上限。
與其他方法的比較也很有說服力。UFT不僅優(yōu)于傳統(tǒng)的SFT和RFT,還超過了SFT-RFT組合方法和R?(反向課程強(qiáng)化學(xué)習(xí))方法。這表明,UFT的統(tǒng)一框架確實(shí)能夠更有效地融合監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的優(yōu)勢。
五、UFT的實(shí)現(xiàn)細(xì)節(jié):讓"學(xué)習(xí)"與"思考"自然融合
UFT的實(shí)現(xiàn)涉及幾個關(guān)鍵技術(shù)細(xì)節(jié),這些細(xì)節(jié)共同保證了方法的有效性。
首先是提示長度的調(diào)度策略。UFT采用余弦退火(cosine annealing)策略,使提示長度從訓(xùn)練初期的較高值平滑地降低到訓(xùn)練后期的零。具體來說,在每一步訓(xùn)練中,提示長度的期望值p按以下公式計算:
p(t) = plow + (phigh - plow)/2 · (1 + cos((t+1)/Thint · π))
其中,plow和phigh分別是提示長度的最低和最高比例,Thint是設(shè)定的有提示訓(xùn)練步數(shù)。這種平滑過渡的方式避免了訓(xùn)練過程中的劇烈分布變化,使得模型學(xué)習(xí)更加穩(wěn)定。
實(shí)際的提示長度是從二項(xiàng)分布中采樣得到的,即l ~ Binomial(L, p),其中L是解答的總長度。這確保了提示長度的期望值與設(shè)定的比例p一致,同時引入了一定的隨機(jī)性,有助于模型的泛化能力。
其次是混合目標(biāo)函數(shù)的實(shí)現(xiàn)。UFT的目標(biāo)函數(shù)包含三部分:最大化獎勵、保持策略穩(wěn)定性和最大化提示部分的對數(shù)似然。在實(shí)現(xiàn)上,研究者使用了GRPO(一種策略梯度算法)作為基礎(chǔ)強(qiáng)化學(xué)習(xí)算法,并在其目標(biāo)函數(shù)中添加了提示部分的對數(shù)似然項(xiàng)。
最后是訓(xùn)練過程的設(shè)計。UFT的訓(xùn)練分為兩個主要階段:有提示階段和無提示階段。在有提示階段(t < Thint),模型會獲得長度逐漸減少的提示;在無提示階段(t ≥ Thint),模型完全依靠自己的能力生成解答。這種設(shè)計使得模型能夠平滑地從依賴提示過渡到完全獨(dú)立推理。
通過這些技術(shù)細(xì)節(jié)的精心設(shè)計,UFT實(shí)現(xiàn)了"學(xué)習(xí)"與"思考"的自然融合,使得模型既能從監(jiān)督信號中獲取知識,又能通過強(qiáng)化學(xué)習(xí)培養(yǎng)推理能力。
六、UFT對不同大小模型的影響:適應(yīng)性強(qiáng)的統(tǒng)一框架
一個特別有趣的發(fā)現(xiàn)是,UFT對不同大小的模型都能起到積極作用,但作用機(jī)制有所不同。
對于小模型(如Qwen2.5-0.5B),UFT主要是通過提高"記憶"能力來提升性能。這些模型通過預(yù)訓(xùn)練獲得的知識有限,難以通過純粹的探索找到正確解法。UFT通過提供部分解答作為提示,大大提高了探索的成功率,同時通過混合目標(biāo)函數(shù)中的監(jiān)督學(xué)習(xí)項(xiàng),幫助模型更有效地"記住"正確的解題步驟。
實(shí)驗(yàn)數(shù)據(jù)顯示,在Countdown任務(wù)上,Qwen2.5-0.5B經(jīng)過UFT訓(xùn)練后的準(zhǔn)確率達(dá)到了13.18%,遠(yuǎn)高于RFT的3.78%和SFT的4.92%。這說明對于小模型來說,UFT主要是通過提高"記憶"能力來彌補(bǔ)其"思考"能力的不足。
對于大模型(如Qwen2.5-3B),UFT則主要是通過保持"思考"能力來避免過擬合。這些模型通過預(yù)訓(xùn)練已經(jīng)獲得了相當(dāng)豐富的知識,具備一定的推理能力。SFT容易導(dǎo)致這些模型過度擬合訓(xùn)練數(shù)據(jù),失去泛化能力。而UFT通過強(qiáng)化學(xué)習(xí)組件保持了模型的探索能力,避免了過擬合問題。
實(shí)驗(yàn)數(shù)據(jù)顯示,在MATH(3,4,5)任務(wù)上,Qwen2.5-3B經(jīng)過UFT訓(xùn)練后的準(zhǔn)確率達(dá)到了47.04%,高于RFT的45.74%和SFT的24.32%。這說明對于大模型來說,UFT主要是通過保持"思考"能力來提升其性能。
最令人驚喜的是,UFT對Llama3.2系列模型也表現(xiàn)出強(qiáng)大的提升效果。特別是在Countdown任務(wù)上,經(jīng)過UFT訓(xùn)練的Llama3.2-1B在250步訓(xùn)練后的表現(xiàn)甚至超過了經(jīng)過RFT訓(xùn)練的Llama3.2-3B。這表明UFT不僅能提高模型的推理能力,還能幫助模型獲取新知識,突破模型預(yù)訓(xùn)練時獲得的知識上限。
這些結(jié)果表明,UFT作為一個統(tǒng)一的微調(diào)框架,能夠根據(jù)模型的不同特性,自動平衡"記憶"和"思考"的比例,為不同大小的模型提供最適合的學(xué)習(xí)方式。這種適應(yīng)性強(qiáng)的特性,使得UFT在各種場景下都能發(fā)揮優(yōu)勢。
七、總結(jié)與展望:統(tǒng)一"學(xué)習(xí)"與"思考"的未來方向
UFT的提出,標(biāo)志著大語言模型微調(diào)技術(shù)的一個重要進(jìn)步。通過統(tǒng)一監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí),UFT創(chuàng)造性地解決了"記憶"與"思考"之間的平衡問題,使得模型能夠更有效地學(xué)習(xí)復(fù)雜的推理任務(wù)。
回顧UFT的主要貢獻(xiàn):
首先,UFT提出了一種統(tǒng)一的微調(diào)框架,將監(jiān)督信號和獎勵信號融合在一起。這種框架不僅保留了SFT的知識獲取能力和RFT的推理泛化能力,還通過兩者的互補(bǔ)作用,創(chuàng)造了1+1>2的效果。
其次,UFT在理論上證明了,通過引入提示機(jī)制,可以將傳統(tǒng)RFT在長序列推理任務(wù)上的指數(shù)級采樣復(fù)雜度降低到多項(xiàng)式級別。這一突破性的理論結(jié)果,解釋了為什么UFT能夠在實(shí)踐中取得如此顯著的性能提升。
第三,UFT在各種模型和任務(wù)上的廣泛實(shí)驗(yàn),驗(yàn)證了其方法的有效性和穩(wěn)健性。無論是小模型還是大模型,無論是簡單任務(wù)還是復(fù)雜任務(wù),UFT都表現(xiàn)出了顯著的優(yōu)勢。
從更廣泛的角度來看,UFT的成功提示我們,大語言模型的訓(xùn)練不應(yīng)該將"學(xué)習(xí)"和"思考"人為分開,而應(yīng)該像人類學(xué)習(xí)那樣,自然地融合這兩種能力。這種思路不僅適用于微調(diào)階段,也可能對預(yù)訓(xùn)練和其他訓(xùn)練范式有所啟發(fā)。
當(dāng)然,UFT也有一些局限性。首先,它需要高質(zhì)量的人類標(biāo)注解答作為監(jiān)督信號,這在某些領(lǐng)域可能難以獲取。其次,當(dāng)前的實(shí)驗(yàn)主要集中在數(shù)學(xué)和邏輯推理任務(wù)上,UFT在其他類型任務(wù)上的效果還需要進(jìn)一步驗(yàn)證。
未來的研究方向可能包括:將UFT與其他先進(jìn)的SFT和RFT技術(shù)結(jié)合,如使用大模型生成的長鏈?zhǔn)剿伎迹╨ong chain-of-thoughts)作為監(jiān)督信號,或者采用更先進(jìn)的強(qiáng)化學(xué)習(xí)算法如REINFORCE++和DAPO;探索UFT在更廣泛的任務(wù)類型上的應(yīng)用;研究如何減少對人類標(biāo)注數(shù)據(jù)的依賴,可能通過半監(jiān)督或自監(jiān)督的方式獲取監(jiān)督信號。
總的來說,UFT開創(chuàng)了一種新的思路,將大語言模型的"學(xué)習(xí)"與"思考"能力有機(jī)地融合在一起,為未來的模型訓(xùn)練提供了一個更加自然、更加高效的范式。正如孔子所言:"學(xué)而不思則罔,思而不學(xué)則殆",只有將學(xué)習(xí)和思考有機(jī)結(jié)合,才能培養(yǎng)出真正智能的系統(tǒng)。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。