這項(xiàng)由微軟研究院和威斯康星大學(xué)麥迪遜分校的研究團(tuán)隊(duì)在2025年8月完成的研究,發(fā)表在arXiv預(yù)印本平臺(tái)上(論文編號(hào):arXiv:2508.09726v1),為我們揭示了一個(gè)顛覆直覺的發(fā)現(xiàn):讓AI模型在訓(xùn)練時(shí)多思考,反而能讓它在實(shí)際應(yīng)用時(shí)少廢話、更高效。有興趣深入了解的讀者可以通過arXiv平臺(tái)搜索該論文編號(hào)獲取完整研究?jī)?nèi)容。
研究團(tuán)隊(duì)由微軟研究院的多位科學(xué)家組成,包括Vaishnavi Shrivastavam、Ahmed Awadallah、Vidhisha Balachandran等人,以及威斯康星大學(xué)麥迪遜分校的Dimitris Papailiopoulos教授。他們發(fā)現(xiàn)了現(xiàn)有AI推理模型的一個(gè)重大問題:這些模型雖然能解決復(fù)雜問題,但經(jīng)常產(chǎn)生冗長(zhǎng)啰嗦的回答,就像一個(gè)喋喋不休的學(xué)生,明明三句話能說清楚的事情非要繞十個(gè)彎。
現(xiàn)有的AI推理模型就像一個(gè)過度勤奮的學(xué)生。當(dāng)它們接受強(qiáng)化學(xué)習(xí)訓(xùn)練時(shí),為了獲得更高的準(zhǔn)確率,會(huì)不斷增加回答的長(zhǎng)度。這種現(xiàn)象被稱為"長(zhǎng)度膨脹",就好比學(xué)生為了顯示自己的學(xué)問,在考試時(shí)明明一句話能回答的問題,卻寫了滿滿一頁紙,其中大部分內(nèi)容都是重復(fù)啰嗦,毫無實(shí)際價(jià)值。更令人擔(dān)憂的是,研究發(fā)現(xiàn)在72%的數(shù)學(xué)題中,當(dāng)同一個(gè)問題有對(duì)錯(cuò)兩種回答時(shí),錯(cuò)誤的回答往往比正確的回答更長(zhǎng),這說明冗長(zhǎng)并不等于準(zhǔn)確。
一、訓(xùn)練時(shí)多費(fèi)力,推理時(shí)更高效的新思路
研究團(tuán)隊(duì)提出了一種名為GFPO(Group Filtered Policy Optimization,群組過濾策略優(yōu)化)的新方法。這個(gè)方法的核心思想非常巧妙:在訓(xùn)練階段讓AI模型生成更多的回答候選,然后從中挑選出最好的那些進(jìn)行學(xué)習(xí),就像一個(gè)嚴(yán)格的老師從學(xué)生的多份作業(yè)中只選擇優(yōu)秀作業(yè)進(jìn)行表揚(yáng)和推廣。
具體來說,傳統(tǒng)方法就像讓AI寫8份作業(yè),然后對(duì)所有作業(yè)都給予反饋。而GFPO則讓AI寫16份甚至24份作業(yè),但只挑選其中最短、最高效的8份進(jìn)行學(xué)習(xí)。這樣做的結(jié)果是,AI學(xué)會(huì)了如何用更少的話說更準(zhǔn)確的內(nèi)容,就像學(xué)會(huì)了"言簡(jiǎn)意賅"這個(gè)成語的真諦。
這種方法實(shí)現(xiàn)了一個(gè)絕妙的交換:用訓(xùn)練時(shí)的額外計(jì)算成本,換取推理時(shí)的效率提升。訓(xùn)練是一次性投入,就像建房子時(shí)多花點(diǎn)心思設(shè)計(jì),而推理時(shí)的效率提升則是長(zhǎng)期收益,就像住進(jìn)設(shè)計(jì)良好的房子后每天都能享受舒適便利。
二、三種優(yōu)化策略各顯神通
研究團(tuán)隊(duì)設(shè)計(jì)了三種不同的GFPO變體,每種都有其獨(dú)特的優(yōu)勢(shì),就像三個(gè)不同性格的老師,各有各的教學(xué)風(fēng)格。
第一種是"最短優(yōu)先"策略。這就像一個(gè)追求簡(jiǎn)潔的語文老師,專門挑選最短的正確答案進(jìn)行學(xué)習(xí)。實(shí)驗(yàn)顯示,當(dāng)從16個(gè)候選答案中選擇最短的8個(gè)進(jìn)行訓(xùn)練時(shí),能夠?qū)⒒卮痖L(zhǎng)度減少23.8%到71%,同時(shí)保持相同的準(zhǔn)確率。這種方法特別適合那些本身就能產(chǎn)生正確答案、只是表達(dá)過于冗長(zhǎng)的場(chǎng)景。
第二種是"令牌效率"策略,這個(gè)方法更加聰明。它不是簡(jiǎn)單地選擇最短答案,而是選擇"性價(jià)比"最高的答案——也就是每個(gè)字都物有所值的回答。就像精明的購物者不只看商品價(jià)格,而要看性價(jià)比一樣。這種方法計(jì)算每個(gè)回答的準(zhǔn)確性與長(zhǎng)度的比值,優(yōu)先選擇那些用較少篇幅就能達(dá)到高準(zhǔn)確性的回答進(jìn)行學(xué)習(xí)。結(jié)果顯示,這種方法能夠?qū)崿F(xiàn)70.9%到84.6%的長(zhǎng)度減少,是三種方法中效果最顯著的。
第三種是"自適應(yīng)難度"策略,這是最具創(chuàng)新性的方法。它能夠根據(jù)問題的難度動(dòng)態(tài)調(diào)整學(xué)習(xí)策略,就像一個(gè)經(jīng)驗(yàn)豐富的老師,對(duì)不同難度的問題采用不同的教學(xué)方法。對(duì)于簡(jiǎn)單問題,它會(huì)選擇非常短的答案進(jìn)行學(xué)習(xí),強(qiáng)迫AI學(xué)會(huì)用最少的話解決簡(jiǎn)單問題。對(duì)于困難問題,它允許稍長(zhǎng)一些的答案,因?yàn)閺?fù)雜問題確實(shí)需要更多的推理步驟。這種方法通過實(shí)時(shí)評(píng)估問題難度,為每個(gè)問題分配不同數(shù)量的候選答案進(jìn)行學(xué)習(xí),實(shí)現(xiàn)了學(xué)習(xí)資源的精準(zhǔn)分配。
三、實(shí)驗(yàn)驗(yàn)證:數(shù)據(jù)會(huì)說話
研究團(tuán)隊(duì)在多個(gè)具有挑戰(zhàn)性的數(shù)學(xué)和編程基準(zhǔn)測(cè)試上驗(yàn)證了GFPO方法的效果,這些測(cè)試就像AI界的高考,包括AIME數(shù)學(xué)競(jìng)賽、GPQA科學(xué)問答、Omni-MATH綜合數(shù)學(xué)測(cè)試等。實(shí)驗(yàn)使用的是Phi-4-reasoning模型,這是微軟開發(fā)的一個(gè)14億參數(shù)的大型語言模型,專門針對(duì)數(shù)學(xué)推理進(jìn)行了優(yōu)化。
實(shí)驗(yàn)結(jié)果令人印象深刻。在AIME 2025數(shù)學(xué)競(jìng)賽測(cè)試中,傳統(tǒng)的GRPO方法將AI回答的平均長(zhǎng)度從最初的10.9k令牌(約相當(dāng)于幾千個(gè)漢字)膨脹到了14.8k令牌,增長(zhǎng)了約36%。而GFPO的各種變體不僅遏制了這種長(zhǎng)度膨脹,還大幅縮短了回答長(zhǎng)度。最短優(yōu)先策略將長(zhǎng)度減少到13.9k令牌,令牌效率策略更是將長(zhǎng)度降至12k令牌,相比傳統(tǒng)方法減少了約19%。
更重要的是,這些長(zhǎng)度的大幅減少并沒有以犧牲準(zhǔn)確性為代價(jià)。統(tǒng)計(jì)分析表明,GFPO各個(gè)變體與傳統(tǒng)GRPO方法在準(zhǔn)確性上沒有顯著差異,有時(shí)甚至略有提升。這就像一個(gè)學(xué)生學(xué)會(huì)了寫簡(jiǎn)潔明了的作文,不僅減少了廢話,還提高了表達(dá)質(zhì)量。
在編程基準(zhǔn)測(cè)試LiveCodeBench上,GFPO展現(xiàn)出了出色的泛化能力。值得注意的是,AI模型在訓(xùn)練時(shí)并沒有接觸過編程任務(wù),但GFPO仍然能夠顯著減少代碼回答的長(zhǎng)度膨脹。傳統(tǒng)GRPO方法將代碼回答從10.3k令牌增加到13.9k令牌,而且準(zhǔn)確率還略有下降。相比之下,GFPO不僅控制了長(zhǎng)度增長(zhǎng),還在某些情況下提高了編程準(zhǔn)確率,展現(xiàn)了方法的通用性和魯棒性。
四、深入分析:為什么更短的回答反而更好
研究團(tuán)隊(duì)進(jìn)行了深入的分析,試圖理解為什么更短的AI回答往往更準(zhǔn)確。他們發(fā)現(xiàn),即使在問題難度相同的情況下,更長(zhǎng)的回答確實(shí)更容易出錯(cuò),這顛覆了"更長(zhǎng)意味著更仔細(xì)思考"的直覺。
通過對(duì)AI回答內(nèi)容的詳細(xì)分析,研究人員發(fā)現(xiàn)長(zhǎng)度膨脹主要發(fā)生在推理過程的"解決方案"和"驗(yàn)證"階段。傳統(tǒng)方法訓(xùn)練出的AI就像一個(gè)過度焦慮的學(xué)生,會(huì)反復(fù)驗(yàn)證同一個(gè)計(jì)算結(jié)果,或者嘗試多種可能錯(cuò)誤的解題路徑。例如,在一道幾何題中,GRPO訓(xùn)練的模型會(huì)反復(fù)計(jì)算三角形面積達(dá)6次,每次都得到相同結(jié)果,而GFPO訓(xùn)練的模型只計(jì)算一次就給出答案。
這種現(xiàn)象的根本原因在于,傳統(tǒng)強(qiáng)化學(xué)習(xí)方法雖然會(huì)懲罰長(zhǎng)的錯(cuò)誤回答,但也會(huì)獎(jiǎng)勵(lì)長(zhǎng)的正確回答。當(dāng)AI模型本身就傾向于生成冗長(zhǎng)回答時(shí),這種獎(jiǎng)勵(lì)機(jī)制會(huì)進(jìn)一步加劇長(zhǎng)度膨脹。GFPO通過明確選擇簡(jiǎn)潔正確的回答進(jìn)行學(xué)習(xí),直接切斷了這種惡性循環(huán)。
研究還發(fā)現(xiàn),GFPO特別善于處理不同難度的問題。對(duì)于簡(jiǎn)單問題,令牌效率策略能夠產(chǎn)生比原始模型更短的回答,同時(shí)保持甚至提高準(zhǔn)確性,實(shí)現(xiàn)了真正的"言簡(jiǎn)意賅"。對(duì)于困難問題,自適應(yīng)難度策略通過保留更多學(xué)習(xí)樣本,確保AI模型有足夠的學(xué)習(xí)機(jī)會(huì)掌握復(fù)雜推理,避免了過度簡(jiǎn)化導(dǎo)致的準(zhǔn)確性下降。
五、技術(shù)創(chuàng)新的深層意義
GFPO方法的創(chuàng)新不僅僅在于技術(shù)實(shí)現(xiàn),更在于它揭示了AI訓(xùn)練的一個(gè)重要原理:通過在訓(xùn)練時(shí)投入更多計(jì)算資源來獲取更好的候選答案,可以顯著提高模型在實(shí)際應(yīng)用時(shí)的效率。這種"訓(xùn)練時(shí)多花錢,推理時(shí)更省錢"的思路在AI產(chǎn)業(yè)化應(yīng)用中具有重要價(jià)值。
在實(shí)際應(yīng)用場(chǎng)景中,AI模型的推理效率直接關(guān)系到服務(wù)成本和用戶體驗(yàn)。一個(gè)能夠用更少字?jǐn)?shù)給出準(zhǔn)確答案的AI模型,不僅能降低計(jì)算成本,還能提供更好的用戶體驗(yàn)。用戶更愿意看到簡(jiǎn)潔明了的答案,而不是冗長(zhǎng)啰嗦的回應(yīng)。
GFPO方法還展現(xiàn)了出色的通用性。它不需要修改模型架構(gòu)或損失函數(shù),只需要改變訓(xùn)練樣本的選擇策略,就能實(shí)現(xiàn)顯著的效果提升。這意味著該方法可以很容易地應(yīng)用到其他AI模型和任務(wù)中,具有廣泛的適用性。
研究團(tuán)隊(duì)還提出了一個(gè)有趣的觀點(diǎn):AI的"思考質(zhì)量"比"思考數(shù)量"更重要。傳統(tǒng)觀點(diǎn)認(rèn)為,讓AI生成更長(zhǎng)的推理鏈條就能得到更好的結(jié)果,但這項(xiàng)研究表明,關(guān)鍵在于推理的質(zhì)量而非數(shù)量。通過精心選擇高質(zhì)量的推理樣本進(jìn)行學(xué)習(xí),AI能夠?qū)W會(huì)更高效的思考方式。
六、未來應(yīng)用前景與思考
GFPO方法的成功為AI推理模型的發(fā)展指明了新方向。在當(dāng)前AI模型越來越大、計(jì)算成本越來越高的背景下,如何提高模型效率成為了關(guān)鍵挑戰(zhàn)。GFPO提供了一個(gè)優(yōu)雅的解決方案:不是讓模型變得更大更復(fù)雜,而是讓它變得更智能更高效。
這種方法對(duì)AI行業(yè)的影響可能是深遠(yuǎn)的。對(duì)于AI服務(wù)提供商來說,更高效的模型意味著更低的運(yùn)營(yíng)成本和更好的用戶體驗(yàn)。對(duì)于普通用戶來說,這意味著能夠獲得更快、更準(zhǔn)確的AI服務(wù)。在教育領(lǐng)域,這樣的AI助手能夠提供簡(jiǎn)潔明了的解釋,而不是讓學(xué)生淹沒在冗長(zhǎng)的回答中。在客服領(lǐng)域,AI能夠快速準(zhǔn)確地解決用戶問題,提高服務(wù)質(zhì)量。
研究還暗示了AI訓(xùn)練范式的潛在變革。傳統(tǒng)的強(qiáng)化學(xué)習(xí)主要關(guān)注于準(zhǔn)確性優(yōu)化,而忽略了效率考慮。GFPO方法展示了如何在保持準(zhǔn)確性的同時(shí)優(yōu)化效率,這為多目標(biāo)優(yōu)化的AI訓(xùn)練開辟了新思路。未來的AI模型可能不僅要準(zhǔn)確,還要高效、簡(jiǎn)潔、易懂。
當(dāng)然,這項(xiàng)研究也提出了一些有待進(jìn)一步探索的問題。比如,如何在更廣泛的任務(wù)類型中應(yīng)用這種方法?如何自動(dòng)識(shí)別哪些任務(wù)適合使用簡(jiǎn)潔策略,哪些任務(wù)需要詳細(xì)推理?如何平衡不同用戶對(duì)回答詳略程度的不同需求?這些問題的答案將進(jìn)一步完善這一方法的實(shí)用性。
從更宏觀的角度來看,GFPO方法體現(xiàn)了AI發(fā)展的一個(gè)重要趨勢(shì):從單純追求性能最大化轉(zhuǎn)向追求性能與效率的最優(yōu)平衡。這種理念不僅適用于AI技術(shù)本身,也為人類思考和表達(dá)提供了啟示。在信息爆炸的時(shí)代,簡(jiǎn)潔有效的溝通變得越來越重要,而AI可能正在學(xué)習(xí)這種人類智慧的精髓。
說到底,這項(xiàng)研究告訴我們一個(gè)樸素而深刻的道理:有時(shí)候,少即是多。通過讓AI學(xué)會(huì)"言簡(jiǎn)意賅",我們不僅提高了技術(shù)效率,也讓AI變得更像一個(gè)善于表達(dá)的智者,能夠用最少的話傳達(dá)最準(zhǔn)確的信息。這種進(jìn)步不僅是技術(shù)上的突破,也是AI向更高層次智能邁進(jìn)的重要一步。對(duì)于那些希望深入了解技術(shù)細(xì)節(jié)的讀者,可以通過arXiv平臺(tái)查閱這篇編號(hào)為2508.09726v1的完整論文,其中包含了詳盡的實(shí)驗(yàn)數(shù)據(jù)和技術(shù)實(shí)現(xiàn)細(xì)節(jié)。
Q&A
Q1:GFPO是什么?它如何讓AI回答變得更簡(jiǎn)潔?
A:GFPO是微軟研究團(tuán)隊(duì)開發(fā)的群組過濾策略優(yōu)化方法。它的工作原理是讓AI在訓(xùn)練時(shí)生成更多候選答案(比如16個(gè)),然后只選擇其中最短或最高效的答案(比如8個(gè))進(jìn)行學(xué)習(xí)。這樣AI就學(xué)會(huì)了用更少的話說更準(zhǔn)確的內(nèi)容,避免了冗長(zhǎng)啰嗦的回答。
Q2:GFPO方法會(huì)不會(huì)影響AI回答的準(zhǔn)確性?
A:不會(huì)。研究顯示GFPO在大幅減少回答長(zhǎng)度的同時(shí),完全保持了原有的準(zhǔn)確性。在某些情況下準(zhǔn)確性甚至略有提升。這是因?yàn)楦?jiǎn)潔的回答往往意味著更清晰的邏輯,避免了冗長(zhǎng)推理中可能出現(xiàn)的錯(cuò)誤。
Q3:這項(xiàng)技術(shù)什么時(shí)候能在日常AI應(yīng)用中使用?
A:GFPO是一種訓(xùn)練方法的改進(jìn),理論上可以應(yīng)用到任何需要推理的AI模型中。由于它不需要改變模型結(jié)構(gòu),只需修改訓(xùn)練策略,因此技術(shù)門檻相對(duì)較低。不過從研究到實(shí)際產(chǎn)品應(yīng)用還需要時(shí)間,預(yù)計(jì)未來1-2年內(nèi)可能會(huì)在一些AI服務(wù)中見到類似技術(shù)的應(yīng)用。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。