這項(xiàng)由中國(guó)人民大學(xué)和字節(jié)跳動(dòng)種子實(shí)驗(yàn)室共同完成的研究發(fā)表于2025年8月,論文題目為《Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models》。該研究由陳志鵬、秦曉博、吳有斌、凌月、葉青昊、趙鑫、石光等研究人員共同完成。感興趣的讀者可以通過arXiv:2508.10751獲取完整論文。
當(dāng)我們訓(xùn)練人工智能模型解決復(fù)雜問題時(shí),就像培養(yǎng)一個(gè)學(xué)生學(xué)習(xí)解題一樣。傳統(tǒng)的訓(xùn)練方法就好比只看學(xué)生的第一次答題結(jié)果,如果答對(duì)了就表揚(yáng),答錯(cuò)了就批評(píng)。這種方法看似直接,但實(shí)際上存在一個(gè)嚴(yán)重問題:學(xué)生可能會(huì)變得過于保守,只敢嘗試有把握的簡(jiǎn)單題目,不敢探索更有挑戰(zhàn)性的難題。
這種現(xiàn)象在人工智能領(lǐng)域被稱為"探索與利用"的平衡問題。探索就像學(xué)生嘗試新的解題方法,雖然可能失敗但能學(xué)到新知識(shí);利用則像使用已經(jīng)掌握的方法去解決熟悉的問題。傳統(tǒng)的訓(xùn)練方法過分偏向利用,導(dǎo)致AI模型容易陷入局部最優(yōu)解,就像學(xué)生只會(huì)做一類題目卻無法應(yīng)對(duì)變化。
研究團(tuán)隊(duì)觀察到,在評(píng)估AI模型能力時(shí),人們經(jīng)常使用一個(gè)叫做Pass@k的指標(biāo)。這個(gè)指標(biāo)的含義是:給AI模型k次機(jī)會(huì)來回答同一個(gè)問題,只要其中一次答對(duì)就算成功。這就像給學(xué)生多次考試機(jī)會(huì),只要有一次考好就認(rèn)為他掌握了知識(shí)。這種評(píng)估方式鼓勵(lì)學(xué)生嘗試不同的解題思路,因?yàn)槎鄻踊膰L試能增加成功的概率。
基于這個(gè)洞察,研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新想法:既然Pass@k評(píng)估鼓勵(lì)多樣性,為什么不用它來訓(xùn)練模型呢?他們開發(fā)了Pass@k訓(xùn)練方法,這就像改變?cè)u(píng)分規(guī)則,不再只看學(xué)生的第一次答案,而是給學(xué)生k次機(jī)會(huì),只要其中任何一次答對(duì)就給予獎(jiǎng)勵(lì)。
這種訓(xùn)練方法的核心理念可以用一個(gè)簡(jiǎn)單例子來理解。假設(shè)你在教一個(gè)學(xué)生解數(shù)學(xué)題,傳統(tǒng)方法是讓他只能提交一個(gè)答案,對(duì)錯(cuò)立判;而新方法是讓他可以提交多個(gè)不同的解答思路,只要其中一個(gè)正確就給予正面反饋。這樣學(xué)生就被鼓勵(lì)去探索多種可能性,而不是死守一種方法。
研究團(tuán)隊(duì)在實(shí)施這個(gè)想法時(shí)遇到了技術(shù)挑戰(zhàn)。最初的實(shí)現(xiàn)方法需要大量的計(jì)算資源,就像需要為每組學(xué)生配備很多老師來評(píng)改作業(yè)一樣。為了解決這個(gè)問題,他們開發(fā)了兩種改進(jìn)方案。
第一種改進(jìn)叫做"bootstrap采樣",就像從大量作業(yè)中隨機(jī)抽取一些來組成評(píng)分組,這樣可以減少工作量但保持評(píng)分的公正性。第二種改進(jìn)更加精妙,他們通過數(shù)學(xué)推導(dǎo)找到了一個(gè)解析解,就像發(fā)現(xiàn)了一個(gè)萬能公式,可以直接計(jì)算出最優(yōu)的訓(xùn)練信號(hào),完全避免了復(fù)雜的隨機(jī)抽樣過程。
實(shí)驗(yàn)結(jié)果令人印象深刻。研究團(tuán)隊(duì)在多個(gè)任務(wù)上測(cè)試了他們的方法,包括迷宮尋路、數(shù)學(xué)推理、邏輯謎題等。結(jié)果顯示,使用Pass@k訓(xùn)練的模型不僅在Pass@k指標(biāo)上表現(xiàn)更好,令人驚喜的是,它們?cè)趥鹘y(tǒng)的Pass@1指標(biāo)上也獲得了提升。這就好比學(xué)生通過多樣化練習(xí)不僅提高了靈活性,連單次答題的準(zhǔn)確率也隨之增長(zhǎng)。
更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)經(jīng)過Pass@k訓(xùn)練的模型展現(xiàn)出了更強(qiáng)的探索能力。他們通過分析模型輸出的多樣性和策略分布的熵值發(fā)現(xiàn),這些模型在面對(duì)不確定的問題時(shí)會(huì)產(chǎn)生更加多樣化的解答嘗試,而不是重復(fù)生成相似的答案。這種行為模式正是解決復(fù)雜問題所需要的。
研究還揭示了一個(gè)深刻的認(rèn)識(shí):探索和利用并不是對(duì)立的關(guān)系,而是可以相互促進(jìn)的。Pass@k訓(xùn)練鼓勵(lì)模型探索多種解題路徑,這種探索經(jīng)驗(yàn)反過來提升了模型選擇最佳答案的能力。這就像學(xué)生通過嘗試多種解題方法,不僅擴(kuò)大了知識(shí)面,還提高了選擇最優(yōu)解法的判斷力。
在實(shí)際應(yīng)用中,研究團(tuán)隊(duì)展示了Pass@k訓(xùn)練的強(qiáng)大效果。經(jīng)過訓(xùn)練的70億參數(shù)模型在某些任務(wù)上的表現(xiàn)甚至超越了GPT-4o和Claude-3.7這樣的大型商業(yè)模型。這個(gè)結(jié)果特別令人振奮,因?yàn)樗砻魍ㄟ^改進(jìn)訓(xùn)練方法,相對(duì)較小的模型也能達(dá)到頂尖水平。
研究團(tuán)隊(duì)還進(jìn)行了深入的理論分析,探討了為什么Pass@k訓(xùn)練如此有效。他們發(fā)現(xiàn),傳統(tǒng)的Pass@1訓(xùn)練傾向于在中等難度的問題上投入最多精力,而Pass@k訓(xùn)練更加關(guān)注困難問題的解決。這種差異就像傳統(tǒng)教學(xué)方法讓學(xué)生重復(fù)練習(xí)已經(jīng)掌握的內(nèi)容,而新方法鼓勵(lì)學(xué)生挑戰(zhàn)更高難度的題目。
通過分析訓(xùn)練過程中的優(yōu)勢(shì)函數(shù)曲線,研究者發(fā)現(xiàn)Pass@k訓(xùn)練有兩個(gè)關(guān)鍵特征:首先,它將優(yōu)化重點(diǎn)放在了更困難的問題上;其次,當(dāng)問題變得容易時(shí),它會(huì)自動(dòng)減少優(yōu)化強(qiáng)度,避免過度擬合。這種自適應(yīng)的特性使得模型能夠持續(xù)學(xué)習(xí)而不會(huì)陷入局部最優(yōu)。
基于這些理論洞察,研究團(tuán)隊(duì)進(jìn)一步探索了"隱式獎(jiǎng)勵(lì)設(shè)計(jì)"的概念。他們意識(shí)到Pass@k訓(xùn)練本質(zhì)上是在直接設(shè)計(jì)優(yōu)勢(shì)函數(shù),這為未來的強(qiáng)化學(xué)習(xí)研究開辟了新的方向。他們嘗試了幾種變體方法,比如"超越Pass@k訓(xùn)練"和"組合訓(xùn)練",這些方法在特定場(chǎng)景下展現(xiàn)出了更好的效果。
研究的泛化能力也得到了充分驗(yàn)證。無論是7B還是32B參數(shù)的模型,無論是稠密模型還是專家混合模型,無論是純文本任務(wù)還是多模態(tài)任務(wù),Pass@k訓(xùn)練都展現(xiàn)出了一致的改進(jìn)效果。這種廣泛的適用性表明該方法捕捉到了強(qiáng)化學(xué)習(xí)訓(xùn)練的某種本質(zhì)規(guī)律。
特別值得注意的是,研究團(tuán)隊(duì)發(fā)現(xiàn)Pass@k訓(xùn)練的收益可以有效轉(zhuǎn)移到Pass@1性能上。他們采用了一種"先Pass@k訓(xùn)練,再Pass@1訓(xùn)練"的兩階段策略,結(jié)果顯示這種組合方法能夠顯著提升模型的單次答題準(zhǔn)確率。這就像學(xué)生先通過多樣化練習(xí)開闊思路,然后再通過精準(zhǔn)訓(xùn)練提高一次性答對(duì)的能力。
在魯棒性測(cè)試中,研究團(tuán)隊(duì)驗(yàn)證了方法對(duì)于不同k值的穩(wěn)定性。他們發(fā)現(xiàn),雖然更大的k值會(huì)帶來一定的訓(xùn)練效率下降,但這個(gè)問題可以通過適當(dāng)調(diào)整學(xué)習(xí)率來解決。這種靈活性使得研究人員可以根據(jù)具體需求選擇合適的k值。
研究還將Pass@k訓(xùn)練與其他探索增強(qiáng)方法進(jìn)行了比較,包括噪聲獎(jiǎng)勵(lì)和熵正則化。結(jié)果表明,簡(jiǎn)單地向獎(jiǎng)勵(lì)中添加噪聲并不能有效改善探索,而熵正則化雖然有一定效果但容易引入不穩(wěn)定性。相比之下,Pass@k訓(xùn)練通過結(jié)構(gòu)化的方式鼓勵(lì)探索,既有效又穩(wěn)定。
從更廣闊的視角看,這項(xiàng)研究為人工智能的訓(xùn)練方法論貢獻(xiàn)了重要洞察。它表明,評(píng)估指標(biāo)和訓(xùn)練目標(biāo)之間的一致性對(duì)于獲得最佳性能至關(guān)重要。如果我們希望模型具備某種能力,最好的方法就是直接針對(duì)這種能力進(jìn)行訓(xùn)練,而不是依賴間接的代理目標(biāo)。
研究的實(shí)踐意義也很明顯。在當(dāng)前大語言模型競(jìng)爭(zhēng)激烈的環(huán)境下,如何用更少的資源訓(xùn)練出更強(qiáng)的模型是每個(gè)研究團(tuán)隊(duì)都關(guān)心的問題。Pass@k訓(xùn)練提供了一個(gè)簡(jiǎn)單而有效的解決方案,它不需要復(fù)雜的架構(gòu)改進(jìn)或大量的額外數(shù)據(jù),僅僅通過改變訓(xùn)練策略就能獲得顯著提升。
說到底,這項(xiàng)研究的核心價(jià)值在于重新思考了人工智能學(xué)習(xí)過程中探索與利用的關(guān)系。它告訴我們,鼓勵(lì)多樣性不僅不會(huì)損害性能,反而會(huì)促進(jìn)更深層次的理解和更強(qiáng)的問題解決能力。這個(gè)理念不僅適用于人工智能,對(duì)人類教育也有借鑒意義。歸根結(jié)底,無論是訓(xùn)練AI還是教育人類,保持探索精神和學(xué)習(xí)熱情都是通往卓越的必由之路。這項(xiàng)研究為我們提供了一個(gè)簡(jiǎn)單而強(qiáng)大的工具,讓AI模型能夠更好地平衡探索新知識(shí)和運(yùn)用已有知識(shí)之間的關(guān)系,最終實(shí)現(xiàn)更智能、更全面的問題解決能力。
Q&A
Q1:Pass@k訓(xùn)練方法的核心原理是什么?
A:Pass@k訓(xùn)練改變了傳統(tǒng)的評(píng)估方式,不再只看AI模型的第一次回答,而是給模型k次機(jī)會(huì)來回答同一個(gè)問題,只要其中一次答對(duì)就給予獎(jiǎng)勵(lì)。這就像給學(xué)生多次考試機(jī)會(huì),鼓勵(lì)他們嘗試不同的解題思路,從而提高探索能力和問題解決的多樣性。
Q2:這種訓(xùn)練方法會(huì)不會(huì)影響模型的準(zhǔn)確性?
A:實(shí)驗(yàn)結(jié)果顯示恰恰相反,Pass@k訓(xùn)練不僅提升了模型在Pass@k指標(biāo)上的表現(xiàn),還意外地改善了傳統(tǒng)Pass@1指標(biāo)的性能。這是因?yàn)槎鄻踊奶剿鬟^程反而提高了模型選擇最優(yōu)答案的能力,探索和利用實(shí)現(xiàn)了相互促進(jìn)。
Q3:Pass@k訓(xùn)練方法適用于哪些類型的AI模型?
A:研究驗(yàn)證了該方法具有廣泛的適用性,無論是7B還是32B參數(shù)的模型,無論是稠密模型還是專家混合模型,無論是處理純文本任務(wù)還是多模態(tài)任務(wù),Pass@k訓(xùn)練都展現(xiàn)出一致的改進(jìn)效果,表明它捕捉到了強(qiáng)化學(xué)習(xí)訓(xùn)練的本質(zhì)規(guī)律。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。