這項(xiàng)由浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院的呂尚克、吳林娟等研究人員以及SF Technology公司的李昊、蔣佩勝等專家共同完成的研究發(fā)表于2025年7月,論文全稱為《Hierarchical Budget Policy Optimization for Adaptive Reasoning》。有興趣深入了解的讀者可以通過(guò)GitHub項(xiàng)目頁(yè)面(https://github.com/zju-real/hbpo)或項(xiàng)目主頁(yè)(https://zju-real.github.io/hbpo)訪問(wèn)完整的研究資料和代碼。
現(xiàn)在的大型推理模型就像是一個(gè)過(guò)度認(rèn)真的學(xué)生,無(wú)論面對(duì)簡(jiǎn)單的加法題還是復(fù)雜的奧數(shù)題,都要寫滿好幾頁(yè)紙來(lái)展示自己的思考過(guò)程。即使是計(jì)算2+3這樣的基礎(chǔ)題目,這些AI模型也會(huì)生成數(shù)千個(gè)詞匯的推理鏈條,仿佛在解決世界級(jí)難題。這種"一刀切"的推理方式不僅浪費(fèi)了大量計(jì)算資源,也暴露了當(dāng)前AI系統(tǒng)的一個(gè)根本性缺陷:缺乏根據(jù)問(wèn)題復(fù)雜度調(diào)節(jié)思考深度的智慧。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:在某些情況下,較短的推理路徑實(shí)際上能夠獲得與冗長(zhǎng)推理相當(dāng)甚至更好的結(jié)果。比如,L1模型在GSM8K數(shù)學(xué)題上用1100個(gè)詞匯就能達(dá)到最佳表現(xiàn),但在奧林匹克競(jìng)賽題目上卻需要超過(guò)3000個(gè)詞匯。這種巨大的差異揭示了一個(gè)關(guān)鍵洞察:有效推理所需的計(jì)算資源本質(zhì)上是依賴于問(wèn)題特性的,然而現(xiàn)有模型卻采用統(tǒng)一的推理策略,完全忽視了任務(wù)復(fù)雜度的差異。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了分層預(yù)算策略優(yōu)化(HBPO)框架。這個(gè)框架的核心思想可以用一個(gè)生動(dòng)的比喻來(lái)理解:就像一個(gè)經(jīng)驗(yàn)豐富的醫(yī)生會(huì)根據(jù)病情輕重調(diào)整診斷時(shí)間和檢查深度一樣,HBPO讓AI模型學(xué)會(huì)根據(jù)問(wèn)題的難易程度分配相應(yīng)的"思考預(yù)算"。
一、傳統(tǒng)方法的困境:一鍋煮的思維模式
當(dāng)前的AI推理效率優(yōu)化方法主要分為兩大類,但都存在顯著的局限性。第一類是長(zhǎng)度控制方法,這些方法通過(guò)直接限制生成長(zhǎng)度來(lái)實(shí)現(xiàn)效率提升。比如L1方法會(huì)給模型下達(dá)明確指令"請(qǐng)?jiān)趎個(gè)詞匯內(nèi)回答問(wèn)題",并在訓(xùn)練中給予相應(yīng)的獎(jiǎng)勵(lì)。ThinkPrune方法則在訓(xùn)練過(guò)程中逐步收緊對(duì)模型推理空間的限制,而可擴(kuò)展思維鏈方法通過(guò)強(qiáng)制終止來(lái)執(zhí)行預(yù)算約束。
第二類是基于獎(jiǎng)勵(lì)的方法,這些方法將長(zhǎng)度懲罰納入訓(xùn)練目標(biāo)中。HAPO方法利用歷史感知優(yōu)化來(lái)追蹤最小充分推理長(zhǎng)度,而"需要時(shí)思考"方法則采用成對(duì)比較獎(jiǎng)勵(lì)來(lái)平衡質(zhì)量和簡(jiǎn)潔性。盡管這些方法在減少詞匯使用方面表現(xiàn)有效,但它們都有一個(gè)共同的致命缺陷:優(yōu)先考慮效率而犧牲準(zhǔn)確性,缺乏讓模型自主決定何時(shí)需要更長(zhǎng)或更短推理的機(jī)制。
更深層的問(wèn)題在于,長(zhǎng)度懲罰會(huì)引入系統(tǒng)性的訓(xùn)練偏差,損害推理能力。在標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)環(huán)境中,正確解答無(wú)論長(zhǎng)短都能獲得相等獎(jiǎng)勵(lì),這允許了無(wú)偏的探索。然而,長(zhǎng)度懲罰打破了這種平衡,一貫偏向較短的輸出,導(dǎo)致策略逐漸放棄長(zhǎng)推理策略。更嚴(yán)重的是,靜態(tài)效率約束無(wú)法捕捉推理復(fù)雜性的連續(xù)特性。即使是適應(yīng)性方法也依賴于粗糙的機(jī)制,比如二元的思考/不思考決策或固定的置信度閾值,這些都忽略了問(wèn)題特征與計(jì)算需求之間的微妙關(guān)系。
二、分層預(yù)算探索:智慧分配的藝術(shù)
HBPO的核心創(chuàng)新在于將探索空間劃分為多個(gè)預(yù)算受限的層次結(jié)構(gòu),每個(gè)層次都有不同的詞匯預(yù)算約束。這種設(shè)計(jì)就像是為AI建立了一個(gè)多層次的思考框架,類似于人類面對(duì)不同難度問(wèn)題時(shí)會(huì)自然調(diào)整思考深度的方式。
具體來(lái)說(shuō),當(dāng)面對(duì)一個(gè)查詢時(shí),系統(tǒng)會(huì)生成n個(gè)回答樣本,并將它們分配到k個(gè)子組中,每個(gè)子組都與特定的詞匯預(yù)算相關(guān)聯(lián)。研究團(tuán)隊(duì)通過(guò)在推理標(biāo)簽后嵌入預(yù)算特定的提示語(yǔ)來(lái)實(shí)現(xiàn)這一點(diǎn),比如"我將在bi個(gè)詞匯內(nèi)回答這個(gè)問(wèn)題"。預(yù)算值形成一個(gè)遞增序列,從緊湊推理(如512個(gè)詞匯)到擴(kuò)展推理(如2560個(gè)詞匯)。
這種分層結(jié)構(gòu)服務(wù)于兩個(gè)關(guān)鍵目的。首先,它防止了探索空間的坍塌,這是效率訓(xùn)練中的常見問(wèn)題,即模型放棄長(zhǎng)推理。通過(guò)保持獨(dú)立的探索空間,HBPO確保在整個(gè)訓(xùn)練過(guò)程中對(duì)不同推理長(zhǎng)度進(jìn)行采樣。其次,它使結(jié)構(gòu)化的比較學(xué)習(xí)成為可能:模型通過(guò)對(duì)比不同預(yù)算級(jí)別的表現(xiàn)來(lái)發(fā)現(xiàn)每個(gè)問(wèn)題的合適計(jì)算量,而不是依賴全局優(yōu)化。
三、預(yù)算感知獎(jiǎng)勵(lì)機(jī)制:精準(zhǔn)激勵(lì)的智慧
HBPO的有效性關(guān)鍵在于巧妙的獎(jiǎng)勵(lì)設(shè)計(jì)。現(xiàn)有方法要么使用統(tǒng)一獎(jiǎng)勵(lì)(支持公平探索但缺乏效率激勵(lì)),要么應(yīng)用全局長(zhǎng)度懲罰(提高效率但以推理能力為代價(jià))。HBPO通過(guò)分段獎(jiǎng)勵(lì)函數(shù)解決了這一權(quán)衡,該函數(shù)整合了經(jīng)典獎(jiǎng)勵(lì)形式和余弦形獎(jiǎng)勵(lì)形式的優(yōu)勢(shì)。
在每個(gè)預(yù)算受限的子組內(nèi),獎(jiǎng)勵(lì)函數(shù)在指定預(yù)算內(nèi)保持單調(diào)非遞減,以維持探索靈活性。超出預(yù)算時(shí),則應(yīng)用余弦衰減和長(zhǎng)度偏差懲罰,鼓勵(lì)模型回到其指定的探索空間。這種設(shè)計(jì)在子組之間建立了差異化激勵(lì):較短預(yù)算偏好簡(jiǎn)潔解答并給予更高獎(jiǎng)勵(lì),而較長(zhǎng)預(yù)算為擴(kuò)展推理保留標(biāo)準(zhǔn)獎(jiǎng)勵(lì),實(shí)現(xiàn)了與問(wèn)題復(fù)雜性一致的適應(yīng)性資源分配。
更為重要的是,分層結(jié)構(gòu)自然地在預(yù)算之間誘導(dǎo)了獎(jiǎng)勵(lì)差異。對(duì)于固定的生成長(zhǎng)度,不同的預(yù)算分配會(huì)根據(jù)獎(jiǎng)勵(lì)函數(shù)產(chǎn)生不同的獎(jiǎng)勵(lì),這創(chuàng)造了與問(wèn)題復(fù)雜性一致的系統(tǒng)性偏好。當(dāng)生成長(zhǎng)度較短時(shí),所有預(yù)算都由相同函數(shù)確定獎(jiǎng)勵(lì),較小預(yù)算由于余弦函數(shù)在該區(qū)間的單調(diào)遞減特性而獲得更高獎(jiǎng)勵(lì),這種對(duì)短回答中較小預(yù)算的偏好鼓勵(lì)了簡(jiǎn)單問(wèn)題的效率。
相反,當(dāng)生成長(zhǎng)度較長(zhǎng)時(shí),較大預(yù)算通過(guò)較小的偏差懲罰提供更高獎(jiǎng)勵(lì),保持了模型在必要時(shí)進(jìn)行擴(kuò)展推理的能力。隨著生成長(zhǎng)度從最小預(yù)算以下增加到最大預(yù)算以上,對(duì)應(yīng)不同預(yù)算的獎(jiǎng)勵(lì)函數(shù)會(huì)發(fā)生相對(duì)偏好的轉(zhuǎn)換。獎(jiǎng)勵(lì)曲線之間的交點(diǎn)代表復(fù)雜性閾值,最優(yōu)預(yù)算選擇在此發(fā)生轉(zhuǎn)換。通過(guò)這些差異化獎(jiǎng)勵(lì)的比較優(yōu)勢(shì),模型學(xué)會(huì)了在沒(méi)有明確復(fù)雜性標(biāo)簽或外部指導(dǎo)的情況下,將計(jì)算資源與問(wèn)題需求相匹配。
四、訓(xùn)練流程:雙重優(yōu)勢(shì)的協(xié)同作用
HBPO擴(kuò)展了標(biāo)準(zhǔn)的群體相對(duì)策略優(yōu)化框架,將分層采樣和預(yù)算感知優(yōu)勢(shì)計(jì)算納入策略優(yōu)化過(guò)程。在每次訓(xùn)練迭代中,模型為給定查詢生成n個(gè)響應(yīng),這些響應(yīng)根據(jù)其關(guān)聯(lián)的預(yù)算約束自動(dòng)分配到k個(gè)子組中。每個(gè)響應(yīng)都通過(guò)嵌入的預(yù)算提示語(yǔ)生成,如"我將在bi個(gè)詞匯內(nèi)回答問(wèn)題",其中bi代表預(yù)定的預(yù)算級(jí)別。
優(yōu)勢(shì)計(jì)算利用分層結(jié)構(gòu)來(lái)實(shí)現(xiàn)預(yù)算內(nèi)的高效推理和跨問(wèn)題的適應(yīng)性預(yù)算選擇。研究團(tuán)隊(duì)將優(yōu)勢(shì)分解為兩個(gè)互補(bǔ)組件,指導(dǎo)學(xué)習(xí)的不同方面。子組內(nèi)優(yōu)勢(shì)衡量響應(yīng)相對(duì)于其預(yù)算期望的表現(xiàn)如何,它等于子組內(nèi)平均獎(jiǎng)勵(lì)減去使用預(yù)算特定基線計(jì)算的預(yù)算特定基線。這一項(xiàng)鼓勵(lì)在每個(gè)預(yù)算約束內(nèi)的優(yōu)化,教導(dǎo)模型在給定特定詞匯分配的情況下高效推理。
子組間優(yōu)勢(shì)則實(shí)現(xiàn)跨不同預(yù)算的比較學(xué)習(xí),它將每個(gè)響應(yīng)與全局平均值進(jìn)行比較,創(chuàng)造了預(yù)算選擇的自然偏好。來(lái)自較短預(yù)算且獲得高獎(jiǎng)勵(lì)的響應(yīng)會(huì)獲得正優(yōu)勢(shì),而不必要的長(zhǎng)響應(yīng)則獲得負(fù)優(yōu)勢(shì),教導(dǎo)模型將計(jì)算努力與問(wèn)題需求相匹配。
最終優(yōu)勢(shì)將兩個(gè)組件與標(biāo)準(zhǔn)化結(jié)合以確保穩(wěn)定訓(xùn)練。策略優(yōu)化采用群體相對(duì)策略優(yōu)化的截?cái)嗄繕?biāo)來(lái)防止破壞性更新,分層優(yōu)勢(shì)自然地流經(jīng)這一目標(biāo),使模型能夠在不需要單獨(dú)優(yōu)化目標(biāo)或復(fù)雜多階段訓(xùn)練程序的情況下,改善預(yù)算內(nèi)效率和跨預(yù)算選擇。
五、實(shí)驗(yàn)驗(yàn)證:理論照進(jìn)現(xiàn)實(shí)
研究團(tuán)隊(duì)在四個(gè)數(shù)學(xué)推理基準(zhǔn)上進(jìn)行了全面評(píng)估,使用DeepScaleR數(shù)據(jù)集進(jìn)行訓(xùn)練,該數(shù)據(jù)集包含來(lái)自AIME、AMC、Omni-Math和STILL的40000個(gè)高質(zhì)量數(shù)學(xué)問(wèn)題。他們采用了兩個(gè)基礎(chǔ)模型:DeepSeek-R1-Distill-Qwen-1.5B和DeepScaleR-Preview-1.5B。
實(shí)驗(yàn)結(jié)果令人印象深刻。在自然推理?xiàng)l件下,應(yīng)用于DeepSeek-R1-Distill-Qwen-1.5B的HBPO將平均準(zhǔn)確性從56.3%提高到59.4%,同時(shí)將詞匯使用減少了60.6%(從7921降至3120)。在更強(qiáng)的DeepScaleR模型上,HBPO在保持基線63.7%準(zhǔn)確性的同時(shí)實(shí)現(xiàn)了50.2%的詞匯減少(從4744降至2364)。
特別值得注意的是,HBPO在AIME25上實(shí)現(xiàn)了31.1%的準(zhǔn)確性,超越了DeepScaleR基線和所有效率方法。這種在最具挑戰(zhàn)性基準(zhǔn)上的改進(jìn),同時(shí)使用更少詞匯,證明分層探索不僅防止了能力退化,還可以通過(guò)消除計(jì)算冗余來(lái)增強(qiáng)推理。
效率提示設(shè)置使分層訓(xùn)練的性能增益更加明顯。當(dāng)強(qiáng)制最小化詞匯時(shí),基線模型遭受災(zāi)難性退化(超過(guò)10%的準(zhǔn)確性下降),而HBPO保持了穩(wěn)健性能。應(yīng)用于DeepScaleR的HBPO以僅947個(gè)詞匯實(shí)現(xiàn)了59.4%的平均準(zhǔn)確性,匹配L1-Max(1024)的準(zhǔn)確性,同時(shí)使用32%更少的詞匯。這表明訓(xùn)練能夠在整個(gè)效率譜上進(jìn)行有效探索。
六、適應(yīng)性行為的涌現(xiàn):智能資源配置
HBPO與現(xiàn)有方法的區(qū)別在于其詞匯分配模式中體現(xiàn)的真正適應(yīng)性行為。L1-Max在不同問(wèn)題難度間表現(xiàn)出異常統(tǒng)一的行為,在MATH500上使用3260個(gè)詞匯,在AIME25上使用3163個(gè)詞匯,盡管這些基準(zhǔn)之間存在顯著的復(fù)雜性差距。
相比之下,HBPO展現(xiàn)了真正的問(wèn)題敏感性,詞匯使用從MATH500的1818個(gè)變化到AIME25的3988個(gè)。這種2.2倍的變化直接對(duì)應(yīng)于問(wèn)題復(fù)雜性,并從差異化獎(jiǎng)勵(lì)機(jī)制中自然涌現(xiàn),該機(jī)制為不同預(yù)算級(jí)別創(chuàng)建了不同的優(yōu)化景觀。通過(guò)這些景觀的比較優(yōu)勢(shì),模型學(xué)會(huì)了在沒(méi)有外部指導(dǎo)的情況下評(píng)估問(wèn)題需求。
分層結(jié)構(gòu)分析揭示了最優(yōu)配置在組內(nèi)學(xué)習(xí)和組間探索之間取得平衡。單預(yù)算訓(xùn)練僅實(shí)現(xiàn)59.8%的平均準(zhǔn)確性,展示了統(tǒng)一探索的局限性。性能隨著雙預(yù)算提升至61.7%,通過(guò)4預(yù)算配置達(dá)到最優(yōu)的63.7%。進(jìn)一步增加預(yù)算數(shù)量至6或8會(huì)輕微降低性能0.8%,因?yàn)槊總€(gè)子組的樣本更少會(huì)削弱組內(nèi)學(xué)習(xí)信號(hào)。這揭示了一個(gè)基本權(quán)衡:探索多樣性必須與統(tǒng)計(jì)可靠性平衡以實(shí)現(xiàn)有效的策略學(xué)習(xí)。
七、推理模式分析:深層行為洞察
為了理解模型如何提高效率,研究團(tuán)隊(duì)通過(guò)兩個(gè)視角分析了推理模式:探索性思考與直接解答生成的比例,以及表明深思熟慮過(guò)程的反思關(guān)鍵詞頻率。分析結(jié)果揭示了不同方法之間的顯著差異。
HBPO表現(xiàn)出對(duì)問(wèn)題難度的清晰適應(yīng)。思考內(nèi)容比例從GSM8K的81%單調(diào)增加到AIME25的89%,而反思關(guān)鍵詞(等等、或者、但是、記住、檢查和驗(yàn)證)從每題6個(gè)增加到30個(gè)。這種模式支持了差異化獎(jiǎng)勵(lì)設(shè)計(jì),顯示模型學(xué)會(huì)了識(shí)別何時(shí)更長(zhǎng)推理能增加價(jià)值。
L1-Max通過(guò)統(tǒng)一長(zhǎng)度控制提高效率,在三個(gè)數(shù)據(jù)集上保持幾乎恒定的思考比例(90-92%)和關(guān)鍵詞頻率(29-32)。這種剛性揭示了機(jī)械優(yōu)化而非智能適應(yīng)。AutoThink嘗試適應(yīng)性推理但表現(xiàn)出問(wèn)題模式:在簡(jiǎn)單問(wèn)題上過(guò)度思考(GSM8K上86%)以及對(duì)復(fù)雜問(wèn)題調(diào)整不足。此外,AutoThink在MATH500和奧林匹克基準(zhǔn)的解答段落中平均分別表現(xiàn)出1.7和1.5個(gè)推理相關(guān)關(guān)鍵詞,表明推理過(guò)程泄漏到應(yīng)該是直接回答的部分。
效率提示設(shè)置為適應(yīng)性能力提供了進(jìn)一步洞察。當(dāng)被指示最小化詞匯時(shí),HBPO表現(xiàn)出漸進(jìn)的關(guān)鍵詞縮放(GSM8K上1.8到AIME25上13.1),證明模型已經(jīng)內(nèi)化了問(wèn)題復(fù)雜性關(guān)系。L1-Max在明確提示"思考1024個(gè)詞匯"時(shí)顯示最小變化(10.6到13.5),揭示了即使在明確效率指示下也無(wú)法區(qū)分問(wèn)題需求的能力。這些模式確認(rèn)分層訓(xùn)練能夠?qū)崿F(xiàn)真正的適應(yīng)性推理而非統(tǒng)一優(yōu)化。
八、泛化能力驗(yàn)證:超越數(shù)學(xué)領(lǐng)域
為了評(píng)估分層探索是否能夠?qū)崿F(xiàn)通用效率原則而非任務(wù)特定優(yōu)化,研究團(tuán)隊(duì)在GPQA-Diamond上進(jìn)行了評(píng)估,這是一個(gè)超出訓(xùn)練領(lǐng)域的挑戰(zhàn)性科學(xué)推理基準(zhǔn)。結(jié)果顯示HBPO保持了最高準(zhǔn)確性(34.72%),同時(shí)相比基線減少了55%的詞匯使用。這種在分布外任務(wù)上的性能證明分層訓(xùn)練教授了跨推理域轉(zhuǎn)移的計(jì)算資源分配基本原則。
訓(xùn)練動(dòng)態(tài)分析進(jìn)一步驗(yàn)證了分層結(jié)構(gòu)如何維持探索空間。HBPO與單預(yù)算基線的生成動(dòng)態(tài)對(duì)比顯示,雖然單預(yù)算訓(xùn)練收斂到更窄的響應(yīng)范圍,HBPO表現(xiàn)出不同的動(dòng)態(tài)。平均生成長(zhǎng)度穩(wěn)定在1400個(gè)詞匯左右,伴隨更寬但受控的方差,這是其分層結(jié)構(gòu)的直接結(jié)果。這種持續(xù)的變異性至關(guān)重要,因?yàn)樗东@了探索多樣性的保持,這對(duì)防止推理能力退化至關(guān)重要。
九、理論貢獻(xiàn)與實(shí)踐意義
HBPO的成功揭示了幾個(gè)重要的理論洞察。首先,它證明了推理效率和能力并非固有沖突,可以通過(guò)適當(dāng)結(jié)構(gòu)的分層訓(xùn)練同時(shí)優(yōu)化,該訓(xùn)練保持探索多樣性。傳統(tǒng)方法的根本問(wèn)題在于將效率視為統(tǒng)一約束,而HBPO認(rèn)識(shí)到最優(yōu)推理長(zhǎng)度在問(wèn)題間顯著變化,需要結(jié)構(gòu)化探索來(lái)發(fā)現(xiàn)這些自然對(duì)應(yīng)關(guān)系。
其次,研究揭示了全局長(zhǎng)度懲罰在效率導(dǎo)向訓(xùn)練中系統(tǒng)性地使模型偏離必要的長(zhǎng)推理路徑,導(dǎo)致探索空間坍塌。通過(guò)分層預(yù)算探索,HBPO維持了對(duì)不同推理長(zhǎng)度的暴露,防止了這種有害偏差,同時(shí)仍然鼓勵(lì)在適當(dāng)情況下的效率。
第三,差異化獎(jiǎng)勵(lì)機(jī)制的有效性證明了比較學(xué)習(xí)在策略優(yōu)化中的力量。通過(guò)在預(yù)算級(jí)別間創(chuàng)建系統(tǒng)性偏好,模型自然學(xué)會(huì)了將計(jì)算資源與問(wèn)題特征對(duì)齊,無(wú)需明確的復(fù)雜性標(biāo)簽或外部模塊。
從實(shí)踐角度看,HBPO為大規(guī)模推理模型的部署提供了直接價(jià)值。在計(jì)算成本是主要考慮因素的環(huán)境中,能夠根據(jù)問(wèn)題復(fù)雜性適應(yīng)性地分配資源的模型可以顯著降低運(yùn)營(yíng)開支,同時(shí)保持或甚至提高性能。這對(duì)于需要處理大量不同難度查詢的服務(wù)提供商特別有價(jià)值。
十、局限性與未來(lái)方向
盡管HBPO取得了顯著成功,但研究也存在一些局限性。首先,當(dāng)前實(shí)現(xiàn)專注于數(shù)學(xué)推理任務(wù),雖然GPQA-Diamond實(shí)驗(yàn)顯示了一些泛化能力,但需要更廣泛的跨域評(píng)估來(lái)充分驗(yàn)證該方法的通用性。不同推理域可能需要不同的預(yù)算配置或獎(jiǎng)勵(lì)函數(shù)調(diào)整。
其次,預(yù)算級(jí)別的選擇(512、1024、2048、2560詞匯)雖然在實(shí)驗(yàn)中有效,但可能不是所有任務(wù)或模型的最優(yōu)選擇。自動(dòng)確定最優(yōu)預(yù)算配置的方法將增強(qiáng)該框架的實(shí)用性。此外,當(dāng)前方法假設(shè)詞匯長(zhǎng)度是推理復(fù)雜性的合理代理,但其他度量(如推理步驟數(shù)或概念復(fù)雜性)可能在某些域中更合適。
訓(xùn)練過(guò)程的計(jì)算開銷也是一個(gè)考慮因素。生成多個(gè)預(yù)算級(jí)別的樣本增加了訓(xùn)練時(shí)間,雖然這通過(guò)推理時(shí)的效率獲得得到補(bǔ)償。研究更高效的訓(xùn)練變體,如漸進(jìn)式預(yù)算擴(kuò)展或自適應(yīng)采樣策略,可能進(jìn)一步改善該權(quán)衡。
未來(lái)的研究方向包括探索更復(fù)雜的分層結(jié)構(gòu),如基于內(nèi)容復(fù)雜性而非固定間隔的動(dòng)態(tài)預(yù)算分配。將HBPO與其他效率技術(shù)(如早期停止或選擇性推理)結(jié)合也可能產(chǎn)生協(xié)同效應(yīng)。最終,將這些原則擴(kuò)展到多模態(tài)推理任務(wù),其中不同模態(tài)可能需要不同的計(jì)算預(yù)算,代表了一個(gè)特別有前景的研究方向。
說(shuō)到底,這項(xiàng)研究展示了一個(gè)令人興奮的可能性:AI系統(tǒng)不需要在智能和效率之間做出痛苦的選擇。就像一個(gè)經(jīng)驗(yàn)豐富的專家知道何時(shí)需要深入思考、何時(shí)可以快速回答一樣,HBPO讓AI模型學(xué)會(huì)了這種微妙的判斷藝術(shù)。在AI系統(tǒng)日益成為我們?nèi)粘I詈凸ぷ骰锇榈臅r(shí)代,這種"因題制宜"的智慧顯得尤為珍貴。它不僅能為企業(yè)節(jié)省大量計(jì)算成本,更重要的是為AI的進(jìn)一步發(fā)展指明了一個(gè)新方向:真正的智能應(yīng)該是適應(yīng)性的,能夠根據(jù)問(wèn)題的實(shí)際需要靈活調(diào)整自己的思考深度和資源消耗。這項(xiàng)研究的意義遠(yuǎn)不止于提高效率,它實(shí)際上是在教AI如何更像人類一樣進(jìn)行智慧的推理。
Q&A
Q1:什么是分層預(yù)算策略優(yōu)化(HBPO)?它是如何工作的? A:HBPO是一種讓AI模型學(xué)會(huì)根據(jù)問(wèn)題難度調(diào)整思考深度的新方法。它就像給AI建立了一個(gè)多層次的思考框架,將不同的"思考預(yù)算"(比如512、1024、2048、2560個(gè)詞匯)分配給不同復(fù)雜度的問(wèn)題。通過(guò)這種方式,AI可以為簡(jiǎn)單問(wèn)題使用較少詞匯快速回答,為復(fù)雜問(wèn)題使用更多詞匯深入思考,從而實(shí)現(xiàn)智能的資源分配。
Q2:HBPO相比傳統(tǒng)方法有什么優(yōu)勢(shì)?能同時(shí)提高效率和準(zhǔn)確性嗎? A:是的,HBPO的最大優(yōu)勢(shì)就是能同時(shí)提高效率和準(zhǔn)確性。傳統(tǒng)方法通常要在兩者間做選擇:要么犧牲準(zhǔn)確性換取效率,要么保持準(zhǔn)確性但浪費(fèi)計(jì)算資源。HBPO通過(guò)讓模型學(xué)會(huì)"因題制宜",在保持甚至提高準(zhǔn)確性的同時(shí),將詞匯使用減少了50-60%。實(shí)驗(yàn)顯示它在最困難的AIME25數(shù)學(xué)競(jìng)賽題上準(zhǔn)確率達(dá)到31.1%,超過(guò)了其他所有方法。
Q3:這項(xiàng)技術(shù)只能用于數(shù)學(xué)推理嗎?普通人什么時(shí)候能用上? A:雖然這項(xiàng)研究主要在數(shù)學(xué)推理上驗(yàn)證,但在科學(xué)推理基準(zhǔn)GPQA-Diamond上的測(cè)試顯示它具有跨領(lǐng)域的泛化能力。這意味著該技術(shù)原理可以應(yīng)用到其他需要推理的AI任務(wù)中。不過(guò)目前還處于研究階段,普通用戶要使用這種技術(shù)可能還需要等待一段時(shí)間,直到它被集成到商業(yè)AI產(chǎn)品中。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。