卡內(nèi)基梅隆大學(xué)的研究團(tuán)隊(duì)Ranajoy Sadhukhan、Zhuoming Chen(共同第一作者)、Haizhong Zheng、Yang Zhou、Emma Strubell和Beidi Chen在2025年6月5日發(fā)表了一項(xiàng)突破性研究,題為《Kinetics: Rethinking Test-Time Scaling Laws》。這項(xiàng)研究對(duì)大語(yǔ)言模型(LLM)在測(cè)試階段的資源分配策略提出了全新見解,有興趣深入了解的讀者可訪問他們的項(xiàng)目網(wǎng)站:https://infini-ai-lab.github.io/Kinetics。
想象一下,你有一輛賽車(大語(yǔ)言模型),希望它跑得又快又好。傳統(tǒng)觀點(diǎn)認(rèn)為,小型賽車只要加足夠的油(計(jì)算資源)也能跑得和大車一樣好。但這項(xiàng)研究發(fā)現(xiàn),事實(shí)并非如此簡(jiǎn)單。
研究團(tuán)隊(duì)發(fā)現(xiàn),之前人們對(duì)小型語(yǔ)言模型的效率評(píng)估存在嚴(yán)重高估。以往的研究主要關(guān)注計(jì)算量(浮點(diǎn)運(yùn)算,即FLOPs),忽略了內(nèi)存訪問這一關(guān)鍵瓶頸。就像一輛車不僅需要油(計(jì)算能力),還需要足夠?qū)挼牡缆罚▋?nèi)存帶寬)。在實(shí)際應(yīng)用中,特別是當(dāng)模型需要生成長(zhǎng)篇推理或多次嘗試解題時(shí),內(nèi)存訪問常常成為真正的限制因素。
團(tuán)隊(duì)通過分析從0.6B到32B參數(shù)規(guī)模的多種模型,提出了一個(gè)名為"Kinetics"的全新縮放定律。這個(gè)定律不僅考慮計(jì)算量,還將內(nèi)存訪問成本納入考量,更全面地指導(dǎo)資源分配。就像物理學(xué)中的動(dòng)能公式(Ek = 1/2mv?)一樣,Kinetics揭示了測(cè)試階段資源分配的本質(zhì)規(guī)律。
這一新定律得出了一個(gè)令人驚訝的結(jié)論:測(cè)試階段的計(jì)算資源在超過某個(gè)參數(shù)閾值(實(shí)證研究中約為14B)的模型上使用比在小型模型上更有效。這是因?yàn)樵跍y(cè)試階段,真正的成本瓶頸不是模型參數(shù)數(shù)量,而是注意力機(jī)制(attention)的計(jì)算和內(nèi)存訪問。
受此啟發(fā),研究團(tuán)隊(duì)提出了一個(gè)基于稀疏注意力(sparse attention)的全新縮放范式。這種方法通過降低每個(gè)生成token的成本,使模型能在相同資源預(yù)算下生成更長(zhǎng)的文本或并行處理更多樣本。就像讓賽車只關(guān)注真正重要的道路信息,而不是浪費(fèi)精力觀察所有細(xì)節(jié)。
實(shí)驗(yàn)結(jié)果令人震驚:在美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME)問題解決任務(wù)上,采用稀疏注意力的模型在低成本場(chǎng)景下準(zhǔn)確率提高了60多個(gè)百分點(diǎn),在高成本場(chǎng)景下也有超過5個(gè)百分點(diǎn)的提升。這一優(yōu)勢(shì)在所有測(cè)試的模型上都得到了驗(yàn)證,包括最先進(jìn)的混合專家模型(MoEs)。
一、為什么我們需要重新思考測(cè)試階段的資源分配?
近年來(lái),大語(yǔ)言模型展現(xiàn)出驚人的推理能力,特別是在復(fù)雜任務(wù)解決上取得了巨大突破。這些突破大多依賴于測(cè)試階段的特殊策略,比如長(zhǎng)鏈思維(Long-CoT)和多次嘗試選最佳(Best-of-N)。想象你在解一道難題,不僅要寫下詳細(xì)的思考過程(長(zhǎng)鏈思維),還可能嘗試多種不同方法(多次嘗試),最后選擇最好的那個(gè)答案。
然而,這些策略帶來(lái)了巨大的推理成本。就像一輛賽車參加比賽,不僅要考慮油耗(計(jì)算能力),還要考慮輪胎磨損和空氣阻力(內(nèi)存訪問)。之前的研究主要關(guān)注"油耗"(浮點(diǎn)運(yùn)算),卻忽略了"輪胎磨損"(內(nèi)存訪問成本),導(dǎo)致資源分配決策出現(xiàn)偏差。
研究團(tuán)隊(duì)通過詳細(xì)分析發(fā)現(xiàn),在長(zhǎng)鏈思維和多次嘗試的場(chǎng)景下,注意力機(jī)制的計(jì)算和內(nèi)存訪問成本遠(yuǎn)遠(yuǎn)超過模型參數(shù)的計(jì)算成本,比例高達(dá)10-1000倍!這就像賽車比賽中,輪胎磨損比油耗更容易成為限制因素。
以Qwen3系列模型在AIME24數(shù)學(xué)競(jìng)賽上的表現(xiàn)為例,按照傳統(tǒng)的計(jì)算量(FLOPs)評(píng)估方法,小型模型通過生成更長(zhǎng)的推理或更多次嘗試,看起來(lái)能達(dá)到與大模型相似的性能。但當(dāng)把內(nèi)存訪問成本也考慮進(jìn)去后,實(shí)際情況截然不同——大模型的效率明顯更高,資源節(jié)省高達(dá)3倍!
二、Kinetics縮放定律:全面考慮計(jì)算與內(nèi)存訪問成本
想象你正在烹飪一道復(fù)雜菜肴。傳統(tǒng)觀點(diǎn)認(rèn)為,只要有足夠的烹飪時(shí)間(計(jì)算資源),一個(gè)小廚房(小模型)也能做出與大廚房(大模型)一樣好的菜。但實(shí)際上,廚房的操作空間(內(nèi)存帶寬)同樣至關(guān)重要,尤其是制作復(fù)雜菜肴時(shí)。
研究團(tuán)隊(duì)提出的Kinetics縮放定律,就像是一本考慮了廚房空間限制的烹飪指南。它綜合考慮了兩方面成本:
首先是計(jì)算成本,包括: - 模型參數(shù)計(jì)算:就像是按照菜譜步驟操作的時(shí)間 - 注意力機(jī)制計(jì)算:就像是不斷觀察和調(diào)整菜肴的時(shí)間
其次是內(nèi)存訪問成本,包括: - 模型參數(shù)訪問:就像是查閱菜譜的時(shí)間 - KV緩存訪問:就像是在廚房中取放各種食材和工具的時(shí)間
研究發(fā)現(xiàn),在生成長(zhǎng)文本時(shí),注意力機(jī)制相關(guān)的計(jì)算和內(nèi)存訪問成本成為主要瓶頸。具體來(lái)說,成本與生成長(zhǎng)度的平方成正比(就像動(dòng)能與速度的平方成正比)。這意味著生成兩倍長(zhǎng)度的文本,成本不是增加兩倍,而是四倍!
這一發(fā)現(xiàn)徹底改變了我們對(duì)資源分配的理解。以AIME24數(shù)學(xué)競(jìng)賽為例,團(tuán)隊(duì)發(fā)現(xiàn):
在長(zhǎng)鏈思維場(chǎng)景下,只有14B和32B這樣的大模型才真正受益于生成10K以上的長(zhǎng)文本。對(duì)于1.7B和4B等小模型,當(dāng)生成長(zhǎng)度低于5K時(shí),更明智的選擇是直接換用更大的模型。
在多次嘗試場(chǎng)景下,之前的理論認(rèn)為小模型多次嘗試是最經(jīng)濟(jì)的選擇。但Kinetics表明,使用14B模型并減少嘗試次數(shù)往往更有效率。研究還發(fā)現(xiàn)14B似乎是個(gè)臨界規(guī)模——小于這個(gè)規(guī)模的模型,資源最好用于增大模型;而達(dá)到或超過這個(gè)規(guī)模后,增加嘗試次數(shù)或生成更長(zhǎng)文本更為有效。
三、為什么小模型效率被高估?解密內(nèi)存與計(jì)算的不平衡
要理解為什么小模型效率被高估,我們需要深入兩個(gè)關(guān)鍵因素:
首先是KV內(nèi)存大小與模型參數(shù)的不成比例關(guān)系。想象你有不同大小的廚房(模型),按理說廚房越大,需要的儲(chǔ)物空間(KV緩存)也應(yīng)該越大。但實(shí)際上,小廚房往往需要相對(duì)更多的儲(chǔ)物空間。
以Qwen3系列為例,0.6B模型處理32K長(zhǎng)度的文本需要3.5GB的KV緩存,而模型本身只有1.2GB。相比之下,32B模型僅需要8GB的KV緩存。研究發(fā)現(xiàn),模型參數(shù)每增加一倍,KV緩存大小僅增加1.18倍左右。這一現(xiàn)象在OPT、Qwen2.5和LLaMA3等多個(gè)模型系列中都得到了驗(yàn)證。
其次是從線性到二次方的成本模型轉(zhuǎn)變。在傳統(tǒng)FLOPs計(jì)算下,生成8K長(zhǎng)度的文本用14B模型(通常不足以解決復(fù)雜任務(wù))的成本等同于用4B模型生成24K長(zhǎng)度(足以完成大多數(shù)任務(wù))。但在考慮KV緩存后,同樣成本下14B@8K只相當(dāng)于4B@9K。這個(gè)更嚴(yán)格的限制使得小模型很難僅通過增加生成長(zhǎng)度來(lái)彌補(bǔ)其能力不足。
通過詳細(xì)的等成本分析(Iso-Cost分析),研究團(tuán)隊(duì)發(fā)現(xiàn):在Kinetics模型下,成本隨生成長(zhǎng)度呈二次方增長(zhǎng),而KV緩存與模型參數(shù)次線性增長(zhǎng)。因此,當(dāng)總預(yù)算較低時(shí),增加模型規(guī)模比增加生成長(zhǎng)度更有效。相比之下,傳統(tǒng)基于FLOPs的模型會(huì)導(dǎo)致截然不同的結(jié)論。
四、稀疏注意力:測(cè)試階段縮放的關(guān)鍵突破
既然確定了注意力機(jī)制是測(cè)試階段的主要瓶頸,研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新方案:稀疏注意力。這就像是讓廚師只關(guān)注真正重要的食材和步驟,而不是平等對(duì)待所有細(xì)節(jié)。
在傳統(tǒng)注意力機(jī)制中,模型會(huì)考慮所有歷史token的信息,這會(huì)導(dǎo)致計(jì)算和內(nèi)存訪問成本隨文本長(zhǎng)度呈二次方增長(zhǎng)。稀疏注意力則只關(guān)注最相關(guān)的token,大幅降低成本。
研究團(tuán)隊(duì)提出了"Sparse Kinetics"縮放定律,探索了在稀疏注意力條件下的最佳資源分配策略。結(jié)果表明,在稀疏注意力下,計(jì)算資源應(yīng)該優(yōu)先用于測(cè)試階段策略(如增加生成長(zhǎng)度或嘗試次數(shù)),而不是減少稀疏度。隨著測(cè)試階段投入更多計(jì)算資源,更高的稀疏度變得越來(lái)越重要。
實(shí)驗(yàn)結(jié)果令人震驚:
在AIME24數(shù)學(xué)競(jìng)賽上,與傳統(tǒng)密集注意力相比,稀疏注意力模型在低成本場(chǎng)景下提高了高達(dá)60個(gè)百分點(diǎn)的問題解決率,在高成本場(chǎng)景下也保持了5個(gè)以上百分點(diǎn)的優(yōu)勢(shì)。從效率角度看,密集注意力模型需要超過10倍的計(jì)算資源才能達(dá)到相同的解題率。
研究還發(fā)現(xiàn),稀疏注意力使小模型重新變得有價(jià)值。相比傳統(tǒng)密集注意力,稀疏注意力顯著提高了0.6B、1.7B和4B等小型模型的效率,使它們能在更廣泛的場(chǎng)景下應(yīng)用。
更重要的是,研究團(tuán)隊(duì)發(fā)現(xiàn)KV預(yù)算與生成token之間存在明確的權(quán)衡關(guān)系。在Best-of-N場(chǎng)景下,每當(dāng)計(jì)算成本增加一倍,最佳KV預(yù)算僅增加1.18倍,而生成的token總數(shù)則增加1.74倍。這表明,增加生成更多token通常比擴(kuò)大KV緩存更有效。
五、從理論到實(shí)踐:實(shí)現(xiàn)稀疏注意力的塊稀疏方法
為了驗(yàn)證理論的實(shí)用性,研究團(tuán)隊(duì)實(shí)現(xiàn)了一個(gè)名為"塊稀疏注意力"(block top-k attention)的簡(jiǎn)單方法。理想的稀疏注意力(逐token選擇最相關(guān)的K個(gè)token)在理論上效果最佳,但在實(shí)際中計(jì)算成本過高。塊稀疏注意力通過選擇整塊相關(guān)token來(lái)平衡效率和效果。
塊稀疏注意力的工作原理有點(diǎn)像購(gòu)物時(shí)先選擇哪些商店值得逛,而不是逐個(gè)商品比較。它首先將歷史token分成多個(gè)塊,計(jì)算每個(gè)塊的平均表示,然后選擇最相關(guān)的K'個(gè)塊進(jìn)行注意力計(jì)算。這種方法利用了注意力模式的時(shí)間局部性,并且能與現(xiàn)有的分頁(yè)注意力技術(shù)無(wú)縫集成。
實(shí)驗(yàn)表明,塊稀疏注意力雖然不如理想的token級(jí)稀疏方法,但仍然表現(xiàn)出色:在低成本場(chǎng)景下提高了45個(gè)百分點(diǎn)的準(zhǔn)確率,并能以僅用傳統(tǒng)方法1/8.58的資源達(dá)到同等準(zhǔn)確率。更重要的是,它在實(shí)際硬件上取得了顯著加速——在H200 GPU上實(shí)現(xiàn)了2.2×到33.3×的吞吐量提升。
研究還比較了塊稀疏注意力與本地注意力(只關(guān)注鄰近token的固定稀疏模式)。雖然本地注意力在實(shí)現(xiàn)上更簡(jiǎn)單,但其性能明顯較差,除了在極低準(zhǔn)確率場(chǎng)景外,甚至無(wú)法超過密集注意力。
對(duì)于混合專家模型(如Qwen3-30B-A3B),稀疏注意力的優(yōu)勢(shì)更為明顯。這類模型通過激活部分參數(shù)降低計(jì)算成本,但注意力機(jī)制仍是主要瓶頸。實(shí)驗(yàn)表明,塊稀疏注意力能在低成本場(chǎng)景下提高42-53個(gè)百分點(diǎn)的解題率,在高成本場(chǎng)景下也保持約8個(gè)百分點(diǎn)的優(yōu)勢(shì)。
六、更廣闊的影響與未來(lái)展望
這項(xiàng)研究的意義遠(yuǎn)超出學(xué)術(shù)范疇。隨著大語(yǔ)言模型在各領(lǐng)域的應(yīng)用日益廣泛,如何高效分配計(jì)算資源變得至關(guān)重要。Kinetics縮放定律為整個(gè)行業(yè)提供了新的視角,可能重塑從模型架構(gòu)設(shè)計(jì)到硬件系統(tǒng)開發(fā)的多個(gè)環(huán)節(jié)。
與預(yù)訓(xùn)練階段的縮放已經(jīng)出現(xiàn)收益遞減不同,測(cè)試階段的縮放仍有巨大潛力,特別是通過增加生成token和優(yōu)化推理路徑。稀疏注意力可能是釋放這一潛力的關(guān)鍵。
研究團(tuán)隊(duì)希望這項(xiàng)研究能引導(dǎo)并鼓勵(lì)未來(lái)模型架構(gòu)、測(cè)試階段策略和硬件系統(tǒng)的協(xié)同設(shè)計(jì),充分釋放下一波大語(yǔ)言模型縮放的潛力。雖然本研究主要針對(duì)NVIDIA GPU進(jìn)行分析,但其核心原理——擴(kuò)展內(nèi)存帶寬比擴(kuò)展計(jì)算能力更具挑戰(zhàn)性和成本——適用于各種硬件平臺(tái)。
值得注意的是,研究也存在一些局限。實(shí)驗(yàn)主要集中在Qwen3和DeepSeek-R1-Distilled-Qwen兩個(gè)預(yù)訓(xùn)練推理模型系列,未充分探索訓(xùn)練和后訓(xùn)練策略的影響。此外,研究假設(shè)云端服務(wù)環(huán)境,計(jì)算資源充足且批處理規(guī)模較大,而在本地部署場(chǎng)景(如使用ollama)中,由于VRAM有限,模型參數(shù)訪問可能成為主要成本,此時(shí)小模型可能更適合。
未來(lái)研究方向包括探索更多高級(jí)稀疏注意力算法,以及設(shè)計(jì)能適應(yīng)稀疏注意力的新型測(cè)試階段策略。研究還發(fā)現(xiàn)生成長(zhǎng)度與最佳嘗試次數(shù)之間存在強(qiáng)相關(guān)性,這可能作為調(diào)整嘗試次數(shù)和KV預(yù)算的動(dòng)態(tài)信號(hào)。稀疏注意力的減少推理成本,將為更多推理嘗試和更長(zhǎng)生成創(chuàng)造可能,在固定資源預(yù)算內(nèi)提供更大的策略靈活性。
總的來(lái)說,這項(xiàng)研究不僅揭示了測(cè)試階段資源分配的新視角,還提出了一個(gè)實(shí)用的解決方案——稀疏注意力,讓我們能以更低的成本獲得更好的性能。正如研究團(tuán)隊(duì)所言,我們可能正站在大語(yǔ)言模型推理新范式的起點(diǎn),即使在預(yù)訓(xùn)練已遇到瓶頸的情況下,測(cè)試階段的優(yōu)化仍可能帶來(lái)顯著性能提升。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。