這項由新加坡SCITIX公司牽頭,聯(lián)合中科院大學、香港科技大學(廣州)和牛津大學的研究團隊在2025年6月發(fā)表的技術(shù)研究,深入探討了小型推理語言模型的能力邊界和優(yōu)化策略。感興趣的讀者可以通過arXiv:2506.13404v1獲取完整論文。
在人工智能快速發(fā)展的今天,我們經(jīng)常聽到各種關(guān)于"大模型"的新聞,動輒千億參數(shù)的模型在各種任務(wù)中表現(xiàn)出色。然而,這些巨大的模型就像需要整個發(fā)電廠供電的超級計算機,雖然功能強大,但普通人很難使用。研究團隊將目光投向了一個看似矛盾的問題:能否讓只有5億參數(shù)的"小模型"也具備強大的推理能力?這就好比試圖讓一臺普通家用電腦完成原本需要超級計算機才能處理的復(fù)雜任務(wù)。
研究團隊選擇的這些小型推理語言模型(SRLMs)就像是汽車界的小鋼炮——體積雖小,但經(jīng)過精心調(diào)校后也能爆發(fā)出驚人的性能。這些模型大約只有5億個參數(shù),相比動輒千億參數(shù)的大模型,就像是摩托車與大卡車的區(qū)別。但是,小模型有著大模型無法比擬的優(yōu)勢:它們運行速度快,耗電量低,可以在普通設(shè)備上運行,甚至可以在手機上工作,而且不需要將數(shù)據(jù)上傳到云端,保護了用戶的隱私。
然而,正如一臺小排量發(fā)動機很難與大排量發(fā)動機在絕對功率上競爭一樣,小模型在處理復(fù)雜數(shù)學推理和代碼生成等高難度任務(wù)時,確實存在明顯的性能差距。這就像讓一個初中生去解決大學的高等數(shù)學題目,雖然基礎(chǔ)知識都具備,但復(fù)雜推理能力還有待提升。
研究團隊面臨的核心挑戰(zhàn)是:如何通過巧妙的訓練策略,讓這些小模型在保持輕量化優(yōu)勢的同時,盡可能接近大模型的推理能力?他們提出了三個關(guān)鍵問題來指導(dǎo)研究方向。
一、探索小模型的真實能力邊界
要了解小模型能達到什么程度,研究團隊首先進行了一場"摸底考試"。他們讓不同規(guī)模的模型都來做同樣的數(shù)學題,看看差距到底有多大。結(jié)果就像預(yù)期的那樣令人擔憂:在高難度的奧數(shù)競賽題目(OlympiadBench)中,70億參數(shù)的大模型能答對38.2%的題目,而只有5億參數(shù)的Qwen2.5-0.5B-Instruct模型只能答對可憐的6.2%。這種差距就像讓一個小學生和大學生比賽解數(shù)學題,結(jié)果自然是懸殊的。
不過,研究團隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:經(jīng)過特殊訓練優(yōu)化的小模型表現(xiàn)要好得多。比如最新的Qwen3-0.6B模型經(jīng)過訓練后,在同樣的奧數(shù)題目中能達到20.2%的正確率,在MATH500數(shù)學題集中更是達到了56.4%的正確率。這說明小模型的潛力遠比表面看起來要大,關(guān)鍵在于如何挖掘和釋放這種潛力。
這就像發(fā)現(xiàn)一塊看似普通的石頭,經(jīng)過精心雕琢后竟然能顯現(xiàn)出美麗的紋理。小模型雖然參數(shù)量有限,但通過合適的訓練方法,完全可以在特定任務(wù)上展現(xiàn)出令人刮目相看的能力。
二、不同訓練策略的效果對比
研究團隊嘗試了三種主要的"調(diào)教"方法,就像三種不同的教學方式來提升學生的數(shù)學能力。
第一種是監(jiān)督微調(diào)(SFT),就像傳統(tǒng)的課堂教學,給模型看大量的標準題目和答案,讓它學會模仿。這種方法簡單直接,但研究團隊發(fā)現(xiàn)了一個意外的結(jié)果:有時候這種方法不但沒有提升模型性能,反而讓它變得更差了。比如Qwen2.5-0.5B-Instruct模型經(jīng)過SFT訓練后,在奧數(shù)題目上的表現(xiàn)從6.2%下降到了3.7%。這就像一個原本有些天賦的學生,經(jīng)過死記硬背的填鴨式教學后,反而失去了靈活思考的能力。
第二種是知識蒸餾(KD),這種方法就像讓一個優(yōu)秀的老師(大模型)手把手教一個學生(小模型)。研究團隊使用了專門的數(shù)學問題解決步驟作為教學材料,希望小模型能學到大模型的"解題思路"。然而,結(jié)果同樣令人失望:很多情況下,知識蒸餾也沒能顯著提升小模型的表現(xiàn),有時甚至出現(xiàn)了性能下降。
第三種是強化學習(RL),這種方法就像通過不斷的練習和反饋來提升能力。研究團隊使用了一種叫做GRPO(群體相對策略優(yōu)化)的算法,讓模型在做題過程中不斷接受正確與否的反饋,逐步改進自己的推理過程。這種方法的效果最為顯著:經(jīng)過強化學習訓練的Qwen2.5-0.5B-Instruct模型在奧數(shù)題目上達到了7.6%的正確率,在MATH500上更是達到了32.4%的正確率。
研究團隊設(shè)計了巧妙的獎勵機制來指導(dǎo)強化學習過程。他們要求模型必須將推理過程放在特定的標簽內(nèi),就像要求學生必須顯示解題步驟一樣。如果模型的格式正確且答案對了,就給予獎勵;否則就給予懲罰。這種方法不僅提升了準確率,還讓模型的推理過程更加透明和可理解。
三、混合訓練策略的探索
既然單一的訓練方法各有局限,研究團隊自然想到了"組合拳"的策略。他們嘗試將不同的訓練方法結(jié)合起來,希望能夠取長補短,達到更好的效果。
然而,現(xiàn)實比想象中復(fù)雜得多?;旌嫌柧毑呗跃拖裾{(diào)制雞尾酒,不是簡單地把所有好東西混在一起就能得到更好的結(jié)果。研究團隊發(fā)現(xiàn),有些組合確實能帶來性能提升,但也有些組合會導(dǎo)致訓練過程崩潰,模型完全無法收斂。
比如,將知識蒸餾和強化學習結(jié)合的方法(KD+RL)在某些配置下表現(xiàn)不錯,但在另一些配置下卻會導(dǎo)致訓練失敗。將監(jiān)督微調(diào)和強化學習結(jié)合(SFT+RL)的情況更加復(fù)雜,有時會因為訓練不穩(wěn)定而完全失敗。
研究團隊發(fā)現(xiàn),混合訓練策略的成功很大程度上取決于模型的初始狀態(tài)。那些專門為對話任務(wù)預(yù)訓練的模型(如Qwen2.5-0.5B-Instruct)在接受混合訓練時表現(xiàn)更好,就像有良好基礎(chǔ)的學生更容易接受進階教育一樣。相比之下,直接對基礎(chǔ)模型進行混合訓練往往效果不佳,甚至可能導(dǎo)致訓練過程失控。
四、深度分析與發(fā)現(xiàn)
通過大量實驗和對比分析,研究團隊得出了幾個重要發(fā)現(xiàn),這些發(fā)現(xiàn)對整個小模型訓練領(lǐng)域都具有重要意義。
首先,他們發(fā)現(xiàn)強化學習是提升小模型推理能力最可靠的方法。這種方法之所以有效,是因為它允許模型在實際問題解決過程中學習,而不是簡單地模仿現(xiàn)有答案。就像學會騎自行車一樣,光看別人騎和聽別人講是不夠的,必須自己上車練習,在跌倒和重新站起來的過程中掌握平衡技巧。
其次,傳統(tǒng)認為很有效的監(jiān)督微調(diào)和知識蒸餾方法,在小模型上的效果并不理想。這可能是因為小模型的容量有限,簡單的模仿學習容易導(dǎo)致過擬合,反而損害了模型的泛化能力。這就像讓一個容量有限的容器裝太多水,不僅裝不下,還可能溢出。
再次,模型的預(yù)訓練方式對后續(xù)訓練效果有著至關(guān)重要的影響。那些專門為指令跟隨任務(wù)優(yōu)化的模型在接受進一步訓練時表現(xiàn)更好,這說明良好的基礎(chǔ)是成功的關(guān)鍵。這就像建房子需要牢固的地基一樣,沒有好的基礎(chǔ),再精巧的設(shè)計也難以實現(xiàn)。
最后,混合訓練策略雖然有潛力,但需要非常謹慎的設(shè)計和調(diào)試。不是所有的組合都會產(chǎn)生協(xié)同效應(yīng),有些組合甚至會相互干擾,導(dǎo)致整體性能下降。這提醒我們,在追求更復(fù)雜訓練方法的同時,也要充分考慮其穩(wěn)定性和可靠性。
五、實驗設(shè)置的精心設(shè)計
為了確保研究結(jié)果的可信度,研究團隊在實驗設(shè)置上下了很大功夫。他們選擇了GSM8K數(shù)據(jù)集作為主要的訓練素材,這個數(shù)據(jù)集包含了7000多個多步驟的算術(shù)問題,每個問題都需要進行復(fù)雜的邏輯推理才能解決。
在評估環(huán)節(jié),研究團隊使用了五個不同難度和類型的數(shù)學推理基準測試,包括奧林匹克數(shù)學競賽題目、高等數(shù)學問題、科學推理題目等。這種全方位的評估就像給學生出不同類型的考試題目,確保能夠全面了解模型的真實能力。
在技術(shù)實現(xiàn)上,研究團隊使用了最先進的硬件配置:8張H100 GPU,每張GPU擁有80GB內(nèi)存。整個訓練環(huán)境運行在Ubuntu 20.04系統(tǒng)上,使用了專門的LightEval框架進行評估,確保了實驗結(jié)果的準確性和可重復(fù)性。
對于不同的訓練方法,研究團隊還設(shè)置了不同的超參數(shù)配置。比如在監(jiān)督微調(diào)中,他們將學習率設(shè)為4.0e-05,訓練4個輪次;而在強化學習中,學習率降低到1.0e-06,每個訓練步驟生成16個候選答案。這些精心調(diào)試的參數(shù)確保了每種方法都能發(fā)揮出最佳性能。
六、未來發(fā)展方向的展望
基于這次深入的研究,團隊為小型推理語言模型的未來發(fā)展描繪了清晰的路線圖。
首先,他們計劃發(fā)布一系列經(jīng)過優(yōu)化的小模型,這些模型將展示研究中發(fā)現(xiàn)的最佳訓練策略的效果。這就像把研究成果轉(zhuǎn)化為實際產(chǎn)品,讓更多的研究者和開發(fā)者能夠受益。這些模型將包括使用強化學習優(yōu)化的版本、混合訓練策略的版本,以及完整的訓練文檔和評估協(xié)議。
在技術(shù)層面,研究團隊認為需要開發(fā)專門針對小模型特點的訓練算法?,F(xiàn)有的很多方法都是為大模型設(shè)計的,直接應(yīng)用到小模型上可能會出現(xiàn)"水土不服"的問題。未來的研究應(yīng)該考慮小模型的獨特特征和限制,開發(fā)更適合的訓練方法。
知識蒸餾技術(shù)也有很大的改進空間。目前的蒸餾方法可能沒有充分發(fā)揮小模型的潛力,未來可以探索多教師蒸餾、漸進式蒸餾、注意力引導(dǎo)的知識轉(zhuǎn)移等更先進的技術(shù),更好地彌合大小模型之間的能力差距。
在可持續(xù)發(fā)展方面,研究團隊強調(diào)了小模型在環(huán)保和資源效率方面的重要性。隨著人工智能應(yīng)用的普及,如何在保證性能的同時減少計算資源消耗和環(huán)境影響,將成為越來越重要的課題。小模型正是在這個方向上的重要探索。
說到底,這項研究告訴我們一個重要道理:大小不是決定能力的唯一因素,關(guān)鍵在于如何充分發(fā)揮現(xiàn)有資源的潛力。就像一個技藝精湛的廚師可以用簡單的食材做出美味佳肴一樣,通過精心設(shè)計的訓練策略,小模型也能在特定任務(wù)上表現(xiàn)出色。
這項研究不僅為學術(shù)界提供了寶貴的洞察,也為實際應(yīng)用指明了方向。在計算資源有限、對響應(yīng)速度要求高、需要保護數(shù)據(jù)隱私的場景中,經(jīng)過優(yōu)化的小模型可能是比大模型更好的選擇。更重要的是,這種研究思路提醒我們,人工智能的發(fā)展不一定要走"越大越好"的路線,有時候"小而精"可能是更明智的選擇。
對于普通用戶而言,這項研究的意義在于讓高質(zhì)量的AI服務(wù)變得更加普及和可及。當我們不再需要昂貴的云計算服務(wù),也不用擔心數(shù)據(jù)隱私問題,就能在自己的設(shè)備上享受智能助手的幫助時,人工智能真正實現(xiàn)了"飛入尋常百姓家"的愿景。這或許才是技術(shù)發(fā)展的真正意義所在。
Q&A
Q1:什么是小型推理語言模型(SRLMs)?它們有什么優(yōu)勢? A:小型推理語言模型是指參數(shù)量約為5億的AI模型,相比動輒千億參數(shù)的大模型要小得多。它們的主要優(yōu)勢包括:運行速度快、耗電量低、可以在普通設(shè)備甚至手機上運行、不需要上傳數(shù)據(jù)到云端從而保護隱私、成本更低廉。就像小鋼炮汽車一樣,雖然體積小但經(jīng)過調(diào)校后性能不俗。
Q2:小模型的推理能力真的能接近大模型嗎? A:研究表明,通過合適的訓練策略,小模型確實可以大幅提升推理能力。比如Qwen3-0.6B模型經(jīng)過優(yōu)化后,在數(shù)學推理任務(wù)上能達到56.4%的正確率。雖然仍有差距,但這種提升證明了小模型有巨大潛力。關(guān)鍵在于使用強化學習等有效的訓練方法,而不是傳統(tǒng)的監(jiān)督學習。
Q3:這項研究對普通用戶有什么實際意義? A:這項研究讓高質(zhì)量AI服務(wù)變得更普及。未來我們可能在自己的手機或電腦上就能享受智能助手服務(wù),不需要依賴昂貴的云計算,也不用擔心隱私泄露。特別是在數(shù)學輔導(dǎo)、代碼編寫等需要推理能力的場景中,優(yōu)化后的小模型能提供實用的幫助,真正實現(xiàn)AI技術(shù)的平民化。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領(lǐng)域帶來了效率和精度的雙重突破。