這項(xiàng)由新加坡SCITIX公司牽頭,聯(lián)合中科院大學(xué)、香港科技大學(xué)(廣州)和牛津大學(xué)的研究團(tuán)隊(duì)在2025年6月發(fā)表的技術(shù)研究,深入探討了小型推理語言模型的能力邊界和優(yōu)化策略。感興趣的讀者可以通過arXiv:2506.13404v1獲取完整論文。
在人工智能快速發(fā)展的今天,我們經(jīng)常聽到各種關(guān)于"大模型"的新聞,動(dòng)輒千億參數(shù)的模型在各種任務(wù)中表現(xiàn)出色。然而,這些巨大的模型就像需要整個(gè)發(fā)電廠供電的超級(jí)計(jì)算機(jī),雖然功能強(qiáng)大,但普通人很難使用。研究團(tuán)隊(duì)將目光投向了一個(gè)看似矛盾的問題:能否讓只有5億參數(shù)的"小模型"也具備強(qiáng)大的推理能力?這就好比試圖讓一臺(tái)普通家用電腦完成原本需要超級(jí)計(jì)算機(jī)才能處理的復(fù)雜任務(wù)。
研究團(tuán)隊(duì)選擇的這些小型推理語言模型(SRLMs)就像是汽車界的小鋼炮——體積雖小,但經(jīng)過精心調(diào)校后也能爆發(fā)出驚人的性能。這些模型大約只有5億個(gè)參數(shù),相比動(dòng)輒千億參數(shù)的大模型,就像是摩托車與大卡車的區(qū)別。但是,小模型有著大模型無法比擬的優(yōu)勢:它們運(yùn)行速度快,耗電量低,可以在普通設(shè)備上運(yùn)行,甚至可以在手機(jī)上工作,而且不需要將數(shù)據(jù)上傳到云端,保護(hù)了用戶的隱私。
然而,正如一臺(tái)小排量發(fā)動(dòng)機(jī)很難與大排量發(fā)動(dòng)機(jī)在絕對功率上競爭一樣,小模型在處理復(fù)雜數(shù)學(xué)推理和代碼生成等高難度任務(wù)時(shí),確實(shí)存在明顯的性能差距。這就像讓一個(gè)初中生去解決大學(xué)的高等數(shù)學(xué)題目,雖然基礎(chǔ)知識(shí)都具備,但復(fù)雜推理能力還有待提升。
研究團(tuán)隊(duì)面臨的核心挑戰(zhàn)是:如何通過巧妙的訓(xùn)練策略,讓這些小模型在保持輕量化優(yōu)勢的同時(shí),盡可能接近大模型的推理能力?他們提出了三個(gè)關(guān)鍵問題來指導(dǎo)研究方向。
一、探索小模型的真實(shí)能力邊界
要了解小模型能達(dá)到什么程度,研究團(tuán)隊(duì)首先進(jìn)行了一場"摸底考試"。他們讓不同規(guī)模的模型都來做同樣的數(shù)學(xué)題,看看差距到底有多大。結(jié)果就像預(yù)期的那樣令人擔(dān)憂:在高難度的奧數(shù)競賽題目(OlympiadBench)中,70億參數(shù)的大模型能答對38.2%的題目,而只有5億參數(shù)的Qwen2.5-0.5B-Instruct模型只能答對可憐的6.2%。這種差距就像讓一個(gè)小學(xué)生和大學(xué)生比賽解數(shù)學(xué)題,結(jié)果自然是懸殊的。
不過,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:經(jīng)過特殊訓(xùn)練優(yōu)化的小模型表現(xiàn)要好得多。比如最新的Qwen3-0.6B模型經(jīng)過訓(xùn)練后,在同樣的奧數(shù)題目中能達(dá)到20.2%的正確率,在MATH500數(shù)學(xué)題集中更是達(dá)到了56.4%的正確率。這說明小模型的潛力遠(yuǎn)比表面看起來要大,關(guān)鍵在于如何挖掘和釋放這種潛力。
這就像發(fā)現(xiàn)一塊看似普通的石頭,經(jīng)過精心雕琢后竟然能顯現(xiàn)出美麗的紋理。小模型雖然參數(shù)量有限,但通過合適的訓(xùn)練方法,完全可以在特定任務(wù)上展現(xiàn)出令人刮目相看的能力。
二、不同訓(xùn)練策略的效果對比
研究團(tuán)隊(duì)嘗試了三種主要的"調(diào)教"方法,就像三種不同的教學(xué)方式來提升學(xué)生的數(shù)學(xué)能力。
第一種是監(jiān)督微調(diào)(SFT),就像傳統(tǒng)的課堂教學(xué),給模型看大量的標(biāo)準(zhǔn)題目和答案,讓它學(xué)會(huì)模仿。這種方法簡單直接,但研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)意外的結(jié)果:有時(shí)候這種方法不但沒有提升模型性能,反而讓它變得更差了。比如Qwen2.5-0.5B-Instruct模型經(jīng)過SFT訓(xùn)練后,在奧數(shù)題目上的表現(xiàn)從6.2%下降到了3.7%。這就像一個(gè)原本有些天賦的學(xué)生,經(jīng)過死記硬背的填鴨式教學(xué)后,反而失去了靈活思考的能力。
第二種是知識(shí)蒸餾(KD),這種方法就像讓一個(gè)優(yōu)秀的老師(大模型)手把手教一個(gè)學(xué)生(小模型)。研究團(tuán)隊(duì)使用了專門的數(shù)學(xué)問題解決步驟作為教學(xué)材料,希望小模型能學(xué)到大模型的"解題思路"。然而,結(jié)果同樣令人失望:很多情況下,知識(shí)蒸餾也沒能顯著提升小模型的表現(xiàn),有時(shí)甚至出現(xiàn)了性能下降。
第三種是強(qiáng)化學(xué)習(xí)(RL),這種方法就像通過不斷的練習(xí)和反饋來提升能力。研究團(tuán)隊(duì)使用了一種叫做GRPO(群體相對策略優(yōu)化)的算法,讓模型在做題過程中不斷接受正確與否的反饋,逐步改進(jìn)自己的推理過程。這種方法的效果最為顯著:經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的Qwen2.5-0.5B-Instruct模型在奧數(shù)題目上達(dá)到了7.6%的正確率,在MATH500上更是達(dá)到了32.4%的正確率。
研究團(tuán)隊(duì)設(shè)計(jì)了巧妙的獎(jiǎng)勵(lì)機(jī)制來指導(dǎo)強(qiáng)化學(xué)習(xí)過程。他們要求模型必須將推理過程放在特定的標(biāo)簽內(nèi),就像要求學(xué)生必須顯示解題步驟一樣。如果模型的格式正確且答案對了,就給予獎(jiǎng)勵(lì);否則就給予懲罰。這種方法不僅提升了準(zhǔn)確率,還讓模型的推理過程更加透明和可理解。
三、混合訓(xùn)練策略的探索
既然單一的訓(xùn)練方法各有局限,研究團(tuán)隊(duì)自然想到了"組合拳"的策略。他們嘗試將不同的訓(xùn)練方法結(jié)合起來,希望能夠取長補(bǔ)短,達(dá)到更好的效果。
然而,現(xiàn)實(shí)比想象中復(fù)雜得多?;旌嫌?xùn)練策略就像調(diào)制雞尾酒,不是簡單地把所有好東西混在一起就能得到更好的結(jié)果。研究團(tuán)隊(duì)發(fā)現(xiàn),有些組合確實(shí)能帶來性能提升,但也有些組合會(huì)導(dǎo)致訓(xùn)練過程崩潰,模型完全無法收斂。
比如,將知識(shí)蒸餾和強(qiáng)化學(xué)習(xí)結(jié)合的方法(KD+RL)在某些配置下表現(xiàn)不錯(cuò),但在另一些配置下卻會(huì)導(dǎo)致訓(xùn)練失敗。將監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)結(jié)合(SFT+RL)的情況更加復(fù)雜,有時(shí)會(huì)因?yàn)橛?xùn)練不穩(wěn)定而完全失敗。
研究團(tuán)隊(duì)發(fā)現(xiàn),混合訓(xùn)練策略的成功很大程度上取決于模型的初始狀態(tài)。那些專門為對話任務(wù)預(yù)訓(xùn)練的模型(如Qwen2.5-0.5B-Instruct)在接受混合訓(xùn)練時(shí)表現(xiàn)更好,就像有良好基礎(chǔ)的學(xué)生更容易接受進(jìn)階教育一樣。相比之下,直接對基礎(chǔ)模型進(jìn)行混合訓(xùn)練往往效果不佳,甚至可能導(dǎo)致訓(xùn)練過程失控。
四、深度分析與發(fā)現(xiàn)
通過大量實(shí)驗(yàn)和對比分析,研究團(tuán)隊(duì)得出了幾個(gè)重要發(fā)現(xiàn),這些發(fā)現(xiàn)對整個(gè)小模型訓(xùn)練領(lǐng)域都具有重要意義。
首先,他們發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)是提升小模型推理能力最可靠的方法。這種方法之所以有效,是因?yàn)樗试S模型在實(shí)際問題解決過程中學(xué)習(xí),而不是簡單地模仿現(xiàn)有答案。就像學(xué)會(huì)騎自行車一樣,光看別人騎和聽別人講是不夠的,必須自己上車練習(xí),在跌倒和重新站起來的過程中掌握平衡技巧。
其次,傳統(tǒng)認(rèn)為很有效的監(jiān)督微調(diào)和知識(shí)蒸餾方法,在小模型上的效果并不理想。這可能是因?yàn)樾∧P偷娜萘坑邢?,簡單的模仿學(xué)習(xí)容易導(dǎo)致過擬合,反而損害了模型的泛化能力。這就像讓一個(gè)容量有限的容器裝太多水,不僅裝不下,還可能溢出。
再次,模型的預(yù)訓(xùn)練方式對后續(xù)訓(xùn)練效果有著至關(guān)重要的影響。那些專門為指令跟隨任務(wù)優(yōu)化的模型在接受進(jìn)一步訓(xùn)練時(shí)表現(xiàn)更好,這說明良好的基礎(chǔ)是成功的關(guān)鍵。這就像建房子需要牢固的地基一樣,沒有好的基礎(chǔ),再精巧的設(shè)計(jì)也難以實(shí)現(xiàn)。
最后,混合訓(xùn)練策略雖然有潛力,但需要非常謹(jǐn)慎的設(shè)計(jì)和調(diào)試。不是所有的組合都會(huì)產(chǎn)生協(xié)同效應(yīng),有些組合甚至?xí)嗷ジ蓴_,導(dǎo)致整體性能下降。這提醒我們,在追求更復(fù)雜訓(xùn)練方法的同時(shí),也要充分考慮其穩(wěn)定性和可靠性。
五、實(shí)驗(yàn)設(shè)置的精心設(shè)計(jì)
為了確保研究結(jié)果的可信度,研究團(tuán)隊(duì)在實(shí)驗(yàn)設(shè)置上下了很大功夫。他們選擇了GSM8K數(shù)據(jù)集作為主要的訓(xùn)練素材,這個(gè)數(shù)據(jù)集包含了7000多個(gè)多步驟的算術(shù)問題,每個(gè)問題都需要進(jìn)行復(fù)雜的邏輯推理才能解決。
在評(píng)估環(huán)節(jié),研究團(tuán)隊(duì)使用了五個(gè)不同難度和類型的數(shù)學(xué)推理基準(zhǔn)測試,包括奧林匹克數(shù)學(xué)競賽題目、高等數(shù)學(xué)問題、科學(xué)推理題目等。這種全方位的評(píng)估就像給學(xué)生出不同類型的考試題目,確保能夠全面了解模型的真實(shí)能力。
在技術(shù)實(shí)現(xiàn)上,研究團(tuán)隊(duì)使用了最先進(jìn)的硬件配置:8張H100 GPU,每張GPU擁有80GB內(nèi)存。整個(gè)訓(xùn)練環(huán)境運(yùn)行在Ubuntu 20.04系統(tǒng)上,使用了專門的LightEval框架進(jìn)行評(píng)估,確保了實(shí)驗(yàn)結(jié)果的準(zhǔn)確性和可重復(fù)性。
對于不同的訓(xùn)練方法,研究團(tuán)隊(duì)還設(shè)置了不同的超參數(shù)配置。比如在監(jiān)督微調(diào)中,他們將學(xué)習(xí)率設(shè)為4.0e-05,訓(xùn)練4個(gè)輪次;而在強(qiáng)化學(xué)習(xí)中,學(xué)習(xí)率降低到1.0e-06,每個(gè)訓(xùn)練步驟生成16個(gè)候選答案。這些精心調(diào)試的參數(shù)確保了每種方法都能發(fā)揮出最佳性能。
六、未來發(fā)展方向的展望
基于這次深入的研究,團(tuán)隊(duì)為小型推理語言模型的未來發(fā)展描繪了清晰的路線圖。
首先,他們計(jì)劃發(fā)布一系列經(jīng)過優(yōu)化的小模型,這些模型將展示研究中發(fā)現(xiàn)的最佳訓(xùn)練策略的效果。這就像把研究成果轉(zhuǎn)化為實(shí)際產(chǎn)品,讓更多的研究者和開發(fā)者能夠受益。這些模型將包括使用強(qiáng)化學(xué)習(xí)優(yōu)化的版本、混合訓(xùn)練策略的版本,以及完整的訓(xùn)練文檔和評(píng)估協(xié)議。
在技術(shù)層面,研究團(tuán)隊(duì)認(rèn)為需要開發(fā)專門針對小模型特點(diǎn)的訓(xùn)練算法?,F(xiàn)有的很多方法都是為大模型設(shè)計(jì)的,直接應(yīng)用到小模型上可能會(huì)出現(xiàn)"水土不服"的問題。未來的研究應(yīng)該考慮小模型的獨(dú)特特征和限制,開發(fā)更適合的訓(xùn)練方法。
知識(shí)蒸餾技術(shù)也有很大的改進(jìn)空間。目前的蒸餾方法可能沒有充分發(fā)揮小模型的潛力,未來可以探索多教師蒸餾、漸進(jìn)式蒸餾、注意力引導(dǎo)的知識(shí)轉(zhuǎn)移等更先進(jìn)的技術(shù),更好地彌合大小模型之間的能力差距。
在可持續(xù)發(fā)展方面,研究團(tuán)隊(duì)強(qiáng)調(diào)了小模型在環(huán)保和資源效率方面的重要性。隨著人工智能應(yīng)用的普及,如何在保證性能的同時(shí)減少計(jì)算資源消耗和環(huán)境影響,將成為越來越重要的課題。小模型正是在這個(gè)方向上的重要探索。
說到底,這項(xiàng)研究告訴我們一個(gè)重要道理:大小不是決定能力的唯一因素,關(guān)鍵在于如何充分發(fā)揮現(xiàn)有資源的潛力。就像一個(gè)技藝精湛的廚師可以用簡單的食材做出美味佳肴一樣,通過精心設(shè)計(jì)的訓(xùn)練策略,小模型也能在特定任務(wù)上表現(xiàn)出色。
這項(xiàng)研究不僅為學(xué)術(shù)界提供了寶貴的洞察,也為實(shí)際應(yīng)用指明了方向。在計(jì)算資源有限、對響應(yīng)速度要求高、需要保護(hù)數(shù)據(jù)隱私的場景中,經(jīng)過優(yōu)化的小模型可能是比大模型更好的選擇。更重要的是,這種研究思路提醒我們,人工智能的發(fā)展不一定要走"越大越好"的路線,有時(shí)候"小而精"可能是更明智的選擇。
對于普通用戶而言,這項(xiàng)研究的意義在于讓高質(zhì)量的AI服務(wù)變得更加普及和可及。當(dāng)我們不再需要昂貴的云計(jì)算服務(wù),也不用擔(dān)心數(shù)據(jù)隱私問題,就能在自己的設(shè)備上享受智能助手的幫助時(shí),人工智能真正實(shí)現(xiàn)了"飛入尋常百姓家"的愿景。這或許才是技術(shù)發(fā)展的真正意義所在。
Q&A
Q1:什么是小型推理語言模型(SRLMs)?它們有什么優(yōu)勢? A:小型推理語言模型是指參數(shù)量約為5億的AI模型,相比動(dòng)輒千億參數(shù)的大模型要小得多。它們的主要優(yōu)勢包括:運(yùn)行速度快、耗電量低、可以在普通設(shè)備甚至手機(jī)上運(yùn)行、不需要上傳數(shù)據(jù)到云端從而保護(hù)隱私、成本更低廉。就像小鋼炮汽車一樣,雖然體積小但經(jīng)過調(diào)校后性能不俗。
Q2:小模型的推理能力真的能接近大模型嗎? A:研究表明,通過合適的訓(xùn)練策略,小模型確實(shí)可以大幅提升推理能力。比如Qwen3-0.6B模型經(jīng)過優(yōu)化后,在數(shù)學(xué)推理任務(wù)上能達(dá)到56.4%的正確率。雖然仍有差距,但這種提升證明了小模型有巨大潛力。關(guān)鍵在于使用強(qiáng)化學(xué)習(xí)等有效的訓(xùn)練方法,而不是傳統(tǒng)的監(jiān)督學(xué)習(xí)。
Q3:這項(xiàng)研究對普通用戶有什么實(shí)際意義? A:這項(xiàng)研究讓高質(zhì)量AI服務(wù)變得更普及。未來我們可能在自己的手機(jī)或電腦上就能享受智能助手服務(wù),不需要依賴昂貴的云計(jì)算,也不用擔(dān)心隱私泄露。特別是在數(shù)學(xué)輔導(dǎo)、代碼編寫等需要推理能力的場景中,優(yōu)化后的小模型能提供實(shí)用的幫助,真正實(shí)現(xiàn)AI技術(shù)的平民化。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。