這項(xiàng)由韓國KRAFTON公司的康珉基(Minki Kang)、鄭鐘元(Jongwon Jeong)和趙在雄(Jaewoong Cho)領(lǐng)導(dǎo)的研究團(tuán)隊(duì)在2025年4月提交的論文,探索了一個(gè)令人著迷的問題:能否讓小型AI模型學(xué)會(huì)像人類一樣"自己檢查作業(yè)"?這篇題為《T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models》的研究論文揭示了一種革命性的方法,讓體積小巧的AI模型通過借助外部工具來驗(yàn)證自己的答案,從而在數(shù)學(xué)推理等復(fù)雜任務(wù)上超越體積大得多的模型。有興趣深入了解的讀者可以通過arXiv平臺(tái)訪問完整論文(論文編號(hào):2504.04718v1)。
在人工智能的世界里,一直存在著一個(gè)有趣的現(xiàn)象:就像學(xué)生做數(shù)學(xué)題一樣,AI模型也會(huì)犯各種錯(cuò)誤,特別是在需要復(fù)雜推理的任務(wù)中。傳統(tǒng)的解決方案是讓AI"多做幾遍題目",然后選擇看起來最好的答案。但這里有個(gè)關(guān)鍵問題:誰來判斷哪個(gè)答案是對的?通常,我們需要一個(gè)"老師"——也就是更大、更強(qiáng)的AI模型來做判斷??墒?,如果我們想要使用小型、高效的AI模型(比如只有10億參數(shù)的模型),卻還需要依賴70億參數(shù)的大模型來做驗(yàn)證,這就失去了使用小模型的意義。
正是在這樣的背景下,KRAFTON的研究團(tuán)隊(duì)開始思考:能否讓小模型學(xué)會(huì)自己驗(yàn)證答案?他們發(fā)現(xiàn),即使通過知識(shí)蒸餾技術(shù)(可以理解為讓小模型"抄"大模型的作業(yè)方法)訓(xùn)練小模型進(jìn)行自我驗(yàn)證,效果仍然不盡如人意。深入研究后,他們意識(shí)到問題的根源在于小模型的"記憶力"有限——它們往往記不住足夠多的事實(shí)和計(jì)算規(guī)則來準(zhǔn)確判斷答案的正誤。
研究團(tuán)隊(duì)通過一個(gè)簡單而有趣的實(shí)驗(yàn)證明了這個(gè)觀點(diǎn)。他們讓一個(gè)10億參數(shù)的小模型驗(yàn)證不同復(fù)雜度的數(shù)學(xué)計(jì)算,發(fā)現(xiàn)隨著計(jì)算中數(shù)字個(gè)數(shù)的增加,模型的驗(yàn)證準(zhǔn)確率急劇下降。比如驗(yàn)證3個(gè)三位數(shù)的加法,準(zhǔn)確率還能保持在較高水平,但當(dāng)數(shù)字增加到10個(gè)時(shí),準(zhǔn)確率就跌到了60%左右。然而,當(dāng)研究人員讓模型不是直接驗(yàn)證答案,而是生成Python代碼來計(jì)算并驗(yàn)證時(shí),準(zhǔn)確率幾乎保持不變,始終接近100%。這個(gè)發(fā)現(xiàn)就像突然找到了鑰匙一樣——原來小模型不是不會(huì)驗(yàn)證,而是需要借助合適的工具。
基于這個(gè)洞察,研究團(tuán)隊(duì)提出了"工具集成自驗(yàn)證"(T1)方法。這個(gè)方法的核心理念很簡單:讓小模型把那些需要大量記憶的驗(yàn)證步驟外包給專門的工具。就像人類在做復(fù)雜計(jì)算時(shí)會(huì)使用計(jì)算器一樣,AI模型也可以借助代碼解釋器來驗(yàn)證數(shù)學(xué)計(jì)算,或者使用搜索引擎來核實(shí)事實(shí)信息。
T1方法的工作流程可以比作一個(gè)精心設(shè)計(jì)的質(zhì)量控制系統(tǒng)。當(dāng)AI模型生成多個(gè)候選答案后,首先通過工具驗(yàn)證階段進(jìn)行初步篩選,就像工廠的第一道質(zhì)檢環(huán)節(jié),把明顯有問題的產(chǎn)品(比如計(jì)算錯(cuò)誤的答案)直接淘汰。接著,通過獎(jiǎng)勵(lì)模型評(píng)分階段對剩余的候選答案進(jìn)行細(xì)致評(píng)估,就像終極質(zhì)檢環(huán)節(jié),從邏輯一致性、表達(dá)連貫性等多個(gè)維度綜合評(píng)分,最終選出得分最高的答案作為最終結(jié)果。
為了讓小模型學(xué)會(huì)有效使用這些工具,研究團(tuán)隊(duì)采用了知識(shí)蒸餾技術(shù)。他們先讓更強(qiáng)大的教師模型(如GPT-4o-mini)展示如何正確使用工具進(jìn)行驗(yàn)證,然后讓小模型學(xué)習(xí)模仿這些行為。這個(gè)過程就像師傅教徒弟手藝一樣,通過大量的示范和練習(xí),讓小模型掌握工具使用的技巧。為了高效管理不同類型的驗(yàn)證任務(wù),研究團(tuán)隊(duì)還采用了多LoRA(Low-Rank Adaptation)技術(shù),為每種驗(yàn)證任務(wù)分配專門的適配器,就像給不同的工作配備專門的工具箱。
從理論角度來看,T1方法的有效性可以用一個(gè)直觀的數(shù)學(xué)分析來解釋。研究團(tuán)隊(duì)以簡單的算術(shù)驗(yàn)證任務(wù)為例,證明了當(dāng)模型需要記住所有可能的加法組合時(shí),所需的信息量會(huì)隨著數(shù)字范圍的立方增長。比如要驗(yàn)證所有三位數(shù)的加法,模型需要記住大約一百萬種組合的結(jié)果。但當(dāng)模型可以使用外部計(jì)算工具時(shí),它幾乎不需要記住任何具體的計(jì)算結(jié)果,只需要學(xué)會(huì)如何正確調(diào)用工具即可。這就像從需要背誦整本字典,變成了只需要學(xué)會(huì)如何查字典。
研究團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果令人印象深刻。在數(shù)學(xué)推理任務(wù)上,配備了T1方法的10億參數(shù)Llama-3.2模型竟然能夠超越未使用T1的80億參數(shù)Llama-3.1模型。這就像一個(gè)初中生借助計(jì)算器和參考書,在數(shù)學(xué)競賽中擊敗了僅憑記憶應(yīng)戰(zhàn)的大學(xué)生。具體來說,在MATH500這個(gè)包含大學(xué)水平數(shù)學(xué)問題的測試集上,使用T1方法的1B模型在生成64個(gè)候選答案時(shí)的準(zhǔn)確率達(dá)到了約50%,而8B模型在貪婪解碼(只生成一個(gè)答案)時(shí)的準(zhǔn)確率僅為約47%。
更有趣的是,T1方法不僅在純數(shù)學(xué)任務(wù)上表現(xiàn)出色,在需要事實(shí)核查的知識(shí)密集型任務(wù)上也展現(xiàn)了良好的適應(yīng)性。研究團(tuán)隊(duì)將T1擴(kuò)展到MMLU-Pro這樣的多領(lǐng)域知識(shí)問答任務(wù)中,讓模型使用檢索工具從維基百科獲取相關(guān)信息來驗(yàn)證答案中的事實(shí)陳述。實(shí)驗(yàn)結(jié)果顯示,在健康、經(jīng)濟(jì)學(xué)和歷史等不同領(lǐng)域,T1方法都能帶來顯著的性能提升。
研究團(tuán)隊(duì)進(jìn)一步分析了T1方法在不同數(shù)學(xué)領(lǐng)域和難度級(jí)別上的表現(xiàn)。他們發(fā)現(xiàn),T1在代數(shù)、數(shù)論和概率統(tǒng)計(jì)等計(jì)算密集型領(lǐng)域效果最為顯著,這符合預(yù)期,因?yàn)檫@些領(lǐng)域的驗(yàn)證任務(wù)主要依賴準(zhǔn)確的數(shù)值計(jì)算。然而,在幾何等更依賴空間推理的領(lǐng)域,改進(jìn)效果相對有限,這暗示了當(dāng)前方法的局限性。就難度級(jí)別而言,T1在中等難度(2-4級(jí))的問題上表現(xiàn)最佳,但在最高難度(5級(jí))的問題上效果有所下降,這表明僅僅解決計(jì)算準(zhǔn)確性問題還不足以應(yīng)對最復(fù)雜的推理挑戰(zhàn)。
實(shí)驗(yàn)還揭示了一個(gè)有趣的現(xiàn)象:隨著驗(yàn)證模型規(guī)模的增大,T1帶來的改進(jìn)幅度會(huì)逐漸縮小,但改進(jìn)始終存在。這說明即使是大型模型也能從工具輔助驗(yàn)證中受益,不過收益遞減效應(yīng)比較明顯。同時(shí),研究團(tuán)隊(duì)發(fā)現(xiàn)T1能夠有效地作為過濾器,顯著減少錯(cuò)誤答案的數(shù)量。通過分析64個(gè)候選答案中正確答案的比例分布,他們發(fā)現(xiàn)T1能夠大幅提升每個(gè)問題的正確答案占比,從而為最終的答案選擇提供更好的候選池。
為了驗(yàn)證理論分析的正確性,研究團(tuán)隊(duì)還研究了T1在不同驗(yàn)證模型規(guī)模下的表現(xiàn)。他們固定工具驗(yàn)證部分使用1B模型,但讓獎(jiǎng)勵(lì)模型的規(guī)模從1B擴(kuò)展到8B。結(jié)果顯示,1B模型配合T1的表現(xiàn)甚至能夠超越8B模型的獨(dú)立驗(yàn)證,這進(jìn)一步證明了工具集成比簡單增加模型規(guī)模更為有效。
在數(shù)據(jù)效率方面,T1方法也表現(xiàn)出了令人驚喜的特點(diǎn)。研究團(tuán)隊(duì)發(fā)現(xiàn),即使只使用10%的訓(xùn)練數(shù)據(jù)來訓(xùn)練工具驗(yàn)證模塊,其性能仍然能夠保持在較高水平,這大大降低了實(shí)際部署的成本和復(fù)雜度。這種數(shù)據(jù)效率的優(yōu)勢使得T1方法在資源受限的實(shí)際應(yīng)用場景中具有很強(qiáng)的實(shí)用性。
當(dāng)然,T1方法也存在一些局限性。首先,工具驗(yàn)證目前只能起到過濾器的作用,能夠排除明顯錯(cuò)誤的答案,但無法挽救被錯(cuò)誤拒絕的正確答案。這就像一個(gè)過于嚴(yán)格的審查員,雖然很少會(huì)讓錯(cuò)誤通過,但有時(shí)也會(huì)誤殺正確的內(nèi)容。其次,當(dāng)前的研究主要集中在并行測試時(shí)計(jì)算擴(kuò)展(best-of-N方法)上,這種方法雖然簡單有效,但缺乏不同生成之間的信息共享,可能錯(cuò)過了進(jìn)一步優(yōu)化的機(jī)會(huì)。
研究團(tuán)隊(duì)也注意到了工具驗(yàn)證中的一些技術(shù)細(xì)節(jié)問題。比如在數(shù)學(xué)驗(yàn)證中,有時(shí)生成的Python代碼可能在邏輯上是正確的,但由于符號(hào)計(jì)算的細(xì)微差別導(dǎo)致驗(yàn)證失敗。例如,兩個(gè)數(shù)學(xué)上等價(jià)的表達(dá)式可能因?yàn)樾问讲煌慌袛酁椴幌嗟?,這需要更精細(xì)的符號(hào)等價(jià)性檢查技術(shù)來解決。
展望未來,T1方法開啟了小型AI模型增強(qiáng)的新方向。研究團(tuán)隊(duì)提出了幾個(gè)有趣的擴(kuò)展可能性。第一個(gè)方向是將工具集成擴(kuò)展到驗(yàn)證步驟本身,讓驗(yàn)證過程不僅能夠過濾錯(cuò)誤答案,還能夠利用工具的正確性保證來主動(dòng)修正和改進(jìn)答案。第二個(gè)方向是探索T1在其他測試時(shí)計(jì)算擴(kuò)展策略中的應(yīng)用,比如步級(jí)搜索或序列化測試時(shí)擴(kuò)展,這些方法可能能夠更好地利用工具輔助推理的優(yōu)勢。
從更廣闊的視角來看,T1方法體現(xiàn)了AI發(fā)展的一個(gè)重要趨勢:不是單純追求模型規(guī)模的增大,而是通過智能的系統(tǒng)設(shè)計(jì)來實(shí)現(xiàn)性能的突破。這種思路不僅在技術(shù)上更加優(yōu)雅,在實(shí)用性上也更有前景,因?yàn)樗档土烁咝阅蹵I系統(tǒng)的部署門檻,使得更多的應(yīng)用場景能夠受益于先進(jìn)的AI能力。
說到底,KRAFTON的這項(xiàng)研究告訴我們一個(gè)簡單而深刻的道理:在AI的世界里,"小而巧"有時(shí)比"大而全"更有效。就像一個(gè)聰明的學(xué)生知道何時(shí)使用計(jì)算器,何時(shí)查閱資料一樣,AI模型也可以通過學(xué)會(huì)合理使用工具來彌補(bǔ)自身能力的不足。這不僅為小型AI模型的應(yīng)用開辟了新的可能性,也為整個(gè)AI系統(tǒng)的設(shè)計(jì)提供了新的思路。未來,我們可能會(huì)看到越來越多的AI系統(tǒng)采用這種"模型+工具"的協(xié)作模式,讓AI變得既高效又可靠。對于普通用戶而言,這意味著我們可能很快就能在手機(jī)、個(gè)人電腦等資源有限的設(shè)備上享受到高質(zhì)量的AI服務(wù),而不需要依賴昂貴的云端大模型。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過arXiv平臺(tái)查閱完整的研究論文,探索這一創(chuàng)新方法的更多可能性。
Q&A
Q1:T1方法是什么?它能做什么? A:T1(Tool-integrated Self-verification)是一種讓小型AI模型借助外部工具來驗(yàn)證自己答案的方法。它能讓小模型在數(shù)學(xué)推理等任務(wù)上超越大模型,就像學(xué)生借助計(jì)算器和參考書來提高答題準(zhǔn)確性一樣。
Q2:小模型使用T1方法會(huì)不會(huì)完全取代大模型? A:目前不會(huì)完全取代,但會(huì)大大改變AI模型的使用方式。T1主要在特定任務(wù)(如數(shù)學(xué)計(jì)算、事實(shí)核查)上讓小模型表現(xiàn)更好,但大模型在復(fù)雜推理和創(chuàng)造性任務(wù)上仍有優(yōu)勢。
Q3:T1方法的工具驗(yàn)證有什么局限性? A:主要局限是只能過濾錯(cuò)誤答案,無法修復(fù)被誤判的正確答案。另外,生成的驗(yàn)證代碼有時(shí)可能因?yàn)榧夹g(shù)細(xì)節(jié)問題導(dǎo)致誤判,需要更精細(xì)的驗(yàn)證機(jī)制來改進(jìn)。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。