av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<blockquote id="b1rtl"></blockquote>

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

小模型也能超越大模型？KRAFTON揭秘讓AI學(xué)會(huì)"自己驗(yàn)證答案"的神奇工具

人工智能模型驗(yàn)證小型語言模型

小模型也能超越大模型？KRAFTON揭秘讓AI學(xué)會(huì)"自己驗(yàn)證答案"的神奇工具

作者：科技行者

2025-07-14 14:39

分享至：

KRAFTON研究團(tuán)隊(duì)提出T1方法，讓小型AI模型通過借助代碼解釋器等外部工具進(jìn)行自我驗(yàn)證，解決了小模型記憶力有限導(dǎo)致的驗(yàn)證準(zhǔn)確性問題。實(shí)驗(yàn)顯示，10億參數(shù)的模型配合T1方法在數(shù)學(xué)推理任務(wù)上能夠超越80億參數(shù)的獨(dú)立模型，為小型AI模型的高效部署開辟了新路徑。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-14 14:39 ? 科技行者

這項(xiàng)由韓國KRAFTON公司的康珉基（Minki Kang）、鄭鐘元（Jongwon Jeong）和趙在雄（Jaewoong Cho）領(lǐng)導(dǎo)的研究團(tuán)隊(duì)在2025年4月提交的論文，探索了一個(gè)令人著迷的問題：能否讓小型AI模型學(xué)會(huì)像人類一樣"自己檢查作業(yè)"？這篇題為《T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models》的研究論文揭示了一種革命性的方法，讓體積小巧的AI模型通過借助外部工具來驗(yàn)證自己的答案，從而在數(shù)學(xué)推理等復(fù)雜任務(wù)上超越體積大得多的模型。有興趣深入了解的讀者可以通過arXiv平臺(tái)訪問完整論文（論文編號(hào)：2504.04718v1）。

在人工智能的世界里，一直存在著一個(gè)有趣的現(xiàn)象：就像學(xué)生做數(shù)學(xué)題一樣，AI模型也會(huì)犯各種錯(cuò)誤，特別是在需要復(fù)雜推理的任務(wù)中。傳統(tǒng)的解決方案是讓AI"多做幾遍題目"，然后選擇看起來最好的答案。但這里有個(gè)關(guān)鍵問題：誰來判斷哪個(gè)答案是對的？通常，我們需要一個(gè)"老師"——也就是更大、更強(qiáng)的AI模型來做判斷?？墒?，如果我們想要使用小型、高效的AI模型（比如只有10億參數(shù)的模型），卻還需要依賴70億參數(shù)的大模型來做驗(yàn)證，這就失去了使用小模型的意義。

正是在這樣的背景下，KRAFTON的研究團(tuán)隊(duì)開始思考：能否讓小模型學(xué)會(huì)自己驗(yàn)證答案？他們發(fā)現(xiàn)，即使通過知識(shí)蒸餾技術(shù)（可以理解為讓小模型"抄"大模型的作業(yè)方法）訓(xùn)練小模型進(jìn)行自我驗(yàn)證，效果仍然不盡如人意。深入研究后，他們意識(shí)到問題的根源在于小模型的"記憶力"有限——它們往往記不住足夠多的事實(shí)和計(jì)算規(guī)則來準(zhǔn)確判斷答案的正誤。

研究團(tuán)隊(duì)通過一個(gè)簡單而有趣的實(shí)驗(yàn)證明了這個(gè)觀點(diǎn)。他們讓一個(gè)10億參數(shù)的小模型驗(yàn)證不同復(fù)雜度的數(shù)學(xué)計(jì)算，發(fā)現(xiàn)隨著計(jì)算中數(shù)字個(gè)數(shù)的增加，模型的驗(yàn)證準(zhǔn)確率急劇下降。比如驗(yàn)證3個(gè)三位數(shù)的加法，準(zhǔn)確率還能保持在較高水平，但當(dāng)數(shù)字增加到10個(gè)時(shí)，準(zhǔn)確率就跌到了60%左右。然而，當(dāng)研究人員讓模型不是直接驗(yàn)證答案，而是生成Python代碼來計(jì)算并驗(yàn)證時(shí)，準(zhǔn)確率幾乎保持不變，始終接近100%。這個(gè)發(fā)現(xiàn)就像突然找到了鑰匙一樣——原來小模型不是不會(huì)驗(yàn)證，而是需要借助合適的工具。

基于這個(gè)洞察，研究團(tuán)隊(duì)提出了"工具集成自驗(yàn)證"（T1）方法。這個(gè)方法的核心理念很簡單：讓小模型把那些需要大量記憶的驗(yàn)證步驟外包給專門的工具。就像人類在做復(fù)雜計(jì)算時(shí)會(huì)使用計(jì)算器一樣，AI模型也可以借助代碼解釋器來驗(yàn)證數(shù)學(xué)計(jì)算，或者使用搜索引擎來核實(shí)事實(shí)信息。

T1方法的工作流程可以比作一個(gè)精心設(shè)計(jì)的質(zhì)量控制系統(tǒng)。當(dāng)AI模型生成多個(gè)候選答案后，首先通過工具驗(yàn)證階段進(jìn)行初步篩選，就像工廠的第一道質(zhì)檢環(huán)節(jié)，把明顯有問題的產(chǎn)品（比如計(jì)算錯(cuò)誤的答案）直接淘汰。接著，通過獎(jiǎng)勵(lì)模型評(píng)分階段對剩余的候選答案進(jìn)行細(xì)致評(píng)估，就像終極質(zhì)檢環(huán)節(jié)，從邏輯一致性、表達(dá)連貫性等多個(gè)維度綜合評(píng)分，最終選出得分最高的答案作為最終結(jié)果。

為了讓小模型學(xué)會(huì)有效使用這些工具，研究團(tuán)隊(duì)采用了知識(shí)蒸餾技術(shù)。他們先讓更強(qiáng)大的教師模型（如GPT-4o-mini）展示如何正確使用工具進(jìn)行驗(yàn)證，然后讓小模型學(xué)習(xí)模仿這些行為。這個(gè)過程就像師傅教徒弟手藝一樣，通過大量的示范和練習(xí)，讓小模型掌握工具使用的技巧。為了高效管理不同類型的驗(yàn)證任務(wù)，研究團(tuán)隊(duì)還采用了多LoRA（Low-Rank Adaptation）技術(shù)，為每種驗(yàn)證任務(wù)分配專門的適配器，就像給不同的工作配備專門的工具箱。

從理論角度來看，T1方法的有效性可以用一個(gè)直觀的數(shù)學(xué)分析來解釋。研究團(tuán)隊(duì)以簡單的算術(shù)驗(yàn)證任務(wù)為例，證明了當(dāng)模型需要記住所有可能的加法組合時(shí)，所需的信息量會(huì)隨著數(shù)字范圍的立方增長。比如要驗(yàn)證所有三位數(shù)的加法，模型需要記住大約一百萬種組合的結(jié)果。但當(dāng)模型可以使用外部計(jì)算工具時(shí)，它幾乎不需要記住任何具體的計(jì)算結(jié)果，只需要學(xué)會(huì)如何正確調(diào)用工具即可。這就像從需要背誦整本字典，變成了只需要學(xué)會(huì)如何查字典。

研究團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果令人印象深刻。在數(shù)學(xué)推理任務(wù)上，配備了T1方法的10億參數(shù)Llama-3.2模型竟然能夠超越未使用T1的80億參數(shù)Llama-3.1模型。這就像一個(gè)初中生借助計(jì)算器和參考書，在數(shù)學(xué)競賽中擊敗了僅憑記憶應(yīng)戰(zhàn)的大學(xué)生。具體來說，在MATH500這個(gè)包含大學(xué)水平數(shù)學(xué)問題的測試集上，使用T1方法的1B模型在生成64個(gè)候選答案時(shí)的準(zhǔn)確率達(dá)到了約50%，而8B模型在貪婪解碼（只生成一個(gè)答案）時(shí)的準(zhǔn)確率僅為約47%。

更有趣的是，T1方法不僅在純數(shù)學(xué)任務(wù)上表現(xiàn)出色，在需要事實(shí)核查的知識(shí)密集型任務(wù)上也展現(xiàn)了良好的適應(yīng)性。研究團(tuán)隊(duì)將T1擴(kuò)展到MMLU-Pro這樣的多領(lǐng)域知識(shí)問答任務(wù)中，讓模型使用檢索工具從維基百科獲取相關(guān)信息來驗(yàn)證答案中的事實(shí)陳述。實(shí)驗(yàn)結(jié)果顯示，在健康、經(jīng)濟(jì)學(xué)和歷史等不同領(lǐng)域，T1方法都能帶來顯著的性能提升。

研究團(tuán)隊(duì)進(jìn)一步分析了T1方法在不同數(shù)學(xué)領(lǐng)域和難度級(jí)別上的表現(xiàn)。他們發(fā)現(xiàn)，T1在代數(shù)、數(shù)論和概率統(tǒng)計(jì)等計(jì)算密集型領(lǐng)域效果最為顯著，這符合預(yù)期，因?yàn)檫@些領(lǐng)域的驗(yàn)證任務(wù)主要依賴準(zhǔn)確的數(shù)值計(jì)算。然而，在幾何等更依賴空間推理的領(lǐng)域，改進(jìn)效果相對有限，這暗示了當(dāng)前方法的局限性。就難度級(jí)別而言，T1在中等難度（2-4級(jí)）的問題上表現(xiàn)最佳，但在最高難度（5級(jí)）的問題上效果有所下降，這表明僅僅解決計(jì)算準(zhǔn)確性問題還不足以應(yīng)對最復(fù)雜的推理挑戰(zhàn)。

實(shí)驗(yàn)還揭示了一個(gè)有趣的現(xiàn)象：隨著驗(yàn)證模型規(guī)模的增大，T1帶來的改進(jìn)幅度會(huì)逐漸縮小，但改進(jìn)始終存在。這說明即使是大型模型也能從工具輔助驗(yàn)證中受益，不過收益遞減效應(yīng)比較明顯。同時(shí)，研究團(tuán)隊(duì)發(fā)現(xiàn)T1能夠有效地作為過濾器，顯著減少錯(cuò)誤答案的數(shù)量。通過分析64個(gè)候選答案中正確答案的比例分布，他們發(fā)現(xiàn)T1能夠大幅提升每個(gè)問題的正確答案占比，從而為最終的答案選擇提供更好的候選池。

為了驗(yàn)證理論分析的正確性，研究團(tuán)隊(duì)還研究了T1在不同驗(yàn)證模型規(guī)模下的表現(xiàn)。他們固定工具驗(yàn)證部分使用1B模型，但讓獎(jiǎng)勵(lì)模型的規(guī)模從1B擴(kuò)展到8B。結(jié)果顯示，1B模型配合T1的表現(xiàn)甚至能夠超越8B模型的獨(dú)立驗(yàn)證，這進(jìn)一步證明了工具集成比簡單增加模型規(guī)模更為有效。

在數(shù)據(jù)效率方面，T1方法也表現(xiàn)出了令人驚喜的特點(diǎn)。研究團(tuán)隊(duì)發(fā)現(xiàn)，即使只使用10%的訓(xùn)練數(shù)據(jù)來訓(xùn)練工具驗(yàn)證模塊，其性能仍然能夠保持在較高水平，這大大降低了實(shí)際部署的成本和復(fù)雜度。這種數(shù)據(jù)效率的優(yōu)勢使得T1方法在資源受限的實(shí)際應(yīng)用場景中具有很強(qiáng)的實(shí)用性。

當(dāng)然，T1方法也存在一些局限性。首先，工具驗(yàn)證目前只能起到過濾器的作用，能夠排除明顯錯(cuò)誤的答案，但無法挽救被錯(cuò)誤拒絕的正確答案。這就像一個(gè)過于嚴(yán)格的審查員，雖然很少會(huì)讓錯(cuò)誤通過，但有時(shí)也會(huì)誤殺正確的內(nèi)容。其次，當(dāng)前的研究主要集中在并行測試時(shí)計(jì)算擴(kuò)展（best-of-N方法）上，這種方法雖然簡單有效，但缺乏不同生成之間的信息共享，可能錯(cuò)過了進(jìn)一步優(yōu)化的機(jī)會(huì)。

研究團(tuán)隊(duì)也注意到了工具驗(yàn)證中的一些技術(shù)細(xì)節(jié)問題。比如在數(shù)學(xué)驗(yàn)證中，有時(shí)生成的Python代碼可能在邏輯上是正確的，但由于符號(hào)計(jì)算的細(xì)微差別導(dǎo)致驗(yàn)證失敗。例如，兩個(gè)數(shù)學(xué)上等價(jià)的表達(dá)式可能因?yàn)樾问讲煌慌袛酁椴幌嗟?，這需要更精細(xì)的符號(hào)等價(jià)性檢查技術(shù)來解決。

展望未來，T1方法開啟了小型AI模型增強(qiáng)的新方向。研究團(tuán)隊(duì)提出了幾個(gè)有趣的擴(kuò)展可能性。第一個(gè)方向是將工具集成擴(kuò)展到驗(yàn)證步驟本身，讓驗(yàn)證過程不僅能夠過濾錯(cuò)誤答案，還能夠利用工具的正確性保證來主動(dòng)修正和改進(jìn)答案。第二個(gè)方向是探索T1在其他測試時(shí)計(jì)算擴(kuò)展策略中的應(yīng)用，比如步級(jí)搜索或序列化測試時(shí)擴(kuò)展，這些方法可能能夠更好地利用工具輔助推理的優(yōu)勢。

從更廣闊的視角來看，T1方法體現(xiàn)了AI發(fā)展的一個(gè)重要趨勢：不是單純追求模型規(guī)模的增大，而是通過智能的系統(tǒng)設(shè)計(jì)來實(shí)現(xiàn)性能的突破。這種思路不僅在技術(shù)上更加優(yōu)雅，在實(shí)用性上也更有前景，因?yàn)樗档土烁咝阅蹵I系統(tǒng)的部署門檻，使得更多的應(yīng)用場景能夠受益于先進(jìn)的AI能力。

說到底，KRAFTON的這項(xiàng)研究告訴我們一個(gè)簡單而深刻的道理：在AI的世界里，"小而巧"有時(shí)比"大而全"更有效。就像一個(gè)聰明的學(xué)生知道何時(shí)使用計(jì)算器，何時(shí)查閱資料一樣，AI模型也可以通過學(xué)會(huì)合理使用工具來彌補(bǔ)自身能力的不足。這不僅為小型AI模型的應(yīng)用開辟了新的可能性，也為整個(gè)AI系統(tǒng)的設(shè)計(jì)提供了新的思路。未來，我們可能會(huì)看到越來越多的AI系統(tǒng)采用這種"模型+工具"的協(xié)作模式，讓AI變得既高效又可靠。對于普通用戶而言，這意味著我們可能很快就能在手機(jī)、個(gè)人電腦等資源有限的設(shè)備上享受到高質(zhì)量的AI服務(wù)，而不需要依賴昂貴的云端大模型。有興趣深入了解技術(shù)細(xì)節(jié)的讀者，可以通過arXiv平臺(tái)查閱完整的研究論文，探索這一創(chuàng)新方法的更多可能性。

Q&A

Q1：T1方法是什么？它能做什么？ A：T1（Tool-integrated Self-verification）是一種讓小型AI模型借助外部工具來驗(yàn)證自己答案的方法。它能讓小模型在數(shù)學(xué)推理等任務(wù)上超越大模型，就像學(xué)生借助計(jì)算器和參考書來提高答題準(zhǔn)確性一樣。

Q2：小模型使用T1方法會(huì)不會(huì)完全取代大模型？ A：目前不會(huì)完全取代，但會(huì)大大改變AI模型的使用方式。T1主要在特定任務(wù)（如數(shù)學(xué)計(jì)算、事實(shí)核查）上讓小模型表現(xiàn)更好，但大模型在復(fù)雜推理和創(chuàng)造性任務(wù)上仍有優(yōu)勢。

Q3：T1方法的工具驗(yàn)證有什么局限性？ A：主要局限是只能過濾錯(cuò)誤答案，無法修復(fù)被誤判的正確答案。另外，生成的驗(yàn)證代碼有時(shí)可能因?yàn)榧夹g(shù)細(xì)節(jié)問題導(dǎo)致誤判，需要更精細(xì)的驗(yàn)證機(jī)制來改進(jìn)。

人工智能模型驗(yàn)證小型語言模型

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

自對弈訓(xùn)練
推理能力提升
零和游戲?qū)W習(xí)

2025-07-02 14:26

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架，通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示，僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%，通用推理提升8.4%，且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中，為AI訓(xùn)練提供了新思路。
計(jì)算機(jī)視覺
圖像降噪
3D相機(jī)技術(shù)

2025-07-02 14:26

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息，創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系，結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法，在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升，并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力，為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
人工智能
視覺語言模型
強(qiáng)化學(xué)習(xí)

2025-07-02 14:26

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn)，經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象，但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距"，即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力，且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息，為AI多模態(tài)推理發(fā)展提供了重要啟示。
大語言模型
稀疏性訓(xùn)練
計(jì)算效率優(yōu)化

2025-07-02 14:25

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù)，通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍，計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分，在保持模型性能的同時(shí)顯著提升訓(xùn)練效率，已在多個(gè)任務(wù)上驗(yàn)證有效性。

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

2025-07-02 14:26

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

2025-07-02 14:26

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

2025-07-02 14:26

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

2025-07-02 14:25

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn