這項由騰訊公司和清華大學的林恒、徐中文團隊進行的突破性研究,發(fā)表于2025年8月的計算機科學預印本服務(wù)器arXiv上(論文編號:arXiv:2508.19201v1),有興趣深入了解的讀者可以通過該編號在arXiv網(wǎng)站上訪問完整論文。
當今的AI語言模型就像是一位博學的學者,能夠流暢地對話、寫作、推理,但卻無法直接操作計算器、運行代碼或搜索最新信息。為了讓AI變得更強大,研究者們開始為它們配備各種"工具"——比如Python代碼解釋器、搜索引擎、計算器等。這種被稱為"工具集成推理"的方法在實際應(yīng)用中表現(xiàn)驚人,但一直以來,沒有人能從理論層面清晰解釋為什么給AI配備工具會如此有效。
騰訊和清華的研究團隊決定從數(shù)學原理的角度徹底解開這個謎團。他們的發(fā)現(xiàn)不僅在理論層面具有開創(chuàng)性意義,更為AI系統(tǒng)的設(shè)計和優(yōu)化提供了全新的指導原則。這項研究首次用嚴格的數(shù)學證明揭示了工具集成推理的本質(zhì)機制,同時開發(fā)了一種全新的訓練算法,讓AI能夠更早、更頻繁地使用工具,從而獲得更強的問題解決能力。
一、純文本AI的"隱形枷鎖"——為什么再怎么訓練都有局限
要理解為什么AI需要工具,我們首先要明白純文本AI面臨的根本限制。目前主流的AI訓練方法叫做強化學習,可以把它理解為一個不斷改進的過程:AI生成答案,人類給出好壞評價,AI據(jù)此調(diào)整自己的行為。
然而,研究團隊發(fā)現(xiàn)了一個被稱為"隱形枷鎖"的重要現(xiàn)象。純文本AI在強化學習過程中,實際上被牢牢限制在它最初就能生成的答案范圍內(nèi)。換句話說,如果AI的基礎(chǔ)模型從來沒有生成過某種類型的推理路徑,那么即使通過大量訓練,它也永遠學不會這種推理方式。
這就像是一個只會做中式炒菜的廚師,無論你怎么鼓勵他創(chuàng)新,他也不可能突然學會做法式烘焙,因為他的知識體系中根本沒有烘焙的基礎(chǔ)概念和步驟。AI也是如此——它只能在已有的"菜譜"中重新組合和優(yōu)化,卻無法創(chuàng)造出全新的"菜系"。
研究團隊用數(shù)學方法嚴格證明了這種限制的存在。他們將AI能夠生成的所有可能答案定義為一個"支持集",就像是一個裝滿所有可能答案的大盒子。純文本AI在訓練過程中,這個盒子的大小是固定的——它只能調(diào)整盒子里每個答案被選擇的概率,但絕對無法往盒子里添加新的答案類型。
這種限制在解決復雜數(shù)學問題時表現(xiàn)得尤為明顯。許多數(shù)學問題需要進行大量重復計算、搜索所有可能的組合,或者驗證復雜的數(shù)學關(guān)系。純文本AI要完成這些任務(wù),就必須用自然語言逐步描述每一個計算步驟,這不僅容易出錯,而且會消耗大量的"思考空間"(在AI術(shù)語中叫做"上下文窗口")。
二、工具集成如何打破枷鎖——數(shù)學證明背后的深刻原理
研究團隊的核心發(fā)現(xiàn)是:當AI配備外部工具后,它的"支持集"——也就是能夠生成的答案類型——會發(fā)生本質(zhì)性的擴展。這種擴展不是量的增加,而是質(zhì)的突破。
為了理解這個原理,我們可以想象兩個不同的問題解決場景。第一個場景中,你需要心算一個復雜的數(shù)學表達式,比如計算573×891+432÷17的精確結(jié)果。你必須在腦中逐步進行每個運算,容易出錯,而且需要記住很多中間結(jié)果。第二個場景中,你可以使用計算器,只需要輸入表達式就能立即得到準確答案。
這兩種方法雖然都能解決同一個問題,但它們屬于完全不同的"策略類別"。研究團隊將這種區(qū)別形式化為"計算等價類"的概念——雖然最終目標相同,但解決路徑在本質(zhì)上完全不同。
更重要的是,研究團隊提出了"令牌效率"的概念。AI處理信息的單位叫做"令牌"(token),就像人類思考時的"思維步驟"。對于涉及大量重復計算的問題,用自然語言描述每一步的成本是巨大的。假設(shè)你要檢查10000個數(shù)字中哪些是質(zhì)數(shù),用自然語言描述就需要寫"首先檢查1是否為質(zhì)數(shù),然后檢查2,接著檢查3...",這樣的描述可能需要幾十萬個令牌。但如果寫一段簡單的程序代碼,可能只需要幾十個令牌就能完成同樣的任務(wù)。
研究團隊用一個巧妙的數(shù)學構(gòu)造證明了這種差異的必然性。他們考慮了一種特殊的計算任務(wù),類似于查找一個巨大字典中的特定詞條。如果沒有工具,AI必須逐個描述查找的每一步,就像一頁頁翻閱字典并大聲讀出每個詞條。但如果有工具(比如哈希函數(shù)),AI可以直接"跳轉(zhuǎn)"到正確位置,瞬間找到答案。
這種差異不僅存在于明顯的計算任務(wù)中。即使是需要深度數(shù)學洞察的抽象問題,工具也能提供意想不到的幫助。研究團隊發(fā)現(xiàn),AI可以用代碼進行"探索性計算"——通過嘗試不同的數(shù)值例子來發(fā)現(xiàn)數(shù)學模式,然后基于這些模式構(gòu)建嚴格的數(shù)學證明。這就像是數(shù)學家使用計算器輔助驗證猜想,雖然最終的證明仍需要數(shù)學洞察,但工具能夠大大加速發(fā)現(xiàn)過程。
三、實驗驗證——三種新奇的AI"思維模式"
為了驗證理論發(fā)現(xiàn),研究團隊設(shè)計了大量實驗,重點關(guān)注AI如何解決具有挑戰(zhàn)性的數(shù)學競賽題目。他們訓練了兩個版本的AI:一個只能使用文本進行推理,另一個配備了Python代碼解釋器。
實驗結(jié)果完全證實了理論預測。配備工具的AI在所有測試中都顯著超越了純文本版本,而且這種優(yōu)勢在樣本數(shù)量增加時始終保持,沒有出現(xiàn)此前研究中觀察到的性能交叉現(xiàn)象。更令人驚訝的是,這種優(yōu)勢不僅存在于計算密集型問題中,即使是需要深度抽象思維的數(shù)學問題,工具集成的AI也表現(xiàn)得更好。
為了理解這種普遍優(yōu)勢的來源,研究團隊開發(fā)了一個"算法友好度"評分系統(tǒng),用來衡量數(shù)學問題對計算方法的依賴程度。他們發(fā)現(xiàn),即使是評分很低的問題(主要依賴抽象推理而非計算),配備工具的AI仍然保持約9%的性能優(yōu)勢。這說明工具的作用遠超簡單的"計算器"功能。
通過深入分析AI的解題過程,研究團隊識別出了三種全新的"認知模式",這些模式只在工具集成的AI中出現(xiàn)。
第一種模式被稱為"洞察到計算的轉(zhuǎn)換"。在這種模式下,AI首先進行深度的數(shù)學分析,將復雜的抽象問題轉(zhuǎn)化為可以用算法高效解決的具體問題。例如,面對一個復雜的幾何問題,AI會先用數(shù)學推理將其轉(zhuǎn)化為需要檢驗大量數(shù)值組合的代數(shù)方程,然后編寫代碼系統(tǒng)性地搜索所有可能的解。這種方法的精妙之處在于,它將人類數(shù)學家的洞察力與計算機的計算能力完美結(jié)合。
第二種模式是"通過代碼進行探索和驗證"。當面對解法不明顯的問題時,AI會將代碼解釋器當作一個"實驗室",通過編寫小段代碼來測試各種假設(shè)。這個過程很像科學家進行實驗——提出猜想,設(shè)計實驗驗證,根據(jù)結(jié)果調(diào)整理論,然后繼續(xù)實驗。比如,在解決一個關(guān)于最優(yōu)參數(shù)的問題時,AI可能會先編寫代碼測試幾個具體的參數(shù)值,觀察結(jié)果的模式,然后基于這些觀察提出一般性的數(shù)學證明。
第三種模式是"復雜計算的外包"。這是最直觀的工具使用方式,AI將容易出錯的復雜計算委托給代碼解釋器處理。雖然看似簡單,但這種模式的重要性不可低估。通過避免計算錯誤,AI可以將全部"注意力"集中在高層次的推理上,大大提高了整體解題質(zhì)量。
四、新算法解決實際問題——讓AI更早使用工具
理論發(fā)現(xiàn)和實驗驗證都指向一個重要結(jié)論:AI應(yīng)該更頻繁、更早地使用工具。然而,當研究團隊嘗試用傳統(tǒng)方法訓練AI更早使用代碼時,遇到了意想不到的技術(shù)難題。
傳統(tǒng)的做法是修改獎勵函數(shù)——如果AI在解題過程中較早使用了代碼,就給它額外的獎勵分數(shù)。這種方法在理論上很直觀,但在實際訓練中卻導致了嚴重的不穩(wěn)定性。問題的根源在于現(xiàn)代AI訓練算法的一個技術(shù)細節(jié):為了保持訓練穩(wěn)定,算法會對獎勵分數(shù)進行標準化處理。
這個標準化過程就像是將所有學生的考試成績轉(zhuǎn)換為相對排名——無論原始分數(shù)是多少,總是有一半學生會被排在平均水平以下。當所有AI回答都正確時,原本用來區(qū)分正確答案的主要獎勵信號會被標準化抵消,結(jié)果導致那些本來應(yīng)該被鼓勵的早期代碼使用行為反而被當作"錯誤"受到懲罰。
面對這個技術(shù)挑戰(zhàn),研究團隊開發(fā)了一種全新的訓練算法,名為"優(yōu)勢塑形策略優(yōu)化"(ASPO)。這種方法的核心思想是繞過不穩(wěn)定的獎勵修改,直接在訓練的最后階段調(diào)整AI的行為傾向。
ASPO的工作原理可以用調(diào)音師調(diào)節(jié)鋼琴的比喻來理解。傳統(tǒng)方法試圖通過改變琴弦的材質(zhì)來改變音調(diào),但這會影響鋼琴的整體穩(wěn)定性。ASPO則是在保持琴弦不變的情況下,在最后的調(diào)音環(huán)節(jié)進行精細調(diào)整。具體來說,算法會在確定AI回答正確性之后,根據(jù)代碼使用的時機給予額外的"微調(diào)",鼓勵早期使用代碼,但這種調(diào)整的幅度被嚴格限制,確保不會影響AI回答正確性的基本判斷。
實驗結(jié)果證明了ASPO算法的有效性。使用新算法訓練的AI平均在1000個令牌位置就開始使用代碼,而傳統(tǒng)方法訓練的AI通常要等到4000個令牌位置才開始使用工具。同時,新算法訓練的AI每個問題平均進行3.3輪代碼交互,是傳統(tǒng)方法的兩倍多。更重要的是,這些行為改變是在不犧牲解題準確性的前提下實現(xiàn)的。
五、更廣泛的應(yīng)用前景——不只是Python代碼
雖然這項研究主要關(guān)注Python代碼解釋器,但其理論框架適用于各種類型的外部工具。研究團隊在論文的擴展部分詳細分析了理論如何應(yīng)用于搜索引擎、數(shù)據(jù)庫、驗證工具,甚至是與環(huán)境的交互。
搜索和檢索工具的情況特別有趣。當AI需要獲取最新信息或特定領(lǐng)域的專業(yè)知識時,搜索工具提供的信息往往具有很高的"信息密度"——用很少的令牌就能傳遞大量有價值的內(nèi)容。相比之下,如果讓AI嘗試從記憶中重現(xiàn)這些信息,不僅可能不準確,而且會消耗大量的思考空間。
驗證工具代表了另一個重要的應(yīng)用方向。這類工具包括單元測試框架、符號代數(shù)系統(tǒng)、SAT求解器等。它們的主要作用不是提供新信息,而是快速驗證AI的推理結(jié)果。在復雜的問題解決過程中,這種即時驗證能力極大地減少了錯誤積累,讓AI可以更大膽地探索不同的解決路徑。
對于需要大量外部存儲的任務(wù),鍵值存儲、向量數(shù)據(jù)庫等工具能夠為AI提供幾乎無限的"外部記憶"。這特別適用于需要處理大量文檔、維護復雜狀態(tài),或進行長期推理的任務(wù)。
六、實際影響與未來展望
這項研究的理論貢獻超越了具體的技術(shù)實現(xiàn),為整個AI領(lǐng)域提供了新的思考框架。它表明,未來的AI系統(tǒng)設(shè)計應(yīng)該從根本上擺脫"萬能單體"的思路,轉(zhuǎn)向"專業(yè)協(xié)作"的模式——讓AI核心負責高層次推理和決策,將專業(yè)化任務(wù)委托給相應(yīng)的工具。
從實際應(yīng)用的角度來看,這種理念已經(jīng)在多個領(lǐng)域展現(xiàn)出巨大潛力。在科學研究中,配備計算工具的AI可以幫助研究者快速驗證理論假設(shè),探索大規(guī)模參數(shù)空間,發(fā)現(xiàn)人類難以察覺的數(shù)據(jù)模式。在軟件開發(fā)領(lǐng)域,能夠熟練使用各種開發(fā)工具的AI助手正在改變程序員的工作方式。在教育領(lǐng)域,可以使用計算工具的AI tutors能夠為學生提供更準確、更個性化的學習指導。
研究團隊開發(fā)的ASPO算法也有廣泛的應(yīng)用價值。它解決的核心問題——如何在不影響主要目標的前提下優(yōu)化AI的行為模式——在許多AI訓練場景中都會遇到。這種方法可能會被用來訓練AI更好地與人類協(xié)作,更有效地使用各種專業(yè)工具,或者表現(xiàn)出更符合人類期望的交互風格。
更深層次的意義在于,這項研究為AI能力的理論邊界提供了新的理解。它證明了外部工具不是AI系統(tǒng)的簡單附加功能,而是突破內(nèi)在限制的必要條件。這種認識可能會影響未來AI系統(tǒng)的架構(gòu)設(shè)計,推動更多創(chuàng)新性的人機協(xié)作模式出現(xiàn)。
從長遠來看,這項研究指向了一個令人興奮的未來愿景:AI系統(tǒng)不再是孤立的智能體,而是能夠熟練使用各種專業(yè)工具的智能代理。它們可以根據(jù)任務(wù)需要靈活選擇和組合不同的工具,形成強大的問題解決網(wǎng)絡(luò)。在這樣的系統(tǒng)中,人類的角色也會發(fā)生相應(yīng)變化——從直接的問題解決者轉(zhuǎn)向AI系統(tǒng)的指導者和協(xié)調(diào)者,專注于提供創(chuàng)造性洞察和價值判斷。
這項由騰訊和清華研究團隊完成的工作,不僅在理論上回答了"為什么AI需要工具"這個基礎(chǔ)問題,更為實際的AI系統(tǒng)優(yōu)化提供了科學的指導原則。它標志著我們對AI能力理解的一個重要進步,也為構(gòu)建更強大、更實用的AI系統(tǒng)指明了方向。對于有興趣深入了解技術(shù)細節(jié)的讀者,完整的研究論文可以通過arXiv編號2508.19201v1獲取。
Q&A
Q1:什么是工具集成推理,它與普通的AI有什么區(qū)別?
A:工具集成推理就是讓AI不僅能用文字思考,還能使用外部工具如代碼解釋器、搜索引擎等來解決問題。就像給一個只會心算的人配備計算器和參考書,普通AI只能用文字逐步推理,而配備工具的AI可以將復雜計算交給專業(yè)工具處理,從而解決更復雜的問題。
Q2:為什么純文本AI無論怎么訓練都有局限性?
A:研究發(fā)現(xiàn)純文本AI被"隱形枷鎖"束縛——它只能在最初就能生成的答案類型中優(yōu)化,無法創(chuàng)造全新的推理路徑。這就像一個只會中式炒菜的廚師,無論怎么練習都學不會法式烘焙,因為知識體系中缺乏基礎(chǔ)概念。AI也是如此,強化學習只能調(diào)整已有答案的概率,不能添加新的解題策略。
Q3:ASPO算法解決了什么問題,它是如何工作的?
A:ASPO算法解決了訓練AI更早使用工具時出現(xiàn)的不穩(wěn)定問題。傳統(tǒng)方法通過修改獎勵容易導致訓練崩潰,ASPO則繞過這個問題,在訓練最后階段直接調(diào)整AI的行為傾向。就像調(diào)音師不改變琴弦材質(zhì),而是在最后的調(diào)音環(huán)節(jié)進行精細調(diào)整,既鼓勵早期使用代碼,又保持訓練穩(wěn)定性。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領(lǐng)域帶來了效率和精度的雙重突破。