av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<ol id="hfwps"><var id="hfwps"></var></ol>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

騰訊研究團隊首次從理論高度解密AI為何需要工具，背后竟隱藏著這樣的數(shù)學原理

人工智能工具集成推理強化學習優(yōu)化

騰訊研究團隊首次從理論高度解密AI為何需要工具，背后竟隱藏著這樣的數(shù)學原理

作者：科技行者

2025-09-02 09:33

分享至：

騰訊和清華研究團隊首次從數(shù)學理論角度解釋了為什么AI需要外部工具。研究證明純文本AI存在"隱形枷鎖"，無法突破預訓練的能力邊界，而工具集成能打破這種限制，讓AI獲得全新的問題解決策略。團隊還開發(fā)了ASPO算法，解決了訓練AI更早使用工具的技術(shù)難題。實驗顯示配備工具的AI在數(shù)學問題上全面超越純文本版本，展現(xiàn)出三種新奇認知模式，為構(gòu)建更強大的AI系統(tǒng)提供理論指導。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-09-02 09:33 ? 科技行者

這項由騰訊公司和清華大學的林恒、徐中文團隊進行的突破性研究，發(fā)表于2025年8月的計算機科學預印本服務(wù)器arXiv上（論文編號：arXiv:2508.19201v1），有興趣深入了解的讀者可以通過該編號在arXiv網(wǎng)站上訪問完整論文。

當今的AI語言模型就像是一位博學的學者，能夠流暢地對話、寫作、推理，但卻無法直接操作計算器、運行代碼或搜索最新信息。為了讓AI變得更強大，研究者們開始為它們配備各種"工具"——比如Python代碼解釋器、搜索引擎、計算器等。這種被稱為"工具集成推理"的方法在實際應(yīng)用中表現(xiàn)驚人，但一直以來，沒有人能從理論層面清晰解釋為什么給AI配備工具會如此有效。

騰訊和清華的研究團隊決定從數(shù)學原理的角度徹底解開這個謎團。他們的發(fā)現(xiàn)不僅在理論層面具有開創(chuàng)性意義，更為AI系統(tǒng)的設(shè)計和優(yōu)化提供了全新的指導原則。這項研究首次用嚴格的數(shù)學證明揭示了工具集成推理的本質(zhì)機制，同時開發(fā)了一種全新的訓練算法，讓AI能夠更早、更頻繁地使用工具，從而獲得更強的問題解決能力。

一、純文本AI的"隱形枷鎖"——為什么再怎么訓練都有局限

要理解為什么AI需要工具，我們首先要明白純文本AI面臨的根本限制。目前主流的AI訓練方法叫做強化學習，可以把它理解為一個不斷改進的過程：AI生成答案，人類給出好壞評價，AI據(jù)此調(diào)整自己的行為。

然而，研究團隊發(fā)現(xiàn)了一個被稱為"隱形枷鎖"的重要現(xiàn)象。純文本AI在強化學習過程中，實際上被牢牢限制在它最初就能生成的答案范圍內(nèi)。換句話說，如果AI的基礎(chǔ)模型從來沒有生成過某種類型的推理路徑，那么即使通過大量訓練，它也永遠學不會這種推理方式。

這就像是一個只會做中式炒菜的廚師，無論你怎么鼓勵他創(chuàng)新，他也不可能突然學會做法式烘焙，因為他的知識體系中根本沒有烘焙的基礎(chǔ)概念和步驟。AI也是如此——它只能在已有的"菜譜"中重新組合和優(yōu)化，卻無法創(chuàng)造出全新的"菜系"。

研究團隊用數(shù)學方法嚴格證明了這種限制的存在。他們將AI能夠生成的所有可能答案定義為一個"支持集"，就像是一個裝滿所有可能答案的大盒子。純文本AI在訓練過程中，這個盒子的大小是固定的——它只能調(diào)整盒子里每個答案被選擇的概率，但絕對無法往盒子里添加新的答案類型。

這種限制在解決復雜數(shù)學問題時表現(xiàn)得尤為明顯。許多數(shù)學問題需要進行大量重復計算、搜索所有可能的組合，或者驗證復雜的數(shù)學關(guān)系。純文本AI要完成這些任務(wù)，就必須用自然語言逐步描述每一個計算步驟，這不僅容易出錯，而且會消耗大量的"思考空間"（在AI術(shù)語中叫做"上下文窗口"）。

二、工具集成如何打破枷鎖——數(shù)學證明背后的深刻原理

研究團隊的核心發(fā)現(xiàn)是：當AI配備外部工具后，它的"支持集"——也就是能夠生成的答案類型——會發(fā)生本質(zhì)性的擴展。這種擴展不是量的增加，而是質(zhì)的突破。

為了理解這個原理，我們可以想象兩個不同的問題解決場景。第一個場景中，你需要心算一個復雜的數(shù)學表達式，比如計算573×891+432÷17的精確結(jié)果。你必須在腦中逐步進行每個運算，容易出錯，而且需要記住很多中間結(jié)果。第二個場景中，你可以使用計算器，只需要輸入表達式就能立即得到準確答案。

這兩種方法雖然都能解決同一個問題，但它們屬于完全不同的"策略類別"。研究團隊將這種區(qū)別形式化為"計算等價類"的概念——雖然最終目標相同，但解決路徑在本質(zhì)上完全不同。

更重要的是，研究團隊提出了"令牌效率"的概念。AI處理信息的單位叫做"令牌"（token），就像人類思考時的"思維步驟"。對于涉及大量重復計算的問題，用自然語言描述每一步的成本是巨大的。假設(shè)你要檢查10000個數(shù)字中哪些是質(zhì)數(shù)，用自然語言描述就需要寫"首先檢查1是否為質(zhì)數(shù)，然后檢查2，接著檢查3..."，這樣的描述可能需要幾十萬個令牌。但如果寫一段簡單的程序代碼，可能只需要幾十個令牌就能完成同樣的任務(wù)。

研究團隊用一個巧妙的數(shù)學構(gòu)造證明了這種差異的必然性。他們考慮了一種特殊的計算任務(wù)，類似于查找一個巨大字典中的特定詞條。如果沒有工具，AI必須逐個描述查找的每一步，就像一頁頁翻閱字典并大聲讀出每個詞條。但如果有工具（比如哈希函數(shù)），AI可以直接"跳轉(zhuǎn)"到正確位置，瞬間找到答案。

這種差異不僅存在于明顯的計算任務(wù)中。即使是需要深度數(shù)學洞察的抽象問題，工具也能提供意想不到的幫助。研究團隊發(fā)現(xiàn)，AI可以用代碼進行"探索性計算"——通過嘗試不同的數(shù)值例子來發(fā)現(xiàn)數(shù)學模式，然后基于這些模式構(gòu)建嚴格的數(shù)學證明。這就像是數(shù)學家使用計算器輔助驗證猜想，雖然最終的證明仍需要數(shù)學洞察，但工具能夠大大加速發(fā)現(xiàn)過程。

三、實驗驗證——三種新奇的AI"思維模式"

為了驗證理論發(fā)現(xiàn)，研究團隊設(shè)計了大量實驗，重點關(guān)注AI如何解決具有挑戰(zhàn)性的數(shù)學競賽題目。他們訓練了兩個版本的AI：一個只能使用文本進行推理，另一個配備了Python代碼解釋器。

實驗結(jié)果完全證實了理論預測。配備工具的AI在所有測試中都顯著超越了純文本版本，而且這種優(yōu)勢在樣本數(shù)量增加時始終保持，沒有出現(xiàn)此前研究中觀察到的性能交叉現(xiàn)象。更令人驚訝的是，這種優(yōu)勢不僅存在于計算密集型問題中，即使是需要深度抽象思維的數(shù)學問題，工具集成的AI也表現(xiàn)得更好。

為了理解這種普遍優(yōu)勢的來源，研究團隊開發(fā)了一個"算法友好度"評分系統(tǒng)，用來衡量數(shù)學問題對計算方法的依賴程度。他們發(fā)現(xiàn)，即使是評分很低的問題（主要依賴抽象推理而非計算），配備工具的AI仍然保持約9%的性能優(yōu)勢。這說明工具的作用遠超簡單的"計算器"功能。

通過深入分析AI的解題過程，研究團隊識別出了三種全新的"認知模式"，這些模式只在工具集成的AI中出現(xiàn)。

第一種模式被稱為"洞察到計算的轉(zhuǎn)換"。在這種模式下，AI首先進行深度的數(shù)學分析，將復雜的抽象問題轉(zhuǎn)化為可以用算法高效解決的具體問題。例如，面對一個復雜的幾何問題，AI會先用數(shù)學推理將其轉(zhuǎn)化為需要檢驗大量數(shù)值組合的代數(shù)方程，然后編寫代碼系統(tǒng)性地搜索所有可能的解。這種方法的精妙之處在于，它將人類數(shù)學家的洞察力與計算機的計算能力完美結(jié)合。

第二種模式是"通過代碼進行探索和驗證"。當面對解法不明顯的問題時，AI會將代碼解釋器當作一個"實驗室"，通過編寫小段代碼來測試各種假設(shè)。這個過程很像科學家進行實驗——提出猜想，設(shè)計實驗驗證，根據(jù)結(jié)果調(diào)整理論，然后繼續(xù)實驗。比如，在解決一個關(guān)于最優(yōu)參數(shù)的問題時，AI可能會先編寫代碼測試幾個具體的參數(shù)值，觀察結(jié)果的模式，然后基于這些觀察提出一般性的數(shù)學證明。

第三種模式是"復雜計算的外包"。這是最直觀的工具使用方式，AI將容易出錯的復雜計算委托給代碼解釋器處理。雖然看似簡單，但這種模式的重要性不可低估。通過避免計算錯誤，AI可以將全部"注意力"集中在高層次的推理上，大大提高了整體解題質(zhì)量。

四、新算法解決實際問題——讓AI更早使用工具

理論發(fā)現(xiàn)和實驗驗證都指向一個重要結(jié)論：AI應(yīng)該更頻繁、更早地使用工具。然而，當研究團隊嘗試用傳統(tǒng)方法訓練AI更早使用代碼時，遇到了意想不到的技術(shù)難題。

傳統(tǒng)的做法是修改獎勵函數(shù)——如果AI在解題過程中較早使用了代碼，就給它額外的獎勵分數(shù)。這種方法在理論上很直觀，但在實際訓練中卻導致了嚴重的不穩(wěn)定性。問題的根源在于現(xiàn)代AI訓練算法的一個技術(shù)細節(jié)：為了保持訓練穩(wěn)定，算法會對獎勵分數(shù)進行標準化處理。

這個標準化過程就像是將所有學生的考試成績轉(zhuǎn)換為相對排名——無論原始分數(shù)是多少，總是有一半學生會被排在平均水平以下。當所有AI回答都正確時，原本用來區(qū)分正確答案的主要獎勵信號會被標準化抵消，結(jié)果導致那些本來應(yīng)該被鼓勵的早期代碼使用行為反而被當作"錯誤"受到懲罰。

面對這個技術(shù)挑戰(zhàn)，研究團隊開發(fā)了一種全新的訓練算法，名為"優(yōu)勢塑形策略優(yōu)化"（ASPO）。這種方法的核心思想是繞過不穩(wěn)定的獎勵修改，直接在訓練的最后階段調(diào)整AI的行為傾向。

ASPO的工作原理可以用調(diào)音師調(diào)節(jié)鋼琴的比喻來理解。傳統(tǒng)方法試圖通過改變琴弦的材質(zhì)來改變音調(diào)，但這會影響鋼琴的整體穩(wěn)定性。ASPO則是在保持琴弦不變的情況下，在最后的調(diào)音環(huán)節(jié)進行精細調(diào)整。具體來說，算法會在確定AI回答正確性之后，根據(jù)代碼使用的時機給予額外的"微調(diào)"，鼓勵早期使用代碼，但這種調(diào)整的幅度被嚴格限制，確保不會影響AI回答正確性的基本判斷。

實驗結(jié)果證明了ASPO算法的有效性。使用新算法訓練的AI平均在1000個令牌位置就開始使用代碼，而傳統(tǒng)方法訓練的AI通常要等到4000個令牌位置才開始使用工具。同時，新算法訓練的AI每個問題平均進行3.3輪代碼交互，是傳統(tǒng)方法的兩倍多。更重要的是，這些行為改變是在不犧牲解題準確性的前提下實現(xiàn)的。

五、更廣泛的應(yīng)用前景——不只是Python代碼

雖然這項研究主要關(guān)注Python代碼解釋器，但其理論框架適用于各種類型的外部工具。研究團隊在論文的擴展部分詳細分析了理論如何應(yīng)用于搜索引擎、數(shù)據(jù)庫、驗證工具，甚至是與環(huán)境的交互。

搜索和檢索工具的情況特別有趣。當AI需要獲取最新信息或特定領(lǐng)域的專業(yè)知識時，搜索工具提供的信息往往具有很高的"信息密度"——用很少的令牌就能傳遞大量有價值的內(nèi)容。相比之下，如果讓AI嘗試從記憶中重現(xiàn)這些信息，不僅可能不準確，而且會消耗大量的思考空間。

驗證工具代表了另一個重要的應(yīng)用方向。這類工具包括單元測試框架、符號代數(shù)系統(tǒng)、SAT求解器等。它們的主要作用不是提供新信息，而是快速驗證AI的推理結(jié)果。在復雜的問題解決過程中，這種即時驗證能力極大地減少了錯誤積累，讓AI可以更大膽地探索不同的解決路徑。

對于需要大量外部存儲的任務(wù)，鍵值存儲、向量數(shù)據(jù)庫等工具能夠為AI提供幾乎無限的"外部記憶"。這特別適用于需要處理大量文檔、維護復雜狀態(tài)，或進行長期推理的任務(wù)。

六、實際影響與未來展望

這項研究的理論貢獻超越了具體的技術(shù)實現(xiàn)，為整個AI領(lǐng)域提供了新的思考框架。它表明，未來的AI系統(tǒng)設(shè)計應(yīng)該從根本上擺脫"萬能單體"的思路，轉(zhuǎn)向"專業(yè)協(xié)作"的模式——讓AI核心負責高層次推理和決策，將專業(yè)化任務(wù)委托給相應(yīng)的工具。

從實際應(yīng)用的角度來看，這種理念已經(jīng)在多個領(lǐng)域展現(xiàn)出巨大潛力。在科學研究中，配備計算工具的AI可以幫助研究者快速驗證理論假設(shè)，探索大規(guī)模參數(shù)空間，發(fā)現(xiàn)人類難以察覺的數(shù)據(jù)模式。在軟件開發(fā)領(lǐng)域，能夠熟練使用各種開發(fā)工具的AI助手正在改變程序員的工作方式。在教育領(lǐng)域，可以使用計算工具的AI tutors能夠為學生提供更準確、更個性化的學習指導。

研究團隊開發(fā)的ASPO算法也有廣泛的應(yīng)用價值。它解決的核心問題——如何在不影響主要目標的前提下優(yōu)化AI的行為模式——在許多AI訓練場景中都會遇到。這種方法可能會被用來訓練AI更好地與人類協(xié)作，更有效地使用各種專業(yè)工具，或者表現(xiàn)出更符合人類期望的交互風格。

更深層次的意義在于，這項研究為AI能力的理論邊界提供了新的理解。它證明了外部工具不是AI系統(tǒng)的簡單附加功能，而是突破內(nèi)在限制的必要條件。這種認識可能會影響未來AI系統(tǒng)的架構(gòu)設(shè)計，推動更多創(chuàng)新性的人機協(xié)作模式出現(xiàn)。

從長遠來看，這項研究指向了一個令人興奮的未來愿景：AI系統(tǒng)不再是孤立的智能體，而是能夠熟練使用各種專業(yè)工具的智能代理。它們可以根據(jù)任務(wù)需要靈活選擇和組合不同的工具，形成強大的問題解決網(wǎng)絡(luò)。在這樣的系統(tǒng)中，人類的角色也會發(fā)生相應(yīng)變化——從直接的問題解決者轉(zhuǎn)向AI系統(tǒng)的指導者和協(xié)調(diào)者，專注于提供創(chuàng)造性洞察和價值判斷。

這項由騰訊和清華研究團隊完成的工作，不僅在理論上回答了"為什么AI需要工具"這個基礎(chǔ)問題，更為實際的AI系統(tǒng)優(yōu)化提供了科學的指導原則。它標志著我們對AI能力理解的一個重要進步，也為構(gòu)建更強大、更實用的AI系統(tǒng)指明了方向。對于有興趣深入了解技術(shù)細節(jié)的讀者，完整的研究論文可以通過arXiv編號2508.19201v1獲取。

Q&A

Q1：什么是工具集成推理，它與普通的AI有什么區(qū)別？

A：工具集成推理就是讓AI不僅能用文字思考，還能使用外部工具如代碼解釋器、搜索引擎等來解決問題。就像給一個只會心算的人配備計算器和參考書，普通AI只能用文字逐步推理，而配備工具的AI可以將復雜計算交給專業(yè)工具處理，從而解決更復雜的問題。

Q2：為什么純文本AI無論怎么訓練都有局限性？

A：研究發(fā)現(xiàn)純文本AI被"隱形枷鎖"束縛——它只能在最初就能生成的答案類型中優(yōu)化，無法創(chuàng)造全新的推理路徑。這就像一個只會中式炒菜的廚師，無論怎么練習都學不會法式烘焙，因為知識體系中缺乏基礎(chǔ)概念。AI也是如此，強化學習只能調(diào)整已有答案的概率，不能添加新的解題策略。

Q3：ASPO算法解決了什么問題，它是如何工作的？

A：ASPO算法解決了訓練AI更早使用工具時出現(xiàn)的不穩(wěn)定問題。傳統(tǒng)方法通過修改獎勵容易導致訓練崩潰，ASPO則繞過這個問題，在訓練最后階段直接調(diào)整AI的行為傾向。就像調(diào)音師不改變琴弦材質(zhì)，而是在最后的調(diào)音環(huán)節(jié)進行精細調(diào)整，既鼓勵早期使用代碼，又保持訓練穩(wěn)定性。

人工智能工具集成推理強化學習優(yōu)化

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機制和漸進式訓練，能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學習
多模態(tài)學習

2025-09-09 13:57

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學習外觀和運動信息，顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預報，準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

_{<p id="huyxy"></p>}<sub id="huyxy"></sub>