這項(xiàng)令人振奮的研究來自ByteDance(字節(jié)跳動(dòng))的人工智能團(tuán)隊(duì),以及M-A-P實(shí)驗(yàn)室和曼徹斯特大學(xué)的合作。研究團(tuán)隊(duì)由鄭天宇、邢天舜、顧清水、梁濤然等多位研究者組成,論文于2025年7月發(fā)表在arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2507.07017v1)。有興趣深入了解的讀者可以通過https://huggingface.co/FR3E-Bytedance訪問項(xiàng)目主頁獲取更多信息。
要理解這項(xiàng)研究的意義,我們不妨把AI解數(shù)學(xué)題的過程比作偵探破案。傳統(tǒng)的AI就像一個(gè)急躁的偵探,拿到案子后立馬開始推理,但往往在關(guān)鍵線索面前猶豫不決,最終要么瞎蒙答案,要么在錯(cuò)誤的方向上越走越遠(yuǎn)。而這項(xiàng)研究提出的FR3E算法,就像訓(xùn)練出了一個(gè)更聰明的偵探——它會(huì)先仔細(xì)分析整個(gè)案情,找出那些最讓人困惑的關(guān)鍵節(jié)點(diǎn),然后在這些地方進(jìn)行深入的"現(xiàn)場(chǎng)勘查",通過多種可能性的推演來找到正確答案。
當(dāng)前的AI數(shù)學(xué)推理面臨著一個(gè)根本性的挑戰(zhàn)。就好比一個(gè)學(xué)生在考試時(shí),即使每一步計(jì)算都正確,但如果在關(guān)鍵的推理環(huán)節(jié)出現(xiàn)偏差,整道題就會(huì)前功盡棄。現(xiàn)有的強(qiáng)化學(xué)習(xí)方法通常采用一種"一刀切"的獎(jiǎng)勵(lì)方式——只有最終答案對(duì)了才給分,答案錯(cuò)了就一分不給。這就像老師只看最后結(jié)果,不關(guān)心學(xué)生的思考過程一樣。這種做法的問題在于,AI無法知道自己在推理過程中的哪一步是關(guān)鍵的,哪一步是次要的,導(dǎo)致學(xué)習(xí)效率低下。
更糟糕的是,現(xiàn)有方法還容易陷入一種叫做"過度思考"的陷阱。就像有些學(xué)生明明已經(jīng)想出了正確答案,卻因?yàn)椴粔蜃孕哦^續(xù)糾結(jié),最終把對(duì)的答案改錯(cuò)了。AI也會(huì)出現(xiàn)類似問題——在已經(jīng)找到正確推理路徑的情況下,繼續(xù)進(jìn)行不必要的推理,反而把自己繞糊涂了。
針對(duì)這些問題,研究團(tuán)隊(duì)開發(fā)了FR3E算法。這個(gè)名字來自"First Return, Entropy-Eliciting Explore"(首次返回,熵誘導(dǎo)探索),聽起來很學(xué)術(shù)化,但其實(shí)核心思想很簡(jiǎn)單:就像一個(gè)優(yōu)秀的偵探,先完整地梳理一遍案情,找出最讓人困惑的幾個(gè)關(guān)鍵點(diǎn),然后在這些地方進(jìn)行深入調(diào)查。
FR3E的工作流程可以分為兩個(gè)主要階段。第一階段叫做"首次返回",就像偵探初次勘查現(xiàn)場(chǎng)。AI會(huì)先按照正常流程完成一遍數(shù)學(xué)推理,生成一個(gè)完整的解答過程。但與傳統(tǒng)方法不同的是,F(xiàn)R3E會(huì)仔細(xì)分析這個(gè)推理過程,找出那些讓AI最"糾結(jié)"的地方。
這些"糾結(jié)"的地方在技術(shù)上被稱為高熵點(diǎn)。簡(jiǎn)單來說,就像你在解題時(shí)遇到的那些讓你猶豫不決的關(guān)鍵步驟——比如"這里應(yīng)該用哪個(gè)公式"、"這個(gè)變量應(yīng)該怎么處理"等等。FR3E通過計(jì)算每個(gè)推理步驟的不確定性,自動(dòng)識(shí)別出這些關(guān)鍵的決策點(diǎn)。
找到這些關(guān)鍵點(diǎn)后,F(xiàn)R3E就進(jìn)入第二階段——"熵誘導(dǎo)探索"。這就像偵探在關(guān)鍵線索處進(jìn)行深入調(diào)查,從多個(gè)角度分析可能的情況。具體來說,AI會(huì)從每個(gè)關(guān)鍵的決策點(diǎn)開始,嘗試多種不同的推理路徑,看看哪些能夠成功解決問題,哪些會(huì)導(dǎo)致錯(cuò)誤。
這個(gè)過程就像在數(shù)學(xué)推理的"岔路口"處,AI不再只是選擇一條路走到底,而是會(huì)在重要的岔路口處,同時(shí)嘗試多條不同的路徑,通過對(duì)比這些路徑的成功率,來判斷哪個(gè)決策點(diǎn)更重要,哪種推理方式更可靠。
為了讓這個(gè)過程更加穩(wěn)定和有效,研究團(tuán)隊(duì)還引入了一個(gè)叫做"自適應(yīng)優(yōu)勢(shì)調(diào)節(jié)"的機(jī)制。這就像給AI配備了一個(gè)智能的"學(xué)習(xí)節(jié)拍器"。當(dāng)AI在某個(gè)推理步驟上表現(xiàn)很好時(shí),這個(gè)機(jī)制會(huì)適當(dāng)降低學(xué)習(xí)強(qiáng)度,避免過度優(yōu)化;當(dāng)AI在某個(gè)步驟上表現(xiàn)不佳時(shí),機(jī)制會(huì)加強(qiáng)學(xué)習(xí)力度,促進(jìn)改進(jìn)。
這種調(diào)節(jié)機(jī)制特別巧妙的地方在于,它能夠保持整個(gè)學(xué)習(xí)過程的平衡。就像一個(gè)好的音樂指揮,知道什么時(shí)候該強(qiáng)調(diào)哪個(gè)聲部,什么時(shí)候該讓整個(gè)樂隊(duì)保持和諧,確保AI的學(xué)習(xí)過程既不會(huì)過于激進(jìn)導(dǎo)致不穩(wěn)定,也不會(huì)過于保守導(dǎo)致進(jìn)步緩慢。
為了驗(yàn)證FR3E的效果,研究團(tuán)隊(duì)進(jìn)行了大量的實(shí)驗(yàn)。他們選擇了多個(gè)不同規(guī)模的AI模型進(jìn)行測(cè)試,包括Qwen2.5-7B、Qwen2.5-Math-7B和Qwen2.5-32B。這些模型就像不同年級(jí)的學(xué)生,有的基礎(chǔ)扎實(shí)但經(jīng)驗(yàn)不足,有的專門訓(xùn)練過數(shù)學(xué)但可能過于死板,有的則是"尖子生"但需要更精細(xì)的指導(dǎo)。
實(shí)驗(yàn)結(jié)果令人鼓舞。在最具挑戰(zhàn)性的AIME24數(shù)學(xué)競(jìng)賽題目上,F(xiàn)R3E算法展現(xiàn)出了明顯的優(yōu)勢(shì)。AIME是美國數(shù)學(xué)邀請(qǐng)賽的縮寫,這個(gè)比賽的題目對(duì)于普通高中生來說都相當(dāng)困難,需要很強(qiáng)的數(shù)學(xué)思維和推理能力。
具體來說,使用FR3E算法的Qwen2.5-7B模型在AIME24上的表現(xiàn)從22.7%提升到了25.2%,這個(gè)提升看似不大,但要知道這是在已經(jīng)很高的基準(zhǔn)上的進(jìn)步。更重要的是,F(xiàn)R3E在保持性能提升的同時(shí),還顯著改善了訓(xùn)練的穩(wěn)定性。
這種穩(wěn)定性的改善體現(xiàn)在多個(gè)方面。首先,AI在訓(xùn)練過程中的"探索欲"保持得更好。傳統(tǒng)方法往往會(huì)出現(xiàn)一種現(xiàn)象:AI在訓(xùn)練初期很活躍,愿意嘗試各種不同的解題方法,但隨著訓(xùn)練的進(jìn)行,逐漸變得保守,只愿意使用那些已經(jīng)驗(yàn)證過的方法。這就像一個(gè)學(xué)生剛開始很有創(chuàng)造力,但隨著考試壓力增加,越來越傾向于使用套路化的解題方法。
FR3E很好地解決了這個(gè)問題。從實(shí)驗(yàn)數(shù)據(jù)可以看出,使用FR3E的AI模型在整個(gè)訓(xùn)練過程中都保持著適當(dāng)?shù)?探索欲",特別是在專門訓(xùn)練過數(shù)學(xué)的Qwen2.5-Math-7B模型上,這種效果尤其明顯。該模型在使用傳統(tǒng)方法時(shí)很快就變得保守,而使用FR3E時(shí)則在訓(xùn)練后期反而變得更加活躍,這意味著它在不斷發(fā)現(xiàn)新的解題思路。
其次,F(xiàn)R3E生成的解答過程更長、更完整。這聽起來可能像是在"啰嗦",但實(shí)際上反映了AI推理能力的提升。就像一個(gè)學(xué)生從只會(huì)寫出簡(jiǎn)單的答案,到能夠?qū)懗鐾暾慕忸}過程,這表明AI不僅能得到正確答案,還能更好地展示其推理邏輯。
最令人印象深刻的是,F(xiàn)R3E顯著提高了"全對(duì)"答案的比例,同時(shí)減少了"全錯(cuò)"答案的數(shù)量。研究團(tuán)隊(duì)通過分析發(fā)現(xiàn),在每個(gè)問題上進(jìn)行多次嘗試時(shí),使用FR3E的AI更容易產(chǎn)生完全正確的解答,而產(chǎn)生完全錯(cuò)誤解答的幾率大大降低。這就像提高了學(xué)生的"及格率"和"優(yōu)秀率",同時(shí)減少了"不及格"的情況。
為了更深入地理解FR3E的工作原理,研究團(tuán)隊(duì)還進(jìn)行了細(xì)致的分析。他們發(fā)現(xiàn),那些讓AI最"糾結(jié)"的詞匯往往包括"since"(因?yàn)椋?thus"(因此)、"however"(然而)等邏輯連接詞,以及"calculate"(計(jì)算)、"suppose"(假設(shè))、"given"(給定)等數(shù)學(xué)推理中的關(guān)鍵詞。這些詞匯出現(xiàn)的地方,正是數(shù)學(xué)推理中的關(guān)鍵轉(zhuǎn)折點(diǎn),也是最容易出錯(cuò)的地方。
這個(gè)發(fā)現(xiàn)很有啟發(fā)性。就像我們?cè)陂喿x數(shù)學(xué)證明時(shí),往往會(huì)在"因?yàn)?、"所以"、"假設(shè)"這些地方多停留一會(huì)兒,確保自己理解了邏輯關(guān)系。FR3E算法自動(dòng)識(shí)別出了這些關(guān)鍵位置,并在這些地方進(jìn)行重點(diǎn)"攻關(guān)"。
實(shí)驗(yàn)還揭示了不同類型AI模型的有趣差異。對(duì)于通用型的AI模型(如Qwen2.5-7B和Qwen2.5-32B),F(xiàn)R3E的效果非常顯著,不僅在AIME24上表現(xiàn)出色,在其他多個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試上也都有提升。這些測(cè)試包括GSM8K(小學(xué)到初中水平的數(shù)學(xué)題)、Math500(各種難度的數(shù)學(xué)題集合)、以及奧林匹克數(shù)學(xué)競(jìng)賽題目等。
有趣的是,F(xiàn)R3E在專門訓(xùn)練過數(shù)學(xué)的Qwen2.5-Math-7B模型上的提升相對(duì)較小。這并不意味著FR3E效果不好,而是反映了一個(gè)重要現(xiàn)象:對(duì)于已經(jīng)高度專業(yè)化的模型,進(jìn)一步的改進(jìn)空間有限,而且可能需要更加精細(xì)的調(diào)整策略。就像一個(gè)已經(jīng)在數(shù)學(xué)上很有造詣的學(xué)生,要想再提高就需要更加針對(duì)性的指導(dǎo)。
研究團(tuán)隊(duì)還通過熱力圖分析了AI在訓(xùn)練過程中的學(xué)習(xí)模式。這些熱力圖就像學(xué)生的學(xué)習(xí)進(jìn)度表,顯示了AI在不同問題上的掌握程度隨時(shí)間的變化。使用FR3E的AI顯示出了更加穩(wěn)定和持續(xù)的學(xué)習(xí)模式——一旦掌握了某個(gè)問題的解法,就能夠穩(wěn)定地保持這種能力,而不會(huì)出現(xiàn)"學(xué)了就忘"的情況。
相比之下,使用傳統(tǒng)方法的AI在學(xué)習(xí)過程中表現(xiàn)出更多的不穩(wěn)定性,有時(shí)候能解對(duì)某個(gè)問題,有時(shí)候又會(huì)出錯(cuò),這種不一致性在實(shí)際應(yīng)用中是很危險(xiǎn)的。
FR3E算法的另一個(gè)重要特點(diǎn)是它的效率。雖然在每個(gè)關(guān)鍵決策點(diǎn)都要進(jìn)行多次嘗試,聽起來計(jì)算量很大,但實(shí)際上FR3E的設(shè)計(jì)很聰明。它不是從頭開始重新解題,而是從關(guān)鍵的決策點(diǎn)開始部分重新推理,這就像在游戲中的"存檔點(diǎn)"一樣,不需要從頭開始,只需要從關(guān)鍵位置重新嘗試。
這種設(shè)計(jì)使得FR3E在保持高效性的同時(shí),獲得了更好的探索效果。研究團(tuán)隊(duì)的實(shí)驗(yàn)表明,雖然FR3E需要進(jìn)行更多的計(jì)算,但這些額外的計(jì)算是有針對(duì)性的,能夠帶來明顯的性能提升,因此具有很好的性價(jià)比。
在實(shí)際應(yīng)用方面,F(xiàn)R3E算法展現(xiàn)出了廣闊的前景。除了在學(xué)術(shù)研究中證明其有效性外,這種方法還可以應(yīng)用到多個(gè)實(shí)際場(chǎng)景中。比如在教育領(lǐng)域,可以開發(fā)更智能的數(shù)學(xué)輔導(dǎo)系統(tǒng),不僅能夠給出正確答案,還能夠展示完整的推理過程,幫助學(xué)生理解數(shù)學(xué)思維。
在科學(xué)研究中,F(xiàn)R3E也可以用于輔助復(fù)雜的數(shù)學(xué)建模和證明工作。當(dāng)研究人員面對(duì)復(fù)雜的數(shù)學(xué)問題時(shí),AI可以提供多種可能的解決思路,并標(biāo)出哪些步驟是關(guān)鍵的,哪些地方需要特別注意。
在工程應(yīng)用中,許多實(shí)際問題都涉及復(fù)雜的數(shù)學(xué)計(jì)算和優(yōu)化,F(xiàn)R3E算法可以幫助工程師更可靠地解決這些問題,減少因計(jì)算錯(cuò)誤導(dǎo)致的設(shè)計(jì)缺陷。
研究團(tuán)隊(duì)在論文中也誠實(shí)地討論了FR3E的局限性。首先,該方法目前主要在數(shù)學(xué)推理任務(wù)上進(jìn)行了驗(yàn)證,在其他類型的推理任務(wù)上的效果還需要進(jìn)一步研究。其次,雖然FR3E提高了推理的可靠性,但也增加了計(jì)算復(fù)雜度,在一些對(duì)實(shí)時(shí)性要求很高的應(yīng)用場(chǎng)景中可能不太合適。
此外,F(xiàn)R3E算法的參數(shù)調(diào)節(jié)還需要根據(jù)具體的應(yīng)用場(chǎng)景進(jìn)行優(yōu)化。就像不同的學(xué)生需要不同的教學(xué)方法一樣,不同類型的AI模型和不同難度的問題可能需要不同的參數(shù)設(shè)置。
展望未來,這項(xiàng)研究為AI推理能力的提升開辟了新的方向。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法往往把重點(diǎn)放在最終結(jié)果上,而FR3E證明了關(guān)注推理過程中的關(guān)鍵決策點(diǎn)同樣重要。這種思路可能會(huì)啟發(fā)更多類似的研究,推動(dòng)整個(gè)AI推理領(lǐng)域的發(fā)展。
研究團(tuán)隊(duì)表示,他們將繼續(xù)優(yōu)化FR3E算法,并嘗試將其應(yīng)用到更多類型的推理任務(wù)中。同時(shí),他們也在研究如何進(jìn)一步提高算法的效率,使其能夠在更多實(shí)際應(yīng)用場(chǎng)景中發(fā)揮作用。
從更廣泛的角度來看,這項(xiàng)研究體現(xiàn)了AI發(fā)展的一個(gè)重要趨勢(shì):從追求簡(jiǎn)單的性能提升,轉(zhuǎn)向更深入地理解和優(yōu)化AI的"思維過程"。就像人類教育從單純的知識(shí)灌輸轉(zhuǎn)向思維能力培養(yǎng)一樣,AI的發(fā)展也需要更加注重推理能力的培養(yǎng)和優(yōu)化。
FR3E算法的成功也說明了跨學(xué)科合作的重要性。這項(xiàng)研究結(jié)合了強(qiáng)化學(xué)習(xí)、信息論、概率論等多個(gè)領(lǐng)域的知識(shí),體現(xiàn)了現(xiàn)代AI研究的綜合性特點(diǎn)。未來的AI突破可能更多地來自于這種跨領(lǐng)域的創(chuàng)新思維。
總的來說,F(xiàn)R3E算法代表了AI數(shù)學(xué)推理能力的一個(gè)重要進(jìn)步。它不僅提高了AI解決數(shù)學(xué)問題的準(zhǔn)確性和穩(wěn)定性,更重要的是提供了一種新的思路來理解和優(yōu)化AI的推理過程。這項(xiàng)研究為未來開發(fā)更加智能、可靠的AI系統(tǒng)提供了寶貴的經(jīng)驗(yàn)和啟示。
說到底,這項(xiàng)研究最讓人興奮的地方在于,它讓我們看到了AI真正"學(xué)會(huì)思考"的可能性。不再是簡(jiǎn)單的模式匹配或記憶重現(xiàn),而是像人類一樣,能夠在復(fù)雜問題面前停下來思考,找出關(guān)鍵點(diǎn),然后有針對(duì)性地進(jìn)行深入分析。這種能力的提升,不僅對(duì)數(shù)學(xué)推理有意義,對(duì)整個(gè)人工智能的發(fā)展都具有重要的指導(dǎo)意義。
當(dāng)然,AI要真正達(dá)到人類的推理水平還有很長的路要走,但FR3E算法的成功讓我們看到了這個(gè)方向的巨大潛力。隨著技術(shù)的不斷進(jìn)步和完善,我們有理由相信,未來的AI將能夠在更多領(lǐng)域展現(xiàn)出強(qiáng)大的推理能力,成為人類解決復(fù)雜問題的得力助手。
對(duì)于那些對(duì)這項(xiàng)研究感興趣的讀者,可以通過訪問https://huggingface.co/FR3E-Bytedance獲取更多詳細(xì)信息,也可以查閱原論文(arXiv:2507.07017v1)來深入了解技術(shù)細(xì)節(jié)。這項(xiàng)研究不僅在學(xué)術(shù)界引起了廣泛關(guān)注,也為實(shí)際應(yīng)用提供了新的可能性,值得持續(xù)關(guān)注其后續(xù)發(fā)展。
Q&A
Q1:FR3E算法是什么?它主要解決什么問題? A:FR3E是ByteDance開發(fā)的一種新的AI訓(xùn)練算法,專門用于提高AI的數(shù)學(xué)推理能力。它主要解決傳統(tǒng)AI在數(shù)學(xué)推理中容易在關(guān)鍵步驟出錯(cuò)、學(xué)習(xí)不穩(wěn)定的問題。就像訓(xùn)練一個(gè)更聰明的偵探,能夠找出推理過程中的關(guān)鍵節(jié)點(diǎn)并進(jìn)行重點(diǎn)攻關(guān)。
Q2:FR3E會(huì)不會(huì)讓AI變得過于復(fù)雜或計(jì)算量太大? A:雖然FR3E需要進(jìn)行更多計(jì)算,但它的設(shè)計(jì)很聰明,只在關(guān)鍵決策點(diǎn)進(jìn)行重點(diǎn)分析,而不是從頭重新計(jì)算。實(shí)驗(yàn)表明這些額外計(jì)算是值得的,因?yàn)槟軒砻黠@的性能提升,具有很好的性價(jià)比。
Q3:普通人能用到FR3E算法嗎?有什么實(shí)際應(yīng)用? A:目前FR3E主要在研究階段,但未來可能應(yīng)用到智能教育系統(tǒng)、科學(xué)計(jì)算輔助工具等領(lǐng)域。比如開發(fā)更智能的數(shù)學(xué)輔導(dǎo)軟件,不僅能給出答案,還能展示完整的推理過程,幫助學(xué)生更好地理解數(shù)學(xué)思維。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。