來自多家頂尖研究機(jī)構(gòu)的科學(xué)家們剛剛發(fā)布了一項(xiàng)令人振奮的研究成果,這項(xiàng)研究由中國人民大學(xué)的趙鑫老師、微軟亞洲研究院、上海交通大學(xué)以及BIGAI等機(jī)構(gòu)的研究團(tuán)隊(duì)共同完成,發(fā)表于2025年6月17日。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過arXiv:2506.14758v1訪問完整論文。
在人工智能的世界里,一個古老的問題一直困擾著研究者們:如何讓AI既能有效學(xué)習(xí),又能保持足夠的好奇心去探索未知?這就像是在培養(yǎng)一個學(xué)生,你希望他既能認(rèn)真完成作業(yè)(利用已知知識),又能主動去圖書館翻閱額外的書籍(探索新知識)。然而,大多數(shù)現(xiàn)有的訓(xùn)練方法都過分強(qiáng)調(diào)"完成作業(yè)"這一部分,導(dǎo)致AI變得越來越保守,逐漸失去了探索精神。
這項(xiàng)新研究為這個問題提供了一個絕妙的解決方案。研究團(tuán)隊(duì)發(fā)現(xiàn),通過觀察AI在思考過程中的"不確定性"(在技術(shù)上稱為熵),可以準(zhǔn)確識別出哪些時刻AI正在進(jìn)行真正有價(jià)值的探索性思考。更重要的是,他們設(shè)計(jì)出了一種極其簡單的方法——僅需一行代碼的修改——就能顯著提升AI的探索能力和深度思考水平。
一、發(fā)現(xiàn)AI思考中的"探索信號"
要理解這項(xiàng)研究的突破性,我們先需要理解什么是"熵"。在日常生活中,熵可以理解為"不確定性"或"混亂程度"的度量。比如,當(dāng)你面對一道復(fù)雜的數(shù)學(xué)題時,在關(guān)鍵的轉(zhuǎn)折點(diǎn)上,你可能會思考"我應(yīng)該用哪種方法?"這種猶豫不決的狀態(tài)就對應(yīng)著高熵值。
研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)發(fā)現(xiàn)了一個令人驚喜的現(xiàn)象:當(dāng)AI的"不確定性"較高時,往往正是它在進(jìn)行最有價(jià)值的探索性思考的時刻。具體來說,這種探索性思考表現(xiàn)在三個方面。
首先是"關(guān)鍵詞匯的使用"。就像人類在推理時會說"首先"、"因?yàn)?、"然而"這樣的邏輯連接詞,AI在遇到這些關(guān)鍵轉(zhuǎn)折點(diǎn)時也會表現(xiàn)出更高的不確定性。這些詞匯雖然看起來簡單,但它們承載著邏輯推理的骨架,是連接不同思考步驟的橋梁。研究團(tuán)隊(duì)發(fā)現(xiàn),AI在生成這些關(guān)鍵詞匯時的熵值顯著高于生成普通詞匯時的熵值。
其次是"自我反思行為"。當(dāng)AI開始進(jìn)行自我檢驗(yàn),比如說"讓我驗(yàn)證一下這個答案是否正確"或"讓我重新檢查一下計(jì)算過程"時,這種反思行為往往伴隨著高熵值。這就像一個學(xué)生在解題后會停下來思考"我的答案對嗎?"這種自我質(zhì)疑的過程雖然充滿不確定性,但正是深度思考的體現(xiàn)。
第三個發(fā)現(xiàn)更加有趣:那些在基礎(chǔ)訓(xùn)練中很少出現(xiàn)的"罕見行為"也與高熵值密切相關(guān)。當(dāng)AI嘗試一些它之前很少使用的解題方法或思路時,不確定性自然會增加,但這種探索往往能帶來意想不到的突破。
二、簡單而巧妙的解決方案
基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了一個極其優(yōu)雅的解決方案。他們沒有重新發(fā)明訓(xùn)練算法的輪子,而是在現(xiàn)有的訓(xùn)練過程中加入了一個基于熵的"獎勵修正項(xiàng)"。
這個方法的核心思想可以用一個簡單的比喻來解釋。原本的AI訓(xùn)練就像是在給學(xué)生評分時只看最終答案的對錯。而新方法則在此基礎(chǔ)上,額外獎勵那些在思考過程中表現(xiàn)出探索精神的行為。具體來說,當(dāng)AI在某個思考步驟中表現(xiàn)出較高的不確定性(高熵值)時,系統(tǒng)會給予額外的鼓勵,但這種鼓勵是有節(jié)制的——它不會改變原本的學(xué)習(xí)方向,只是在原有基礎(chǔ)上進(jìn)行微調(diào)。
這種設(shè)計(jì)的巧妙之處在于它的自我調(diào)節(jié)特性。隨著訓(xùn)練的進(jìn)行,當(dāng)AI對某種思考模式變得更加熟練和自信時,相應(yīng)的熵值會自然下降,額外的獎勵也會相應(yīng)減少。這就避免了過度鼓勵的問題,確保AI不會為了獲得獎勵而故意制造混亂。
技術(shù)實(shí)現(xiàn)上,這個方法極其簡潔。研究團(tuán)隊(duì)只需要在現(xiàn)有的訓(xùn)練代碼中添加一行代碼,計(jì)算當(dāng)前步驟的熵值,并將其以特定的方式加入到獎勵函數(shù)中。這種簡潔性使得該方法可以輕松整合到現(xiàn)有的各種AI訓(xùn)練框架中,無需大規(guī)模的代碼重構(gòu)。
三、與傳統(tǒng)方法的本質(zhì)區(qū)別
這項(xiàng)研究的另一個重要貢獻(xiàn)是澄清了它與傳統(tǒng)"熵正則化"方法的本質(zhì)區(qū)別。傳統(tǒng)的熵正則化方法是直接在訓(xùn)練目標(biāo)中加入熵項(xiàng),鼓勵A(yù)I保持高不確定性。這就像是告訴學(xué)生"你必須對每個問題都保持猶豫不決",這顯然不是我們想要的結(jié)果。
相比之下,新方法采用的是"優(yōu)勢塑形"策略。它不直接影響AI學(xué)習(xí)的方向,而是通過調(diào)整獎勵的強(qiáng)度來間接影響學(xué)習(xí)過程。當(dāng)AI在高熵狀態(tài)下做出正確決策時,會獲得額外的鼓勵;當(dāng)它在高熵狀態(tài)下犯錯時,懲罰力度也會相應(yīng)調(diào)整。這種方法保持了原有訓(xùn)練邏輯的完整性,同時巧妙地引導(dǎo)AI進(jìn)行更深層次的探索。
更重要的是,新方法使用了"梯度分離"技術(shù)。簡單來說,就是熵值的計(jì)算不會直接影響AI的參數(shù)更新方向,只影響更新的強(qiáng)度。這就像是在不改變學(xué)習(xí)內(nèi)容的前提下,調(diào)整學(xué)習(xí)的積極性和投入程度。
四、實(shí)驗(yàn)驗(yàn)證:從數(shù)學(xué)競賽到實(shí)際應(yīng)用
研究團(tuán)隊(duì)在多個極具挑戰(zhàn)性的數(shù)學(xué)競賽數(shù)據(jù)集上驗(yàn)證了他們的方法,包括美國數(shù)學(xué)邀請賽(AIME)、美國數(shù)學(xué)競賽(AMC)等。這些比賽的題目不僅需要扎實(shí)的數(shù)學(xué)基礎(chǔ),更需要創(chuàng)造性的思維和深度的推理能力。
在AIME 2025這個最具挑戰(zhàn)性的測試集上,使用新方法訓(xùn)練的AI模型在Pass@K指標(biāo)上取得了顯著提升。Pass@K是一個衡量AI"潛在能力"的重要指標(biāo),它測量的是給AI多次嘗試機(jī)會時,它能否在K次嘗試內(nèi)解決問題。這個指標(biāo)特別重要,因?yàn)樗咏祟悢?shù)學(xué)家的工作方式——我們通常不會因?yàn)榈谝淮螄L試失敗就放棄,而是會嘗試不同的方法和角度。
實(shí)驗(yàn)結(jié)果顯示,即使在K值非常大的情況下(比如K=256),新方法依然能夠持續(xù)改善AI的表現(xiàn)。這意味著新方法確實(shí)提升了AI的根本推理能力,而不僅僅是讓它在特定測試上表現(xiàn)更好。
更令人印象深刻的是,新方法不僅提高了準(zhǔn)確率,還顯著增加了AI生成回答的長度和復(fù)雜度。在保持邏輯連貫性的前提下,AI開始生成更詳細(xì)、更深入的推理過程。這種變化在一個具體的案例中表現(xiàn)得尤為明顯:面對同一道關(guān)于正整數(shù)列表的數(shù)學(xué)題,普通方法訓(xùn)練的AI給出了725個字符的簡短回答,而使用新方法的AI給出了超過3000個字符的詳細(xì)解答,包含了系統(tǒng)性的案例分析和多種方法的嘗試。
五、深度分析:AI如何學(xué)會"真正的思考"
通過對訓(xùn)練過程的深入分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了一些非常有趣的現(xiàn)象。使用新方法訓(xùn)練的AI在思考過程中表現(xiàn)出了更多類似人類的特征。
首先,AI開始更頻繁地使用"關(guān)鍵思考詞匯"。這些詞匯包括表示邏輯關(guān)系的"因此"、"然而",表示步驟的"首先"、"接下來",以及表示思考過程的"讓我們考慮"、"換句話說"等。雖然這些詞匯本身很簡單,但它們的使用反映了AI在構(gòu)建更加結(jié)構(gòu)化和邏輯化的思考框架。
其次,AI展現(xiàn)出了更強(qiáng)的"自我監(jiān)控"能力。它開始主動進(jìn)行自我檢驗(yàn),會說"讓我驗(yàn)證一下這個結(jié)果"或"讓我重新檢查這個計(jì)算"。這種行為雖然會增加計(jì)算成本,但顯著提高了最終答案的準(zhǔn)確性。
最有趣的是,AI開始表現(xiàn)出"探索性嘗試"的行為模式。當(dāng)遇到復(fù)雜問題時,它不再固執(zhí)地使用單一方法,而是會嘗試多種不同的解題路徑。即使某種方法暫時遇到困難,它也會堅(jiān)持一段時間,然后理性地轉(zhuǎn)向其他方法。這種行為模式與人類數(shù)學(xué)家的工作方式非常相似。
六、技術(shù)創(chuàng)新的普適性意義
這項(xiàng)研究的意義遠(yuǎn)超出了數(shù)學(xué)問題求解的范疇。它揭示了一個更深層次的原理:通過識別和鼓勵"探索性思考",可以顯著提升AI系統(tǒng)的整體智能水平。
從技術(shù)角度來看,這種方法的普適性在于它可以應(yīng)用到任何需要多步推理的AI任務(wù)中。無論是科學(xué)發(fā)現(xiàn)、工程設(shè)計(jì),還是創(chuàng)意寫作,都需要在已知知識和探索性思考之間找到平衡。新方法提供了一個通用的框架來實(shí)現(xiàn)這種平衡。
從更宏觀的視角來看,這項(xiàng)研究為"如何讓AI更像人類一樣思考"這個長期目標(biāo)提供了新的思路。傳統(tǒng)的AI訓(xùn)練往往專注于模仿人類的輸出結(jié)果,而忽略了人類思考過程中的探索性特征。新方法通過關(guān)注思考過程中的不確定性模式,成功地讓AI習(xí)得了更加自然和有效的思考方式。
七、實(shí)際應(yīng)用前景和影響
這項(xiàng)技術(shù)的潛在應(yīng)用前景非常廣闊。在教育領(lǐng)域,它可以幫助開發(fā)更好的AI導(dǎo)師系統(tǒng),這些系統(tǒng)不僅能給出正確答案,還能展示完整的思考過程,幫助學(xué)生理解解題的邏輯。在科學(xué)研究中,它可以協(xié)助研究人員進(jìn)行假設(shè)生成和實(shí)驗(yàn)設(shè)計(jì),特別是在需要創(chuàng)造性思維的探索性研究中。
在工程實(shí)踐中,這種能夠進(jìn)行深度探索的AI可以幫助工程師評估多種設(shè)計(jì)方案,不僅考慮常規(guī)解決方案,還能提出創(chuàng)新性的替代方案。在商業(yè)決策領(lǐng)域,它可以協(xié)助分析師進(jìn)行更全面的風(fēng)險(xiǎn)評估和機(jī)會識別。
更重要的是,這項(xiàng)技術(shù)的簡潔性使得它可以快速集成到現(xiàn)有的AI系統(tǒng)中。企業(yè)和研究機(jī)構(gòu)不需要重新開發(fā)整套AI訓(xùn)練流程,只需要在現(xiàn)有基礎(chǔ)上進(jìn)行簡單的修改,就能獲得顯著的性能提升。
八、未來發(fā)展方向和挑戰(zhàn)
雖然這項(xiàng)研究取得了令人矚目的成果,但研究團(tuán)隊(duì)也坦誠地指出了一些需要進(jìn)一步探索的方向。
首先是如何在更大規(guī)模的模型和更復(fù)雜的任務(wù)上驗(yàn)證這種方法的有效性。目前的實(shí)驗(yàn)主要集中在數(shù)學(xué)推理任務(wù)上,未來需要在自然語言理解、創(chuàng)意寫作、科學(xué)發(fā)現(xiàn)等更廣泛的領(lǐng)域進(jìn)行驗(yàn)證。
其次是如何更好地理解熵與探索性思考之間的關(guān)系。雖然實(shí)驗(yàn)證明了這種關(guān)聯(lián)的存在,但背后的理論機(jī)制仍需要更深入的研究。這不僅對改進(jìn)現(xiàn)有方法有重要意義,也有助于我們更好地理解人類思維的工作原理。
第三個挑戰(zhàn)是如何在保持探索性的同時控制計(jì)算成本。更深入的思考往往意味著更長的推理鏈和更高的計(jì)算需求,如何在兩者之間找到最優(yōu)平衡是一個實(shí)際的工程問題。
最后,研究團(tuán)隊(duì)還提到了擴(kuò)展到其他類型推理任務(wù)的可能性。除了數(shù)學(xué)推理,邏輯推理、常識推理、因果推理等都可能受益于這種方法,但每種推理類型可能需要針對性的調(diào)整。
說到底,這項(xiàng)研究為我們打開了一扇通往"真正智能"的新大門。它告訴我們,讓AI變得更聰明的關(guān)鍵不在于讓它記住更多知識,而在于讓它學(xué)會如何更好地思考。通過識別和培養(yǎng)AI思考過程中的探索精神,我們正在創(chuàng)造出真正能夠像人類一樣進(jìn)行深度思考的人工智能系統(tǒng)。
這種技術(shù)的簡潔性和普適性意味著它很可能會快速傳播并被廣泛采用。未來的AI系統(tǒng)將不再是單純的"知識復(fù)述機(jī)器",而是真正的"思考伙伴",能夠與人類一起探索未知、解決復(fù)雜問題、創(chuàng)造新的可能性。有興趣深入了解技術(shù)細(xì)節(jié)的研究者和開發(fā)者,可以通過論文編號arXiv:2506.14758v1獲取完整的研究報(bào)告和實(shí)現(xiàn)細(xì)節(jié)。
Q&A
Q1:這個方法具體是怎么工作的?為什么只需要一行代碼? A:這個方法的核心是在AI訓(xùn)練時監(jiān)測它的"不確定性"(熵值),當(dāng)AI在某個思考步驟表現(xiàn)出高不確定性時,系統(tǒng)會給予額外的鼓勵。實(shí)現(xiàn)上確實(shí)只需要一行代碼,因?yàn)樗桓淖冊械挠?xùn)練邏輯,只是在計(jì)算獎勵時加入一個基于熵值的修正項(xiàng)。這種設(shè)計(jì)讓它可以輕松集成到任何現(xiàn)有的AI訓(xùn)練框架中。
Q2:這種方法會不會讓AI變得過于"猶豫不決"? A:不會。這個方法有巧妙的自我調(diào)節(jié)機(jī)制。當(dāng)AI對某種思考模式變得更熟練時,相應(yīng)的不確定性會自然降低,額外的鼓勵也會減少。而且,這種方法使用了"梯度分離"技術(shù),不直接影響AI的學(xué)習(xí)方向,只影響學(xué)習(xí)的強(qiáng)度,所以不會讓AI變得猶豫不決。
Q3:這個技術(shù)能應(yīng)用到哪些實(shí)際場景中? A:應(yīng)用前景很廣闊。在教育領(lǐng)域可以開發(fā)更好的AI導(dǎo)師系統(tǒng);在科學(xué)研究中可以協(xié)助假設(shè)生成和實(shí)驗(yàn)設(shè)計(jì);在工程實(shí)踐中可以幫助評估多種設(shè)計(jì)方案;在商業(yè)決策中可以進(jìn)行更全面的風(fēng)險(xiǎn)評估。由于方法簡潔,現(xiàn)有AI系統(tǒng)可以快速集成這項(xiàng)技術(shù)來提升性能。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗(yàn)證有效性。