慕尼黑工業(yè)大學計算信息技術學院的Roman Abramov、Felix Steinbauer,以及社會科學與技術學院的Gjergji Kasneci教授在2025年的第42屆國際機器學習大會(ICML 2025)上發(fā)表了一項令人震撼的研究成果。這項研究首次證明了人工智能模型能夠通過"grokking"現(xiàn)象在真實世界的復雜推理任務中實現(xiàn)近乎完美的表現(xiàn)。感興趣的讀者可以通過arXiv:2504.20752v2訪問完整論文。
這個研究的神奇之處在于,一個只有1.24億參數(shù)的小型GPT-2模型,經(jīng)過特殊訓練后,在復雜的多步推理任務上竟然達到了95-100%的準確率,甚至超越了最新的GPT-4o和o1-mini等大型模型。更令人驚訝的是,研究團隊發(fā)現(xiàn)即使向訓練數(shù)據(jù)中加入一些事實錯誤的信息,反而能夠增強模型的推理能力。
一、什么是"Grokking"現(xiàn)象
要理解這項研究的突破性意義,我們首先需要了解一個叫做"grokking"的神奇現(xiàn)象。這個詞來源于科幻小說家羅伯特·海因萊因的作品,意思是對某個概念的深刻理解和完全掌握。
在人工智能領域,grokking描述的是一種令人著迷的學習過程。通常情況下,AI模型的學習過程就像學生準備考試一樣——開始時拼命記憶所有的題目和答案,這種方法在面對見過的題目時表現(xiàn)很好,但遇到新題目就束手無策。然而,在某些特殊條件下,模型會突然發(fā)生質的飛躍,從單純的記憶轉變?yōu)檎嬲斫鈫栴}的本質規(guī)律。這就好比一個學生在反復練習數(shù)學題后,突然領悟了背后的數(shù)學原理,從此面對任何新題型都能游刃有余。
這種現(xiàn)象最初只在簡單的數(shù)學問題中被觀察到,比如模塊運算這樣的基礎算術。模型起初只能記住特定的計算結果,但經(jīng)過長時間訓練后,突然"開竅"了,掌握了運算的基本規(guī)律,能夠解決從未見過的計算問題。
慕尼黑工業(yè)大學的研究團隊面臨的挑戰(zhàn)是:能否將這種現(xiàn)象擴展到真實世界的復雜推理任務中?這就像試圖讓一個只會背誦簡單加法表的學生,突然掌握微積分的精髓一樣困難。
二、真實世界的推理挑戰(zhàn)
現(xiàn)實世界的知識推理遠比簡單的數(shù)學運算復雜得多。研究團隊選擇了一個名為2WikiMultiHopQA的數(shù)據(jù)集作為測試平臺。這個數(shù)據(jù)集包含了需要多步推理的復雜問題,就像一個連環(huán)謎題游戲。
比如,要回答"奧巴馬的妻子出生年份上映的電影是什么?"這樣的問題,AI需要進行三步推理:首先知道奧巴馬的妻子是米歇爾,然后查找米歇爾的出生年份是1964年,最后找出1964年上映的電影。這就像玩一個信息接龍游戲,每一步都要準確無誤,最終才能得到正確答案。
然而,現(xiàn)有的知識庫就像一個不完整的拼圖,信息分散且稀少。研究團隊發(fā)現(xiàn),原始數(shù)據(jù)集中多步推理事實與單步事實的比例(用φ表示)僅有0.5左右,遠遠不足以觸發(fā)grokking現(xiàn)象。這就好比你想學會做一道復雜的菜,但食譜書里只有零星的配料信息,缺乏完整的制作步驟。
三、巧妙的數(shù)據(jù)增強策略
面對這個難題,研究團隊采用了一個看似違反直覺的解決方案:既然真實數(shù)據(jù)不夠,那就創(chuàng)造更多的數(shù)據(jù)。但這里的關鍵不是簡單地增加數(shù)據(jù)量,而是要巧妙地調(diào)整不同類型數(shù)據(jù)之間的比例。
他們的策略就像調(diào)制一杯完美的雞尾酒。如果把單步事實比作基酒,多步推理事實比作調(diào)味料,那么要讓這杯"推理雞尾酒"產(chǎn)生神奇效果,就必須讓調(diào)味料的比例達到一定的閾值。研究發(fā)現(xiàn),當φ值超過3.6時,模型就開始顯現(xiàn)grokking的苗頭,當達到8或更高時,效果更加顯著。
為了實現(xiàn)這個目標,研究團隊開發(fā)了兩種不同的任務類型。第一種是比較任務,就像玩"找相同"游戲。比如問"巴黎的盧浮宮和阿維尼翁的教堂是否都位于同一個國家?"這需要AI分別查找兩個地點的國家信息,然后進行比較。
第二種是組合任務,更像解開一個連環(huán)套。比如"蘭達爾·普倫基特第19代鄧薩尼男爵的父親是怎么死的?"這需要AI先找到蘭達爾·普倫基特的父親是誰,再查找這個人的死因。
研究團隊使用大語言模型生成了大量的合成數(shù)據(jù)。對于比較任務,他們從120個原始事實和60個推理事實擴展到1000個原始事實和8000個推理事實,使φ值達到8。對于組合任務,從200個原始事實和100個推理事實擴展到800個原始事實和5000個推理事實,φ值達到6.25。
四、令人驚訝的發(fā)現(xiàn):錯誤數(shù)據(jù)的積極作用
這項研究最令人意外的發(fā)現(xiàn)是,即使在合成數(shù)據(jù)中包含一些事實錯誤,也不會損害模型的推理能力,反而可能增強它。這就像在學習過程中遇到一些錯誤的例子,反而能幫助學生更好地理解正確的規(guī)律。
這種現(xiàn)象的原理在于,當數(shù)據(jù)中存在一定的噪音時,模型無法簡單地依賴記憶來解決問題,而是被迫去尋找更深層的邏輯結構。這就好比在一個有些路標指向錯誤方向的迷宮中,探索者不能盲目跟隨每一個路標,而必須依靠整體的方向感和邏輯推理來找到出路。
研究團隊發(fā)現(xiàn),關鍵在于提高推理事實與原子事實的比例,而不是確保每個事實都百分之百準確。這種發(fā)現(xiàn)對于實際應用具有重要意義,因為在現(xiàn)實世界中,完全準確的數(shù)據(jù)往往難以獲得,而這項研究表明即使數(shù)據(jù)存在一定的不完美,依然可以訓練出強大的推理能力。
五、實驗設計與訓練過程
研究團隊采用了一個8層的GPT-2風格transformer模型,包含768個隱藏單元和12個注意力頭。這個模型的規(guī)模相對較小,只有1.24億個參數(shù),與動輒數(shù)千億參數(shù)的大型模型相比顯得"嬌小"。
訓練過程就像馬拉松比賽,需要極大的耐心和堅持。研究團隊讓模型訓練了多達30萬步,有時甚至更長。在這個漫長的過程中,模型經(jīng)歷了兩個截然不同的階段。
第一階段類似于"死記硬背",模型拼命記憶訓練數(shù)據(jù)中的所有問答對。在這個階段,模型在見過的問題上表現(xiàn)很好,但面對新問題時就顯得無能為力。這種現(xiàn)象在機器學習中被稱為"過擬合",就像一個學生只會背課本上的習題答案,但無法應對期末考試中的新題型。
然而,神奇的事情發(fā)生在訓練的后期。經(jīng)過長時間的學習,模型突然發(fā)生了質的飛躍。就像一個學生在反復練習后突然領悟了數(shù)學的本質,模型開始表現(xiàn)出真正的推理能力。它不再依賴簡單的記憶,而是學會了如何將不同的知識片段連接起來,形成完整的推理鏈條。
六、實驗結果的驚人表現(xiàn)
實驗結果令人震撼。在結構化的比較任務中,經(jīng)過grokking訓練的小型GPT-2模型達到了近乎完美的表現(xiàn)——在從未見過的問題上達到96%的準確率,在訓練過程中見過的問題類型上更是達到100%的準確率。
這種表現(xiàn)的驚人之處在于,它不僅僅是簡單的記憶重現(xiàn),而是真正的推理能力。當面對全新的實體組合和問題類型時,模型依然能夠準確地進行多步推理,就像一個真正理解了邏輯規(guī)律的思考者。
相比之下,最先進的大型模型如GPT-4o和o1-mini在同樣的任務上表現(xiàn)反而不如這個經(jīng)過特殊訓練的小模型。GPT-4o在比較任務上的準確率為87%,在組合任務上僅為56%。這個結果顛覆了"模型越大越聰明"的傳統(tǒng)觀念,證明了正確的訓練方法比單純的模型規(guī)模更為重要。
然而,實驗也暴露了一些局限性。在更復雜的組合任務中,即使是經(jīng)過grokking訓練的模型,在面對全新問題時的表現(xiàn)也只有7%,這表明復雜的多步推理仍然是一個具有挑戰(zhàn)性的問題。此外,當任務從簡單的結構化數(shù)據(jù)擴展到完整的維基百科段落時,模型的表現(xiàn)也會下降,這反映了真實世界文本的復雜性和噪音對AI推理能力的影響。
七、深層機制的理論解釋
為了更好地理解這種現(xiàn)象,研究團隊還提供了理論分析。他們發(fā)現(xiàn),要想觸發(fā)grokking現(xiàn)象,知識圖譜必須滿足特定的數(shù)學條件。
具體來說,對于每種關系類型,其分支因子(即平均每個實體連接的其他實體數(shù)量)必須足夠大,才能支持有效的多步推理。這就像建造一個復雜的交通網(wǎng)絡,只有當?shù)缆纷銐蛎芗瘯r,才能實現(xiàn)高效的多點連接。
研究團隊通過數(shù)學推導證明,n步推理事實與1步事實的比例上限大約為b^(n-1),其中b是平均分支因子。這個發(fā)現(xiàn)為理解grokking現(xiàn)象提供了理論基礎,也為未來的數(shù)據(jù)增強策略提供了指導原則。
八、實際應用的啟示
這項研究的意義遠超學術范疇,它為人工智能的實際應用開辟了新的可能性。傳統(tǒng)的AI推理往往需要明確的步驟提示,就像給AI提供詳細的操作手冊。而這種隱式推理能力意味著AI可以更自然地處理復雜問題,無需人工設計復雜的推理框架。
在教育領域,這種技術可以幫助開發(fā)更智能的輔導系統(tǒng),能夠像人類導師一樣進行多步推理,幫助學生解決復雜問題。在醫(yī)療診斷中,它可以協(xié)助醫(yī)生整合多種癥狀和檢查結果,進行綜合分析。在法律咨詢方面,它可以幫助律師分析復雜案件中的多重因果關系。
更重要的是,這項研究表明,我們不一定需要超大規(guī)模的模型來實現(xiàn)強大的推理能力。通過巧妙的數(shù)據(jù)設計和訓練策略,相對較小的模型也能夠表現(xiàn)出令人印象深刻的智能水平。這對于資源有限的研究機構和企業(yè)來說具有重要的實用價值。
九、局限性與未來展望
盡管這項研究取得了突破性進展,但研究團隊也誠實地指出了當前工作的局限性。首先,當前的實驗主要集中在基于維基百科的事實性問答任務上,對于其他類型的推理任務,如常識推理、道德判斷等,這種方法的效果仍有待驗證。
其次,訓練過程需要消耗大量的計算資源和時間。讓模型訓練數(shù)十萬步不僅成本高昂,也對實際應用的便利性造成了限制。研究團隊指出,尋找更高效的訓練方法將是未來工作的重要方向。
此外,合成數(shù)據(jù)的質量控制也是一個需要關注的問題。雖然研究表明一定程度的錯誤信息不會損害推理能力,但如何在保證推理效果的同時維護事實準確性,仍然是一個需要平衡的問題。
未來的研究方向包括將這種方法擴展到更多領域,如生物醫(yī)學、法律文本等專業(yè)領域。研究團隊也計劃探索如何縮短訓練時間,以及如何在更大規(guī)模的模型上應用這些發(fā)現(xiàn)。
說到底,這項來自慕尼黑工業(yè)大學的研究為我們展示了人工智能學習的一種全新可能性。它證明了AI模型不僅能夠記憶信息,更能夠像人類一樣通過長期學習逐漸掌握推理的本質。雖然目前這種技術還有諸多限制,但它為構建更智能、更自然的AI系統(tǒng)指明了方向。
更讓人興奮的是,這種突破是通過相對較小的模型實現(xiàn)的,這意味著強大的AI推理能力可能比我們想象的更容易獲得。隨著研究的深入和技術的完善,我們有理由期待看到更多能夠進行復雜推理的AI系統(tǒng)出現(xiàn)在我們的日常生活中,為人類解決各種復雜問題提供智能支持。
對于那些希望深入了解這項研究技術細節(jié)的讀者,完整的論文已經(jīng)發(fā)表在2025年第42屆國際機器學習大會上,也可以通過arXiv:2504.20752v2訪問預印本版本。這項工作不僅推進了我們對AI學習機制的理解,也為未來開發(fā)更強大的推理系統(tǒng)提供了寶貴的經(jīng)驗和指導。
Q&A
Q1:什么是Grokking現(xiàn)象?AI模型是怎么突然變聰明的? A:Grokking是AI模型從死記硬背突然轉變?yōu)檎嬲斫庖?guī)律的現(xiàn)象。就像學生剛開始只會背數(shù)學公式,但某一刻突然理解了背后的數(shù)學原理,從此能解決各種新題型。AI模型經(jīng)過長時間訓練后,也會發(fā)生這種質的飛躍,從簡單記憶轉向真正的邏輯推理。
Q2:為什么錯誤的數(shù)據(jù)反而能幫助AI學得更好? A:這聽起來違反直覺,但原理很簡單。當數(shù)據(jù)中存在一些錯誤時,AI無法依賴簡單的記憶來應付,必須學會識別真正的邏輯模式。就像在路標有些錯誤的迷宮中,你不能盲目跟隨每個路標,而要依靠整體邏輯來導航。這樣反而鍛煉了更強的推理能力。
Q3:這項技術會不會很快應用到我們的日常生活中? A:雖然研究成果很promising,但目前還有一些限制。訓練過程需要大量時間和計算資源,而且主要在特定類型的問答任務上測試過。不過,這為開發(fā)更智能的教育輔導系統(tǒng)、醫(yī)療診斷助手等應用指明了方向,預計未來幾年會看到相關技術的實際應用。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構聯(lián)合提出SparseLoRA技術,通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。