這項(xiàng)由阿聯(lián)酋穆罕默德·本·扎耶德人工智能大學(xué)(MBZUAI)、俄羅斯莫斯科物理技術(shù)學(xué)院、俄羅斯人工智能研究所以及英國(guó)倫敦?cái)?shù)學(xué)科學(xué)研究所的國(guó)際研究團(tuán)隊(duì)完成的研究,于2025年1月發(fā)表在arXiv預(yù)印本平臺(tái)上。有興趣深入了解的讀者可以通過(guò)論文編號(hào)arXiv:2508.16745訪問(wèn)完整論文。這個(gè)跨國(guó)合作的研究團(tuán)隊(duì)包括來(lái)自MBZUAI的Ivan Rodkin、Daniil Orel等多位學(xué)者,以及來(lái)自俄羅斯和英國(guó)頂尖研究機(jī)構(gòu)的專家們。
當(dāng)我們看到OpenAI的o1模型在數(shù)學(xué)奧林匹克競(jìng)賽中闖進(jìn)前500名,或者DeepSeek R1在國(guó)際信息學(xué)奧林匹克中取得優(yōu)異成績(jī)時(shí),很容易以為人工智能已經(jīng)完全掌握了復(fù)雜推理的藝術(shù)。然而,就像一個(gè)看起來(lái)很會(huì)做菜的朋友可能只是背熟了幾道招牌菜的菜譜一樣,這些令人印象深刻的表現(xiàn)背后隱藏著一個(gè)關(guān)鍵問(wèn)題:AI模型到底是真正學(xué)會(huì)了推理,還是僅僅在重復(fù)記憶中的模式?
這個(gè)問(wèn)題困擾著整個(gè)人工智能領(lǐng)域。當(dāng)一個(gè)AI系統(tǒng)成功解決了復(fù)雜數(shù)學(xué)題,我們很難判斷它是真的理解了數(shù)學(xué)原理,還是只是從訓(xùn)練數(shù)據(jù)中記住了類似題目的解法。這就像區(qū)分一個(gè)學(xué)生是真正掌握了數(shù)學(xué)概念,還是僅僅背熟了題型和答案一樣困難。
為了徹底搞清楚這個(gè)問(wèn)題,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的實(shí)驗(yàn)環(huán)境,就像為AI模型創(chuàng)造了一個(gè)完全陌生的"推理游樂園"。他們選擇了一維細(xì)胞自動(dòng)機(jī)作為測(cè)試平臺(tái),這個(gè)聽起來(lái)復(fù)雜的概念其實(shí)可以用一個(gè)簡(jiǎn)單的比喻來(lái)理解:想象有一排燈泡,每個(gè)燈泡要么亮著要么暗著,而每盞燈的下一秒狀態(tài)都由它和鄰居燈泡的當(dāng)前狀態(tài)按照某個(gè)固定規(guī)律決定。這個(gè)規(guī)律就像游戲規(guī)則一樣,一旦確定就會(huì)一直適用。
這個(gè)設(shè)計(jì)的精妙之處在于,研究團(tuán)隊(duì)確保訓(xùn)練時(shí)使用的規(guī)則和測(cè)試時(shí)使用的規(guī)則完全不同,就像讓學(xué)生用從未見過(guò)的數(shù)學(xué)公式來(lái)解題一樣。這樣一來(lái),如果AI模型能成功預(yù)測(cè)未來(lái)的狀態(tài),那就證明它真正學(xué)會(huì)了從觀察中推導(dǎo)規(guī)律并應(yīng)用規(guī)律的能力,而不是簡(jiǎn)單的記憶重現(xiàn)。
研究團(tuán)隊(duì)面臨的核心挑戰(zhàn)可以概括為三個(gè)基本問(wèn)題。首先,AI模型展現(xiàn)的推理能力究竟是真正的泛化能力,還是巧妙的記憶復(fù)現(xiàn)?其次,當(dāng)推理需要的步驟越來(lái)越多時(shí),任務(wù)難度如何變化?最后,模型的架構(gòu)設(shè)計(jì)、訓(xùn)練目標(biāo)和推理過(guò)程會(huì)在多大程度上限制其推理能力?
為了回答這些問(wèn)題,研究團(tuán)隊(duì)構(gòu)建了一個(gè)comprehensive的測(cè)試框架,包含四種不同的任務(wù)變體。第一種叫做"軌道-狀態(tài)"任務(wù),就像給模型展示一個(gè)燈泡序列的變化歷史,然后要求它預(yù)測(cè)若干步之后的狀態(tài)。第二種是"軌道-軌道"任務(wù),不僅要預(yù)測(cè)最終狀態(tài),還要給出每一步的中間過(guò)程,這就像要求學(xué)生不僅給出答案,還要展示完整的解題步驟。
第三種任務(wù)更加直接,叫做"軌道-狀態(tài)和規(guī)則",要求模型在預(yù)測(cè)未來(lái)狀態(tài)的同時(shí),還要明確說(shuō)出它推導(dǎo)出的規(guī)則是什么。這就像要求學(xué)生在解題的同時(shí),還要說(shuō)明自己用了什么數(shù)學(xué)定理。最后一種任務(wù)則是"規(guī)則和軌道-狀態(tài)",直接告訴模型規(guī)則是什么,只要求預(yù)測(cè)結(jié)果,這相當(dāng)于給學(xué)生提供公式,看他們能否正確應(yīng)用。
一、深度與推理能力的神秘聯(lián)系
研究結(jié)果揭示了一個(gè)令人意外的現(xiàn)象:幾乎所有的神經(jīng)網(wǎng)絡(luò)架構(gòu),包括Transformer、LSTM、Mamba狀態(tài)空間模型和增強(qiáng)記憶Transformer(ARMT),都能夠相當(dāng)準(zhǔn)確地預(yù)測(cè)下一步狀態(tài)。這就像讓不同的學(xué)生用不同方法解簡(jiǎn)單題目,大家都能答對(duì)一樣。然而,當(dāng)要求進(jìn)行多步推理時(shí),情況發(fā)生了戲劇性變化。
以4層的GPT-NeoX模型為例,它在單步預(yù)測(cè)上能達(dá)到95%的準(zhǔn)確率,但當(dāng)需要預(yù)測(cè)兩步之后的狀態(tài)時(shí),準(zhǔn)確率驟降到40%,而三步和四步預(yù)測(cè)的準(zhǔn)確率更是跌破25%。這種急劇下降讓人聯(lián)想到爬山時(shí)的體力極限,看起來(lái)輕松的單步變成了不可逾越的障礙。
更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)這種限制與模型的"深度"密切相關(guān)。在神經(jīng)網(wǎng)絡(luò)中,深度指的是信息處理的層數(shù),就像一個(gè)復(fù)雜決策需要經(jīng)過(guò)多個(gè)思考環(huán)節(jié)一樣。實(shí)驗(yàn)證明,增加模型的深度比增加其"寬度"(每層的參數(shù)數(shù)量)更能改善多步推理性能。
當(dāng)研究人員將Transformer的層數(shù)從4層增加到12層時(shí),單步和兩步預(yù)測(cè)的準(zhǔn)確率很快達(dá)到飽和,但三步預(yù)測(cè)能力持續(xù)改善,而四步預(yù)測(cè)仍然表現(xiàn)糟糕。這就像增加思考時(shí)間對(duì)解決復(fù)雜問(wèn)題更有幫助,但面對(duì)超出認(rèn)知極限的問(wèn)題時(shí),再多時(shí)間也無(wú)濟(jì)于事。
相比之下,增加模型寬度的效果要微弱得多。將embedding維度從64增加到512,各個(gè)推理深度的性能提升都很有限。這個(gè)發(fā)現(xiàn)強(qiáng)化了一個(gè)重要觀點(diǎn):對(duì)于多步推理任務(wù),計(jì)算的深度比廣度更為關(guān)鍵。
二、突破深度限制的創(chuàng)新途徑
面對(duì)固定深度模型的局限性,研究團(tuán)隊(duì)探索了三種主要的解決方案,每種都像是為思考過(guò)程裝上不同類型的"增壓器"。
第一種方法是段落級(jí)循環(huán)機(jī)制,以ARMT模型為代表。這種方法就像讓模型在處理長(zhǎng)文本時(shí)能夠"回頭看看"之前的內(nèi)容,而不是只能線性地從頭到尾處理。實(shí)驗(yàn)結(jié)果顯示,ARMT能夠?qū)⑼评砟芰U(kuò)展到兩步,但仍然無(wú)法突破更深層次的限制。這種改善可能源于其段落分塊處理方式,迫使模型將規(guī)則表示和狀態(tài)表示分離,從而能夠生成中間狀態(tài)的隱藏表示。
第二種方法是自適應(yīng)計(jì)算時(shí)間(ACT),這個(gè)概念聽起來(lái)復(fù)雜,但可以用一個(gè)簡(jiǎn)單的比喻來(lái)理解:就像讓模型自己決定某個(gè)問(wèn)題需要思考多長(zhǎng)時(shí)間。對(duì)于簡(jiǎn)單問(wèn)題,模型可以快速給出答案;對(duì)于復(fù)雜問(wèn)題,模型可以進(jìn)行更多輪次的內(nèi)部處理。ACT為Transformer模型提供了大約一個(gè)額外的有效推理步驟,但收益在三步以上開始遞減。
第三種方法是強(qiáng)化學(xué)習(xí)訓(xùn)練,特別是使用組相對(duì)策略優(yōu)化(GRPO)方法。這種方法的巧妙之處在于,它不需要中間步驟的監(jiān)督信號(hào),只需要知道最終答案是否正確。就像讓學(xué)生自由發(fā)揮解題思路,只要最終答案對(duì)了就給獎(jiǎng)勵(lì)。令人驚喜的是,經(jīng)過(guò)GRPO訓(xùn)練的模型能夠達(dá)到三步推理的可靠性能,這證明了模型能夠?qū)W會(huì)在生成最終答案之前進(jìn)行內(nèi)部"思考"。
三、監(jiān)督信號(hào)的魔法效應(yīng)
當(dāng)研究團(tuán)隊(duì)引入顯式的推理監(jiān)督時(shí),效果立竿見影,就像給學(xué)生提供了詳細(xì)的解題步驟指導(dǎo)一樣。他們測(cè)試了兩種主要的監(jiān)督方式:軌道-軌道(O-O)訓(xùn)練和思維鏈(CoT)訓(xùn)練。
軌道-軌道訓(xùn)練要求模型預(yù)測(cè)所有中間步驟,而不僅僅是最終結(jié)果。然而,單純的O-O訓(xùn)練并沒有帶來(lái)預(yù)期的改善,甚至在某些情況下表現(xiàn)更差。這就像強(qiáng)迫學(xué)生寫出每一個(gè)計(jì)算步驟,但如果沒有正確的指導(dǎo),反而可能讓學(xué)生更加困惑。
但是,當(dāng)O-O訓(xùn)練與自適應(yīng)計(jì)算時(shí)間結(jié)合時(shí),效果顯著改善,超越了基線模型和僅使用ACT的版本。這種組合就像是為學(xué)生提供了既要寫詳細(xì)步驟,又給足夠時(shí)間思考的最佳學(xué)習(xí)環(huán)境。
最令人印象深刻的是思維鏈訓(xùn)練的效果。在這種訓(xùn)練方式下,GPT-NeoX和ARMT模型都能成功進(jìn)行四步預(yù)測(cè),準(zhǔn)確率接近完美。思維鏈訓(xùn)練的核心思想是讓模型學(xué)會(huì)"大聲思考",即在生成最終答案之前,先生成解決問(wèn)題的中間推理過(guò)程。這種方法將復(fù)雜的多步預(yù)測(cè)問(wèn)題轉(zhuǎn)化為逐步的下一詞預(yù)測(cè)任務(wù),大大降低了任務(wù)難度。
四、跨領(lǐng)域驗(yàn)證:群乘法的啟示
為了驗(yàn)證研究發(fā)現(xiàn)的普遍性,團(tuán)隊(duì)還在群乘法基準(zhǔn)上進(jìn)行了測(cè)試。群乘法任務(wù)要求模型給出序列中每個(gè)元素與之前所有元素的累積乘積,這是另一個(gè)需要多步計(jì)算的推理任務(wù)。
結(jié)果與細(xì)胞自動(dòng)機(jī)實(shí)驗(yàn)高度一致。GPT-NeoX和Mamba模型解決較長(zhǎng)序列需要更多層數(shù),而具有循環(huán)特性的模型(ARMT和LSTM)能夠用恒定的層數(shù)解決不同長(zhǎng)度的任務(wù)。LSTM在這個(gè)任務(wù)上表現(xiàn)特別出色,僅用一層就能解決問(wèn)題,這得益于其天然的序列處理能力。
更重要的是,添加自適應(yīng)計(jì)算時(shí)間或關(guān)聯(lián)記憶機(jī)制都能顯著減少所需的模型深度,這進(jìn)一步證實(shí)了研究團(tuán)隊(duì)在細(xì)胞自動(dòng)機(jī)上的發(fā)現(xiàn)具有更廣泛的適用性。
五、實(shí)際應(yīng)用的深遠(yuǎn)意義
這些研究發(fā)現(xiàn)對(duì)大型語(yǔ)言模型的發(fā)展和應(yīng)用具有重要啟示。首先,它們揭示了當(dāng)前模型在多步推理方面的根本局限性。即使是在相對(duì)簡(jiǎn)單的規(guī)則推導(dǎo)任務(wù)上,固定深度的模型也會(huì)遇到明確的性能瓶頸。
對(duì)于實(shí)際應(yīng)用而言,這意味著單純?cè)黾幽P蛥?shù)可能不是提升推理能力的最佳途徑。相反,開發(fā)能夠動(dòng)態(tài)調(diào)整計(jì)算深度的架構(gòu)和訓(xùn)練方法可能更有前景。自適應(yīng)計(jì)算時(shí)間、強(qiáng)化學(xué)習(xí)訓(xùn)練和思維鏈方法都展現(xiàn)了突破固定深度限制的潛力。
研究還強(qiáng)調(diào)了中間步驟監(jiān)督的重要性。在現(xiàn)實(shí)應(yīng)用中,很多數(shù)據(jù)集很少包含長(zhǎng)期、多步推理的監(jiān)督信號(hào),因此像GRPO這樣只依賴最終答案正確性的方法顯得特別有價(jià)值。這為開發(fā)能夠自主學(xué)習(xí)復(fù)雜推理的AI系統(tǒng)開辟了新路徑。
從更宏觀的角度來(lái)看,這項(xiàng)研究為理解AI系統(tǒng)的認(rèn)知極限提供了重要參考。它表明,真正的推理能力需要的不僅是大量參數(shù)和數(shù)據(jù),還需要適當(dāng)?shù)募軜?gòu)設(shè)計(jì)和訓(xùn)練策略來(lái)支持深層次的思維過(guò)程。
六、技術(shù)實(shí)現(xiàn)的細(xì)節(jié)洞察
在具體實(shí)現(xiàn)層面,研究團(tuán)隊(duì)采用了20位寬度、鄰域半徑為2的一維細(xì)胞自動(dòng)機(jī)配置,這意味著每個(gè)位置的下一狀態(tài)由其周圍5個(gè)位置的當(dāng)前狀態(tài)決定。由于有2^5=32種可能的5位輸入,每個(gè)規(guī)則可以用32位字符串表示,總共有約43億種可能的規(guī)則。
訓(xùn)練數(shù)據(jù)集包含95萬(wàn)個(gè)實(shí)例,測(cè)試集包含10萬(wàn)個(gè)實(shí)例,嚴(yán)格確保訓(xùn)練和測(cè)試使用完全不同的規(guī)則集。這種設(shè)計(jì)杜絕了模型通過(guò)記憶訓(xùn)練數(shù)據(jù)來(lái)"作弊"的可能性。
在評(píng)估指標(biāo)方面,研究團(tuán)隊(duì)對(duì)狀態(tài)預(yù)測(cè)使用精確匹配(全對(duì)或全錯(cuò)),對(duì)規(guī)則預(yù)測(cè)使用位級(jí)準(zhǔn)確率(考慮到某些規(guī)則轉(zhuǎn)換可能在觀察序列中未出現(xiàn))。這種嚴(yán)格的評(píng)估標(biāo)準(zhǔn)確保了結(jié)果的可靠性。
模型架構(gòu)方面,基線配置使用4層、128維的小規(guī)模模型,這樣的設(shè)計(jì)既能進(jìn)行充分實(shí)驗(yàn),又不會(huì)因?yàn)橛?jì)算資源限制而影響研究深度。自適應(yīng)計(jì)算時(shí)間的最大迭代次數(shù)設(shè)定為4,這個(gè)選擇基于任務(wù)的推理深度需求。
七、未來(lái)發(fā)展的廣闊前景
這項(xiàng)研究為AI推理能力的發(fā)展指明了幾個(gè)重要方向。首先,開發(fā)更好的深度可擴(kuò)展架構(gòu)變得至關(guān)重要。傳統(tǒng)的固定深度模型在面對(duì)變化的推理需求時(shí)顯得力不從心,而能夠根據(jù)任務(wù)復(fù)雜度動(dòng)態(tài)調(diào)整計(jì)算深度的模型將具有更大優(yōu)勢(shì)。
其次,無(wú)需中間監(jiān)督的推理學(xué)習(xí)方法具有巨大潛力。GRPO等強(qiáng)化學(xué)習(xí)方法展現(xiàn)的能力表明,AI系統(tǒng)可能無(wú)需人類提供詳細(xì)的推理步驟就能學(xué)會(huì)復(fù)雜推理。這對(duì)于處理人類難以提供完整監(jiān)督信號(hào)的復(fù)雜任務(wù)特別有價(jià)值。
再者,思維鏈等顯式推理方法的成功提示了一個(gè)重要方向:讓AI系統(tǒng)的推理過(guò)程更加透明和可控。這不僅能提升性能,還能增強(qiáng)AI系統(tǒng)的可解釋性和可信度。
最后,跨任務(wù)的推理能力泛化研究需要更多關(guān)注。雖然本研究在細(xì)胞自動(dòng)機(jī)和群乘法兩個(gè)任務(wù)上得到了一致結(jié)果,但這些發(fā)現(xiàn)在更廣泛的推理任務(wù)中的適用性仍需進(jìn)一步驗(yàn)證。
說(shuō)到底,這項(xiàng)研究就像為AI推理能力的發(fā)展提供了一張?jiān)敿?xì)的"體檢報(bào)告"。它不僅診斷出了當(dāng)前模型的"健康問(wèn)題",還為"治療方案"提供了清晰的指導(dǎo)。雖然完美的AI推理系統(tǒng)還需要時(shí)間來(lái)實(shí)現(xiàn),但這項(xiàng)工作為我們指明了前進(jìn)的方向,讓我們對(duì)未來(lái)AI系統(tǒng)的推理能力充滿期待。
歸根結(jié)底,真正的智能不僅在于記住已知的答案,更在于面對(duì)未知問(wèn)題時(shí)能夠運(yùn)用原理進(jìn)行推理。這項(xiàng)研究揭示的深度與推理能力的關(guān)系、監(jiān)督信號(hào)的重要作用,以及突破固定限制的各種方法,都將為構(gòu)建更智能、更可靠的AI系統(tǒng)奠定重要基礎(chǔ)。對(duì)于每一個(gè)關(guān)心AI發(fā)展的人來(lái)說(shuō),這些發(fā)現(xiàn)都值得深入思考和進(jìn)一步探索。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過(guò)arXiv:2508.16745獲取完整的研究論文。
Q&A
Q1:一維細(xì)胞自動(dòng)機(jī)是什么?為什么要用它來(lái)測(cè)試AI推理能力?
A:一維細(xì)胞自動(dòng)機(jī)就像一排燈泡,每個(gè)燈泡的下一秒狀態(tài)由它和鄰居燈泡的當(dāng)前狀態(tài)按固定規(guī)律決定。研究團(tuán)隊(duì)選擇它是因?yàn)榭梢源_保訓(xùn)練時(shí)和測(cè)試時(shí)使用完全不同的規(guī)律,這樣AI模型必須真正學(xué)會(huì)推導(dǎo)和應(yīng)用規(guī)律,而不能靠記憶來(lái)"作弊"。這就像讓學(xué)生用從未見過(guò)的數(shù)學(xué)公式解題,能真正測(cè)試推理能力而非記憶能力。
Q2:為什么增加模型深度比增加寬度更能提升多步推理能力?
A:模型深度指信息處理的層數(shù),就像思考問(wèn)題需要經(jīng)過(guò)多個(gè)環(huán)節(jié)一樣。研究發(fā)現(xiàn),將Transformer從4層增加到12層對(duì)多步推理幫助很大,但增加每層參數(shù)數(shù)量(寬度)效果有限。這說(shuō)明多步推理更需要"深度思考"而非"廣泛聯(lián)想",就像解復(fù)雜數(shù)學(xué)題需要一步步深入分析,而不是同時(shí)考慮更多無(wú)關(guān)信息。
Q3:什么是自適應(yīng)計(jì)算時(shí)間,它如何幫助AI進(jìn)行更深層推理?
A:自適應(yīng)計(jì)算時(shí)間讓AI模型自己決定某個(gè)問(wèn)題需要思考多長(zhǎng)時(shí)間。對(duì)簡(jiǎn)單問(wèn)題快速給答案,對(duì)復(fù)雜問(wèn)題進(jìn)行更多輪內(nèi)部處理。研究中,這種方法為Transformer提供了大約一個(gè)額外的推理步驟,就像給學(xué)生更多思考時(shí)間來(lái)解決難題,雖然提升有限但確實(shí)有效。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。