當你參加考試時,如果考題只是把數(shù)字稍微改一下,比如將"小明有5個蘋果"變成"小明有7個蘋果",你還能做對嗎?答案當然是肯定的。但如果讓當今最先進的AI模型來回答這樣的問題,結(jié)果可能會讓你大吃一驚。
這項由微軟研究院劍橋分校的許心諾(Xinnuo Xu)、瑞秋·勞倫斯(Rachel Lawrence)等研究人員,以及微軟研究院印度分校的團隊共同完成的研究,發(fā)表于2025年6月18日的arXiv預(yù)印本平臺(論文編號:arXiv:2506.15455v1 [cs.CL])。有興趣深入了解的讀者可以通過該論文編號在arXiv平臺上訪問完整論文。研究團隊開發(fā)了一個名為RE-IMAGINE的創(chuàng)新框架,專門用來檢驗大型語言模型(也就是像ChatGPT這樣的AI系統(tǒng))是否真的具備推理能力,還是僅僅在背誦答案。
你可能會疑惑,AI模型在各種標準測試中表現(xiàn)得如此優(yōu)秀,甚至在一些推理任務(wù)上超越了人類,為什么還要質(zhì)疑它們的推理能力呢?關(guān)鍵問題在于,這些模型可能只是記住了訓(xùn)練數(shù)據(jù)中的答案模式,而非真正理解了解題的邏輯。就像一個學生可能背會了所有練習題的答案,但遇到稍有變化的新題就不會做了。
為了深入探究這個問題,研究團隊受到了著名統(tǒng)計學家朱迪亞·珀爾(Judea Pearl)的"因果推理階梯"理論啟發(fā)。珀爾將人類認知分為三個層次:觀察層面(看到什么)、干預(yù)層面(如果我們改變什么會發(fā)生什么)和反事實層面(如果當時情況不同會怎樣)?;谶@個理論,研究團隊設(shè)計了一個三層次的推理能力評估體系。
第一個層次叫做"觀察",這是最基礎(chǔ)的層面。在這個層面,AI模型需要解決原始的、未經(jīng)修改的問題。比如一道數(shù)學題:"珍妮每天讀80頁書,貝琳達每天讀30頁書,6天后珍妮比貝琳達多讀了多少頁?"這就像是給學生出一道標準的練習題,大多數(shù)先進的AI模型在這類問題上表現(xiàn)都相當不錯,準確率可以達到95%左右。
第二個層次是"變化",這里開始變得有趣了。研究團隊會對原題進行各種修改,但保持核心的推理邏輯不變。他們可能會改變題目中的數(shù)字,比如把"80頁"改成"90頁",或者添加一些無關(guān)信息,比如"珍妮住在紐約"。還可能會改變變量的名字,把"珍妮"改成"艾米"。這些改動對于真正理解題目邏輯的人來說毫無影響,但對于只是記住了答案模式的系統(tǒng)來說,就可能造成困擾。
第三個層次叫做"想象",這是最具挑戰(zhàn)性的層面。在這里,研究團隊會在原題基礎(chǔ)上添加新的邏輯條件,甚至可能與原有條件相矛盾。比如在原題后面加上"假設(shè)貝琳達實際上每天讀50頁書而不是30頁"。這就像是在考試中臨時改變了題目條件,需要考生重新分析整個問題。這種改動不僅測試模型是否記住了答案,更測試它是否真正理解了問題的邏輯結(jié)構(gòu)。
為了讓這套評估系統(tǒng)能夠大規(guī)模使用,研究團隊開發(fā)了一個自動化的"問題變形工廠"。這個系統(tǒng)的工作原理頗為巧妙,可以比作一個精密的翻譯和改裝車間。首先,系統(tǒng)會將自然語言的題目轉(zhuǎn)換成可執(zhí)行的代碼形式,就像把一個菜譜翻譯成機器能理解的操作指令。然后,系統(tǒng)會對這些代碼進行各種修改,就像在裝配線上對產(chǎn)品進行不同的改裝。最后,系統(tǒng)再將修改后的代碼重新轉(zhuǎn)換回自然語言,形成新的題目,同時自動計算出正確答案。
這個自動化系統(tǒng)的最大優(yōu)勢是可以無限制地生成題目變體。傳統(tǒng)的方法需要研究人員手工編寫每一道新題目,既費時又費力,而且很難保證大規(guī)模的一致性。而這個系統(tǒng)就像是有了一個永不疲倦的出題機器,可以從一道原題生成成千上萬道不同但相關(guān)的題目。
研究團隊在四個不同領(lǐng)域的基準測試上驗證了他們的框架。第一個是GSM8K,這是一個包含小學水平數(shù)學應(yīng)用題的數(shù)據(jù)集。第二個是CLadder,專門測試因果推理能力,涉及概率和因果關(guān)系的推斷。第三個和第四個分別是CRUXEval和Loop,這兩個都是關(guān)于代碼理解的測試,前者測試對Python函數(shù)輸入輸出的預(yù)測能力,后者測試對循環(huán)不變量的推理能力。
在數(shù)學推理測試中,研究團隊發(fā)現(xiàn)了一些令人意外的結(jié)果。當面對最簡單的變化,比如僅僅改變題目中的數(shù)值時,幾乎所有被測試的模型準確率都下降了約10%。這相當于一個原本能考95分的學生,僅僅因為題目中的數(shù)字換了一下,就只能考85分了。更有趣的是,當研究人員添加無關(guān)信息時,較大的模型表現(xiàn)相對較好,說明它們有一定能力識別和忽略干擾信息,但較小的模型就容易被這些"噪音"所影響。
到了第三層次的"想象"測試,情況變得更加嚴峻。所有模型的表現(xiàn)都出現(xiàn)了顯著下降,即使是目前最先進的GPT-o1模型也不例外。這就像是讓一個習慣了標準化考試的學生突然面對開放式的創(chuàng)新題目,很多之前有效的解題套路都不再適用。
在代碼理解測試中,結(jié)果同樣令人深思。即使是對代碼進行最微小的修改,比如將一個加號改成減號,或者改變一個字符串的內(nèi)容,模型的準確率也會明顯下降。這表明這些模型可能過度依賴于對特定代碼模式的記憶,而非真正理解代碼的邏輯。
研究團隊還進行了一項特別有趣的實驗,叫做"雙重反事實"測試。這項測試專門檢驗?zāi)P蛯σ蚬P(guān)系的理解。簡單來說,就是測試模型是否能正確判斷"如果原因發(fā)生,結(jié)果會出現(xiàn)"以及"如果原因不發(fā)生,結(jié)果就不會出現(xiàn)"這樣的因果邏輯。結(jié)果顯示,即使是表現(xiàn)最好的模型在這種測試中也表現(xiàn)不佳,這暗示當前的AI系統(tǒng)在真正的因果推理方面還有很大的提升空間。
研究團隊還探索了一個實用性很強的問題:能否通過改變訓(xùn)練示例來提高模型在變化題目上的表現(xiàn)?他們發(fā)現(xiàn),如果在訓(xùn)練時既提供原始題目又提供變化后的題目作為示例,模型的表現(xiàn)確實會有顯著改善。這就像是讓學生既練習標準題目,又練習各種變形題目,自然會提高應(yīng)對能力。但即使如此,模型在最具挑戰(zhàn)性的"想象"層次測試中表現(xiàn)仍然不夠理想。
從技術(shù)實現(xiàn)的角度來看,這個框架的創(chuàng)新性體現(xiàn)在幾個方面。首先是自動化程度高,傳統(tǒng)方法需要大量人工參與,而這個系統(tǒng)可以自動生成題目變體。其次是適用范圍廣,同一套方法可以應(yīng)用于數(shù)學、代碼、邏輯等不同領(lǐng)域。最后是評估體系的系統(tǒng)性,三個層次的設(shè)計能夠全面反映模型的推理能力。
這項研究的意義遠超學術(shù)范疇。在實際應(yīng)用中,AI系統(tǒng)經(jīng)常需要處理與訓(xùn)練數(shù)據(jù)稍有不同的新情況。比如一個用于醫(yī)療診斷的AI系統(tǒng),如果只是記住了教科書上的典型病例,那么面對實際病人的復(fù)雜情況時可能就會出錯。同樣,用于自動駕駛的AI系統(tǒng)如果不能真正理解交通規(guī)則的邏輯,而只是記住了訓(xùn)練場景,那么在遇到新的路況時就可能出現(xiàn)危險。
研究結(jié)果還揭示了當前AI模型的一個重要局限性:它們在很大程度上依賴于統(tǒng)計模式的記憶,而非真正的邏輯推理。這解釋了為什么這些模型在一些標準測試中表現(xiàn)優(yōu)異,但在面對需要靈活應(yīng)變的現(xiàn)實問題時卻經(jīng)常出錯。這個發(fā)現(xiàn)對于AI安全也有重要意義,因為它提醒我們在部署AI系統(tǒng)時必須充分考慮其在面對新情況時的可靠性。
從研究方法學的角度來看,這項工作也為其他研究者提供了有價值的工具和思路。RE-IMAGINE框架不僅可以用于評估現(xiàn)有模型,也可以用于指導(dǎo)新模型的訓(xùn)練和改進。研究團隊已經(jīng)將他們的代碼和數(shù)據(jù)公開,這將推動整個領(lǐng)域在模型評估方法上的進步。
此外,這項研究還涉及了深入的數(shù)學分析。研究團隊通過控制推理步驟的數(shù)量來確保觀察到的性能下降確實來自于題目變化本身,而非額外的計算復(fù)雜度。他們發(fā)現(xiàn),即使在控制了推理復(fù)雜度的情況下,模型在變化題目上的表現(xiàn)仍然明顯不如原始題目,這進一步證實了模型存在過度依賴記憶的問題。
值得注意的是,不同類型的模型在這些測試中表現(xiàn)出了不同的特點。較大的模型通常在處理無關(guān)信息方面表現(xiàn)更好,這可能是因為它們有更強的能力識別和過濾干擾信息。但即使是最大的模型在面對邏輯變化時仍然表現(xiàn)不佳,這說明模型大小本身并不能解決根本的推理問題。
研究團隊還觀察到了一個有趣的現(xiàn)象:當題目中出現(xiàn)明顯的"垃圾"信息時(比如添加明顯無關(guān)的變量名),模型的表現(xiàn)下降幅度相對較小,但當無關(guān)信息被巧妙地融入題目時,模型就更容易被誤導(dǎo)。這說明當前的AI模型雖然具備一定的信息過濾能力,但這種能力還不夠精細和可靠。
從更廣闊的視角來看,這項研究實際上觸及了人工智能領(lǐng)域的一個核心問題:什么是真正的智能?如果一個系統(tǒng)只能在見過的情況下表現(xiàn)良好,而在面對新情況時就出錯,那么我們能說它真正"理解"了問題嗎?這個問題不僅關(guān)乎技術(shù)發(fā)展,也涉及我們對智能本質(zhì)的理解。
研究結(jié)果對于AI教育和培訓(xùn)也有重要啟示。目前的模型訓(xùn)練方法主要依賴于大量數(shù)據(jù)的統(tǒng)計學習,但這項研究表明,僅僅增加數(shù)據(jù)量可能不足以產(chǎn)生真正的推理能力。未來可能需要開發(fā)新的訓(xùn)練方法,讓模型不僅學會記憶模式,更能理解問題的內(nèi)在邏輯結(jié)構(gòu)。
對于AI從業(yè)者來說,這項研究提供了重要的實踐指導(dǎo)。在開發(fā)和部署AI系統(tǒng)時,應(yīng)該更加重視對模型在新情況下表現(xiàn)的測試,而不僅僅關(guān)注其在標準測試集上的性能。同時,在設(shè)計AI應(yīng)用時,應(yīng)該考慮到模型可能在面對訓(xùn)練數(shù)據(jù)之外的情況時表現(xiàn)不佳,因此需要設(shè)計相應(yīng)的安全機制和人工監(jiān)督環(huán)節(jié)。
這項研究也為政策制定者提供了有價值的參考。隨著AI技術(shù)在各個領(lǐng)域的廣泛應(yīng)用,理解其局限性變得越來越重要。這項研究表明,即使是最先進的AI模型在推理能力方面仍有重要缺陷,這提醒我們在制定AI相關(guān)政策時需要充分考慮技術(shù)的局限性,特別是在涉及安全關(guān)鍵應(yīng)用的領(lǐng)域。
從科學發(fā)現(xiàn)的角度來看,這項研究也具有重要的理論價值。它為我們理解當前AI模型的工作機制提供了新的視角,揭示了這些模型在表面上的優(yōu)異表現(xiàn)背后可能隱藏的深層問題。這種理解對于未來AI技術(shù)的發(fā)展方向具有重要指導(dǎo)意義。
研究團隊在論文中特別強調(diào)了他們框架的可擴展性。RE-IMAGINE不僅可以應(yīng)用于他們測試的四個領(lǐng)域,理論上可以擴展到任何可以用符號表示的推理任務(wù)。這意味著這個框架有可能成為評估AI推理能力的通用工具,為整個AI研究社區(qū)提供標準化的評估方法。
最后,這項研究也提出了一些有趣的未來研究方向。比如,如何設(shè)計更好的訓(xùn)練方法來提高模型的真實推理能力?如何在模型架構(gòu)層面改進以更好地支持邏輯推理?如何平衡模型的記憶能力和推理能力?這些問題都值得進一步探索。
說到底,這項研究就像是給當前的AI熱潮潑了一盆"理性的冷水"。它提醒我們,盡管AI模型在很多任務(wù)上表現(xiàn)驚人,但它們距離真正的智能推理還有相當大的距離。這并不是要否定AI技術(shù)的價值,而是要讓我們更清醒地認識到當前技術(shù)的邊界,從而更好地利用它們的優(yōu)勢,同時避免過度依賴可能帶來的風險。這種清醒的認識對于AI技術(shù)的健康發(fā)展至關(guān)重要,也為未來的研究指明了重要的方向。
Q&A
Q1:RE-IMAGINE是什么?它是怎么工作的? A:RE-IMAGINE是微軟研究院開發(fā)的AI推理能力測試框架。它像一個"問題變形工廠",能自動將原始題目轉(zhuǎn)換成代碼,然后進行各種修改,最后轉(zhuǎn)換回自然語言形成新題目。通過觀察AI模型在原題和變化題目上的表現(xiàn)差異,來判斷模型是真正理解了邏輯還是只是記住了答案模式。
Q2:為什么要質(zhì)疑AI的推理能力?它們在測試中表現(xiàn)不是很好嗎? A:雖然AI模型在標準測試中表現(xiàn)優(yōu)異,但這項研究發(fā)現(xiàn),當題目稍有變化時(比如只是改個數(shù)字),模型準確率就會明顯下降。這表明模型可能只是記住了訓(xùn)練數(shù)據(jù)中的模式,而非真正理解問題邏輯。就像一個學生背會了所有練習題答案,但遇到變化就不會做了。
Q3:這項研究對普通人有什么意義? A:這項研究提醒我們要理性看待AI能力。雖然AI在很多方面很強大,但在需要靈活應(yīng)變的情況下可能會出錯。這對使用AI產(chǎn)品的普通人來說很重要,比如不要完全依賴AI做重要決策,在醫(yī)療、法律等關(guān)鍵領(lǐng)域使用AI時要特別謹慎,需要人工監(jiān)督和驗證。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領(lǐng)域帶來了效率和精度的雙重突破。