想象一下,如果有人告訴你某個(gè)學(xué)生在數(shù)學(xué)考試中得了零分,你可能會(huì)認(rèn)為這個(gè)學(xué)生數(shù)學(xué)很差。但如果你后來發(fā)現(xiàn),這個(gè)學(xué)生其實(shí)會(huì)做題,只是因?yàn)榇痤}紙不夠大,寫不下完整的解答過程,你還會(huì)認(rèn)為他數(shù)學(xué)不好嗎?這正是人工智能領(lǐng)域最近發(fā)生的一個(gè)有趣故事。
這項(xiàng)由Anthropic公司的C. Opus和Open Philanthropy的A. Lawsen共同完成的研究發(fā)表于2025年6月10日,以"The Illusion of the Illusion of Thinking: A Comment on Shojaee et al. (2025)"為題發(fā)布在arXiv預(yù)印本平臺(tái)上。有興趣深入了解的讀者可以通過arXiv:2506.09250v1訪問完整論文。這項(xiàng)研究就像一個(gè)"打假"行動(dòng),揭露了之前一項(xiàng)聲稱發(fā)現(xiàn)AI推理能力存在根本缺陷的研究實(shí)際上可能誤導(dǎo)了整個(gè)學(xué)術(shù)界。
故事要從Shojaee等人在2025年初發(fā)表的一項(xiàng)研究說起。這些研究者聲稱他們發(fā)現(xiàn)了一個(gè)驚人的現(xiàn)象:那些被譽(yù)為具有強(qiáng)大推理能力的大型推理模型(想象成非常聰明的AI助手)在解決復(fù)雜的邏輯謎題時(shí)會(huì)出現(xiàn)"準(zhǔn)確率崩潰"的現(xiàn)象。簡(jiǎn)單來說,就是這些AI在面對(duì)稍微復(fù)雜一點(diǎn)的問題時(shí),突然就變得像完全不會(huì)思考一樣,準(zhǔn)確率直接掉到零。這個(gè)發(fā)現(xiàn)如果屬實(shí),將對(duì)AI推理研究產(chǎn)生重大影響,因?yàn)樗馕吨@些看似聰明的AI系統(tǒng)存在根本性的局限。
然而,Anthropic和Open Philanthropy的研究團(tuán)隊(duì)通過細(xì)致的分析發(fā)現(xiàn),這個(gè)所謂的"推理能力崩潰"可能是一個(gè)巨大的誤解。他們的發(fā)現(xiàn)就像揭穿了一個(gè)精心包裝的魔術(shù)表演,讓人們看到了真相背后的機(jī)關(guān)。
一、AI其實(shí)知道自己的"答題紙"不夠大
研究團(tuán)隊(duì)首先發(fā)現(xiàn)的最關(guān)鍵問題,就像我們開頭提到的答題紙不夠大的比喻一樣真實(shí)。當(dāng)他們仔細(xì)查看AI模型的實(shí)際輸出時(shí),發(fā)現(xiàn)了一個(gè)被原研究忽視的重要細(xì)節(jié):這些AI模型其實(shí)完全知道自己面臨的限制。
想象你正在解決一個(gè)需要寫出上萬個(gè)步驟的數(shù)學(xué)題,但你的答題紙只能寫幾千個(gè)字。一個(gè)聰明的學(xué)生會(huì)怎么做?他可能會(huì)寫到一半時(shí)說:"接下來的步驟我都知道怎么做,但為了不讓答案太長(zhǎng),我就停在這里了。" 這正是AI模型在做的事情。
Twitter上一位名叫@scaling01的用戶在重現(xiàn)漢諾塔問題(一種經(jīng)典的邏輯謎題,就像把不同大小的盤子按順序移動(dòng)的游戲)時(shí),捕捉到了AI模型的真實(shí)反應(yīng)。模型明確表示:"這個(gè)模式會(huì)繼續(xù)下去,但為了避免回答太長(zhǎng),我就停在這里了。" 這說明AI完全理解解決方案的模式,只是選擇不完整列舉所有步驟,就像一個(gè)懂禮貌的學(xué)生知道什么時(shí)候該停筆一樣。
這個(gè)發(fā)現(xiàn)就像撕掉了魔術(shù)師手套,讓人們看到了真相。原來所謂的"推理崩潰",很可能只是AI遇到了物理限制——就像一個(gè)再聰明的人也不可能在一張便簽紙上寫出一本書的內(nèi)容一樣。
研究團(tuán)隊(duì)進(jìn)一步分析了這種誤判可能帶來的統(tǒng)計(jì)學(xué)謬誤。假設(shè)一個(gè)AI模型每寫一個(gè)字符的準(zhǔn)確率是99.9%,看起來已經(jīng)非常高了。但如果要求它寫出一萬個(gè)字符的完美答案,那么全部正確的概率就變成了0.999的一萬次方,結(jié)果幾乎為零。這就像要求一個(gè)射箭高手連續(xù)射中一萬次靶心一樣,即使每次命中率很高,連續(xù)成功的概率也會(huì)變得微乎其微。
更有趣的是,已經(jīng)有研究者在學(xué)術(shù)文獻(xiàn)中提出過類似的"統(tǒng)計(jì)必然性"論證,聲稱這證明了大型語(yǔ)言模型存在根本性的擴(kuò)展限制。但這種論證的前提是假設(shè)模型無法認(rèn)識(shí)和適應(yīng)自己的局限性,而現(xiàn)在的證據(jù)表明這個(gè)假設(shè)是錯(cuò)誤的。AI模型就像聰明的學(xué)生一樣,它們知道自己的能力邊界,并會(huì)相應(yīng)地調(diào)整策略。
二、不可能的謎題讓AI背了黑鍋
如果說第一個(gè)發(fā)現(xiàn)讓人驚訝,那么第二個(gè)發(fā)現(xiàn)就讓人哭笑不得了。研究團(tuán)隊(duì)發(fā)現(xiàn),在原研究的河流過橋問題(一種經(jīng)典的邏輯謎題,想象不同的人要過河,但船的容量有限,而且有各種約束條件)中,存在一個(gè)更加嚴(yán)重的問題:有些題目根本就無解。
想象一下這樣的情景:老師給學(xué)生出了一道數(shù)學(xué)題,要求學(xué)生求出"最大的質(zhì)數(shù)是多少"。當(dāng)學(xué)生回答"這個(gè)問題沒有答案,因?yàn)橘|(zhì)數(shù)有無窮多個(gè)"時(shí),老師卻因?yàn)閷W(xué)生沒有給出一個(gè)具體數(shù)字而給了零分。這聽起來很荒謬,但這正是原研究中發(fā)生的事情。
根據(jù)數(shù)學(xué)理論,當(dāng)河流過橋問題中的人數(shù)超過5個(gè),而船的容量只有3個(gè)人時(shí),這個(gè)問題就變得無解了。這是一個(gè)早已被數(shù)學(xué)家證明的結(jié)論,就像我們知道圓的面積公式一樣確定。但原研究卻要求AI模型解決6個(gè)或更多人的過橋問題,然后當(dāng)AI無法給出解答時(shí),就認(rèn)為這是AI推理能力的失敗。
這就好比讓一個(gè)計(jì)算機(jī)程序去解決"1+1=3"這樣的錯(cuò)誤等式,然后因?yàn)槌绦蚓芙^給出答案而認(rèn)為程序有問題。實(shí)際上,能夠識(shí)別出問題無解,本身就體現(xiàn)了良好的邏輯推理能力。一個(gè)真正優(yōu)秀的SAT求解器(專門解決邏輯滿足性問題的程序)在遇到無解的問題時(shí),會(huì)明確返回"無解",而不是隨便給出一個(gè)錯(cuò)誤答案。
這種評(píng)測(cè)方式的問題在于,它使用了完全自動(dòng)化的評(píng)分系統(tǒng),無法區(qū)分"推理失敗"和"正確識(shí)別問題無解"之間的差別。就像一個(gè)只會(huì)按標(biāo)準(zhǔn)答案打分的機(jī)器,無法理解學(xué)生可能比出題者更聰明的情況。
三、物理限制不等于智力缺陷
為了更深入地理解這個(gè)問題,研究團(tuán)隊(duì)詳細(xì)分析了為什么會(huì)出現(xiàn)所謂的"準(zhǔn)確率崩潰"。他們發(fā)現(xiàn),這個(gè)現(xiàn)象完全可以用物理約束來解釋,就像解釋為什么人不能舉起比自己重十倍的東西一樣簡(jiǎn)單。
漢諾塔問題是一個(gè)經(jīng)典的遞歸問題,就像俄羅斯套娃一樣,大問題包含小問題,小問題又包含更小的問題。解決N個(gè)盤子的漢諾塔問題需要2的N次方減1步移動(dòng)。當(dāng)N等于15時(shí),需要32767步;當(dāng)N等于20時(shí),需要超過一百萬步。如果按照原研究的要求,需要詳細(xì)列出每一步的完整移動(dòng)序列,那么所需的文字?jǐn)?shù)量會(huì)呈指數(shù)級(jí)增長(zhǎng)。
研究團(tuán)隊(duì)通過數(shù)學(xué)計(jì)算發(fā)現(xiàn),如果每步移動(dòng)大約需要5個(gè)文字標(biāo)記來描述,那么解決不同規(guī)模的漢諾塔問題所需的總標(biāo)記數(shù)會(huì)快速超過AI模型的輸出限制。對(duì)于Claude-3.7-Sonnet和DeepSeek-R1這兩個(gè)模型,它們的輸出限制是64000個(gè)標(biāo)記,理論上最多能完整解決7到8層的漢諾塔問題。而o3-mini模型的輸出限制是100000個(gè)標(biāo)記,最多能解決8層的問題。
有趣的是,原研究報(bào)告的"崩潰點(diǎn)"正好對(duì)應(yīng)這些物理限制。這就像發(fā)現(xiàn)一個(gè)人在負(fù)重50公斤時(shí)走得很好,但超過60公斤就走不動(dòng)了,然后有人聲稱這證明了人類運(yùn)動(dòng)能力存在神秘的缺陷,而實(shí)際上這只是正常的物理極限。
更令人深思的是,研究團(tuán)隊(duì)指出了復(fù)雜度定義的問題。原研究使用"組合深度"(即最少移動(dòng)步數(shù))作為問題復(fù)雜度的衡量標(biāo)準(zhǔn),但這就像用菜譜的長(zhǎng)度來衡量菜品的制作難度一樣不合理。一道需要燉煮八小時(shí)的簡(jiǎn)單湯品,其菜譜可能比一道需要精確掌握火候的快手菜更長(zhǎng),但并不意味著前者更難制作。
實(shí)際上,漢諾塔問題雖然需要指數(shù)級(jí)的移動(dòng)步數(shù),但每一步的決策過程都是線性的、確定的,不需要復(fù)雜的搜索或推理。相比之下,河流過橋問題雖然移動(dòng)步數(shù)較少,但需要復(fù)雜的約束滿足和搜索過程,在計(jì)算復(fù)雜度理論中屬于NP困難問題。這就解釋了為什么AI模型能夠"執(zhí)行"數(shù)百步的漢諾塔移動(dòng),卻可能在5步的河流過橋問題上遇到困難。
四、換個(gè)角度看問題,真相大白
最有說服力的證據(jù)來自研究團(tuán)隊(duì)設(shè)計(jì)的一個(gè)巧妙實(shí)驗(yàn)。他們沒有要求AI模型列出漢諾塔問題的完整移動(dòng)序列,而是要求模型編寫一個(gè)計(jì)算機(jī)程序來解決這個(gè)問題。這就像不要求學(xué)生在考試中手工計(jì)算復(fù)雜的數(shù)學(xué)運(yùn)算,而是讓他們編寫計(jì)算公式一樣。
結(jié)果令人印象深刻:當(dāng)面對(duì)15層的漢諾塔問題時(shí),原本被認(rèn)為完全無法解決的AI模型(包括Claude-3.7-Sonnet、Claude Opus 4、OpenAI o3和Google Gemini 2.5)都表現(xiàn)出了很高的準(zhǔn)確率,而且只用了不到5000個(gè)標(biāo)記就完成了任務(wù)。這些生成的程序正確地實(shí)現(xiàn)了遞歸算法,展現(xiàn)了模型對(duì)問題本質(zhì)的深刻理解。
這個(gè)發(fā)現(xiàn)就像給了那些懷疑AI推理能力的人一記響亮的耳光。原來AI并非不會(huì)推理,而是之前的評(píng)測(cè)方式就像要求鋼琴家用拳擊手套彈奏肖邦一樣不合理。當(dāng)給予合適的表達(dá)方式時(shí),AI展現(xiàn)出的推理能力令人刮目相看。
研究團(tuán)隊(duì)承認(rèn),由于預(yù)算限制,他們無法進(jìn)行大規(guī)模的統(tǒng)計(jì)驗(yàn)證,但初步結(jié)果已經(jīng)足夠說明問題的關(guān)鍵所在。這就像在黑暗中點(diǎn)亮了一盞明燈,雖然還不能照亮整個(gè)房間,但已經(jīng)足以讓人看清前進(jìn)的方向。
五、重新思考AI能力評(píng)估的標(biāo)準(zhǔn)
這項(xiàng)研究揭示了一個(gè)更深層的問題:我們應(yīng)該如何正確評(píng)估AI的推理能力?就像評(píng)判一個(gè)廚師不應(yīng)該只看他能否在限定時(shí)間內(nèi)做出一百道菜,而應(yīng)該看他對(duì)烹飪?cè)淼睦斫夂蛣?chuàng)新能力一樣,評(píng)估AI推理能力也需要更加科學(xué)和全面的方法。
研究團(tuán)隊(duì)提出了幾個(gè)重要的觀點(diǎn)。首先,評(píng)估系統(tǒng)必須能夠區(qū)分推理能力和輸出約束。這就像一個(gè)好的老師能夠區(qū)分學(xué)生是真的不會(huì)做題,還是因?yàn)闀r(shí)間不夠而沒有完成。自動(dòng)化評(píng)分系統(tǒng)雖然效率高,但往往缺乏這種細(xì)致的判斷能力。
其次,在評(píng)估AI能力之前,必須驗(yàn)證問題本身的可解性。這聽起來像是常識(shí),但在實(shí)際研究中卻經(jīng)常被忽視。就像在數(shù)學(xué)競(jìng)賽中,出題者必須確保每道題都有解一樣,AI評(píng)測(cè)也應(yīng)該遵循同樣的原則。
第三,復(fù)雜度的衡量標(biāo)準(zhǔn)應(yīng)該反映計(jì)算難度,而不僅僅是解決方案的長(zhǎng)度。這就像評(píng)估一個(gè)工程項(xiàng)目的難度不應(yīng)該只看施工圖的頁(yè)數(shù),而應(yīng)該考慮設(shè)計(jì)的創(chuàng)新性、技術(shù)挑戰(zhàn)和實(shí)施復(fù)雜度。
最后,應(yīng)該考慮多種解決方案的表示形式,以區(qū)分算法理解和具體執(zhí)行。這就像評(píng)估一個(gè)建筑師不應(yīng)該只看他能否親手砌墻,而應(yīng)該看他的設(shè)計(jì)能力和對(duì)建筑原理的掌握。
研究團(tuán)隊(duì)強(qiáng)調(diào),未來的AI能力評(píng)估應(yīng)該遵循四個(gè)基本原則。評(píng)估設(shè)計(jì)應(yīng)該能夠區(qū)分推理能力和輸出限制,就像好的考試能夠真正測(cè)試學(xué)生的理解水平而不是記憶能力一樣。在評(píng)估模型表現(xiàn)之前應(yīng)該驗(yàn)證問題的可解性,這是任何科學(xué)評(píng)估的基本要求。使用反映計(jì)算難度而非僅僅是解決方案長(zhǎng)度的復(fù)雜度指標(biāo),能夠更準(zhǔn)確地衡量真正的推理挑戰(zhàn)。最后,考慮多種解決方案表示形式有助于將算法理解與具體執(zhí)行分離開來。
六、這場(chǎng)爭(zhēng)論的更深層意義
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了對(duì)單一學(xué)術(shù)論文的批評(píng)。它揭示了AI研究領(lǐng)域中一個(gè)普遍存在的問題:我們經(jīng)常被表面現(xiàn)象所迷惑,而忽視了問題的本質(zhì)。
就像古代人看到太陽(yáng)東升西落就認(rèn)為太陽(yáng)圍繞地球轉(zhuǎn)動(dòng)一樣,我們有時(shí)也會(huì)因?yàn)橛^察方法的局限而得出錯(cuò)誤的結(jié)論。這項(xiàng)研究提醒我們,在得出關(guān)于AI能力的重大結(jié)論之前,必須仔細(xì)檢查我們的觀察方法和評(píng)估標(biāo)準(zhǔn)。
更重要的是,這項(xiàng)研究突出了跨學(xué)科合作的重要性。來自不同機(jī)構(gòu)的研究者通過合作,能夠以不同的視角審視同一個(gè)問題,從而發(fā)現(xiàn)單一研究團(tuán)隊(duì)可能忽視的問題。這就像多個(gè)偵探共同破案,每個(gè)人的獨(dú)特觀察角度都可能提供關(guān)鍵線索。
研究團(tuán)隊(duì)在論文中風(fēng)趣地寫道:"問題不在于大型推理模型是否能夠推理,而在于我們的評(píng)估是否能夠區(qū)分推理和打字。" 這句話雖然聽起來輕松,但觸及了問題的核心:我們需要更加智慧的方法來評(píng)估人工智能的真正能力。
這項(xiàng)研究也反映了科學(xué)研究的自我糾錯(cuò)機(jī)制。當(dāng)一項(xiàng)研究發(fā)表后,其他研究者會(huì)仔細(xì)審查其方法和結(jié)論,這種同行評(píng)議過程雖然有時(shí)會(huì)產(chǎn)生爭(zhēng)議,但正是這種機(jī)制保證了科學(xué)知識(shí)的可靠性和進(jìn)步。
說到底,這場(chǎng)學(xué)術(shù)爭(zhēng)論實(shí)際上展現(xiàn)了科學(xué)研究最美好的一面:對(duì)真理的不懈追求。無論是最初聲稱發(fā)現(xiàn)AI推理缺陷的研究團(tuán)隊(duì),還是后來指出評(píng)測(cè)問題的研究者,他們都在為更好地理解人工智能的能力而努力。雖然他們的結(jié)論截然不同,但這種學(xué)術(shù)辯論正是推動(dòng)領(lǐng)域進(jìn)步的動(dòng)力。
歸根結(jié)底,這項(xiàng)研究告訴我們一個(gè)重要道理:在人工智能快速發(fā)展的時(shí)代,我們既不應(yīng)該盲目樂觀,也不應(yīng)該過分悲觀。相反,我們需要以更加科學(xué)、客觀的態(tài)度來評(píng)估AI的真正能力和局限性。只有這樣,我們才能在AI發(fā)展的道路上穩(wěn)步前進(jìn),既充分發(fā)揮其潛力,又避免不必要的恐慌或誤解。
對(duì)于普通人來說,這項(xiàng)研究提醒我們要以批判性思維看待關(guān)于AI能力的各種聲明。就像我們不會(huì)僅憑一個(gè)人在特定條件下的表現(xiàn)就判斷他的整體能力一樣,我們也不應(yīng)該僅憑單一評(píng)測(cè)就對(duì)AI的推理能力下定論。真正的智慧在于理解評(píng)測(cè)條件、方法的局限性,以及結(jié)果的適用范圍。
這場(chǎng)學(xué)術(shù)爭(zhēng)論最終可能會(huì)推動(dòng)AI評(píng)估方法的改進(jìn),就像歷史上每一次科學(xué)爭(zhēng)論都會(huì)推動(dòng)研究方法的進(jìn)步一樣。對(duì)于那些有興趣深入了解這個(gè)話題的讀者,建議查閱原始論文以獲得更詳細(xì)的技術(shù)細(xì)節(jié)和數(shù)據(jù)分析。這種第一手的學(xué)術(shù)體驗(yàn)?zāi)軌驇椭覀兏玫乩斫饪茖W(xué)研究的復(fù)雜性和嚴(yán)謹(jǐn)性。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。