想象一下,如果有人告訴你某個(gè)學(xué)生在數(shù)學(xué)考試中得了零分,你可能會(huì)認(rèn)為這個(gè)學(xué)生數(shù)學(xué)很差。但如果你后來(lái)發(fā)現(xiàn),這個(gè)學(xué)生其實(shí)會(huì)做題,只是因?yàn)榇痤}紙不夠大,寫(xiě)不下完整的解答過(guò)程,你還會(huì)認(rèn)為他數(shù)學(xué)不好嗎?這正是人工智能領(lǐng)域最近發(fā)生的一個(gè)有趣故事。
這項(xiàng)由Anthropic公司的C. Opus和Open Philanthropy的A. Lawsen共同完成的研究發(fā)表于2025年6月10日,以"The Illusion of the Illusion of Thinking: A Comment on Shojaee et al. (2025)"為題發(fā)布在arXiv預(yù)印本平臺(tái)上。有興趣深入了解的讀者可以通過(guò)arXiv:2506.09250v1訪問(wèn)完整論文。這項(xiàng)研究就像一個(gè)"打假"行動(dòng),揭露了之前一項(xiàng)聲稱(chēng)發(fā)現(xiàn)AI推理能力存在根本缺陷的研究實(shí)際上可能誤導(dǎo)了整個(gè)學(xué)術(shù)界。
故事要從Shojaee等人在2025年初發(fā)表的一項(xiàng)研究說(shuō)起。這些研究者聲稱(chēng)他們發(fā)現(xiàn)了一個(gè)驚人的現(xiàn)象:那些被譽(yù)為具有強(qiáng)大推理能力的大型推理模型(想象成非常聰明的AI助手)在解決復(fù)雜的邏輯謎題時(shí)會(huì)出現(xiàn)"準(zhǔn)確率崩潰"的現(xiàn)象。簡(jiǎn)單來(lái)說(shuō),就是這些AI在面對(duì)稍微復(fù)雜一點(diǎn)的問(wèn)題時(shí),突然就變得像完全不會(huì)思考一樣,準(zhǔn)確率直接掉到零。這個(gè)發(fā)現(xiàn)如果屬實(shí),將對(duì)AI推理研究產(chǎn)生重大影響,因?yàn)樗馕吨@些看似聰明的AI系統(tǒng)存在根本性的局限。
然而,Anthropic和Open Philanthropy的研究團(tuán)隊(duì)通過(guò)細(xì)致的分析發(fā)現(xiàn),這個(gè)所謂的"推理能力崩潰"可能是一個(gè)巨大的誤解。他們的發(fā)現(xiàn)就像揭穿了一個(gè)精心包裝的魔術(shù)表演,讓人們看到了真相背后的機(jī)關(guān)。
一、AI其實(shí)知道自己的"答題紙"不夠大
研究團(tuán)隊(duì)首先發(fā)現(xiàn)的最關(guān)鍵問(wèn)題,就像我們開(kāi)頭提到的答題紙不夠大的比喻一樣真實(shí)。當(dāng)他們仔細(xì)查看AI模型的實(shí)際輸出時(shí),發(fā)現(xiàn)了一個(gè)被原研究忽視的重要細(xì)節(jié):這些AI模型其實(shí)完全知道自己面臨的限制。
想象你正在解決一個(gè)需要寫(xiě)出上萬(wàn)個(gè)步驟的數(shù)學(xué)題,但你的答題紙只能寫(xiě)幾千個(gè)字。一個(gè)聰明的學(xué)生會(huì)怎么做?他可能會(huì)寫(xiě)到一半時(shí)說(shuō):"接下來(lái)的步驟我都知道怎么做,但為了不讓答案太長(zhǎng),我就停在這里了。" 這正是AI模型在做的事情。
Twitter上一位名叫@scaling01的用戶(hù)在重現(xiàn)漢諾塔問(wèn)題(一種經(jīng)典的邏輯謎題,就像把不同大小的盤(pán)子按順序移動(dòng)的游戲)時(shí),捕捉到了AI模型的真實(shí)反應(yīng)。模型明確表示:"這個(gè)模式會(huì)繼續(xù)下去,但為了避免回答太長(zhǎng),我就停在這里了。" 這說(shuō)明AI完全理解解決方案的模式,只是選擇不完整列舉所有步驟,就像一個(gè)懂禮貌的學(xué)生知道什么時(shí)候該停筆一樣。
這個(gè)發(fā)現(xiàn)就像撕掉了魔術(shù)師手套,讓人們看到了真相。原來(lái)所謂的"推理崩潰",很可能只是AI遇到了物理限制——就像一個(gè)再聰明的人也不可能在一張便簽紙上寫(xiě)出一本書(shū)的內(nèi)容一樣。
研究團(tuán)隊(duì)進(jìn)一步分析了這種誤判可能帶來(lái)的統(tǒng)計(jì)學(xué)謬誤。假設(shè)一個(gè)AI模型每寫(xiě)一個(gè)字符的準(zhǔn)確率是99.9%,看起來(lái)已經(jīng)非常高了。但如果要求它寫(xiě)出一萬(wàn)個(gè)字符的完美答案,那么全部正確的概率就變成了0.999的一萬(wàn)次方,結(jié)果幾乎為零。這就像要求一個(gè)射箭高手連續(xù)射中一萬(wàn)次靶心一樣,即使每次命中率很高,連續(xù)成功的概率也會(huì)變得微乎其微。
更有趣的是,已經(jīng)有研究者在學(xué)術(shù)文獻(xiàn)中提出過(guò)類(lèi)似的"統(tǒng)計(jì)必然性"論證,聲稱(chēng)這證明了大型語(yǔ)言模型存在根本性的擴(kuò)展限制。但這種論證的前提是假設(shè)模型無(wú)法認(rèn)識(shí)和適應(yīng)自己的局限性,而現(xiàn)在的證據(jù)表明這個(gè)假設(shè)是錯(cuò)誤的。AI模型就像聰明的學(xué)生一樣,它們知道自己的能力邊界,并會(huì)相應(yīng)地調(diào)整策略。
二、不可能的謎題讓AI背了黑鍋
如果說(shuō)第一個(gè)發(fā)現(xiàn)讓人驚訝,那么第二個(gè)發(fā)現(xiàn)就讓人哭笑不得了。研究團(tuán)隊(duì)發(fā)現(xiàn),在原研究的河流過(guò)橋問(wèn)題(一種經(jīng)典的邏輯謎題,想象不同的人要過(guò)河,但船的容量有限,而且有各種約束條件)中,存在一個(gè)更加嚴(yán)重的問(wèn)題:有些題目根本就無(wú)解。
想象一下這樣的情景:老師給學(xué)生出了一道數(shù)學(xué)題,要求學(xué)生求出"最大的質(zhì)數(shù)是多少"。當(dāng)學(xué)生回答"這個(gè)問(wèn)題沒(méi)有答案,因?yàn)橘|(zhì)數(shù)有無(wú)窮多個(gè)"時(shí),老師卻因?yàn)閷W(xué)生沒(méi)有給出一個(gè)具體數(shù)字而給了零分。這聽(tīng)起來(lái)很荒謬,但這正是原研究中發(fā)生的事情。
根據(jù)數(shù)學(xué)理論,當(dāng)河流過(guò)橋問(wèn)題中的人數(shù)超過(guò)5個(gè),而船的容量只有3個(gè)人時(shí),這個(gè)問(wèn)題就變得無(wú)解了。這是一個(gè)早已被數(shù)學(xué)家證明的結(jié)論,就像我們知道圓的面積公式一樣確定。但原研究卻要求AI模型解決6個(gè)或更多人的過(guò)橋問(wèn)題,然后當(dāng)AI無(wú)法給出解答時(shí),就認(rèn)為這是AI推理能力的失敗。
這就好比讓一個(gè)計(jì)算機(jī)程序去解決"1+1=3"這樣的錯(cuò)誤等式,然后因?yàn)槌绦蚓芙^給出答案而認(rèn)為程序有問(wèn)題。實(shí)際上,能夠識(shí)別出問(wèn)題無(wú)解,本身就體現(xiàn)了良好的邏輯推理能力。一個(gè)真正優(yōu)秀的SAT求解器(專(zhuān)門(mén)解決邏輯滿足性問(wèn)題的程序)在遇到無(wú)解的問(wèn)題時(shí),會(huì)明確返回"無(wú)解",而不是隨便給出一個(gè)錯(cuò)誤答案。
這種評(píng)測(cè)方式的問(wèn)題在于,它使用了完全自動(dòng)化的評(píng)分系統(tǒng),無(wú)法區(qū)分"推理失敗"和"正確識(shí)別問(wèn)題無(wú)解"之間的差別。就像一個(gè)只會(huì)按標(biāo)準(zhǔn)答案打分的機(jī)器,無(wú)法理解學(xué)生可能比出題者更聰明的情況。
三、物理限制不等于智力缺陷
為了更深入地理解這個(gè)問(wèn)題,研究團(tuán)隊(duì)詳細(xì)分析了為什么會(huì)出現(xiàn)所謂的"準(zhǔn)確率崩潰"。他們發(fā)現(xiàn),這個(gè)現(xiàn)象完全可以用物理約束來(lái)解釋?zhuān)拖窠忉尀槭裁慈瞬荒芘e起比自己重十倍的東西一樣簡(jiǎn)單。
漢諾塔問(wèn)題是一個(gè)經(jīng)典的遞歸問(wèn)題,就像俄羅斯套娃一樣,大問(wèn)題包含小問(wèn)題,小問(wèn)題又包含更小的問(wèn)題。解決N個(gè)盤(pán)子的漢諾塔問(wèn)題需要2的N次方減1步移動(dòng)。當(dāng)N等于15時(shí),需要32767步;當(dāng)N等于20時(shí),需要超過(guò)一百萬(wàn)步。如果按照原研究的要求,需要詳細(xì)列出每一步的完整移動(dòng)序列,那么所需的文字?jǐn)?shù)量會(huì)呈指數(shù)級(jí)增長(zhǎng)。
研究團(tuán)隊(duì)通過(guò)數(shù)學(xué)計(jì)算發(fā)現(xiàn),如果每步移動(dòng)大約需要5個(gè)文字標(biāo)記來(lái)描述,那么解決不同規(guī)模的漢諾塔問(wèn)題所需的總標(biāo)記數(shù)會(huì)快速超過(guò)AI模型的輸出限制。對(duì)于Claude-3.7-Sonnet和DeepSeek-R1這兩個(gè)模型,它們的輸出限制是64000個(gè)標(biāo)記,理論上最多能完整解決7到8層的漢諾塔問(wèn)題。而o3-mini模型的輸出限制是100000個(gè)標(biāo)記,最多能解決8層的問(wèn)題。
有趣的是,原研究報(bào)告的"崩潰點(diǎn)"正好對(duì)應(yīng)這些物理限制。這就像發(fā)現(xiàn)一個(gè)人在負(fù)重50公斤時(shí)走得很好,但超過(guò)60公斤就走不動(dòng)了,然后有人聲稱(chēng)這證明了人類(lèi)運(yùn)動(dòng)能力存在神秘的缺陷,而實(shí)際上這只是正常的物理極限。
更令人深思的是,研究團(tuán)隊(duì)指出了復(fù)雜度定義的問(wèn)題。原研究使用"組合深度"(即最少移動(dòng)步數(shù))作為問(wèn)題復(fù)雜度的衡量標(biāo)準(zhǔn),但這就像用菜譜的長(zhǎng)度來(lái)衡量菜品的制作難度一樣不合理。一道需要燉煮八小時(shí)的簡(jiǎn)單湯品,其菜譜可能比一道需要精確掌握火候的快手菜更長(zhǎng),但并不意味著前者更難制作。
實(shí)際上,漢諾塔問(wèn)題雖然需要指數(shù)級(jí)的移動(dòng)步數(shù),但每一步的決策過(guò)程都是線性的、確定的,不需要復(fù)雜的搜索或推理。相比之下,河流過(guò)橋問(wèn)題雖然移動(dòng)步數(shù)較少,但需要復(fù)雜的約束滿足和搜索過(guò)程,在計(jì)算復(fù)雜度理論中屬于NP困難問(wèn)題。這就解釋了為什么AI模型能夠"執(zhí)行"數(shù)百步的漢諾塔移動(dòng),卻可能在5步的河流過(guò)橋問(wèn)題上遇到困難。
四、換個(gè)角度看問(wèn)題,真相大白
最有說(shuō)服力的證據(jù)來(lái)自研究團(tuán)隊(duì)設(shè)計(jì)的一個(gè)巧妙實(shí)驗(yàn)。他們沒(méi)有要求AI模型列出漢諾塔問(wèn)題的完整移動(dòng)序列,而是要求模型編寫(xiě)一個(gè)計(jì)算機(jī)程序來(lái)解決這個(gè)問(wèn)題。這就像不要求學(xué)生在考試中手工計(jì)算復(fù)雜的數(shù)學(xué)運(yùn)算,而是讓他們編寫(xiě)計(jì)算公式一樣。
結(jié)果令人印象深刻:當(dāng)面對(duì)15層的漢諾塔問(wèn)題時(shí),原本被認(rèn)為完全無(wú)法解決的AI模型(包括Claude-3.7-Sonnet、Claude Opus 4、OpenAI o3和Google Gemini 2.5)都表現(xiàn)出了很高的準(zhǔn)確率,而且只用了不到5000個(gè)標(biāo)記就完成了任務(wù)。這些生成的程序正確地實(shí)現(xiàn)了遞歸算法,展現(xiàn)了模型對(duì)問(wèn)題本質(zhì)的深刻理解。
這個(gè)發(fā)現(xiàn)就像給了那些懷疑AI推理能力的人一記響亮的耳光。原來(lái)AI并非不會(huì)推理,而是之前的評(píng)測(cè)方式就像要求鋼琴家用拳擊手套彈奏肖邦一樣不合理。當(dāng)給予合適的表達(dá)方式時(shí),AI展現(xiàn)出的推理能力令人刮目相看。
研究團(tuán)隊(duì)承認(rèn),由于預(yù)算限制,他們無(wú)法進(jìn)行大規(guī)模的統(tǒng)計(jì)驗(yàn)證,但初步結(jié)果已經(jīng)足夠說(shuō)明問(wèn)題的關(guān)鍵所在。這就像在黑暗中點(diǎn)亮了一盞明燈,雖然還不能照亮整個(gè)房間,但已經(jīng)足以讓人看清前進(jìn)的方向。
五、重新思考AI能力評(píng)估的標(biāo)準(zhǔn)
這項(xiàng)研究揭示了一個(gè)更深層的問(wèn)題:我們應(yīng)該如何正確評(píng)估AI的推理能力?就像評(píng)判一個(gè)廚師不應(yīng)該只看他能否在限定時(shí)間內(nèi)做出一百道菜,而應(yīng)該看他對(duì)烹飪?cè)淼睦斫夂蛣?chuàng)新能力一樣,評(píng)估AI推理能力也需要更加科學(xué)和全面的方法。
研究團(tuán)隊(duì)提出了幾個(gè)重要的觀點(diǎn)。首先,評(píng)估系統(tǒng)必須能夠區(qū)分推理能力和輸出約束。這就像一個(gè)好的老師能夠區(qū)分學(xué)生是真的不會(huì)做題,還是因?yàn)闀r(shí)間不夠而沒(méi)有完成。自動(dòng)化評(píng)分系統(tǒng)雖然效率高,但往往缺乏這種細(xì)致的判斷能力。
其次,在評(píng)估AI能力之前,必須驗(yàn)證問(wèn)題本身的可解性。這聽(tīng)起來(lái)像是常識(shí),但在實(shí)際研究中卻經(jīng)常被忽視。就像在數(shù)學(xué)競(jìng)賽中,出題者必須確保每道題都有解一樣,AI評(píng)測(cè)也應(yīng)該遵循同樣的原則。
第三,復(fù)雜度的衡量標(biāo)準(zhǔn)應(yīng)該反映計(jì)算難度,而不僅僅是解決方案的長(zhǎng)度。這就像評(píng)估一個(gè)工程項(xiàng)目的難度不應(yīng)該只看施工圖的頁(yè)數(shù),而應(yīng)該考慮設(shè)計(jì)的創(chuàng)新性、技術(shù)挑戰(zhàn)和實(shí)施復(fù)雜度。
最后,應(yīng)該考慮多種解決方案的表示形式,以區(qū)分算法理解和具體執(zhí)行。這就像評(píng)估一個(gè)建筑師不應(yīng)該只看他能否親手砌墻,而應(yīng)該看他的設(shè)計(jì)能力和對(duì)建筑原理的掌握。
研究團(tuán)隊(duì)強(qiáng)調(diào),未來(lái)的AI能力評(píng)估應(yīng)該遵循四個(gè)基本原則。評(píng)估設(shè)計(jì)應(yīng)該能夠區(qū)分推理能力和輸出限制,就像好的考試能夠真正測(cè)試學(xué)生的理解水平而不是記憶能力一樣。在評(píng)估模型表現(xiàn)之前應(yīng)該驗(yàn)證問(wèn)題的可解性,這是任何科學(xué)評(píng)估的基本要求。使用反映計(jì)算難度而非僅僅是解決方案長(zhǎng)度的復(fù)雜度指標(biāo),能夠更準(zhǔn)確地衡量真正的推理挑戰(zhàn)。最后,考慮多種解決方案表示形式有助于將算法理解與具體執(zhí)行分離開(kāi)來(lái)。
六、這場(chǎng)爭(zhēng)論的更深層意義
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了對(duì)單一學(xué)術(shù)論文的批評(píng)。它揭示了AI研究領(lǐng)域中一個(gè)普遍存在的問(wèn)題:我們經(jīng)常被表面現(xiàn)象所迷惑,而忽視了問(wèn)題的本質(zhì)。
就像古代人看到太陽(yáng)東升西落就認(rèn)為太陽(yáng)圍繞地球轉(zhuǎn)動(dòng)一樣,我們有時(shí)也會(huì)因?yàn)橛^察方法的局限而得出錯(cuò)誤的結(jié)論。這項(xiàng)研究提醒我們,在得出關(guān)于AI能力的重大結(jié)論之前,必須仔細(xì)檢查我們的觀察方法和評(píng)估標(biāo)準(zhǔn)。
更重要的是,這項(xiàng)研究突出了跨學(xué)科合作的重要性。來(lái)自不同機(jī)構(gòu)的研究者通過(guò)合作,能夠以不同的視角審視同一個(gè)問(wèn)題,從而發(fā)現(xiàn)單一研究團(tuán)隊(duì)可能忽視的問(wèn)題。這就像多個(gè)偵探共同破案,每個(gè)人的獨(dú)特觀察角度都可能提供關(guān)鍵線索。
研究團(tuán)隊(duì)在論文中風(fēng)趣地寫(xiě)道:"問(wèn)題不在于大型推理模型是否能夠推理,而在于我們的評(píng)估是否能夠區(qū)分推理和打字。" 這句話雖然聽(tīng)起來(lái)輕松,但觸及了問(wèn)題的核心:我們需要更加智慧的方法來(lái)評(píng)估人工智能的真正能力。
這項(xiàng)研究也反映了科學(xué)研究的自我糾錯(cuò)機(jī)制。當(dāng)一項(xiàng)研究發(fā)表后,其他研究者會(huì)仔細(xì)審查其方法和結(jié)論,這種同行評(píng)議過(guò)程雖然有時(shí)會(huì)產(chǎn)生爭(zhēng)議,但正是這種機(jī)制保證了科學(xué)知識(shí)的可靠性和進(jìn)步。
說(shuō)到底,這場(chǎng)學(xué)術(shù)爭(zhēng)論實(shí)際上展現(xiàn)了科學(xué)研究最美好的一面:對(duì)真理的不懈追求。無(wú)論是最初聲稱(chēng)發(fā)現(xiàn)AI推理缺陷的研究團(tuán)隊(duì),還是后來(lái)指出評(píng)測(cè)問(wèn)題的研究者,他們都在為更好地理解人工智能的能力而努力。雖然他們的結(jié)論截然不同,但這種學(xué)術(shù)辯論正是推動(dòng)領(lǐng)域進(jìn)步的動(dòng)力。
歸根結(jié)底,這項(xiàng)研究告訴我們一個(gè)重要道理:在人工智能快速發(fā)展的時(shí)代,我們既不應(yīng)該盲目樂(lè)觀,也不應(yīng)該過(guò)分悲觀。相反,我們需要以更加科學(xué)、客觀的態(tài)度來(lái)評(píng)估AI的真正能力和局限性。只有這樣,我們才能在AI發(fā)展的道路上穩(wěn)步前進(jìn),既充分發(fā)揮其潛力,又避免不必要的恐慌或誤解。
對(duì)于普通人來(lái)說(shuō),這項(xiàng)研究提醒我們要以批判性思維看待關(guān)于AI能力的各種聲明。就像我們不會(huì)僅憑一個(gè)人在特定條件下的表現(xiàn)就判斷他的整體能力一樣,我們也不應(yīng)該僅憑單一評(píng)測(cè)就對(duì)AI的推理能力下定論。真正的智慧在于理解評(píng)測(cè)條件、方法的局限性,以及結(jié)果的適用范圍。
這場(chǎng)學(xué)術(shù)爭(zhēng)論最終可能會(huì)推動(dòng)AI評(píng)估方法的改進(jìn),就像歷史上每一次科學(xué)爭(zhēng)論都會(huì)推動(dòng)研究方法的進(jìn)步一樣。對(duì)于那些有興趣深入了解這個(gè)話題的讀者,建議查閱原始論文以獲得更詳細(xì)的技術(shù)細(xì)節(jié)和數(shù)據(jù)分析。這種第一手的學(xué)術(shù)體驗(yàn)?zāi)軌驇椭覀兏玫乩斫饪茖W(xué)研究的復(fù)雜性和嚴(yán)謹(jǐn)性。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。