這項(xiàng)由蘋果公司的帕辛·肖賈伊等研究團(tuán)隊(duì)在2025年6月發(fā)表的重要研究,徹底顛覆了我們對現(xiàn)代"思維型"人工智能的認(rèn)知。這篇題為《思維的幻覺:通過問題復(fù)雜性透鏡理解推理模型的優(yōu)勢與局限》的論文發(fā)表在arXiv預(yù)印本平臺(tái)上(論文編號:arXiv:2506.06941v1),有興趣深入了解的讀者可以通過該編號在arXiv網(wǎng)站上訪問完整論文。
想象一下,你有一個(gè)聲稱很聰明的朋友,他在簡單問題上表現(xiàn)得頭頭是道,甚至在中等難度的問題上也能給出不錯(cuò)的答案。但是當(dāng)真正困難的挑戰(zhàn)來臨時(shí),這個(gè)朋友不僅完全搞不定,更奇怪的是,他竟然比面對簡單問題時(shí)思考得更少,好像直接放棄了似的。這聽起來很荒謬對吧?但這正是蘋果研究團(tuán)隊(duì)在最新一代"大型推理模型"身上發(fā)現(xiàn)的現(xiàn)象。
這些所謂的"思維型"AI模型,比如OpenAI的o1和o3系列、DeepSeek的R1模型、以及Claude的思維版本,都號稱具備了"思考"能力——它們在給出最終答案前會(huì)進(jìn)行長篇大論的內(nèi)部推理。表面上看,這些模型在傳統(tǒng)的數(shù)學(xué)和編程測試中表現(xiàn)不俗,讓人們對AI的推理能力充滿期待。然而,蘋果團(tuán)隊(duì)通過精心設(shè)計(jì)的實(shí)驗(yàn)發(fā)現(xiàn),這些模型的"聰明"可能只是一種幻覺。
研究團(tuán)隊(duì)并沒有滿足于在傳統(tǒng)測試題上驗(yàn)證這些模型,而是創(chuàng)造了四種特殊的"拼圖游戲"——漢諾塔、跳棋游戲、過河問題和積木世界。選擇這些游戲的巧妙之處在于,它們就像數(shù)學(xué)中的"控制變量"實(shí)驗(yàn)一樣,可以精確地調(diào)節(jié)難度等級,同時(shí)避免了傳統(tǒng)測試題可能存在的"題庫泄露"問題。更重要的是,這些游戲有明確的規(guī)則和標(biāo)準(zhǔn)答案,研究人員可以逐步檢查AI的每一個(gè)推理步驟,就像老師批改數(shù)學(xué)作業(yè)時(shí)檢查每一個(gè)計(jì)算過程一樣。
通過這種創(chuàng)新的實(shí)驗(yàn)設(shè)計(jì),研究團(tuán)隊(duì)發(fā)現(xiàn)了三個(gè)令人震驚的現(xiàn)象。首先,在簡單問題上,這些聲稱會(huì)"思考"的AI模型竟然表現(xiàn)得還不如普通的AI模型,就像一個(gè)總是要深思熟慮的人在回答"1+1等于幾"時(shí)反而比直覺反應(yīng)的人更容易出錯(cuò)。其次,只有在中等難度的問題上,"思維型"模型才真正顯示出優(yōu)勢,證明它們的"思考"確實(shí)有用。但最讓人匪夷所思的是第三個(gè)發(fā)現(xiàn):當(dāng)問題變得真正困難時(shí),所有模型都會(huì)徹底失敗,而且"思維型"模型反而開始減少思考時(shí)間,就像遇到難題時(shí)直接放棄思考一樣。
更深入的分析揭示了這些模型"思維過程"中的有趣現(xiàn)象。在簡單問題上,它們經(jīng)常會(huì)"想太多"——明明已經(jīng)找到了正確答案,卻繼續(xù)探索各種錯(cuò)誤的可能性,白白浪費(fèi)了計(jì)算資源。在中等難度問題上,它們會(huì)先嘗試很多錯(cuò)誤的方向,最終才找到正確答案。而在困難問題上,它們基本上找不到任何正確的解決方案。
最令人意外的發(fā)現(xiàn)是,即使研究人員直接告訴這些AI模型解題的完整算法——相當(dāng)于給學(xué)生提供了詳細(xì)的解題步驟——模型的表現(xiàn)依然沒有改善。這就像給一個(gè)學(xué)生提供了完整的數(shù)學(xué)公式和解題方法,但他仍然無法正確應(yīng)用一樣,暴露了這些模型在邏輯推理和步驟執(zhí)行方面的根本性缺陷。
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)范疇。它提醒我們,當(dāng)前被廣泛宣傳的"思維型"AI可能并沒有我們想象的那么智能。雖然它們在某些特定任務(wù)上表現(xiàn)出色,但在面對真正需要?jiǎng)?chuàng)造性思維和復(fù)雜推理的問題時(shí),這些模型很可能會(huì)露出"假聰明"的本質(zhì)。
一、四個(gè)精心設(shè)計(jì)的"智力測驗(yàn)":從游戲中看穿AI的真實(shí)水平
蘋果研究團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)是:如何公平地測試這些聲稱會(huì)"思考"的AI模型?傳統(tǒng)的數(shù)學(xué)題庫和編程測試存在一個(gè)根本問題——這些題目很可能在訓(xùn)練數(shù)據(jù)中出現(xiàn)過,就像學(xué)生提前看過考試答案一樣,無法真實(shí)反映實(shí)際能力。
想象你要測試一個(gè)人的真實(shí)駕駛技術(shù),最好的方法不是讓他在熟悉的路線上開車,而是設(shè)計(jì)一個(gè)全新的、可以隨時(shí)調(diào)整難度的駕駛場景。基于這個(gè)思路,研究團(tuán)隊(duì)創(chuàng)造了四個(gè)巧妙的"拼圖游戲",每個(gè)游戲都像一個(gè)精密設(shè)計(jì)的實(shí)驗(yàn)室,可以精確控制復(fù)雜程度。
第一個(gè)游戲是經(jīng)典的"漢諾塔"。想象你面前有三根柱子,最左邊的柱子上從下到上按大小順序疊著若干個(gè)圓盤,目標(biāo)是把所有圓盤移到最右邊的柱子上,但有嚴(yán)格的規(guī)則:每次只能移動(dòng)一個(gè)圓盤,只能移動(dòng)最上面的圓盤,大圓盤永遠(yuǎn)不能壓在小圓盤上面。這個(gè)游戲的巧妙之處在于,圓盤數(shù)量決定了難度——3個(gè)圓盤需要7步,4個(gè)圓盤需要15步,5個(gè)圓盤需要31步,難度呈指數(shù)級增長。
第二個(gè)是"跳棋游戲",就像在一條直線上玩跳棋。左邊放著若干個(gè)紅色棋子,右邊放著同樣數(shù)量的藍(lán)色棋子,中間留一個(gè)空位。目標(biāo)是讓紅藍(lán)棋子完全交換位置。棋子可以向前滑動(dòng)到相鄰的空位,或者跳過一個(gè)對方的棋子落在空位上,但絕對不能后退。這個(gè)游戲考驗(yàn)的是在約束條件下的序列規(guī)劃能力。
第三個(gè)是"過河問題",這是經(jīng)典邏輯謎題的變體。想象有若干對"委托人和代理人"需要過河,船的容量有限,而且有個(gè)重要約束:任何委托人都不能在沒有自己代理人保護(hù)的情況下和其他代理人單獨(dú)相處,無論是在船上還是河岸上。這個(gè)游戲測試的是在復(fù)雜約束下的多步驟規(guī)劃能力。
最后一個(gè)是"積木世界",就像玩樂高積木一樣。給定一個(gè)初始的積木排列,需要通過移動(dòng)積木(每次只能移動(dòng)最上面的積木)來達(dá)到目標(biāo)排列。隨著積木數(shù)量增加,可能的排列組合呈爆炸式增長,需要非常精細(xì)的規(guī)劃。
這四個(gè)游戲的設(shè)計(jì)精妙之處在于它們的"可擴(kuò)展性"。就像調(diào)節(jié)音響的音量旋鈕一樣,研究人員可以通過增加圓盤數(shù)量、棋子數(shù)量、過河人數(shù)或積木數(shù)量來精確控制難度等級。同時(shí),每個(gè)游戲都有明確的規(guī)則和唯一的正確解法,讓研究人員能夠像批改數(shù)學(xué)題一樣,逐步檢查AI的每一個(gè)推理步驟是否正確。
更重要的是,這些游戲避免了"數(shù)據(jù)污染"的問題。雖然漢諾塔等游戲本身是經(jīng)典問題,但研究團(tuán)隊(duì)可以生成全新的問題實(shí)例,確保AI模型在訓(xùn)練時(shí)沒有見過這些具體的題目。這就像用同樣的數(shù)學(xué)公式出全新的應(yīng)用題一樣,測試的是真正的理解和應(yīng)用能力,而不是記憶能力。
通過這種創(chuàng)新的實(shí)驗(yàn)設(shè)計(jì),研究團(tuán)隊(duì)成功地為AI推理能力的測試建立了一個(gè)"標(biāo)準(zhǔn)化實(shí)驗(yàn)室"。在這個(gè)實(shí)驗(yàn)室里,他們可以系統(tǒng)地觀察不同AI模型在面對不同復(fù)雜程度問題時(shí)的真實(shí)表現(xiàn),就像科學(xué)家在顯微鏡下觀察細(xì)胞一樣清晰和客觀。
二、三個(gè)意想不到的"智力層次":AI模型的奇特表現(xiàn)規(guī)律
當(dāng)蘋果研究團(tuán)隊(duì)開始用這四個(gè)精心設(shè)計(jì)的游戲測試各種AI模型時(shí),他們發(fā)現(xiàn)了一個(gè)完全出乎意料的現(xiàn)象。原本以為會(huì)看到簡單的"越難越差"的線性關(guān)系,但實(shí)際結(jié)果卻像發(fā)現(xiàn)了一個(gè)全新的物理定律一樣令人震驚。
想象你在觀察一個(gè)聲稱很聰明的學(xué)生做不同難度的題目。按常理,這個(gè)學(xué)生應(yīng)該在簡單題上表現(xiàn)完美,中等題上稍差一些,困難題上表現(xiàn)最差。但這些AI模型的表現(xiàn)就像一個(gè)奇怪的學(xué)生:在最簡單的題目上竟然頻繁出錯(cuò),在中等難度題目上突然變得很厲害,而在最困難的題目上又徹底崩潰。
**第一層:簡單問題上的"聰明反被聰明誤"**
最讓人意外的發(fā)現(xiàn)是,在最簡單的問題上,那些號稱會(huì)"深度思考"的AI模型竟然表現(xiàn)得還不如普通的AI模型。這就像一個(gè)總是要仔細(xì)思考的人在回答"今天星期幾"這種簡單問題時(shí),反而比直覺反應(yīng)的人更容易給出錯(cuò)誤答案。
研究團(tuán)隊(duì)發(fā)現(xiàn),"思維型"模型在處理簡單問題時(shí)會(huì)陷入一種"過度思考"的陷阱。比如在解決只需要7步的漢諾塔問題時(shí),這些模型往往會(huì)在前幾步就找到正確答案,但隨后卻開始探索各種不必要的錯(cuò)誤路徑,最終反而得出了錯(cuò)誤結(jié)論。這就像一個(gè)學(xué)生在解答"2+3等于幾"時(shí),先正確地想到了5,但隨后又開始懷疑自己,嘗試各種復(fù)雜的計(jì)算方法,最終寫下了錯(cuò)誤答案。
更有趣的是,普通的AI模型在這些簡單問題上表現(xiàn)更好,而且消耗的計(jì)算資源也更少。這意味著,對于日常生活中的簡單任務(wù),過度復(fù)雜的"思維型"AI可能是一種浪費(fèi),甚至?xí)碡?fù)面效果。
**第二層:中等難度問題上的"思考優(yōu)勢"**
當(dāng)問題復(fù)雜度提升到中等水平時(shí),"思維型"模型終于展現(xiàn)出了它們的真正價(jià)值。在這個(gè)難度區(qū)間內(nèi),這些模型的"思考"過程確實(shí)產(chǎn)生了明顯的優(yōu)勢。它們會(huì)系統(tǒng)地探索各種可能的解決方案,即使在初期嘗試了很多錯(cuò)誤的路徑,最終也能找到正確答案。
這種表現(xiàn)模式很像一個(gè)經(jīng)驗(yàn)豐富的偵探破案的過程。面對復(fù)雜案件,偵探會(huì)先考慮各種可能的嫌疑人和動(dòng)機(jī),雖然大部分線索最終證明是錯(cuò)誤的,但通過系統(tǒng)性的排除和驗(yàn)證,最終能夠找到真相。同樣,"思維型"AI在中等復(fù)雜度問題上展現(xiàn)出了這種"試錯(cuò)-學(xué)習(xí)-收斂"的能力。
在這個(gè)層次上,額外的"思考時(shí)間"確實(shí)物有所值。模型投入更多的計(jì)算資源進(jìn)行推理,最終獲得了更高的準(zhǔn)確率。這證明了在適當(dāng)?shù)膹?fù)雜程度下,"深度思考"確實(shí)是一種有效的問題解決策略。
**第三層:高難度問題上的"全面崩潰"**
然而,當(dāng)問題難度繼續(xù)攀升時(shí),所有AI模型——無論是"思維型"還是普通型——都會(huì)遭遇完全的失敗。但最令人困惑的是,"思維型"模型在這種情況下的行為模式。
按照常理,面對更困難的問題,一個(gè)理性的思考者應(yīng)該投入更多時(shí)間和精力來尋找解決方案。但研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)違反直覺的現(xiàn)象:當(dāng)問題變得過于復(fù)雜時(shí),"思維型"模型反而開始減少思考時(shí)間,就像遇到難題時(shí)直接放棄了一樣。
這種現(xiàn)象就像一個(gè)學(xué)生在面對超出自己能力范圍的題目時(shí),不是更加努力思考,而是草草寫幾筆就交卷了。更奇怪的是,這種"放棄"行為不是因?yàn)槟P瓦_(dá)到了計(jì)算資源的限制——它們明明還有大量的計(jì)算能力沒有使用,卻選擇了"躺平"。
**跨層次的一致性問題**
這三個(gè)層次的發(fā)現(xiàn)揭示了當(dāng)前AI推理能力的一個(gè)根本性問題:缺乏一致性。一個(gè)真正智能的系統(tǒng)應(yīng)該能夠根據(jù)問題的復(fù)雜程度調(diào)整自己的策略,在簡單問題上快速響應(yīng),在復(fù)雜問題上深入思考。但現(xiàn)在的AI模型似乎無法做到這種自適應(yīng)調(diào)節(jié)。
更令人擔(dān)憂的是,這種不一致性表明,這些模型可能并沒有真正"理解"問題的本質(zhì),而是在使用某種并不可靠的模式匹配機(jī)制。當(dāng)問題超出其訓(xùn)練經(jīng)驗(yàn)范圍時(shí),這種機(jī)制就會(huì)失效,導(dǎo)致不可預(yù)測的行為。
這個(gè)發(fā)現(xiàn)對AI的實(shí)際應(yīng)用具有重要意義。它提醒我們,不能簡單地認(rèn)為"思維型"AI在所有情況下都比普通AI更好。在不同的應(yīng)用場景中,我們需要根據(jù)任務(wù)的復(fù)雜程度選擇合適的AI系統(tǒng),就像選擇不同的工具來完成不同的工作一樣。
三、透視AI的"思維過程":揭秘機(jī)器大腦的真實(shí)想法
蘋果研究團(tuán)隊(duì)并沒有滿足于僅僅觀察AI模型的最終答案,他們做了一件更大膽的事情:直接"窺視"這些模型的"思維過程"。這就像給AI做了一次"大腦掃描",觀察它們在解決問題時(shí)的內(nèi)部活動(dòng)模式。
想象你能夠看到一個(gè)人解題時(shí)大腦中的所有想法——他們?nèi)绾伍_始思考、在哪里犯錯(cuò)、何時(shí)找到正確答案、又在什么時(shí)候迷失方向。通過分析"思維型"AI模型的內(nèi)部推理記錄,研究團(tuán)隊(duì)發(fā)現(xiàn)了一些既有趣又令人擔(dān)憂的模式。
**簡單問題上的"胡思亂想"**
在處理簡單問題時(shí),這些AI模型展現(xiàn)出了一種類似"胡思亂想"的行為模式。研究人員發(fā)現(xiàn),模型往往在推理過程的早期就能找到正確答案,但隨后卻繼續(xù)"思考",探索各種不必要的錯(cuò)誤方向。
這就像一個(gè)學(xué)生在解答"5+3等于幾"時(shí),立刻想到了正確答案8,但隨后開始懷疑:"會(huì)不會(huì)是9?讓我試試其他方法...也許是7?"最終反而把自己繞糊涂了。在AI的"思維記錄"中,研究人員發(fā)現(xiàn)正確解決方案通常出現(xiàn)在思考過程的前半部分,而后半部分大多是錯(cuò)誤的探索。
這種現(xiàn)象表明,這些模型缺乏一種重要的能力——知道何時(shí)停止思考。在人類的認(rèn)知過程中,我們通常能夠識別簡單問題并快速給出答案,而不會(huì)陷入不必要的復(fù)雜思考中。但這些AI模型似乎缺乏這種"認(rèn)知經(jīng)濟(jì)性"。
**中等問題上的"柳暗花明"**
當(dāng)問題復(fù)雜度適中時(shí),AI模型的思維模式發(fā)生了有趣的變化。它們通常會(huì)從錯(cuò)誤的嘗試開始,就像在迷宮中摸索一樣,經(jīng)歷多次錯(cuò)誤的轉(zhuǎn)向,最終才找到通向正確答案的路徑。
這種模式更接近人類解決復(fù)雜問題的真實(shí)過程。想象你在解一個(gè)復(fù)雜的數(shù)學(xué)題,可能需要嘗試好幾種方法,前幾種都行不通,直到第四種或第五種方法才突然開竅。在AI的思維記錄中,研究人員觀察到了類似的"試錯(cuò)-調(diào)整-突破"的循環(huán)過程。
有趣的是,正確答案在思維過程中出現(xiàn)的位置與問題復(fù)雜程度呈現(xiàn)正相關(guān)關(guān)系。簡單問題的答案通常出現(xiàn)在思考過程的前30%,而中等復(fù)雜問題的答案往往要到思考過程的后70%才會(huì)出現(xiàn)。這種模式表明,AI模型確實(shí)具備了一定的"堅(jiān)持思考"能力,不會(huì)在初次失敗后立即放棄。
**復(fù)雜問題上的"思維混亂"**
當(dāng)面對真正困難的問題時(shí),AI模型的思維過程呈現(xiàn)出一種"混亂"狀態(tài)。研究人員發(fā)現(xiàn),在這些情況下,模型生成的所有中間解決方案幾乎都是錯(cuò)誤的,而且錯(cuò)誤之間沒有明顯的學(xué)習(xí)或改進(jìn)模式。
這就像觀察一個(gè)完全迷失在復(fù)雜迷宮中的人,他們不停地轉(zhuǎn)來轉(zhuǎn)去,但每一次轉(zhuǎn)向都沒有讓他們更接近出口。更令人擔(dān)憂的是,模型在這種情況下不僅無法找到正確答案,還會(huì)逐漸減少思考時(shí)間,就像逐漸放棄努力一樣。
**思維效率的悖論**
通過分析不同復(fù)雜程度問題上的思維模式,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人困惑的效率悖論。在最需要深度思考的困難問題上,AI模型反而表現(xiàn)出了最低的思維效率。它們不僅無法找到正確答案,還會(huì)浪費(fèi)大量計(jì)算資源在無意義的錯(cuò)誤探索上。
相比之下,在中等復(fù)雜度的問題上,雖然AI模型也會(huì)犯很多錯(cuò)誤,但這些錯(cuò)誤往往是有意義的——它們構(gòu)成了通向正確答案的學(xué)習(xí)過程。而在困難問題上,錯(cuò)誤就只是錯(cuò)誤,沒有任何建設(shè)性價(jià)值。
**"自我糾錯(cuò)"能力的局限性**
研究還揭示了這些AI模型在"自我糾錯(cuò)"方面的嚴(yán)重局限。雖然它們被設(shè)計(jì)為具備自我反思和修正能力,但在實(shí)際操作中,這種能力只在特定的復(fù)雜度范圍內(nèi)有效。
在簡單問題上,模型的"糾錯(cuò)"機(jī)制反而成了干擾因素,讓原本正確的答案變成了錯(cuò)誤。在困難問題上,這種機(jī)制則完全失效,無法對顯而易見的錯(cuò)誤進(jìn)行修正。只有在中等復(fù)雜度范圍內(nèi),自我糾錯(cuò)才真正發(fā)揮了積極作用。
這種發(fā)現(xiàn)對AI系統(tǒng)的設(shè)計(jì)具有重要啟示。它表明,簡單地增加"思考時(shí)間"或"反思能力"并不總是有益的,關(guān)鍵是要讓AI系統(tǒng)學(xué)會(huì)根據(jù)問題的性質(zhì)調(diào)整其思維策略。一個(gè)真正智能的系統(tǒng)應(yīng)該知道什么時(shí)候該快速行動(dòng),什么時(shí)候該深度思考,什么時(shí)候該適可而止。
四、最令人震驚的發(fā)現(xiàn):即使給出完整攻略,AI依然會(huì)迷路
蘋果研究團(tuán)隊(duì)進(jìn)行了一個(gè)極其巧妙的對照實(shí)驗(yàn),這個(gè)實(shí)驗(yàn)的結(jié)果徹底顛覆了人們對AI推理能力的認(rèn)知。他們決定測試一個(gè)簡單的假設(shè):如果AI模型在復(fù)雜問題上表現(xiàn)不佳是因?yàn)椴恢澜忸}方法,那么直接告訴它們完整的解題算法應(yīng)該能顯著改善表現(xiàn)。
想象這樣一個(gè)場景:一個(gè)學(xué)生在數(shù)學(xué)考試中遇到困難,老師決定給他提供完整的解題公式和詳細(xì)的步驟說明。按常理,這個(gè)學(xué)生應(yīng)該能夠按部就班地得出正確答案。但研究團(tuán)隊(duì)發(fā)現(xiàn),即使給AI模型提供了完整的解題算法,它們的表現(xiàn)依然沒有明顯改善,崩潰點(diǎn)仍然出現(xiàn)在相同的復(fù)雜度水平上。
**算法執(zhí)行vs算法設(shè)計(jì)的天壤之別**
這個(gè)發(fā)現(xiàn)暴露了一個(gè)深層問題:設(shè)計(jì)解決方案和執(zhí)行解決方案是兩種完全不同的能力。在人類的認(rèn)知中,雖然發(fā)明一個(gè)新算法很困難,但按照給定的算法步驟執(zhí)行通常要容易得多。這就像烹飪:創(chuàng)造一道全新菜譜需要天賦和經(jīng)驗(yàn),但按照詳細(xì)菜譜做菜應(yīng)該是大多數(shù)人都能掌握的。
然而,這些AI模型似乎在"按菜譜做菜"這個(gè)看似簡單的任務(wù)上也會(huì)失敗。研究人員為漢諾塔問題提供了完整的遞歸算法,包括詳細(xì)的偽代碼和執(zhí)行步驟。這個(gè)算法就像一份極其詳細(xì)的組裝說明書,告訴模型在每一步應(yīng)該做什么、如何判斷當(dāng)前狀態(tài)、如何決定下一步行動(dòng)。
但令人震驚的是,即使有了這份"完美攻略",AI模型在面對復(fù)雜問題時(shí)依然會(huì)在相同的難度水平上崩潰。這就像給一個(gè)人提供了完美的GPS導(dǎo)航,但他仍然會(huì)在同樣的地方迷路一樣不可思議。
**邏輯一致性的根本缺陷**
這個(gè)實(shí)驗(yàn)揭示了一個(gè)更深層的問題:這些AI模型在維持邏輯一致性方面存在根本性缺陷。算法執(zhí)行要求嚴(yán)格的步驟遵循和狀態(tài)跟蹤,每一步都必須建立在前一步的正確結(jié)果之上。這需要一種類似"工作記憶"的能力,能夠準(zhǔn)確記住當(dāng)前狀態(tài)并根據(jù)規(guī)則進(jìn)行下一步操作。
研究人員發(fā)現(xiàn),AI模型經(jīng)常在執(zhí)行算法的過程中"迷失方向"。它們可能正確理解了算法的前幾步,但隨著步驟的增加,逐漸偏離了正確軌道。這就像一個(gè)人在按照復(fù)雜食譜做菜時(shí),開始時(shí)嚴(yán)格按照步驟,但做著做著就開始"自由發(fā)揮",最終做出了完全不同的東西。
**符號操作能力的局限性**
更深入的分析顯示,這些AI模型在符號操作和抽象推理方面存在根本性局限。雖然它們在處理自然語言方面表現(xiàn)出色,能夠理解和生成流暢的文本,但在需要精確邏輯操作的任務(wù)上卻力不從心。
這種現(xiàn)象類似于某些人在語言交流方面很有天賦,能夠生動(dòng)地描述復(fù)雜概念,但在數(shù)學(xué)計(jì)算或邏輯推理方面卻表現(xiàn)平平。AI模型似乎擅長"談?wù)?問題解決過程,但在實(shí)際"執(zhí)行"精確的邏輯步驟時(shí)會(huì)出現(xiàn)偏差。
**不同問題類型的奇異差異**
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)令人困惑的現(xiàn)象:同一個(gè)AI模型在不同類型問題上的表現(xiàn)存在巨大差異,這種差異無法用問題的客觀復(fù)雜度來解釋。
例如,Claude模型在處理漢諾塔問題時(shí)能夠正確執(zhí)行100多個(gè)步驟,但在處理過河問題時(shí)卻在第4步就開始出錯(cuò)。這種差異很可能反映了訓(xùn)練數(shù)據(jù)的偏向性——某些類型的問題在AI的訓(xùn)練過程中出現(xiàn)得更頻繁,因此模型對這些問題有更好的"記憶"。
這就像一個(gè)學(xué)生在某些科目上表現(xiàn)優(yōu)異,但在其他同等難度的科目上卻表現(xiàn)平平,不是因?yàn)槟芰栴},而是因?yàn)閷W(xué)習(xí)經(jīng)歷的差異。這種現(xiàn)象表明,這些AI模型的能力可能更多地依賴于訓(xùn)練時(shí)的經(jīng)驗(yàn)積累,而非真正的通用推理能力。
**對AI能力認(rèn)知的重新審視**
這些發(fā)現(xiàn)迫使我們重新審視對AI推理能力的理解。如果一個(gè)系統(tǒng)無法可靠地執(zhí)行給定的算法,那么我們很難說它具備了真正的"推理"能力。這更像是一種高級的模式匹配和文本生成能力,而非基于邏輯的問題解決能力。
這個(gè)發(fā)現(xiàn)對AI的實(shí)際應(yīng)用具有重要意義。在需要精確邏輯操作的場景中,比如數(shù)學(xué)計(jì)算、程序設(shè)計(jì)或工程分析,我們不能完全依賴這些AI模型,即使為它們提供了詳細(xì)的操作指南。這提醒我們,AI技術(shù)雖然在很多方面都很強(qiáng)大,但在某些需要嚴(yán)格邏輯性的任務(wù)上,仍然存在不可忽視的局限性。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。