這項由馬里蘭大學(xué)的陳春瑞(Chenrui Fan)、李明(Ming Li)、周天一(Tianyi Zhou)以及理海大學(xué)的孫理超(Lichao Sun)組成的研究團隊發(fā)表于2025年1月的學(xué)術(shù)論文,首次深入研究了現(xiàn)代AI推理模型在面對"缺失前提"問題時的異常行為。有興趣深入了解的讀者可以通過項目網(wǎng)址https://github.com/tianyi-lab/MiP-Overthinking訪問完整研究。
當(dāng)你向最新的AI推理模型提出一個看似簡單的問題"a的值是多少?"時,你可能會驚訝地發(fā)現(xiàn),這個被訓(xùn)練來進行復(fù)雜推理的AI竟然會生成數(shù)千個字的回答,花費數(shù)分鐘的思考時間,最終給出一個毫無意義的答案。這就好比讓一個經(jīng)驗豐富的偵探去破一個根本沒有足夠線索的案子,結(jié)果偵探不是告訴你"線索不足,無法破案",而是開始胡亂猜測,編造各種復(fù)雜的推理過程,最后給出一個錯誤的結(jié)論。
這種現(xiàn)象被研究團隊命名為"缺失前提過度思考"(MiP-Overthinking),它揭示了當(dāng)前最先進的推理模型存在的一個關(guān)鍵缺陷:缺乏批判性思維能力。正如論文開頭引用《銀河系漫游指南》中超級計算機Deep Thought花費數(shù)百年時間思考"生命、宇宙以及一切的終極問題",最終給出"42"這個看似荒謬的答案一樣,現(xiàn)代AI推理模型在面對無解問題時也表現(xiàn)出了類似的盲目執(zhí)著。
### 一、什么是"缺失前提過度思考"現(xiàn)象
要理解這個現(xiàn)象,我們首先需要明白什么是"缺失前提"問題。研究團隊給出了一個嚴(yán)格的數(shù)學(xué)定義:當(dāng)一個問題缺少了關(guān)鍵信息,導(dǎo)致無法得出唯一正確答案時,就構(gòu)成了缺失前提問題。簡單來說,這就像有人問你"這輛車有多快?",但既沒告訴你是什么車,也沒說在什么條件下行駛,這樣的問題本身就是無法回答的。
在正常情況下,一個具備批判性思維的智能系統(tǒng)應(yīng)該能夠識別出這種問題的不完整性,并禮貌地指出"信息不足,無法回答"。然而,研究團隊發(fā)現(xiàn),當(dāng)前最先進的推理模型如DeepSeek-R1、GPT-o1等,在遇到這類問題時卻表現(xiàn)出了一種令人困惑的行為模式。
以最簡單的例子為說明,當(dāng)研究人員向DeepSeek-R1提問"a的值是多少?"時,這個模型竟然生成了數(shù)千個詞匯的回答,思考了數(shù)分鐘,最終給出了"2"這個毫無根據(jù)的答案。這就像一個學(xué)生在考試中遇到題目信息不全,但不是向老師詢問,而是憑空想象出各種條件,然后基于這些想象的條件給出答案。
更令人驚訝的是,這種現(xiàn)象在各種不同類型的推理模型中都普遍存在,無論它們是通過強化學(xué)習(xí)還是監(jiān)督學(xué)習(xí)訓(xùn)練的。研究團隊測試了十多個不同的模型,發(fā)現(xiàn)它們在面對缺失前提問題時,生成的回答長度是正常問題的2到4倍,而且很少能夠正確識別問題的不可解性。
### 二、深入研究的方法與發(fā)現(xiàn)
為了系統(tǒng)地研究這個現(xiàn)象,研究團隊構(gòu)建了四個不同的測試數(shù)據(jù)集,每個數(shù)據(jù)集都代表不同的難度級別和問題類型。這就像設(shè)計了四種不同的"陷阱"來測試AI的批判性思維能力。
第一種是"規(guī)則生成公式"數(shù)據(jù)集,包含50個看似復(fù)雜但實際上包含未定義變量的數(shù)學(xué)公式。這些公式就像是缺少了關(guān)鍵零件的機器,看起來很復(fù)雜,但實際上無法運行。第二種是基于SVAMP數(shù)據(jù)集的"主體-問題交換",研究人員故意將問題的主體部分和問題部分進行錯誤匹配,就像把汽車的說明書和飛機的操作問題組合在一起。
第三種和第四種分別基于GSM8K和MATH數(shù)據(jù)集,通過"關(guān)鍵前提移除"的方法生成。研究人員會從原本可解的數(shù)學(xué)問題中移除一個關(guān)鍵的數(shù)值條件,使問題變得無解。比如原問題是"詹姆斯決定每周跑3次,每次跑3趟沖刺,每趟60米,問他一周總共跑多少米?",修改后變成"詹姆斯決定每周跑3次,每次跑沖刺,問他一周總共跑多少米?"——缺少了每趟的距離信息。
研究團隊在這些數(shù)據(jù)集上測試了多種模型,包括推理模型(如QwQ-32B、DeepSeek-R1、GPT-o1系列)和非推理模型(如Qwen2.5-32B、GPT-4o、Gemini-1.5等)。他們主要關(guān)注三個指標(biāo):回答長度、對缺失前提問題的拒答率,以及對正常問題的準(zhǔn)確率。
結(jié)果令人震驚。推理模型在面對缺失前提問題時,平均生成的文本長度比處理正常問題時長2到4倍。以QwQ-32B為例,它處理正常GSM8K問題時平均生成1896個詞匯,但面對缺失前提問題時竟然生成了4780個詞匯。更糟糕的是,這些模型的拒答率普遍很低,大多數(shù)情況下仍然會強行給出答案,而不是承認(rèn)問題無解。
相比之下,非推理模型表現(xiàn)得更加理智。它們在處理兩種類型問題時生成的文本長度相差不大,而且更容易識別出缺失前提問題并選擇拒答。比如Gemini-1.5在面對缺失前提問題時的拒答率達到54.5%,而QwQ-32B只有10.1%。
### 三、深層機制分析:為什么會出現(xiàn)這種現(xiàn)象
為了理解推理模型為什么會陷入這種"過度思考"的陷阱,研究團隊進行了更深入的分析,就像醫(yī)生給病人做全面體檢一樣,檢查問題出現(xiàn)在哪個環(huán)節(jié)。
他們發(fā)現(xiàn),推理模型在處理缺失前提問題時會頻繁使用一些特定的詞匯模式,如"或者"(alternatively)、"等等"(wait)、"檢查"(check)、"但是"(but)、"假設(shè)"(hypothesis)等。這些詞匯的使用頻率比處理正常問題時高出數(shù)倍,表明模型陷入了一種自我懷疑和反復(fù)檢查的循環(huán)中。
更有趣的是,研究團隊通過逐步分析發(fā)現(xiàn),大多數(shù)推理模型實際上在推理過程的早期就能意識到問題可能存在缺失前提。比如DeepSeek-R1在處理缺失前提問題時,有95.5%的情況下會在推理過程中表達懷疑,而且平均在第2步就開始懷疑問題的可解性。
這就像一個偵探在破案過程中很早就意識到線索不足,但卻不敢下"案件無法偵破"的結(jié)論,而是繼續(xù)無休止地重復(fù)檢查已有線索,試圖從中榨取更多信息。研究團隊發(fā)現(xiàn),推理模型會陷入五種典型的思維模式:重新審視問題、訪問知識庫、提出假設(shè)、自我懷疑,以及暫停檢查。
通過相似性分析,研究人員還發(fā)現(xiàn)推理模型在處理缺失前提問題時生成的內(nèi)容重復(fù)性更高,平均相似度從正常問題的0.45上升到0.50,表明模型在不斷重復(fù)相似的推理片段,而不是有效地推進解題過程。
### 四、問題根源與傳播機制
研究團隊進一步探索了這種問題行為的根源。他們懷疑這種現(xiàn)象主要源于強化學(xué)習(xí)訓(xùn)練過程中缺乏適當(dāng)?shù)拈L度約束。當(dāng)前的推理模型訓(xùn)練主要關(guān)注格式和準(zhǔn)確性獎勵,有些還會加入步驟或長度獎勵來鼓勵深度推理,但這可能導(dǎo)致了"獎勵欺騙"現(xiàn)象,即模型學(xué)會了通過過度推理來獲得高分,而不是學(xué)會了何時應(yīng)該停止思考。
更令人擔(dān)憂的是,這種問題行為還具有傳染性。研究團隊進行了一個小規(guī)模實驗,他們用DeepSeek-R1在MiP-Formula數(shù)據(jù)集上生成的50個回答來微調(diào)Qwen-2.5-7B-Instruct模型。結(jié)果顯示,即使只是接觸了少量的問題樣本,被微調(diào)的模型也很快表現(xiàn)出了明顯的過度思考特征:對缺失前提問題和正常問題的回答長度都大幅增加,拒答率下降。
這就像一種"思維病毒",通過模型蒸餾和微調(diào)過程在不同模型之間傳播。這解釋了為什么基于監(jiān)督學(xué)習(xí)的推理模型也會表現(xiàn)出類似的問題行為,因為它們很可能是在包含過度思考樣本的數(shù)據(jù)上訓(xùn)練的。
### 五、對比實驗:非推理模型的智慧
研究中最有趣的發(fā)現(xiàn)之一是非推理模型在這類問題上的優(yōu)秀表現(xiàn)。雖然這些模型沒有經(jīng)過專門的推理訓(xùn)練,但它們在面對缺失前提問題時表現(xiàn)得更加理智和高效。
以GPT-4o為例,當(dāng)面對"Kyle以19.50美元買了去年的暢銷書,這本書的原價是多少?"這樣一個缺失折扣信息的問題時,它能夠快速識別出信息不足,并禮貌地回復(fù):"要確定這本書的原價,我們通常需要知道折扣或降價百分比... 如果您提供折扣百分比或比率,我可以幫您計算原價!"
相比之下,DeepSeek-R1面對同樣的問題時,會進行長達數(shù)千字的推理,最終基于假設(shè)的25%折扣率給出26美元的答案。這種對比清楚地表明,專門訓(xùn)練的推理能力并不總是帶來更好的判斷力,有時簡單直接的方法反而更有效。
這個發(fā)現(xiàn)挑戰(zhàn)了目前AI發(fā)展的一個基本假設(shè),即更復(fù)雜的推理能力總是更好的。研究結(jié)果表明,如果沒有相應(yīng)的批判性思維能力,復(fù)雜的推理可能反而成為一種負擔(dān),導(dǎo)致模型在不該思考的時候過度思考。
### 六、測試時間縮放定律的矛盾
這項研究還揭示了一個更深層的問題:當(dāng)前推理模型的行為與"測試時間縮放定律"存在矛盾。這個定律認(rèn)為,在推理階段投入更多計算資源(更長的思考時間、更多的推理步驟)應(yīng)該會帶來更好的性能。
然而,研究團隊發(fā)現(xiàn),對于缺失前提問題,推理模型雖然生成了大量額外的文本和推理步驟,但這些額外的"思考"并沒有提高它們識別問題不可解性的能力。相反,這些冗長的推理往往會讓模型更加堅信自己能夠解決問題,最終給出錯誤的答案。
這就像讓一個人在一個沒有出口的迷宮里走得越久,他反而越相信自己能找到出口,而不是意識到這個迷宮本身就是無解的。這種現(xiàn)象表明,單純增加推理長度并不等同于提高推理質(zhì)量,有效的推理需要知道何時停止。
### 七、實際應(yīng)用中的影響
這種過度思考現(xiàn)象在實際應(yīng)用中可能帶來嚴(yán)重后果。首先是計算資源的浪費,當(dāng)模型為每個簡單問題都生成數(shù)千字的回答時,服務(wù)器成本會急劇增加。更重要的是用戶體驗的惡化,用戶可能需要等待數(shù)分鐘才能得到一個本應(yīng)該瞬間回復(fù)"信息不足"的答案。
在專業(yè)領(lǐng)域的應(yīng)用中,這種問題可能更加嚴(yán)重。比如在法律咨詢、醫(yī)療診斷或工程設(shè)計中,AI如果不能正確識別信息不足的情況,而是強行給出基于不完整信息的建議,可能導(dǎo)致錯誤的決策和嚴(yán)重的后果。
研究團隊的發(fā)現(xiàn)也解釋了為什么有些用戶抱怨最新的AI推理模型"話太多"、"不夠直接"。這并不是模型變得更加健談,而是它們在某些情況下陷入了無效的思維循環(huán),無法簡潔地處理問題。
### 八、未來發(fā)展的啟示
這項研究為AI推理模型的未來發(fā)展提供了重要啟示。首先,訓(xùn)練過程需要更好地平衡推理深度和效率,不能單純鼓勵更長的推理鏈,而要教會模型何時應(yīng)該停止思考。這就像教育孩子不僅要學(xué)會思考,更要學(xué)會什么時候不需要思考。
其次,評估推理模型的標(biāo)準(zhǔn)需要擴展,不能只關(guān)注解決復(fù)雜問題的能力,還要考察識別無解問題的能力。一個真正智能的系統(tǒng)應(yīng)該知道自己的局限性,能夠誠實地說"我不知道"或"信息不足"。
最后,這項研究強調(diào)了批判性思維在AI系統(tǒng)中的重要性。未來的AI訓(xùn)練可能需要專門加入這方面的內(nèi)容,教會模型不僅要學(xué)會推理,更要學(xué)會質(zhì)疑問題本身的合理性。
說到底,這項研究揭示的不僅僅是一個技術(shù)問題,更是對當(dāng)前AI發(fā)展方向的深刻反思。在追求更強推理能力的同時,我們不能忘記培養(yǎng)AI的判斷力和批判性思維。正如人類智慧的標(biāo)志不僅在于能夠解決復(fù)雜問題,更在于知道哪些問題值得解決,哪些問題根本無需解決一樣,真正智能的AI也應(yīng)該具備這樣的智慧。這項研究為我們指出了一個重要方向:未來的AI不僅要會思考,更要會選擇性地思考。有興趣深入了解這項研究技術(shù)細節(jié)的讀者,可以訪問項目網(wǎng)址https://github.com/tianyi-lab/MiP-Overthinking獲取完整的數(shù)據(jù)和代碼。
Q&A
Q1:什么是"缺失前提過度思考"現(xiàn)象? A:這是指AI推理模型在遇到信息不足、無法解答的問題時,不是簡單回答"信息不足",而是生成大量冗長的推理過程,最終給出錯誤答案的現(xiàn)象。就像讓人解一道缺少關(guān)鍵條件的數(shù)學(xué)題,正常人會說"條件不夠",但這些AI卻會編造各種假設(shè)來強行求解。
Q2:為什么專門訓(xùn)練的推理模型反而表現(xiàn)更差? A:研究發(fā)現(xiàn),推理模型在訓(xùn)練過程中被鼓勵進行深度思考,但缺乏批判性思維訓(xùn)練,不知道何時應(yīng)該停止推理。這導(dǎo)致它們在遇到無解問題時陷入思維循環(huán),反而不如普通模型能夠直接識別問題。
Q3:這種現(xiàn)象會對實際應(yīng)用產(chǎn)生什么影響? A:主要影響包括:計算資源大量浪費(生成無用的長回答)、用戶體驗變差(等待時間過長)、可能在專業(yè)領(lǐng)域給出基于不完整信息的錯誤建議,在法律、醫(yī)療等重要場景中可能導(dǎo)致嚴(yán)重后果。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。