av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 推理模型為何在遇到無(wú)解題目時(shí)反而"想太多"?馬里蘭大學(xué)團(tuán)隊(duì)揭示AI思維陷阱

推理模型為何在遇到無(wú)解題目時(shí)反而"想太多"?馬里蘭大學(xué)團(tuán)隊(duì)揭示AI思維陷阱

2025-07-14 09:50
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-14 09:50 ? 科技行者

這項(xiàng)由馬里蘭大學(xué)的陳春瑞(Chenrui Fan)、李明(Ming Li)、周天一(Tianyi Zhou)以及理海大學(xué)的孫理超(Lichao Sun)組成的研究團(tuán)隊(duì)發(fā)表于2025年1月的學(xué)術(shù)論文,首次深入研究了現(xiàn)代AI推理模型在面對(duì)"缺失前提"問(wèn)題時(shí)的異常行為。有興趣深入了解的讀者可以通過(guò)項(xiàng)目網(wǎng)址https://github.com/tianyi-lab/MiP-Overthinking訪問(wèn)完整研究。

當(dāng)你向最新的AI推理模型提出一個(gè)看似簡(jiǎn)單的問(wèn)題"a的值是多少?"時(shí),你可能會(huì)驚訝地發(fā)現(xiàn),這個(gè)被訓(xùn)練來(lái)進(jìn)行復(fù)雜推理的AI竟然會(huì)生成數(shù)千個(gè)字的回答,花費(fèi)數(shù)分鐘的思考時(shí)間,最終給出一個(gè)毫無(wú)意義的答案。這就好比讓一個(gè)經(jīng)驗(yàn)豐富的偵探去破一個(gè)根本沒(méi)有足夠線索的案子,結(jié)果偵探不是告訴你"線索不足,無(wú)法破案",而是開始胡亂猜測(cè),編造各種復(fù)雜的推理過(guò)程,最后給出一個(gè)錯(cuò)誤的結(jié)論。

這種現(xiàn)象被研究團(tuán)隊(duì)命名為"缺失前提過(guò)度思考"(MiP-Overthinking),它揭示了當(dāng)前最先進(jìn)的推理模型存在的一個(gè)關(guān)鍵缺陷:缺乏批判性思維能力。正如論文開頭引用《銀河系漫游指南》中超級(jí)計(jì)算機(jī)Deep Thought花費(fèi)數(shù)百年時(shí)間思考"生命、宇宙以及一切的終極問(wèn)題",最終給出"42"這個(gè)看似荒謬的答案一樣,現(xiàn)代AI推理模型在面對(duì)無(wú)解問(wèn)題時(shí)也表現(xiàn)出了類似的盲目執(zhí)著。

### 一、什么是"缺失前提過(guò)度思考"現(xiàn)象

要理解這個(gè)現(xiàn)象,我們首先需要明白什么是"缺失前提"問(wèn)題。研究團(tuán)隊(duì)給出了一個(gè)嚴(yán)格的數(shù)學(xué)定義:當(dāng)一個(gè)問(wèn)題缺少了關(guān)鍵信息,導(dǎo)致無(wú)法得出唯一正確答案時(shí),就構(gòu)成了缺失前提問(wèn)題。簡(jiǎn)單來(lái)說(shuō),這就像有人問(wèn)你"這輛車有多快?",但既沒(méi)告訴你是什么車,也沒(méi)說(shuō)在什么條件下行駛,這樣的問(wèn)題本身就是無(wú)法回答的。

在正常情況下,一個(gè)具備批判性思維的智能系統(tǒng)應(yīng)該能夠識(shí)別出這種問(wèn)題的不完整性,并禮貌地指出"信息不足,無(wú)法回答"。然而,研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)前最先進(jìn)的推理模型如DeepSeek-R1、GPT-o1等,在遇到這類問(wèn)題時(shí)卻表現(xiàn)出了一種令人困惑的行為模式。

以最簡(jiǎn)單的例子為說(shuō)明,當(dāng)研究人員向DeepSeek-R1提問(wèn)"a的值是多少?"時(shí),這個(gè)模型竟然生成了數(shù)千個(gè)詞匯的回答,思考了數(shù)分鐘,最終給出了"2"這個(gè)毫無(wú)根據(jù)的答案。這就像一個(gè)學(xué)生在考試中遇到題目信息不全,但不是向老師詢問(wèn),而是憑空想象出各種條件,然后基于這些想象的條件給出答案。

更令人驚訝的是,這種現(xiàn)象在各種不同類型的推理模型中都普遍存在,無(wú)論它們是通過(guò)強(qiáng)化學(xué)習(xí)還是監(jiān)督學(xué)習(xí)訓(xùn)練的。研究團(tuán)隊(duì)測(cè)試了十多個(gè)不同的模型,發(fā)現(xiàn)它們?cè)诿鎸?duì)缺失前提問(wèn)題時(shí),生成的回答長(zhǎng)度是正常問(wèn)題的2到4倍,而且很少能夠正確識(shí)別問(wèn)題的不可解性。

### 二、深入研究的方法與發(fā)現(xiàn)

為了系統(tǒng)地研究這個(gè)現(xiàn)象,研究團(tuán)隊(duì)構(gòu)建了四個(gè)不同的測(cè)試數(shù)據(jù)集,每個(gè)數(shù)據(jù)集都代表不同的難度級(jí)別和問(wèn)題類型。這就像設(shè)計(jì)了四種不同的"陷阱"來(lái)測(cè)試AI的批判性思維能力。

第一種是"規(guī)則生成公式"數(shù)據(jù)集,包含50個(gè)看似復(fù)雜但實(shí)際上包含未定義變量的數(shù)學(xué)公式。這些公式就像是缺少了關(guān)鍵零件的機(jī)器,看起來(lái)很復(fù)雜,但實(shí)際上無(wú)法運(yùn)行。第二種是基于SVAMP數(shù)據(jù)集的"主體-問(wèn)題交換",研究人員故意將問(wèn)題的主體部分和問(wèn)題部分進(jìn)行錯(cuò)誤匹配,就像把汽車的說(shuō)明書和飛機(jī)的操作問(wèn)題組合在一起。

第三種和第四種分別基于GSM8K和MATH數(shù)據(jù)集,通過(guò)"關(guān)鍵前提移除"的方法生成。研究人員會(huì)從原本可解的數(shù)學(xué)問(wèn)題中移除一個(gè)關(guān)鍵的數(shù)值條件,使問(wèn)題變得無(wú)解。比如原問(wèn)題是"詹姆斯決定每周跑3次,每次跑3趟沖刺,每趟60米,問(wèn)他一周總共跑多少米?",修改后變成"詹姆斯決定每周跑3次,每次跑沖刺,問(wèn)他一周總共跑多少米?"——缺少了每趟的距離信息。

研究團(tuán)隊(duì)在這些數(shù)據(jù)集上測(cè)試了多種模型,包括推理模型(如QwQ-32B、DeepSeek-R1、GPT-o1系列)和非推理模型(如Qwen2.5-32B、GPT-4o、Gemini-1.5等)。他們主要關(guān)注三個(gè)指標(biāo):回答長(zhǎng)度、對(duì)缺失前提問(wèn)題的拒答率,以及對(duì)正常問(wèn)題的準(zhǔn)確率。

結(jié)果令人震驚。推理模型在面對(duì)缺失前提問(wèn)題時(shí),平均生成的文本長(zhǎng)度比處理正常問(wèn)題時(shí)長(zhǎng)2到4倍。以QwQ-32B為例,它處理正常GSM8K問(wèn)題時(shí)平均生成1896個(gè)詞匯,但面對(duì)缺失前提問(wèn)題時(shí)竟然生成了4780個(gè)詞匯。更糟糕的是,這些模型的拒答率普遍很低,大多數(shù)情況下仍然會(huì)強(qiáng)行給出答案,而不是承認(rèn)問(wèn)題無(wú)解。

相比之下,非推理模型表現(xiàn)得更加理智。它們?cè)谔幚韮煞N類型問(wèn)題時(shí)生成的文本長(zhǎng)度相差不大,而且更容易識(shí)別出缺失前提問(wèn)題并選擇拒答。比如Gemini-1.5在面對(duì)缺失前提問(wèn)題時(shí)的拒答率達(dá)到54.5%,而QwQ-32B只有10.1%。

### 三、深層機(jī)制分析:為什么會(huì)出現(xiàn)這種現(xiàn)象

為了理解推理模型為什么會(huì)陷入這種"過(guò)度思考"的陷阱,研究團(tuán)隊(duì)進(jìn)行了更深入的分析,就像醫(yī)生給病人做全面體檢一樣,檢查問(wèn)題出現(xiàn)在哪個(gè)環(huán)節(jié)。

他們發(fā)現(xiàn),推理模型在處理缺失前提問(wèn)題時(shí)會(huì)頻繁使用一些特定的詞匯模式,如"或者"(alternatively)、"等等"(wait)、"檢查"(check)、"但是"(but)、"假設(shè)"(hypothesis)等。這些詞匯的使用頻率比處理正常問(wèn)題時(shí)高出數(shù)倍,表明模型陷入了一種自我懷疑和反復(fù)檢查的循環(huán)中。

更有趣的是,研究團(tuán)隊(duì)通過(guò)逐步分析發(fā)現(xiàn),大多數(shù)推理模型實(shí)際上在推理過(guò)程的早期就能意識(shí)到問(wèn)題可能存在缺失前提。比如DeepSeek-R1在處理缺失前提問(wèn)題時(shí),有95.5%的情況下會(huì)在推理過(guò)程中表達(dá)懷疑,而且平均在第2步就開始懷疑問(wèn)題的可解性。

這就像一個(gè)偵探在破案過(guò)程中很早就意識(shí)到線索不足,但卻不敢下"案件無(wú)法偵破"的結(jié)論,而是繼續(xù)無(wú)休止地重復(fù)檢查已有線索,試圖從中榨取更多信息。研究團(tuán)隊(duì)發(fā)現(xiàn),推理模型會(huì)陷入五種典型的思維模式:重新審視問(wèn)題、訪問(wèn)知識(shí)庫(kù)、提出假設(shè)、自我懷疑,以及暫停檢查。

通過(guò)相似性分析,研究人員還發(fā)現(xiàn)推理模型在處理缺失前提問(wèn)題時(shí)生成的內(nèi)容重復(fù)性更高,平均相似度從正常問(wèn)題的0.45上升到0.50,表明模型在不斷重復(fù)相似的推理片段,而不是有效地推進(jìn)解題過(guò)程。

### 四、問(wèn)題根源與傳播機(jī)制

研究團(tuán)隊(duì)進(jìn)一步探索了這種問(wèn)題行為的根源。他們懷疑這種現(xiàn)象主要源于強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中缺乏適當(dāng)?shù)拈L(zhǎng)度約束。當(dāng)前的推理模型訓(xùn)練主要關(guān)注格式和準(zhǔn)確性獎(jiǎng)勵(lì),有些還會(huì)加入步驟或長(zhǎng)度獎(jiǎng)勵(lì)來(lái)鼓勵(lì)深度推理,但這可能導(dǎo)致了"獎(jiǎng)勵(lì)欺騙"現(xiàn)象,即模型學(xué)會(huì)了通過(guò)過(guò)度推理來(lái)獲得高分,而不是學(xué)會(huì)了何時(shí)應(yīng)該停止思考。

更令人擔(dān)憂的是,這種問(wèn)題行為還具有傳染性。研究團(tuán)隊(duì)進(jìn)行了一個(gè)小規(guī)模實(shí)驗(yàn),他們用DeepSeek-R1在MiP-Formula數(shù)據(jù)集上生成的50個(gè)回答來(lái)微調(diào)Qwen-2.5-7B-Instruct模型。結(jié)果顯示,即使只是接觸了少量的問(wèn)題樣本,被微調(diào)的模型也很快表現(xiàn)出了明顯的過(guò)度思考特征:對(duì)缺失前提問(wèn)題和正常問(wèn)題的回答長(zhǎng)度都大幅增加,拒答率下降。

這就像一種"思維病毒",通過(guò)模型蒸餾和微調(diào)過(guò)程在不同模型之間傳播。這解釋了為什么基于監(jiān)督學(xué)習(xí)的推理模型也會(huì)表現(xiàn)出類似的問(wèn)題行為,因?yàn)樗鼈兒芸赡苁窃诎^(guò)度思考樣本的數(shù)據(jù)上訓(xùn)練的。

### 五、對(duì)比實(shí)驗(yàn):非推理模型的智慧

研究中最有趣的發(fā)現(xiàn)之一是非推理模型在這類問(wèn)題上的優(yōu)秀表現(xiàn)。雖然這些模型沒(méi)有經(jīng)過(guò)專門的推理訓(xùn)練,但它們?cè)诿鎸?duì)缺失前提問(wèn)題時(shí)表現(xiàn)得更加理智和高效。

以GPT-4o為例,當(dāng)面對(duì)"Kyle以19.50美元買了去年的暢銷書,這本書的原價(jià)是多少?"這樣一個(gè)缺失折扣信息的問(wèn)題時(shí),它能夠快速識(shí)別出信息不足,并禮貌地回復(fù):"要確定這本書的原價(jià),我們通常需要知道折扣或降價(jià)百分比... 如果您提供折扣百分比或比率,我可以幫您計(jì)算原價(jià)!"

相比之下,DeepSeek-R1面對(duì)同樣的問(wèn)題時(shí),會(huì)進(jìn)行長(zhǎng)達(dá)數(shù)千字的推理,最終基于假設(shè)的25%折扣率給出26美元的答案。這種對(duì)比清楚地表明,專門訓(xùn)練的推理能力并不總是帶來(lái)更好的判斷力,有時(shí)簡(jiǎn)單直接的方法反而更有效。

這個(gè)發(fā)現(xiàn)挑戰(zhàn)了目前AI發(fā)展的一個(gè)基本假設(shè),即更復(fù)雜的推理能力總是更好的。研究結(jié)果表明,如果沒(méi)有相應(yīng)的批判性思維能力,復(fù)雜的推理可能反而成為一種負(fù)擔(dān),導(dǎo)致模型在不該思考的時(shí)候過(guò)度思考。

### 六、測(cè)試時(shí)間縮放定律的矛盾

這項(xiàng)研究還揭示了一個(gè)更深層的問(wèn)題:當(dāng)前推理模型的行為與"測(cè)試時(shí)間縮放定律"存在矛盾。這個(gè)定律認(rèn)為,在推理階段投入更多計(jì)算資源(更長(zhǎng)的思考時(shí)間、更多的推理步驟)應(yīng)該會(huì)帶來(lái)更好的性能。

然而,研究團(tuán)隊(duì)發(fā)現(xiàn),對(duì)于缺失前提問(wèn)題,推理模型雖然生成了大量額外的文本和推理步驟,但這些額外的"思考"并沒(méi)有提高它們識(shí)別問(wèn)題不可解性的能力。相反,這些冗長(zhǎng)的推理往往會(huì)讓模型更加堅(jiān)信自己能夠解決問(wèn)題,最終給出錯(cuò)誤的答案。

這就像讓一個(gè)人在一個(gè)沒(méi)有出口的迷宮里走得越久,他反而越相信自己能找到出口,而不是意識(shí)到這個(gè)迷宮本身就是無(wú)解的。這種現(xiàn)象表明,單純?cè)黾油评黹L(zhǎng)度并不等同于提高推理質(zhì)量,有效的推理需要知道何時(shí)停止。

### 七、實(shí)際應(yīng)用中的影響

這種過(guò)度思考現(xiàn)象在實(shí)際應(yīng)用中可能帶來(lái)嚴(yán)重后果。首先是計(jì)算資源的浪費(fèi),當(dāng)模型為每個(gè)簡(jiǎn)單問(wèn)題都生成數(shù)千字的回答時(shí),服務(wù)器成本會(huì)急劇增加。更重要的是用戶體驗(yàn)的惡化,用戶可能需要等待數(shù)分鐘才能得到一個(gè)本應(yīng)該瞬間回復(fù)"信息不足"的答案。

在專業(yè)領(lǐng)域的應(yīng)用中,這種問(wèn)題可能更加嚴(yán)重。比如在法律咨詢、醫(yī)療診斷或工程設(shè)計(jì)中,AI如果不能正確識(shí)別信息不足的情況,而是強(qiáng)行給出基于不完整信息的建議,可能導(dǎo)致錯(cuò)誤的決策和嚴(yán)重的后果。

研究團(tuán)隊(duì)的發(fā)現(xiàn)也解釋了為什么有些用戶抱怨最新的AI推理模型"話太多"、"不夠直接"。這并不是模型變得更加健談,而是它們?cè)谀承┣闆r下陷入了無(wú)效的思維循環(huán),無(wú)法簡(jiǎn)潔地處理問(wèn)題。

### 八、未來(lái)發(fā)展的啟示

這項(xiàng)研究為AI推理模型的未來(lái)發(fā)展提供了重要啟示。首先,訓(xùn)練過(guò)程需要更好地平衡推理深度和效率,不能單純鼓勵(lì)更長(zhǎng)的推理鏈,而要教會(huì)模型何時(shí)應(yīng)該停止思考。這就像教育孩子不僅要學(xué)會(huì)思考,更要學(xué)會(huì)什么時(shí)候不需要思考。

其次,評(píng)估推理模型的標(biāo)準(zhǔn)需要擴(kuò)展,不能只關(guān)注解決復(fù)雜問(wèn)題的能力,還要考察識(shí)別無(wú)解問(wèn)題的能力。一個(gè)真正智能的系統(tǒng)應(yīng)該知道自己的局限性,能夠誠(chéng)實(shí)地說(shuō)"我不知道"或"信息不足"。

最后,這項(xiàng)研究強(qiáng)調(diào)了批判性思維在AI系統(tǒng)中的重要性。未來(lái)的AI訓(xùn)練可能需要專門加入這方面的內(nèi)容,教會(huì)模型不僅要學(xué)會(huì)推理,更要學(xué)會(huì)質(zhì)疑問(wèn)題本身的合理性。

說(shuō)到底,這項(xiàng)研究揭示的不僅僅是一個(gè)技術(shù)問(wèn)題,更是對(duì)當(dāng)前AI發(fā)展方向的深刻反思。在追求更強(qiáng)推理能力的同時(shí),我們不能忘記培養(yǎng)AI的判斷力和批判性思維。正如人類智慧的標(biāo)志不僅在于能夠解決復(fù)雜問(wèn)題,更在于知道哪些問(wèn)題值得解決,哪些問(wèn)題根本無(wú)需解決一樣,真正智能的AI也應(yīng)該具備這樣的智慧。這項(xiàng)研究為我們指出了一個(gè)重要方向:未來(lái)的AI不僅要會(huì)思考,更要會(huì)選擇性地思考。有興趣深入了解這項(xiàng)研究技術(shù)細(xì)節(jié)的讀者,可以訪問(wèn)項(xiàng)目網(wǎng)址https://github.com/tianyi-lab/MiP-Overthinking獲取完整的數(shù)據(jù)和代碼。

Q&A

Q1:什么是"缺失前提過(guò)度思考"現(xiàn)象? A:這是指AI推理模型在遇到信息不足、無(wú)法解答的問(wèn)題時(shí),不是簡(jiǎn)單回答"信息不足",而是生成大量冗長(zhǎng)的推理過(guò)程,最終給出錯(cuò)誤答案的現(xiàn)象。就像讓人解一道缺少關(guān)鍵條件的數(shù)學(xué)題,正常人會(huì)說(shuō)"條件不夠",但這些AI卻會(huì)編造各種假設(shè)來(lái)強(qiáng)行求解。

Q2:為什么專門訓(xùn)練的推理模型反而表現(xiàn)更差? A:研究發(fā)現(xiàn),推理模型在訓(xùn)練過(guò)程中被鼓勵(lì)進(jìn)行深度思考,但缺乏批判性思維訓(xùn)練,不知道何時(shí)應(yīng)該停止推理。這導(dǎo)致它們?cè)谟龅綗o(wú)解問(wèn)題時(shí)陷入思維循環(huán),反而不如普通模型能夠直接識(shí)別問(wèn)題。

Q3:這種現(xiàn)象會(huì)對(duì)實(shí)際應(yīng)用產(chǎn)生什么影響? A:主要影響包括:計(jì)算資源大量浪費(fèi)(生成無(wú)用的長(zhǎng)回答)、用戶體驗(yàn)變差(等待時(shí)間過(guò)長(zhǎng))、可能在專業(yè)領(lǐng)域給出基于不完整信息的錯(cuò)誤建議,在法律、醫(yī)療等重要場(chǎng)景中可能導(dǎo)致嚴(yán)重后果。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-