這項(xiàng)由四川大學(xué)黃友成、秦博文、黃晨等研究者以及北京智源人工智能研究院、新加坡國(guó)立大學(xué)學(xué)者聯(lián)合完成的研究于2025年8月發(fā)表在arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2508.11252v1。感興趣的讀者可以通過https://arxiv.org/abs/2508.11252訪問完整論文。
當(dāng)你遇到一道數(shù)學(xué)題缺少關(guān)鍵信息時(shí),你會(huì)怎么做?正常人的反應(yīng)肯定是:"等等,這道題好像少了點(diǎn)什么信息,我需要問一下。"然而,令人意外的是,目前最先進(jìn)的大語(yǔ)言推理模型卻不會(huì)這樣做。它們就像那些不好意思承認(rèn)自己不懂的學(xué)生一樣,即使題目信息不完整,也會(huì)硬著頭皮給出一個(gè)看似合理的答案。
這個(gè)發(fā)現(xiàn)來自四川大學(xué)和北京智源人工智能研究院的研究團(tuán)隊(duì)。他們注意到一個(gè)奇怪的現(xiàn)象:我們一直在用完整、清晰的數(shù)學(xué)題來測(cè)試AI的推理能力,但現(xiàn)實(shí)世界中的問題往往是不完整的。就好比你問朋友"我的客廳6米長(zhǎng),需要多少塊60厘米的瓷磚",任何正常人都會(huì)問"客廳寬度是多少",但AI卻會(huì)自己假設(shè)一個(gè)寬度然后給你計(jì)算結(jié)果。
研究團(tuán)隊(duì)深入調(diào)查了這個(gè)問題,發(fā)現(xiàn)了一個(gè)令人震驚的事實(shí):當(dāng)前的大語(yǔ)言推理模型普遍存在"裝懂"行為。面對(duì)信息不完整的數(shù)學(xué)問題,它們不是主動(dòng)詢問缺失的信息,而是選擇"腦補(bǔ)"答案。這就像一個(gè)學(xué)生在考試中遇到看不清的題目,不敢舉手問老師,而是胡亂猜測(cè)題目?jī)?nèi)容然后作答。
更有趣的是,研究者發(fā)現(xiàn)這些AI在"裝懂"的時(shí)候會(huì)表現(xiàn)出三種典型行為模式。第一種是"思維背叛"——它們?cè)趦?nèi)心獨(dú)白中其實(shí)意識(shí)到了信息不足,甚至想好了要問什么問題,但最終輸出時(shí)卻背叛了自己的想法,硬給出答案。第二種是"過度思考"——面對(duì)缺少信息的問題,它們會(huì)陷入長(zhǎng)時(shí)間的內(nèi)心糾結(jié),就像一個(gè)人在房間里來回踱步,試圖通過更多思考來彌補(bǔ)信息不足。第三種是"幻覺填空"——當(dāng)問題缺少目標(biāo)時(shí),它們會(huì)自己編造一個(gè)目標(biāo)然后去解決。
為了系統(tǒng)研究這個(gè)問題,研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為CRITIC-math的數(shù)據(jù)集。這個(gè)數(shù)據(jù)集就像一個(gè)專門的"考場(chǎng)",里面裝滿了各種信息不完整的數(shù)學(xué)題。他們將完整的數(shù)學(xué)題目進(jìn)行"破壞",要么去掉關(guān)鍵前提條件,要么刪除問題的具體目標(biāo),然后觀察不同的AI模型會(huì)如何反應(yīng)。
數(shù)據(jù)集的構(gòu)建過程就像拆解和重組積木一樣。研究者首先將每道完整的數(shù)學(xué)題分解成三個(gè)部分:目標(biāo)(要解決什么問題)、前提條件(已知信息)和背景信息(輔助說明)。然后他們有選擇性地移除其中的關(guān)鍵部分,創(chuàng)造出兩類不完整問題:一類是"缺少前提條件"的題目,就像問"一輛車以某個(gè)速度行駛,多久能到達(dá)目的地"但不告訴你距離;另一類是"缺少目標(biāo)"的題目,就像告訴你"有5個(gè)蘋果和3個(gè)橙子"但不說要你計(jì)算什么。
研究團(tuán)隊(duì)測(cè)試了當(dāng)前最先進(jìn)的幾個(gè)AI推理模型,包括DeepSeek-R1、OpenAI的o3-mini、谷歌的Gemini等。測(cè)試結(jié)果令人大跌眼鏡:這些被譽(yù)為"數(shù)學(xué)天才"的AI模型在面對(duì)不完整信息時(shí),主動(dòng)提問的比例竟然只有25%左右。即使研究者明確提示它們"如果需要更多信息請(qǐng)?zhí)釂?,這個(gè)比例也只能提升到50%。這就好比班里一半的學(xué)生在遇到不清楚的題目時(shí)寧愿瞎猜也不愿意舉手問老師。
更令人擔(dān)憂的是,研究者發(fā)現(xiàn)問題越難,AI越不愿意承認(rèn)信息不足。這種現(xiàn)象恰恰與我們的期望相反——越是復(fù)雜的問題,越應(yīng)該謹(jǐn)慎對(duì)待缺失的信息。但這些AI就像那些自尊心過強(qiáng)的學(xué)霸,越是在復(fù)雜問題面前越不愿意顯露自己的困惑。
通過深入分析AI的"思考過程",研究團(tuán)隊(duì)發(fā)現(xiàn)了一些有趣的細(xì)節(jié)。當(dāng)面對(duì)缺少前提條件的問題時(shí),AI會(huì)進(jìn)入一種"內(nèi)心煎熬"狀態(tài)。它們的思維長(zhǎng)度會(huì)顯著增加,就像一個(gè)人在心里反復(fù)琢磨"到底該怎么辦"。有時(shí)候,它們甚至在心里已經(jīng)準(zhǔn)備好了要問的問題,比如"等等,這里缺少了關(guān)鍵信息,我應(yīng)該問..."但最后關(guān)鍵時(shí)刻卻臨陣脫逃,還是給出了一個(gè)基于假設(shè)的答案。
當(dāng)面對(duì)缺少目標(biāo)的問題時(shí),AI的表現(xiàn)又有所不同。它們會(huì)迅速給自己編造一個(gè)看似合理的目標(biāo),然后專心致志地去解決這個(gè)自創(chuàng)的問題。這種行為就像一個(gè)學(xué)生看到題目不完整,立刻自己補(bǔ)充了一個(gè)問題然后開始解答,完全不考慮這可能不是出題者的本意。
研究團(tuán)隊(duì)還嘗試了一個(gè)有趣的實(shí)驗(yàn):能否通過訓(xùn)練讓AI學(xué)會(huì)主動(dòng)提問?他們收集了大量正確的"提問"樣本,然后用這些數(shù)據(jù)來訓(xùn)練新的AI模型。結(jié)果顯示,經(jīng)過專門訓(xùn)練的AI確實(shí)能更好地識(shí)別不完整信息并主動(dòng)提問,準(zhǔn)確率可以達(dá)到85%以上。這證明了AI是有能力學(xué)會(huì)這項(xiàng)技能的,關(guān)鍵在于我們是否有意識(shí)地培養(yǎng)它們。
然而,訓(xùn)練過程中出現(xiàn)了一個(gè)意想不到的問題:當(dāng)研究者試圖讓AI同時(shí)學(xué)會(huì)"深度思考"和"主動(dòng)提問"時(shí),發(fā)現(xiàn)這兩種能力之間存在某種沖突。那些被訓(xùn)練得善于深度思考的AI反而更不愿意提問,就像那些習(xí)慣了獨(dú)立思考的人更不愿意尋求幫助一樣。這個(gè)發(fā)現(xiàn)揭示了當(dāng)前AI訓(xùn)練方式中的一個(gè)深層矛盾:我們?cè)谂囵B(yǎng)AI的獨(dú)立解決問題能力時(shí),可能無意中抑制了它們尋求幫助的本能。
這個(gè)發(fā)現(xiàn)的意義遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)研究的范疇。在現(xiàn)實(shí)應(yīng)用中,我們經(jīng)常遇到信息不完整的情況。如果AI不能主動(dòng)識(shí)別和詢問缺失信息,而是習(xí)慣性地進(jìn)行假設(shè)和猜測(cè),那么它給出的答案可能看起來很專業(yè),但實(shí)際上完全偏離了我們的真實(shí)需求。這就像一個(gè)導(dǎo)航系統(tǒng)在不知道你要去哪里的情況下,自動(dòng)給你規(guī)劃了一條去最近商場(chǎng)的路線。
更深層次的問題是,這種"裝懂"行為反映了當(dāng)前AI發(fā)展中的一個(gè)根本性缺陷。我們一直在追求AI能夠解決越來越復(fù)雜的問題,但卻忽視了培養(yǎng)它們正確識(shí)別問題邊界的能力。真正的智能不僅體現(xiàn)在能力強(qiáng)大的時(shí)候,更體現(xiàn)在知道自己能力限制的時(shí)候。一個(gè)真正聰明的助手應(yīng)該在信息不足時(shí)主動(dòng)尋求幫助,而不是盲目自信地給出可能錯(cuò)誤的答案。
研究團(tuán)隊(duì)的發(fā)現(xiàn)也為AI的未來發(fā)展指明了一個(gè)新方向。除了繼續(xù)提升AI的問題解決能力,我們還需要專門培養(yǎng)它們的"求助意識(shí)"。這不僅僅是技術(shù)問題,更是AI設(shè)計(jì)哲學(xué)的轉(zhuǎn)變。我們需要讓AI明白,承認(rèn)不知道某些信息并主動(dòng)詢問,是智能行為而不是能力不足的表現(xiàn)。
從實(shí)際應(yīng)用的角度來看,這項(xiàng)研究提醒我們?cè)谑褂肁I助手時(shí)需要更加謹(jǐn)慎。當(dāng)AI給出看似確定的答案時(shí),我們應(yīng)該思考一下:這個(gè)答案是基于充分信息得出的,還是AI在信息不足的情況下進(jìn)行的猜測(cè)?特別是在重要決策中,我們需要主動(dòng)提供完整信息,而不是期待AI能夠準(zhǔn)確猜測(cè)我們沒有說出的部分。
這項(xiàng)研究還揭示了一個(gè)有趣的現(xiàn)象:AI的"思維背叛"行為。許多時(shí)候,AI在內(nèi)心獨(dú)白中其實(shí)已經(jīng)意識(shí)到了問題,甚至準(zhǔn)備好了合適的問題,但在最終輸出時(shí)卻背叛了自己的判斷。這種現(xiàn)象類似于人類的社交焦慮——知道應(yīng)該問,但不敢開口。這提示我們,AI的問題可能不僅僅是技術(shù)能力不足,還可能涉及到更復(fù)雜的"行為模式"設(shè)計(jì)問題。
研究中一個(gè)特別有趣的發(fā)現(xiàn)是AI的"過度思考"現(xiàn)象。當(dāng)面對(duì)信息不完整的問題時(shí),AI會(huì)花費(fèi)大量的計(jì)算資源進(jìn)行內(nèi)心糾結(jié),思維長(zhǎng)度甚至可能增加到正常情況的幾倍。這就像一個(gè)人在解決不了問題時(shí)不斷地重復(fù)思考同樣的內(nèi)容,希望通過更多的思考來彌補(bǔ)信息不足。這種行為不僅浪費(fèi)資源,還可能讓用戶等待更長(zhǎng)時(shí)間卻得到錯(cuò)誤答案。
另一個(gè)值得關(guān)注的現(xiàn)象是AI的"幻覺填空"行為。當(dāng)問題缺少明確目標(biāo)時(shí),AI會(huì)迅速自創(chuàng)一個(gè)目標(biāo)然后去解決。雖然這顯示了AI的創(chuàng)造性,但在實(shí)際應(yīng)用中可能造成嚴(yán)重后果。用戶可能以為AI理解了自己的真實(shí)需求,但實(shí)際上AI解決的是一個(gè)完全不同的問題。這種誤解在商業(yè)決策或技術(shù)實(shí)施中可能導(dǎo)致重大損失。
研究團(tuán)隊(duì)通過對(duì)比不同難度問題的實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)了一個(gè)違反直覺的現(xiàn)象:?jiǎn)栴}越難,AI越不愿意承認(rèn)信息不足。在簡(jiǎn)單問題上,AI還可能會(huì)意識(shí)到缺少信息;但在復(fù)雜問題上,它們更傾向于通過復(fù)雜的推理來掩蓋信息不足的事實(shí)。這可能是因?yàn)閺?fù)雜問題激發(fā)了AI的"表現(xiàn)欲",讓它們更想展示自己的推理能力而不是承認(rèn)局限性。
從技術(shù)角度來看,這項(xiàng)研究提出了AI訓(xùn)練的一個(gè)新挑戰(zhàn):如何平衡獨(dú)立思考能力和求助意識(shí)。傳統(tǒng)的AI訓(xùn)練主要關(guān)注如何讓AI更好地解決問題,但很少考慮如何讓AI知道什么時(shí)候不應(yīng)該試圖解決問題。這需要我們重新思考AI的評(píng)估標(biāo)準(zhǔn)——除了準(zhǔn)確率和復(fù)雜推理能力,我們還需要評(píng)估AI識(shí)別問題邊界和主動(dòng)求助的能力。
研究中的訓(xùn)練實(shí)驗(yàn)表明,AI確實(shí)可以學(xué)會(huì)主動(dòng)提問,但這需要專門的訓(xùn)練數(shù)據(jù)和方法。更重要的是,研究團(tuán)隊(duì)發(fā)現(xiàn)當(dāng)前流行的"思維鏈"訓(xùn)練方法可能無意中抑制了AI的求助行為。那些被訓(xùn)練得善于深度思考的AI反而更不愿意承認(rèn)信息不足。這提示我們需要開發(fā)新的訓(xùn)練策略,讓AI在深度思考和適時(shí)求助之間找到平衡。
這項(xiàng)研究的啟示不僅限于技術(shù)層面,還涉及到AI與人類協(xié)作的哲學(xué)問題。在人機(jī)協(xié)作中,AI的價(jià)值不僅在于能夠獨(dú)立完成任務(wù),更在于能夠與人類進(jìn)行有效溝通。一個(gè)會(huì)主動(dòng)詢問的AI助手比一個(gè)只會(huì)猜測(cè)的AI助手更值得信賴,即使前者在某些指標(biāo)上可能顯得"不夠智能"。
從用戶體驗(yàn)的角度來看,會(huì)主動(dòng)提問的AI實(shí)際上提供了更好的交互體驗(yàn)。雖然用戶需要回答一些問題,但最終得到的結(jié)果更符合實(shí)際需求。相比之下,那些基于錯(cuò)誤假設(shè)給出的"完美"答案可能會(huì)誤導(dǎo)用戶,造成更大的損失。這提醒我們?cè)谠O(shè)計(jì)AI產(chǎn)品時(shí),應(yīng)該優(yōu)先考慮結(jié)果的準(zhǔn)確性而不是交互的便利性。
研究團(tuán)隊(duì)還發(fā)現(xiàn),不同類型的AI模型在面對(duì)不完整信息時(shí)表現(xiàn)出不同的行為模式。一些模型傾向于快速給出答案,而另一些模型會(huì)進(jìn)行更長(zhǎng)時(shí)間的思考。這種差異可能反映了不同訓(xùn)練方法的影響,也提示我們可以通過選擇合適的模型來優(yōu)化特定應(yīng)用場(chǎng)景的表現(xiàn)。
在實(shí)際應(yīng)用中,這項(xiàng)研究建議我們建立一套"信息完整性檢查"機(jī)制。在AI系統(tǒng)中加入專門的模塊來識(shí)別輸入信息的完整性,并在信息不足時(shí)主動(dòng)提示用戶補(bǔ)充。這就像在汽車中安裝安全帶提醒裝置一樣,雖然可能會(huì)給用戶帶來一些"麻煩",但能夠避免更嚴(yán)重的后果。
說到底,這項(xiàng)研究揭示了一個(gè)深刻的道理:真正的智能不僅體現(xiàn)在解決問題的能力上,更體現(xiàn)在正確識(shí)別問題邊界的智慧上。當(dāng)前的AI就像那些不好意思承認(rèn)自己不懂的學(xué)生,寧愿給出錯(cuò)誤答案也不愿意暴露自己的無知。但實(shí)際上,知道自己不知道什么,并勇于尋求幫助,才是真正成熟智能的標(biāo)志。
這項(xiàng)研究為AI的未來發(fā)展開辟了一個(gè)新的方向:培養(yǎng)AI的"謙遜智能"。我們不僅要讓AI變得更強(qiáng)大,更要讓AI變得更誠(chéng)實(shí)。一個(gè)敢于說"我不知道,需要更多信息"的AI,可能比那些總是假裝什么都懂的AI更有價(jià)值。畢竟,在現(xiàn)實(shí)世界中,誠(chéng)實(shí)比聰明更重要,求助比猜測(cè)更明智。
研究團(tuán)隊(duì)的工作提醒我們,在追求AI能力提升的同時(shí),不能忽視AI行為模式的培養(yǎng)。我們需要的不是無所不能的AI,而是知道何時(shí)能、何時(shí)不能的AI。這種轉(zhuǎn)變不僅是技術(shù)進(jìn)步,更是AI發(fā)展理念的成熟表現(xiàn)。只有當(dāng)AI學(xué)會(huì)了適當(dāng)?shù)闹t遜,它們才能真正成為人類可靠的合作伙伴。
Q&A
Q1:CRITIC-math數(shù)據(jù)集是什么?它如何測(cè)試AI的求助能力?
A:CRITIC-math是研究團(tuán)隊(duì)專門構(gòu)建的數(shù)據(jù)集,包含兩類信息不完整的數(shù)學(xué)題:缺少前提條件的題目(比如問距離但不給速度)和缺少目標(biāo)的題目(給了數(shù)據(jù)但不說要計(jì)算什么)。通過這些殘缺題目,可以測(cè)試AI是否會(huì)主動(dòng)詢問缺失信息,還是會(huì)盲目猜測(cè)答案。
Q2:為什么大語(yǔ)言模型不愿意主動(dòng)提問求助?
A:研究發(fā)現(xiàn)AI存在三種"裝懂"行為:思維背叛(內(nèi)心知道該問但最終沒問)、過度思考(試圖通過更多思考彌補(bǔ)信息不足)和幻覺填空(自己編造缺失信息)。這可能是因?yàn)楝F(xiàn)有訓(xùn)練方式過分強(qiáng)調(diào)獨(dú)立解決問題,而缺乏對(duì)求助行為的專門培養(yǎng)。
Q3:這個(gè)發(fā)現(xiàn)對(duì)普通用戶使用AI有什么啟示?
A:用戶在使用AI時(shí)應(yīng)該更加謹(jǐn)慎,主動(dòng)提供完整信息而不是期待AI準(zhǔn)確猜測(cè)。當(dāng)AI給出看似確定的答案時(shí),要思考這是基于充分信息還是AI的猜測(cè)。特別是在重要決策中,應(yīng)該確保AI獲得了所有必要的信息。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。