這項(xiàng)由西班牙馬德里理工大學(xué)ETSI電信學(xué)院的哈維爾·孔德、佩德羅·雷維列戈教授,聯(lián)合南京航空航天大學(xué)機(jī)電學(xué)院付泰然、馬德里卡洛斯三世大學(xué)岡薩洛·馬丁內(nèi)斯教授,以及SomosNLP組織的瑪麗亞·格蘭杜里共同完成的研究發(fā)表于2025年1月24日的arXiv平臺(tái)。這個(gè)看似簡(jiǎn)單卻意義深遠(yuǎn)的發(fā)現(xiàn),揭示了現(xiàn)代大語(yǔ)言模型一個(gè)令人意外的特征:當(dāng)它們"思考"后再回答問(wèn)題時(shí),會(huì)變得更加自信,但這種自信不分對(duì)錯(cuò)。有興趣深入了解的讀者可以通過(guò)arXiv:2501.09775v2訪問(wèn)完整論文。
當(dāng)我們讓ChatGPT或其他AI助手回答選擇題時(shí),通常會(huì)發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象:如果我們要求它先解釋推理過(guò)程再給出答案,它往往表現(xiàn)得更加確信自己的選擇。乍一聽(tīng)這似乎是好事——畢竟,深思熟慮后的答案應(yīng)該更可靠。但這項(xiàng)研究卻發(fā)現(xiàn)了一個(gè)令人困惑的真相:AI在思考后確實(shí)變得更自信了,但這種自信對(duì)正確答案和錯(cuò)誤答案一視同仁。
研究團(tuán)隊(duì)選擇了七個(gè)不同的大語(yǔ)言模型進(jìn)行測(cè)試,包括我們熟悉的GPT-4o系列、Meta的Llama系列、谷歌的Gemma模型等。他們使用了一個(gè)包含57個(gè)不同學(xué)科、超過(guò)15000道題目的大型測(cè)試集,就像給這些AI安排了一場(chǎng)覆蓋天文地理、歷史文學(xué)、數(shù)學(xué)物理的超級(jí)考試。
測(cè)試過(guò)程就像對(duì)比兩種不同的考試方式。第一種方式直接了當(dāng):給AI一道選擇題,要求它立即選擇A、B、C、D中的一個(gè)答案。第二種方式則要求AI先像人類(lèi)學(xué)生一樣,寫(xiě)出完整的解題思路,至少包含三個(gè)步驟,然后再給出最終答案。
研究結(jié)果讓人大跌眼鏡。當(dāng)AI被要求先思考再回答時(shí),它們的準(zhǔn)確率確實(shí)有所提升,這符合我們的常識(shí)預(yù)期。但更有趣的發(fā)現(xiàn)在于AI對(duì)自己答案的信心程度。研究團(tuán)隊(duì)通過(guò)分析AI預(yù)測(cè)每個(gè)選項(xiàng)的概率來(lái)衡量它們的信心水平。結(jié)果顯示,所有被測(cè)試的模型在經(jīng)過(guò)"思考"后都變得更加自信,無(wú)論它們的答案是對(duì)是錯(cuò)。
這種現(xiàn)象的普遍性令人震驚。不僅僅是某一個(gè)模型的特殊表現(xiàn),而是從小型的7B參數(shù)模型到大型的GPT-4o,所有測(cè)試的模型都表現(xiàn)出了同樣的趨勢(shì)。更讓人意外的是,當(dāng)AI給出錯(cuò)誤答案時(shí),這種自信心的增長(zhǎng)甚至比給出正確答案時(shí)更為顯著。
為了深入理解這一現(xiàn)象,研究團(tuán)隊(duì)進(jìn)一步分析了不同學(xué)科領(lǐng)域的表現(xiàn)差異。他們發(fā)現(xiàn),這種"思考后更自信"的現(xiàn)象在幾乎所有學(xué)科中都存在,但在需要更多推理的科學(xué)類(lèi)題目中表現(xiàn)更為明顯。比如在物理、化學(xué)這類(lèi)需要邏輯推導(dǎo)的學(xué)科中,AI的自信心增長(zhǎng)幅度更大。而在一些相對(duì)簡(jiǎn)單的常識(shí)題目中,雖然也存在這種現(xiàn)象,但增長(zhǎng)幅度相對(duì)較小。
特別值得注意的是,當(dāng)AI在思考過(guò)程中改變了答案選擇時(shí),如果這種改變是從錯(cuò)誤轉(zhuǎn)向正確,那么它的自信心增長(zhǎng)會(huì)更加顯著。這就好比一個(gè)學(xué)生原本選擇了錯(cuò)誤答案,但在仔細(xì)思考后改選了正確答案,這時(shí)他會(huì)對(duì)自己的判斷更加確信。
這個(gè)發(fā)現(xiàn)背后隱藏著什么樣的機(jī)制呢?研究團(tuán)隊(duì)提出了一個(gè)合理的解釋:大語(yǔ)言模型的工作原理是基于前文內(nèi)容預(yù)測(cè)下一個(gè)詞語(yǔ)。當(dāng)AI寫(xiě)出了一段看似合理的推理過(guò)程后,這段文字會(huì)影響它對(duì)后續(xù)答案的預(yù)測(cè)。就像一個(gè)人在說(shuō)服自己相信某個(gè)觀點(diǎn)時(shí),說(shuō)得越多就越相信一樣,AI生成的推理文字也會(huì)"說(shuō)服"它自己相信這個(gè)答案是正確的。
這種現(xiàn)象不僅存在于AI世界,在人類(lèi)身體上也有相似的表現(xiàn)。心理學(xué)研究早就發(fā)現(xiàn),當(dāng)人們需要解釋自己的選擇時(shí),他們會(huì)對(duì)這個(gè)選擇變得更加確信,即使這個(gè)選擇原本是錯(cuò)誤的。這被稱為"解釋即相信"的認(rèn)知偏見(jiàn)。人們?cè)跒槟硞€(gè)觀點(diǎn)尋找理由的過(guò)程中,往往會(huì)說(shuō)服自己相信這個(gè)觀點(diǎn)的正確性。
從實(shí)際應(yīng)用角度來(lái)看,這個(gè)發(fā)現(xiàn)具有重要的警示意義。目前,許多評(píng)估AI能力的方法都依賴于AI對(duì)答案的信心程度,認(rèn)為AI越確信某個(gè)答案,這個(gè)答案就越可能是正確的。但這項(xiàng)研究表明,AI的信心程度可能并不是判斷答案正確性的可靠指標(biāo),特別是在要求AI進(jìn)行推理的情況下。
研究還發(fā)現(xiàn)了一個(gè)有趣的細(xì)節(jié):當(dāng)研究團(tuán)隊(duì)分析AI答案的概率分布時(shí),發(fā)現(xiàn)經(jīng)過(guò)思考后的答案概率更加集中在高值區(qū)間,也就是說(shuō),AI要么非常確信,要么相當(dāng)確信,很少出現(xiàn)猶豫不決的情況。這種現(xiàn)象在正確答案和錯(cuò)誤答案中都同樣存在,進(jìn)一步證實(shí)了思考過(guò)程對(duì)AI信心的普遍影響。
為了確保研究結(jié)果的可靠性,研究團(tuán)隊(duì)還對(duì)不同類(lèi)型的題目進(jìn)行了分類(lèi)分析。他們發(fā)現(xiàn),在需要事實(shí)記憶的題目中,思考對(duì)準(zhǔn)確率的提升相對(duì)有限,但對(duì)信心的提升依然顯著。在需要邏輯推理的題目中,思考既提升了準(zhǔn)確率,也大幅提升了信心水平。最有趣的是那些涉及常識(shí)判斷的題目,在這類(lèi)題目中,思考有時(shí)甚至?xí)档蜏?zhǔn)確率,但信心水平卻仍然上升。
這個(gè)現(xiàn)象對(duì)于AI的實(shí)際應(yīng)用具有深刻的啟示。在一些需要快速反應(yīng)的場(chǎng)景中,也許讓AI直接給出答案會(huì)更好,而不是要求它進(jìn)行復(fù)雜的推理。特別是在那些AI已經(jīng)具備豐富"直覺(jué)"的領(lǐng)域,過(guò)度的思考可能會(huì)干擾這種直覺(jué)的發(fā)揮,就像人類(lèi)在某些情況下"直覺(jué)反應(yīng)"比"理性分析"更準(zhǔn)確一樣。
研究團(tuán)隊(duì)還觀察到,當(dāng)AI在兩種回答方式下選擇了不同答案時(shí),如果思考后的答案是正確的,那么AI的信心增長(zhǎng)會(huì)特別顯著。這暗示著思考過(guò)程確實(shí)能夠幫助AI糾正一些錯(cuò)誤判斷,但同時(shí)也會(huì)讓它對(duì)結(jié)果過(guò)度自信。
從技術(shù)角度來(lái)看,這個(gè)現(xiàn)象揭示了當(dāng)前大語(yǔ)言模型架構(gòu)的一個(gè)內(nèi)在特性。由于這些模型是通過(guò)預(yù)測(cè)下一個(gè)詞語(yǔ)來(lái)工作的,前面生成的內(nèi)容會(huì)影響后續(xù)的預(yù)測(cè)。當(dāng)AI生成了一段詳細(xì)的推理過(guò)程后,這段內(nèi)容就成為了上下文的一部分,會(huì)影響它對(duì)最終答案的概率估計(jì)。
這項(xiàng)研究的實(shí)驗(yàn)設(shè)計(jì)非常巧妙。研究團(tuán)隊(duì)不僅比較了不同回答方式下的準(zhǔn)確率,還深入分析了AI的內(nèi)部信心指標(biāo)。他們通過(guò)查看AI為每個(gè)選項(xiàng)分配的概率來(lái)量化信心水平,這種方法比簡(jiǎn)單地看AI是否給出正確答案更加精確和有意義。
實(shí)驗(yàn)結(jié)果的可視化分析也很有說(shuō)服力。研究團(tuán)隊(duì)繪制了概率分布圖,清晰地展示了思考前后AI信心水平的變化。這些圖表顯示,經(jīng)過(guò)思考后,AI的答案概率更多地集中在0.7到1.0的高信心區(qū)間,而直接回答時(shí)的概率分布則更加分散。
值得關(guān)注的是,這種現(xiàn)象在不同規(guī)模的模型中都存在,從參數(shù)較少的開(kāi)源模型到參數(shù)眾多的商業(yè)模型,都表現(xiàn)出了相似的行為模式。這表明這不是某個(gè)特定模型的bug或特性,而是當(dāng)前大語(yǔ)言模型架構(gòu)的一個(gè)普遍特征。
研究還探討了這一發(fā)現(xiàn)對(duì)AI評(píng)估方法的影響。目前許多評(píng)估AI能力的基準(zhǔn)測(cè)試都鼓勵(lì)使用"思維鏈"方法,即要求AI展示推理過(guò)程。雖然這種方法確實(shí)能夠提升某些類(lèi)型題目的準(zhǔn)確率,但同時(shí)也會(huì)讓AI對(duì)錯(cuò)誤答案變得過(guò)度自信,這可能會(huì)在某些應(yīng)用場(chǎng)景中造成問(wèn)題。
從更廣泛的角度來(lái)看,這項(xiàng)研究為我們理解AI的"思維"過(guò)程提供了新的視角。AI的推理過(guò)程雖然在形式上類(lèi)似人類(lèi)的思考,但其內(nèi)在機(jī)制完全不同。人類(lèi)的思考是基于大腦中復(fù)雜的神經(jīng)網(wǎng)絡(luò)活動(dòng),而AI的"思考"則是基于統(tǒng)計(jì)模型的文本生成。這種差異導(dǎo)致了一些有趣的相似性,比如都會(huì)在解釋后變得更加自信,但也帶來(lái)了不同的特點(diǎn)和潛在風(fēng)險(xiǎn)。
研究團(tuán)隊(duì)在論文中特別強(qiáng)調(diào),這個(gè)發(fā)現(xiàn)并不意味著我們應(yīng)該完全放棄讓AI進(jìn)行推理。相反,它提醒我們需要更加謹(jǐn)慎地使用和解釋AI的信心指標(biāo)。在某些需要高可靠性的應(yīng)用中,我們可能需要結(jié)合多種方法來(lái)評(píng)估AI答案的可信度,而不是僅僅依賴AI自身的信心水平。
這項(xiàng)研究還為未來(lái)的AI模型改進(jìn)指出了方向。如何讓AI在進(jìn)行推理的同時(shí)保持適當(dāng)?shù)闹t遜和不確定性,是一個(gè)值得深入研究的問(wèn)題。也許未來(lái)的AI模型需要更好的機(jī)制來(lái)校準(zhǔn)自己的信心水平,使其更準(zhǔn)確地反映答案的可靠性。
從教育角度來(lái)看,這個(gè)發(fā)現(xiàn)也很有啟發(fā)性。它提醒我們,無(wú)論是對(duì)人類(lèi)學(xué)生還是AI系統(tǒng),解釋和推理過(guò)程都是一把雙刃劍。雖然它們能夠幫助得出更好的答案,但也可能導(dǎo)致過(guò)度自信。這對(duì)于培養(yǎng)批判性思維和保持適當(dāng)?shù)膽岩删窬哂兄匾饬x。
Q&A
Q1:大語(yǔ)言模型為什么會(huì)在思考后變得更自信?
A:這主要是因?yàn)榇笳Z(yǔ)言模型的工作原理是基于前文內(nèi)容預(yù)測(cè)下一個(gè)詞語(yǔ)。當(dāng)AI寫(xiě)出推理過(guò)程后,這段文字會(huì)影響它對(duì)答案的預(yù)測(cè),就像一個(gè)人在說(shuō)服自己相信某個(gè)觀點(diǎn)時(shí)會(huì)越說(shuō)越相信一樣。
Q2:這種現(xiàn)象只出現(xiàn)在某些特定的AI模型中嗎?
A:不是的,研究測(cè)試了七個(gè)不同的大語(yǔ)言模型,包括GPT-4o、Llama系列、Gemma等,發(fā)現(xiàn)所有模型都存在這種現(xiàn)象,這表明這是當(dāng)前大語(yǔ)言模型架構(gòu)的普遍特征。
Q3:AI思考后準(zhǔn)確率提高但過(guò)度自信,我們還應(yīng)該讓AI進(jìn)行推理嗎?
A:應(yīng)該繼續(xù)使用,但需要更謹(jǐn)慎。思考確實(shí)能提高某些題目的準(zhǔn)確率,但我們不能僅依賴AI的信心水平來(lái)判斷答案可靠性,需要結(jié)合其他方法來(lái)評(píng)估答案的可信度。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。