Essential AI是一家位于美國(guó)舊金山的人工智能研究公司,專(zhuān)注于大語(yǔ)言模型的基礎(chǔ)研究。2025年4月,該公司的研究團(tuán)隊(duì)發(fā)表了一項(xiàng)顛覆性研究成果,發(fā)表于計(jì)算機(jī)科學(xué)領(lǐng)域的重要期刊,論文題目為《反思預(yù)訓(xùn)練中的反思》。有興趣深入了解的讀者可以通過(guò)arXiv:2504.04022v1訪問(wèn)完整論文。
這項(xiàng)研究挑戰(zhàn)了人工智能領(lǐng)域一個(gè)根深蒂固的觀念。長(zhǎng)期以來(lái),研究者們普遍認(rèn)為,大語(yǔ)言模型只有經(jīng)過(guò)"強(qiáng)化學(xué)習(xí)"這道工序的打磨,才能獲得"反思"能力——也就是能夠檢查自己的推理過(guò)程,發(fā)現(xiàn)錯(cuò)誤并加以修正的能力。這就好比一個(gè)學(xué)生必須經(jīng)過(guò)老師反復(fù)批改作業(yè)和考試才能學(xué)會(huì)自我檢查一樣。
然而,Essential AI的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人意外的現(xiàn)象:這種"反思"能力實(shí)際上在模型預(yù)訓(xùn)練階段就開(kāi)始萌芽了。預(yù)訓(xùn)練就像是孩子在正式上學(xué)前的自主閱讀階段,通過(guò)大量閱讀各種書(shū)籍文章來(lái)積累知識(shí)。研究團(tuán)隊(duì)驚奇地發(fā)現(xiàn),即使在這個(gè)看似"粗放"的學(xué)習(xí)階段,模型就已經(jīng)開(kāi)始具備了檢查和修正自己錯(cuò)誤的能力。
為了驗(yàn)證這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了一套巧妙的測(cè)試方法。他們故意在推理鏈條中植入錯(cuò)誤,就像在學(xué)生的解題步驟中故意加入錯(cuò)誤答案一樣,然后觀察模型是否能夠識(shí)別并糾正這些錯(cuò)誤,最終得出正確答案。這種測(cè)試方法包含兩種情況:一種是讓模型檢查"別人"的錯(cuò)誤推理(情境反思),另一種是讓模型檢查自己之前產(chǎn)生的錯(cuò)誤推理(自我反思)。
研究結(jié)果令人震撼。以O(shè)LMo-2-7B模型為例,當(dāng)它接受了4萬(wàn)億個(gè)詞匯的預(yù)訓(xùn)練后,在六個(gè)不同的反思任務(wù)中都表現(xiàn)出了明顯的自我糾錯(cuò)能力。更重要的是,隨著預(yù)訓(xùn)練計(jì)算量的增加,模型的反思能力也在穩(wěn)步提升,就像一個(gè)孩子閱讀越多,判斷力就越強(qiáng)一樣。
一、預(yù)訓(xùn)練階段的意外發(fā)現(xiàn):反思能力的早期萌芽
Essential AI的研究團(tuán)隊(duì)首先需要解決一個(gè)根本性問(wèn)題:如何準(zhǔn)確測(cè)量和評(píng)估模型的"反思"能力?這個(gè)問(wèn)題就像試圖測(cè)量一個(gè)人的"智慧"一樣復(fù)雜。傳統(tǒng)的推理數(shù)據(jù)集在這方面存在明顯不足,因?yàn)榉此夹袨樵谶@些任務(wù)中往往很稀少,而且每個(gè)模型展現(xiàn)反思的方式都不相同。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)創(chuàng)造性地區(qū)分了兩種不同類(lèi)型的反思能力。情境反思類(lèi)似于一個(gè)學(xué)生檢查別人作業(yè)的能力,模型需要審查由其他來(lái)源(比如其他先進(jìn)模型)創(chuàng)建的推理鏈條。自我反思則更像是學(xué)生檢查自己作業(yè)的能力,模型需要反思自己的推理過(guò)程。
更進(jìn)一步,研究團(tuán)隊(duì)還區(qū)分了反思的兩種表現(xiàn)形式。顯式反思是指模型明確地用語(yǔ)言表達(dá)出對(duì)錯(cuò)誤的識(shí)別和糾正,就像學(xué)生在作業(yè)上寫(xiě)下"等等,這里算錯(cuò)了,應(yīng)該是..."這樣的話(huà)。隱式反思則是指模型能夠在有誤導(dǎo)性信息的情況下仍然得出正確答案,雖然沒(méi)有明確指出錯(cuò)誤,但行為上體現(xiàn)了某種形式的"內(nèi)在糾錯(cuò)"。
為了系統(tǒng)地評(píng)估這些能力,研究團(tuán)隊(duì)開(kāi)發(fā)了一套完整的測(cè)試框架。他們從現(xiàn)有的推理數(shù)據(jù)集出發(fā),通過(guò)算法自動(dòng)生成包含錯(cuò)誤的"對(duì)抗性推理鏈條"。這個(gè)過(guò)程就像是在標(biāo)準(zhǔn)考試題的解題步驟中故意插入錯(cuò)誤,然后看學(xué)生能否識(shí)別并繞過(guò)這些陷阱得到正確答案。
研究團(tuán)隊(duì)選擇了六個(gè)不同領(lǐng)域的數(shù)據(jù)集來(lái)構(gòu)建這套測(cè)試體系。數(shù)學(xué)推理方面,他們使用了GSM8K和GSM8K-Platinum數(shù)據(jù)集,這些包含了大量小學(xué)到中學(xué)水平的數(shù)學(xué)應(yīng)用題。代碼推理和理解方面,使用了CruxEval數(shù)據(jù)集,包含了需要預(yù)測(cè)代碼輸入輸出的編程題。知識(shí)獲取和閱讀理解使用了TriviaQA數(shù)據(jù)集,包含了大量常識(shí)問(wèn)題。語(yǔ)言、邏輯和數(shù)學(xué)綜合推理則使用了BIG-Bench Hard數(shù)據(jù)集,這是一個(gè)包含27個(gè)不同推理子任務(wù)的綜合測(cè)試集。
在創(chuàng)建對(duì)抗性推理鏈條時(shí),研究團(tuán)隊(duì)采用了精心設(shè)計(jì)的策略。對(duì)于情境反思測(cè)試,他們使用先進(jìn)的模型(如DeepSeek-V3和GPT-4o)來(lái)生成包含錯(cuò)誤的推理過(guò)程。這些錯(cuò)誤不是隨機(jī)的,而是模仿人類(lèi)常犯的推理錯(cuò)誤,比如算術(shù)計(jì)算錯(cuò)誤、邏輯跳躍、多余步驟或遺漏關(guān)鍵步驟等。
對(duì)于自我反思測(cè)試,研究團(tuán)隊(duì)采用了更直接的方法:他們讓待測(cè)試的模型先解答原始問(wèn)題,收集那些產(chǎn)生錯(cuò)誤答案的案例,然后將這些錯(cuò)誤的推理過(guò)程作為對(duì)抗性上下文,再次測(cè)試模型是否能夠糾正自己之前的錯(cuò)誤。
為了觸發(fā)模型的反思行為,研究團(tuán)隊(duì)在對(duì)抗性推理鏈條后添加了簡(jiǎn)單的觸發(fā)詞,最常用的是"Wait,"(等等)。這個(gè)詞就像是給模型一個(gè)暫停思考的信號(hào),提示它重新審視前面的推理過(guò)程。
通過(guò)這套測(cè)試框架,研究團(tuán)隊(duì)對(duì)OLMo-2模型家族的多個(gè)預(yù)訓(xùn)練檢查點(diǎn)進(jìn)行了系統(tǒng)評(píng)估。OLMo-2是一個(gè)完全開(kāi)源的大語(yǔ)言模型項(xiàng)目,提供了7B、13B和32B三種不同參數(shù)規(guī)模的版本,以及它們?cè)诓煌?xùn)練階段的檢查點(diǎn)。這樣的設(shè)計(jì)讓研究團(tuán)隊(duì)能夠追蹤反思能力在預(yù)訓(xùn)練過(guò)程中的發(fā)展軌跡。
結(jié)果顯示,即使是相對(duì)較小的模型在較早的預(yù)訓(xùn)練階段就開(kāi)始展現(xiàn)反思能力。例如,一個(gè)只訓(xùn)練了198億個(gè)詞匯的OLMo-2-7B模型就能夠在數(shù)學(xué)、代碼、語(yǔ)言和邏輯推理等多個(gè)領(lǐng)域展現(xiàn)反思行為。更令人驚訝的是,在240個(gè)數(shù)據(jù)集-檢查點(diǎn)組合中,有231個(gè)組合展現(xiàn)了至少一次情境反思實(shí)例,154個(gè)組合展現(xiàn)了至少一次自我反思實(shí)例。
隨著預(yù)訓(xùn)練的進(jìn)行,模型的反思能力呈現(xiàn)出清晰的改善趨勢(shì)。研究團(tuán)隊(duì)計(jì)算了模型準(zhǔn)確率與預(yù)訓(xùn)練計(jì)算量對(duì)數(shù)值之間的皮爾遜相關(guān)系數(shù),發(fā)現(xiàn)平均相關(guān)系數(shù)達(dá)到了0.76,這表明隨著訓(xùn)練的深入,模型確實(shí)在變得更"聰明",更善于反思和糾錯(cuò)。
二、反思能力的具體表現(xiàn):從數(shù)學(xué)到編程的全面能力
為了更深入地理解模型的反思能力,研究團(tuán)隊(duì)詳細(xì)分析了模型在不同領(lǐng)域的具體表現(xiàn)。這種分析就像是觀察一個(gè)學(xué)生在各門(mén)課程中展現(xiàn)的不同思維能力一樣。
在數(shù)學(xué)推理領(lǐng)域,模型展現(xiàn)出了令人印象深刻的錯(cuò)誤識(shí)別和糾正能力。研究團(tuán)隊(duì)使用GSM8K和GSM8K-Platinum這兩個(gè)數(shù)學(xué)應(yīng)用題數(shù)據(jù)集進(jìn)行測(cè)試。當(dāng)面對(duì)包含算術(shù)錯(cuò)誤的推理鏈條時(shí),模型能夠識(shí)別出諸如"42.6不是整數(shù)"這樣的錯(cuò)誤,然后重新計(jì)算得出正確答案。例如,一個(gè)7B參數(shù)的模型在看到錯(cuò)誤的推理過(guò)程后,會(huì)說(shuō)"等等,42.6不是整數(shù),讓我們重新一步步解決這個(gè)問(wèn)題...",然后給出正確的解題步驟。
更有趣的是,隨著預(yù)訓(xùn)練的進(jìn)行,模型越來(lái)越傾向于使用顯式反思來(lái)解決問(wèn)題。在GSM8K-Platinum數(shù)據(jù)集上,研究團(tuán)隊(duì)發(fā)現(xiàn)更大規(guī)模的模型和經(jīng)過(guò)更多訓(xùn)練的模型更愿意明確指出錯(cuò)誤并解釋糾正過(guò)程,而不是僅僅"默默地"得出正確答案。這種變化表明模型不僅在變得更準(zhǔn)確,還在變得更"善于表達(dá)"自己的思考過(guò)程。
在編程和代碼理解方面,模型同樣展現(xiàn)了強(qiáng)大的反思能力。使用CruxEval數(shù)據(jù)集的測(cè)試顯示,模型能夠分析代碼執(zhí)行過(guò)程,識(shí)別邏輯錯(cuò)誤,并給出正確的輸入輸出預(yù)測(cè)。例如,當(dāng)面對(duì)一個(gè)包含錯(cuò)誤分析的代碼解釋時(shí),一個(gè)32B參數(shù)的模型會(huì)說(shuō)"等等,這個(gè)函數(shù)不正確,因?yàn)樗鼞?yīng)該移除最后一個(gè)字符...",然后提供正確的分析。
值得注意的是,在代碼任務(wù)中,研究團(tuán)隊(duì)觀察到了一個(gè)有趣的現(xiàn)象:自我反思能力的發(fā)展略早于自我糾正能力。換句話(huà)說(shuō),模型首先學(xué)會(huì)了識(shí)別自己代碼分析中的錯(cuò)誤,然后才學(xué)會(huì)如何糾正這些錯(cuò)誤。這種發(fā)展模式類(lèi)似于人類(lèi)學(xué)習(xí)編程的過(guò)程,往往是先學(xué)會(huì)發(fā)現(xiàn)bug,然后才學(xué)會(huì)修復(fù)它們。
在知識(shí)獲取和閱讀理解任務(wù)中,模型的反思能力有著不同的表現(xiàn)特點(diǎn)。使用TriviaQA數(shù)據(jù)集的測(cè)試顯示,模型能夠識(shí)別出提供的參考信息與問(wèn)題不匹配的情況。例如,當(dāng)被問(wèn)及某個(gè)歷史人物的相關(guān)信息,但提供的參考材料是關(guān)于另一個(gè)人物時(shí),模型能夠說(shuō)"等等,什么?我以為是路易斯安那?"并嘗試基于正確的知識(shí)給出答案。
在這類(lèi)任務(wù)中,隱式反思的表現(xiàn)尤為突出。許多情況下,模型雖然沒(méi)有明確指出參考信息的錯(cuò)誤,但仍然能夠依靠?jī)?nèi)在知識(shí)給出正確答案。這種能力反映了模型在訓(xùn)練過(guò)程中積累的廣泛知識(shí)基礎(chǔ),以及對(duì)不同信息源可靠性的某種"直覺(jué)"判斷。
在綜合推理任務(wù)(BIG-Bench Hard)中,模型展現(xiàn)了跨領(lǐng)域的反思能力。這個(gè)數(shù)據(jù)集包含了物體移動(dòng)、詞匯排序、幾何圖形描述和導(dǎo)航等27個(gè)不同的推理子任務(wù)。測(cè)試結(jié)果顯示,模型能夠在各種不同類(lèi)型的推理任務(wù)中都表現(xiàn)出反思行為。例如,在一個(gè)計(jì)數(shù)任務(wù)中,模型最初遺漏了某個(gè)物品,然后說(shuō)"等等,我忘記了牛!所以答案是8。"
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)重要規(guī)律:不同類(lèi)型的任務(wù)中,顯式反思和隱式反思的比例有所不同。在需要精確計(jì)算的數(shù)學(xué)任務(wù)中,顯式反思更為常見(jiàn),因?yàn)殄e(cuò)誤往往有明確的表現(xiàn)形式。而在知識(shí)類(lèi)任務(wù)中,隱式反思更為普遍,因?yàn)槟P屯軌?直覺(jué)性地"判斷信息的正確性,而無(wú)需詳細(xì)解釋推理過(guò)程。
三、觸發(fā)詞的神奇作用:簡(jiǎn)單的"等等"釋放強(qiáng)大潛力
研究團(tuán)隊(duì)在實(shí)驗(yàn)中發(fā)現(xiàn)了一個(gè)既簡(jiǎn)單又深刻的現(xiàn)象:僅僅一個(gè)"Wait,"(等等)這樣的觸發(fā)詞,就能顯著提升模型的反思和糾錯(cuò)能力。這個(gè)發(fā)現(xiàn)就像是發(fā)現(xiàn)了打開(kāi)模型內(nèi)在智慧的一把鑰匙。
為了深入理解觸發(fā)詞的作用機(jī)制,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)對(duì)比實(shí)驗(yàn)。他們?cè)谕粋€(gè)數(shù)學(xué)推理任務(wù)(GSM8K-Platinum)上測(cè)試了三種不同的提示方式:完全沒(méi)有觸發(fā)詞的情況(A組)、使用簡(jiǎn)單的"Wait,"觸發(fā)詞的情況(標(biāo)準(zhǔn)設(shè)置)、以及使用明確承認(rèn)錯(cuò)誤的觸發(fā)詞"Wait, I made a mistake"的情況(B組)。
實(shí)驗(yàn)結(jié)果揭示了觸發(fā)詞作用的精妙機(jī)制。A組代表了模型在沒(méi)有任何提示下的"原始"反思能力,B組代表了在明確告知存在錯(cuò)誤時(shí)的"最大"反思能力,而標(biāo)準(zhǔn)的"Wait,"設(shè)置則介于兩者之間,其效果取決于模型自身的反思傾向。
更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)標(biāo)準(zhǔn)設(shè)置下的模型表現(xiàn)可以用一個(gè)簡(jiǎn)單的數(shù)學(xué)公式來(lái)描述:Wait設(shè)置的準(zhǔn)確率 = 顯式反思率 × B組準(zhǔn)確率 + (1 - 顯式反思率) × A組隱式反思準(zhǔn)確率。這意味著當(dāng)模型選擇進(jìn)行顯式反思時(shí),它的表現(xiàn)接近于被明確告知錯(cuò)誤存在的情況;而當(dāng)它沒(méi)有進(jìn)行顯式反思時(shí),表現(xiàn)則類(lèi)似于完全沒(méi)有提示的情況。
這個(gè)發(fā)現(xiàn)的意義在于揭示了模型內(nèi)在的"反思開(kāi)關(guān)"機(jī)制。"Wait,"這個(gè)觸發(fā)詞并不是強(qiáng)制模型進(jìn)行反思,而是給了模型一個(gè)"暫停思考"的機(jī)會(huì),讓它自己決定是否需要重新審視前面的推理過(guò)程。隨著預(yù)訓(xùn)練的進(jìn)行,模型越來(lái)越頻繁地選擇在這個(gè)暫停點(diǎn)進(jìn)行反思,這表明它們正在發(fā)展出更強(qiáng)的元認(rèn)知能力。
研究團(tuán)隊(duì)還測(cè)試了其他類(lèi)型的觸發(fā)詞和提示策略。結(jié)果顯示,雖然不同的觸發(fā)詞在效果上有細(xì)微差別,但"Wait,"因其簡(jiǎn)潔性和有效性成為了最實(shí)用的選擇。這個(gè)詞在人類(lèi)交流中通常表示需要重新考慮或修正之前的說(shuō)法,模型似乎從訓(xùn)練數(shù)據(jù)中學(xué)會(huì)了這種用法的含義。
有趣的是,即使沒(méi)有任何觸發(fā)詞,模型仍然表現(xiàn)出一定程度的反思能力,這進(jìn)一步證實(shí)了反思能力確實(shí)是在預(yù)訓(xùn)練過(guò)程中自然涌現(xiàn)的,而不是完全依賴(lài)于特定的提示技巧。觸發(fā)詞的作用更像是"激活"或"放大"了模型已有的潛在能力,而不是創(chuàng)造了全新的能力。
這個(gè)發(fā)現(xiàn)對(duì)于理解大語(yǔ)言模型的工作機(jī)制具有重要意義。它表明模型在訓(xùn)練過(guò)程中不僅學(xué)會(huì)了知識(shí)和推理技能,還學(xué)會(huì)了某種形式的"自我監(jiān)控"能力。當(dāng)模型遇到可能有問(wèn)題的推理時(shí),它能夠暫停并重新評(píng)估,這種能力與人類(lèi)的metacognition(元認(rèn)知)能力有著驚人的相似性。
四、自我反思的挑戰(zhàn)與進(jìn)步:模型學(xué)會(huì)檢查自己的錯(cuò)誤
相比于檢查別人的推理錯(cuò)誤,讓模型檢查和糾正自己的錯(cuò)誤要困難得多。這就像讓一個(gè)學(xué)生檢查自己的作業(yè)比檢查同學(xué)的作業(yè)更難一樣,因?yàn)槿藗兺鶎?duì)自己的錯(cuò)誤有"盲點(diǎn)"。
在自我反思測(cè)試中,研究團(tuán)隊(duì)采用了一種巧妙的實(shí)驗(yàn)設(shè)計(jì)。他們首先讓模型解答原始問(wèn)題,收集那些產(chǎn)生錯(cuò)誤答案的案例,然后將模型自己的錯(cuò)誤推理過(guò)程作為"對(duì)抗性上下文",再次測(cè)試模型能否糾正自己之前的錯(cuò)誤。這個(gè)過(guò)程就像是讓學(xué)生重新審視自己之前做錯(cuò)的題目。
初看起來(lái),自我反思的成功率確實(shí)比情境反思要低。在240個(gè)測(cè)試案例中,只有約64.2%的情況下模型展現(xiàn)出了某種形式的自我糾正能力。這個(gè)結(jié)果并不令人意外,因?yàn)榘凑赵O(shè)計(jì),這些都是模型之前就答錯(cuò)的"特別困難"的題目。
然而,當(dāng)研究團(tuán)隊(duì)將注意力從"最終是否答對(duì)"轉(zhuǎn)向"是否展現(xiàn)反思行為"時(shí),發(fā)現(xiàn)了一個(gè)重要現(xiàn)象:模型在自我反思方面的進(jìn)步主要體現(xiàn)在顯式反思率的提升上。換句話(huà)說(shuō),隨著預(yù)訓(xùn)練的進(jìn)行,模型越來(lái)越善于識(shí)別并明確指出自己推理中的問(wèn)題,即使最終可能仍然沒(méi)有完全解決這些問(wèn)題。
這種現(xiàn)象在編程任務(wù)(CruxEval)中表現(xiàn)得尤為明顯。研究團(tuán)隊(duì)觀察到,模型首先學(xué)會(huì)了識(shí)別自己代碼分析中的錯(cuò)誤(顯式反思能力提升),然后才逐漸學(xué)會(huì)如何糾正這些錯(cuò)誤(自我糾正能力提升)。這種發(fā)展順序反映了學(xué)習(xí)的自然進(jìn)程:先有問(wèn)題意識(shí),后有解決能力。
在數(shù)學(xué)推理任務(wù)中,自我反思展現(xiàn)出了不同的特點(diǎn)。由于數(shù)學(xué)問(wèn)題往往有明確的對(duì)錯(cuò)標(biāo)準(zhǔn),模型在識(shí)別自己的算術(shù)錯(cuò)誤方面表現(xiàn)相對(duì)較好。例如,一個(gè)模型在重新審視自己的計(jì)算過(guò)程時(shí)會(huì)說(shuō)"等等,120不是100的倍數(shù),讓我們檢查一下我們的工作",然后嘗試重新計(jì)算。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:自我反思能力的發(fā)展呈現(xiàn)出明顯的"階梯式"特征。在訓(xùn)練的早期階段,模型幾乎沒(méi)有自我反思能力;達(dá)到某個(gè)臨界點(diǎn)后,這種能力開(kāi)始快速提升;隨后又進(jìn)入一個(gè)相對(duì)平穩(wěn)的發(fā)展期。這種模式類(lèi)似于人類(lèi)認(rèn)知發(fā)展中的"頓悟"現(xiàn)象,暗示著反思能力可能涉及某種質(zhì)的飛躍,而不僅僅是量的積累。
令人鼓舞的是,即使在模型最初訓(xùn)練時(shí)接觸的是"有機(jī)網(wǎng)絡(luò)數(shù)據(jù)"(也就是互聯(lián)網(wǎng)上自然產(chǎn)生的文本),它們?nèi)匀荒軌虬l(fā)展出顯式的自我反思能力。這說(shuō)明反思能力的萌芽并不依賴(lài)于特別設(shè)計(jì)的訓(xùn)練數(shù)據(jù),而是在接觸大量人類(lèi)書(shū)面表達(dá)的過(guò)程中自然涌現(xiàn)的。
研究團(tuán)隊(duì)推測(cè),存在某種"預(yù)訓(xùn)練自我反思的臨界閾值",超過(guò)這個(gè)閾值后,模型就有很高的概率發(fā)展成為具有測(cè)試時(shí)推理能力的系統(tǒng)。雖然確定這個(gè)閾值的具體數(shù)值還需要更多研究,但這個(gè)發(fā)現(xiàn)為理解和預(yù)測(cè)模型能力的發(fā)展提供了重要線(xiàn)索。
五、計(jì)算資源的權(quán)衡:訓(xùn)練時(shí)間與推理時(shí)間的巧妙平衡
Essential AI的研究團(tuán)隊(duì)還探索了一個(gè)對(duì)實(shí)際應(yīng)用極其重要的問(wèn)題:訓(xùn)練時(shí)投入更多計(jì)算資源與推理時(shí)使用更多計(jì)算資源之間的權(quán)衡關(guān)系。這個(gè)問(wèn)題就像是在考慮是花更多時(shí)間充分準(zhǔn)備考試,還是在考試時(shí)花更多時(shí)間仔細(xì)思考每道題。
為了量化這種權(quán)衡關(guān)系,研究團(tuán)隊(duì)建立了一套計(jì)算成本評(píng)估體系。訓(xùn)練時(shí)的計(jì)算成本用公式6nt來(lái)表示,其中n是參數(shù)數(shù)量,t是訓(xùn)練詞匯數(shù)量,系數(shù)6代表訓(xùn)練時(shí)每個(gè)參數(shù)每個(gè)詞匯需要的標(biāo)準(zhǔn)計(jì)算量(包括前向和反向傳播)。推理時(shí)的計(jì)算成本則用2nw來(lái)表示,其中w是生成的詞匯數(shù)量,系數(shù)2代表推理時(shí)只需要前向傳播的計(jì)算量。
研究團(tuán)隊(duì)選擇了GSM8K-Platinum數(shù)據(jù)集作為測(cè)試平臺(tái),設(shè)定了不同的目標(biāo)正確答案數(shù)量,然后繪制了達(dá)到這些目標(biāo)所需的訓(xùn)練時(shí)計(jì)算量和推理時(shí)計(jì)算量之間的關(guān)系曲線(xiàn)。結(jié)果顯示出了一個(gè)令人振奮的趨勢(shì):隨著訓(xùn)練時(shí)計(jì)算投入的增加,達(dá)到相同準(zhǔn)確率所需的推理時(shí)計(jì)算量顯著減少。
具體來(lái)說(shuō),研究團(tuán)隊(duì)采用了"序貫測(cè)試時(shí)擴(kuò)展"的方法,即通過(guò)增加"Wait,"觸發(fā)詞的數(shù)量來(lái)模擬推理時(shí)計(jì)算的增加。對(duì)于訓(xùn)練不充分的模型,可能需要多個(gè)"Wait,"觸發(fā)詞才能激發(fā)足夠的反思行為來(lái)解決問(wèn)題。而對(duì)于訓(xùn)練充分的模型,往往一個(gè)簡(jiǎn)單的觸發(fā)詞就足夠了。
這種權(quán)衡關(guān)系的發(fā)現(xiàn)具有重要的實(shí)際意義。在資源有限的情況下,研究團(tuán)隊(duì)的結(jié)果表明,將更多計(jì)算資源投入到預(yù)訓(xùn)練階段通常比在推理階段使用復(fù)雜的提示策略更加高效。這就像是"磨刀不誤砍柴工"的道理——充分的預(yù)訓(xùn)練讓模型在實(shí)際應(yīng)用時(shí)能夠更快更準(zhǔn)確地完成任務(wù)。
為了驗(yàn)證這個(gè)發(fā)現(xiàn)的普遍性,研究團(tuán)隊(duì)還在Qwen2.5模型家族上進(jìn)行了類(lèi)似的測(cè)試。Qwen2.5包含從0.5B到72B參數(shù)的多個(gè)版本,代表了不同的計(jì)算投入水平。測(cè)試結(jié)果與OLMo-2的發(fā)現(xiàn)高度一致:參數(shù)更多、訓(xùn)練更充分的模型在反思任務(wù)上表現(xiàn)更好,需要的推理時(shí)計(jì)算資源更少。
這個(gè)發(fā)現(xiàn)對(duì)于AI系統(tǒng)的部署策略具有重要指導(dǎo)意義。對(duì)于需要大量推理的應(yīng)用場(chǎng)景,投資于更強(qiáng)大的預(yù)訓(xùn)練模型可能比依賴(lài)復(fù)雜的推理時(shí)技巧更加經(jīng)濟(jì)實(shí)用。同時(shí),這也為AI硬件的發(fā)展方向提供了啟示:與其過(guò)分關(guān)注推理時(shí)的計(jì)算優(yōu)化,不如更多地關(guān)注如何高效地進(jìn)行大規(guī)模預(yù)訓(xùn)練。
六、模型對(duì)正確答案的內(nèi)在偏好:超越表面的深層理解
為了更深入地理解模型的反思機(jī)制,研究團(tuán)隊(duì)還進(jìn)行了一項(xiàng)精妙的實(shí)驗(yàn):測(cè)試模型是否對(duì)正確答案有內(nèi)在的偏好,即使在被誤導(dǎo)性推理包圍時(shí)也是如此。這個(gè)實(shí)驗(yàn)就像是測(cè)試一個(gè)人是否有內(nèi)在的道德直覺(jué),即使在不良環(huán)境中也能堅(jiān)持正確的判斷。
實(shí)驗(yàn)的設(shè)計(jì)很巧妙。研究團(tuán)隊(duì)讓模型面對(duì)同樣的問(wèn)題和同樣的錯(cuò)誤推理過(guò)程,但在結(jié)尾處分別給出正確答案和錯(cuò)誤答案,然后比較模型對(duì)這兩種情況的"困惑度"(perplexity)。困惑度是衡量模型對(duì)文本預(yù)期程度的指標(biāo),困惑度越低表示模型認(rèn)為這種文本越"合理"或"自然"。
如果模型僅僅是在機(jī)械地延續(xù)前面的錯(cuò)誤推理,那么它應(yīng)該對(duì)錯(cuò)誤答案的困惑度更低(認(rèn)為錯(cuò)誤答案更合理)。但實(shí)驗(yàn)結(jié)果顯示了一個(gè)有趣的現(xiàn)象:在大多數(shù)情況下,模型確實(shí)對(duì)錯(cuò)誤答案的困惑度更低,表現(xiàn)出了某種"局部一致性偏好"——它們傾向于保持與前面推理的一致性,即使這種推理是錯(cuò)誤的。
然而,隨著預(yù)訓(xùn)練的進(jìn)行,這種偏差在逐漸縮小。更大的模型和訓(xùn)練更充分的模型在正確答案和錯(cuò)誤答案之間的困惑度差異越來(lái)越小,有些甚至開(kāi)始顯示出對(duì)正確答案的輕微偏好。這種變化表明,模型正在發(fā)展出超越表面邏輯一致性的更深層判斷能力。
最有趣的是,一些32B參數(shù)的大型模型檢查點(diǎn)顯示出了幾乎為零的困惑度差異,這意味著它們?cè)谀撤N程度上已經(jīng)能夠"看穿"誤導(dǎo)性推理的表象,對(duì)正確性本身產(chǎn)生了某種直覺(jué)判斷。雖然這種差異仍然非常微弱,但它暗示著更大規(guī)模的模型可能正在發(fā)展出更接近人類(lèi)的價(jià)值判斷能力。
這個(gè)發(fā)現(xiàn)解釋了為什么"Wait,"這樣的觸發(fā)詞如此有效。即使模型在表面上似乎被錯(cuò)誤推理"帶偏",它的內(nèi)在表征仍然保留著對(duì)正確性的某種感知。觸發(fā)詞的作用就是給模型一個(gè)機(jī)會(huì)來(lái)訪問(wèn)和表達(dá)這種內(nèi)在的判斷,克服表面邏輯的誤導(dǎo)。
這種現(xiàn)象也為理解模型的"價(jià)值對(duì)齊"問(wèn)題提供了新的視角。它表明模型在訓(xùn)練過(guò)程中不僅學(xué)會(huì)了知識(shí)和技能,還學(xué)會(huì)了某種形式的"價(jià)值判斷"——對(duì)真實(shí)性、正確性和邏輯一致性的偏好。雖然這種偏好在早期訓(xùn)練階段可能很微弱,但隨著訓(xùn)練的深入會(huì)變得越來(lái)越明顯。
七、跨模型家族的一致發(fā)現(xiàn):反思能力的普遍性
為了驗(yàn)證研究發(fā)現(xiàn)的普遍性,Essential AI的研究團(tuán)隊(duì)還在另一個(gè)重要的模型家族Qwen2.5上進(jìn)行了測(cè)試。Qwen2.5是由阿里巴巴旗下的通義千問(wèn)團(tuán)隊(duì)開(kāi)發(fā)的開(kāi)源大語(yǔ)言模型,提供了從0.5B到72B參數(shù)的完整系列。
在Qwen2.5上的測(cè)試結(jié)果與OLMo-2高度一致,這進(jìn)一步證實(shí)了反思能力涌現(xiàn)的普遍性。無(wú)論是0.5B參數(shù)的小型模型還是72B參數(shù)的大型模型,都在不同程度上展現(xiàn)出了反思能力。更重要的是,模型規(guī)模與反思能力之間的正相關(guān)關(guān)系在Qwen2.5上也得到了驗(yàn)證。
這種跨模型家族的一致性表明,反思能力的涌現(xiàn)并不是特定模型架構(gòu)或訓(xùn)練方法的產(chǎn)物,而是大語(yǔ)言模型在達(dá)到一定規(guī)模和訓(xùn)練程度后的普遍現(xiàn)象。這個(gè)發(fā)現(xiàn)具有重要的理論意義,它暗示著反思能力可能是智能系統(tǒng)發(fā)展到一定階段后的必然產(chǎn)物。
在Qwen2.5的測(cè)試中,研究團(tuán)隊(duì)還觀察到了一些有趣的細(xì)節(jié)差異。例如,在某些特定類(lèi)型的推理任務(wù)上,Qwen2.5表現(xiàn)出了與OLMo-2略有不同的反思模式。這些差異可能反映了不同訓(xùn)練數(shù)據(jù)和訓(xùn)練策略對(duì)模型反思風(fēng)格的影響,為未來(lái)的模型改進(jìn)提供了有價(jià)值的線(xiàn)索。
特別值得注意的是,即使是參數(shù)相對(duì)較少的Qwen2.5-3B模型也展現(xiàn)出了明顯的反思能力,這表明反思能力的涌現(xiàn)可能比之前預(yù)期的門(mén)檻更低。這個(gè)發(fā)現(xiàn)對(duì)于資源受限環(huán)境下的AI應(yīng)用具有重要意義,它表明即使是中等規(guī)模的模型也可能具備一定的自我糾錯(cuò)能力。
八、實(shí)際應(yīng)用中的反思表現(xiàn):從理論到實(shí)踐
為了展示模型反思能力的實(shí)際表現(xiàn),研究團(tuán)隊(duì)收集了大量具體的反思實(shí)例,這些例子生動(dòng)地展示了模型如何在實(shí)際任務(wù)中進(jìn)行自我糾錯(cuò)。
在數(shù)學(xué)推理方面,模型展現(xiàn)出了令人印象深刻的錯(cuò)誤識(shí)別能力。例如,當(dāng)面對(duì)一個(gè)關(guān)于汽車(chē)修理費(fèi)用的問(wèn)題時(shí),模型最初給出了不完整的答案,只計(jì)算了零件費(fèi)用而忘記了人工費(fèi)。但在"Wait,"的提示下,模型立即意識(shí)到了問(wèn)題:"80不是答案。我做錯(cuò)了什么?我忘記了包括機(jī)械師的費(fèi)用。所以讓我們加上這個(gè)。機(jī)械師收費(fèi)150。所以總費(fèi)用是80+150=230美元。"
在編程任務(wù)中,模型的反思能力表現(xiàn)得同樣出色。當(dāng)分析一個(gè)Python函數(shù)的行為時(shí),模型能夠識(shí)別出自己初始分析中的邏輯錯(cuò)誤,然后說(shuō):"等等,我想我搞錯(cuò)了...函數(shù)的返回值應(yīng)該是['gsd', 'avdropj']。"這種能力對(duì)于代碼調(diào)試和程序理解具有重要的實(shí)用價(jià)值。
在知識(shí)問(wèn)答方面,模型展現(xiàn)出了對(duì)信息沖突的敏感性。當(dāng)被問(wèn)及某個(gè)事實(shí)性問(wèn)題時(shí),如果提供的參考信息與模型的內(nèi)在知識(shí)沖突,它會(huì)表達(dá)困惑:"等等,什么?我以為是路易斯安那?"然后嘗試基于正確的知識(shí)給出答案。
特別有趣的是,模型的反思不僅限于錯(cuò)誤糾正,還包括了對(duì)推理過(guò)程的優(yōu)化。例如,在解決復(fù)雜的數(shù)學(xué)問(wèn)題時(shí),模型有時(shí)會(huì)重新組織解題步驟,選擇更簡(jiǎn)潔或更清晰的方法,即使原始方法在技術(shù)上是正確的。
這些實(shí)例表明,模型的反思能力已經(jīng)達(dá)到了實(shí)用的水平。雖然還不能與人類(lèi)專(zhuān)家的反思能力相提并論,但對(duì)于許多日常任務(wù)來(lái)說(shuō),這種程度的自我糾錯(cuò)能力已經(jīng)足夠有用。更重要的是,這種能力會(huì)隨著模型規(guī)模和訓(xùn)練程度的提升而持續(xù)改善。
研究團(tuán)隊(duì)還注意到,不同領(lǐng)域的反思表現(xiàn)出了不同的特點(diǎn)。在需要精確計(jì)算的任務(wù)中,反思往往更加具體和直接;在需要常識(shí)推理的任務(wù)中,反思則更多地表現(xiàn)為對(duì)整體邏輯的重新評(píng)估。這種領(lǐng)域特異性為未來(lái)針對(duì)特定應(yīng)用場(chǎng)景優(yōu)化模型反思能力提供了方向。
說(shuō)到底,Essential AI的這項(xiàng)研究徹底改變了我們對(duì)大語(yǔ)言模型能力發(fā)展的理解。長(zhǎng)期以來(lái),人們認(rèn)為像"反思"這樣的高級(jí)認(rèn)知能力必須通過(guò)復(fù)雜的后訓(xùn)練過(guò)程才能獲得,就像認(rèn)為一個(gè)人必須經(jīng)過(guò)專(zhuān)門(mén)的邏輯訓(xùn)練才能學(xué)會(huì)批判性思維一樣。
然而,這項(xiàng)研究用令人信服的證據(jù)表明,反思能力實(shí)際上在模型的"童年期"——也就是預(yù)訓(xùn)練階段——就開(kāi)始萌芽了。通過(guò)對(duì)六個(gè)不同領(lǐng)域、240個(gè)模型檢查點(diǎn)的系統(tǒng)測(cè)試,研究團(tuán)隊(duì)發(fā)現(xiàn)即使是相對(duì)簡(jiǎn)單的觸發(fā)詞"Wait,"也能激發(fā)出模型驚人的自我糾錯(cuò)能力。
這個(gè)發(fā)現(xiàn)的意義遠(yuǎn)超學(xué)術(shù)范疇。它意味著我們可能不需要等待復(fù)雜的強(qiáng)化學(xué)習(xí)訓(xùn)練就能獲得具有基本反思能力的AI系統(tǒng)。對(duì)于資源受限的應(yīng)用場(chǎng)景,這種"免費(fèi)"獲得的反思能力具有巨大的實(shí)用價(jià)值。同時(shí),它也為我們理解智能的本質(zhì)提供了新的視角:也許反思和自我意識(shí)并不是智能的終極表現(xiàn),而是在足夠的學(xué)習(xí)和接觸后自然涌現(xiàn)的基礎(chǔ)能力。
更令人興奮的是,研究顯示這種反思能力會(huì)隨著訓(xùn)練的深入而持續(xù)改善,平均相關(guān)系數(shù)達(dá)到0.76的強(qiáng)烈關(guān)聯(lián)表明,投入更多的預(yù)訓(xùn)練計(jì)算資源能夠直接換來(lái)更強(qiáng)的反思能力。這為AI系統(tǒng)的發(fā)展路徑指明了一個(gè)清晰的方向:通過(guò)規(guī)?;念A(yù)訓(xùn)練,我們可能會(huì)看到更加"聰明"和"自省"的AI系統(tǒng)的出現(xiàn)。
當(dāng)然,目前的反思能力還相對(duì)初級(jí),就像是剛剛學(xué)會(huì)走路的孩子。但正如研究團(tuán)隊(duì)所展示的具體例子,即使是這種初級(jí)的反思能力也已經(jīng)在數(shù)學(xué)計(jì)算、代碼分析、常識(shí)推理等多個(gè)領(lǐng)域展現(xiàn)出了實(shí)用價(jià)值。隨著模型規(guī)模的進(jìn)一步擴(kuò)大和訓(xùn)練方法的不斷改進(jìn),我們有理由期待看到更加成熟和強(qiáng)大的AI反思能力的出現(xiàn)。
這項(xiàng)研究也提醒我們重新思考AI發(fā)展的資源配置策略。與其過(guò)分依賴(lài)復(fù)雜的后訓(xùn)練技術(shù),不如將更多資源投入到基礎(chǔ)的預(yù)訓(xùn)練階段。正如研究團(tuán)隊(duì)的成本分析所顯示的,充分的預(yù)訓(xùn)練不僅能帶來(lái)更強(qiáng)的基礎(chǔ)能力,還能減少實(shí)際應(yīng)用時(shí)的計(jì)算需求,這對(duì)于AI技術(shù)的普及和應(yīng)用具有重要意義。
歸根結(jié)底,Essential AI的這項(xiàng)研究為我們描繪了一個(gè)令人樂(lè)觀的未來(lái)圖景:真正智能的AI系統(tǒng)可能比我們想象的更容易實(shí)現(xiàn),而反思和自我糾錯(cuò)這些我們認(rèn)為最"人性化"的能力,可能正是智能發(fā)展過(guò)程中最自然的產(chǎn)物。有興趣深入了解這項(xiàng)研究細(xì)節(jié)的讀者,可以通過(guò)arXiv:2504.04022v1訪問(wèn)完整的研究論文,親自驗(yàn)證這些令人振奮的發(fā)現(xiàn)。
Q&A
Q1:什么是模型的"反思能力"?它和人類(lèi)的反思有什么區(qū)別? A:模型的反思能力是指AI能夠檢查自己或他人的推理過(guò)程,發(fā)現(xiàn)其中的錯(cuò)誤并加以糾正的能力。就像人類(lèi)在解題時(shí)會(huì)說(shuō)"等等,這里好像算錯(cuò)了"一樣,AI模型也能識(shí)別推理鏈條中的問(wèn)題。與人類(lèi)反思不同的是,AI的反思更多基于模式識(shí)別和統(tǒng)計(jì)規(guī)律,而不是真正的自我意識(shí),但在實(shí)際表現(xiàn)上卻驚人地相似。
Q2:為什么簡(jiǎn)單的"Wait,"就能激發(fā)模型的反思能力? A:研究發(fā)現(xiàn)"Wait,"這個(gè)詞在人類(lèi)交流中通常表示需要重新考慮或修正之前的說(shuō)法,模型從大量訓(xùn)練數(shù)據(jù)中學(xué)會(huì)了這種用法的含義。這個(gè)觸發(fā)詞相當(dāng)于給模型一個(gè)"暫停思考"的信號(hào),讓它有機(jī)會(huì)重新審視前面的推理過(guò)程。更重要的是,這種能力是模型在預(yù)訓(xùn)練中自然學(xué)會(huì)的,觸發(fā)詞只是激活了已經(jīng)存在的潛在能力。
Q3:這項(xiàng)研究對(duì)普通用戶(hù)使用AI有什么實(shí)際意義? A:這意味著即使是預(yù)訓(xùn)練階段的AI模型就已經(jīng)具備了一定的自我糾錯(cuò)能力,用戶(hù)在與AI交互時(shí)可以通過(guò)簡(jiǎn)單的提示詞(如"等等"、"重新檢查")來(lái)提高回答的準(zhǔn)確性。更重要的是,隨著模型規(guī)模的增大,這種能力會(huì)自然增強(qiáng),用戶(hù)無(wú)需等待復(fù)雜的后期訓(xùn)練就能獲得更智能的AI助手。
好文章,需要你的鼓勵(lì)
北航團(tuán)隊(duì)推出Easy Dataset框架,通過(guò)直觀的圖形界面和角色驅(qū)動(dòng)的生成方法,讓普通用戶(hù)能夠輕松將各種格式文檔轉(zhuǎn)換為高質(zhì)量的AI訓(xùn)練數(shù)據(jù)。該工具集成了智能文檔解析、混合分塊策略和個(gè)性化問(wèn)答生成功能,在金融領(lǐng)域?qū)嶒?yàn)中顯著提升了AI模型的專(zhuān)業(yè)表現(xiàn),同時(shí)保持通用能力。項(xiàng)目已開(kāi)源并獲得超過(guò)9000顆GitHub星標(biāo)。
盧森堡計(jì)算機(jī)事件響應(yīng)中心開(kāi)發(fā)的VLAI系統(tǒng),基于RoBERTa模型,能夠通過(guò)閱讀漏洞描述自動(dòng)判斷危險(xiǎn)等級(jí)。該系統(tǒng)在60萬(wàn)個(gè)真實(shí)漏洞數(shù)據(jù)上訓(xùn)練,準(zhǔn)確率達(dá)82.8%,已集成到實(shí)際安全服務(wù)中。研究采用開(kāi)源方式,為網(wǎng)絡(luò)安全專(zhuān)家提供快速漏洞風(fēng)險(xiǎn)評(píng)估工具,有效解決了官方評(píng)分發(fā)布前的安全決策難題。
中國(guó)電信研究院等機(jī)構(gòu)聯(lián)合開(kāi)發(fā)的xVerify系統(tǒng),專(zhuān)門(mén)解決復(fù)雜AI推理模型的評(píng)估難題。該系統(tǒng)能夠準(zhǔn)確判斷包含多步推理過(guò)程的AI輸出,在準(zhǔn)確率和效率方面均超越現(xiàn)有方法,為AI評(píng)估領(lǐng)域提供了重要突破。
昆侖公司Skywork AI團(tuán)隊(duì)開(kāi)發(fā)的Skywork R1V模型,成功將文本推理能力擴(kuò)展到視覺(jué)領(lǐng)域。該模型僅用380億參數(shù)就實(shí)現(xiàn)了與大型閉源模型相媲美的多模態(tài)推理性能,在MMMU測(cè)試中達(dá)到69.0分,在MathVista獲得67.5分,同時(shí)保持了優(yōu)秀的文本推理能力。研究團(tuán)隊(duì)采用高效的多模態(tài)遷移、混合優(yōu)化框架和自適應(yīng)推理鏈蒸餾三項(xiàng)核心技術(shù),成功實(shí)現(xiàn)了視覺(jué)理解與邏輯推理的完美結(jié)合,并將所有代碼和權(quán)重完全開(kāi)源。