這項(xiàng)由韓國(guó)科學(xué)技術(shù)院(KAIST)的Doohyuk Jang、Yoonjeon Kim、Chanjae Park、Hyun Ryu和Eunho Yang(同時(shí)也隸屬于AITRICS)合作完成的研究于2025年5月22日在arXiv預(yù)印本平臺(tái)發(fā)布(arXiv:2505.17225v1),題為《Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models》。
近年來(lái),大型語(yǔ)言模型(LLMs)的發(fā)展突飛猛進(jìn),特別是那些專(zhuān)為復(fù)雜推理設(shè)計(jì)的模型,如Qwen3、Claude 3.7和GPT-4o系列。這些模型被訓(xùn)練成能夠生成長(zhǎng)鏈條思考(Chain-of-Thought)過(guò)程,在解決數(shù)學(xué)問(wèn)題和邏輯謎題時(shí)展現(xiàn)出驚人的能力。然而,KAIST的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣且令人擔(dān)憂(yōu)的現(xiàn)象:這些推理模型有時(shí)會(huì)固執(zhí)地按照自己的思路走,甚至"無(wú)視"用戶(hù)明確給出的條件和指令。
想象一下,你告訴一個(gè)非常聰明的朋友解決一道數(shù)學(xué)題,并特別強(qiáng)調(diào)了一個(gè)關(guān)鍵條件,但這位朋友卻仿佛沒(méi)聽(tīng)見(jiàn)一樣,自顧自地使用常規(guī)方法解題,最終得出錯(cuò)誤答案。令人驚訝的是,這位朋友并非沒(méi)聽(tīng)懂你的話(huà),而是下意識(shí)地認(rèn)為你的特殊條件"一定是說(shuō)錯(cuò)了",并默默"糾正"了你的條件后再解題。這正是研究團(tuán)隊(duì)所發(fā)現(xiàn)的"推理剛性"(reasoning rigidity)現(xiàn)象。
研究人員通過(guò)精心設(shè)計(jì)的實(shí)驗(yàn)揭示了這一現(xiàn)象。例如,當(dāng)告訴模型"z是一個(gè)大小為4的正實(shí)數(shù)"時(shí),盡管模型完全理解了這個(gè)條件,但在推理過(guò)程中卻突然決定"z必然是復(fù)數(shù)而非實(shí)數(shù)",因?yàn)檫@更符合它習(xí)慣的解題模式。同樣,當(dāng)告訴模型"兔子是永久不育的"時(shí),它理解了這個(gè)條件,卻在推理過(guò)程中將其重新解釋為"兔子暫時(shí)不育",從而將問(wèn)題轉(zhuǎn)變?yōu)榻?jīng)典的斐波那契序列問(wèn)題。
為了系統(tǒng)研究這種現(xiàn)象,研究團(tuán)隊(duì)創(chuàng)建了ReasoningTrap評(píng)估數(shù)據(jù)集,包含ConditionedMath(修改過(guò)的數(shù)學(xué)問(wèn)題)和PuzzleTrivial(簡(jiǎn)化版經(jīng)典謎題),并分析了各種推理模型的表現(xiàn)。令人驚訝的是,即使是最先進(jìn)的推理模型也常常表現(xiàn)出這種"固執(zhí)"行為,而且研究團(tuán)隊(duì)成功將這種行為歸類(lèi)為三種主要模式:解釋過(guò)載(把簡(jiǎn)單條件復(fù)雜化)、輸入不信任(認(rèn)為條件有誤)和部分指令關(guān)注(選擇性關(guān)注條件)。
這項(xiàng)研究不僅揭示了當(dāng)前推理模型的局限性,也為未來(lái)模型開(kāi)發(fā)提供了重要啟示。正如研究人員所指出的,克服這種推理剛性是建立更值得信賴(lài)的AI系統(tǒng)的重要一步。
一、推理剛性:當(dāng)AI堅(jiān)持走自己的路
想象你正在使用一個(gè)高級(jí)計(jì)算器解決數(shù)學(xué)問(wèn)題。但這個(gè)計(jì)算器有個(gè)怪癖:當(dāng)你輸入一個(gè)"不尋常"的問(wèn)題時(shí),它會(huì)悄悄地修改你的問(wèn)題,然后解決它認(rèn)為你"真正想問(wèn)的問(wèn)題"。這就是KAIST研究團(tuán)隊(duì)發(fā)現(xiàn)的"推理剛性"現(xiàn)象。
研究人員解釋說(shuō),推理剛性與我們常聽(tīng)到的"幻覺(jué)"(hallucination,模型編造不存在的信息)和"提示敏感性"(prompt brittleness,對(duì)提示格式的輕微變化導(dǎo)致不穩(wěn)定輸出)是不同的。推理剛性是一種認(rèn)知偏見(jiàn):即便模型完全理解了給定的條件,它仍然會(huì)為了遵循熟悉的解決方案模板而覆蓋這些條件。
為了理解這種行為,讓我們來(lái)看幾個(gè)例子。在一個(gè)修改版的數(shù)學(xué)競(jìng)賽問(wèn)題(AIME)中,問(wèn)題明確要求計(jì)算"當(dāng)z是大小為4的正實(shí)數(shù)時(shí)的某個(gè)表達(dá)式的最大實(shí)部"。正常思路很簡(jiǎn)單:既然z是正實(shí)數(shù),大小為4,那么z就等于4。但是,專(zhuān)為復(fù)雜推理訓(xùn)練的模型卻表現(xiàn)出驚人的偏見(jiàn),它們推理道:"嗯,這個(gè)問(wèn)題說(shuō)z是正實(shí)數(shù),大小是4,但這肯定是個(gè)錯(cuò)誤陳述,因?yàn)槲覀冃枰紤]z是復(fù)數(shù)才能找到最大實(shí)部"。模型就這樣完全重寫(xiě)了給定條件,得出了錯(cuò)誤答案。
在另一個(gè)例子中,研究人員修改了著名的"斐波那契兔子問(wèn)題",明確表示"一對(duì)永久不育的兔子被放在一個(gè)田野里"。對(duì)于這個(gè)問(wèn)題,普通模型正確推斷出兔子數(shù)量不會(huì)增加,永遠(yuǎn)保持為1。但推理模型卻認(rèn)為"永久不育"這個(gè)條件"太簡(jiǎn)單了",一定是指"暫時(shí)不育",或者說(shuō)這個(gè)問(wèn)題一定是經(jīng)典的斐波那契序列問(wèn)題的變體,最終給出了錯(cuò)誤答案。
這種行為特別令人擔(dān)憂(yōu),因?yàn)槟P筒皇且驗(yàn)椴焕斫庵噶疃鲥e(cuò),而是因?yàn)樗^(guò)于依賴(lài)訓(xùn)練期間形成的固定推理模式,以至于在面對(duì)偏離這些模式的指令時(shí),會(huì)本能地"修正"指令,使其符合自己熟悉的思維路徑。就像一個(gè)經(jīng)驗(yàn)豐富但固執(zhí)的專(zhuān)家,他可能會(huì)因?yàn)樘嘈抛约旱慕?jīng)驗(yàn)而忽略客戶(hù)的特殊需求。
二、ReasoningTrap:一個(gè)專(zhuān)門(mén)設(shè)計(jì)來(lái)"困住"推理模型的診斷集
為了系統(tǒng)研究這種推理剛性現(xiàn)象,研究團(tuán)隊(duì)創(chuàng)建了一個(gè)名為ReasoningTrap的診斷數(shù)據(jù)集。正如名稱(chēng)所暗示的,這個(gè)數(shù)據(jù)集設(shè)計(jì)了一系列"陷阱",用于測(cè)試模型是否會(huì)被自己的固有推理模式所"困住"。
這個(gè)數(shù)據(jù)集包含兩個(gè)主要部分:ConditionedMath和PuzzleTrivial。ConditionedMath取自?xún)蓚€(gè)知名的數(shù)學(xué)問(wèn)題集——AIME(2022-2024)和MATH500(5級(jí)),并添加了特殊條件,使問(wèn)題的解法與原始問(wèn)題完全不同。這就像是給一道標(biāo)準(zhǔn)考題增加了一個(gè)特殊條件:"在這道幾何題中,請(qǐng)假設(shè)圓周率π=3"。
構(gòu)建這些問(wèn)題的過(guò)程非常精心。研究人員首先使用GPT-4o-mini為每個(gè)原始問(wèn)題生成五個(gè)變體,每個(gè)變體都添加了一個(gè)不尋常的條件。然后,使用另一個(gè)大型語(yǔ)言模型(o4-mini)驗(yàn)證這些變體是否滿(mǎn)足三個(gè)關(guān)鍵標(biāo)準(zhǔn):(1)數(shù)學(xué)上有效(沒(méi)有內(nèi)部矛盾),(2)解決方案與原始問(wèn)題不同,(3)有解決方案。最后,一位具有數(shù)學(xué)專(zhuān)業(yè)知識(shí)的人類(lèi)評(píng)估員進(jìn)一步審查每個(gè)問(wèn)題-解決方案對(duì),確保它們符合這些約束。
PuzzleTrivial則采取了不同的方法。研究人員選取了經(jīng)典謎題(如漢諾塔或水桶測(cè)量問(wèn)題),稍加修改或刪除某些約束,從而大大簡(jiǎn)化了解決所需的邏輯推理。例如,在"漢諾塔"問(wèn)題中,他們明確指出"這不是漢諾塔問(wèn)題",從而消除了原始問(wèn)題中的關(guān)鍵約束(較大的盤(pán)不能放在較小的盤(pán)上)。對(duì)于大多數(shù)人來(lái)說(shuō),這個(gè)提示會(huì)導(dǎo)致一個(gè)非常簡(jiǎn)單的解決方案,但推理模型卻傾向于忽視這個(gè)明確的指示,堅(jiān)持使用傳統(tǒng)的漢諾塔解法。
最終,ReasoningTrap包含了164個(gè)測(cè)試項(xiàng)目:84個(gè)數(shù)學(xué)問(wèn)題和80個(gè)謎題。這些問(wèn)題設(shè)計(jì)得巧妙而嚴(yán)謹(jǐn),確保它們既能測(cè)試模型遵循用戶(hù)指令的能力,又能揭示模型在遇到偏離常規(guī)的情況時(shí)是否會(huì)違背這些指令,默認(rèn)使用熟悉的推理模式。
三、污染比率與早期檢測(cè):量化和預(yù)防推理剛性
要理解推理模型如何被熟悉的推理模式"污染",研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)稱(chēng)為"污染比率"(contamination ratio)的度量標(biāo)準(zhǔn)。這個(gè)指標(biāo)衡量模型生成的推理過(guò)程中,有多大比例似乎遵循了原始(錯(cuò)誤的)推理路徑,而非根據(jù)修改后的條件推理。
想象一下,如果你請(qǐng)一個(gè)學(xué)生解決一道修改版的數(shù)學(xué)題,然后觀察他的草稿紙。如果學(xué)生開(kāi)始使用原始問(wèn)題的解法,但后來(lái)意識(shí)到問(wèn)題有特殊條件并糾正了自己的思路,你可能會(huì)說(shuō)他的解答被"部分污染"了。污染比率就是量化這種污染程度的方法。
具體來(lái)說(shuō),研究團(tuán)隊(duì)將模型生成的推理過(guò)程分成多個(gè)段落,并將每個(gè)段落與兩個(gè)參考文本進(jìn)行比較:原始推理(遵循常規(guī)模式的推理)和修改后的推理(遵循特殊條件的推理)。如果某個(gè)段落與原始推理的相似度高于與修改后推理的相似度,那么這個(gè)段落就被認(rèn)為是"被污染的"。污染比率就是被污染段落在總段落中的比例。
研究發(fā)現(xiàn)了兩個(gè)有趣的趨勢(shì):首先,當(dāng)污染比率低于大約40%時(shí),模型仍然能夠得出正確答案。但是,一旦污染比率超過(guò)這個(gè)閾值,模型正確解決問(wèn)題的能力急劇下降,表明模型已經(jīng)陷入了錯(cuò)誤的推理路徑。其次,研究者發(fā)現(xiàn),在推理過(guò)程中,污染比率往往會(huì)隨著推理步驟的延長(zhǎng)而增加,特別是在具備長(zhǎng)鏈條思考能力的高級(jí)推理模型中。這表明,模型的問(wèn)題不在于初始理解,而在于隨著推理深入,它們?cè)絹?lái)越傾向于回歸到熟悉的推理模式。
更重要的是,研究團(tuán)隊(duì)確定了三種主要的"污染模式",這些模式反映了模型推理過(guò)程中的不同類(lèi)型的認(rèn)知偏見(jiàn):
1. 解釋過(guò)載(Interpretation Overload):模型開(kāi)始拒絕接受問(wèn)題條件的直接解釋?zhuān)遣粩嗟刂匦陆忉寙?wèn)題,尋找更復(fù)雜的理解方式。這就像一個(gè)資深數(shù)學(xué)老師遇到一道過(guò)于簡(jiǎn)單的題目,懷疑自己是否遺漏了某些隱含條件,因此過(guò)度復(fù)雜化了問(wèn)題。當(dāng)模型表現(xiàn)出這種行為時(shí),它們往往在推理中使用諸如"讓我分析一下這個(gè)問(wèn)題..."、"另一種解釋是..."、"等等,讓我重新檢查一下..."等表達(dá)方式。
2. 輸入不信任(Input Distrust):模型開(kāi)始懷疑用戶(hù)提供的條件是否有誤,猜測(cè)可能存在打字錯(cuò)誤、翻譯錯(cuò)誤或誤解。這就像一個(gè)過(guò)于自信的專(zhuān)家認(rèn)為客戶(hù)的特殊需求一定是表達(dá)不清,而不是真正的需求。這種模式的典型表現(xiàn)包括模型使用"也許用戶(hù)打錯(cuò)了字"、"這可能是一個(gè)拼寫(xiě)錯(cuò)誤"、"這可能是翻譯錯(cuò)誤"等表達(dá)方式。
3. 部分指令關(guān)注(Partial Instruction Attention):模型選擇性地關(guān)注指令的某些部分,忽略其他部分,特別是那些與其預(yù)期不符的條件。例如,當(dāng)模型被告知"兔子是永久不育的",它可能會(huì)注意到"兔子"和"不育",但忽略"永久"一詞,從而將問(wèn)題轉(zhuǎn)換為常規(guī)的斐波那契序列問(wèn)題。
研究團(tuán)隊(duì)還探索了如何在實(shí)際應(yīng)用中檢測(cè)這些污染模式。他們發(fā)現(xiàn),通過(guò)分析模型的推理文本,可以發(fā)現(xiàn)暗示污染發(fā)生的信號(hào),比如模型突然開(kāi)始懷疑問(wèn)題陳述的準(zhǔn)確性,或者開(kāi)始重新解釋明確的條件。這為開(kāi)發(fā)能夠自動(dòng)檢測(cè)和減輕推理剛性的系統(tǒng)提供了基礎(chǔ)。
四、實(shí)驗(yàn)結(jié)果:推理模型真的比基礎(chǔ)模型更"固執(zhí)"嗎?
研究團(tuán)隊(duì)對(duì)各種大型語(yǔ)言模型進(jìn)行了廣泛測(cè)試,包括Qwen2.5-32B-Instruct、QwQ-32B、Qwen3-32B、Qwen3-235B、DeepSeek V3(671B)、DeepSeek R1(671B)、ChatGPT-4o、GPT-4o、o3-mini、o4-mini、Google Gemini 2.5 Flash和Claude 3.7 Sonnet等。這些模型被分為七對(duì),每對(duì)包含一個(gè)基礎(chǔ)模型和一個(gè)經(jīng)過(guò)長(zhǎng)形式推理訓(xùn)練的對(duì)應(yīng)變體。
測(cè)試結(jié)果非常有趣,也相當(dāng)出人意料。在大多數(shù)情況下,推理模型的表現(xiàn)實(shí)際上比其基礎(chǔ)模型對(duì)應(yīng)物更差,這與人們的普遍預(yù)期相反。在ConditionedMath數(shù)據(jù)集上,基礎(chǔ)模型實(shí)現(xiàn)了明顯更高的p-pass@1分?jǐn)?shù)(一個(gè)衡量模型是否正確理解問(wèn)題條件并給出正確答案的指標(biāo))。這表明,一旦模型正確理解了問(wèn)題,基礎(chǔ)模型往往更嚴(yán)格地遵循原始指令,更有可能達(dá)到正確答案。
例如,在AIME問(wèn)題集上,Qwen2.5-32B-Instruct(基礎(chǔ)模型)的p-pass@1分?jǐn)?shù)為59.12±7.81,而其推理增強(qiáng)版QwQ-32B只有49.21±6.79。類(lèi)似地,在MATH500問(wèn)題集上,Qwen3-32B的"不思考"版本(基礎(chǔ)模型)得分為50.51±5.52,而"思考"版本(推理模型)只有34.60±5.60。
在PuzzleTrivial數(shù)據(jù)集上,這種趨勢(shì)更為明顯。例如,Qwen3-32B的"不思考"版本得分為74.30±3.33,而"思考"版本僅為38.28±3.47。這表明,基礎(chǔ)模型在處理有特殊條件的簡(jiǎn)單謎題時(shí),比專(zhuān)門(mén)為復(fù)雜推理訓(xùn)練的模型更加靈活。
這些結(jié)果令人深思:為什么專(zhuān)門(mén)訓(xùn)練來(lái)改善推理能力的模型反而會(huì)表現(xiàn)出更強(qiáng)的推理剛性?研究團(tuán)隊(duì)推測(cè),這可能與這些模型的訓(xùn)練方式有關(guān)。推理模型通常通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練來(lái)生成長(zhǎng)鏈條思考過(guò)程,這可能導(dǎo)致它們過(guò)度適應(yīng)特定的推理模式,從而在面對(duì)不常見(jiàn)或偏離這些模式的問(wèn)題時(shí)表現(xiàn)出更強(qiáng)的偏見(jiàn)。
五、緩解策略:如何讓推理模型更"聽(tīng)話(huà)"?
既然發(fā)現(xiàn)了推理剛性這一問(wèn)題,研究團(tuán)隊(duì)也探索了可能的緩解策略。他們測(cè)試了兩種主要方法:預(yù)算強(qiáng)制(Budget Forcing)和提示暗示(Prompt Hinting)。
預(yù)算強(qiáng)制是一種限制模型生成推理步驟數(shù)量的技術(shù)。研究團(tuán)隊(duì)實(shí)驗(yàn)了三種不同級(jí)別的標(biāo)記預(yù)算:低、中、高。例如,對(duì)于MATH500數(shù)據(jù)集,他們使用2000、4000和6000個(gè)標(biāo)記作為低、中、高預(yù)算;對(duì)于AIME問(wèn)題集,則使用2000、6000和10000個(gè)標(biāo)記。
實(shí)驗(yàn)結(jié)果顯示,對(duì)于ReasoningTrap數(shù)據(jù)集,低標(biāo)記預(yù)算實(shí)際上有利于提高性能。例如,在ConditionedMath AIME上,使用低預(yù)算時(shí),Qwen3-32B的p-pass@1分?jǐn)?shù)從33.25±6.58提高到53.66±7.63。這表明,限制推理步驟的數(shù)量可以減少模型陷入錯(cuò)誤推理路徑的機(jī)會(huì)。
然而,這種改進(jìn)是有代價(jià)的。同樣的低預(yù)算策略應(yīng)用于原始AIME和MATH500數(shù)據(jù)集時(shí),反而會(huì)損害模型性能。例如,在原始AIME上,Qwen3-32B的p-pass@1分?jǐn)?shù)從75.42±6.88下降到31.09±5.98。這表明,雖然預(yù)算強(qiáng)制可以減輕推理剛性,但它也可能阻止模型在需要深入思考的復(fù)雜問(wèn)題上發(fā)揮其全部能力。
另一種方法是提示暗示,即向模型提供額外的提示,明確表明問(wèn)題不包含任何錯(cuò)字,且模型必須嚴(yán)格遵循提示中提供的指令。研究團(tuán)隊(duì)測(cè)試了三種不同的提示暗示,每種針對(duì)他們發(fā)現(xiàn)的三種主要污染模式:
1. 針對(duì)解釋過(guò)載的提示:"一個(gè)不尋常的條件已給出。不要過(guò)度解釋。" 2. 針對(duì)輸入不信任的提示:"這不是打字錯(cuò)誤。" 3. 針對(duì)部分指令關(guān)注的提示:"嚴(yán)格遵循用戶(hù)指令。"
然而,結(jié)果表明,即使提供了這些額外的提示,模型仍然繼續(xù)表現(xiàn)出類(lèi)似的推理剛性。它們?nèi)匀粌A向于依賴(lài)熟悉的推理模式,而不適應(yīng)由提示引入的新條件。雖然某些提示在ReasoningTrap數(shù)據(jù)集上顯示出些許改善,但在原始數(shù)據(jù)集上的性能卻有所下降。
這些結(jié)果表明,解決推理剛性問(wèn)題需要更深層次的方法,可能需要重新考慮推理模型的訓(xùn)練方式,或者開(kāi)發(fā)更復(fù)雜的干預(yù)策略,以幫助模型在保持其深度推理能力的同時(shí),更忠實(shí)地遵循用戶(hù)提供的特殊條件。
六、更廣泛的影響與未來(lái)方向
這項(xiàng)研究揭示的推理剛性問(wèn)題可能對(duì)AI系統(tǒng)的可靠性和可信度產(chǎn)生深遠(yuǎn)影響,特別是在需要精確遵循約束的領(lǐng)域,如數(shù)學(xué)、邏輯謎題,甚至醫(yī)療診斷和法律分析。
想象一個(gè)醫(yī)療AI助手被指示在特殊情況下考慮罕見(jiàn)的診斷可能性,但由于推理剛性,它可能會(huì)默認(rèn)回到常見(jiàn)診斷路徑?;蛘咭粋€(gè)法律AI被要求在特定司法管轄區(qū)的特殊法規(guī)下分析案例,但由于其訓(xùn)練中的偏見(jiàn),它可能會(huì)默認(rèn)應(yīng)用更常見(jiàn)的法律原則。這些情況都可能導(dǎo)致嚴(yán)重后果。
研究團(tuán)隊(duì)承認(rèn)他們的工作存在一些局限性。首先,他們的研究沒(méi)有深入分析推理剛性的根本原因,特別是強(qiáng)化學(xué)習(xí)框架中的哪些特定組件負(fù)責(zé)這種現(xiàn)象。其次,他們的診斷集僅聚焦于數(shù)學(xué)和謎題解決任務(wù),這可能引入領(lǐng)域偏見(jiàn)。尚不清楚類(lèi)似的剛性是否也會(huì)在其他應(yīng)用領(lǐng)域出現(xiàn),這些領(lǐng)域中"正確"推理的性質(zhì)可能有很大不同。
未來(lái)的研究方向可能包括:探索推理剛性的根本原因;研究如何調(diào)整模型訓(xùn)練方法以減輕這種剛性,同時(shí)保持其深度推理能力;擴(kuò)展研究到更廣泛的領(lǐng)域,如醫(yī)療、法律或倫理決策;開(kāi)發(fā)更有效的檢測(cè)和干預(yù)策略,以幫助模型在實(shí)際應(yīng)用中保持靈活性和遵循指令的能力。
歸根結(jié)底,這項(xiàng)研究提醒我們,盡管大型語(yǔ)言模型在推理任務(wù)上取得了令人印象深刻的進(jìn)展,但它們?nèi)匀痪哂腥祟?lèi)認(rèn)知偏見(jiàn)的類(lèi)似物。就像人類(lèi)專(zhuān)家有時(shí)會(huì)因?yàn)檫^(guò)于依賴(lài)經(jīng)驗(yàn)而忽略特殊情況一樣,這些模型也可能陷入固定的思維模式,即使這些模式與給定的問(wèn)題不符。
理解和解決這些限制是構(gòu)建真正可靠、靈活和值得信賴(lài)的AI系統(tǒng)的關(guān)鍵步驟。正如研究人員所指出的,這不僅是一個(gè)技術(shù)挑戰(zhàn),也是一個(gè)認(rèn)識(shí)挑戰(zhàn),要求我們重新思考如何訓(xùn)練AI系統(tǒng),使其既能發(fā)揮深度推理能力,又能忠實(shí)地遵循用戶(hù)意圖,無(wú)論這些意圖多么不尋常或偏離常規(guī)。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。