今天要和大家分享一項(xiàng)來(lái)自香港科技大學(xué)、香港中文大學(xué)和北京大學(xué)研究團(tuán)隊(duì)的最新研究成果,這篇題為《AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting》(通過(guò)難度感知預(yù)算實(shí)現(xiàn)自適應(yīng)和可控推理)的論文于2025年5月24日發(fā)表在arXiv(arXiv:2505.18822v1)預(yù)印本平臺(tái)上。研究團(tuán)隊(duì)由香港科技大學(xué)的Shijue Huang、Zhaochen Su和Yi R. (May) Fung,香港中文大學(xué)的Hongru Wang和Bowen Cao,以及北京大學(xué)的Jiazhan Feng共同完成。這項(xiàng)研究正在進(jìn)行中,代碼將在GitHub上公開發(fā)布。
想象一下,你向朋友提出一個(gè)很簡(jiǎn)單的問(wèn)題,比如"2加3等于多少?",但你的朋友卻開始長(zhǎng)篇大論,分析各種可能的計(jì)算方法,討論加法的數(shù)學(xué)原理,最后才告訴你答案是5。這不僅浪費(fèi)時(shí)間,還讓你感到困惑——為什么這么簡(jiǎn)單的問(wèn)題需要如此復(fù)雜的回答?
現(xiàn)代的大型AI推理模型就有這樣的"過(guò)度思考"問(wèn)題。當(dāng)面對(duì)簡(jiǎn)單問(wèn)題時(shí),它們傾向于生成不必要的冗長(zhǎng)推理鏈,就好像用大炮打蚊子。例如,當(dāng)你問(wèn)AI"計(jì)算log?(64)的值"這樣簡(jiǎn)單的問(wèn)題時(shí),它可能會(huì)生成一大堆推理步驟,詳細(xì)解釋對(duì)數(shù)的性質(zhì)、指數(shù)轉(zhuǎn)換等等,最后才得出答案是6。
來(lái)自香港科技大學(xué)、香港中文大學(xué)和北京大學(xué)的研究團(tuán)隊(duì)開發(fā)了一種名為AdaCtrl的新框架,就像是給AI安裝了一個(gè)"思考調(diào)節(jié)器",讓它能夠根據(jù)問(wèn)題的難度自動(dòng)調(diào)整思考的深度和長(zhǎng)度。更棒的是,用戶還可以手動(dòng)控制這個(gè)"思考調(diào)節(jié)器",根據(jù)自己的需求選擇AI思考的深淺。
一、AdaCtrl:思考的智能調(diào)節(jié)器
想象一下,如果AI具備了兩種超能力:一是能夠評(píng)估問(wèn)題的難度,二是能夠根據(jù)難度調(diào)整回答的詳細(xì)程度。這正是AdaCtrl框架帶來(lái)的能力。它就像是給AI裝上了一個(gè)智能思考調(diào)節(jié)器,能夠自動(dòng)平衡效率和效果。
這個(gè)框架通過(guò)兩個(gè)階段的訓(xùn)練實(shí)現(xiàn)這一目標(biāo)。首先是"冷啟動(dòng)微調(diào)"階段,讓模型學(xué)會(huì)對(duì)問(wèn)題難度的自我意識(shí),并據(jù)此調(diào)整推理預(yù)算。接著是"難度感知強(qiáng)化學(xué)習(xí)"階段,在這個(gè)階段,模型會(huì)根據(jù)在線訓(xùn)練中不斷變化的能力來(lái)調(diào)整其自適應(yīng)推理策略并校準(zhǔn)難度評(píng)估。
為了讓用戶能夠直觀地控制思考長(zhǎng)度,研究團(tuán)隊(duì)設(shè)計(jì)了特殊的長(zhǎng)度觸發(fā)標(biāo)簽——"[Easy]"(簡(jiǎn)單)和"[Hard]"(復(fù)雜)。這些標(biāo)簽就像是思考預(yù)算的控制開關(guān),用戶可以通過(guò)指定這些標(biāo)簽來(lái)控制AI的回答長(zhǎng)度。
例如,當(dāng)你向AI提出"計(jì)算log?(64)"這個(gè)問(wèn)題時(shí),根據(jù)不同的模式,AI的回答方式會(huì)有很大差異:
在"簡(jiǎn)單模式"下,AI會(huì)給出簡(jiǎn)潔的回答,只包含必要的步驟,大約250個(gè)詞左右:"為了計(jì)算log?(64),我們需要確定以2為底,多少次方等于64。讓我們逐步分解這個(gè)問(wèn)題。首先,我們知道2的6次方等于64,因此log?(64) = 6。"
在"自適應(yīng)模式"下,AI會(huì)根據(jù)問(wèn)題難度調(diào)整回答長(zhǎng)度,大約400個(gè)詞左右,包含更多的解釋和推理過(guò)程。
而在"復(fù)雜模式"下,AI會(huì)提供最詳盡的解答,大約1100個(gè)詞,不僅包含完整的推理過(guò)程,還會(huì)考慮多種解法,進(jìn)行反思和驗(yàn)證。
二、為什么我們需要AdaCtrl?
想象一下,你有一位非常博學(xué)的朋友。無(wú)論你問(wèn)他簡(jiǎn)單還是復(fù)雜的問(wèn)題,他總是給出極其詳盡的解答。當(dāng)你問(wèn)"今天天氣如何?",他可能會(huì)開始講解氣象學(xué)原理、氣壓系統(tǒng)和溫度變化。雖然這些信息很全面,但對(duì)于簡(jiǎn)單問(wèn)題,這種詳盡解答反而造成了認(rèn)知負(fù)擔(dān)和時(shí)間浪費(fèi)。
現(xiàn)代大型推理模型就面臨這樣的挑戰(zhàn)。它們?cè)诮鉀Q復(fù)雜問(wèn)題時(shí)表現(xiàn)出色,但往往難以平衡效率和效果,對(duì)簡(jiǎn)單問(wèn)題也生成不必要的冗長(zhǎng)推理鏈。這不僅增加了計(jì)算開銷,還影響了用戶體驗(yàn)。
近年來(lái),研究人員嘗試了多種方法來(lái)提高推理效率:
有些研究通過(guò)提示技術(shù),要求模型生成簡(jiǎn)潔的回答。比如告訴AI:"請(qǐng)簡(jiǎn)明扼要地回答問(wèn)題,不超過(guò)100個(gè)詞。"
另一些研究則通過(guò)在更短的推理路徑上微調(diào)模型,教它學(xué)會(huì)更簡(jiǎn)潔的表達(dá)。這就像是訓(xùn)練一個(gè)作家學(xué)會(huì)寫短篇小說(shuō)而非長(zhǎng)篇巨著。
還有一些研究利用強(qiáng)化學(xué)習(xí),通過(guò)懲罰過(guò)長(zhǎng)的回答來(lái)優(yōu)化模型,使其生成既簡(jiǎn)潔又準(zhǔn)確的輸出。這類似于給AI設(shè)定一個(gè)"字?jǐn)?shù)限制",超出就會(huì)"扣分"。
然而,現(xiàn)有的方法主要關(guān)注于最小化推理長(zhǎng)度,忽視了根據(jù)任務(wù)難度動(dòng)態(tài)調(diào)整思考深度的需求。此外,從用戶角度來(lái)看,能夠明確控制推理預(yù)算是一個(gè)顯著優(yōu)勢(shì),但這一方面在當(dāng)前研究中仍相對(duì)欠缺探索。
三、AdaCtrl的工作原理:兩階段訓(xùn)練讓AI學(xué)會(huì)"量力而行"
AdaCtrl框架通過(guò)兩個(gè)關(guān)鍵階段的訓(xùn)練,讓AI學(xué)會(huì)了如何根據(jù)問(wèn)題難度調(diào)整思考深度。
首先,讓我們了解長(zhǎng)度觸發(fā)標(biāo)簽如何作為控制接口。研究團(tuán)隊(duì)引入了兩個(gè)特殊的長(zhǎng)度觸發(fā)標(biāo)簽:"[Easy]"(簡(jiǎn)單)和"[Hard]"(復(fù)雜)。每個(gè)由模型生成的回答都以其中一個(gè)標(biāo)簽開頭,表明所需推理的預(yù)期復(fù)雜度。這些標(biāo)簽就像是一個(gè)信號(hào)燈,告訴模型接下來(lái)應(yīng)該以什么樣的思考深度來(lái)回答問(wèn)題。
第一階段:冷啟動(dòng)微調(diào)
這個(gè)階段就像是教會(huì)AI認(rèn)識(shí)什么是"簡(jiǎn)單"和"復(fù)雜"的問(wèn)題。研究團(tuán)隊(duì)從DeepMATH數(shù)據(jù)集中選取了帶有難度標(biāo)注的數(shù)學(xué)問(wèn)題,將難度級(jí)別5及以下的問(wèn)題歸類為簡(jiǎn)單問(wèn)題,而難度高于5的則歸為復(fù)雜問(wèn)題。
對(duì)于簡(jiǎn)單問(wèn)題,研究團(tuán)隊(duì)使用待訓(xùn)練的模型(Qwen2.5-7B-Instruct)生成簡(jiǎn)潔的回答;而對(duì)于復(fù)雜問(wèn)題,則使用一個(gè)強(qiáng)大的大型推理模型(Deepseek R1)生成詳細(xì)的推理過(guò)程。然后,研究者過(guò)濾出正確的回答,并在簡(jiǎn)單問(wèn)題的回答前加上"[Easy]"標(biāo)簽,在復(fù)雜問(wèn)題的回答前加上"[Hard]"標(biāo)簽,從而構(gòu)建出一個(gè)用于監(jiān)督微調(diào)的數(shù)據(jù)集。
通過(guò)這種方式,模型學(xué)會(huì)了按照指定的標(biāo)簽調(diào)整回答長(zhǎng)度,就像是學(xué)會(huì)了根據(jù)指令調(diào)整思考的深淺。
第二階段:難度感知強(qiáng)化學(xué)習(xí)
如果說(shuō)第一階段是教會(huì)AI識(shí)別問(wèn)題難度,那么第二階段則是讓AI學(xué)會(huì)更精確地根據(jù)難度分配計(jì)算資源。研究團(tuán)隊(duì)采用了GRPO(一種強(qiáng)化學(xué)習(xí)算法)作為訓(xùn)練算法,利用多次生成的結(jié)果來(lái)評(píng)估問(wèn)題在模型視角下的難度。
在這個(gè)階段,研究團(tuán)隊(duì)設(shè)計(jì)了三種特殊的獎(jiǎng)勵(lì)函數(shù):
結(jié)果準(zhǔn)確性獎(jiǎng)勵(lì):這是最基本的獎(jiǎng)勵(lì),當(dāng)模型給出正確答案時(shí)獲得正向獎(jiǎng)勵(lì)(+1.0分),錯(cuò)誤時(shí)則獲得負(fù)向獎(jiǎng)勵(lì)(-1.0分)。這就像是告訴AI:"回答對(duì)了就有糖吃,回答錯(cuò)了就要被懲罰。"
難度估計(jì)校準(zhǔn)獎(jiǎng)勵(lì):隨著強(qiáng)化學(xué)習(xí)訓(xùn)練的進(jìn)行,模型的能力會(huì)不斷進(jìn)化,同一個(gè)問(wèn)題在不同訓(xùn)練階段可能需要不同的難度標(biāo)簽。通過(guò)預(yù)定義的準(zhǔn)確率閾值,如果多次嘗試的平均準(zhǔn)確率超過(guò)閾值,問(wèn)題就被標(biāo)記為"簡(jiǎn)單",否則就是"復(fù)雜"。當(dāng)模型生成的難度標(biāo)簽與這一評(píng)估相符時(shí),就會(huì)獲得正向獎(jiǎng)勵(lì)。這類似于訓(xùn)練AI學(xué)會(huì)準(zhǔn)確評(píng)估自己的能力范圍。
難度感知長(zhǎng)度獎(jiǎng)勵(lì):與傳統(tǒng)方法不同,AdaCtrl只鼓勵(lì)模型在簡(jiǎn)單問(wèn)題上生成簡(jiǎn)潔回答,而對(duì)復(fù)雜問(wèn)題則保留長(zhǎng)思考能力。具體來(lái)說(shuō),當(dāng)模型生成的難度標(biāo)簽是"[Easy]"時(shí),回答越簡(jiǎn)潔,獲得的獎(jiǎng)勵(lì)越高;而對(duì)于"[Hard]"標(biāo)簽的問(wèn)題,則不對(duì)長(zhǎng)度施加限制。這就像是教導(dǎo)AI:"對(duì)簡(jiǎn)單問(wèn)題,直接了當(dāng)就好;對(duì)復(fù)雜問(wèn)題,則需要深思熟慮。"
通過(guò)結(jié)合這三種獎(jiǎng)勵(lì),模型在訓(xùn)練過(guò)程中學(xué)會(huì)了更準(zhǔn)確地評(píng)估問(wèn)題難度,并根據(jù)難度動(dòng)態(tài)分配思考資源,實(shí)現(xiàn)了自適應(yīng)和可控的推理能力。
四、實(shí)驗(yàn)結(jié)果:"思考調(diào)節(jié)器"的驚人效果
研究團(tuán)隊(duì)在四個(gè)數(shù)學(xué)數(shù)據(jù)集上評(píng)估了AdaCtrl的性能:AIME2024、AIME2025、MATH500和GSM8K。前兩個(gè)數(shù)據(jù)集包含更具挑戰(zhàn)性的奧林匹克數(shù)學(xué)風(fēng)格問(wèn)題,而后兩個(gè)則主要包含相對(duì)簡(jiǎn)單的中小學(xué)水平問(wèn)題,其中GSM8K是最簡(jiǎn)單的。
實(shí)驗(yàn)結(jié)果令人印象深刻。與標(biāo)準(zhǔn)的SFT + RL基線相比,AdaCtrl在AIME2025上將準(zhǔn)確率提高了1.67%,在MATH500上提高了7.20%,在GSM8K上提高了2.05%,同時(shí)在AIME2024上保持了相當(dāng)?shù)臏?zhǔn)確率。更令人驚訝的是,這些性能提升伴隨著回答長(zhǎng)度的大幅減少,在各數(shù)據(jù)集上分別減少了10.06%、12.14%、62.05%和91.04%。
這就像是一位學(xué)生不僅考試成績(jī)提高了,而且答題時(shí)間也大大縮短了!
更有趣的是,AdaCtrl還提供了通過(guò)明確的長(zhǎng)度觸發(fā)標(biāo)簽進(jìn)行增強(qiáng)控制的能力。當(dāng)指示模型在"簡(jiǎn)單"推理模式下操作時(shí),它在AIME2025和AIME2024數(shù)據(jù)集上的回答長(zhǎng)度分別減少了90.22%和94.31%(從16k減少到1k詞元)。相反,在"復(fù)雜"推理模式下,GSM8K的回答長(zhǎng)度增加了86.51%,MATH500增加了489.15%。
這就像是給用戶提供了一個(gè)思考深度的調(diào)節(jié)旋鈕,可以根據(jù)需要自由調(diào)整AI的思考深淺。
五、AdaCtrl的難度評(píng)估能力:AI也懂得"量力而行"
為了評(píng)估AdaCtrl對(duì)問(wèn)題難度的判斷能力,研究團(tuán)隊(duì)分析了模型在四個(gè)數(shù)據(jù)集上生成的長(zhǎng)度觸發(fā)標(biāo)簽的比例。結(jié)果顯示,AdaCtrl將AIME2024和AIME2025數(shù)據(jù)集中的大部分問(wèn)題歸類為"復(fù)雜"類別,這些數(shù)據(jù)集包含具有挑戰(zhàn)性的數(shù)學(xué)奧林匹克級(jí)別問(wèn)題。
相比之下,對(duì)于MATH500數(shù)據(jù)集,該模型將76.2%的問(wèn)題識(shí)別為簡(jiǎn)單問(wèn)題,這與該數(shù)據(jù)集包含各種難度水平的數(shù)學(xué)問(wèn)題的實(shí)際情況一致。而對(duì)于最簡(jiǎn)單的GSM8K數(shù)據(jù)集,超過(guò)99%的問(wèn)題被歸類為簡(jiǎn)單問(wèn)題。
這些結(jié)果與數(shù)據(jù)集的實(shí)際難度水平相符,表明AdaCtrl通過(guò)強(qiáng)化學(xué)習(xí)發(fā)展出了令人滿意的問(wèn)題難度評(píng)估能力。
進(jìn)一步研究表明,AdaCtrl能夠根據(jù)自身對(duì)問(wèn)題難度的評(píng)估準(zhǔn)確調(diào)節(jié)其推理預(yù)算。在MATH500數(shù)據(jù)集上的分析顯示,隨著難度等級(jí)從1上升到5,模型生成的回答長(zhǎng)度逐漸增加,從約0.3k詞元增加到6k詞元。這表明AdaCtrl能夠準(zhǔn)確地根據(jù)自評(píng)估的問(wèn)題難度調(diào)整其推理預(yù)算,從而實(shí)現(xiàn)計(jì)算資源的自動(dòng)和自適應(yīng)分配。
六、訓(xùn)練動(dòng)態(tài)過(guò)程:AI如何學(xué)會(huì)思考的"張弛有度"
研究團(tuán)隊(duì)還分析了強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中的性能趨勢(shì)和預(yù)算動(dòng)態(tài)。結(jié)果顯示,模型在所有四個(gè)數(shù)據(jù)集上的性能都呈現(xiàn)上升趨勢(shì),表明推理能力不斷提升。
關(guān)于預(yù)算動(dòng)態(tài),在AIME2024、AIME2025和MATH500數(shù)據(jù)集上,平均回答長(zhǎng)度在訓(xùn)練初期快速增加,然后逐漸減少并穩(wěn)定在比訓(xùn)練前更長(zhǎng)的水平。而對(duì)于GSM8K,回答長(zhǎng)度則保持相對(duì)穩(wěn)定,接近訓(xùn)練前觀察到的水平。
這些發(fā)現(xiàn)表明,在冷啟動(dòng)微調(diào)階段學(xué)習(xí)的推理預(yù)算分配對(duì)于更復(fù)雜的問(wèn)題(如AIME2024、AIME2025和MATH500中的問(wèn)題)是不足的。因此,模型在強(qiáng)化學(xué)習(xí)階段動(dòng)態(tài)調(diào)整其預(yù)算,以響應(yīng)實(shí)際問(wèn)題難度。相比之下,對(duì)于相對(duì)簡(jiǎn)單的GSM8K數(shù)據(jù)集,模型在冷啟動(dòng)微調(diào)后已經(jīng)能夠有效分配最小預(yù)算,表明其能夠區(qū)分和處理更簡(jiǎn)單的問(wèn)題,而無(wú)需顯著調(diào)整。
七、AdaCtrl的意義:讓AI思考更像人類
AdaCtrl框架的意義不僅在于提升AI的思考效率,還在于讓AI的思考方式更接近人類。人類在面對(duì)不同難度的問(wèn)題時(shí),會(huì)自然地調(diào)整思考深度——對(duì)于簡(jiǎn)單問(wèn)題,我們往往直接給出答案;而對(duì)于復(fù)雜問(wèn)題,我們會(huì)進(jìn)行更深入的思考和推理。
通過(guò)AdaCtrl,AI也學(xué)會(huì)了這種"因難而異"的思考方式,不僅提高了推理效率,也增強(qiáng)了用戶體驗(yàn)。用戶不再需要忍受簡(jiǎn)單問(wèn)題的冗長(zhǎng)回答,同時(shí)對(duì)于復(fù)雜問(wèn)題,AI仍然保持其深度思考能力。
此外,AdaCtrl還為用戶提供了控制AI思考深度的能力,就像是給用戶一個(gè)"思考調(diào)節(jié)器",可以根據(jù)自己的需求自由調(diào)節(jié)。想要簡(jiǎn)明扼要的回答?選擇"簡(jiǎn)單"模式。需要詳盡解析的思路?選擇"復(fù)雜"模式。這種控制能力不僅提升了用戶體驗(yàn),也為資源受限的場(chǎng)景提供了靈活的解決方案。
從技術(shù)角度看,AdaCtrl的兩階段訓(xùn)練框架也為未來(lái)的AI訓(xùn)練提供了新的思路。通過(guò)結(jié)合冷啟動(dòng)微調(diào)和難度感知強(qiáng)化學(xué)習(xí),模型不僅學(xué)會(huì)了難度自我意識(shí),還學(xué)會(huì)了根據(jù)難度動(dòng)態(tài)分配計(jì)算資源,展現(xiàn)出更智能、更高效的推理能力。
八、未來(lái)展望:更智能、更自然的AI思考
AdaCtrl框架為未來(lái)的AI推理能力提供了一條有前途的路徑。研究團(tuán)隊(duì)的工作為解決"過(guò)度思考"問(wèn)題提供了有效的解決方案,同時(shí)為用戶提供了對(duì)推理預(yù)算的明確控制。
未來(lái)的研究方向可能包括將這種自適應(yīng)和可控推理擴(kuò)展到更多領(lǐng)域,如自然語(yǔ)言理解、視覺推理等。此外,進(jìn)一步優(yōu)化難度評(píng)估和預(yù)算分配策略,使AI的思考方式更接近人類,也是一個(gè)值得探索的方向。
隨著這類技術(shù)的不斷發(fā)展,我們可以期待未來(lái)的AI不僅能回答問(wèn)題,還能以更自然、更高效的方式思考,真正實(shí)現(xiàn)"人機(jī)共鳴"的交互體驗(yàn)。
九、結(jié)語(yǔ):思考的藝術(shù)在于適度
正如愛因斯坦所說(shuō):"使事情盡可能簡(jiǎn)單,但不要過(guò)于簡(jiǎn)單。"這句話也適用于AI的推理過(guò)程。過(guò)度簡(jiǎn)化會(huì)喪失洞察力,而過(guò)度復(fù)雜則會(huì)模糊核心要點(diǎn)。AdaCtrl框架通過(guò)讓AI學(xué)會(huì)"量力而行"的思考,實(shí)現(xiàn)了這種微妙的平衡。
歸根結(jié)底,AdaCtrl的核心貢獻(xiàn)在于讓AI的思考方式更接近人類——知道何時(shí)該深入思考,何時(shí)該簡(jiǎn)明扼要。這種能力不僅提升了AI的效率,也增強(qiáng)了其與人類交互的自然性,為未來(lái)AI技術(shù)的發(fā)展提供了新的可能性。
對(duì)于普通用戶來(lái)說(shuō),這項(xiàng)研究的意義在于未來(lái)的AI助手將能夠更加靈活地適應(yīng)不同的需求場(chǎng)景,既能在需要時(shí)提供詳盡的分析,也能在日常簡(jiǎn)單問(wèn)題上給出簡(jiǎn)潔的回答,真正成為我們生活和工作中更加智能、更加貼心的伙伴。
如果你對(duì)這項(xiàng)研究感興趣,完整的研究論文可以通過(guò)arXiv:2505.18822v1查閱,代碼庫(kù)將在GitHub上以https://github.com/JoeYing1019/AdaCtrl的地址發(fā)布。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。