在人工智能領(lǐng)域,多模態(tài)大語(yǔ)言模型(MLLM)的推理能力一直是研究熱點(diǎn)。近日,由浙江大學(xué)、復(fù)旦大學(xué)、蘇州大學(xué)和上海人工智能實(shí)驗(yàn)室等機(jī)構(gòu)組成的研究團(tuán)隊(duì)在《arXiv:2506.04207v1》(2025年6月4日發(fā)布)上分享了他們的最新研究成果——ReVisual-R1,這一創(chuàng)新性的開源模型在復(fù)雜推理任務(wù)上取得了令人矚目的進(jìn)展。
想象一下,如果人工智能能夠像偵探一樣,不僅能看懂眼前的圖像,還能基于這些視覺信息進(jìn)行深入的推理和解題。這正是這項(xiàng)研究所追求的目標(biāo)。研究團(tuán)隊(duì)的主要貢獻(xiàn)者包括浙江大學(xué)的陳帥和復(fù)旦大學(xué)的郭悅(共同第一作者),以及上海人工智能實(shí)驗(yàn)室的曲曉曄和香港中文大學(xué)的程宇(共同通訊作者)等多位研究者。
這項(xiàng)研究的核心靈感來自于純文本模型DeepSeek-R1在復(fù)雜推理任務(wù)中展現(xiàn)的卓越能力。許多研究者試圖將類似的技術(shù)直接應(yīng)用到多模態(tài)模型中,卻收效甚微。為什么會(huì)這樣?這就像是試圖教一個(gè)人同時(shí)學(xué)會(huì)看圖和解數(shù)學(xué)題,直接照搬教數(shù)學(xué)的方法常常不奏效。
研究團(tuán)隊(duì)并沒有孤立地看待多模態(tài)強(qiáng)化學(xué)習(xí)問題,而是深入研究了整個(gè)訓(xùn)練流程,發(fā)現(xiàn)了三個(gè)關(guān)鍵現(xiàn)象:首先,良好的冷啟動(dòng)初始化對(duì)增強(qiáng)模型推理能力至關(guān)重要;其次,標(biāo)準(zhǔn)的GRPO算法在多模態(tài)強(qiáng)化學(xué)習(xí)中存在梯度停滯問題;最后,在多模態(tài)強(qiáng)化學(xué)習(xí)階段后進(jìn)行的純文本強(qiáng)化學(xué)習(xí)可以進(jìn)一步增強(qiáng)多模態(tài)推理能力。
基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)開發(fā)了ReVisual-R1模型,并在MathVerse、MathVision、WeMath、LogicVista、DynaMath等多個(gè)基準(zhǔn)測(cè)試中取得了開源7B模型中的最佳表現(xiàn),甚至在AIME2024和AIME2025等極具挑戰(zhàn)性的測(cè)試中也展現(xiàn)出色。
一、冷啟動(dòng)初始化:文本推理的重要基礎(chǔ)
研究團(tuán)隊(duì)的第一個(gè)重要發(fā)現(xiàn)堪稱是一個(gè)意外之喜。想象你正在教一個(gè)孩子解決數(shù)學(xué)應(yīng)用題,你會(huì)發(fā)現(xiàn),讓他先掌握純數(shù)學(xué)推理能力,再教他理解帶圖的應(yīng)用題,效果往往比直接從圖像應(yīng)用題開始要好得多。
研究人員發(fā)現(xiàn),僅僅使用精心挑選的純文本數(shù)據(jù)進(jìn)行冷啟動(dòng)訓(xùn)練,就能使模型在多模態(tài)推理任務(wù)上的表現(xiàn)超過許多現(xiàn)有的多模態(tài)推理模型,甚至不需要進(jìn)行多模態(tài)強(qiáng)化學(xué)習(xí)。這就像是先教會(huì)孩子深入思考的能力,然后再教他如何將這種能力應(yīng)用到具體問題上。
為了驗(yàn)證這一發(fā)現(xiàn),研究團(tuán)隊(duì)收集了兩個(gè)開源的冷啟動(dòng)多模態(tài)數(shù)據(jù)集(Vision-R1和R1-One-Vision)以及兩個(gè)冷啟動(dòng)文本數(shù)據(jù)集(DeepMath和OpenR1-Math),并隨機(jī)抽取了40,000個(gè)樣本用于微調(diào)Qwen2.5-VL-7B-Instruct模型。結(jié)果表明,使用純文本冷啟動(dòng)數(shù)據(jù)訓(xùn)練的模型在文本和多模態(tài)推理任務(wù)上都表現(xiàn)出顯著的改進(jìn),而僅使用多模態(tài)數(shù)據(jù)集訓(xùn)練的模型在兩種任務(wù)上的增益都有限。
研究團(tuán)隊(duì)進(jìn)一步分析了100個(gè)樣本,發(fā)現(xiàn)對(duì)文本提示的響應(yīng)平均長(zhǎng)度為8,207.76個(gè)詞元,遠(yuǎn)超對(duì)多模態(tài)提示的821.48個(gè)詞元。此外,Vision-R1的通過率為96.00%,而DeepMath僅為75.0%。這些發(fā)現(xiàn)表明,現(xiàn)有的多模態(tài)冷啟動(dòng)數(shù)據(jù)集可能缺乏足夠的復(fù)雜性來激發(fā)模型的高級(jí)推理能力。
二、GRAMMAR數(shù)據(jù)集:多模態(tài)推理的新基礎(chǔ)
基于對(duì)開源推理數(shù)據(jù)的可變性的深入理解,研究團(tuán)隊(duì)開發(fā)了GRAMMAR,這是一個(gè)新數(shù)據(jù)集,旨在增強(qiáng)多模態(tài)模型推理能力的泛化能力。GRAMMAR包含47k多樣化的文本思維樣本(帶有明確的推理路徑),31k復(fù)雜的純文本示例,以及21k帶有真實(shí)標(biāo)注的多模態(tài)問題,適用于基于規(guī)則的強(qiáng)化學(xué)習(xí)。
構(gòu)建GRAMMAR涉及多階段的精心策劃。研究團(tuán)隊(duì)首先收集了各種難度的開源推理數(shù)據(jù),然后通過基于規(guī)則的過濾確保答案的可驗(yàn)證性,排除了證明問題和具有難以驗(yàn)證的真實(shí)答案的問題。隨后,研究人員使用Qwen2.5-VL-7B-Instruct進(jìn)行初步篩選,剔除過于簡(jiǎn)單或復(fù)雜的問題,再利用Qwen2.5-VL-32B-Instruct評(píng)估剩余樣本,將它們分為十個(gè)難度級(jí)別。
為了最大化數(shù)據(jù)多樣性并最小化冗余,研究團(tuán)隊(duì)使用NV-Embedding-V2對(duì)問題進(jìn)行編碼,應(yīng)用HDBSCAN進(jìn)行聚類,通過Qwen2.5-7B-Instruct為聚類分配主題,并在主題和難度層面上進(jìn)行平衡抽樣。這就像是為學(xué)生精心設(shè)計(jì)一套由淺入深、涵蓋各種知識(shí)點(diǎn)的習(xí)題集,確保學(xué)習(xí)過程既全面又高效。
三、分階段強(qiáng)化優(yōu)化(SRO):多模態(tài)推理的三步培養(yǎng)法
研究團(tuán)隊(duì)基于數(shù)據(jù)調(diào)查和GRAMMAR數(shù)據(jù)集的精心策劃,提出了分階段強(qiáng)化優(yōu)化(SRO)框架,旨在系統(tǒng)地培養(yǎng)MLLM中的穩(wěn)健推理和多樣能力。這個(gè)框架通過一系列獨(dú)特的學(xué)習(xí)階段來實(shí)現(xiàn)這一目標(biāo),每個(gè)階段都針對(duì)特定的訓(xùn)練挑戰(zhàn),并利用GRAMMAR數(shù)據(jù)集的適當(dāng)組件。
SRO的第一階段是多模態(tài)強(qiáng)化學(xué)習(xí)(MRL),這個(gè)階段對(duì)于使MLLM將文本概念與視覺信息聯(lián)系起來并執(zhí)行跨模態(tài)推理至關(guān)重要。研究團(tuán)隊(duì)采用GRPO作為核心RL算法,并集成了兩個(gè)關(guān)鍵增強(qiáng):優(yōu)先級(jí)優(yōu)勢(shì)提煉(PAD)和高效長(zhǎng)度獎(jiǎng)勵(lì)函數(shù)。
PAD是為了解決GRPO在復(fù)雜多模態(tài)設(shè)置中面臨的"梯度停滯"問題。當(dāng)處理稀疏二進(jìn)制獎(jiǎng)勵(lì)時(shí),這個(gè)問題尤為嚴(yán)重。如果生成的響應(yīng)組得到統(tǒng)一的獎(jiǎng)勵(lì)(例如,全部正確或全部錯(cuò)誤),則優(yōu)勢(shì)信號(hào)變?yōu)榱悖瑢?dǎo)致那些樣本的策略梯度為零,從而停止學(xué)習(xí)。PAD通過戰(zhàn)略性地集中更新最具信息量的樣本(具有明顯的非零優(yōu)勢(shì)信號(hào))來優(yōu)化訓(xùn)練過程。
高效長(zhǎng)度獎(jiǎng)勵(lì)函數(shù)則用于控制生成響應(yīng)的冗長(zhǎng)程度。雖然復(fù)雜推理任務(wù)通常需要更長(zhǎng)的輸出,但過長(zhǎng)的序列可能會(huì)適得其反。因此,研究團(tuán)隊(duì)引入了一個(gè)高效長(zhǎng)度獎(jiǎng)勵(lì)來調(diào)節(jié)生成響應(yīng)的冗長(zhǎng)度。
SRO的第二階段是純文本強(qiáng)化學(xué)習(xí)(TRL)。研究團(tuán)隊(duì)發(fā)現(xiàn),密集的MRL訓(xùn)練可能會(huì)無意中導(dǎo)致純文本能力下降,這被定義為"文本能力衰減"。為了進(jìn)一步提升模型的抽象推理能力,研究團(tuán)隊(duì)集成了TRL階段,旨在實(shí)現(xiàn)穩(wěn)健的語(yǔ)言流暢性和高級(jí)推理能力。
這種分階段訓(xùn)練方法有效地平衡了感知接地和認(rèn)知推理發(fā)展,就像是先教會(huì)學(xué)生識(shí)別視覺元素,然后再教他們?nèi)绾螌⑦@些視覺信息與深入的文本推理相結(jié)合,最后再?gòu)?qiáng)化他們的文本表達(dá)能力,使整個(gè)推理過程更加流暢和準(zhǔn)確。
四、優(yōu)先級(jí)優(yōu)勢(shì)提煉(PAD):提升多模態(tài)強(qiáng)化學(xué)習(xí)效率
在多模態(tài)強(qiáng)化學(xué)習(xí)中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)顯著的挑戰(zhàn)——"梯度停滯"。這個(gè)現(xiàn)象指的是由于接近零的優(yōu)勢(shì)估計(jì)占主導(dǎo)地位而導(dǎo)致學(xué)習(xí)效率降低,特別是在處理稀疏二元獎(jiǎng)勵(lì)時(shí)尤為嚴(yán)重。
想象一下,如果你在教一個(gè)學(xué)生解題,但無法明確告訴他哪些方法是有效的、哪些是無效的(都給出相同的反饋),那么學(xué)生就無法調(diào)整自己的策略。這就是多模態(tài)模型在訓(xùn)練過程中面臨的問題。
為了專門應(yīng)對(duì)梯度停滯并提高GRPO的效率,研究團(tuán)隊(duì)引入了優(yōu)先級(jí)優(yōu)勢(shì)提煉(PAD)。PAD通過戰(zhàn)略性地集中每個(gè)批次中最具信息量的樣本來優(yōu)化訓(xùn)練過程,即那些表現(xiàn)出顯著的非零優(yōu)勢(shì)信號(hào)的樣本。
PAD機(jī)制的工作流程如下:首先,計(jì)算每個(gè)序列的絕對(duì)優(yōu)勢(shì),代表其學(xué)習(xí)信號(hào)的大??;然后,形成一個(gè)"有效集",選擇絕對(duì)優(yōu)勢(shì)落在指定信息范圍內(nèi)的序列;最后,從這個(gè)有效集中抽取樣本形成一個(gè)提煉的小批次,抽樣基于序列的絕對(duì)優(yōu)勢(shì)進(jìn)行優(yōu)先級(jí)排序。
溫度參數(shù)控制抽樣集中度,通常在訓(xùn)練過程中從1.0線性衰減到0.3,以從探索轉(zhuǎn)向利用。這樣,小批次就會(huì)被最具信息量的樣本所豐富。
PAD直接通過雙重機(jī)制對(duì)抗梯度停滯:首先,過濾掉停滯的樣本;其次,使用剩余集合中具有信息量的非零優(yōu)勢(shì)優(yōu)先進(jìn)行更新。這種對(duì)學(xué)習(xí)過程的選擇性優(yōu)化確保了高效的計(jì)算資源分配。因此,PAD導(dǎo)致增強(qiáng)的訓(xùn)練穩(wěn)定性、改進(jìn)的學(xué)習(xí)效率,以及更有效地獲取復(fù)雜推理技能,尤其是在具有稀疏或二進(jìn)制獎(jiǎng)勵(lì)的挑戰(zhàn)場(chǎng)景中。
五、ReVisual-R1:分階段訓(xùn)練的實(shí)證成功
ReVisual-R1模型的訓(xùn)練遵循研究團(tuán)隊(duì)提出的三階段方法,利用精心策劃的數(shù)據(jù)集進(jìn)行每個(gè)階段的訓(xùn)練。冷啟動(dòng)階段使用了大約40k純文本條目,重點(diǎn)是建立基礎(chǔ)語(yǔ)言理解;隨后的多模態(tài)強(qiáng)化學(xué)習(xí)(MRL)階段使用了來自GRAMMAR數(shù)據(jù)集的約26k多樣化多模態(tài)條目,以發(fā)展跨模態(tài)推理;最后,基于文本的RL(TRL)階段包含了約30k文本條目,旨在完善細(xì)微理解和生成能力。
研究團(tuán)隊(duì)在一套全面的基準(zhǔn)測(cè)試上評(píng)估了ReVisual-R1,這些基準(zhǔn)測(cè)試被選擇來測(cè)試不同的推理技能。對(duì)于視覺數(shù)學(xué)推理,他們使用了MathVerse、MathVision、WeMath和DynaMath;更廣泛的多模態(tài)推理使用MathVista和LogicVista進(jìn)行評(píng)估;而挑戰(zhàn)性文本數(shù)學(xué)推理的表現(xiàn)則在AIME24/25和MATH-500上測(cè)量;通用問答則使用GPQA進(jìn)行測(cè)試。
實(shí)驗(yàn)結(jié)果令人印象深刻。ReVisual-R1在多模態(tài)推理基準(zhǔn)測(cè)試中取得了開源7B模型中的最佳表現(xiàn),甚至優(yōu)于一些商業(yè)大型MLLM。具體來說,ReVisual-R1實(shí)現(xiàn)了53.1%的令人印象深刻的平均分?jǐn)?shù),比之前的開源SOTA平均水平提高了+16.8個(gè)百分點(diǎn)。
ReVisual-R1在九個(gè)基準(zhǔn)測(cè)試中獲得了開源競(jìng)爭(zhēng)者中的第一名:MathVerse(+5.4% ?)、MathVision(+13.9% ?)、DynaMath(+9.8% ?)、WeMath(+0.2% ?)、LogicVista(+9.6% ?)、AIME24(+44.6% ?)、AIME25(+15.4% ?)、GPQA(+10.1% ?)和MATH500(+23.4% ?)。最顯著的增益在具有挑戰(zhàn)性的AIME24、MATH500和AIME25基準(zhǔn)測(cè)試中觀察到,突顯了ReVisual-R1的高級(jí)數(shù)學(xué)和推理能力。
值得注意的是,與閉源商業(yè)模型相比,ReVisual-R1也表現(xiàn)出高度競(jìng)爭(zhēng)力。例如,其平均分?jǐn)?shù)(53.1%)超過了OpenAI-GPT-4o(41.6%)。在特定的要求較高的基準(zhǔn)測(cè)試(如MATH500)上,ReVisual-R1(89.2%)優(yōu)于doubao-1.5-vision-pro-32k(85.2%)和OpenAI-GPT-4o(74.6%)。類似地,在AIME24和AIME25上,ReVisual-R1比這些商業(yè)產(chǎn)品表現(xiàn)出顯著領(lǐng)先優(yōu)勢(shì)。
六、深入理解分階段訓(xùn)練的重要性
研究團(tuán)隊(duì)進(jìn)行了消融研究,以驗(yàn)證他們的分階段強(qiáng)化優(yōu)化(SRO)框架。他們測(cè)試了多模態(tài)RL(MRL)和基于文本的RL(TRL)階段的不同組合,所有組合都建立在優(yōu)化的文本中心冷啟動(dòng)(CS)之上。
實(shí)證證據(jù)強(qiáng)烈支持研究團(tuán)隊(duì)提出的CS + MRL + TRL(ReVisual-R1-MTR)序列,該序列在各類測(cè)試中持續(xù)產(chǎn)生最高的平均性能(49.6 Avg)。這個(gè)結(jié)果證實(shí)了研究團(tuán)隊(duì)的核心假設(shè):首先進(jìn)行專門建立強(qiáng)視覺接地的MRL階段,然后進(jìn)行TRL階段來完善文本流暢性和抽象推理,對(duì)于開發(fā)卓越的多模態(tài)能力而不降低基礎(chǔ)跨模態(tài)理解至關(guān)重要。
更詳細(xì)的分析顯示,僅CS + MRL模型(47.7 Avg),雖然在視覺密集型任務(wù)(如MathVista,71.9)上表現(xiàn)良好,但沒有達(dá)到完整MTR序列的整體性能。這表明MRL雖然至關(guān)重要,但可能導(dǎo)致"文本能力衰減",而后續(xù)的TRL階段有效地緩解了這一問題。
另一種SRO排序,CS + TRL + MRL(45.5 Avg),也比研究團(tuán)隊(duì)的MTR方法效果差。這一發(fā)現(xiàn)表明,在密集的文本精煉之前建立強(qiáng)視覺接地允許更協(xié)同的學(xué)習(xí),其中TRL階段可以增強(qiáng)已經(jīng)連接跨模態(tài)的推理。
這些消融結(jié)果為MRL-then-TRL排序在SRO框架內(nèi)提供了令人信服的理由。這種戰(zhàn)略排序首先使模型多模態(tài)接地,然后銳化其語(yǔ)言和抽象推理能力,最終形成一個(gè)更全面的高性能MLLM。
七、PAD與高效長(zhǎng)度獎(jiǎng)勵(lì):改進(jìn)模型訓(xùn)練的工具箱
研究團(tuán)隊(duì)還進(jìn)行了消融研究,以評(píng)估優(yōu)先級(jí)優(yōu)勢(shì)提煉(PAD)、其核心組件以及對(duì)關(guān)鍵超參數(shù)的敏感性。
為了評(píng)估PAD的影響,將其完整實(shí)現(xiàn)與GRPO-Baseline、GRPO-Filter-only和Random-Sampling策略進(jìn)行了比較。結(jié)果表明,完整的PAD在數(shù)學(xué)推理基準(zhǔn)測(cè)試上實(shí)現(xiàn)了卓越的性能,突顯了其核心組件(有效樣本過濾和優(yōu)先級(jí)子采樣)的重要性。
訓(xùn)練動(dòng)態(tài)進(jìn)一步證實(shí)了PAD的有效性,其采樣策略產(chǎn)生更高的獎(jiǎng)勵(lì)準(zhǔn)確性和更快的收斂,從而提高學(xué)習(xí)效率。在多模態(tài)RL中,研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)高效長(zhǎng)度獎(jiǎng)勵(lì)函數(shù),該函數(shù)顯著影響訓(xùn)練。
正則化模型保持穩(wěn)定和更高的獎(jiǎng)勵(lì)準(zhǔn)確性以及持續(xù)低熵。相比之下,基線模型遭受了準(zhǔn)確性下降和熵急劇增加。此外,高效長(zhǎng)度獎(jiǎng)勵(lì)有助于維持穩(wěn)定的平均響應(yīng)長(zhǎng)度和低裁剪比率,不像基線模型那樣表現(xiàn)出響應(yīng)長(zhǎng)度的不受控制增長(zhǎng)和相應(yīng)的更高裁剪比率。
總而言之,高效長(zhǎng)度獎(jiǎng)勵(lì)對(duì)于穩(wěn)定訓(xùn)練、防止準(zhǔn)確性下降、保持低模型熵和控制冗長(zhǎng)度至關(guān)重要。這些工具共同為多模態(tài)推理模型的訓(xùn)練提供了更加穩(wěn)定和高效的方法。
八、結(jié)語(yǔ):解鎖多模態(tài)推理的未來
本研究引入了ReVisual-R1,這是一個(gè)7B開源MLLM,旨在解決培養(yǎng)復(fù)雜多模態(tài)推理的普遍挑戰(zhàn)。通過系統(tǒng)地整合高難度純文本冷啟動(dòng)階段以建立基礎(chǔ)推理能力,使用由我們新穎的優(yōu)先級(jí)優(yōu)勢(shì)提煉(PAD)機(jī)制穩(wěn)定的GRPO和基于規(guī)則的獎(jiǎng)勵(lì)(包括高效長(zhǎng)度獎(jiǎng)勵(lì))的多模態(tài)RL階段,以及最終的TextRL精煉階段,我們的結(jié)構(gòu)化三階段課程表明,周到的數(shù)據(jù)策略和有針對(duì)性的算法優(yōu)化至關(guān)重要。
ReVisual-R1在一系列具有挑戰(zhàn)性的視覺數(shù)學(xué)和推理基準(zhǔn)測(cè)試中實(shí)現(xiàn)了開源7B模型中的最佳表現(xiàn)。這項(xiàng)工作強(qiáng)調(diào),仔細(xì)的課程設(shè)計(jì)和算法增強(qiáng),而不是僅僅依靠模型規(guī)模,可以解鎖穩(wěn)健的、自反思的多模態(tài)推理。
正如一位讀者所評(píng)論的:"這就像是先教會(huì)孩子如何深入思考,再教他如何將這種思考能力應(yīng)用到視覺問題上,最后再打磨他的表達(dá)能力,使整個(gè)推理過程更加流暢和準(zhǔn)確。這種分階段的教學(xué)方法,在人工智能訓(xùn)練中展現(xiàn)出了驚人的效果。"
這項(xiàng)研究不僅推動(dòng)了多模態(tài)推理的邊界,也為今后的研究提供了寶貴的方向,展示了如何通過精心設(shè)計(jì)的訓(xùn)練策略,使AI模型能夠更好地理解和推理復(fù)雜的多模態(tài)信息。研究團(tuán)隊(duì)的代碼已經(jīng)在GitHub上開源,有興趣的讀者可以通過https://github.com/CSfufu/Revisual-R1訪問并深入了解。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。