阿里巴巴集團與同義實驗室(Tongyi Lab)的研究團隊在2025年5月推出了一項令人矚目的研究成果:MASKSEARCH預(yù)訓(xùn)練框架。這項由吳威琦、關(guān)鑫(共同第一作者)、黃申、姜勇、謝鵬軍、黃飛、曹久新、趙海和周井然共同完成的研究,于2025年5月27日在arXiv預(yù)印本平臺上發(fā)布(arXiv:2505.20285v2),代碼已在GitHub上開源(https://github.com/Alibaba-NLP/MaskSearch)。這篇文章探討了如何讓大型語言模型(LLMs)更智能地使用搜索工具,就像我們?nèi)祟愑龅讲欢膯栴}時會打開搜索引擎一樣自然。
想象一下,當你在寫一篇關(guān)于某個歷史人物的報告,但突然忘記了他的出生年份或重要成就。你會怎么做?大多數(shù)人會立即打開搜索引擎,查找所需信息,然后繼續(xù)你的工作。而傳統(tǒng)的AI語言模型則像一個閉門造車的學(xué)者,只能依靠自己"腦子里"已有的知識回答問題,這就是為什么它們常常會"胡說八道"(在AI領(lǐng)域稱為"幻覺")。
MASKSEARCH提出了一個巧妙的想法:通過特殊的預(yù)訓(xùn)練方式,讓AI學(xué)會像人類一樣,在需要時主動去搜索信息。這個過程就像教一個小孩子學(xué)習解決問題:不是要求他記住所有答案,而是教他如何在需要時找到答案。研究團隊設(shè)計了一種名為"檢索增強掩碼預(yù)測"(RAMP)的任務(wù),讓AI模型學(xué)習填補文本中被掩蓋的關(guān)鍵信息,但不是靠猜,而是通過主動搜索和推理來找到答案。
這項研究的意義不僅在于讓AI變得更"聰明",更在于讓它成為一個會思考、會使用工具的"智能助手",能夠處理更復(fù)雜、更開放的問題,并提供更可靠的答案。無論是幫助醫(yī)生查詢最新醫(yī)學(xué)研究,還是協(xié)助學(xué)生進行復(fù)雜的知識探索,MASKSEARCH都展示了AI如何在人類與知識之間搭建更智能的橋梁。
一、傳統(tǒng)檢索增強模型的局限性
想象一下你有一位非常博學(xué)的朋友,他記憶力驚人,知識面廣泛。然而,當你問他一個超出他知識范圍的問題時,他會怎么做?一個真正聰明的人會說:"我不確定,讓我查一下",然后去找相關(guān)資料。而不那么聰明的人可能會硬著頭皮猜測,結(jié)果往往不準確。
在AI世界中,大型語言模型(LLMs)就像那些博學(xué)的朋友,它們在訓(xùn)練過程中吸收了海量知識,但面臨同樣的局限性:它們不可能知道所有事情,特別是最新發(fā)生的事件或非常專業(yè)的領(lǐng)域知識。
傳統(tǒng)的檢索增強語言模型(RALMs)試圖解決這個問題,方法是在AI系統(tǒng)中添加一個專門的"檢索模塊",就像給AI配備了一個搜索引擎助手。這確實提高了模型回答問題的準確性,但存在一個關(guān)鍵問題:檢索(搜索)和生成(回答)是分開的,AI不能像人類那樣主動決定何時需要搜索、搜索什么、以及如何利用搜索結(jié)果進一步推理。
阿里巴巴的研究團隊指出,這種分離限制了模型的適應(yīng)性,使其無法在多步驟任務(wù)中主動獲取所需信息。比如,回答"哪位導(dǎo)演執(zhí)導(dǎo)了《理性與感性》,他在哪所大學(xué)完成本科學(xué)業(yè)?"這樣的問題,需要先查找導(dǎo)演是誰,再查找這位導(dǎo)演的教育背景,這就是一個多步驟的搜索推理過程。
近年來,Agent(代理)技術(shù)的發(fā)展讓大型語言模型能夠自主使用工具進行檢索、規(guī)劃和推理。雖然基于提示的工作流(prompt-based workflows)已被廣泛使用,但它們效率低下且缺乏靈活性。而訓(xùn)練基于LLM的搜索代理提供了更有前途的解決方案,但當前方法主要依賴特定任務(wù)的數(shù)據(jù),這限制了它們在更廣泛任務(wù)范圍內(nèi)的泛化能力。
二、MASKSEARCH:一種全新的預(yù)訓(xùn)練框架
研究團隊受到了一個簡單而有力的想法啟發(fā):通過預(yù)訓(xùn)練,讓語言模型學(xué)會"什么時候該搜索"以及"如何搜索和利用信息"。就像我們教孩子學(xué)習時,不僅教他們知識,還教他們?nèi)绾尾檎液屠觅Y源。
MASKSEARCH框架的核心是一個名為"檢索增強掩碼預(yù)測"(RAMP)的預(yù)訓(xùn)練任務(wù)。這聽起來很復(fù)雜,但其實非常直觀。想象一本書中有些關(guān)鍵詞被涂黑了,你需要通過查閱其他資料來填補這些空缺。這就是RAMP任務(wù)的本質(zhì):模型需要填補文本中被掩蓋的關(guān)鍵信息,但不是靠猜,而是通過主動搜索外部知識來找到答案。
具體來說,研究團隊從維基百科文章中提取段落,然后識別并掩蓋其中的"顯著片段"(如人名、地點、日期、數(shù)字等),創(chuàng)建了大量訓(xùn)練樣本。然后,模型被訓(xùn)練來填補這些被掩蓋的信息,方法是通過搜索工具查找相關(guān)信息,并利用這些信息進行推理和回答。
這個過程培養(yǎng)了模型的多種能力: 1. 任務(wù)分解能力:理解問題并將其分解為可管理的子任務(wù) 2. 搜索工具使用能力:知道何時需要搜索,以及如何構(gòu)建有效的搜索查詢 3. 基于觀察的推理能力:分析搜索結(jié)果并從中提取相關(guān)信息 4. 綜合能力:將多個信息源整合起來回答原始問題
重要的是,這些能力是高度可遷移的,這意味著在RAMP任務(wù)上訓(xùn)練過的模型能夠更好地處理各種需要外部知識的下游任務(wù),如開放域問答等。
三、訓(xùn)練策略:讓AI學(xué)會思考和搜索
MASKSEARCH框架采用了兩階段訓(xùn)練方法:首先是RAMP預(yù)訓(xùn)練,然后是下游任務(wù)的微調(diào)。在RAMP預(yù)訓(xùn)練階段,研究團隊采用了兩種主要的訓(xùn)練方法:監(jiān)督微調(diào)(SFT)和強化學(xué)習(RL)。
### 監(jiān)督微調(diào):教會AI正確的思考和搜索步驟
想象你在教一個學(xué)生解決數(shù)學(xué)問題。你不僅告訴他答案是什么,還展示解題的每一個步驟。監(jiān)督微調(diào)就是這樣工作的:為AI提供詳細的"思考鏈"(Chain-of-Thought,CoT)軌跡,展示如何一步步思考和搜索,直到找到答案。
研究團隊創(chuàng)新性地結(jié)合了基于代理的方法和基于蒸餾的方法來構(gòu)建CoT數(shù)據(jù):
首先,他們設(shè)計了一個多代理系統(tǒng),包括: - 規(guī)劃代理(Planner Agent):分析任務(wù)并將其分解為子任務(wù),生成初始搜索查詢 - 重寫代理(Rewriter Agent):優(yōu)化生成的查詢以提高知識檢索質(zhì)量,并調(diào)用搜索工具 - 觀察代理(Observer Agent):審查搜索結(jié)果和已采取的步驟,確定任務(wù)是否可以解決或是否需要額外步驟
這些代理協(xié)同工作,產(chǎn)生高質(zhì)量的推理軌跡。每個生成的軌跡都由"LLM作為評判"進行評估,只有正確填補所有掩碼的軌跡才會被收錄到訓(xùn)練數(shù)據(jù)集中。
然后,為了快速擴展數(shù)據(jù)集同時保持高數(shù)據(jù)質(zhì)量,研究團隊采用了迭代生成策略。他們使用已訓(xùn)練的教師模型代替多代理方法。在第j次迭代中,當前數(shù)據(jù)集Dj用于微調(diào)模型πθj-1,得到更新的策略πθj。這個更新的策略融合了從Dj學(xué)到的推理軌跡和搜索策略,然后作為新的教師模型πtj+1用于合成下一輪數(shù)據(jù)集Dj+1。
這種迭代方法確保模型不斷從越來越復(fù)雜和多樣化的推理軌跡中學(xué)習,每一輪迭代都建立在前一輪能力的基礎(chǔ)上。通過這種方式,研究團隊構(gòu)建了一個包含1000萬個CoT樣本(140億個標記)的大規(guī)模數(shù)據(jù)集,驗證了MASKSEARCH作為預(yù)訓(xùn)練框架的可擴展性。
### 強化學(xué)習:通過實踐和反饋不斷改進
監(jiān)督微調(diào)有點像按照食譜學(xué)習烹飪,而強化學(xué)習則更像是實際下廚并根據(jù)味道調(diào)整做法。在強化學(xué)習中,模型通過嘗試和錯誤學(xué)習,根據(jù)其行為的結(jié)果(獎勵)來改進其策略。
研究團隊采用了動態(tài)采樣策略優(yōu)化(DAPO)算法進行強化學(xué)習訓(xùn)練,并設(shè)計了一個混合獎勵系統(tǒng),包括: - 格式獎勵:評估模型響應(yīng)是否符合指定的答案格式 - 答案獎勵:評估模型生成的答案與標準答案的一致性
答案獎勵有三種變體: 1. 基于標記級別召回率的獎勵:使用標記級別召回率作為獎勵指標 2. 帶答案長度懲罰的標記級別召回率獎勵:引入對答案長度的懲罰以防止獎勵黑客行為 3. 基于模型的獎勵:使用Qwen2.5-72B-Instruct模型作為評判,評估生成答案與標準答案的一致性
實驗表明,基于模型的獎勵能夠有效解決獎勵黑客問題,并在RL訓(xùn)練中表現(xiàn)出顯著的穩(wěn)定性和有效性。
### 課程學(xué)習:循序漸進,從簡單到復(fù)雜
課程學(xué)習是一種根據(jù)難度對訓(xùn)練樣本進行排序,并以遞增方式向模型呈現(xiàn)的訓(xùn)練策略。在RAMP任務(wù)中,被掩蓋的片段數(shù)量k被用作難度的主要指標。
與隨機抽樣不同,課程學(xué)習方法首先從包含較少掩碼片段的簡單任務(wù)開始,然后逐步引入具有更多掩碼片段的復(fù)雜任務(wù)。這種方法使模型能夠首先學(xué)習基本推理技能,然后逐步建立處理更具挑戰(zhàn)性場景的能力。
實驗證明,這種課程學(xué)習方法能夠幫助模型更好地適應(yīng)任務(wù)的遞增復(fù)雜性,從而提高性能和培養(yǎng)更強大的推理能力。
四、實驗結(jié)果:MASKSEARCH的強大性能
研究團隊在多個開放域問答數(shù)據(jù)集上評估了MASKSEARCH框架的性能,包括HotpotQA、FanoutQA、Musique、2WikiMultiHopQA、Bamboogle和FreshQA。他們使用了兩個系列的基礎(chǔ)模型:QWEN2.5(1.5B、3B和7B)和LLAMA3(1B、3B和8B)。
實驗結(jié)果令人印象深刻,主要發(fā)現(xiàn)包括:
### RAMP預(yù)訓(xùn)練顯著提升了搜索代理的性能
將RAMP作為預(yù)訓(xùn)練任務(wù)顯著增強了模型在多個開放域問答數(shù)據(jù)集上的表現(xiàn)。在領(lǐng)域內(nèi)數(shù)據(jù)集(如HotpotQA)上,RAMP提供了穩(wěn)定的模型召回率改進。在領(lǐng)域外數(shù)據(jù)集上,改進更為顯著。例如,在Bamboogle數(shù)據(jù)集上,Qwen2.15-1.5B模型與僅進行下游任務(wù)訓(xùn)練相比,實現(xiàn)了11.78的大幅提升,而LLAMA模型則獲得了令人印象深刻的15.12增益。
此外,較小的模型(如Qwen2.5-1.5B)能夠在各種任務(wù)上表現(xiàn)出與更大模型相當?shù)男阅?。這證明RAMP作為一個可擴展的學(xué)習信號,可以幫助模型更好地增強其分解問題和與搜索工具交互的能力。
### 強化學(xué)習在RAMP上展現(xiàn)出比監(jiān)督微調(diào)更高的性能提升
盡管監(jiān)督微調(diào)(SFT)被證明能有效提高搜索代理性能,但強化學(xué)習(RL)展示了在應(yīng)用于RAMP任務(wù)時實現(xiàn)更高上限的潛力。RL與RAMP的結(jié)合在下游任務(wù)上比單獨使用SFT顯示出更好的收益,特別是在領(lǐng)域內(nèi)數(shù)據(jù)集HotpotQA上,在不同規(guī)模的模型上實現(xiàn)了3到5個點的改進。
這一發(fā)現(xiàn)突顯了探索強化學(xué)習等高級訓(xùn)練技術(shù)的重要性,以充分利用RAMP在增強RALM性能方面的優(yōu)勢。
### 可擴展性表現(xiàn)優(yōu)異
為驗證MASKSEARCH作為預(yù)訓(xùn)練任務(wù)的擴展?jié)摿Γ芯繄F隊進行了實驗,使用在第一階段訓(xùn)練不同步數(shù)的模型,并評估它們在隨后的下游任務(wù)微調(diào)后的性能。
實驗表明,小型模型(1B、1.5B)在經(jīng)過預(yù)訓(xùn)練階段后表現(xiàn)出顯著的性能提升。這表明RAMP任務(wù)有效增強了模型的代理搜索能力。對于更大的模型,擴大數(shù)據(jù)集規(guī)模也是有效的,但性能增益不如小型模型那么顯著。
這可能是因為用于訓(xùn)練7B模型的數(shù)據(jù)是通過自我進化過程生成的,相比于其自身的預(yù)測可能缺乏多樣性和復(fù)雜性。因此,訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性是決定模型在SFT期間性能上限的關(guān)鍵因素。
### 課程學(xué)習的有效性
研究深入探討了課程學(xué)習在RAMP和下游任務(wù)訓(xùn)練中的有效性。從RAMP數(shù)據(jù)中每個掩碼數(shù)量抽樣10K數(shù)據(jù),從HotpotQA抽樣6K數(shù)據(jù),以保持預(yù)訓(xùn)練和下游任務(wù)之間的適當比例。此外,從剩余RAMP數(shù)據(jù)中抽樣500個QA對作為驗證集,每個掩碼數(shù)量100個數(shù)據(jù)點。
研究發(fā)現(xiàn),增加掩碼跨度數(shù)量會導(dǎo)致驗證集上的性能顯著改善。盡管初始性能落后,但課程學(xué)習方法最終優(yōu)于混合訓(xùn)練策略(默認方法是將所有數(shù)據(jù)混合在一起)。在驗證集中觀察到的優(yōu)勢有潛力在微調(diào)后延續(xù)到下游任務(wù)。
五、MASKSEARCH的創(chuàng)新之處
MASKSEARCH框架引入了幾項關(guān)鍵創(chuàng)新,使其在檢索增強語言模型和搜索增強推理模型領(lǐng)域中脫穎而出:
### 與傳統(tǒng)RALMs的根本區(qū)別
相比傳統(tǒng)的檢索增強語言模型(RALMs),MASKSEARCH有幾個關(guān)鍵優(yōu)勢:
首先,在檢索標記數(shù)量方面,MASKSEARCH操作的檢索空間實際上是無限的,這與傳統(tǒng)模型受限于預(yù)定義檢索語料庫大小的情況形成鮮明對比。
其次,MASKSEARCH采用單模型架構(gòu),而不是傳統(tǒng)RALMs的雙模型設(shè)置。這種簡化不僅減少了計算開銷,還增強了推理過程的連貫性和一致性。
通過以代理方式與搜索引擎交互,MASKSEARCH支持多步推理,這是處理復(fù)雜查詢的關(guān)鍵能力,這些復(fù)雜查詢需要整合來自多個來源的信息,而不能在單個步驟中解決。
### 與Search-R1的比較與區(qū)別
與MASKSEARCH最相似的工作是Search-R1,但兩者之間存在幾個關(guān)鍵區(qū)別:
雖然兩個模型都在有效無限的檢索空間中運行并支持多步推理,但MASKSEARCH采用兩階段端到端訓(xùn)練過程,可以適應(yīng)SFT和RL。這與Search-R1形成對比,后者使用單階段強化學(xué)習方法訓(xùn)練其檢索器。
MASKSEARCH中的兩階段端到端訓(xùn)練允許更一般地優(yōu)化代理能力,從而更好地與LLM集成并提高性能。
六、掩碼策略與獎勵設(shè)計的深入探討
### 掩碼策略的影響
研究團隊深入研究了掩碼方法對RAMP任務(wù)的影響。除了顯著跨度掩碼外,許多先前研究還調(diào)查了在掩碼語言建模(MLM)中選擇更具挑戰(zhàn)性掩碼的效果,包括使用點互信息(PMI)和困惑度(PPL)來評估掩碼跨度的難度。
對于自回歸模型,研究團隊探索了基于PPL的掩碼策略。他們通過計算困惑度(即在原始上下文中恢復(fù)掩碼跨度時的損失)來衡量掩碼跨度對模型的難度。具體來說,他們貪婪地選擇所有未掩碼顯著跨度中PPL最高的跨度,直到滿足所需的掩碼數(shù)量。
為了驗證這種策略相對于原始隨機掩碼策略的有效性,研究團隊使用基于代理的軌跡構(gòu)建方法準備了一個40K RAMP數(shù)據(jù)集用于SFT,并抽樣了6K HotPotQA軌跡用于第二階段訓(xùn)練。
實驗結(jié)果表明,基于PPL的掩碼策略在FanoutQA數(shù)據(jù)集上帶來了性能提升,突顯了選擇更具挑戰(zhàn)性掩碼的有效性。然而,HotpotQA和Bamboogle數(shù)據(jù)集上的實驗結(jié)果表明,僅僅增加掩碼跨度的難度可能會導(dǎo)致性能下降。這表明模型可能沒有真正掌握任務(wù),因為難度增加了。另一方面,課程學(xué)習(逐步增加訓(xùn)練任務(wù)的復(fù)雜性)被證明是有益的。在第二階段訓(xùn)練后,模型在所有三個數(shù)據(jù)集上都表現(xiàn)出增強的性能,突顯了其在增強模型學(xué)習進度以處理復(fù)雜任務(wù)方面的有效性。
### 不同RL獎勵的性能
研究團隊研究了不同RL獎勵對模型性能的影響。結(jié)果顯示,使用基于標記級別召回率的獎勵訓(xùn)練的模型通過向答案添加大量不相關(guān)信息來"黑客攻擊"指標,顯著增加響應(yīng)長度。這導(dǎo)致與其他RL獎勵相比,實際性能顯著下降。
雖然基于懲罰的獎勵可以顯著減少答案長度,但性能仍然受到影響,而且模型仍然可以在有限答案長度的約束內(nèi)通過使用枚舉來進行黑客攻擊。
基于模型的獎勵在其他兩種獎勵方法上提供了顯著的改進(34.71和19.48),有效解決了獎勵黑客問題,并在RL訓(xùn)練中展示出顯著的穩(wěn)定性和有效性。這些優(yōu)勢最終促使研究團隊采用基于模型的獎勵方法進行訓(xùn)練。
七、案例研究:RAMP如何工作
為了說明模型如何通過檢索增強掩碼預(yù)測任務(wù)(RAMP)獲得檢索和推理能力,研究提供了一個案例研究。在這個例子中,與David Henry Hoelscher相關(guān)的聯(lián)盟、球隊和大學(xué)信息被掩蓋。模型需要自主使用搜索引擎進行推理并填補缺失信息。
開始時,模型制定搜索計劃,包括個人職業(yè)生涯、球隊和大學(xué)的詳細信息。在第一步中,它檢索與他的職業(yè)和球隊相關(guān)的信息。獲取初始搜索結(jié)果后,模型根據(jù)檢索到的數(shù)據(jù)識別與該個人相關(guān)的聯(lián)盟,并啟動另一次搜索以確認他所效力的球隊。
在第二次搜索后,模型成功推斷出他的球隊隸屬關(guān)系,并發(fā)現(xiàn)先前的搜索結(jié)果包含了他的大學(xué)信息。然后它請求另一次搜索來驗證這些數(shù)據(jù)。完成第三次搜索后,搜索代理有效收集了所有必需信息并填補了掩碼。
通過RAMP任務(wù),模型不僅學(xué)會了執(zhí)行檢索,還掌握了使用檢索到的信息進行進一步推理和驗證,直到獲得完整答案。這個案例清晰地展示了MASKSEARCH如何培養(yǎng)模型的多步驟推理和工具使用能力。
八、總結(jié)與未來展望
MASKSEARCH框架代表了一種創(chuàng)新方法,旨在增強LLM的代理搜索能力,特別是通過兩階段訓(xùn)練方法?;跈z索增強掩碼預(yù)測(RAMP)預(yù)訓(xùn)練任務(wù),模型可以通過SFT或RL進行訓(xùn)練,在下游任務(wù)訓(xùn)練前獲取通用能力。
廣泛的分析表明,將RAMP作為預(yù)訓(xùn)練任務(wù)顯著增強了模型在各種開放域問答數(shù)據(jù)集上的性能。它不僅提供了領(lǐng)域內(nèi)下游任務(wù)召回分數(shù)的穩(wěn)定改進,還在領(lǐng)域外基準測試上取得了顯著收益。研究還驗證了MASKSEARCH的可擴展性,通過構(gòu)建1000萬預(yù)訓(xùn)練數(shù)據(jù)集用于SFT。
此外,盡管RL通常不用于預(yù)訓(xùn)練,但實驗表明它通過預(yù)訓(xùn)練實現(xiàn)了顯著的性能增益。它甚至表現(xiàn)出比使用SFT更大的潛力來優(yōu)化模型性能,在后訓(xùn)練后達到更高的上限。這些發(fā)現(xiàn)突顯了MASKSEARCH在增強LLM搜索代理的通用代理搜索能力方面的有效性,無論其大小、類型或采用的特定訓(xùn)練方法如何。
然而,研究也存在一些局限性。盡管實證成功和直觀動機,但仍有幾個方面需要進一步調(diào)查。首先,研究團隊僅使用搜索工具進行知識檢索,以堅持RALM的概念。然而,代理能夠利用各種工具,研究團隊相信RAMP任務(wù)可以推廣到包含多種工具的使用。
未來的工作可以探索工具集的多樣性,潛在地將應(yīng)用范圍擴展到開放域QA之外的其他場景。此外,雖然方法已經(jīng)證明了有希望的結(jié)果,但需要更深入的理論分析來充分理解導(dǎo)致其有效性的因素。
總的來說,MASKSEARCH提供了一種可擴展、可轉(zhuǎn)移的框架,增強了LLM基于搜索代理的能力,為多跳推理和檢索增強任務(wù)領(lǐng)域的進展鋪平了道路。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。