本研究由清華大學(xué)計算機科學(xué)與技術(shù)系(人工智能研究院)的劉子鈞、萬振南,清華大學(xué)人工智能產(chǎn)業(yè)研究院的李鵬、劉洋,以及阿里巴巴通義實驗室的閆銘、張驥、黃飛共同完成,于2025年5月27日發(fā)布于arXiv預(yù)印本平臺(arXiv:2505.21471v1)。
在過去幾年,大語言模型(LLM)取得了令人矚目的進步,特別是在參數(shù)規(guī)模和上下文窗口長度方面。現(xiàn)在的模型已經(jīng)能夠一次處理相當(dāng)于一本書長度的文本輸入。但即使是這些令人印象深刻的限制,對于現(xiàn)實世界中的許多任務(wù)來說仍然不夠用。想象一下,你需要通過互聯(lián)網(wǎng)回答多跳問題、處理企業(yè)知識庫,或者基于大量學(xué)術(shù)研究撰寫長篇綜述論文,這些情況往往需要處理遠超當(dāng)前最大上下文窗口限制的知識量。
特別是,近期研究表明,大語言模型在推理和信息檢索方面的后訓(xùn)練技術(shù)已取得長足進步。這些模型可以在生成長推理鏈和執(zhí)行信息檢索任務(wù)時變得更加出色。研究發(fā)現(xiàn),在上下文窗口范圍內(nèi)增加檢索知識量可以顯著提升任務(wù)表現(xiàn)。就像給記者提供更多參考資料,他們能寫出更全面準(zhǔn)確的報道一樣。
那么問題來了:當(dāng)需要處理的外部知識遠超出大語言模型的上下文窗口限制時,我們該怎么辦?當(dāng)前模型能否有效利用超出其處理能力的知識?
當(dāng)輸入內(nèi)容超出上下文窗口長度時,情況變得更加復(fù)雜。如果粗暴地截斷或壓縮這些知識,關(guān)鍵證據(jù)可能會丟失,導(dǎo)致下游任務(wù)表現(xiàn)下降。就像強行把一部三小時的電影剪輯成一小時,重要情節(jié)和細節(jié)不可避免地會丟失。一個自然的解決方案是訓(xùn)練具有更長上下文窗口的模型,但這在經(jīng)濟上極其昂貴,實驗上也不穩(wěn)定:注意力機制的二次計算復(fù)雜度會變得難以處理,而且長上下文訓(xùn)練數(shù)據(jù)本身就十分稀缺。
因此,實踐者轉(zhuǎn)向檢索增強生成(RAG)或上下文壓縮流程。不幸的是,這兩種策略都不可避免地會導(dǎo)致信息丟失:RAG受到排名錯誤的限制,而壓縮器可能會丟棄那些在推理鏈展開前看似微不足道但實際上至關(guān)重要的細節(jié)。
近期的一些研究讓基于大語言模型的智能體協(xié)作處理長上下文,取得了最先進的性能。在這項研究中,清華大學(xué)和阿里巴巴的研究團隊更進一步,提出了一個關(guān)鍵問題:大語言模型能否通過擴展外部知識輸入量(甚至超出上下文窗口限制)來持續(xù)提升任務(wù)表現(xiàn)?
實現(xiàn)外部知識的高可擴展性意味著兩個要求:首先,需要一個可擴展的上下文擴展方法來接受海量輸入;其次,需要在推理過程中有效整合這些知識以提高性能。由于重新訓(xùn)練短上下文大語言模型是不切實際的,研究團隊主要關(guān)注超越上下文窗口的推理時知識整合的可擴展性。
研究團隊專注于幾項需要大量外部知識的任務(wù),包括多跳問答(QA)(基于長文檔和大型知識庫)以及長篇綜述生成。他們發(fā)現(xiàn),當(dāng)前的長上下文任務(wù)基準(zhǔn)測試存在偏差,即許多查詢可以通過在附加文檔上滑動一個小的上下文窗口來回答。為了全面驗證,他們增強了現(xiàn)有的長上下文基準(zhǔn)測試∞Bench,創(chuàng)建了一個基于長文檔的多跳問答測試集∞Bench+,以及公共多跳問答和長篇綜述生成基準(zhǔn)測試。
在初步實驗中,研究團隊發(fā)現(xiàn)當(dāng)前最先進的基于大語言模型的多智能體系統(tǒng)LLM×MapReduce在擴展外部知識輸入時無法持續(xù)提升任務(wù)表現(xiàn),甚至與截斷輸入相比性能有所下降。他們系統(tǒng)分析了現(xiàn)有的多智能體方法,發(fā)現(xiàn)了這些方法共享組件中的兩個核心瓶頸:
第一個瓶頸是知識同步,即智能體理解分布式上下文并提供用于推理的濃縮信息的過程。這個瓶頸在于每個智能體可訪問的智能體"帶寬"。就像在一個大型會議中,如果每個人只能與相鄰的兩個人交流,傳遞復(fù)雜信息將變得極其困難。
第二個瓶頸是知識整合推理,瓶頸在于推理過程中不相關(guān)信息的比例。想象一下試圖從塞滿無關(guān)文件的文件夾中找出關(guān)鍵文檔的情景。
為了克服這些瓶頸,研究團隊開發(fā)了一個名為EXTAGENTS的多智能體框架。遵循先前的分布式范式,該框架將完整輸入分割成適合小窗口的智能體特定上下文塊。EXTAGENTS將智能體角色簡化為兩種:尋找智能體和推理智能體,并提出兩個關(guān)鍵組件:
全局知識同步:尋找智能體不再局限于與相鄰智能體交流,而是能夠全局交換和更新顯著的中間結(jié)果。這就像在一個會議中,每個人都可以向整個團隊廣播自己的發(fā)現(xiàn),而不僅僅是與旁邊的人低聲交談。
知識累積推理:推理智能體不是一次性接收所有同步信息,而是在多輪推理過程中逐步整合和增加來自尋找智能體的更新知識。這類似于偵探在收集更多證據(jù)的同時逐步完善他的理論。
研究團隊通過在上述基準(zhǔn)測試上的綜合實驗證明了EXTAGENTS的有效性和效率。結(jié)果表明,EXTAGENTS在擴展外部知識輸入時持續(xù)提升任務(wù)表現(xiàn),顯著優(yōu)于最先進的非訓(xùn)練方法,無論輸入是否超出上下文窗口。研究證明了EXTAGENTS在不同問答和長篇生成任務(wù)上的泛化能力,以及與不同大語言模型家族的兼容性。團隊還測量了EXTAGENTS通過高并行性獲得的效率提升。
研究的實驗設(shè)置包括多種基準(zhǔn)測試:增強版的∞Bench+(包括中英雙語長文檔問答子集)、HotpotQA(包含需要維基百科事實知識的多跳查詢)以及AutoSurvey(用預(yù)先檢索的論文生成長篇綜述)。評估指標(biāo)包括問答任務(wù)的F1分數(shù)和長篇綜述生成的LLM-as-a-Judge評分。團隊測試了各種配置下的EXTAGENTS,發(fā)現(xiàn)在各個任務(wù)中,EXTAGENTS都能夠顯著優(yōu)于基線方法。
在多跳問答任務(wù)中,EXTAGENTS持續(xù)表現(xiàn)優(yōu)于基線,并隨著外部知識輸入的增加而提高性能。例如,在HotpotQA上,使用gpt-4o-mini-2024-07-18時,EXTAGENTS達到了0.534的F1分數(shù),而使用Llama-3.1-8B-Instruct時達到了0.412,顯著高于其他方法。
在長篇綜述生成任務(wù)中,EXTAGENTS能夠在生成過程中整合更多論文,并實現(xiàn)更好的性能,引用更多參考文獻,重復(fù)率更低。通過聚合LLM-as-a-Judge的八個成對分數(shù),研究發(fā)現(xiàn)EXTAGENTS整體評分顯著高于AutoSurvey。
在延遲和成本分析方面,研究團隊測量了EXTAGENTS在相同128k外部知識輸入條件下的延遲,發(fā)現(xiàn)在合理數(shù)量的并行進程下,EXTAGENTS可以實現(xiàn)顯著的加速,證明了該框架的效率和高并行性。
消融研究顯示,移除全局知識同步(GKS)或知識累積推理(KAR)組件都會導(dǎo)致性能顯著下降,特別是隨著外部知識量的增加。這證明了漸進式知識累積組件對于實現(xiàn)強可擴展性和有效知識整合至關(guān)重要。
在不同大語言模型上的測試表明,EXTAGENTS在更強大的模型上表現(xiàn)更出色。例如,使用gpt-4o-2024-08-06時,在HotpotQA基準(zhǔn)測試上的性能顯著提升,超過了較弱模型。這表明更強大的大語言模型可能從EXTAGENTS的可擴展性中獲益更多,這為未來使用更強大的大語言模型進行工作提供了有希望的方向。
這項研究的主要貢獻包括:
首先,研究團隊引入并定義了超越上下文窗口擴展外部知識輸入的問題,填補了當(dāng)前大語言模型部署中的關(guān)鍵空白。他們還構(gòu)建了增強版長上下文多跳問答基準(zhǔn)∞Bench+,用于相應(yīng)評估。
其次,研究團隊系統(tǒng)研究了現(xiàn)有的基于大語言模型的多智能體系統(tǒng),用于上下文窗口擴展,并通過提出新穎的EXTAGENTS框架克服了它們的瓶頸。
最后,研究團隊展示了EXTAGENTS在問答和綜述生成任務(wù)上的有效性和效率。隨著外部知識輸入擴展超出上下文窗口,它持續(xù)提升任務(wù)表現(xiàn),顯著優(yōu)于最先進的方法。
總的來說,EXTAGENTS代表了一個重要進步,使大語言模型能夠有效利用超越其上下文窗口限制的外部知識,為需要處理大量外部知識的現(xiàn)實世界應(yīng)用開辟了新可能。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。