這項由新加坡國家大學(xué)胡曉斌教授領(lǐng)導(dǎo)的跨國研究團隊發(fā)表于2025年8月的arXiv預(yù)印本論文,展示了一種名為MACT的多智能體協(xié)作框架。研究團隊成員來自清華大學(xué)、中科大、南洋理工大學(xué)、慕尼黑工業(yè)大學(xué)、浙江大學(xué)和復(fù)旦大學(xué)等知名學(xué)府。有興趣深入了解的讀者可以通過論文鏈接https://github.com/YU-deep/MACT.git訪問完整研究成果。
當(dāng)你面對一份復(fù)雜的法律合同、醫(yī)學(xué)報告或者學(xué)術(shù)論文時,你可能需要先理解文檔結(jié)構(gòu),然后仔細(xì)分析內(nèi)容,接著判斷信息的準(zhǔn)確性,最后得出結(jié)論?,F(xiàn)在,研究人員讓AI也學(xué)會了這種"團隊協(xié)作"的方式來處理復(fù)雜文檔。他們開發(fā)的MACT系統(tǒng)就像一個專業(yè)團隊,其中有四個不同角色的AI"專家":一個負(fù)責(zé)制定計劃的"策略師",一個負(fù)責(zé)執(zhí)行任務(wù)的"執(zhí)行者",一個負(fù)責(zé)檢查質(zhì)量的"質(zhì)檢員",還有一個負(fù)責(zé)總結(jié)答案的"總結(jié)員"。
令人驚喜的是,這個由相對較小的AI模型組成的團隊,在處理文檔理解和問答任務(wù)上的表現(xiàn),竟然超過了許多參數(shù)規(guī)模更大的單個AI模型。這就好比四個各有專長的普通人組成的團隊,在解決復(fù)雜問題時能夠勝過一個能力更強但孤軍奮戰(zhàn)的專家。
一、現(xiàn)有AI處理文檔時遇到的三大難題
目前的視覺語言模型,無論是通用型還是專門針對文檔設(shè)計的,都面臨著三個主要挑戰(zhàn)。首先是規(guī)模限制問題,就像一個人的大腦容量有限一樣,參數(shù)較少的AI模型在處理復(fù)雜文檔時往往力不從心。研究團隊發(fā)現(xiàn),大模型和小模型在文檔理解能力上存在顯著差距,而小模型的潛力往往沒有得到充分發(fā)揮。
其次是自我糾錯能力不足的問題。人類在解決復(fù)雜問題時,會自然地進行自我檢查和修正,但現(xiàn)有的AI模型缺乏這種robust的自我糾錯機制。即使有些系統(tǒng)試圖加入糾錯功能,效果也往往不夠理想,就像一個人既要當(dāng)裁判又要當(dāng)運動員一樣,很難做到真正客觀公正的判斷。
第三個問題是在處理長篇文檔和復(fù)雜推理時表現(xiàn)不佳。當(dāng)面對幾十頁的報告或需要跨頁面信息整合的任務(wù)時,現(xiàn)有模型就像近視眼看遠(yuǎn)處的景物一樣,往往抓不住關(guān)鍵信息,推理能力也會明顯下降。這些問題導(dǎo)致現(xiàn)有系統(tǒng)在處理基于文檔的任務(wù)時表現(xiàn)不夠理想。
二、MACT系統(tǒng)的"四人小組"工作模式
為了解決這些問題,研究團隊設(shè)計了一個巧妙的解決方案:讓四個專門化的AI智能體像一個高效團隊一樣協(xié)作工作。這就好比組建一個專業(yè)的咨詢團隊,每個成員都有明確的職責(zé)分工。
規(guī)劃智能體扮演"策略師"的角色,專門負(fù)責(zé)分析原始問題并制定高層次的執(zhí)行計劃。當(dāng)接到一個復(fù)雜的文檔問答任務(wù)時,它會首先生成一些相關(guān)的示例問題和對應(yīng)的解決方案,然后參考這些示例為當(dāng)前問題制定具體的執(zhí)行計劃。這個過程就像經(jīng)驗豐富的項目經(jīng)理在接到新任務(wù)時,會先回顧類似項目的處理方式,然后制定針對性的工作計劃。
執(zhí)行智能體擔(dān)任"執(zhí)行者"的角色,負(fù)責(zé)將規(guī)劃智能體制定的計劃逐步落實。它會把總體計劃分解為具體的執(zhí)行單元,然后依次完成每個步驟。在執(zhí)行過程中,它可以調(diào)用各種工具和資源,就像工程師根據(jù)設(shè)計圖紙選擇合適的工具來完成具體工作一樣。執(zhí)行完成后,它會將整個執(zhí)行過程和結(jié)果整理好,傳遞給下一個智能體。
判斷智能體發(fā)揮"質(zhì)檢員"的作用,這是整個系統(tǒng)中最具創(chuàng)新性的設(shè)計。與傳統(tǒng)的糾錯機制不同,這個智能體專門負(fù)責(zé)檢查前面生成的執(zhí)行計劃和執(zhí)行過程是否正確,但它并不直接進行修改。當(dāng)發(fā)現(xiàn)問題時,它會指出具體的錯誤位置和錯誤類型,然后將任務(wù)重新分配給相應(yīng)的前序智能體進行修正。這種設(shè)計就像專業(yè)的質(zhì)量檢查員,只負(fù)責(zé)發(fā)現(xiàn)問題并報告,具體的修正工作由原來的負(fù)責(zé)人來完成,這樣既保證了檢查的客觀性,又避免了修正過程中可能出現(xiàn)的不一致問題。
答案智能體承擔(dān)"總結(jié)員"的職責(zé),負(fù)責(zé)根據(jù)正確的執(zhí)行過程生成最終答案。有趣的是,它不僅會考慮正確的執(zhí)行結(jié)果,還會參考之前出現(xiàn)過的錯誤片段,這樣可以更好地關(guān)注那些容易出錯的細(xì)節(jié),確保最終答案的準(zhǔn)確性和完整性。
三、創(chuàng)新的獎勵機制讓團隊協(xié)作更默契
為了讓這四個智能體更好地協(xié)作,研究團隊設(shè)計了一套混合獎勵建模系統(tǒng)。這就像在一個公司里,既要考核每個員工的個人業(yè)績,也要評估整個團隊的協(xié)作效果。
對于規(guī)劃和執(zhí)行智能體,系統(tǒng)采用逐步獎勵的方式,對它們產(chǎn)出的每個步驟都進行評分。這種細(xì)致的評估方式就像老師批改作業(yè)時不僅看最終答案,還會檢查解題的每個步驟,這樣可以及時發(fā)現(xiàn)問題并給出針對性的指導(dǎo)。
對于判斷和答案智能體,系統(tǒng)則對它們的整體輸出進行評估,因為這兩個智能體的工作本質(zhì)上是對前面工作的整體性評判和總結(jié)。
除了這些針對性的獎勵外,系統(tǒng)還引入了全局獎勵機制,基于整個團隊協(xié)作產(chǎn)生的最終結(jié)果來評估所有智能體的表現(xiàn)。這種設(shè)計可以避免各個智能體只關(guān)注自己的局部任務(wù)而忽視整體目標(biāo)的問題,就像團隊獎金能夠促進成員之間更好的協(xié)作一樣。
四、量身定制的"加班"策略提升處理能力
研究團隊還為每個智能體設(shè)計了個性化的測試時計算擴展策略,這就像根據(jù)每個團隊成員的特長來分配不同強度的工作任務(wù)。
對于規(guī)劃智能體,系統(tǒng)采用并行擴展的方式。由于這個智能體本身就需要生成多個相關(guān)示例來輔助制定計劃,研究團隊進一步擴展了這個功能,讓它可以同時生成更多的參考計劃,從而增加找到最佳解決方案的可能性。這就像讓策略師同時考慮更多的備選方案,然后從中選擇最合適的。
執(zhí)行智能體采用的是逐步篩選的策略。對于執(zhí)行過程中的每個步驟,系統(tǒng)會生成多個候選執(zhí)行方案,然后使用預(yù)訓(xùn)練的獎勵模型對這些方案進行評分,選擇得分最高的方案作為該步驟的執(zhí)行結(jié)果,再以此為基礎(chǔ)進行下一步操作。這種方式就像在每個關(guān)鍵決策點都進行充分的對比分析,確保每一步都走在最優(yōu)路徑上。
判斷智能體使用的是預(yù)算強制擴展策略,這種方法會強制要求智能體進行更充分的思考。當(dāng)智能體的思考過程不夠深入時,系統(tǒng)會要求它繼續(xù)思考,直到達(dá)到預(yù)設(shè)的思考量標(biāo)準(zhǔn)。這就像要求質(zhì)檢員必須花足夠的時間仔細(xì)檢查每個細(xì)節(jié),不能草率了事。
答案智能體由于主要負(fù)責(zé)信息整合和總結(jié),其工作相對簡單,因此研究團隊沒有為它設(shè)計專門的擴展策略,以避免不必要的計算開銷。
五、訓(xùn)練過程分為兩個階段循序漸進
整個系統(tǒng)的訓(xùn)練采用了兩階段的方式,就像培養(yǎng)一個專業(yè)團隊需要先進行基礎(chǔ)培訓(xùn),再進行實戰(zhàn)演練一樣。
第一階段是監(jiān)督微調(diào)階段,研究團隊首先選擇了三組不同的基礎(chǔ)模型作為起點。對于需要處理視覺信息的規(guī)劃和執(zhí)行智能體,他們選用視覺語言模型;對于主要處理文本信息的判斷和答案智能體,則選用語言模型。在這個階段,團隊使用精心收集的文檔理解和問答數(shù)據(jù)集對這些基礎(chǔ)模型進行專門訓(xùn)練,提升它們的視覺理解和推理能力。
接著,他們使用GPT-4o和基于規(guī)則的驗證方法生成判斷標(biāo)簽,訓(xùn)練判斷智能體的錯誤識別能力。同時,他們還訓(xùn)練答案智能體學(xué)會整合前面智能體的輸出并生成高質(zhì)量的最終答案。
第二階段是強化學(xué)習(xí)階段,這時四個智能體開始真正的團隊協(xié)作訓(xùn)練。系統(tǒng)使用預(yù)訓(xùn)練的獎勵模型來生成獎勵信號,通過GRPO算法對整個協(xié)作框架進行優(yōu)化。在這個過程中,規(guī)劃和執(zhí)行智能體會收到逐步的過程獎勵反饋,而判斷和答案智能體則收到整體的結(jié)果獎勵。全局獎勵則基于整個團隊協(xié)作產(chǎn)生的最終答案質(zhì)量來計算,這樣可以確保各個智能體不僅要做好自己的工作,還要考慮與其他成員的協(xié)作效果。
六、在十五個基準(zhǔn)測試中表現(xiàn)卓越
為了全面評估MACT系統(tǒng)的性能,研究團隊在15個不同的基準(zhǔn)測試數(shù)據(jù)集上進行了詳細(xì)的實驗。這些數(shù)據(jù)集涵蓋了四種主要的文檔類型和兩種非文檔類型的任務(wù)。
在文檔理解方面,團隊測試了基于文本的文檔(如DocVQA、DUDE、SlideVQA、MMLongBench-Doc),基于網(wǎng)頁的文檔(如VisualMRC、InfographicVQA),基于圖表的文檔(如ChartQA、CharXiv),以及基于表格的文檔(如TableVQA-Bench、TableBench)。
為了確保系統(tǒng)沒有過度專門化而失去通用能力,他們還在一般性任務(wù)(ScienceQA、RealWorldQA)和數(shù)學(xué)推理任務(wù)(MathVista、Math-Vision、MathVerse)上進行了測試。
實驗結(jié)果非常令人鼓舞。MACT系統(tǒng)的三個變體在平均得分上分別取得了前三名的成績,在15個基準(zhǔn)測試中有13個獲得了最佳表現(xiàn)。特別值得注意的是,在需要處理長視覺上下文的MMLongBench-Doc測試中,以及在三個數(shù)學(xué)推理基準(zhǔn)測試中,MACT-MiMo-VL-Series-28B變體的表現(xiàn)分別超過了第二名7.1%、10.6%、5.9%和8.7%。
更令人印象深刻的是,MACT系統(tǒng)雖然參數(shù)總數(shù)不到30B,但其性能不僅超過了所有參數(shù)在100B以下的比較方法,甚至還優(yōu)于一些閉源的大規(guī)模模型。與基礎(chǔ)模型相比,MACT的三個變體平均性能提升了10.3%、9.9%和11.5%。
七、深入分析驗證設(shè)計的有效性
研究團隊進行了詳細(xì)的消融實驗來驗證各個組件的貢獻(xiàn)。他們發(fā)現(xiàn),多智能體協(xié)作框架是性能提升的最主要因素,相比單智能體系統(tǒng)帶來了8.6%的平均性能提升。有趣的是,如果簡單地將所有功能集成到一個智能體中,性能甚至?xí)然A(chǔ)模型更差,這說明了專門化分工的重要性。
混合獎勵建模策略貢獻(xiàn)了3.4%的性能提升,而智能體級混合測試時擴展策略則帶來了3.7%的改善。在復(fù)雜任務(wù)上,后者的改善效果更加明顯,這驗證了為不同智能體定制不同擴展策略的合理性。
關(guān)于判斷智能體的設(shè)計,實驗證明了研究團隊的創(chuàng)新方法確實優(yōu)于傳統(tǒng)的糾錯機制。相比于內(nèi)部糾錯機制,獨立判斷智能體的方法在平均性能上提升了2.6%,同時需要的糾錯次數(shù)還更少。這種"專人專職"的設(shè)計避免了傳統(tǒng)方法中可能出現(xiàn)的主觀偏見問題,也避免了不同功能模塊之間可能產(chǎn)生的沖突。
八、各種參數(shù)設(shè)置的影響分析
研究團隊還詳細(xì)分析了各種參數(shù)設(shè)置對系統(tǒng)性能的影響。他們發(fā)現(xiàn),增加相關(guān)計劃的生成數(shù)量Np和執(zhí)行候選方案的數(shù)量Ne都能提升系統(tǒng)性能,但收益會逐漸遞減。當(dāng)Np和Ne都設(shè)置為16時,系統(tǒng)達(dá)到了性能和計算成本的最佳平衡點。
在糾錯次數(shù)的設(shè)置上,研究團隊發(fā)現(xiàn)將最大糾錯次數(shù)設(shè)置為3次能夠獲得最佳效果。過少的糾錯次數(shù)無法充分發(fā)揮質(zhì)量控制的作用,而過多的糾錯次數(shù)反而可能讓智能體陷入混亂,影響最終的答案質(zhì)量。
實驗還顯示,全局獎勵雖然單獨貢獻(xiàn)有限,但它能夠有效避免智能體過于關(guān)注局部目標(biāo)而忽視整體協(xié)作效果的問題,對于復(fù)雜任務(wù)的處理特別有價值。個性化的測試時擴展策略比統(tǒng)一的擴展策略效果更好,這證明了根據(jù)每個智能體的特點進行定制化設(shè)計的重要性。
說到底,這項研究展示了一個非常有趣的現(xiàn)象:有時候"團隊協(xié)作"確實比"單打獨斗"更有效。通過讓多個相對較小的AI模型各司其職、協(xié)同工作,MACT系統(tǒng)在文檔理解和問答任務(wù)上取得了令人矚目的成果。這種方法不僅在技術(shù)上具有創(chuàng)新性,在實用性上也很有前景,特別是對那些計算資源有限但又需要處理復(fù)雜文檔任務(wù)的應(yīng)用場景。
研究團隊的工作為多智能體系統(tǒng)在視覺語言理解領(lǐng)域的應(yīng)用開辟了新的方向,也為如何更好地設(shè)計和訓(xùn)練協(xié)作型AI系統(tǒng)提供了寶貴的經(jīng)驗。隨著這種技術(shù)的進一步發(fā)展和優(yōu)化,我們可能會看到更多能夠像人類團隊一樣高效協(xié)作的AI系統(tǒng)出現(xiàn),為解決現(xiàn)實世界中的復(fù)雜問題提供新的可能性。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過研究團隊提供的開源代碼庫https://github.com/YU-deep/MACT.git獲取更多信息。
Q&A
Q1:MACT系統(tǒng)是什么?它是如何工作的?
A:MACT是一個多智能體協(xié)作框架,由四個專門的AI"專家"組成:規(guī)劃智能體負(fù)責(zé)制定解決方案,執(zhí)行智能體負(fù)責(zé)具體實施,判斷智能體負(fù)責(zé)質(zhì)量檢查,答案智能體負(fù)責(zé)最終總結(jié)。它們像一個專業(yè)團隊一樣分工協(xié)作,處理復(fù)雜的文檔理解和問答任務(wù)。
Q2:為什么MACT系統(tǒng)比單個大模型表現(xiàn)更好?
A:MACT系統(tǒng)通過專門化分工和協(xié)作機制,讓每個智能體專注于自己擅長的任務(wù),避免了單個模型需要同時處理多種復(fù)雜任務(wù)時可能出現(xiàn)的能力稀釋。同時,獨立的判斷智能體提供了更客觀的質(zhì)量控制,混合獎勵機制確保了個體表現(xiàn)和團隊協(xié)作的平衡。
Q3:MACT系統(tǒng)主要解決了現(xiàn)有AI模型的哪些問題?
A:MACT主要解決了三個關(guān)鍵問題:參數(shù)規(guī)模限制導(dǎo)致的性能不足,缺乏有效的自我糾錯機制,以及在處理長篇文檔和復(fù)雜推理任務(wù)時表現(xiàn)不佳的問題。通過多智能體協(xié)作和創(chuàng)新的糾錯設(shè)計,系統(tǒng)在這些方面都有顯著改善。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。