這項由人大高瓴人工智能學院的金嘉杰、李小汐、董冠廷等研究團隊完成的創(chuàng)新研究發(fā)表于2025年7月,論文題為《Decoupled Planning and Execution: A Hierarchical Reasoning Framework for Deep Search》。有興趣深入了解的讀者可以通過GitHub代碼庫https://github.com/ignorejjj/HiRA訪問相關資源。
當我們在網(wǎng)上搜索復雜問題時,往往需要查閱多個網(wǎng)頁、對比不同信息、甚至進行計算驗證,這個過程需要大量的思考和決策?,F(xiàn)在的AI助理雖然聰明,但面對這類復雜任務時就像一個全能選手試圖同時處理太多事情,結(jié)果往往顧此失彼。人大團隊的這項研究提出了一個全新的解決方案:讓AI像現(xiàn)實中的工作團隊一樣分工合作,有人負責制定總體計劃,有人負責具體執(zhí)行,各司其職卻又協(xié)調(diào)配合。
傳統(tǒng)的AI搜索就像一個人既要當導演又要當演員,還要兼任攝影師和剪輯師。這種"一人身兼數(shù)職"的模式雖然看似高效,但實際上會因為任務過多而導致思路混亂,最終影響工作質(zhì)量。研究團隊發(fā)現(xiàn),當AI系統(tǒng)試圖在推理過程中直接調(diào)用搜索工具、處理圖片或執(zhí)行代碼時,這些具體操作的細節(jié)會干擾其高層次的邏輯思考,就像一個指揮家在指揮交響樂時突然被要求去調(diào)試音響設備一樣。
為了解決這個問題,研究團隊開發(fā)了名為HiRA(Hierarchical ReAsoning)的框架,這個系統(tǒng)就像一個高效的企業(yè)組織架構。在這個"企業(yè)"中,有一個負責戰(zhàn)略規(guī)劃的"總經(jīng)理"(元推理規(guī)劃器),一個負責任務分配和協(xié)調(diào)的"項目經(jīng)理"(自適應推理協(xié)調(diào)器),還有多個各有專長的"部門主管"(領域?qū)iT執(zhí)行器)。每個角色都專注于自己最擅長的工作,通過有序的溝通和協(xié)作來完成復雜任務。
這種分工協(xié)作的理念源于一個簡單卻深刻的觀察:在現(xiàn)實生活中,最優(yōu)秀的團隊往往不是由全能型人才組成的,而是由專業(yè)分工明確、協(xié)作高效的專家團隊構成的。一家成功的餐廳不會讓主廚同時兼任服務員和收銀員,同樣,AI系統(tǒng)也不應該讓同一個模型既做抽象規(guī)劃又處理具體執(zhí)行細節(jié)。
HiRA系統(tǒng)的核心創(chuàng)新在于建立了三層清晰的分工體系。最上層是元推理規(guī)劃器,它就像一個經(jīng)驗豐富的項目經(jīng)理,負責理解用戶的復雜需求,將其分解為一系列具體可執(zhí)行的子任務。這個規(guī)劃器不需要關心具體如何搜索網(wǎng)頁或處理圖片,它只需要用自然語言描述"需要搜索ASEAN國家列表"或"需要計算兩個城市之間的距離"這樣的子任務。
中間層是自適應推理協(xié)調(diào)器,扮演著"項目經(jīng)理"的角色。它接收來自上層的子任務描述,分析每個任務的特點和難度,然后決定派遣哪個專門團隊來處理。如果任務需要深度網(wǎng)絡搜索,它會選擇搜索專家;如果需要處理圖片或視頻,它會指派多模態(tài)專家;如果需要編程計算,它會安排代碼專家。更重要的是,這個協(xié)調(diào)器還負責將專家的工作成果轉(zhuǎn)化為易懂的形式,反饋給上層規(guī)劃器。
最底層是各個領域的專門執(zhí)行器,它們就像不同部門的技術專家。搜索專家擅長在網(wǎng)絡上查找信息,既能進行快速的事實查詢,也能進行深度的多輪探索;多模態(tài)專家能夠理解和分析圖片、視頻、音頻等不同類型的媒體內(nèi)容;計算推理專家則能夠編寫和執(zhí)行代碼,處理需要精確計算的任務。每個專家都專注于自己的專長領域,通過多輪思考和工具調(diào)用來完成分配的任務。
為了確保這個"團隊"能夠高效協(xié)作,研究團隊還設計了一套雙通道記憶機制,就像公司的知識管理系統(tǒng)。這套系統(tǒng)包含兩種類型的記憶:事實記憶和資源記憶。事實記憶存儲各個專家在工作過程中發(fā)現(xiàn)的重要信息和結(jié)論,并記錄這些信息的來源,確??勺匪菪?。資源記憶則保存有用的信息資源路徑,如網(wǎng)頁鏈接、文件位置等,為后續(xù)任務提供參考。這樣,當處理相關任務時,新的專家可以利用之前的發(fā)現(xiàn),避免重復勞動。
這種分工協(xié)作的設計帶來了顯著的優(yōu)勢。首先是思路更加清晰,上層規(guī)劃器不再被具體操作的細節(jié)所干擾,能夠?qū)W⒂谶壿嬐评砗筒呗灾贫?。其次是?zhí)行更加高效,每個專家都能在自己擅長的領域發(fā)揮最大效能。再次是擴展性更強,當需要增加新的能力時,只需要添加相應的專家模塊,而不需要重新訓練整個系統(tǒng)。
為了驗證這套系統(tǒng)的效果,研究團隊在四個具有挑戰(zhàn)性的深度搜索任務上進行了全面測試。這些任務涵蓋了不同的難度等級和應用場景,包括需要多步推理的通用AI助理任務、需要網(wǎng)頁導航的信息檢索任務、需要事實核查的簡單問答,以及需要復雜推理的學術問題。
在通用AI助理測試中,HiRA系統(tǒng)的表現(xiàn)最為出色。這類任務通常需要綜合運用多種能力,比如搜索信息、處理文件、進行計算等。傳統(tǒng)的單一模型方法在這種復雜任務上往往力不從心,而HiRA系統(tǒng)通過合理的任務分解和專家協(xié)作,能夠系統(tǒng)性地處理各個環(huán)節(jié)。實驗結(jié)果顯示,HiRA在最困難的任務級別上達到了15.8%的準確率,而傳統(tǒng)方法只有0-5.2%的表現(xiàn)。
網(wǎng)頁導航任務的測試結(jié)果同樣令人鼓舞。這類任務要求AI系統(tǒng)能夠在多個網(wǎng)頁之間跳轉(zhuǎn),提取和整合信息。HiRA系統(tǒng)在不同難度級別上都表現(xiàn)出了穩(wěn)定的優(yōu)勢,特別是在需要深度探索的困難任務上,其54.2%的準確率明顯超過了其他方法的31.3-53.0%。
在事實核查任務上,HiRA系統(tǒng)展現(xiàn)了其在處理大量信息時的優(yōu)勢。雖然這類任務相對簡單,但需要快速準確地從海量信息中提取相關事實。HiRA的81.5%準確率證明了其在信息檢索和驗證方面的可靠性。
最有挑戰(zhàn)性的學術問題測試進一步證實了分工協(xié)作的價值。這些問題通常涉及數(shù)學、物理、計算機科學等多個領域,需要深度的推理和計算。雖然所有系統(tǒng)在這類任務上的整體表現(xiàn)都不算很高,但HiRA的14.2%準確率仍然顯示出其在處理復雜推理任務時的潛力。
為了更深入地理解系統(tǒng)各個組件的作用,研究團隊還進行了詳細的消融實驗。這些實驗就像拆解一臺精密機器,逐個移除不同部件來觀察性能變化。結(jié)果發(fā)現(xiàn),協(xié)調(diào)器的推理轉(zhuǎn)移機制最為關鍵,當移除這個功能時,系統(tǒng)性能出現(xiàn)了顯著下降。這說明合理的任務分配和專家選擇對整體效果至關重要。
記憶機制的重要性也得到了驗證,特別是在涉及文件處理的任務中。當移除記憶功能時,系統(tǒng)需要重復獲取已經(jīng)處理過的信息,導致效率降低。這就像團隊成員沒有共享的工作記錄,總是在重復別人已經(jīng)做過的工作。
在執(zhí)行層面,不同類型專家的貢獻各有不同。搜索專家的作用最為明顯,移除后系統(tǒng)在所有任務上都出現(xiàn)大幅性能下降,這不難理解,因為深度搜索任務本質(zhì)上都需要從網(wǎng)絡獲取信息。代碼專家的重要性在多功能任務中表現(xiàn)突出,而多模態(tài)專家雖然影響相對較小,但在涉及圖片、視頻處理的特定任務中仍然不可或缺。
效率分析結(jié)果也很有啟發(fā)性。相比于直接將所有工具集成到單一模型中的方法,HiRA系統(tǒng)實際上使用了更少的推理步驟和環(huán)境交互次數(shù)。這看似矛盾的結(jié)果實際上反映了分工協(xié)作的效率優(yōu)勢:每個專家在自己的領域內(nèi)能夠更快地找到解決方案,避免了單一模型在多個工具之間反復嘗試的低效模式。
研究團隊通過一個具體案例生動地展示了HiRA系統(tǒng)的工作流程。這個案例要求找出ASEAN國家中首都地理距離最遠的兩個國家。系統(tǒng)首先通過元推理規(guī)劃器分析任務,認識到需要先獲取ASEAN國家列表,然后計算各首都之間的距離。隨后,協(xié)調(diào)器將信息搜索任務分配給搜索專家,將距離計算任務分配給代碼專家。
在執(zhí)行過程中,系統(tǒng)還展現(xiàn)了自我糾錯的能力。當代碼專家在處理緬甸首都名稱時遇到拼寫問題導致搜索失敗,協(xié)調(diào)器能夠識別這個問題,重新分配任務確認正確的拼寫,然后讓代碼專家用正確信息重新計算。這種自適應調(diào)整能力是傳統(tǒng)單一模型方法難以實現(xiàn)的。
這項研究的意義遠超出了技術本身的創(chuàng)新。它為AI系統(tǒng)的設計提供了一個新的思路:不是追求單一模型的全能性,而是通過合理的分工協(xié)作來實現(xiàn)復雜任務的高效處理。這種理念在其他AI應用領域也有廣闊的應用前景,比如自動化軟件開發(fā)、科學研究輔助、教育個性化等場景。
從實用角度來看,HiRA系統(tǒng)的模塊化設計使其具有很強的擴展性和適應性。當需要處理新類型的任務時,只需要開發(fā)相應的專家模塊并接入?yún)f(xié)調(diào)框架,而不需要重新設計整個系統(tǒng)。這種設計理念對于實際部署具有重要價值,特別是在需要快速適應新需求的商業(yè)環(huán)境中。
當然,這項研究也面臨一些挑戰(zhàn)和限制。多模型協(xié)作必然帶來額外的計算開銷和復雜性,如何在性能提升和資源消耗之間找到平衡點是一個需要持續(xù)優(yōu)化的問題。此外,不同專家之間的協(xié)調(diào)機制還有進一步完善的空間,特別是在處理更加復雜和開放性的任務時。
展望未來,這種分工協(xié)作的AI系統(tǒng)設計理念可能會催生更多創(chuàng)新應用。我們可能會看到專門處理不同學科問題的AI專家團隊,或者能夠模擬不同角色視角的創(chuàng)意工作助手。更進一步,這種理念甚至可能影響整個AI行業(yè)的發(fā)展方向,從追求通用人工智能的單一模型轉(zhuǎn)向構建高效協(xié)作的AI生態(tài)系統(tǒng)。
說到底,HiRA系統(tǒng)的核心價值在于證明了一個簡單而深刻的道理:有時候,最好的解決方案不是讓一個人做所有事情,而是讓合適的人做合適的事情。在AI快速發(fā)展的今天,這種"術業(yè)有專攻"的設計理念可能為我們開啟了一扇通往更智能、更高效AI系統(tǒng)的大門。對于普通用戶而言,這意味著未來的AI助理將能夠更好地理解和處理復雜需求,提供更準確、更有用的幫助。
Q&A
Q1:HiRA系統(tǒng)和傳統(tǒng)AI搜索有什么區(qū)別? A:傳統(tǒng)AI搜索像一個人既當導演又當演員,容易顧此失彼。HiRA系統(tǒng)則像一個專業(yè)團隊,有負責規(guī)劃的"總經(jīng)理"、負責協(xié)調(diào)的"項目經(jīng)理"和各有專長的"部門專家",通過分工協(xié)作來處理復雜任務,效率更高、結(jié)果更準確。
Q2:這種分工協(xié)作的方式會不會讓AI變得更復雜難用? A:恰恰相反,對用戶來說使用會更簡單。用戶只需要向系統(tǒng)提出問題,系統(tǒng)內(nèi)部會自動進行任務分解和專家協(xié)調(diào),用戶不需要了解具體的執(zhí)行過程。就像去餐廳吃飯,你只需要點菜,不需要管廚房里是怎么分工的。
Q3:HiRA系統(tǒng)能處理哪些類型的任務? A:HiRA系統(tǒng)特別擅長需要綜合多種能力的復雜搜索任務,比如需要搜索網(wǎng)頁、處理圖片視頻、進行計算驗證的問題。實驗顯示它在通用AI助理任務、網(wǎng)頁導航、事實核查和學術問題等方面都有顯著提升,準確率比傳統(tǒng)方法高出很多。
好文章,需要你的鼓勵
北航團隊推出Easy Dataset框架,通過直觀的圖形界面和角色驅(qū)動的生成方法,讓普通用戶能夠輕松將各種格式文檔轉(zhuǎn)換為高質(zhì)量的AI訓練數(shù)據(jù)。該工具集成了智能文檔解析、混合分塊策略和個性化問答生成功能,在金融領域?qū)嶒炛酗@著提升了AI模型的專業(yè)表現(xiàn),同時保持通用能力。項目已開源并獲得超過9000顆GitHub星標。
盧森堡計算機事件響應中心開發(fā)的VLAI系統(tǒng),基于RoBERTa模型,能夠通過閱讀漏洞描述自動判斷危險等級。該系統(tǒng)在60萬個真實漏洞數(shù)據(jù)上訓練,準確率達82.8%,已集成到實際安全服務中。研究采用開源方式,為網(wǎng)絡安全專家提供快速漏洞風險評估工具,有效解決了官方評分發(fā)布前的安全決策難題。
中國電信研究院等機構聯(lián)合開發(fā)的xVerify系統(tǒng),專門解決復雜AI推理模型的評估難題。該系統(tǒng)能夠準確判斷包含多步推理過程的AI輸出,在準確率和效率方面均超越現(xiàn)有方法,為AI評估領域提供了重要突破。
昆侖公司Skywork AI團隊開發(fā)的Skywork R1V模型,成功將文本推理能力擴展到視覺領域。該模型僅用380億參數(shù)就實現(xiàn)了與大型閉源模型相媲美的多模態(tài)推理性能,在MMMU測試中達到69.0分,在MathVista獲得67.5分,同時保持了優(yōu)秀的文本推理能力。研究團隊采用高效的多模態(tài)遷移、混合優(yōu)化框架和自適應推理鏈蒸餾三項核心技術,成功實現(xiàn)了視覺理解與邏輯推理的完美結(jié)合,并將所有代碼和權重完全開源。