加州大學(xué)戴維斯分校的Kunal Pai、獨立研究者Parth Shah和加州大學(xué)戴維斯分校的Harshil Patel在2025年6月1日發(fā)布了一篇引人注目的研究論文《HASHIRU: Hierarchical Agent System for Hybrid Intelligent Resource Utilization》(層級化混合智能資源利用智能體系統(tǒng))。這篇論文已發(fā)布在arXiv預(yù)印本平臺(arXiv:2506.04255v1),有興趣深入了解的讀者可以通過arXiv網(wǎng)站訪問完整論文。
一、為什么我們需要更智能的AI合作團(tuán)隊?
想象一下,你是一家公司的老板,需要組建一個團(tuán)隊來完成各種復(fù)雜任務(wù)。你會怎么做?你可能會根據(jù)任務(wù)需求招聘合適的專家,在項目結(jié)束后解散不再需要的團(tuán)隊成員,并時刻關(guān)注團(tuán)隊的運營成本。在人工智能世界中,研究者們正在嘗試創(chuàng)建類似的"AI團(tuán)隊",讓多個AI智能體(agent)協(xié)同工作,共同解決復(fù)雜問題。
隨著大型語言模型(LLM)技術(shù)的飛速發(fā)展,這些模型已經(jīng)展現(xiàn)出令人驚嘆的語言理解、生成、推理和規(guī)劃能力。研究者們開始利用這些能力,構(gòu)建多智能體系統(tǒng)(Multi-Agent System,簡稱MAS),讓AI"團(tuán)隊"協(xié)同工作,解決單個AI無法應(yīng)對的復(fù)雜問題。這些系統(tǒng)已在科學(xué)發(fā)現(xiàn)、軟件工程、數(shù)據(jù)分析和決策制定等領(lǐng)域顯示出巨大潛力。
然而,當(dāng)前的多智能體框架存在幾個明顯的局限性:
首先是僵化性。許多系統(tǒng)使用預(yù)定義的角色,難以適應(yīng)不斷變化的任務(wù)需求。就像一家只雇傭固定崗位員工的公司,當(dāng)面臨新挑戰(zhàn)時會顯得力不從心。
其次是資源浪費。很多系統(tǒng)不關(guān)注計算資源的優(yōu)化,無論是API調(diào)用費用、內(nèi)存還是CPU使用,都缺乏有效管理機(jī)制,尤其在使用昂貴的專有大型語言模型時,成本問題尤為突出。
第三是模型單一性。大多數(shù)系統(tǒng)默認(rèn)使用單一的強(qiáng)大LLM,忽視了使用多樣化、更小或本地模型可能帶來的效率提升。
最后是缺乏自主工具創(chuàng)建和集成能力,限制了系統(tǒng)的動態(tài)自我提升。
二、HASHIRU:一個更靈活、更高效的AI團(tuán)隊管理系統(tǒng)
為解決這些問題,研究團(tuán)隊設(shè)計了HASHIRU(Hierarchical Agent System for Hybrid Intelligent Resource Utilization,層級化混合智能資源利用智能體系統(tǒng))。如果把傳統(tǒng)AI系統(tǒng)比作固定編制的團(tuán)隊,那么HASHIRU就像一個靈活高效的現(xiàn)代企業(yè),有明確的層級管理,合理分配資源,并能根據(jù)需求動態(tài)調(diào)整團(tuán)隊結(jié)構(gòu)。
HASHIRU的核心是一個類似"CEO"的中央智能體,它動態(tài)管理一組專業(yè)化的"員工"智能體。這些"員工"根據(jù)任務(wù)需求和資源限制(成本、內(nèi)存)被即時創(chuàng)建或銷毀。系統(tǒng)的混合智能策略優(yōu)先使用更小、本地的LLM(通常通過Ollama平臺運行3B-7B參數(shù)規(guī)模的模型),同時在必要時靈活使用外部API和更大的模型。
HASHIRU還引入了經(jīng)濟(jì)模型,設(shè)置了"雇傭"和"調(diào)用"費用,以促進(jìn)團(tuán)隊穩(wěn)定性和高效資源分配。系統(tǒng)還包括自主API工具創(chuàng)建功能和記憶功能,使其能夠不斷學(xué)習(xí)和適應(yīng)。
三、HASHIRU如何工作:智能的層級化管理
HASHIRU的架構(gòu)就像一個真實公司的組織結(jié)構(gòu)。在頂層,有一個"CEO"智能體作為中央?yún)f(xié)調(diào)者和入口點。這位"CEO"負(fù)責(zé)理解用戶查詢、將主要任務(wù)分解為子任務(wù)、識別所需能力、管理"員工"池、分配子任務(wù)、監(jiān)控進(jìn)度、整合結(jié)果、管理整體資源預(yù)算,以及在必要時創(chuàng)建新工具。
研究團(tuán)隊選擇了Gemini 2.0 Flash作為CEO智能體,因為它具有強(qiáng)大的基礎(chǔ)推理能力、工具使用支持和成本效益,使其成為實際部署的實用選擇。為增強(qiáng)其規(guī)劃和推理能力,系統(tǒng)提示被設(shè)計為在處理復(fù)雜查詢和管理子任務(wù)時激發(fā)內(nèi)在的思維鏈過程。
"員工"智能體則是由CEO根據(jù)特定子任務(wù)實例化的專業(yè)智能體。每個員工通常包裝一個LLM(通過Ollama本地運行或通過外部API)或提供工具訪問。它們的特點是專業(yè)化(針對特定任務(wù)類型如代碼、數(shù)據(jù)分析、信息檢索等定制能力)、動態(tài)存在(根據(jù)需要/表現(xiàn)由CEO創(chuàng)建/銷毀)、任務(wù)執(zhí)行(接收任務(wù)、執(zhí)行、返回結(jié)果)和資源消耗(系統(tǒng)追蹤相關(guān)成本如API、硬件利用率)。
這些專業(yè)化的員工智能體基于Mistral 7B、Llama 3、Gemini 1.5、Qwen2.5和DeepSeek-R1等基礎(chǔ)模型構(gòu)建,CEO根據(jù)任務(wù)需求為它們生成定制系統(tǒng)提示。模型可以通過Ollama在本地運行,也可以通過API調(diào)用外部模型,如Gemini 2.5 Flash、Qwen QwQ、Llama 4、Mistral Saba、Hermes3等,以及托管在Hugging Face、Groq、Lambda.ai等平臺上的其他模型。
四、動態(tài)智能體生命周期管理:按需雇傭與解雇
HASHIRU的一個核心創(chuàng)新是CEO對"員工"智能體的動態(tài)管理(雇傭/解雇)。這就像一個老板根據(jù)公司需求和預(yù)算來決定何時雇傭新員工或裁員。
當(dāng)一個子任務(wù)需要不可用或無法高效提供的能力時,CEO可能會雇傭一個新智能體。相反,如果一個智能體表現(xiàn)不佳、閑置、成本高昂,或資源限制接近上限,CEO可能會解雇它。決策因素包括任務(wù)需求(等待中子任務(wù)所需的能力)、智能體表現(xiàn)(歷史成功率、輸出質(zhì)量、效率)和運營成本(API、估計計算量或其他成本)。
HASHIRU還包含一個經(jīng)濟(jì)模型:
雇傭成本("入職獎金"):本地模型實例化時產(chǎn)生的一次性成本,代表設(shè)置開銷。這個成本可以根據(jù)模型的資源配置定量調(diào)整(例如,需要更多VRAM或復(fù)雜設(shè)置的模型成本更高)。
調(diào)用成本("薪資"):每次使用本地模型時產(chǎn)生的經(jīng)常性成本,反映操作負(fù)載(如推斷計算、系統(tǒng)資源參與)。這抽象了給定任務(wù)使用本地資源的成本。
支出成本:外部API調(diào)用的經(jīng)常性成本(如OpenAI、Anthropic),通常根據(jù)API提供商記錄的定價按令牌使用量計算。
這些交易成本抑制了過度頻繁的變動,促進(jìn)團(tuán)隊穩(wěn)定性。CEO會評估更換一個智能體的收益是否超過雇傭/解雇成本加上運營差異。這既打擊了僵化性又允許在管理預(yù)算的同時進(jìn)行適應(yīng),防止浪費性的頻繁人員更替。
五、混合智能與模型管理:資源的智能調(diào)配
HASHIRU設(shè)計用于混合智能,利用多樣化的認(rèn)知資源。它戰(zhàn)略性地優(yōu)先使用更?。?B-7B)、成本效益更高的本地LLM,通過Ollama集成增強(qiáng)效率、減少對外部API的依賴,并潛在地改善隱私/延遲。
系統(tǒng)還整合了外部LLM API(必要時訪問Gemini 2.5 Flash等強(qiáng)大LLM)、外部工具API(第三方軟件/數(shù)據(jù)源集成)和自創(chuàng)API(由HASHIRU生成的工具)。
CEO管理這個異構(gòu)資源池,根據(jù)難度、能力和預(yù)算選擇最合適的資源。這平衡了成本效益和效率與高能力需求。
六、資源監(jiān)控與控制:時刻關(guān)注預(yù)算和性能
顯式資源管理是HASHIRU的核心,超越簡單的API成本跟蹤。系統(tǒng)在CEO的協(xié)調(diào)下監(jiān)控:
成本:外部API費用根據(jù)公布的定價累計,而本地智能體的"雇傭"和調(diào)用成本則根據(jù)其內(nèi)存使用情況計算。
內(nèi)存使用:跟蹤所有活躍"員工"智能體的組合VRAM占用,作為總本地模型GPU預(yù)算的百分比(例如,16 GiB VRAM容量代表100%)。這個指標(biāo)確保我們保持在預(yù)定義的內(nèi)存限制內(nèi)。
七、工具利用與自主創(chuàng)建:擴(kuò)展AI的能力邊界
HASHIRU的CEO使用預(yù)定義工具(函數(shù)、API、數(shù)據(jù)庫)進(jìn)行交互并執(zhí)行超出文本生成的操作。
一個獨特的功能是集成的自主工具創(chuàng)建。如果CEO確定所需功能缺失,它可以啟動新工具創(chuàng)建。這涉及:
1. 定義工具規(guī)范(輸入、輸出、功能) 2. 委托邏輯生成(代碼,可能使用提供的憑證通過外部API,可能通過代碼生成智能體) 3. 將邏輯部署為HASHIRU內(nèi)的新可調(diào)用API端點
為實現(xiàn)這種自主創(chuàng)建,HASHIRU采用少樣本提示方法,分析系統(tǒng)內(nèi)現(xiàn)有工具以學(xué)習(xí)如何指定和實現(xiàn)新工具。系統(tǒng)然后可以通過分析執(zhí)行錯誤或次優(yōu)輸出迭代地改進(jìn)生成的工具代碼,促進(jìn)自我修正。這使HASHIRU能夠動態(tài)擴(kuò)展其功能庫,定制能力以適應(yīng)任務(wù),無需手動干預(yù),實現(xiàn)更大的自主性和適應(yīng)性。
八、記憶功能:從經(jīng)驗中學(xué)習(xí)
HASHIRU為其CEO集成了記憶功能,使其能從過去互動中學(xué)習(xí)并糾正錯誤。這個功能存儲重要過去事件的歷史日志,特別是那些涉及失敗嘗試或次優(yōu)結(jié)果的事件。遇到新的或重復(fù)的挑戰(zhàn)時,系統(tǒng)會查詢這個記憶。
檢索依賴于當(dāng)前上下文(如任務(wù)描述、最近行動、錯誤消息)與存儲的記憶條目之間的語義相似性。由all-MiniLM-L6-v2模型生成的嵌入表示查詢和記憶,余弦相似度確定相關(guān)性。超過預(yù)定義相似度閾值的記憶被檢索,為智能體提供上下文信息。
這使系統(tǒng)能夠汲取過去經(jīng)驗,理解為什么之前的方法失敗,調(diào)整策略以避免重復(fù)錯誤,從而隨著時間推移提高性能和效率。這個過程,用檢索到的知識增強(qiáng)決策,與檢索增強(qiáng)生成(RAG)概念一致,并支持通過反思過去行動來學(xué)習(xí),類似于自反思RAG和Reflexion等框架中的想法。
九、實際應(yīng)用案例:自我完善的AI團(tuán)隊
研究團(tuán)隊提供了四個案例研究,展示HASHIRU的自我完善能力:
首先是自動生成智能體專業(yè)化的成本模型。準(zhǔn)確的成本模型對HASHIRU的資源優(yōu)化至關(guān)重要。HASHIRU通過使用其網(wǎng)絡(luò)搜索能力自動收集本地模型性能(如在16 GiB VRAM上)和云API成本數(shù)據(jù),將其整合到內(nèi)部模型中,自動完成了傳統(tǒng)上手動的研究過程。
其次是CEO智能體的自主工具集成。為擴(kuò)展其操作范圍,HASHIRU自主集成新工具。它通過使用現(xiàn)有工具模板的少樣本學(xué)習(xí)方法和迭代錯誤修復(fù),簡化了手動工具開發(fā)過程。新生成的工具直接集成到代碼庫中,減少了開發(fā)開銷并增強(qiáng)了適應(yīng)性,實現(xiàn)了動態(tài)工具創(chuàng)建,最小化人工干預(yù)。
第三是自主預(yù)算管理?;贏PI的LLM常見問題是令牌計費可能導(dǎo)致成本快速上升。HASHIRU通過一個自我調(diào)節(jié)機(jī)制緩解這一問題,該機(jī)制自主監(jiān)控預(yù)算分配,持續(xù)跟蹤支出與預(yù)定義限制的對比。這種主動方法防止超支并優(yōu)化資源利用,確保成本效益。
最后是通過錯誤分析和知識檢索從經(jīng)驗中學(xué)習(xí)。HASHIRU使用兩階段自我改進(jìn)循環(huán)學(xué)習(xí)經(jīng)驗。首先,在不正確響應(yīng)后(如在Humanity's Last Exam基準(zhǔn)測試上),它生成語言批評和可操作指導(dǎo),類似"口頭強(qiáng)化學(xué)習(xí)"。其次,這一反饋被索引到檢索增強(qiáng)生成(RAG)存儲系統(tǒng)中,允許在未來類似問題中檢索。這個過程,也反映了人類反饋強(qiáng)化學(xué)習(xí)(RLHF)原則,使HASHIRU通過分析解決方案和生成可操作建議從錯誤中學(xué)習(xí)。
十、HASHIRU的性能表現(xiàn):實驗與結(jié)果
研究團(tuán)隊設(shè)計了實驗來評估HASHIRU的性能、效率和適應(yīng)性,目標(biāo)是評估其動態(tài)資源管理、混合智能和自主工具創(chuàng)建能力,并與基線(Gemini 2.0 Flash單獨操作)進(jìn)行比較。
在學(xué)術(shù)論文評審任務(wù)中,HASHIRU表現(xiàn)出58%的成功率。這個任務(wù)要求系統(tǒng)生成三個不同專業(yè)背景的評審,展示了HASHIRU分解復(fù)雜目標(biāo)、動態(tài)創(chuàng)建專業(yè)智能體團(tuán)隊的能力。
在安全評估上,使用JailbreakBench子集(專為測試LLM安全特性的對抗性提示),HASHIRU實現(xiàn)了100%的成功率,表明其層級控制和授權(quán)機(jī)制不會損害基礎(chǔ)CEO模型的安全防護(hù)。
在復(fù)雜推理任務(wù)上,HASHIRU在數(shù)學(xué)和形式推理任務(wù)上顯著優(yōu)于基線:JEEBench(80% vs 68.3%,p < 0.05)、GSM8K(96% vs 61%,p < 0.01)、SVAMP(92% vs 84%,p < 0.05)和MMLU數(shù)學(xué)(91.8% vs 87.2%,p < 0.05)。這些結(jié)果,特別是在數(shù)學(xué)和形式推理任務(wù)如GSM8K、SVAMP、JEEBench和MMLU數(shù)學(xué)上,凸顯了有效工具集成的重大影響,HASHIRU對此管理得當(dāng)。
然而,在MMLU法律(58.4% vs 61.6%,p > 0.05)和MMLU心理學(xué)(78.7% vs 78.3%,p > 0.05)等社會科學(xué)領(lǐng)域,即使使用Gemini 2.5 Flash等強(qiáng)大模型,HASHIRU也沒有表現(xiàn)出統(tǒng)計顯著的優(yōu)勢。這表明未來工作可以有益地探索更復(fù)雜的智能體選擇策略或開發(fā)專門針對這些領(lǐng)域推理微妙之處的專業(yè)智能體,而不僅僅依靠通用模型能力擴(kuò)展。
所有這些發(fā)現(xiàn)直接支持HASHIRU的核心貢獻(xiàn):動態(tài)資源感知智能體生命周期管理、優(yōu)先考慮成本效益本地LLM的混合智能模型、自主工具創(chuàng)建,以及促進(jìn)穩(wěn)定性和高效資源分配的經(jīng)濟(jì)模型。
十一、HASHIRU的局限性與未來方向
盡管HASHIRU展現(xiàn)出令人印象深刻的能力,研究團(tuán)隊也認(rèn)識到系統(tǒng)存在幾個局限性。一個關(guān)鍵限制是CEO智能體的通信被限制在單一層級層次;員工智能體不能生成額外的子智能體,限制了層級深度。此外,還需要進(jìn)一步開發(fā)以實現(xiàn)更強(qiáng)大的自主工具創(chuàng)建和對齊、有效的經(jīng)濟(jì)模型校準(zhǔn),以及優(yōu)化廣泛歷史的內(nèi)存。
未來工作將解決這些限制并增強(qiáng)HASHIRU的能力。優(yōu)先事項包括改進(jìn)CEO智能性、探索分布式認(rèn)知、開發(fā)全面的工具管理生命周期,以及嚴(yán)格的基準(zhǔn)測試。一個核心計劃是引入工具調(diào)用校準(zhǔn):HASHIRU將評估其內(nèi)部置信度與工具的潛在輸出和可靠性,在不確定時或如果工具承諾更高效用時調(diào)用工具,從而旨在更高效、更準(zhǔn)確地解決任務(wù)。這一發(fā)展借鑒了LLM不確定性量化和置信度校準(zhǔn)研究,考慮到LLM擴(kuò)展工具使用的趨勢,這一點至關(guān)重要。
其他關(guān)鍵工作將集中于通過消融和成本效益分析提高系統(tǒng)可解釋性,擴(kuò)大本地模型庫,為論文評審、代碼等任務(wù)專門化架構(gòu),以及形式化倫理安全框架。
十二、結(jié)語:邁向更智能、更高效的AI合作未來
這項研究展示了HASHIRU如何通過其層級控制結(jié)構(gòu)、動態(tài)智能體生命周期管理、混合智能方法和集成自主工具創(chuàng)建,解決了當(dāng)前多智能體系統(tǒng)的關(guān)鍵限制。初步評估和案例研究展示了其在執(zhí)行復(fù)雜任務(wù)、高效管理資源和自主擴(kuò)展能力方面的潛力。
歸根結(jié)底,HASHIRU提供了一個令人期待的方向,用于開發(fā)更健壯、更高效和更適應(yīng)性強(qiáng)的多智能體系統(tǒng)。就像一個精明的CEO知道何時雇傭?qū)<?、何時使用現(xiàn)有資源、如何有效分配預(yù)算一樣,HASHIRU展示了AI系統(tǒng)如何通過動態(tài)組織和資源感知決策變得更加聰明。
對于我們?nèi)粘S脩?,這意味著未來的AI助手可能更加高效,能夠更好地利用計算資源,同時提供更全面、更準(zhǔn)確的幫助。無論是復(fù)雜的科學(xué)計算、文檔分析還是創(chuàng)意任務(wù),像HASHIRU這樣的系統(tǒng)都將讓AI協(xié)作更加智能化、個性化和經(jīng)濟(jì)高效。
這一研究由Hugging Face、Lambda Labs和Groq提供支持,源代碼和基準(zhǔn)測試可在HASHIRU和HASHIRUBench倉庫獲取,感興趣的讀者還可以根據(jù)需求申請實時演示。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強(qiáng)于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。