av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 大語言模型智能體成本降低28%!OPPO團(tuán)隊(duì)首次揭秘高效Agent系統(tǒng)設(shè)計(jì)

大語言模型智能體成本降低28%!OPPO團(tuán)隊(duì)首次揭秘高效Agent系統(tǒng)設(shè)計(jì)

2025-08-11 09:59
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-11 09:59 ? 科技行者

在人工智能飛速發(fā)展的今天,基于大語言模型的智能體(Agent)正在展現(xiàn)越來越強(qiáng)大的能力,它們能夠完成復(fù)雜的多步驟任務(wù),就像擁有了數(shù)字化的超級(jí)助手。然而,就像豪華跑車雖然性能卓越但油耗驚人一樣,這些智能體系統(tǒng)在展現(xiàn)強(qiáng)大能力的同時(shí),也面臨著成本高昂的嚴(yán)重問題。OPPO人工智能團(tuán)隊(duì)的這項(xiàng)開創(chuàng)性研究,首次系統(tǒng)性地解決了這個(gè)困擾整個(gè)行業(yè)的核心難題。

這項(xiàng)由OPPO AI Agent團(tuán)隊(duì)主導(dǎo)的研究發(fā)表于2025年8月,論文全名為《Efficient Agents: Building Effective Agents While Reducing Cost》。有興趣深入了解的讀者可以通過GitHub鏈接https://github.com/OPPO-PersonalAI/OAgents訪問完整代碼和詳細(xì)資料。研究團(tuán)隊(duì)由何朱和周王春樹作為通訊作者,匯集了OPPO人工智能研究院的多位頂尖研究人員。

當(dāng)前的智能體產(chǎn)品雖然功能強(qiáng)大,但運(yùn)營成本卻讓人望而卻步。比如業(yè)界知名的DeepResearch和Manus等產(chǎn)品,雖然能夠處理非常復(fù)雜的任務(wù),但每完成一個(gè)任務(wù)可能需要調(diào)用大語言模型數(shù)百次,這就像是為了做一頓飯卻要開關(guān)烤箱幾百次一樣低效。這種高成本不僅限制了產(chǎn)品的規(guī)?;瘧?yīng)用,也阻礙了普通用戶享受到人工智能技術(shù)的便利。

OPPO團(tuán)隊(duì)意識(shí)到,智能體研究已經(jīng)到了一個(gè)關(guān)鍵轉(zhuǎn)折點(diǎn)。正如早期的自然語言處理研究先追求性能突破、后優(yōu)化效率一樣,智能體領(lǐng)域也需要在保持強(qiáng)大能力的同時(shí),大幅降低運(yùn)營成本。他們提出了一個(gè)核心問題:能否在幾乎不損失性能的情況下,顯著降低智能體系統(tǒng)的運(yùn)營成本?

為了回答這個(gè)問題,研究團(tuán)隊(duì)設(shè)計(jì)了一套系統(tǒng)性的研究方案。他們選擇了GAIA基準(zhǔn)測(cè)試作為實(shí)驗(yàn)平臺(tái),這是一個(gè)專門用于評(píng)估通用人工智能助手的權(quán)威測(cè)試集,包含了各種復(fù)雜的推理任務(wù)。團(tuán)隊(duì)引入了"單次通過成本"這一創(chuàng)新評(píng)估指標(biāo),這個(gè)指標(biāo)就像計(jì)算"每公里油耗"一樣,能夠綜合衡量系統(tǒng)的效果和效率。

研究團(tuán)隊(duì)深入分析了影響智能體系統(tǒng)效率的各個(gè)因素,包括基礎(chǔ)大語言模型的選擇、智能體框架的設(shè)計(jì),以及各種運(yùn)行時(shí)優(yōu)化策略。他們就像拆解一臺(tái)復(fù)雜機(jī)器一樣,逐個(gè)檢查每個(gè)組件對(duì)整體性能和成本的影響,然后找出最優(yōu)的組合方案。

一、不同大腦的成本賬單

就像選擇汽車引擎會(huì)直接影響油耗和性能一樣,選擇什么樣的大語言模型作為智能體的"大腦",對(duì)整個(gè)系統(tǒng)的成本和效果有著決定性影響。研究團(tuán)隊(duì)測(cè)試了市面上主流的各種大語言模型,包括GPT-4.1、Claude-3.7、以及各種開源模型。

測(cè)試結(jié)果揭示了一個(gè)有趣的現(xiàn)象。Claude 3.7 Sonnet雖然在準(zhǔn)確率方面表現(xiàn)最佳,能夠正確解決61.82%的問題,但它的單次通過成本卻高達(dá)3.54美元。相比之下,GPT-4.1的準(zhǔn)確率為53.33%,單次通過成本僅為0.98美元。這就像是比較兩款汽車,一款雖然速度更快但油耗驚人,另一款速度稍慢但更加經(jīng)濟(jì)實(shí)用。

更令人意外的是,一些參數(shù)量相對(duì)較小的稀疏模型,比如Qwen3-30B-A3B,雖然準(zhǔn)確率只有17.58%,但單次通過成本卻低至0.13美元。這些模型采用了專家混合(MoE)架構(gòu),就像一個(gè)智能的多功能工具箱,只在需要時(shí)才激活相應(yīng)的"專家"模塊,從而大大提高了效率。

研究還發(fā)現(xiàn)了一個(gè)重要規(guī)律:隨著任務(wù)難度的增加,推理能力強(qiáng)的模型成本會(huì)急劇上升。比如Claude 3.7 Sonnet處理最難任務(wù)的成本比處理簡單任務(wù)高出534%,這就像爬山時(shí)越往高處走越費(fèi)力一樣。這個(gè)發(fā)現(xiàn)對(duì)于選擇合適的模型具有重要指導(dǎo)意義。

二、多次嘗試的邊際效應(yīng)遞減

在現(xiàn)實(shí)生活中,當(dāng)我們面臨困難問題時(shí),往往會(huì)嘗試多種不同的解決方案,然后選擇最好的一個(gè)。智能體系統(tǒng)也采用了類似的策略,叫做"Best-of-N"采樣,即讓系統(tǒng)嘗試N次,然后選擇表現(xiàn)最好的結(jié)果。

研究團(tuán)隊(duì)測(cè)試了讓系統(tǒng)嘗試1次、2次和4次的效果。結(jié)果顯示,當(dāng)嘗試次數(shù)從1次增加到4次時(shí),token消耗量從243K增加到325K,但準(zhǔn)確率卻只從53.33%微弱提升到53.94%。這就像是多做幾遍練習(xí)題,雖然耗費(fèi)了更多時(shí)間和精力,但成績提升卻微乎其微。

這種現(xiàn)象揭示了一個(gè)重要原理:盲目增加嘗試次數(shù)并不能帶來成正比的性能提升,反而會(huì)大幅增加成本。單次通過成本從0.98美元上升到1.28美元,效率明顯下降。這提醒我們,在設(shè)計(jì)智能體系統(tǒng)時(shí)需要找到嘗試次數(shù)和性能提升之間的最佳平衡點(diǎn)。

三、規(guī)劃復(fù)雜度的智慧平衡

智能體在處理復(fù)雜任務(wù)時(shí)需要進(jìn)行規(guī)劃,就像我們出門旅行前要制定行程安排一樣。但是,過于復(fù)雜的規(guī)劃可能會(huì)適得其反。研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:當(dāng)系統(tǒng)被允許執(zhí)行的最大步驟數(shù)從4步增加到8步時(shí),準(zhǔn)確率從58.49%顯著提升到69.81%,但繼續(xù)增加到12步時(shí),準(zhǔn)確率提升就不明顯了,成本卻持續(xù)攀升。

這就像做菜時(shí)的調(diào)料搭配,適量的調(diào)料能讓菜品更美味,但過量反而會(huì)破壞原有的味道。研究還測(cè)試了規(guī)劃更新的頻率,發(fā)現(xiàn)每2步更新一次規(guī)劃比每步都更新要更加高效,這說明給系統(tǒng)一些"思考時(shí)間"是有益的。

當(dāng)前的大語言模型在控制推理長度方面還存在困難,經(jīng)常出現(xiàn)"過度思考"的現(xiàn)象,就像學(xué)生考試時(shí)在簡單題目上花費(fèi)太多時(shí)間一樣。適度的規(guī)劃復(fù)雜度能夠顯著提高效率,這是設(shè)計(jì)高效智能體系統(tǒng)的重要原則。

四、工具配置的精妙藝術(shù)

現(xiàn)代智能體的強(qiáng)大能力很大程度上來自于它們能夠使用各種外部工具,特別是網(wǎng)絡(luò)搜索功能。研究團(tuán)隊(duì)深入分析了工具使用對(duì)效率的影響,就像研究不同廚具對(duì)烹飪效率的作用一樣。

令人意外的是,增加搜索引擎的數(shù)量能夠同時(shí)提高效果和效率。當(dāng)系統(tǒng)可以使用谷歌、維基百科、必應(yīng)、百度和DuckDuckGo等多個(gè)搜索源時(shí),單次通過成本從1.32美元降低到0.81美元,準(zhǔn)確率也從53.33%提升到59.39%。這就像有了多個(gè)信息來源,能夠更快找到準(zhǔn)確答案。

在網(wǎng)頁處理策略方面,簡單的靜態(tài)內(nèi)容抓取比復(fù)雜的交互式瀏覽更加高效。這提醒我們,有時(shí)候簡單的解決方案反而是最好的。研究還發(fā)現(xiàn),將用戶查詢重新表述成3-10個(gè)不同的搜索問題,能夠獲得更全面的搜索結(jié)果,就像從多個(gè)角度觀察同一個(gè)物體能夠看得更清楚。

五、記憶系統(tǒng)的簡約之美

智能體系統(tǒng)需要記憶功能來處理長期任務(wù),就像人類需要記住之前做過什么才能做出合理的決策。研究團(tuán)隊(duì)測(cè)試了六種不同的記憶設(shè)計(jì)方案,從簡單的歷史記錄到復(fù)雜的總結(jié)存儲(chǔ)系統(tǒng)。

結(jié)果出人意料:最簡單的記憶設(shè)計(jì)反而效果最好。僅保留智能體的觀察和行動(dòng)記錄的"簡單記憶"方案,不僅成本最低,準(zhǔn)確率還從53.33%提升到56.36%,單次通過成本從0.98美元降低到0.74美元。這就像整理房間時(shí)發(fā)現(xiàn),有時(shí)候最簡單的收納方式反而最實(shí)用。

相比之下,試圖使用大語言模型來總結(jié)歷史軌跡的"總結(jié)記憶"方案成本最高,效果卻不理想。這可能是因?yàn)槟P蜔o法準(zhǔn)確總結(jié)過去的歷史軌跡,導(dǎo)致需要額外的嘗試來解決任務(wù)。這個(gè)發(fā)現(xiàn)提醒我們,在設(shè)計(jì)復(fù)雜系統(tǒng)時(shí),簡單往往意味著可靠。

六、高效智能體的最優(yōu)配方

基于前面的系統(tǒng)性分析,OPPO團(tuán)隊(duì)提出了"高效智能體"(Efficient Agents)框架。這就像是根據(jù)營養(yǎng)學(xué)研究結(jié)果制定的最佳飲食搭配,每個(gè)組件都經(jīng)過精心選擇和調(diào)優(yōu)。

高效智能體采用GPT-4.1作為基礎(chǔ)模型,設(shè)置最大8個(gè)執(zhí)行步驟,每步都更新規(guī)劃,使用多個(gè)搜索源進(jìn)行信息檢索,將查詢擴(kuò)展為5個(gè)不同表述,不使用多次采樣策略,采用簡單的記憶機(jī)制。這個(gè)配置就像一道精心調(diào)配的菜譜,每個(gè)配料的用量都恰到好處。

與當(dāng)前主流的開源智能體系統(tǒng)相比,高效智能體實(shí)現(xiàn)了顯著的效率提升。與OWL系統(tǒng)相比,高效智能體保持了96.7%的性能水平,但將運(yùn)營成本從0.398美元降低到0.228美元,實(shí)現(xiàn)了28.4%的成本效率提升。這就像找到了一種既營養(yǎng)豐富又經(jīng)濟(jì)實(shí)惠的食譜。

與SmolAgent系統(tǒng)的對(duì)比更加明顯,高效智能體在性能相當(dāng)?shù)那闆r下,成本效率優(yōu)勢(shì)極其顯著。這證明了通過系統(tǒng)性的組件優(yōu)化,確實(shí)可以在保持效果的同時(shí)大幅降低成本。

七、系統(tǒng)性洞察的價(jià)值

這項(xiàng)研究的價(jià)值不僅在于提出了一個(gè)高效的智能體框架,更重要的是建立了一套系統(tǒng)性的分析方法。研究發(fā)現(xiàn),基礎(chǔ)模型的選擇對(duì)整體性能影響最大,其次是智能體能夠執(zhí)行的最大步驟數(shù)和工具使用策略,而多次采樣和復(fù)雜記憶機(jī)制的影響相對(duì)較小。

這些發(fā)現(xiàn)為整個(gè)行業(yè)提供了寶貴的設(shè)計(jì)指導(dǎo)原則。就像建筑師在設(shè)計(jì)房屋時(shí)需要考慮結(jié)構(gòu)、美觀和成本的平衡,智能體系統(tǒng)的設(shè)計(jì)也需要在性能、成本和復(fù)雜度之間找到最佳平衡點(diǎn)。

研究還揭示了當(dāng)前大語言模型在推理長度控制方面的局限性。這些模型經(jīng)常出現(xiàn)"過度思考"現(xiàn)象,在簡單問題上浪費(fèi)大量計(jì)算資源。這提醒我們,未來的模型開發(fā)需要更加注重效率和適應(yīng)性。

說到底,OPPO團(tuán)隊(duì)的這項(xiàng)研究為智能體領(lǐng)域帶來了一次重要的效率革命。他們不僅證明了在保持高性能的同時(shí)大幅降低成本是可能的,更建立了一套系統(tǒng)性的分析框架,為未來的研究和產(chǎn)品開發(fā)指明了方向。

這項(xiàng)工作的意義遠(yuǎn)超技術(shù)層面。它讓高性能的智能體系統(tǒng)變得更加經(jīng)濟(jì)實(shí)用,有望加速這些技術(shù)在實(shí)際生活中的普及應(yīng)用。無論是個(gè)人助手、客服系統(tǒng)還是教育應(yīng)用,都能從這種高效的設(shè)計(jì)理念中受益。

歸根結(jié)底,這項(xiàng)研究告訴我們,技術(shù)進(jìn)步不僅要追求功能的強(qiáng)大,更要考慮實(shí)用性和可持續(xù)性。就像設(shè)計(jì)一輛好車不僅要性能出色,還要經(jīng)濟(jì)實(shí)用一樣,優(yōu)秀的智能體系統(tǒng)也應(yīng)該在效果和效率之間達(dá)到完美平衡。OPPO團(tuán)隊(duì)的工作為整個(gè)行業(yè)樹立了新的標(biāo)桿,相信這種理念將推動(dòng)更多創(chuàng)新和突破的誕生。對(duì)于想要深入了解技術(shù)細(xì)節(jié)的讀者,完整的研究論文和代碼都可以通過GitHub鏈接https://github.com/OPPO-PersonalAI/OAgents獲取。

Q&A

Q1:OPPO的高效智能體框架相比傳統(tǒng)智能體系統(tǒng)有什么優(yōu)勢(shì)?

A:OPPO的高效智能體框架最大優(yōu)勢(shì)是實(shí)現(xiàn)了性能和成本的最佳平衡。與主流的OWL系統(tǒng)相比,它保持了96.7%的性能水平,但運(yùn)營成本降低了28.4%,從每次0.398美元降至0.228美元。這就像找到了一種既好用又省錢的解決方案。

Q2:為什么簡單的記憶機(jī)制比復(fù)雜的總結(jié)記憶效果更好?

A:研究發(fā)現(xiàn)簡單記憶機(jī)制只保留智能體的觀察和行動(dòng)記錄,成本最低且效果最佳,準(zhǔn)確率從53.33%提升到56.36%。而復(fù)雜的總結(jié)記憶由于模型無法準(zhǔn)確總結(jié)歷史軌跡,反而導(dǎo)致成本增加、效果下降,說明有時(shí)候簡單就是最好的。

Q3:普通用戶什么時(shí)候能用上這種高效的智能體技術(shù)?

A:OPPO團(tuán)隊(duì)已經(jīng)將相關(guān)代碼開源到GitHub,這意味著其他開發(fā)者和公司可以基于這些研究成果開發(fā)更經(jīng)濟(jì)實(shí)用的智能體產(chǎn)品。隨著成本的大幅降低,預(yù)計(jì)未來會(huì)有更多基于這種高效設(shè)計(jì)的智能助手產(chǎn)品面向普通用戶推出。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-