av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 西安交通大學(xué)團(tuán)隊(duì)提出MAPS:基于性格理論的多智能體系統(tǒng),讓AI像人類(lèi)專(zhuān)家團(tuán)隊(duì)一樣協(xié)作解決科學(xué)難題

西安交通大學(xué)團(tuán)隊(duì)提出MAPS:基于性格理論的多智能體系統(tǒng),讓AI像人類(lèi)專(zhuān)家團(tuán)隊(duì)一樣協(xié)作解決科學(xué)難題

2025-08-01 10:14
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-01 10:14 ? 科技行者

這項(xiàng)由西安交通大學(xué)的張健、王志遠(yuǎn)等研究者與新加坡國(guó)立大學(xué)、南洋理工大學(xué)合作完成的研究發(fā)表于2025年3月的arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2503.16905v1。有興趣深入了解的讀者可以通過(guò)GitHub項(xiàng)目頁(yè)面https://github.com/exoskeletonzj/MAPS獲取完整代碼和實(shí)驗(yàn)數(shù)據(jù)。

當(dāng)我們面對(duì)一道復(fù)雜的物理題時(shí),通常會(huì)怎么做?可能先仔細(xì)觀察圖表,理解題目描述,回憶相關(guān)公式,最后計(jì)算得出答案。這個(gè)過(guò)程看似簡(jiǎn)單,但實(shí)際上涉及多種不同的認(rèn)知能力?,F(xiàn)在,研究團(tuán)隊(duì)將這種人類(lèi)解題的智慧運(yùn)用到了人工智能領(lǐng)域,創(chuàng)造出了一個(gè)名為MAPS的系統(tǒng)。

MAPS的全稱是"基于大七人格理論和蘇格拉底式指導(dǎo)的多智能體框架",就像是為AI組建了一個(gè)專(zhuān)家團(tuán)隊(duì)。每個(gè)AI專(zhuān)家都有自己獨(dú)特的"性格"和專(zhuān)長(zhǎng),它們相互配合,共同解決那些需要同時(shí)理解文字和圖像的復(fù)雜科學(xué)問(wèn)題。這種問(wèn)題在學(xué)術(shù)界被稱為"多模態(tài)科學(xué)問(wèn)題",簡(jiǎn)單說(shuō)就是那些既有文字描述又有圖表示意的題目,比如物理實(shí)驗(yàn)圖配上問(wèn)題描述,或者化學(xué)分子結(jié)構(gòu)圖配上計(jì)算要求。

研究團(tuán)隊(duì)發(fā)現(xiàn),傳統(tǒng)的AI系統(tǒng)在處理這類(lèi)問(wèn)題時(shí)就像是一個(gè)人試圖同時(shí)扮演所有角色——既要當(dāng)觀察員看懂圖表,又要當(dāng)翻譯員理解文字,還要當(dāng)學(xué)者回憶知識(shí),最后還要當(dāng)計(jì)算員得出答案。這種"一人分飾多角"的方式效果并不理想,經(jīng)常會(huì)在某個(gè)環(huán)節(jié)出現(xiàn)失誤,就像一個(gè)廚師試圖同時(shí)炒菜、調(diào)味、擺盤(pán),結(jié)果每樣都做不好。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)從心理學(xué)的"大七人格理論"中獲得啟發(fā)。這個(gè)理論認(rèn)為人的性格可以分為七個(gè)主要維度:盡責(zé)性、宜人性、外向性、神經(jīng)質(zhì)、開(kāi)放性、自尊和敏感性。研究團(tuán)隊(duì)巧妙地將這七種性格特質(zhì)分配給七個(gè)不同的AI智能體,讓它們各司其職,形成一個(gè)高效的協(xié)作團(tuán)隊(duì)。

在這個(gè)AI團(tuán)隊(duì)中,代表"盡責(zé)性"的Manager智能體就像是項(xiàng)目經(jīng)理,負(fù)責(zé)制定整體計(jì)劃和協(xié)調(diào)各個(gè)成員的工作。代表"宜人性"的UserProxy智能體則像是客服代表,專(zhuān)門(mén)負(fù)責(zé)接收用戶輸入的問(wèn)題并確保信息傳達(dá)準(zhǔn)確。代表"外向性"的Interpreter智能體性格活潑,善于觀察,專(zhuān)門(mén)負(fù)責(zé)"看圖說(shuō)話"——將復(fù)雜的圖表轉(zhuǎn)換成詳細(xì)的文字描述。

代表"神經(jīng)質(zhì)"的Aligner智能體雖然聽(tīng)起來(lái)有些消極,但它的"謹(jǐn)慎"特質(zhì)正是團(tuán)隊(duì)所需要的,它專(zhuān)門(mén)負(fù)責(zé)檢查和對(duì)齊不同信息源,確保圖表描述、題目文字和問(wèn)題選項(xiàng)之間保持一致,避免出現(xiàn)理解偏差。代表"開(kāi)放性"的Scholar智能體就像是圖書(shū)管理員,擁有淵博的知識(shí),當(dāng)遇到專(zhuān)業(yè)概念時(shí),它會(huì)主動(dòng)查找和補(bǔ)充相關(guān)的科學(xué)知識(shí)。

代表"自尊"的Solver智能體充滿自信,它收集前面所有智能體提供的信息,進(jìn)行最終的推理和計(jì)算,得出問(wèn)題的答案。最后,代表"敏感性"的Critic智能體扮演著質(zhì)量監(jiān)督員的角色,它會(huì)仔細(xì)檢查每個(gè)步驟的工作質(zhì)量,發(fā)現(xiàn)問(wèn)題就及時(shí)提出改進(jìn)建議。

這個(gè)系統(tǒng)的工作流程就像是一個(gè)高效的診療團(tuán)隊(duì)。當(dāng)一個(gè)復(fù)雜的科學(xué)問(wèn)題進(jìn)入系統(tǒng)后,首先由Manager制定解決方案,UserProxy接收并整理問(wèn)題信息。接著進(jìn)入四個(gè)核心步驟:Interpreter仔細(xì)觀察圖表并生成詳細(xì)描述,就像放射科醫(yī)生解讀X光片;Aligner將圖表描述與題目文字進(jìn)行對(duì)照檢查,就像護(hù)士核對(duì)病歷信息;Scholar查找相關(guān)的科學(xué)知識(shí)進(jìn)行補(bǔ)充,就像專(zhuān)科醫(yī)生提供專(zhuān)業(yè)意見(jiàn);最后Solver綜合所有信息得出最終答案,就像主治醫(yī)生做出診斷。

整個(gè)過(guò)程中,Critic智能體始終在旁邊觀察,運(yùn)用蘇格拉底式的提問(wèn)方法對(duì)每個(gè)步驟進(jìn)行評(píng)估。蘇格拉底式提問(wèn)是古希臘哲學(xué)家蘇格拉底創(chuàng)立的一種啟發(fā)式教學(xué)方法,通過(guò)不斷提問(wèn)來(lái)引導(dǎo)思考和發(fā)現(xiàn)問(wèn)題。Critic會(huì)問(wèn)一些關(guān)鍵問(wèn)題,比如"你的觀察依據(jù)是什么?""這個(gè)推理邏輯合理嗎?""有沒(méi)有考慮其他可能性?"如果發(fā)現(xiàn)某個(gè)步驟存在問(wèn)題,它就會(huì)要求相關(guān)智能體重新思考和改進(jìn),確保最終答案的準(zhǔn)確性。

為了驗(yàn)證這個(gè)系統(tǒng)的效果,研究團(tuán)隊(duì)在三個(gè)重要的科學(xué)問(wèn)題數(shù)據(jù)集上進(jìn)行了大規(guī)模測(cè)試。這三個(gè)數(shù)據(jù)集分別是MathVista(包含數(shù)學(xué)和一般科學(xué)問(wèn)題)、OlympiadBench(包含奧林匹克級(jí)別的數(shù)學(xué)和物理題)和EMMA(涵蓋數(shù)學(xué)、物理、化學(xué)三個(gè)學(xué)科)。這些數(shù)據(jù)集就像是不同難度的考試,從基礎(chǔ)題目到奧賽級(jí)別的超難題目都有覆蓋。

測(cè)試結(jié)果讓人印象深刻。MAPS系統(tǒng)在所有任務(wù)上的平均表現(xiàn)比目前最好的AI系統(tǒng)提升了15.84%,這在AI領(lǐng)域是一個(gè)相當(dāng)顯著的進(jìn)步。更令人驚訝的是,MAPS甚至在整體表現(xiàn)上超越了人類(lèi)專(zhuān)家3.58%,這意味著在某些類(lèi)型的科學(xué)問(wèn)題解決上,這個(gè)AI團(tuán)隊(duì)已經(jīng)達(dá)到甚至超越了人類(lèi)專(zhuān)家的水平。

具體來(lái)看各個(gè)學(xué)科的表現(xiàn),在MathVista數(shù)據(jù)集上,MAPS達(dá)到了79.80%的準(zhǔn)確率,比之前最好的系統(tǒng)提升了5個(gè)百分點(diǎn)。在更具挑戰(zhàn)性的OlympiadBench數(shù)據(jù)集上,MAPS在數(shù)學(xué)問(wèn)題上達(dá)到了58.00%的準(zhǔn)確率,在物理問(wèn)題上達(dá)到了31.14%的準(zhǔn)確率,這些都大幅超越了以往的記錄。在EMMA數(shù)據(jù)集上,MAPS在數(shù)學(xué)、物理、化學(xué)三個(gè)學(xué)科上都取得了顯著進(jìn)步,其中數(shù)學(xué)達(dá)到了71.00%,物理達(dá)到了51.00%,化學(xué)達(dá)到了58.00%的準(zhǔn)確率。

為了更深入地理解系統(tǒng)的工作機(jī)制,研究團(tuán)隊(duì)還做了詳細(xì)的分析實(shí)驗(yàn)。他們發(fā)現(xiàn),在不同的數(shù)據(jù)集上,各個(gè)智能體承擔(dān)的工作量和出錯(cuò)頻率是不同的。在相對(duì)簡(jiǎn)單的MathVista數(shù)據(jù)集上,系統(tǒng)很少需要重復(fù)修正,大部分問(wèn)題都能一次性解決。但在更具挑戰(zhàn)性的EMMA和OlympiadBench數(shù)據(jù)集上,Solver智能體(負(fù)責(zé)最終推理計(jì)算的那個(gè))需要接受最多的反饋和修正,這說(shuō)明復(fù)雜問(wèn)題的最終推理步驟確實(shí)是最容易出錯(cuò)的環(huán)節(jié)。

研究團(tuán)隊(duì)還進(jìn)行了"移除實(shí)驗(yàn)",就像拆掉團(tuán)隊(duì)中的某個(gè)成員,看看會(huì)對(duì)整體表現(xiàn)產(chǎn)生什么影響。結(jié)果發(fā)現(xiàn),如果移除Interpreter智能體(負(fù)責(zé)看圖說(shuō)話的那個(gè)),系統(tǒng)性能下降最為嚴(yán)重,平均下降了16.09%。這說(shuō)明在多模態(tài)科學(xué)問(wèn)題中,準(zhǔn)確理解圖表信息是最關(guān)鍵的步驟。相比之下,移除Critic智能體的影響相對(duì)較小,性能下降7.05%,但這個(gè)數(shù)字仍然證明了質(zhì)量監(jiān)督的重要性。

令人欣慰的是,MAPS系統(tǒng)表現(xiàn)出了良好的通用性。研究團(tuán)隊(duì)用不同的基礎(chǔ)AI模型(包括GPT-4o、Gemini 2.0 Flash、Qwen2.5-VL-72B等)作為底層支撐,發(fā)現(xiàn)MAPS框架都能帶來(lái)顯著改進(jìn)。這就像是一個(gè)好的管理制度,無(wú)論員工是誰(shuí),都能讓團(tuán)隊(duì)發(fā)揮出更好的效果。

在處理效率方面,MAPS系統(tǒng)也展現(xiàn)出了有趣的特點(diǎn)。選擇題類(lèi)型的問(wèn)題解決得最快,因?yàn)榇鸢高x項(xiàng)提供了額外的提示信息。需要填寫(xiě)整數(shù)答案的問(wèn)題效率也很高,可能因?yàn)檫@類(lèi)問(wèn)題通常計(jì)算過(guò)程相對(duì)簡(jiǎn)單。相反,開(kāi)放式問(wèn)題需要更多的思考時(shí)間,因?yàn)樾枰獜牧汩_(kāi)始構(gòu)建完整的解答。隨著問(wèn)題難度的增加,解決時(shí)間也會(huì)相應(yīng)延長(zhǎng),這符合人類(lèi)解題的一般規(guī)律。

這項(xiàng)研究的意義遠(yuǎn)不止于提高AI的解題能力。它為人工智能的發(fā)展提供了一個(gè)全新的思路:與其追求單一模型的全能,不如讓多個(gè)專(zhuān)門(mén)化的AI智能體協(xié)作配合。這種思路在很多實(shí)際應(yīng)用場(chǎng)景中都有重要價(jià)值,比如醫(yī)療診斷中需要影像科醫(yī)生、化驗(yàn)科醫(yī)生、臨床醫(yī)生等多個(gè)專(zhuān)業(yè)人員的協(xié)作,金融分析中需要數(shù)據(jù)分析師、風(fēng)險(xiǎn)評(píng)估師、投資顧問(wèn)等不同角色的配合。

研究團(tuán)隊(duì)認(rèn)為,這種多智能體協(xié)作的方式更符合人類(lèi)認(rèn)知的自然規(guī)律。當(dāng)我們面對(duì)復(fù)雜問(wèn)題時(shí),大腦中不同的區(qū)域會(huì)分工合作:視覺(jué)皮層負(fù)責(zé)處理圖像信息,語(yǔ)言區(qū)域負(fù)責(zé)理解文字,記憶區(qū)域負(fù)責(zé)提取相關(guān)知識(shí),執(zhí)行控制區(qū)域負(fù)責(zé)整合信息并做出決策。MAPS系統(tǒng)正是模擬了這種認(rèn)知分工的模式。

當(dāng)然,這個(gè)系統(tǒng)也存在一些限制。首先,多個(gè)智能體之間的協(xié)調(diào)需要更多的計(jì)算資源和時(shí)間成本。其次,系統(tǒng)的性能很大程度上依賴于每個(gè)智能體的質(zhì)量,如果某個(gè)環(huán)節(jié)出現(xiàn)系統(tǒng)性錯(cuò)誤,可能會(huì)影響整體表現(xiàn)。此外,不同類(lèi)型的問(wèn)題可能需要不同的協(xié)作策略,如何動(dòng)態(tài)調(diào)整智能體間的協(xié)作模式還有待進(jìn)一步研究。

從更廣闊的視角來(lái)看,MAPS代表了人工智能發(fā)展的一個(gè)重要趨勢(shì):從單一的大型模型轉(zhuǎn)向多個(gè)專(zhuān)門(mén)化模型的協(xié)作。這種方式不僅能夠提高性能,還能增強(qiáng)系統(tǒng)的可解釋性和可控性。每個(gè)智能體的職責(zé)明確,出現(xiàn)問(wèn)題時(shí)更容易定位和修復(fù)。同時(shí),這種模塊化的設(shè)計(jì)也使得系統(tǒng)更容易升級(jí)和擴(kuò)展,可以根據(jù)需要添加新的專(zhuān)門(mén)智能體或替換現(xiàn)有的組件。

說(shuō)到底,MAPS系統(tǒng)的成功證明了一個(gè)樸素的道理:團(tuán)隊(duì)合作的力量往往超過(guò)個(gè)人英雄主義。正如現(xiàn)實(shí)生活中復(fù)雜的項(xiàng)目需要不同專(zhuān)業(yè)背景的人員協(xié)作完成一樣,復(fù)雜的AI任務(wù)也需要不同專(zhuān)長(zhǎng)的智能體共同努力。這個(gè)研究不僅在技術(shù)上取得了突破,更為AI系統(tǒng)的設(shè)計(jì)提供了新的哲學(xué)思考:與其追求無(wú)所不能的超級(jí)AI,也許我們更應(yīng)該關(guān)注如何讓不同的AI更好地協(xié)作,發(fā)揮各自的專(zhuān)長(zhǎng)。

對(duì)于普通人來(lái)說(shuō),MAPS系統(tǒng)的應(yīng)用前景值得期待。未來(lái),這種多智能體協(xié)作的模式可能會(huì)出現(xiàn)在在線教育平臺(tái)上,幫助學(xué)生解決復(fù)雜的科學(xué)問(wèn)題;可能會(huì)集成到專(zhuān)業(yè)軟件中,協(xié)助工程師和科研人員進(jìn)行復(fù)雜的分析和設(shè)計(jì);也可能會(huì)成為智能助手的核心技術(shù),讓AI能夠更好地理解和回應(yīng)我們的復(fù)雜需求。隨著技術(shù)的不斷完善,我們有理由相信,這種"AI團(tuán)隊(duì)"將在更多領(lǐng)域發(fā)揮重要作用,成為人類(lèi)智慧的得力助手。

Q&A

Q1:MAPS是什么?它是如何工作的? A:MAPS是一個(gè)由7個(gè)不同"性格"的AI智能體組成的協(xié)作系統(tǒng),專(zhuān)門(mén)用于解決包含圖表和文字的復(fù)雜科學(xué)問(wèn)題。它的工作方式就像專(zhuān)家團(tuán)隊(duì):一個(gè)智能體負(fù)責(zé)看圖,一個(gè)負(fù)責(zé)理解文字,一個(gè)負(fù)責(zé)查找知識(shí),一個(gè)負(fù)責(zé)最終計(jì)算,還有一個(gè)負(fù)責(zé)質(zhì)量監(jiān)督,通過(guò)分工協(xié)作來(lái)提高解題準(zhǔn)確率。

Q2:MAPS會(huì)不會(huì)比人類(lèi)專(zhuān)家更厲害? A:在特定的科學(xué)問(wèn)題解決任務(wù)上,MAPS已經(jīng)超越了人類(lèi)專(zhuān)家平均水平3.58%。但這并不意味著它在所有方面都比人類(lèi)強(qiáng),它主要是在處理標(biāo)準(zhǔn)化科學(xué)題目方面表現(xiàn)優(yōu)異,而人類(lèi)在創(chuàng)造性思維、直覺(jué)判斷等方面仍有優(yōu)勢(shì)。

Q3:普通人能用到MAPS技術(shù)嗎? A:目前MAPS還是研究階段的技術(shù),代碼已在GitHub開(kāi)源。未來(lái)這種多智能體協(xié)作的理念可能會(huì)應(yīng)用到在線教育、智能輔導(dǎo)、專(zhuān)業(yè)分析軟件等場(chǎng)景中,幫助學(xué)生解決復(fù)雜科學(xué)問(wèn)題或協(xié)助專(zhuān)業(yè)人員進(jìn)行復(fù)雜分析工作。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-