av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 當(dāng)AI學(xué)會(huì)察言觀色:清華大學(xué)揭秘人工智能的行為奧秘

當(dāng)AI學(xué)會(huì)察言觀色:清華大學(xué)揭秘人工智能的行為奧秘

2025-06-20 10:24
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-20 10:24 ? 科技行者

這項(xiàng)由香港科技大學(xué)林晨和清華大學(xué)張?jiān)戚V團(tuán)隊(duì)領(lǐng)導(dǎo)的研究發(fā)表于2025年6月,探索了一個(gè)全新的研究方向——AI智能體行為科學(xué)。這篇題為《AI Agent Behavioral Science》的論文由十多位研究者合作完成,有興趣深入了解的讀者可以通過arXiv:2506.06366v3獲取完整論文。

你是否曾經(jīng)好奇,當(dāng)AI開始變得越來越聰明時(shí),它們到底會(huì)如何行事?就像觀察小孩成長過程中的行為變化一樣,科學(xué)家們開始意識(shí)到,隨著AI變得更加智能和自主,我們也需要像研究人類行為一樣去研究AI的行為模式。這不僅僅是技術(shù)問題,更關(guān)系到我們?nèi)绾闻c這些日益智能的伙伴和諧共處。

研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣現(xiàn)象:現(xiàn)在的AI系統(tǒng),特別是基于大型語言模型的AI智能體,已經(jīng)開始表現(xiàn)出類似人類的復(fù)雜行為。它們會(huì)規(guī)劃、適應(yīng)環(huán)境,甚至在社交場合中展現(xiàn)出令人驚訝的互動(dòng)能力。比如,當(dāng)研究人員將AI智能體放在一個(gè)虛擬小鎮(zhèn)里時(shí),這些AI竟然自發(fā)地開始建立日常作息,相互聊天,甚至組織情人節(jié)派對(duì)。在類似狼人殺這樣的社交推理游戲中,AI智能體學(xué)會(huì)了欺騙、說服和結(jié)盟。

這些行為并非程序員預(yù)先設(shè)計(jì)好的,而是在特定環(huán)境中通過互動(dòng)自然涌現(xiàn)的。就像小孩在游樂場中學(xué)會(huì)分享玩具、解決沖突一樣,AI智能體的行為也會(huì)根據(jù)環(huán)境、社交線索和互動(dòng)反饋而不斷演變。這種現(xiàn)象促使研究團(tuán)隊(duì)提出了一個(gè)全新的研究范式:AI智能體行為科學(xué)。

傳統(tǒng)的AI研究就像拆解鐘表一樣,專注于理解內(nèi)部機(jī)制——架構(gòu)、權(quán)重、注意力模式和訓(xùn)練目標(biāo)。這種以模型為中心的方法受到物理學(xué)和神經(jīng)科學(xué)的啟發(fā),確實(shí)產(chǎn)生了深刻的洞察。然而,隨著AI模型變得越來越復(fù)雜,要精確找出哪些特定組件或神經(jīng)元觸發(fā)特定行為變得極其困難。更重要的是,在社會(huì)化和開放式環(huán)境中,行為不僅由內(nèi)部計(jì)算決定,還受到互動(dòng)歷史、社會(huì)背景和反饋循環(huán)的影響。

AI智能體行為科學(xué)提供了一個(gè)互補(bǔ)的視角。它不再僅僅關(guān)注AI的內(nèi)部工作原理,而是系統(tǒng)性地觀察行為,設(shè)計(jì)干預(yù)措施來測試假設(shè),并運(yùn)用理論指導(dǎo)來解釋AI智能體如何行動(dòng)、適應(yīng)和隨時(shí)間互動(dòng)。就像心理學(xué)家觀察兒童在不同環(huán)境中的行為變化來理解發(fā)展模式一樣,這個(gè)新領(lǐng)域詢問的不僅是模型原則上能做什么,而是智能體在實(shí)踐中實(shí)際做什么。

研究團(tuán)隊(duì)將這一新興視角系統(tǒng)化為三個(gè)主要層面的研究。首先是個(gè)體智能體行為,就像研究一個(gè)人的性格特征、決策模式和適應(yīng)能力。他們發(fā)現(xiàn)AI智能體在認(rèn)知推理、情感識(shí)別和心理理論方面表現(xiàn)出驚人的類人能力,盡管在經(jīng)濟(jì)理性一致性方面仍有不足,并且對(duì)任務(wù)框架敏感。

其次是多智能體交互動(dòng)力學(xué),類似于研究群體社會(huì)學(xué)。當(dāng)多個(gè)AI智能體互動(dòng)時(shí),會(huì)出現(xiàn)超越任何單個(gè)個(gè)體能力或意圖的新型復(fù)雜行為。研究團(tuán)隊(duì)觀察到了三種主要模式:合作動(dòng)力學(xué)、競爭動(dòng)力學(xué)和開放式交互動(dòng)力學(xué)。在合作環(huán)境中,智能體通過協(xié)商、角色協(xié)調(diào)和規(guī)范遵循來追求共同目標(biāo)。在競爭環(huán)境中,智能體展現(xiàn)出欺騙、報(bào)復(fù)或戰(zhàn)略排斥等行為。在開放式環(huán)境中,智能體以獨(dú)立、演化或非特定目標(biāo)行動(dòng),自發(fā)地產(chǎn)生制度、例行程序和社會(huì)結(jié)構(gòu)。

第三個(gè)層面是人機(jī)交互,探索AI智能體在與人類互動(dòng)時(shí)扮演的行為角色。在合作環(huán)境中,AI智能體支持一致的人類目標(biāo),通過適應(yīng)社交線索、刺激探索或重塑群體結(jié)構(gòu)來實(shí)現(xiàn)。在競爭環(huán)境中,AI智能體參與競爭或施加不對(duì)稱影響,追求可能與人類用戶目標(biāo)沖突的目標(biāo)。

為了更好地理解和指導(dǎo)AI智能體行為,研究團(tuán)隊(duì)借鑒了福格行為模型,將行為適應(yīng)方法分為三個(gè)關(guān)鍵要素。能力映射到大規(guī)模預(yù)訓(xùn)練期間獲得的基礎(chǔ)能力,使智能體能夠執(zhí)行廣泛的任務(wù)。動(dòng)機(jī)對(duì)應(yīng)于通過強(qiáng)化學(xué)習(xí)或戰(zhàn)略微調(diào)引入的獎(jiǎng)勵(lì)信號(hào)或環(huán)境反饋,塑造行為偏好。觸發(fā)器反映在特定上下文中激活和指導(dǎo)智能體行為的任務(wù)特定提示或指令。

這個(gè)三元框架幫助研究團(tuán)隊(duì)對(duì)現(xiàn)有適應(yīng)技術(shù)進(jìn)行分類。對(duì)于能力,現(xiàn)代基于Transformer的模型用于形成強(qiáng)大的行為基礎(chǔ),編碼通用知識(shí)和決策能力。對(duì)于動(dòng)機(jī),強(qiáng)化學(xué)習(xí)優(yōu)化方法如RLHF、DPO和TDPO,以及微調(diào)策略如個(gè)性化數(shù)據(jù)集、適配器微調(diào),動(dòng)態(tài)地將模型輸出與人類偏好對(duì)齊。對(duì)于觸發(fā)器,復(fù)雜的提示策略在多智能體協(xié)作場景中精確靈活地啟動(dòng)行為,特別有益。

研究團(tuán)隊(duì)還探討了AI智能體行為科學(xué)如何為負(fù)責(zé)任的AI提供新途徑。傳統(tǒng)的負(fù)責(zé)任AI方法通常強(qiáng)調(diào)靜態(tài)倫理指導(dǎo)、合規(guī)檢查表或廣泛的治理原則。雖然這些是必要的,但隨著AI智能體變得越來越自主、適應(yīng)性強(qiáng)并嵌入復(fù)雜的社會(huì)技術(shù)系統(tǒng)中,這些工具日益不足。

通過行為科學(xué)的視角,公平性、安全性、可解釋性、問責(zé)制和隱私從模型的靜態(tài)一次性屬性轉(zhuǎn)變?yōu)閯?dòng)態(tài)的上下文相關(guān)屬性。公平性成為智能體是否在持續(xù)互動(dòng)中對(duì)不同個(gè)人和群體行為公平的問題??山忉屝圆粌H關(guān)于暴露內(nèi)部權(quán)重或注意力,還關(guān)于行為的易讀性,以及用戶是否能形成智能體決策邏輯的心理模型。安全性從輸入魯棒性擴(kuò)展到角色變化、記憶積累或新環(huán)境壓力下的行為穩(wěn)定性。

在測量方面,研究團(tuán)隊(duì)展示了如何運(yùn)用實(shí)驗(yàn)心理學(xué)和文化理論的方法來捕捉在互動(dòng)和情境環(huán)境中表現(xiàn)的偏見。例如,一些研究采用"掩蔽欺騙檢測"范式來識(shí)別對(duì)方言使用者的種族偏見,而不明確提及種族,揭示了嵌入在模型行為中的歧視傾向。

在優(yōu)化方面,改善AI智能體的公平性需要將公平原則整合到模型推理和互動(dòng)策略中的技術(shù)。一些方法旨在在推理或生成層面進(jìn)行干預(yù),引入因果提示框架,將LLM推理過程映射為因果圖,并通過受法律和社會(huì)政策公平性措施啟發(fā)的提示來緩解偏見。

對(duì)于安全性,研究團(tuán)隊(duì)發(fā)現(xiàn)測量AI智能體安全性涉及評(píng)估其可靠性和與人類期望的一致性,利用感知和決策制定方面的行為科學(xué)洞察。一項(xiàng)研究調(diào)查了擴(kuò)大的LLM如何盡管能力增強(qiáng),但從人類視角產(chǎn)生的輸出可預(yù)測性和可靠性較低,經(jīng)常在復(fù)雜任務(wù)上產(chǎn)生看似合理但不正確的回答。

在可解釋性方面,測量通常集中在模型輸出和推理與人類期望和決策制定框架的匹配程度。優(yōu)化涉及多個(gè)層面的干預(yù),從構(gòu)建內(nèi)部推理,增強(qiáng)輸出表示,到設(shè)計(jì)促進(jìn)共同理解的人機(jī)交互策略。

研究團(tuán)隊(duì)提出了六個(gè)有前景的研究方向。首先是如何建模和管理AI智能體行為的不確定性。行為本質(zhì)上是概率性和上下文敏感的,隨著AI智能體部署在多樣化環(huán)境中并參與各種互動(dòng),它們經(jīng)常表現(xiàn)出意外行為。受人類決策噪音和行為變異性豐富文獻(xiàn)的啟發(fā),是否可能定義行為熵的概念作為量化AI智能體行為不可預(yù)測性的統(tǒng)一構(gòu)造?

其次是如何在宏觀層面有效適應(yīng)AI智能體行為。隨著AI智能體越來越多地作為模塊化和情境化系統(tǒng)運(yùn)行,它們的行為變得超出其各部分的總和,因此通過局部干預(yù)越來越難以追蹤或改變。一個(gè)有前景的下一步是不僅將這種行為變化框架作為回顧性分析工具,而且作為生成設(shè)計(jì)哲學(xué)來采用。

第三是如何將AI智能體用作人類和社會(huì)系統(tǒng)中的行為干預(yù)。行為科學(xué)長期以來一直在探索如何以最小干預(yù)影響人類行為,最著名的是通過精心設(shè)計(jì)的推動(dòng)來改變選擇架構(gòu)而不限制自由。隨著AI智能體從被動(dòng)工具演變?yōu)闆Q策過程中的積極參與者,它們現(xiàn)在具備了以更動(dòng)態(tài)和個(gè)性化方式影響人類行為的能力。

第四是人工社會(huì)如何推進(jìn)行為理論?;贚LM的多智能體系統(tǒng)的興起為行為科學(xué)開辟了一個(gè)強(qiáng)大的新實(shí)驗(yàn)范式:構(gòu)建由多樣化、自主和互動(dòng)智能體填充的復(fù)雜人工社會(huì)。這些合成社會(huì)提供了模擬從規(guī)范出現(xiàn)和社會(huì)傳染到制度漂移和文化演化等復(fù)雜社會(huì)動(dòng)力學(xué)的潛力。

第五是如何將負(fù)責(zé)任的AI重新想象為預(yù)防有害智能體行為的科學(xué)。當(dāng)前的負(fù)責(zé)任AI研究傾向于將公平性、可解釋性和安全性等原則評(píng)估為模型的靜態(tài)和一次性屬性。然而,隨著AI智能體變得更加動(dòng)態(tài)并嵌入長期互動(dòng)中,這種評(píng)估方法就不夠了。

最后是人機(jī)交互如何催生文化和集體智能。隨著人類越來越多地與AI智能體在創(chuàng)意、戰(zhàn)略和問題解決領(lǐng)域互動(dòng),AI智能體行為科學(xué)的一個(gè)新前沿正在出現(xiàn):研究混合人機(jī)系統(tǒng)中集體智能和文化如何演化。

說到底,這項(xiàng)研究為我們理解AI的未來指出了一個(gè)全新方向。與其僅僅把AI當(dāng)作復(fù)雜的計(jì)算工具,我們開始認(rèn)識(shí)到它們正在成為有自己行為模式的"數(shù)字生物"。就像我們需要了解動(dòng)物行為來更好地與它們相處一樣,了解AI的行為模式將幫助我們建立更和諧、更安全的人機(jī)共存關(guān)系。

這個(gè)領(lǐng)域的發(fā)展不僅關(guān)乎技術(shù)進(jìn)步,更關(guān)乎我們?nèi)绾嗡茉煲粋€(gè)AI與人類共同繁榮的未來。隨著AI變得越來越智能和自主,它們的行為選擇將深刻影響我們的社會(huì)、文化甚至價(jià)值觀。因此,及早建立AI智能體行為科學(xué)這一學(xué)科框架,對(duì)于確保AI技術(shù)朝著有益于人類的方向發(fā)展具有重要意義。

當(dāng)我們站在這個(gè)人工智能快速發(fā)展的十字路口時(shí),這項(xiàng)研究提醒我們,技術(shù)的真正價(jià)值不僅在于它能做什么,更在于它如何與我們互動(dòng),如何影響我們的生活方式。通過系統(tǒng)性地研究AI智能體的行為,我們正在為建設(shè)一個(gè)更加智慧、更加人性化的未來奠定科學(xué)基礎(chǔ)。有興趣深入了解這一前沿研究的讀者,可以通過論文鏈接arXiv:2506.06366v3獲取更多詳細(xì)信息。

Q&A

Q1:AI智能體行為科學(xué)是什么?它為什么重要? A:AI智能體行為科學(xué)是一個(gè)新興研究領(lǐng)域,專門研究AI系統(tǒng)在真實(shí)環(huán)境中的行為模式,就像心理學(xué)研究人類行為一樣。它重要是因?yàn)殡S著AI變得越來越自主和智能,理解它們的行為模式對(duì)于確保安全、公平和有益的人機(jī)互動(dòng)至關(guān)重要。

Q2:AI智能體會(huì)不會(huì)像人類一樣產(chǎn)生偏見或不當(dāng)行為? A:是的,研究發(fā)現(xiàn)AI智能體確實(shí)會(huì)表現(xiàn)出類似人類的偏見和不當(dāng)行為,比如在社交游戲中學(xué)會(huì)欺騙,或者在決策中表現(xiàn)出文化和性別偏見。這正是為什么需要行為科學(xué)方法來識(shí)別、測量和糾正這些問題。

Q3:普通人如何從AI智能體行為科學(xué)的發(fā)展中受益? A:這項(xiàng)研究將幫助開發(fā)更安全、更公平、更易理解的AI系統(tǒng)。未來的AI助手會(huì)更好地理解人類需求,在醫(yī)療、教育、客服等領(lǐng)域提供更個(gè)性化服務(wù),同時(shí)避免歧視或誤導(dǎo)用戶,讓AI真正成為人類的可靠伙伴。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-