av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 提升社交智能:如何讓大模型像人類一樣理解人情世故——浙江大學與阿里巴巴通義實驗室聯(lián)合研究

提升社交智能:如何讓大模型像人類一樣理解人情世故——浙江大學與阿里巴巴通義實驗室聯(lián)合研究

2025-07-07 17:34
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-07 17:34 ? 科技行者

在人工智能領(lǐng)域,大語言模型(LLMs)已經(jīng)在數(shù)學和編程等需要嚴謹思維的領(lǐng)域取得了顯著進步。不過,你有沒有注意到,雖然這些AI模型能解決復雜的數(shù)學題,卻常常在理解人際交往和社交場景時顯得"不夠人性化"?這種現(xiàn)象背后有著深刻的原因:社交世界遵循著不同于數(shù)學領(lǐng)域的規(guī)則,需要更加多元的認知模式。

這篇由浙江大學侯桂陽(實習期間在通義實驗室完成)、通義實驗室的高星、吳宇川、黃翔等研究人員共同完成的研究《TimeHC-RL: 面向增強大語言模型社交智能的時序感知分層認知強化學習》,正是為了解決這一問題。該研究發(fā)表于2025年5月的arXiv預印本平臺,并已在GitHub開源(https://github.com/ZJU-REAL/TimeHC-RL)。

研究團隊首先對當前最先進的DeepSeek-R1模型在社交領(lǐng)域的表現(xiàn)進行了全面評估。他們發(fā)現(xiàn),雖然該模型在人際推理任務上表現(xiàn)不錯,但在社交情境理解方面表現(xiàn)平平,而且處理這類問題時消耗了大量計算資源。為什么會這樣呢?原因在于社交場景需要的不僅僅是嚴謹?shù)南到y(tǒng)2思維(即那種一步步的仔細推理),還需要直覺性的系統(tǒng)1思維以及表層思考能力。簡單來說,社交智能比解數(shù)學題需要更加多樣化的思考方式。

想象一下日常生活中的社交場景:當朋友突然情緒低落時,我們可能憑直覺立即給予安慰(系統(tǒng)1);面對一個陌生的社交場合,我們可能需要對情境進行快速分析(表層思考);而在理解復雜的人際關(guān)系網(wǎng)絡時,我們則需要更深入的推理(系統(tǒng)2)。大語言模型也需要這種多層次的認知能力,才能真正理解人類社交世界的復雜性。

基于這一認識,研究團隊提出了一種名為"時序感知分層認知強化學習"(TimeHC-RL)的方法。這種方法有兩個核心創(chuàng)新點:一是關(guān)注社交事件的時間動態(tài)性,二是實現(xiàn)分層認知處理。就像偵探解決案件需要理清事件的時間線索,大模型也需要理解社交事件的時間順序;就像人類在不同社交場景會采用不同思考方式,大模型也需要靈活運用從直覺反應到深度思考的多種認知模式。

研究團隊在8個不同特點的數(shù)據(jù)集上進行了系統(tǒng)性實驗,驗證了TimeHC-RL方法的有效性。實驗結(jié)果令人振奮:基于7B參數(shù)的基礎(chǔ)模型,經(jīng)過TimeHC-RL訓練后的模型性能可與擁有更多參數(shù)的高級模型如DeepSeek-R1和OpenAI-O3相媲美。這就像是給小車裝上了強大引擎,讓它能與大型賽車一較高下。

接下來,讓我們深入了解這項研究的具體細節(jié),看看研究團隊是如何讓AI更好地理解人類社交世界的。

一、社交智能的獨特挑戰(zhàn):為什么大模型需要特殊訓練?

想象一下:你走進一個派對,看到朋友小明站在角落,表情低落。你會怎么做?大多數(shù)人會根據(jù)情境立即意識到小明可能心情不好,需要安慰。這種社交情境的理解看似簡單,實際上涉及復雜的認知過程——你需要觀察表情、理解場合、考慮你與小明的關(guān)系,甚至推測他可能遇到的問題。

大語言模型在面對類似社交情境時面臨著獨特的挑戰(zhàn)。研究團隊通過對DeepSeek-R1模型的評估發(fā)現(xiàn),盡管該模型在數(shù)學等領(lǐng)域表現(xiàn)出色,但在社交情境理解方面仍有提升空間。具體來說,該模型在測試數(shù)據(jù)集ToMBench上的表現(xiàn)(78.4%)雖然與GPT-4系列(75.3%)相當,但在處理過程中消耗了大量計算資源。更重要的是,DeepSeek-R1在處理社交問題時采用的是一種"一刀切"的方法——無論問題復雜與否,都使用系統(tǒng)2的深度推理,這在很多情況下顯得"殺雞用牛刀"。

研究團隊指出,社交智能與數(shù)學智能的根本區(qū)別在于:社交情境需要多樣化的認知模式。在現(xiàn)實生活中,人們處理社交情況時會靈活運用不同的思考方式:有時依靠直覺快速反應(系統(tǒng)1),有時進行表層思考快速分析情境,有時則需要深度推理理解復雜的人際關(guān)系(系統(tǒng)2)。而目前的大模型訓練方法往往過于依賴系統(tǒng)2思維,忽略了社交認知的多樣性。

此外,社交事件還有一個顯著特點:它們遵循明確的時間順序。就像一部電影需要按順序播放才能理解劇情一樣,社交事件也需要按時間順序理解。例如,在一個故事中,如果不知道"小明先說了什么,小紅才有這樣的反應",就很難理解人物互動的含義。現(xiàn)有的大模型訓練方法往往忽略了這種時間動態(tài)性,導致模型在理解社交事件時表現(xiàn)不佳。

基于這些觀察,研究團隊提出了TimeHC-RL方法,旨在通過兩個關(guān)鍵創(chuàng)新解決這些挑戰(zhàn):時序感知獎勵機制和分層認知框架。這就像是教給AI兩項關(guān)鍵技能:一是理解故事的時間線,二是根據(jù)問題的復雜性選擇合適的思考方式。

二、研究方法揭秘:如何構(gòu)建真正懂人情世故的AI?

研究團隊的TimeHC-RL方法就像是一個特殊的訓練營,專門訓練AI理解人類社交世界的復雜性。讓我們看看這個訓練營是如何設(shè)計的。

首先,研究團隊構(gòu)建了一個包含多種數(shù)據(jù)源的訓練集,涵蓋了不同復雜度的社交場景。這些數(shù)據(jù)來源包括ToMi、HiToM、ExploreToM、ToMBench和SocialIQA等。這些數(shù)據(jù)集就像是不同難度的社交"課程":有些關(guān)注基礎(chǔ)的社交情境認知(比如理解別人的情緒),有些則關(guān)注復雜的人際推理(比如"小明認為小紅認為小剛在想什么")。

在訓練方法上,TimeHC-RL主要包含兩個創(chuàng)新部分:分層認知框架和時序感知獎勵機制。

分層認知框架允許模型根據(jù)問題的復雜性靈活選擇三種認知模式:

1. 系統(tǒng)1(直覺反應):對于簡單的社交情境,模型可以直接基于直覺給出答案,就像我們看到朋友笑了,不需要深思熟慮就知道他心情不錯。在代碼實現(xiàn)中,這表現(xiàn)為直接輸出答案:`最終答案`。

2. 表層思考:對于需要一定分析的社交情境,模型會先進行簡單分析,然后給出答案。這就像我們在社交場合需要快速判斷情境,但不需要過度思考的情況。在代碼中,這表現(xiàn)為:`社交情境理解</social context understanding> + 最終答案`。

3. 系統(tǒng)2(深度推理):對于復雜的人際推理問題,模型會進行深入的思考過程,然后給出答案。這就像我們需要仔細推理以理解復雜人際關(guān)系時的思考方式。在代碼中,這表現(xiàn)為:`思考過程 + 最終答案`。

這種分層認知框架就像是賦予AI一種"社交智商",讓它能根據(jù)問題的復雜性選擇合適的思考方式,而不是對所有問題都采用耗時的深度推理。

時序感知獎勵機制則是另一個關(guān)鍵創(chuàng)新。在傳統(tǒng)的強化學習中,獎勵主要基于答案的正確性。但TimeHC-RL引入了一種對比獎勵機制:模型需要在正確時間順序的社交事件序列上表現(xiàn)比在打亂順序的序列上更好,才能獲得額外獎勵。這就像告訴AI:"理解事件的先后順序很重要!"具體來說,研究團隊會對同一個社交問題生成兩組回答:一組基于正確時間順序的輸入,另一組基于打亂順序的輸入。如果模型在正確順序輸入上的正確率顯著高于打亂順序輸入,就說明模型確實依賴于時間信息,這時會給予額外獎勵。

訓練過程采用了GRPO(Group Relative Policy Optimization)算法,這是一種效率更高的強化學習方法。簡單來說,這種方法通過比較同一問題的不同回答的相對優(yōu)劣,而非絕對好壞,來指導模型學習,就像教練不是單獨評價每個學生,而是通過小組內(nèi)的比較來給予指導。

三、實驗結(jié)果與發(fā)現(xiàn):AI社交智能的重大突破

研究團隊在多個數(shù)據(jù)集上進行了全面測試,結(jié)果令人振奮。經(jīng)過TimeHC-RL訓練的7B參數(shù)模型在社交智能方面取得了顯著提升,甚至能與擁有更多參數(shù)的高級模型相媲美。

在領(lǐng)域內(nèi)評估中,TimeHC-RL模型在ToMi、ExploreToM、ToMBench、SocialIQA以及HiToM(三階和四階推理)等數(shù)據(jù)集上的綜合表現(xiàn)達到了80.0%,比基礎(chǔ)模型提升了驚人的29.0個百分點。更令人印象深刻的是,這一表現(xiàn)可與DeepSeek-R1(79.0%)和OpenAI-O3(81.0%)等先進模型相媲美。

在領(lǐng)域外評估中,TimeHC-RL模型也展現(xiàn)出了強大的泛化能力,在SimpleToM、ToMATO和OpenToM等從未見過的數(shù)據(jù)集上取得了65.0%的綜合表現(xiàn),比基礎(chǔ)模型提升了10.0個百分點。

研究團隊還與其他訓練方法進行了系統(tǒng)比較,發(fā)現(xiàn)了幾個關(guān)鍵洞見:

1. SFT(監(jiān)督微調(diào))有記憶能力但容量有限,而RL(強化學習)具有更好的泛化能力。在實驗中,直接SFT和長思考SFT在領(lǐng)域外評估中甚至降低了基礎(chǔ)模型的性能,而RL方法仍能帶來不同程度的提升。

2. RL方法在人際推理深度外推方面更有效。雖然所有方法都只在推理深度為1和2的問題上進行訓練,但RL方法在推理深度為3和4的問題上表現(xiàn)明顯優(yōu)于SFT方法。這就像是SFT只學會了解簡單的加減法題,而RL掌握了數(shù)學原理,能解決更復雜的問題。

3. 社交情境認知能力無法通過測試時的順序擴展方法提升。研究發(fā)現(xiàn),雖然"預算強制"(budget forcing,即讓模型花更多時間思考)方法對人際推理問題有幫助,但對社交情境認知幾乎沒有影響。這表明,提升社交情境認知可能需要在訓練數(shù)據(jù)中引入更多樣化的社交場景,或增加模型規(guī)模。

4. 不同認知模式的RL對不同類型的數(shù)據(jù)有明顯偏好。系統(tǒng)2 RL在關(guān)注人際推理的數(shù)據(jù)集(如ToMi和ExploreToM)上表現(xiàn)更好,而系統(tǒng)1 RL在關(guān)注社交情境認知的數(shù)據(jù)集(如ToMBench和SocialIQA)上表現(xiàn)更好。這進一步證明了構(gòu)建分層認知框架的必要性。

最令人興奮的是,TimeHC-RL比廣泛采用的系統(tǒng)2 RL方法平均高出2.0個百分點,在領(lǐng)域外評估中甚至高出7.0個百分點。這證明了時序感知和分層認知在提升AI社交智能方面的重要價值。

四、未來展望:更人性化的AI社交智能之路

盡管TimeHC-RL取得了顯著成果,研究團隊也坦承該方法存在一些局限性,并指出了未來研究的方向。

首先,當前研究主要關(guān)注情境智能和認知智能,而行為智能(即如何恰當?shù)匦袆雍突樱┩瑯又匾N磥硌芯靠梢蕴剿魅绾巫孉I不僅能理解社交情境,還能在社交互動中表現(xiàn)得更自然、更得體。

其次,構(gòu)建可擴展的社交情境框架非常重要。研究團隊認為,在訓練數(shù)據(jù)中引入更豐富的社交情境,讓AI接觸更多樣化的社交世界,對提升社交智能至關(guān)重要。這就像人類通過廣泛的社交經(jīng)歷積累社交經(jīng)驗一樣。

最后,研究團隊建議未來可以嘗試不同規(guī)模的模型??紤]到不同規(guī)模的模型具有不同的知識水平和認知能力,對多種規(guī)模的模型進行實驗可能會揭示更多關(guān)于提升AI社交智能的有價值見解。

總的來說,TimeHC-RL方法代表了AI社交智能研究的重要進展,它讓我們離構(gòu)建真正理解人類社交世界復雜性的AI系統(tǒng)更近了一步。通過結(jié)合時序感知和分層認知,這一方法成功地讓大語言模型更好地理解社交情境和人際關(guān)系,為未來更人性化的AI開辟了新的可能性。

這項研究不僅具有技術(shù)創(chuàng)新意義,還有潛在的廣泛應用前景。想象一下,未來的AI助手不僅能回答你的問題,還能真正理解你的情緒和社交需求;虛擬角色不僅能進行基本對話,還能展現(xiàn)出復雜的社交理解能力;教育應用不僅能提供知識,還能識別學生的情緒狀態(tài)并給予恰當支持。TimeHC-RL為這些可能性鋪平了道路,讓我們向擁有真正社交智能的AI邁進了一大步。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-