av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 不確定時(shí)更謹(jǐn)慎:浙江大學(xué)研究者提出SEED-GRPO,讓AI通過(guò)自我認(rèn)知不確定性學(xué)習(xí)更高效

不確定時(shí)更謹(jǐn)慎:浙江大學(xué)研究者提出SEED-GRPO,讓AI通過(guò)自我認(rèn)知不確定性學(xué)習(xí)更高效

2025-05-23 07:59
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-23 07:59 ? 科技行者

在人工智能飛速發(fā)展的今天,大型語(yǔ)言模型(LLMs)如GPT-4o、Gemini和Claude 3已成為我們生活中不可或缺的一部分。然而,盡管這些模型在回答問(wèn)題時(shí)表現(xiàn)出驚人的能力,但它們并非完美無(wú)缺。有時(shí)它們會(huì)對(duì)某些問(wèn)題充滿信心,回答一致而準(zhǔn)確;有時(shí)卻會(huì)給出互相矛盾的答案,顯得猶豫不決。這種現(xiàn)象背后隱藏著一個(gè)重要信號(hào):模型對(duì)不同問(wèn)題的"確定性"各不相同。

2025年5月,浙江大學(xué)ReLER實(shí)驗(yàn)室的陳明涵、陳貴坤、王文冠和楊易發(fā)表了一篇題為"SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization"的研究論文,提出了一種創(chuàng)新的方法,利用這種不確定性信號(hào)來(lái)改進(jìn)人工智能模型的學(xué)習(xí)過(guò)程。這項(xiàng)研究已在arXiv預(yù)印本平臺(tái)上公開(kāi)(arXiv:2505.12346v1)。

想象一下,當(dāng)你面對(duì)一個(gè)你完全了解的問(wèn)題時(shí),無(wú)論別人怎么問(wèn),你的回答核心內(nèi)容基本都是一致的。比如問(wèn)你"3的立方是多少?",無(wú)論如何表述,你都會(huì)給出"27"這個(gè)答案。但如果問(wèn)你一個(gè)你不太確定的問(wèn)題,比如"某個(gè)復(fù)雜積分的值",你可能會(huì)給出各種不同的答案,這反映了你對(duì)這個(gè)問(wèn)題的不確定性。

大型語(yǔ)言模型也存在類似的行為模式。當(dāng)模型對(duì)某個(gè)問(wèn)題充滿信心時(shí),即使生成多個(gè)回答,這些回答雖然表述不同,但核心意思往往一致。反之,當(dāng)模型對(duì)問(wèn)題把握不足時(shí),會(huì)產(chǎn)生語(yǔ)義各異、甚至相互矛盾的多樣化回答。

現(xiàn)有的一種名為"群組相對(duì)策略優(yōu)化"(Group Relative Policy Optimization,簡(jiǎn)稱GRPO)的訓(xùn)練方法,雖然已經(jīng)在提升語(yǔ)言模型的推理能力方面取得了顯著成效,但它對(duì)所有問(wèn)題一視同仁,沒(méi)有考慮模型自身對(duì)不同問(wèn)題的確定性差異。就好比一位老師對(duì)待學(xué)生的所有問(wèn)題都采用同樣的教學(xué)強(qiáng)度,無(wú)論學(xué)生是否已經(jīng)掌握了相關(guān)知識(shí)。

浙江大學(xué)的研究團(tuán)隊(duì)提出的SEED-GRPO方法,就像是一位能夠感知學(xué)生理解程度的智慧老師。它通過(guò)計(jì)算"語(yǔ)義熵"(Semantic Entropy)來(lái)衡量模型對(duì)不同問(wèn)題的不確定性程度,并據(jù)此調(diào)整學(xué)習(xí)的力度。對(duì)于模型比較確定的問(wèn)題(低語(yǔ)義熵),保持正常學(xué)習(xí)力度;對(duì)于模型不太確定的問(wèn)題(高語(yǔ)義熵),則采取更保守的學(xué)習(xí)策略。

這種方法的核心思想可以通過(guò)一個(gè)簡(jiǎn)單的例子來(lái)理解。假設(shè)有兩道數(shù)學(xué)題:第一道是"求x的值,已知x?=27";第二道是"計(jì)算積分∫x?sin(2/x)dx"。對(duì)于第一道題,無(wú)論模型生成多少次答案,大多數(shù)答案都會(huì)指向"x=3"這一核心意思,表明模型對(duì)這類問(wèn)題有很高的確定性。而對(duì)于第二道較難的積分題,模型可能會(huì)給出各種不同的答案,如"發(fā)散到無(wú)窮大"、"答案是2"、"面積總是1"等,這些答案語(yǔ)義各異,表明模型對(duì)這個(gè)問(wèn)題的理解存在顯著不確定性。

SEED-GRPO正是利用這種語(yǔ)義多樣性的差異,來(lái)調(diào)整模型在不同問(wèn)題上的學(xué)習(xí)力度。就像人類學(xué)習(xí)一樣,對(duì)于我們已經(jīng)基本掌握的知識(shí),可以進(jìn)行較大幅度的調(diào)整和完善;而對(duì)于我們尚未充分理解的復(fù)雜概念,則需要更謹(jǐn)慎、更小幅度的學(xué)習(xí),避免過(guò)度擬合到可能有噪聲的信息上。

研究團(tuán)隊(duì)在五個(gè)數(shù)學(xué)推理基準(zhǔn)測(cè)試上評(píng)估了SEED-GRPO的性能,包括AIME24、AMC、MATH、Minerva和OlympiadBench等。結(jié)果表明,SEED-GRPO在所有這些基準(zhǔn)測(cè)試上都取得了顯著的性能提升,平均準(zhǔn)確率達(dá)到58.2%,遠(yuǎn)超以往的方法。特別值得一提的是,在難度極高的AIME24奧林匹克數(shù)學(xué)競(jìng)賽基準(zhǔn)測(cè)試上,SEED-GRPO取得了56.7%的準(zhǔn)確率,這一成績(jī)甚至超越了許多參數(shù)量為32B的大型模型。

這項(xiàng)研究不僅在技術(shù)上推動(dòng)了大型語(yǔ)言模型的進(jìn)步,更深層次地反映了一種學(xué)習(xí)哲學(xué):真正高效的學(xué)習(xí)應(yīng)該是自適應(yīng)的,要根據(jù)對(duì)不同知識(shí)的把握程度來(lái)調(diào)整學(xué)習(xí)策略。就像人類在學(xué)習(xí)過(guò)程中,會(huì)自然地將更多注意力放在掌握較好的內(nèi)容上進(jìn)行深化,而對(duì)尚未掌握的內(nèi)容則采取更謹(jǐn)慎的探索策略一樣。

SEED-GRPO方法的原理并不復(fù)雜,但它帶來(lái)的效果卻十分顯著。在計(jì)算機(jī)科學(xué)領(lǐng)域,這種將不確定性信號(hào)納入學(xué)習(xí)過(guò)程的思路,為未來(lái)大型語(yǔ)言模型的訓(xùn)練提供了新的方向。隨著這類方法的不斷完善,我們可以期待人工智能系統(tǒng)在面對(duì)復(fù)雜推理任務(wù)時(shí)表現(xiàn)得更加智能、更加"有自知之明"。

讓我們更深入地了解SEED-GRPO的工作原理。在傳統(tǒng)的GRPO方法中,系統(tǒng)會(huì)為每個(gè)問(wèn)題生成多個(gè)答案,然后根據(jù)這些答案的正確性計(jì)算獎(jiǎng)勵(lì),并以此來(lái)更新模型參數(shù)。然而,SEED-GRPO在這個(gè)過(guò)程中增加了一個(gè)關(guān)鍵步驟:計(jì)算語(yǔ)義熵。

語(yǔ)義熵的計(jì)算并不直接基于表面的文本差異,而是基于答案的語(yǔ)義差異。想象一下,如果模型對(duì)問(wèn)題"3的立方是多少?"給出了六個(gè)回答:"3的立方根是27"、"計(jì)算得27"、"答案是27"、"x=3滿足方程"、"我認(rèn)為是3"等,盡管這些回答在文字表述上各不相同,但它們本質(zhì)上都在表達(dá)同一個(gè)意思:x=3。這種情況下,盡管有六個(gè)不同的回答,但它們實(shí)際上只形成了一到兩個(gè)語(yǔ)義聚類,因此語(yǔ)義熵較低。

相比之下,如果對(duì)于復(fù)雜的積分問(wèn)題,模型給出了"答案發(fā)散到無(wú)窮大"、"答案是2"、"面積總是1"、"值是sin(e)"、"沒(méi)有解析解"等完全不同的答案,這些答案形成了多個(gè)語(yǔ)義聚類,表明模型對(duì)這個(gè)問(wèn)題存在高度不確定性,因此語(yǔ)義熵較高。

在SEED-GRPO中,根據(jù)計(jì)算得到的語(yǔ)義熵值,系統(tǒng)會(huì)動(dòng)態(tài)調(diào)整策略更新的幅度。具體來(lái)說(shuō),它使用一個(gè)不確定性感知的優(yōu)勢(shì)函數(shù):

A_i = A_i · f(α · SE(q)/SE_max(q))

其中,A_i是原始優(yōu)勢(shì)值,SE(q)是問(wèn)題q的語(yǔ)義熵,SE_max(q)是最大可能的語(yǔ)義熵,α是一個(gè)控制靈敏度的超參數(shù),f是一個(gè)調(diào)制函數(shù)(可以是線性的、指數(shù)的或者其他形式的)。

通過(guò)這個(gè)函數(shù),SEED-GRPO實(shí)現(xiàn)了一個(gè)關(guān)鍵的機(jī)制:當(dāng)語(yǔ)義熵高(即模型不確定)時(shí),優(yōu)勢(shì)值會(huì)被縮小,導(dǎo)致更保守的參數(shù)更新;當(dāng)語(yǔ)義熵低(即模型確定)時(shí),保持原有的學(xué)習(xí)強(qiáng)度。這就像是一個(gè)靈活的學(xué)習(xí)策略:對(duì)于我們較為熟悉的領(lǐng)域,可以大膽嘗試和調(diào)整;而對(duì)于不太熟悉的領(lǐng)域,則需要更加謹(jǐn)慎,避免過(guò)度自信。

研究團(tuán)隊(duì)對(duì)不同的實(shí)現(xiàn)細(xì)節(jié)進(jìn)行了詳盡的消融研究。他們發(fā)現(xiàn),α=0.02的線性調(diào)制函數(shù)在大多數(shù)任務(wù)上表現(xiàn)最佳,平均準(zhǔn)確率達(dá)到56.6%。此外,增加每個(gè)問(wèn)題的采樣答案數(shù)量(從8個(gè)增加到16個(gè))也能進(jìn)一步提升性能,特別是在難度較高的AIME24基準(zhǔn)測(cè)試上,準(zhǔn)確率從46.7%提升到了56.7%。

有趣的是,當(dāng)研究人員分析不同問(wèn)題的語(yǔ)義熵分布時(shí),他們發(fā)現(xiàn)語(yǔ)義熵與問(wèn)題難度之間存在明顯的相關(guān)性。對(duì)于模型能夠輕松解決的問(wèn)題,語(yǔ)義熵通常較低;而對(duì)于模型難以解決的問(wèn)題,語(yǔ)義熵往往較高。這一發(fā)現(xiàn)進(jìn)一步證實(shí)了語(yǔ)義熵作為模型不確定性指標(biāo)的有效性。

當(dāng)然,SEED-GRPO也存在一些局限性。目前,研究團(tuán)隊(duì)在數(shù)學(xué)推理任務(wù)中主要基于最終答案來(lái)進(jìn)行語(yǔ)義聚類,而沒(méi)有考慮中間推理步驟的差異。這種方法雖然簡(jiǎn)單有效,但對(duì)于沒(méi)有唯一確定答案的開(kāi)放性問(wèn)題,可能無(wú)法充分捕捉推理過(guò)程的多樣性。未來(lái)的研究方向包括將語(yǔ)義熵?cái)U(kuò)展到多模態(tài)任務(wù)(如圖像-文本問(wèn)答)、代碼生成以及開(kāi)放式文本問(wèn)答等領(lǐng)域,這些領(lǐng)域可能會(huì)從不確定性感知的策略優(yōu)化中獲益更多。

總的來(lái)說(shuō),SEED-GRPO代表了人工智能學(xué)習(xí)方法的一個(gè)重要進(jìn)步。它不僅在技術(shù)上提供了一種新的訓(xùn)練范式,更重要的是引入了一種更接近人類學(xué)習(xí)方式的自適應(yīng)學(xué)習(xí)機(jī)制。在未來(lái),隨著這種方法的進(jìn)一步完善和擴(kuò)展,我們有望看到人工智能系統(tǒng)在復(fù)雜推理任務(wù)上展現(xiàn)出更強(qiáng)的能力,同時(shí)也能更好地知道"自己知道什么,不知道什么"——這正是真正智能系統(tǒng)的關(guān)鍵特征之一。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-