這項(xiàng)由阿里巴巴通義千問團(tuán)隊(duì)鄭楚杰、劉仕軒、李銘澤等十多位研究者共同完成的突破性研究發(fā)表于2025年7月25日,論文詳細(xì)介紹了一種名為GSPO(Group Sequence Policy Optimization)的全新強(qiáng)化學(xué)習(xí)算法。有興趣深入了解的讀者可以通過arXiv:2507.18071v1訪問完整論文。
這個(gè)研究解決的問題其實(shí)和我們?nèi)粘I钪械那闆r很相似。設(shè)想你正在教一個(gè)孩子學(xué)習(xí)寫作文,傳統(tǒng)的方法是逐字逐句地糾正每個(gè)錯(cuò)誤,但這往往會讓孩子感到困惑和挫敗。而GSPO就像是一位更聰明的老師,它不再糾結(jié)于每個(gè)詞語的對錯(cuò),而是從整篇文章的角度來評判和改進(jìn),讓學(xué)習(xí)過程變得更加穩(wěn)定和高效。
在人工智能領(lǐng)域,大型語言模型需要通過強(qiáng)化學(xué)習(xí)來提升自己解決復(fù)雜問題的能力,比如數(shù)學(xué)推理和編程任務(wù)。然而,現(xiàn)有的訓(xùn)練方法經(jīng)常會遇到"模型崩盤"的問題,就像一個(gè)學(xué)生在學(xué)習(xí)過程中突然完全失去了之前掌握的知識,而且這種崩盤往往是不可逆轉(zhuǎn)的。阿里巴巴的研究團(tuán)隊(duì)發(fā)現(xiàn),這個(gè)問題的根源在于傳統(tǒng)算法對每個(gè)詞語都過度關(guān)注,導(dǎo)致訓(xùn)練過程充滿了噪聲和不穩(wěn)定性。
GSPO算法的創(chuàng)新之處在于它改變了評判和優(yōu)化的基本單位。如果說傳統(tǒng)方法是在逐字逐句地挑毛病,GSPO則是從文章的整體質(zhì)量出發(fā)來進(jìn)行改進(jìn)。這種方法不僅解決了訓(xùn)練穩(wěn)定性問題,還顯著提高了訓(xùn)練效率,特別是在處理那些采用專家混合架構(gòu)的大型模型時(shí)表現(xiàn)尤為出色。
**一、傳統(tǒng)方法的困境:為什么AI訓(xùn)練會"翻車"**
要理解GSPO的價(jià)值,我們首先需要了解傳統(tǒng)強(qiáng)化學(xué)習(xí)方法面臨的挑戰(zhàn)。當(dāng)前最先進(jìn)的算法叫做GRPO(Group Relative Policy Optimization),它的工作方式有點(diǎn)像一個(gè)過分挑剔的編輯。
設(shè)想你正在批改學(xué)生的作文,GRPO的做法是這樣的:它會仔細(xì)檢查每一個(gè)詞語,然后根據(jù)這個(gè)詞語在新版本和舊版本中出現(xiàn)概率的比值來決定是否采納這個(gè)改動。這聽起來很合理,但實(shí)際上存在一個(gè)根本性的問題。
這個(gè)問題可以用一個(gè)簡單的比喻來說明。假設(shè)你要估算一家餐廳的平均服務(wù)質(zhì)量,正確的做法是收集很多顧客的評價(jià),然后計(jì)算平均分。但GRPO的做法相當(dāng)于只問一個(gè)顧客的意見,然后就根據(jù)這個(gè)意見來調(diào)整整個(gè)餐廳的服務(wù)策略。這種方法的問題在于,單個(gè)樣本往往包含很多隨機(jī)噪聲,無法準(zhǔn)確反映真實(shí)情況。
在AI訓(xùn)練中,這種噪聲會隨著文本長度的增加而不斷積累。每個(gè)詞語的重要性權(quán)重都可能存在偏差,當(dāng)這些偏差疊加起來時(shí),就會產(chǎn)生災(zāi)難性的后果。研究團(tuán)隊(duì)發(fā)現(xiàn),這種積累效應(yīng)在處理長文本時(shí)尤其嚴(yán)重,經(jīng)常導(dǎo)致模型突然崩盤,而且一旦崩盤就很難恢復(fù)。
更糟糕的是,GRPO算法中的"截?cái)鄼C(jī)制"本來是為了防止訓(xùn)練過程偏離正軌,但它實(shí)際上放大了這些噪聲的影響。就像一個(gè)過敏反應(yīng),本來是身體的保護(hù)機(jī)制,卻反而傷害了身體本身。當(dāng)算法檢測到某個(gè)詞語的重要性權(quán)重過高或過低時(shí),它會強(qiáng)制將這個(gè)權(quán)重限制在一定范圍內(nèi),但這種粗暴的處理方式往往會引入更多的訓(xùn)練不穩(wěn)定性。
阿里巴巴的研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)發(fā)現(xiàn),這種不穩(wěn)定性在訓(xùn)練大型模型時(shí)表現(xiàn)得尤為明顯。特別是當(dāng)模型采用專家混合(MoE)架構(gòu)時(shí),問題變得更加嚴(yán)重。這種架構(gòu)就像一個(gè)大型企業(yè)的多個(gè)部門,每個(gè)部門都有自己的專長。但在傳統(tǒng)的訓(xùn)練方法下,這些部門之間的協(xié)調(diào)經(jīng)常出現(xiàn)問題,導(dǎo)致整個(gè)系統(tǒng)的崩潰。
**二、GSPO的核心創(chuàng)新:從"逐字批改"到"整體評估"**
面對傳統(tǒng)方法的種種問題,阿里巴巴的研究團(tuán)隊(duì)提出了一個(gè)根本性的解決方案:既然問題出在逐詞處理上,那么為什么不直接從整個(gè)句子的角度來進(jìn)行優(yōu)化呢?
GSPO算法的核心思想可以用一個(gè)教學(xué)比喻來解釋。傳統(tǒng)的GRPO就像一個(gè)老師在批改作文時(shí),對每個(gè)詞語都要查字典、考慮語法、分析用詞準(zhǔn)確性,結(jié)果常常迷失在細(xì)節(jié)中,忘記了文章的整體質(zhì)量。而GSPO更像一個(gè)經(jīng)驗(yàn)豐富的語文老師,它會先通讀整篇文章,從整體的連貫性、邏輯性和表達(dá)效果來評判文章質(zhì)量,然后給出改進(jìn)建議。
具體來說,GSPO不再計(jì)算每個(gè)詞語的重要性權(quán)重,而是計(jì)算整個(gè)回答的重要性權(quán)重。這個(gè)權(quán)重反映的是整個(gè)回答在新模型和舊模型下生成概率的比值。這種做法有著堅(jiān)實(shí)的理論基礎(chǔ),因?yàn)樗嬲现匾圆蓸拥幕驹怼?/p>
重要性采樣是統(tǒng)計(jì)學(xué)中的一個(gè)重要概念,它的原理就像這樣:假設(shè)你想了解全國大學(xué)生的平均身高,但你只能在某個(gè)特定地區(qū)采集樣本。為了讓這個(gè)特定地區(qū)的樣本能夠代表全國情況,你需要根據(jù)每個(gè)樣本在全國人口中的代表性來調(diào)整它們的權(quán)重。重要性采樣要求你有足夠多的樣本來進(jìn)行這種調(diào)整,而不是僅僅基于一個(gè)樣本就做出判斷。
GSPO的序列級重要性權(quán)重正是遵循了這個(gè)原理。它將整個(gè)回答視為一個(gè)完整的樣本,然后根據(jù)這個(gè)回答在不同模型下的生成概率來計(jì)算權(quán)重。這種方法不僅理論上更加合理,而且實(shí)際上也更加穩(wěn)定。
為了控制這個(gè)序列級權(quán)重的數(shù)值范圍,研究團(tuán)隊(duì)采用了長度歸一化的技巧。這就像在比較不同長度文章的質(zhì)量時(shí),我們不能簡單地看總分,而要看平均分一樣。通過將概率按照序列長度進(jìn)行歸一化,GSPO確保了不同長度的回答都能在同一個(gè)數(shù)值范圍內(nèi)進(jìn)行比較。
GSPO的優(yōu)化目標(biāo)也相應(yīng)地進(jìn)行了調(diào)整。它不再對每個(gè)詞語單獨(dú)應(yīng)用截?cái)鄼C(jī)制,而是對整個(gè)回答進(jìn)行截?cái)唷_@意味著算法會判斷整個(gè)回答是否偏離了預(yù)期的分布,如果偏離過多,就會將這個(gè)回答從訓(xùn)練中排除。這種做法就像一個(gè)質(zhì)量檢查員,他不會因?yàn)楫a(chǎn)品的某個(gè)小細(xì)節(jié)不完美就將其丟棄,而是從產(chǎn)品的整體質(zhì)量來做判斷。
**三、算法的數(shù)學(xué)原理:讓復(fù)雜計(jì)算變得直觀**
雖然GSPO背后的數(shù)學(xué)原理相當(dāng)復(fù)雜,但我們可以用一個(gè)簡單的烘焙比喻來理解它的工作機(jī)制。
設(shè)想你正在經(jīng)營一家面包店,你想要改進(jìn)蛋糕的配方。傳統(tǒng)的GRPO方法就像這樣工作:你會仔細(xì)分析每一種配料(面粉、糖、雞蛋等)在新配方和舊配方中的用量比例,然后根據(jù)每種配料的變化來調(diào)整制作過程。但這種方法的問題是,每種配料的最佳用量往往依賴于其他配料,單獨(dú)優(yōu)化某一種配料可能會破壞整體的平衡。
GSPO的方法則完全不同。它會制作出完整的蛋糕,然后比較新配方和舊配方制作出的蛋糕的整體質(zhì)量。具體來說,它會計(jì)算新配方制作出某個(gè)特定蛋糕的概率與舊配方制作出同樣蛋糕的概率之比。這個(gè)比值反映了新配方相對于舊配方的"偏好程度"。
在數(shù)學(xué)上,這個(gè)過程可以表示為一個(gè)相對簡潔的公式。GSPO計(jì)算的重要性權(quán)重是新模型生成某個(gè)回答的概率除以舊模型生成同樣回答的概率,然后取這個(gè)比值的平方根(長度歸一化)。這個(gè)權(quán)重然后會與回答的"優(yōu)勢值"相乘,優(yōu)勢值反映的是這個(gè)回答相比于其他回答的相對質(zhì)量。
研究團(tuán)隊(duì)還提供了GSPO梯度計(jì)算的詳細(xì)分析。梯度就像山坡的坡度,它告訴算法應(yīng)該向哪個(gè)方向調(diào)整模型參數(shù)才能獲得更好的性能。GSPO的梯度計(jì)算公式顯示,它會根據(jù)整個(gè)回答的質(zhì)量來平等地調(diào)整回答中每個(gè)詞語的參數(shù),而不是給不同的詞語分配不同的權(quán)重。
這種平等對待的方式消除了GRPO中存在的不穩(wěn)定因素。在GRPO中,不同詞語會根據(jù)其各自的重要性權(quán)重獲得不同的"發(fā)言權(quán)",這些權(quán)重可能在0到無窮大之間變動,導(dǎo)致訓(xùn)練過程極不穩(wěn)定。而GSPO確保所有詞語都獲得相同的權(quán)重,就像一個(gè)民主的決策過程,每個(gè)成員都有平等的投票權(quán)。
**四、靈活變體:適應(yīng)不同應(yīng)用場景的GSPO-token**
認(rèn)識到某些應(yīng)用場景可能需要更精細(xì)的控制,研究團(tuán)隊(duì)還開發(fā)了GSPO的一個(gè)變體,稱為GSPO-token。這個(gè)變體就像一個(gè)可以調(diào)節(jié)不同區(qū)域溫度的智能空調(diào)系統(tǒng)。
在某些情況下,我們可能希望對回答的不同部分給予不同程度的關(guān)注。比如在多輪對話的訓(xùn)練中,對話的后半部分可能比前半部分更重要,因?yàn)樗鼈兏苯拥仃P(guān)系到對話的結(jié)果。GSPO-token允許研究者為每個(gè)詞語設(shè)置不同的優(yōu)勢值,從而實(shí)現(xiàn)更精細(xì)的控制。
但是,GSPO-token的聰明之處在于它如何處理重要性權(quán)重。它不像GRPO那樣為每個(gè)詞語計(jì)算獨(dú)立的權(quán)重,而是使用一個(gè)巧妙的設(shè)計(jì):所有詞語共享同一個(gè)序列級的重要性權(quán)重,但每個(gè)詞語可以有自己的優(yōu)勢值。
這種設(shè)計(jì)可以用一個(gè)團(tuán)隊(duì)項(xiàng)目的比喻來理解。在GRPO中,每個(gè)團(tuán)隊(duì)成員都有自己的"權(quán)威度",這個(gè)權(quán)威度會隨著項(xiàng)目進(jìn)展而劇烈變化,導(dǎo)致團(tuán)隊(duì)內(nèi)部權(quán)力失衡。而在GSPO-token中,所有團(tuán)隊(duì)成員都有相同的發(fā)言權(quán)(序列級權(quán)重),但他們可以負(fù)責(zé)不同重要性的任務(wù)(不同的優(yōu)勢值)。
從數(shù)學(xué)角度來看,GSPO-token的梯度計(jì)算顯示,當(dāng)所有詞語的優(yōu)勢值相同時(shí),它完全等價(jià)于原始的GSPO算法。這意味著GSPO-token不僅提供了更大的靈活性,而且在標(biāo)準(zhǔn)情況下保持了GSPO的所有優(yōu)點(diǎn)。
**五、實(shí)驗(yàn)驗(yàn)證:數(shù)據(jù)說話的真實(shí)表現(xiàn)**
為了驗(yàn)證GSPO的有效性,阿里巴巴的研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的實(shí)驗(yàn)比較。他們使用了一個(gè)基于Qwen3-30B-A3B-Base模型微調(diào)的冷啟動模型,在數(shù)學(xué)推理(AIME'24)、編程能力(LiveCodeBench)和競賽編程(CodeForces)等多個(gè)具有挑戰(zhàn)性的任務(wù)上測試了GSPO和GRPO的性能。
實(shí)驗(yàn)結(jié)果就像一場精彩的馬拉松比賽。在這場比賽中,GSPO表現(xiàn)得像一個(gè)訓(xùn)練有素的長跑運(yùn)動員,不僅跑得更快,而且跑得更穩(wěn)。訓(xùn)練曲線顯示,GSPO在整個(gè)訓(xùn)練過程中都保持了穩(wěn)定的性能提升,沒有出現(xiàn)傳統(tǒng)方法常見的性能波動或突然下降。
更令人印象深刻的是訓(xùn)練效率的提升。在相同的計(jì)算資源和訓(xùn)練數(shù)據(jù)下,GSPO達(dá)到了比GRPO更好的性能水平。這就像兩個(gè)學(xué)生用同樣的時(shí)間學(xué)習(xí),但使用更好學(xué)習(xí)方法的學(xué)生取得了更好的成績。
特別有趣的是一個(gè)看似矛盾的發(fā)現(xiàn):GSPO裁剪掉的詞語數(shù)量比GRPO多了兩個(gè)數(shù)量級,但訓(xùn)練效率反而更高。這個(gè)現(xiàn)象可以用餐廳管理來類比:一個(gè)嚴(yán)格的餐廳經(jīng)理可能會拒絕更多的不合格食材,但最終制作出的菜品質(zhì)量更高,顧客滿意度也更好。這個(gè)發(fā)現(xiàn)進(jìn)一步證明了GRPO的詞語級梯度估計(jì)包含了太多噪聲,而GSPO的序列級方法提供了更可靠和有效的學(xué)習(xí)信號。
**六、解決MoE模型訓(xùn)練難題:從復(fù)雜到簡單**
專家混合(MoE)模型的訓(xùn)練一直是人工智能領(lǐng)域的一個(gè)技術(shù)難題,而GSPO在這個(gè)方面展現(xiàn)出了特別突出的優(yōu)勢。
MoE模型就像一個(gè)大型醫(yī)院的??企w系。這個(gè)醫(yī)院有心臟科、腦科、骨科等多個(gè)專科,每個(gè)病人會根據(jù)具體情況被分配到相應(yīng)的專科進(jìn)行治療。這種設(shè)計(jì)的好處是可以提供更專業(yè)的服務(wù),但挑戰(zhàn)在于如何確保各個(gè)??浦g的協(xié)調(diào)配合。
在MoE模型的訓(xùn)練中,傳統(tǒng)的GRPO方法面臨一個(gè)嚴(yán)重問題:專家激活的不穩(wěn)定性。當(dāng)模型參數(shù)更新后,同一個(gè)輸入可能會激活完全不同的專家組合。研究團(tuán)隊(duì)發(fā)現(xiàn),在48層的Qwen3-30B-A3B-Base模型中,每次參數(shù)更新后大約有10%的專家激活模式會發(fā)生變化。這種變化就像醫(yī)院的分診系統(tǒng)出現(xiàn)混亂,同樣的病人在不同時(shí)間可能被分配到完全不同的科室。
這種專家激活的變化會導(dǎo)致GRPO的詞語級重要性權(quán)重劇烈波動,進(jìn)一步加劇了算法本身就存在的不穩(wěn)定性問題。為了解決這個(gè)問題,研究團(tuán)隊(duì)之前不得不采用一種叫做"路由重放"的復(fù)雜技術(shù)。
路由重放的工作方式就像給醫(yī)院的分診系統(tǒng)拍照存檔。在計(jì)算重要性權(quán)重時(shí),系統(tǒng)會強(qiáng)制使用舊模型時(shí)的專家激活模式,確保新舊模型使用相同的專家組合來處理同一個(gè)輸入。雖然這種方法能夠穩(wěn)定訓(xùn)練過程,但它增加了內(nèi)存和通信開銷,而且限制了模型發(fā)揮其真正的能力。
GSPO的出現(xiàn)徹底改變了這種局面。由于GSPO只關(guān)注整個(gè)序列的概率,而不關(guān)心具體哪些專家被激活,它天然地避免了專家激活不穩(wěn)定性的問題。這就像一個(gè)更聰明的醫(yī)院管理系統(tǒng),它不關(guān)心病人具體看了哪些科室,只關(guān)心最終的治療效果如何。
實(shí)驗(yàn)結(jié)果證明,GSPO完全不需要路由重放技術(shù)就能穩(wěn)定地訓(xùn)練MoE模型,而且性能表現(xiàn)優(yōu)于使用路由重放的GRPO。這不僅簡化了訓(xùn)練流程,還讓模型能夠充分發(fā)揮其設(shè)計(jì)潛力,不再受到人為約束的限制。
**七、基礎(chǔ)設(shè)施優(yōu)化:簡化復(fù)雜系統(tǒng)**
除了算法層面的優(yōu)勢,GSPO還為強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施帶來了意想不到的簡化效果。
在實(shí)際的AI系統(tǒng)部署中,訓(xùn)練引擎和推理引擎通常是分開的,就像工廠的生產(chǎn)線和質(zhì)檢部門使用不同的設(shè)備和標(biāo)準(zhǔn)。由于精度差異和實(shí)現(xiàn)細(xì)節(jié)的不同,這兩個(gè)系統(tǒng)計(jì)算出的概率值往往存在微小但重要的差異。
傳統(tǒng)的GRPO方法對這種差異極其敏感,因?yàn)樗枰_的詞語級概率來計(jì)算重要性權(quán)重。任何微小的計(jì)算差異都可能導(dǎo)致權(quán)重的顯著變化,進(jìn)而影響訓(xùn)練穩(wěn)定性。為了解決這個(gè)問題,實(shí)際系統(tǒng)通常需要用訓(xùn)練引擎重新計(jì)算所有采樣回答的概率,這增加了系統(tǒng)復(fù)雜性和計(jì)算成本。
GSPO的序列級方法對這種精度差異具有更好的容忍性。這就像比較兩篇文章的整體質(zhì)量時(shí),我們通常不會因?yàn)槟硞€(gè)標(biāo)點(diǎn)符號的微小差異而改變判斷,但如果逐字逐句地比較,這些微小差異就可能被放大。因此,GSPO有望直接使用推理引擎返回的概率進(jìn)行優(yōu)化,避免了重新計(jì)算的需要。
這種簡化對于某些高級應(yīng)用場景特別有價(jià)值,比如部分回滾訓(xùn)練和多輪對話訓(xùn)練,以及訓(xùn)練-推理分離的架構(gòu)。在這些場景中,系統(tǒng)的復(fù)雜性往往是限制性能和擴(kuò)展性的主要瓶頸,而GSPO提供的簡化方案可能會帶來顯著的工程效益。
**八、深入分析:為什么GSPO更有效**
通過對比GSPO和GRPO的梯度計(jì)算公式,我們可以更深入地理解GSPO為什么能夠取得更好的效果。
在GRPO中,每個(gè)詞語的梯度會被其對應(yīng)的重要性權(quán)重縮放。這些權(quán)重可能在一個(gè)很大的范圍內(nèi)變動,對于優(yōu)勢為正的回答,權(quán)重范圍是(0, 1+ε],對于優(yōu)勢為負(fù)的回答,權(quán)重范圍是[1-ε, +∞)。這種不平等的權(quán)重分配會導(dǎo)致某些詞語的梯度被過度放大,而另一些詞語的梯度被過度抑制。
這種現(xiàn)象就像一個(gè)不平衡的團(tuán)隊(duì),某些成員的意見被過分重視,而另一些成員的聲音被忽略。隨著訓(xùn)練的進(jìn)行,這種不平衡會逐漸累積,最終可能導(dǎo)致系統(tǒng)的崩潰。
相比之下,GSPO為回答中的所有詞語分配相同的權(quán)重,消除了這種不穩(wěn)定因素。這就像一個(gè)民主的決策過程,每個(gè)參與者都有平等的發(fā)言權(quán),避免了權(quán)力集中可能帶來的問題。
從信息論的角度來看,GSPO的方法也更加合理。序列級的重要性權(quán)重反映的是整個(gè)回答的信息含量,而詞語級的權(quán)重往往包含了大量的隨機(jī)噪聲。通過聚焦于信息含量更高的序列級信號,GSPO能夠更有效地利用訓(xùn)練數(shù)據(jù),提取出更可靠的學(xué)習(xí)信號。
**九、實(shí)際應(yīng)用和未來展望**
GSPO算法的成功應(yīng)用已經(jīng)在阿里巴巴最新的Qwen3模型中得到了驗(yàn)證。這些模型在數(shù)學(xué)推理、代碼生成、復(fù)雜問題解決等多個(gè)領(lǐng)域都表現(xiàn)出了顯著的性能提升,證明了GSPO在大規(guī)模實(shí)際應(yīng)用中的有效性。
這種成功不僅僅體現(xiàn)在性能指標(biāo)上,更重要的是它為大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練提供了一個(gè)穩(wěn)定可靠的算法基礎(chǔ)。在GSPO之前,大型模型的強(qiáng)化學(xué)習(xí)訓(xùn)練經(jīng)常面臨不可預(yù)測的崩潰風(fēng)險(xiǎn),這極大地限制了研究者和工程師探索模型能力邊界的努力。
GSPO的出現(xiàn)改變了這種局面。它不僅解決了訓(xùn)練穩(wěn)定性問題,還提高了訓(xùn)練效率,為持續(xù)擴(kuò)大訓(xùn)練規(guī)模提供了可能。這就像為探險(xiǎn)隊(duì)提供了一個(gè)更可靠的指南針,讓他們能夠更安全、更高效地探索未知的領(lǐng)域。
從更廣闊的視角來看,GSPO代表了強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)思路的一個(gè)重要轉(zhuǎn)變:從局部優(yōu)化轉(zhuǎn)向全局優(yōu)化,從細(xì)節(jié)關(guān)注轉(zhuǎn)向整體把握。這種思路轉(zhuǎn)變可能會啟發(fā)更多類似的創(chuàng)新,推動整個(gè)人工智能領(lǐng)域的發(fā)展。
對于研究社區(qū)而言,GSPO提供了一個(gè)新的研究方向。研究者可以基于GSPO的核心思想,探索更多的序列級優(yōu)化方法,或者將這種思路應(yīng)用到其他類型的學(xué)習(xí)任務(wù)中。同時(shí),GSPO的成功也提示我們,有時(shí)候解決復(fù)雜問題的最好方法不是增加更多的復(fù)雜性,而是回到基本原理,尋找更簡潔、更本質(zhì)的解決方案。
對于工業(yè)界而言,GSPO的實(shí)用價(jià)值是顯而易見的。它不僅提高了模型訓(xùn)練的成功率和效率,還簡化了系統(tǒng)架構(gòu),降低了工程復(fù)雜度。這些優(yōu)勢使得更多的組織和團(tuán)隊(duì)能夠嘗試大規(guī)模的強(qiáng)化學(xué)習(xí)項(xiàng)目,推動人工智能技術(shù)的普及和應(yīng)用。
展望未來,隨著計(jì)算資源的持續(xù)增長和模型規(guī)模的不斷擴(kuò)大,穩(wěn)定高效的訓(xùn)練算法將變得越來越重要。GSPO為這個(gè)發(fā)展趨勢提供了一個(gè)堅(jiān)實(shí)的算法基礎(chǔ),有望支撐下一代人工智能系統(tǒng)的開發(fā)和部署。
歸根結(jié)底,GSPO的成功告訴我們一個(gè)簡單而深刻的道理:有時(shí)候,最好的解決方案不是最復(fù)雜的,而是最合理的。通過回歸到重要性采樣的基本原理,通過將優(yōu)化單位與獎(jiǎng)勵(lì)單位對齊,GSPO找到了一條既簡潔又有效的路徑。這種思路不僅解決了當(dāng)前的技術(shù)問題,更為未來的創(chuàng)新提供了寶貴的啟示。
正如阿里巴巴研究團(tuán)隊(duì)在論文中所展望的那樣,GSPO作為一個(gè)穩(wěn)健可擴(kuò)展的算法基礎(chǔ),將繼續(xù)推動大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練的發(fā)展,并最終促進(jìn)人工智能領(lǐng)域的根本性進(jìn)步。這項(xiàng)研究不僅是技術(shù)上的突破,更是科學(xué)思維方式的勝利,展示了回歸基本原理、追求簡潔有效解決方案的重要價(jià)值。
Q&A
Q1:GSPO是什么?它解決了什么問題? A:GSPO(Group Sequence Policy Optimization)是阿里巴巴開發(fā)的一種新型強(qiáng)化學(xué)習(xí)算法,專門用于訓(xùn)練大型語言模型。它主要解決了傳統(tǒng)訓(xùn)練方法中經(jīng)常出現(xiàn)的"模型崩盤"問題,讓AI模型訓(xùn)練變得更加穩(wěn)定和高效。
Q2:GSPO相比傳統(tǒng)方法有什么優(yōu)勢? A:GSPO的主要優(yōu)勢是從整個(gè)回答的角度進(jìn)行優(yōu)化,而不是逐個(gè)詞語地處理。這種方法大大提高了訓(xùn)練穩(wěn)定性,特別是在處理長文本和復(fù)雜模型時(shí)表現(xiàn)更好,同時(shí)還簡化了系統(tǒng)架構(gòu),降低了工程復(fù)雜度。
Q3:普通人能使用GSPO技術(shù)嗎? A:GSPO主要是面向AI研究和開發(fā)的底層算法技術(shù),普通用戶無法直接使用。但這項(xiàng)技術(shù)已經(jīng)應(yīng)用在阿里巴巴的Qwen3模型中,用戶可以通過使用這些經(jīng)過GSPO訓(xùn)練的模型來間接體驗(yàn)其帶來的性能提升。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。