在2025年5月,來(lái)自微軟亞洲研究院(Microsoft Research Asia)的研究團(tuán)隊(duì)發(fā)布了一項(xiàng)引人注目的研究成果——rStar-Coder。這項(xiàng)由Yifei Liu、Li Lyna Zhang(項(xiàng)目負(fù)責(zé)人)、Yi Zhu等研究人員完成的工作,發(fā)表在arXiv預(yù)印本網(wǎng)站(arXiv:2505.21297v1),為大型語(yǔ)言模型(LLMs)的代碼推理能力提供了全新的解決方案。有興趣深入了解的讀者可以通過(guò)GitHub(https://github.com/microsoft/rStar)獲取代碼和數(shù)據(jù)集。
大型語(yǔ)言模型在代碼生成領(lǐng)域取得了令人矚目的進(jìn)展,但在高難度的代碼推理任務(wù)上依然面臨巨大挑戰(zhàn)。就像一個(gè)會(huì)做簡(jiǎn)單菜肴的廚師面對(duì)復(fù)雜烹飪比賽時(shí)力不從心一樣,現(xiàn)有的模型雖然能處理常規(guī)代碼任務(wù),但在競(jìng)賽級(jí)別的算法問(wèn)題上表現(xiàn)不佳。究其原因,研究團(tuán)隊(duì)指出這主要是因?yàn)槿狈Υ笠?guī)模、高質(zhì)量且可驗(yàn)證的訓(xùn)練數(shù)據(jù)。
想象一下,如果我們要訓(xùn)練一位優(yōu)秀的廚師,不僅需要各種菜譜,還需要詳細(xì)的烹飪過(guò)程和可靠的品嘗評(píng)價(jià)。同樣,訓(xùn)練代碼推理模型也需要高質(zhì)量的問(wèn)題、詳細(xì)的解題思路,以及可靠的測(cè)試案例來(lái)驗(yàn)證解決方案的正確性。但現(xiàn)有的代碼數(shù)據(jù)集要么缺乏足夠的挑戰(zhàn)性,要么沒(méi)有完整的測(cè)試案例覆蓋。
微軟亞洲研究院的研究團(tuán)隊(duì)精心構(gòu)建了rStar-Coder數(shù)據(jù)集,包含418K個(gè)競(jìng)賽級(jí)別的代碼問(wèn)題和580K個(gè)帶有豐富推理過(guò)程的解決方案,每個(gè)解決方案都通過(guò)了不同難度的測(cè)試案例驗(yàn)證。這就像為AI模型提供了一整套從入門到大師級(jí)的編程訓(xùn)練營(yíng),每個(gè)問(wèn)題都配備了詳細(xì)的解題思路和嚴(yán)格的考核標(biāo)準(zhǔn)。
令人驚喜的是,即使是規(guī)模較小的模型,經(jīng)過(guò)rStar-Coder數(shù)據(jù)集訓(xùn)練后也能展現(xiàn)出卓越的代碼推理能力。在LiveCodeBench基準(zhǔn)測(cè)試中,Qwen2.5-7B模型的性能從17.4%提升到了驚人的57.3%,Qwen2.5-14B模型則從23.3%提升至62.5%,甚至超過(guò)了規(guī)模更大的o3-mini模型。更令人印象深刻的是,在極具挑戰(zhàn)性的美國(guó)計(jì)算機(jī)奧林匹克競(jìng)賽(USACO)測(cè)試中,經(jīng)過(guò)訓(xùn)練的7B模型達(dá)到了16.15%的通過(guò)率,超越了規(guī)模為32B的QWQ模型。
這項(xiàng)研究不僅證明了高質(zhì)量訓(xùn)練數(shù)據(jù)的重要性,也為構(gòu)建更強(qiáng)大的代碼推理模型提供了新的方向。就像一位優(yōu)秀的教練能幫助普通運(yùn)動(dòng)員達(dá)到冠軍水平,rStar-Coder通過(guò)精心設(shè)計(jì)的訓(xùn)練數(shù)據(jù),幫助規(guī)模較小的語(yǔ)言模型在代碼推理領(lǐng)域?qū)崿F(xiàn)了突破性進(jìn)展。
一、數(shù)據(jù)集構(gòu)建:打造高質(zhì)量的代碼推理訓(xùn)練場(chǎng)
想象你要教孩子解決復(fù)雜的數(shù)學(xué)問(wèn)題,你需要什么?當(dāng)然是精心設(shè)計(jì)的習(xí)題、詳細(xì)的解題步驟,以及多樣化的測(cè)試題目來(lái)檢驗(yàn)學(xué)習(xí)成果。微軟亞洲研究院的研究團(tuán)隊(duì)正是基于這一理念,構(gòu)建了rStar-Coder數(shù)據(jù)集。
首先,研究團(tuán)隊(duì)從各大編程競(jìng)賽平臺(tái)(如國(guó)際信息學(xué)奧林匹克、Codeforces等)收集了37.7K個(gè)由專家設(shè)計(jì)的高質(zhì)量問(wèn)題及其標(biāo)準(zhǔn)解決方案。這些問(wèn)題就像是由頂尖教練設(shè)計(jì)的訓(xùn)練題,覆蓋了各種算法和數(shù)據(jù)結(jié)構(gòu)知識(shí)點(diǎn)。但僅有這些"種子問(wèn)題"是不夠的,就像一個(gè)小型圖書(shū)館無(wú)法滿足所有學(xué)習(xí)者的需求一樣。
于是,研究團(tuán)隊(duì)開(kāi)發(fā)了一種新的方法,利用這些種子問(wèn)題合成更多的新問(wèn)題。不同于以往僅關(guān)注多樣性的方法,研究團(tuán)隊(duì)更注重生成的問(wèn)題能否被解決(可解性)以及是否具有足夠的難度。這就好比不僅要擴(kuò)充圖書(shū)館的藏書(shū)量,還要確保每本書(shū)都有價(jià)值且難度適中。
然而,直接讓GPT-4o這樣的大模型生成新問(wèn)題并不理想,因?yàn)榧词故荊PT-4o也難以解決競(jìng)賽級(jí)別的編程問(wèn)題。這就像讓一個(gè)沒(méi)有深入學(xué)習(xí)物理的人來(lái)出物理競(jìng)賽題一樣,缺乏必要的專業(yè)知識(shí)和理解。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)采用了結(jié)構(gòu)化提示的方法:提供原始問(wèn)題、參考解決方案和逐步合成指導(dǎo)。參考解決方案幫助模型理解核心算法概念,就像讓出題人先學(xué)習(xí)解題思路,再基于同樣的知識(shí)點(diǎn)出新題。通過(guò)這種方法,團(tuán)隊(duì)合成了1,565K個(gè)新的代碼問(wèn)題,涵蓋了各種算法策略、難度級(jí)別和約束條件。
二、測(cè)試案例生成:確保解決方案的可靠性
如果說(shuō)問(wèn)題是訓(xùn)練的基礎(chǔ),那么測(cè)試案例就是驗(yàn)證學(xué)習(xí)成果的關(guān)鍵。在競(jìng)賽級(jí)編程中,一個(gè)解決方案必須在各種輸入下都能正確運(yùn)行,而不僅僅是沒(méi)有語(yǔ)法錯(cuò)誤。這就像烹飪比賽中,一道菜不僅要看起來(lái)美觀,還要在不同評(píng)委的品嘗下都能保持美味。
然而,獲取高質(zhì)量的測(cè)試案例非常困難。已有的數(shù)據(jù)集通常只提供簡(jiǎn)單的測(cè)試案例,無(wú)法捕捉邊緣條件或復(fù)雜輸入;而合成的問(wèn)題則完全沒(méi)有測(cè)試案例。沒(méi)有標(biāo)準(zhǔn)答案的情況下,如何準(zhǔn)確標(biāo)注預(yù)期輸出就變得尤為棘手。
研究團(tuán)隊(duì)創(chuàng)新性地將測(cè)試案例生成過(guò)程分為兩個(gè)階段:輸入生成和輸出標(biāo)注。這就像先設(shè)計(jì)考試題目,再確定標(biāo)準(zhǔn)答案。
對(duì)于輸入生成,團(tuán)隊(duì)提出了一個(gè)三步法: 1. 讓GPT-4o為每個(gè)問(wèn)題生成兩個(gè)工具函數(shù):一個(gè)用于合成語(yǔ)義有效的輸入,并暴露出控制輸入規(guī)模的參數(shù);另一個(gè)用于驗(yàn)證輸入是否滿足問(wèn)題特定約束。這就像設(shè)計(jì)一個(gè)可調(diào)節(jié)難度的題目生成器,同時(shí)配備一個(gè)檢查題目合法性的工具。 2. 為這些控制參數(shù)采樣不同的規(guī)模值(從10^0到10^5),覆蓋從簡(jiǎn)單到極端復(fù)雜的各種情況。這相當(dāng)于為每道題目準(zhǔn)備從入門到專家級(jí)的多個(gè)難度版本。 3. 執(zhí)行這些工具函數(shù)并驗(yàn)證生成的輸入,保留符合要求的測(cè)試輸入。這確保了每個(gè)測(cè)試案例都是有效且滿足問(wèn)題約束的。
解決了輸入生成問(wèn)題后,下一個(gè)挑戰(zhàn)是如何準(zhǔn)確標(biāo)注輸出。研究團(tuán)隊(duì)提出了一個(gè)相互驗(yàn)證機(jī)制:從強(qiáng)大的推理模型(QWQ-32B)采樣多個(gè)長(zhǎng)推理解決方案,如果大多數(shù)解決方案在所有測(cè)試輸入上產(chǎn)生一致的結(jié)果,則接受這些輸出和解決方案。
這種方法之所以有效,是因?yàn)殄e(cuò)誤的解決方案往往會(huì)在不同地方出錯(cuò),而正確的解決方案則會(huì)收斂到相同的結(jié)果。就像多位專家獨(dú)立解題,如果他們都得到相同的答案,那么這個(gè)答案很可能是正確的。研究團(tuán)隊(duì)的消融實(shí)驗(yàn)證明了這種方法的有效性,達(dá)到了96.8%的輸出標(biāo)注準(zhǔn)確率。
三、數(shù)據(jù)增強(qiáng)與后處理:提升數(shù)據(jù)集質(zhì)量
有了高質(zhì)量的問(wèn)題和可靠的測(cè)試案例,研究團(tuán)隊(duì)還進(jìn)一步增強(qiáng)了數(shù)據(jù)集的質(zhì)量。首先,他們?yōu)閷<以O(shè)計(jì)的種子問(wèn)題增加了詳細(xì)的推理步驟。雖然這些問(wèn)題質(zhì)量很高,但原始解決方案往往缺乏詳細(xì)的推理過(guò)程,這對(duì)訓(xùn)練先進(jìn)的代碼推理模型至關(guān)重要。
團(tuán)隊(duì)使用他們的測(cè)試生成方法為每個(gè)問(wèn)題生成多樣化、符合約束的輸入。由于這些問(wèn)題已有標(biāo)準(zhǔn)解決方案,他們可以運(yùn)行這些解決方案獲得標(biāo)準(zhǔn)輸出。然后,他們使用QWQ-32B模型生成長(zhǎng)推理解決方案,只保留那些通過(guò)所有生成測(cè)試的解決方案。這就像為經(jīng)典教科書(shū)題目配備詳細(xì)的解題思路,讓學(xué)習(xí)者不僅知道答案,還理解整個(gè)解題過(guò)程。
對(duì)于合成數(shù)據(jù),團(tuán)隊(duì)進(jìn)行了嚴(yán)格的清理工作,移除那些無(wú)法解決或過(guò)于困難的問(wèn)題。相互驗(yàn)證機(jī)制自然地充當(dāng)了有效的過(guò)濾器——如果少于60%的解決方案在輸出上達(dá)成一致,該問(wèn)題就會(huì)被丟棄。對(duì)于基于Codeforces問(wèn)題合成的較困難問(wèn)題(cf_rating > 1600),他們調(diào)整閾值至40%,以包含更多挑戰(zhàn)性問(wèn)題。
清理后,團(tuán)隊(duì)保留了380K個(gè)經(jīng)驗(yàn)證的合成問(wèn)題。對(duì)于這些問(wèn)題,他們初始有2.25M個(gè)長(zhǎng)推理解決方案,數(shù)量太大不利于高效微調(diào)。為了解決這個(gè)問(wèn)題,他們執(zhí)行所有解決方案并根據(jù)CPU執(zhí)行時(shí)間只保留每個(gè)問(wèn)題最快的解決方案。
最后,為確保評(píng)估的公平性,團(tuán)隊(duì)對(duì)數(shù)據(jù)進(jìn)行了去污處理,移除了與評(píng)估基準(zhǔn)(如HumanEval、LiveCodeBench、USACO 2025等)重疊的問(wèn)題。最終的數(shù)據(jù)集包含418K個(gè)問(wèn)題和580K個(gè)問(wèn)題-解決方案對(duì)。
四、實(shí)驗(yàn)結(jié)果:小模型也能展現(xiàn)卓越推理能力
研究團(tuán)隊(duì)使用580K的數(shù)據(jù)集對(duì)Qwen2.5-Coder指令模型進(jìn)行了微調(diào),規(guī)模從1.5B到14B不等。訓(xùn)練使用AdamW優(yōu)化器,批次大小為96,最大序列長(zhǎng)度為16k。學(xué)習(xí)率為4e-5,采用余弦衰減。訓(xùn)練過(guò)程使用FlashAttention-2和DeepSpeed ZeRO-0加速,1.5B和7B模型在8個(gè)MI300X AMD GPU上訓(xùn)練,14B模型使用32個(gè)GPU。
在多個(gè)代碼推理基準(zhǔn)測(cè)試中,rStar-Coder展現(xiàn)出令人印象深刻的性能提升。在LiveCodeBench基準(zhǔn)測(cè)試中,rStar-Coder將7B模型的性能從原始的17.4%提升到了57.3%,14B模型從23.3%提升到62.5%,超過(guò)了規(guī)模為32B的R1-distill模型和o3-mini模型。甚至1.5B模型也達(dá)到了40.1%的性能,超過(guò)了R1-distill-7B和GPT-4o。
更令人驚訝的是,在極具挑戰(zhàn)性的美國(guó)計(jì)算機(jī)奧林匹克競(jìng)賽(USACO)2025年測(cè)試中,rStar-Coder-7B和rStar-Coder-14B的性能超過(guò)了前沿推理模型QWQ-32B。USACO是一個(gè)極其困難的基準(zhǔn)測(cè)試,包含從銅級(jí)到白金級(jí)的12個(gè)奧林匹克問(wèn)題,測(cè)試各種算法和常識(shí)推理能力。即使OpenAI的o3模型也只能達(dá)到32.03%的平均通過(guò)率,且在所有白金級(jí)問(wèn)題上都失敗了。
此外,rStar-Coder在標(biāo)準(zhǔn)代碼生成任務(wù)上也表現(xiàn)出色,在HumanEval、HumanEval+、MBPP和MBPP+基準(zhǔn)測(cè)試上取得了與Claude3.5 Sonnet相當(dāng)?shù)男阅?,證明了強(qiáng)大推理數(shù)據(jù)的泛化能力。
五、深入分析:為何rStar-Coder如此有效?
為什么rStar-Coder能夠取得如此顯著的性能提升?研究團(tuán)隊(duì)通過(guò)一系列消融實(shí)驗(yàn)找到了答案。
首先,數(shù)據(jù)源的質(zhì)量至關(guān)重要。團(tuán)隊(duì)分別使用專家設(shè)計(jì)的種子問(wèn)題和合成問(wèn)題對(duì)7B模型進(jìn)行了微調(diào)。結(jié)果表明,兩種數(shù)據(jù)源都能顯著提升模型性能,超過(guò)R1-Distill-7B模型。雖然各自都有所提升,但將兩者結(jié)合后效果最佳,表明它們提供了互補(bǔ)的訓(xùn)練信號(hào)。
其次,相互驗(yàn)證機(jī)制確保了測(cè)試輸出標(biāo)注的高準(zhǔn)確率。團(tuán)隊(duì)隨機(jī)抽樣了64個(gè)帶有標(biāo)準(zhǔn)解決方案的專家設(shè)計(jì)問(wèn)題,收集了所有測(cè)試輸入(共3,150個(gè))。與直接使用GPT-4o生成輸入-輸出對(duì)的方法(只有12.7%的準(zhǔn)確率)相比,相互驗(yàn)證機(jī)制達(dá)到了96.8%的準(zhǔn)確率,證明了其可靠性。
第三,三步輸入生成方法顯著提升了測(cè)試輸入的質(zhì)量。與直接使用GPT-4o提示生成輸入的基線相比,三步法生成的輸入在LiveCodeBench上表現(xiàn)更好,特別是在中等和困難級(jí)別的問(wèn)題上。這證明了多樣化和復(fù)雜度感知的輸入對(duì)于強(qiáng)化驗(yàn)證過(guò)程的重要性。
最后,測(cè)試輸入規(guī)模的分布也起到了關(guān)鍵作用。rStar-Coder方法生成的輸入均勻覆蓋了從簡(jiǎn)單(10^0)到非常困難(10^5)的范圍,而GPT-4o生成的輸入主要集中在簡(jiǎn)單范圍(10^0-10^2),且沒(méi)有超過(guò)10^3規(guī)模的輸入。這證明了rStar-Coder方法在生成更具挑戰(zhàn)性和多樣化的測(cè)試案例方面的優(yōu)勢(shì)。
值得注意的是,擴(kuò)展問(wèn)題多樣性比僅增加每個(gè)問(wèn)題的解決方案數(shù)量更有效??刂茖?shí)驗(yàn)顯示,僅從37.7K個(gè)專家設(shè)計(jì)問(wèn)題擴(kuò)展解決方案(達(dá)到603K樣本)效果不如擴(kuò)展問(wèn)題集(580K樣本但問(wèn)題更多樣)。這表明,更廣泛的問(wèn)題覆蓋比深度覆蓋單個(gè)問(wèn)題更有利于提升代碼推理能力。
六、未來(lái)展望與局限性
盡管rStar-Coder取得了顯著成果,研究團(tuán)隊(duì)也坦率地指出了一些限制和未來(lái)工作方向。
首先,該方法依賴大量GPT資源來(lái)合成代碼問(wèn)題和測(cè)試輸入。許多生成的問(wèn)題在相互驗(yàn)證后被丟棄,因?yàn)樗鼈儽蛔C明是無(wú)效或無(wú)法解決的。這就像準(zhǔn)備一場(chǎng)大型考試,需要設(shè)計(jì)大量題目,但最終只有一部分能進(jìn)入正式考卷。
其次,研究團(tuán)隊(duì)觀察到一些競(jìng)賽問(wèn)題描述并不顯式提供約束條件,而是通過(guò)上下文暗示它們。由于當(dāng)前方法主要依賴前沿LLM解釋問(wèn)題描述,它還不能處理這類情況。這就像理解隱含規(guī)則的能力,這對(duì)AI模型來(lái)說(shuō)仍是一個(gè)挑戰(zhàn)。
展望未來(lái),研究團(tuán)隊(duì)計(jì)劃通過(guò)收集更多問(wèn)題并擴(kuò)大合成和驗(yàn)證規(guī)模來(lái)進(jìn)一步擴(kuò)展數(shù)據(jù)集。這將為構(gòu)建更強(qiáng)大的代碼推理模型提供更堅(jiān)實(shí)的基礎(chǔ)。
從更廣泛的角度看,rStar-Coder支持了算法推理的發(fā)展和AI輔助編程,但也需要考慮潛在的誤用風(fēng)險(xiǎn)。像其他推理LLM一樣,rStar-Coder也可能生成誤導(dǎo)性、有害或幻覺(jué)的輸出。研究團(tuán)隊(duì)建議在訓(xùn)練和部署過(guò)程中仔細(xì)考慮潛在的誤用,并鼓勵(lì)未來(lái)工作改進(jìn)代碼推理系統(tǒng)的可靠性和安全性。
七、rStar-Coder的技術(shù)創(chuàng)新與意義
歸根結(jié)底,rStar-Coder的核心創(chuàng)新在于解決了代碼推理模型訓(xùn)練中的一個(gè)根本問(wèn)題:如何獲取大規(guī)模、高難度且可驗(yàn)證的訓(xùn)練數(shù)據(jù)。這就像為AI提供了一套完整的"從新手到大師"的編程訓(xùn)練課程,每個(gè)問(wèn)題都配備了詳細(xì)的解題思路和嚴(yán)格的測(cè)試標(biāo)準(zhǔn)。
通過(guò)精心設(shè)計(jì)的方法,研究團(tuán)隊(duì)成功構(gòu)建了一個(gè)包含418K個(gè)競(jìng)賽級(jí)別代碼問(wèn)題和580K個(gè)長(zhǎng)推理解決方案的數(shù)據(jù)集,每個(gè)解決方案都通過(guò)了多樣化測(cè)試案例的驗(yàn)證。這為訓(xùn)練強(qiáng)大的代碼推理模型提供了堅(jiān)實(shí)的基礎(chǔ)。
實(shí)驗(yàn)結(jié)果證明,高質(zhì)量的訓(xùn)練數(shù)據(jù)比模型規(guī)模更重要。即使是規(guī)模較小的模型,經(jīng)過(guò)rStar-Coder數(shù)據(jù)集訓(xùn)練后也能展現(xiàn)出與大型前沿模型相當(dāng)甚至更好的性能。這對(duì)于資源受限的應(yīng)用場(chǎng)景尤為重要,因?yàn)樗故玖送ㄟ^(guò)精心設(shè)計(jì)的訓(xùn)練數(shù)據(jù),我們可以在不增加模型規(guī)模的情況下顯著提升性能。
從更廣泛的角度看,rStar-Coder的方法可能對(duì)其他領(lǐng)域也有啟示。相互驗(yàn)證機(jī)制和三步輸入生成方法可能適用于其他需要可靠測(cè)試案例的領(lǐng)域,如數(shù)學(xué)推理、科學(xué)問(wèn)題解決等。
總之,微軟亞洲研究院的這項(xiàng)研究不僅為代碼推理模型的發(fā)展提供了新的方向,也為我們思考如何構(gòu)建高質(zhì)量、可驗(yàn)證的AI訓(xùn)練數(shù)據(jù)提供了寶貴經(jīng)驗(yàn)。隨著技術(shù)的不斷發(fā)展,我們可以期待看到更多像rStar-Coder這樣的創(chuàng)新,幫助AI系統(tǒng)在復(fù)雜推理任務(wù)上取得突破性進(jìn)展。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。