av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 共同進(jìn)化的魔法:讓AI既會(huì)寫代碼又會(huì)檢驗(yàn)代碼,一個(gè)團(tuán)隊(duì)讓計(jì)算機(jī)學(xué)會(huì)自我完善的故事

共同進(jìn)化的魔法:讓AI既會(huì)寫代碼又會(huì)檢驗(yàn)代碼,一個(gè)團(tuán)隊(duì)讓計(jì)算機(jī)學(xué)會(huì)自我完善的故事

2025-06-06 14:15
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-06 14:15 ? 科技行者

2024年6月初,來(lái)自芝加哥大學(xué)和普林斯頓大學(xué)的研究團(tuán)隊(duì)發(fā)表了一篇引人注目的研究論文,題為《通過(guò)強(qiáng)化學(xué)習(xí)共同進(jìn)化LLM代碼生成器和單元測(cè)試生成器》(Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning)。這項(xiàng)由王寅杰、楊凌(兩位為共同第一作者)、田野、沈可和王夢(mèng)迪主導(dǎo)的研究發(fā)表于arXiv預(yù)印本平臺(tái)(arXiv:2506.03136v1),論文代碼已在GitHub(https://github.com/Gen-Verse/CURE)上開源,模型權(quán)重也已在HuggingFace(https://huggingface.co/Gen-Verse/ReasonFlux-Coder)上公開。

當(dāng)今世界,人工智能編程助手正迅速發(fā)展,但它們?nèi)匀幻媾R一個(gè)基本問(wèn)題:如何確保生成的代碼真正正確?這就像一個(gè)廚師不僅需要會(huì)做菜,還需要能品嘗自己做的菜是否美味。傳統(tǒng)方法往往需要人類提供大量已知正確答案的代碼作為訓(xùn)練材料,這非常耗時(shí)且昂貴,就像需要大量專業(yè)廚師來(lái)評(píng)判每一道菜一樣。

研究團(tuán)隊(duì)提出了一個(gè)名為CURE的創(chuàng)新解決方案,它的獨(dú)特之處在于不需要任何已知正確的代碼作為監(jiān)督。相反,它通過(guò)讓AI同時(shí)扮演"代碼編寫者"和"代碼測(cè)試者"兩個(gè)角色,并讓這兩個(gè)角色相互學(xué)習(xí)、共同進(jìn)步。這就像一個(gè)人通過(guò)不斷練習(xí)烹飪并嘗試自己的菜肴,逐漸改進(jìn)自己的烹飪技巧,同時(shí)也提高了自己的品味能力。

這種方法不僅大大節(jié)省了收集標(biāo)準(zhǔn)答案的成本,而且培養(yǎng)了AI更全面的編程能力。研究團(tuán)隊(duì)的ReasonFlux-Coder模型在各種標(biāo)準(zhǔn)測(cè)試中表現(xiàn)出色,比現(xiàn)有類似大小的模型性能更好,特別是在生成代碼和生成單元測(cè)試(用于檢驗(yàn)代碼是否正確的測(cè)試程序)這兩項(xiàng)任務(wù)上都取得了顯著進(jìn)步。

一、什么是單元測(cè)試,為什么它如此重要?

想象一下,你正在建造一座高樓。你不會(huì)等整個(gè)建筑完工后才檢查它是否安全,而是會(huì)在每一個(gè)階段進(jìn)行測(cè)試——檢查地基是否穩(wěn)固,鋼筋是否牢固,等等。在編程世界中,單元測(cè)試就扮演著這樣的角色。

單元測(cè)試是小型、專注的測(cè)試程序,用于驗(yàn)證代碼的各個(gè)部分是否按預(yù)期工作。就像品酒師會(huì)品嘗葡萄酒的各種特性(如酸度、單寧、果香等)來(lái)評(píng)判一瓶酒的品質(zhì),單元測(cè)試會(huì)檢查代碼的各個(gè)方面是否正確。

研究團(tuán)隊(duì)發(fā)現(xiàn),生成好的單元測(cè)試其實(shí)比寫出完整的代碼解決方案要簡(jiǎn)單得多。例如,如圖2(a)所示,對(duì)于一個(gè)尋找最短路徑的問(wèn)題,設(shè)計(jì)一個(gè)簡(jiǎn)單的測(cè)試場(chǎng)景(比如驗(yàn)證特定輸入的預(yù)期輸出)要比編寫整個(gè)尋路算法容易得多。這就像在烹飪比賽中,評(píng)判一道菜是否成功可能比實(shí)際制作這道復(fù)雜的菜要簡(jiǎn)單。

單元測(cè)試的價(jià)值不僅在于驗(yàn)證代碼正確性,還在于它們可以重復(fù)使用。一旦生成了一組好的單元測(cè)試,它們可以用來(lái)評(píng)估多個(gè)代碼候選方案,就像同一個(gè)品酒標(biāo)準(zhǔn)可以用來(lái)評(píng)價(jià)多瓶不同的葡萄酒。

二、CURE:讓代碼生成器和測(cè)試生成器一起成長(zhǎng)的創(chuàng)新方法

CURE(代碼與單元測(cè)試共同進(jìn)化的強(qiáng)化學(xué)習(xí)框架)的核心思想非常聰明:讓一個(gè)AI系統(tǒng)同時(shí)學(xué)習(xí)兩項(xiàng)技能——編寫代碼和創(chuàng)建測(cè)試代碼。這兩項(xiàng)技能相互促進(jìn),形成一個(gè)良性循環(huán)。

想象一對(duì)雙胞胎,一個(gè)擅長(zhǎng)烹飪(代碼生成器),另一個(gè)擅長(zhǎng)品嘗(測(cè)試生成器)。起初,他們的技能都很一般。隨著時(shí)間推移,廚師烹飪的菜肴會(huì)被品嘗者評(píng)價(jià),這些評(píng)價(jià)幫助廚師改進(jìn)烹飪技巧;同時(shí),廚師做出的各種菜肴(無(wú)論好壞)也幫助品嘗者訓(xùn)練自己的味蕾,學(xué)會(huì)區(qū)分優(yōu)質(zhì)和劣質(zhì)的食物。這就是CURE的工作原理。

具體來(lái)說(shuō),CURE框架包含以下步驟:

首先,對(duì)于每個(gè)編程任務(wù),模型會(huì)生成多個(gè)代碼解決方案和多個(gè)單元測(cè)試。就像廚師準(zhǔn)備多個(gè)菜品樣本,品嘗者提出多個(gè)評(píng)判標(biāo)準(zhǔn)。

然后,系統(tǒng)會(huì)執(zhí)行每個(gè)代碼解決方案,檢查它是否通過(guò)了各種單元測(cè)試,形成一個(gè)"執(zhí)行表"——記錄哪些代碼通過(guò)了哪些測(cè)試。這就像記錄每道菜在各種品嘗標(biāo)準(zhǔn)下的表現(xiàn)。

接著,研究團(tuán)隊(duì)設(shè)計(jì)了一種特殊的評(píng)分機(jī)制。對(duì)于代碼生成器,代碼通過(guò)的標(biāo)準(zhǔn)測(cè)試越多,得分越高。對(duì)于測(cè)試生成器,能夠正確區(qū)分好代碼和壞代碼的測(cè)試會(huì)獲得高分。這就像評(píng)價(jià)一個(gè)品嘗者的標(biāo)準(zhǔn)是:能否準(zhǔn)確區(qū)分出一道真正美味的菜和一道看似相似但有缺陷的菜。

最后,系統(tǒng)使用這些評(píng)分來(lái)指導(dǎo)兩個(gè)組件的改進(jìn)。就像廚師和品嘗者根據(jù)反饋不斷調(diào)整自己的技能。

研究團(tuán)隊(duì)在理論上證明了這種方法的有效性。他們展示了隨著生成的單元測(cè)試數(shù)量增加,系統(tǒng)區(qū)分好代碼和壞代碼的準(zhǔn)確率會(huì)穩(wěn)步提高,從而使整個(gè)訓(xùn)練過(guò)程更加可靠。

三、ReasonFlux-Coder:CURE框架訓(xùn)練出的高性能模型

通過(guò)CURE框架的訓(xùn)練,研究團(tuán)隊(duì)開發(fā)了三個(gè)不同規(guī)模的模型:ReasonFlux-Coder-4B、7B和14B,分別基于Qwen3-4B和Qwen2.5-7B/14B基礎(chǔ)模型。這些模型在代碼生成和單元測(cè)試生成兩方面都表現(xiàn)出色。

值得注意的是,ReasonFlux-Coder-7B模型僅使用了4.5K個(gè)編程問(wèn)題進(jìn)行訓(xùn)練,卻在多項(xiàng)基準(zhǔn)測(cè)試中超過(guò)了專門針對(duì)大規(guī)模編碼數(shù)據(jù)進(jìn)行微調(diào)的模型,如圖1所示。這就像一個(gè)通過(guò)特殊訓(xùn)練方法培養(yǎng)出的廚師,即使只學(xué)習(xí)了少量菜譜,卻能勝過(guò)那些死記硬背大量食譜的廚師。

在五個(gè)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試(LiveBench、MBPP、LiveCodeBench、CodeContests和CodeForces)上,ReasonFlux-Coder模型在單元測(cè)試準(zhǔn)確率、代碼生成準(zhǔn)確率和最佳N選1(Best-of-N)三個(gè)指標(biāo)上都顯著超越了基礎(chǔ)模型:

單元測(cè)試準(zhǔn)確率平均提高了37.8%,就像品嘗者變得更加精準(zhǔn)地評(píng)判菜肴的品質(zhì)。 一次性代碼生成準(zhǔn)確率平均提高了5.3%,就像廚師的基本烹飪技能提升。 最佳N選1準(zhǔn)確率(從多個(gè)生成的代碼中選擇最佳方案)平均提高了9.0%,就像廚師能夠從多次嘗試中挑選出最成功的菜品。

特別值得一提的是,ReasonFlux-Coder-4B是一個(gè)"長(zhǎng)鏈思考"(long-CoT)模型,它不僅在性能上超越了同樣大小的Qwen3-4B模型,而且在單元測(cè)試生成時(shí)的效率提高了35.2%(平均輸出長(zhǎng)度減少至原來(lái)的64.8%)。這就像一個(gè)品嘗者不僅變得更準(zhǔn)確,而且能夠更簡(jiǎn)潔地表達(dá)自己的評(píng)價(jià),不再啰嗦。

四、更廣泛的應(yīng)用與實(shí)際價(jià)值

ReasonFlux-Coder模型的價(jià)值不僅限于基礎(chǔ)的代碼生成和測(cè)試生成,它還在多種實(shí)際應(yīng)用場(chǎng)景中表現(xiàn)出色:

1. 測(cè)試時(shí)擴(kuò)展和智能編碼:研究團(tuán)隊(duì)將ReasonFlux-Coder-14B應(yīng)用于多種測(cè)試時(shí)擴(kuò)展和智能編碼方法(如MPSC、AlphaCodium和S*),平均提升了8.1%的性能。這就像將訓(xùn)練有素的品嘗者加入一個(gè)烹飪比賽,顯著提高了整體的菜品質(zhì)量。

2. 智能單元測(cè)試生成:在智能單元測(cè)試生成任務(wù)中,模型的單元測(cè)試準(zhǔn)確率平均提高了25.1%。這就像品嘗者不僅能夠評(píng)判菜肴,還能夠提出改進(jìn)建議,幫助廚師進(jìn)一步完善菜品。

3. 降低API調(diào)用成本:將ReasonFlux-Coder-4B作為單元測(cè)試生成器與GPT模型(如GPT-4o-mini和GPT-4.1-mini)配合使用,不僅提高了性能,還顯著降低了API調(diào)用成本。這就像聘請(qǐng)一位高效的品嘗顧問(wèn),既提高了菜品質(zhì)量,又降低了成本。

4. 無(wú)標(biāo)簽強(qiáng)化學(xué)習(xí):研究發(fā)現(xiàn),使用ReasonFlux-Coder-4B生成的單元測(cè)試作為獎(jiǎng)勵(lì)信號(hào)來(lái)指導(dǎo)基礎(chǔ)模型的強(qiáng)化學(xué)習(xí)訓(xùn)練,其效果與使用人工標(biāo)注的單元測(cè)試相當(dāng)。這意味著不再需要昂貴的人工標(biāo)注數(shù)據(jù),就像一個(gè)自學(xué)成才的品嘗者能夠替代專業(yè)評(píng)委的角色。

五、CURE框架的工作原理深度解析

CURE框架的核心在于它的理論基礎(chǔ)和巧妙的獎(jiǎng)勵(lì)設(shè)計(jì)。研究團(tuán)隊(duì)從理論上分析了什么樣的獎(jiǎng)勵(lì)機(jī)制能夠有效指導(dǎo)單元測(cè)試生成器的改進(jìn)。

他們定義了"獎(jiǎng)勵(lì)精度"概念:?jiǎn)卧獪y(cè)試能夠正確區(qū)分好代碼和壞代碼的能力。通過(guò)數(shù)學(xué)推導(dǎo),他們證明了隨著單元測(cè)試數(shù)量的增加,系統(tǒng)區(qū)分好壞代碼的準(zhǔn)確率會(huì)趨近于1(即100%正確),前提是單元測(cè)試的準(zhǔn)確率(pu)、誤報(bào)率(p01)和漏報(bào)率(p00)滿足特定條件。

基于這一理論,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)獎(jiǎng)勵(lì)函數(shù),它會(huì)獎(jiǎng)勵(lì)那些通過(guò)所有正確代碼同時(shí)拒絕大部分錯(cuò)誤代碼的單元測(cè)試,懲罰那些拒絕正確代碼或大量通過(guò)錯(cuò)誤代碼的單元測(cè)試。這就像評(píng)價(jià)品嘗者的標(biāo)準(zhǔn):既能認(rèn)可真正的好菜,又不會(huì)被表面華麗但實(shí)際有缺陷的菜所迷惑。

對(duì)于長(zhǎng)鏈思考模型,研究團(tuán)隊(duì)還引入了一個(gè)響應(yīng)長(zhǎng)度引導(dǎo)的獎(jiǎng)勵(lì)轉(zhuǎn)換機(jī)制,鼓勵(lì)模型生成更簡(jiǎn)潔高效的單元測(cè)試,如圖2(e-f)所示。這就像訓(xùn)練品嘗者不僅要準(zhǔn)確,還要能用簡(jiǎn)潔的語(yǔ)言表達(dá)自己的判斷。

六、與現(xiàn)有方法的比較與創(chuàng)新點(diǎn)

傳統(tǒng)的單元測(cè)試生成方法主要依賴軟件分析技術(shù)或神經(jīng)機(jī)器翻譯方法。近期的研究表明,大型語(yǔ)言模型在單元測(cè)試生成上表現(xiàn)出色,但它們通常需要大量標(biāo)注數(shù)據(jù)(即已知正確的代碼解決方案)進(jìn)行訓(xùn)練。

CURE框架的創(chuàng)新之處在于它不需要任何已知正確的代碼作為監(jiān)督。相反,它利用代碼生成器和單元測(cè)試生成器之間的相互作用來(lái)驅(qū)動(dòng)兩者的共同進(jìn)步。這極大地提高了訓(xùn)練的靈活性和可擴(kuò)展性,就像兩個(gè)人通過(guò)相互學(xué)習(xí)可以比單獨(dú)學(xué)習(xí)達(dá)到更高的水平。

在消融研究中,研究團(tuán)隊(duì)比較了幾種不同的優(yōu)化策略和獎(jiǎng)勵(lì)設(shè)計(jì),證明了CURE框架的有效性。例如,僅優(yōu)化代碼生成器而不優(yōu)化單元測(cè)試生成器,或使用簡(jiǎn)化的獎(jiǎng)勵(lì)設(shè)計(jì),都無(wú)法達(dá)到CURE框架的性能水平。

七、未來(lái)展望與潛在影響

研究團(tuán)隊(duì)的工作為編程助手的發(fā)展開辟了新方向。通過(guò)讓AI同時(shí)學(xué)習(xí)編寫代碼和測(cè)試代碼兩種能力,他們展示了一種更加全面和自然的學(xué)習(xí)路徑。

這項(xiàng)研究的潛在影響是深遠(yuǎn)的。它不僅提高了AI編程助手的性能,還降低了訓(xùn)練成本,使得這些技術(shù)更容易被廣泛應(yīng)用。更重要的是,它展示了一種新的訓(xùn)練范式,可能適用于其他領(lǐng)域——讓AI同時(shí)學(xué)習(xí)創(chuàng)造和評(píng)判的能力,從而達(dá)到更全面的理解。

研究團(tuán)隊(duì)指出,給出這些令人振奮的結(jié)果,未來(lái)的研究方向可能包括擴(kuò)大CURE優(yōu)化規(guī)模,通過(guò)自監(jiān)督方式實(shí)現(xiàn)完全不需要任何標(biāo)注數(shù)據(jù)的訓(xùn)練。這就像讓雙胞胎廚師和品嘗者完全自學(xué)成才,不再需要任何外部指導(dǎo)。

總結(jié)來(lái)說(shuō),這項(xiàng)研究不僅推動(dòng)了AI編程助手的技術(shù)進(jìn)步,還展示了一種更加自然、高效的學(xué)習(xí)方式:通過(guò)同時(shí)培養(yǎng)創(chuàng)造和評(píng)判的能力,達(dá)到兩者的共同提高。這種方法不僅適用于編程領(lǐng)域,也可能為其他AI應(yīng)用提供新的思路。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-