背景介紹與研究團(tuán)隊(duì)
2025年5月26日,由Nebius公司的Ibragim Badertdinov和Alexander Golubev領(lǐng)銜的研究團(tuán)隊(duì)在arXiv上發(fā)布了一篇具有前瞻性的研究論文(arXiv:2505.20411v1)。這支團(tuán)隊(duì)還包括來(lái)自同一機(jī)構(gòu)的Maksim Nekrashevich、Anton Shevtsov、Simon Karasik、Andrei Andriushchenko、Maria Trofimova、Daria Litvintseva和Boris Yangel。這篇論文為軟件工程領(lǐng)域的大語(yǔ)言模型評(píng)估帶來(lái)了一個(gè)全新的自動(dòng)化框架——SWE-rebench。
在當(dāng)今科技快速發(fā)展的時(shí)代,基于大語(yǔ)言模型(LLM)的智能代理在軟件工程領(lǐng)域展現(xiàn)出了令人印象深刻的能力。從代碼生成、調(diào)試到自動(dòng)化開(kāi)發(fā)工作流程,這些智能代理正在逐步改變軟件開(kāi)發(fā)的方式。研究人員們開(kāi)始創(chuàng)建由LLM驅(qū)動(dòng)的代理,這些代理能與真實(shí)代碼庫(kù)和開(kāi)發(fā)環(huán)境交互,執(zhí)行操作并根據(jù)反饋調(diào)整行為。雖然像OpenHands、Moatless Tools和Agentless等依托專(zhuān)有模型的代理在SWE-bench等基準(zhǔn)測(cè)試中表現(xiàn)出色,但開(kāi)源模型在這方面仍有很大的提升空間。
研究面臨的兩大挑戰(zhàn)
想象一下,你是一位教練,想要訓(xùn)練一支優(yōu)秀的足球隊(duì)。你會(huì)面臨兩個(gè)關(guān)鍵問(wèn)題:首先,你需要足夠多樣化的訓(xùn)練素材,讓隊(duì)員能應(yīng)對(duì)各種比賽情況;其次,你需要一個(gè)公平的評(píng)估體系,確保能準(zhǔn)確判斷隊(duì)員的真實(shí)水平,而不是僅僅看他們?cè)谑煜さ挠?xùn)練場(chǎng)上的表現(xiàn)。
Nebius團(tuán)隊(duì)在研究中發(fā)現(xiàn),軟件工程智能代理的發(fā)展正面臨著類(lèi)似的兩大挑戰(zhàn):
首先是高質(zhì)量訓(xùn)練數(shù)據(jù)的稀缺。特別是那些能反映真實(shí)世界軟件工程場(chǎng)景的數(shù)據(jù),在這些場(chǎng)景中,代理需要與開(kāi)發(fā)環(huán)境交互,執(zhí)行代碼并根據(jù)結(jié)果調(diào)整行為?,F(xiàn)有的數(shù)據(jù)集要么局限于一次性代碼生成,要么是小規(guī)模、手動(dòng)整理的交互式任務(wù)集合,缺乏規(guī)模和多樣性。
其次是缺少新鮮的交互式軟件工程任務(wù)來(lái)評(píng)估快速進(jìn)步的模型。靜態(tài)基準(zhǔn)測(cè)試很快就會(huì)因?yàn)槲廴締?wèn)題而過(guò)時(shí),當(dāng)新模型在訓(xùn)練過(guò)程中可能已經(jīng)接觸過(guò)這些測(cè)試用例,導(dǎo)致評(píng)估結(jié)果被人為抬高。
SWE-rebench:一個(gè)創(chuàng)新的解決方案
為了解決這些限制,研究團(tuán)隊(duì)提出了一個(gè)全新的、自動(dòng)化且可擴(kuò)展的管道,用于從多樣化的GitHub倉(cāng)庫(kù)中持續(xù)提取真實(shí)世界的交互式軟件工程任務(wù)。這就好比建立了一個(gè)自動(dòng)化的足球訓(xùn)練系統(tǒng),不斷從世界各地的比賽中捕捉各種精彩的戰(zhàn)術(shù)動(dòng)作,并自動(dòng)整理成訓(xùn)練素材。
利用這個(gè)管道,團(tuán)隊(duì)構(gòu)建了SWE-rebench,一個(gè)包含超過(guò)21,000個(gè)基于Python的交互式軟件工程任務(wù)的公共數(shù)據(jù)集,適用于軟件工程代理的大規(guī)模強(qiáng)化學(xué)習(xí)。此外,研究團(tuán)隊(duì)還利用SWE-rebench方法持續(xù)收集的新任務(wù),構(gòu)建了一個(gè)無(wú)污染的軟件工程代理評(píng)估基準(zhǔn)。
通過(guò)在這個(gè)基準(zhǔn)上比較各種LLM的結(jié)果,并與SWE-bench Verified的結(jié)果進(jìn)行對(duì)比,研究團(tuán)隊(duì)發(fā)現(xiàn)一些語(yǔ)言模型的性能可能因?yàn)槲廴締?wèn)題而被人為夸大。這就像發(fā)現(xiàn)一些隊(duì)員在熟悉的訓(xùn)練場(chǎng)上表現(xiàn)出色,但面對(duì)全新的比賽場(chǎng)地和戰(zhàn)術(shù)時(shí)卻力不從心。
自動(dòng)化管道的工作原理
SWE-rebench的核心是一個(gè)自動(dòng)化管道,能夠大規(guī)模地收集、處理和驗(yàn)證軟件工程任務(wù)。想象這個(gè)管道像一條智能生產(chǎn)線,從原料(GitHub數(shù)據(jù))到成品(可驗(yàn)證的軟件工程任務(wù))全程自動(dòng)化。這個(gè)管道包括四個(gè)關(guān)鍵階段:
第一階段是初步任務(wù)收集。系統(tǒng)從GitHub Archive和GitHub上下載原始數(shù)據(jù),包括問(wèn)題描述、討論、關(guān)聯(lián)的拉取請(qǐng)求等信息。它會(huì)將問(wèn)題與解決它們的拉取請(qǐng)求鏈接起來(lái),并應(yīng)用一系列過(guò)濾器選擇符合條件的實(shí)例。例如,問(wèn)題必須來(lái)自許可證寬松的Python倉(cāng)庫(kù)、已標(biāo)記為已解決、相關(guān)PR必須合并到主分支等。這個(gè)階段就像是在世界各地的足球比賽中初步篩選出那些包含精彩戰(zhàn)術(shù)配合的片段。
第二階段是自動(dòng)化安裝指令配置。傳統(tǒng)方法如SWE-bench或SWE-Gym依賴(lài)手動(dòng)整理來(lái)配置每個(gè)倉(cāng)庫(kù)的可執(zhí)行環(huán)境,這種方法固有地限制了可擴(kuò)展性。而SWE-rebench則采用了一種完全自動(dòng)化的方法,使用大語(yǔ)言模型來(lái)生成候選環(huán)境設(shè)置指令。這就像有一個(gè)AI助手,能自動(dòng)理解每個(gè)足球訓(xùn)練素材需要的場(chǎng)地設(shè)置和器材準(zhǔn)備。
第三階段是基于執(zhí)行的安裝驗(yàn)證。為了確認(rèn)任務(wù)的可解決性和提供的測(cè)試的完整性,系統(tǒng)會(huì)在容器中安裝每個(gè)任務(wù)的環(huán)境,并執(zhí)行拉取請(qǐng)求的測(cè)試補(bǔ)丁。它會(huì)解析測(cè)試運(yùn)行輸出,確保:1)應(yīng)用解決方案補(bǔ)丁前,至少有一個(gè)測(cè)試失?。?)應(yīng)用解決方案補(bǔ)丁后,所有最初失敗的測(cè)試都通過(guò);3)最初通過(guò)的測(cè)試在應(yīng)用解決方案補(bǔ)丁后仍然通過(guò)。這就像在實(shí)際訓(xùn)練前驗(yàn)證每個(gè)訓(xùn)練素材的有效性和挑戰(zhàn)性。
第四階段是自動(dòng)化實(shí)例質(zhì)量評(píng)估。為了有效用于強(qiáng)化學(xué)習(xí),收集的任務(wù)應(yīng)該具備某些特性,否則RL代理可能會(huì)生成看似失敗但實(shí)際上是由于任務(wù)不完善導(dǎo)致的軌跡。團(tuán)隊(duì)微調(diào)了一個(gè)指令跟隨模型,使用來(lái)自SWE-bench Verified的人工注釋來(lái)預(yù)測(cè):?jiǎn)栴}清晰度(GitHub問(wèn)題描述是否足夠詳細(xì))、任務(wù)復(fù)雜性(解決問(wèn)題的預(yù)估工作量)、測(cè)試補(bǔ)丁正確性(拉取請(qǐng)求中的測(cè)試是否準(zhǔn)確驗(yàn)證了預(yù)期的修復(fù))。這就像有一個(gè)專(zhuān)家教練團(tuán)隊(duì),能夠評(píng)估每個(gè)訓(xùn)練素材的質(zhì)量、難度和教學(xué)價(jià)值。
SWE-rebench數(shù)據(jù)集的特點(diǎn)
通過(guò)這個(gè)四階段管道,研究團(tuán)隊(duì)自動(dòng)收集和處理了交互式軟件工程任務(wù),產(chǎn)生了SWE-rebench數(shù)據(jù)集,其中包含21,336個(gè)帶注釋的任務(wù)實(shí)例。這個(gè)數(shù)據(jù)集公開(kāi)發(fā)布在Hugging Face Datasets上,任何人都可以訪問(wèn)。配套代碼,包括任務(wù)評(píng)估腳本,也在GitHub上提供。
SWE-rebench數(shù)據(jù)集的一個(gè)任務(wù)實(shí)例包含了問(wèn)題描述、代碼更改(補(bǔ)丁和測(cè)試補(bǔ)?。┮约跋嚓P(guān)元數(shù)據(jù),包括LLM生成的質(zhì)量評(píng)分和安裝配置。這些豐富的信息使得研究人員和開(kāi)發(fā)者能夠根據(jù)特定需求篩選和選擇任務(wù)實(shí)例。
SWE-rebench評(píng)估基準(zhǔn)
除了提供大規(guī)模數(shù)據(jù)集外,研究團(tuán)隊(duì)還利用自動(dòng)化管道構(gòu)建了SWE-rebench評(píng)估基準(zhǔn)。這個(gè)基準(zhǔn)由294個(gè)來(lái)自169個(gè)不同倉(cāng)庫(kù)的可執(zhí)行任務(wù)組成,是經(jīng)過(guò)篩選的SWE-rebench數(shù)據(jù)集的一部分。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的軟件工程代理評(píng)估面臨幾個(gè)關(guān)鍵挑戰(zhàn):潛在的數(shù)據(jù)污染、由于腳手架變異導(dǎo)致的結(jié)果不可比、缺乏標(biāo)準(zhǔn)化和可驗(yàn)證的評(píng)估、以及代理性能在多次運(yùn)行中的高變異性。
為了解決這些挑戰(zhàn),SWE-rebench評(píng)估基準(zhǔn)設(shè)計(jì)基于幾個(gè)核心原則:
首先是集中化和標(biāo)準(zhǔn)化的評(píng)估框架。所有在SWE-rebench上的評(píng)估都由研究團(tuán)隊(duì)使用固定的腳手架進(jìn)行,即每個(gè)模型都使用相同的最小ReAct風(fēng)格代理框架、相同的提示和默認(rèn)生成超參數(shù)。這就像在完全相同的比賽條件下測(cè)試不同的足球隊(duì),確保比較的公平性。
其次是持續(xù)數(shù)據(jù)集更新和去污染。SWE-rebench使用自動(dòng)化管道持續(xù)提供新鮮任務(wù)。由于系統(tǒng)精確跟蹤問(wèn)題及其對(duì)應(yīng)拉取請(qǐng)求的創(chuàng)建日期與模型發(fā)布日期,可以明確標(biāo)記潛在被污染的評(píng)估,這些評(píng)估包括在模型發(fā)布日期之前創(chuàng)建的問(wèn)題。這些評(píng)估在排行榜上被明確標(biāo)記,以確保關(guān)于可能數(shù)據(jù)泄漏的透明度。
第三是考慮代理行為的隨機(jī)性。為了捕捉性能變異性,研究團(tuán)隊(duì)在完整基準(zhǔn)上運(yùn)行每個(gè)模型五次。他們額外報(bào)告平均值的標(biāo)準(zhǔn)誤差(SEM)和pass@5指標(biāo),提供對(duì)每個(gè)模型性能的統(tǒng)計(jì)基礎(chǔ)和更可靠的評(píng)估。
研究結(jié)果分析
研究團(tuán)隊(duì)利用SWE-rebench的去污染特性,分析了不同時(shí)間窗口任務(wù)上的性能趨勢(shì),并識(shí)別先前基準(zhǔn)中潛在的污染效應(yīng)。具體來(lái)說(shuō),他們?cè)u(píng)估了模型在兩個(gè)不同時(shí)間子集的任務(wù)上的表現(xiàn):2025年1月創(chuàng)建的任務(wù)和2025年3月至4月創(chuàng)建的任務(wù)。
研究結(jié)果顯示了幾個(gè)值得注意的觀察:
GPT-4.1是唯一一個(gè)在3月至4月子集上性能明顯下降的模型,相比于1月子集。這可能表明這個(gè)模型對(duì)某些特定類(lèi)型的任務(wù)更敏感,或者在處理更新、更復(fù)雜的軟件工程問(wèn)題時(shí)面臨挑戰(zhàn)。
LLaMa-4-Maverick表現(xiàn)出相對(duì)于具有類(lèi)似平均解決率的模型更高的pass@5分?jǐn)?shù),但解決率相對(duì)適中。這表明該模型可以產(chǎn)生正確的解決方案來(lái)解決更復(fù)雜的問(wèn)題,但在多次運(yùn)行中缺乏一致性,展示了高潛力但執(zhí)行不一致。
Qwen2.5-Coder-32B-Instruct表現(xiàn)不如預(yù)期,特別是考慮到其強(qiáng)大的代碼生成能力。分析其軌跡顯示了指令遵循問(wèn)題;模型經(jīng)?;孟氕h(huán)境響應(yīng)或陷入格式錯(cuò)誤循環(huán),最終在沒(méi)有產(chǎn)生有意義的解決方案嘗試的情況下失敗。
Qwen3模型在啟用或不啟用思考模式的情況下表現(xiàn)相似——在某些情況下,非思考變體甚至略微超過(guò)思考版本。這表明基礎(chǔ)模型的能力足夠強(qiáng),以至于刻意規(guī)劃并不能提供可測(cè)量的優(yōu)勢(shì)。幾乎相同的pass@5分?jǐn)?shù)進(jìn)一步表明,即使沒(méi)有明確的推理機(jī)制,模型的問(wèn)題解決效率仍然保持一致。
DeepSeek模型在SWE-rebench兩個(gè)子集和SWE-bench Verified基準(zhǔn)上都展示了開(kāi)源模型中最強(qiáng)的性能。值得注意的是,DeepSeek-V3的12月和3月版本在解決率和pass@5方面始終優(yōu)于其他開(kāi)放模型,突顯了它們對(duì)任務(wù)分布變化的穩(wěn)健性。
研究局限性與未來(lái)工作
盡管SWE-rebench自動(dòng)化管道和由此產(chǎn)生的數(shù)據(jù)集旨在解決大規(guī)模、真實(shí)世界任務(wù)缺乏和去污染基準(zhǔn)的需求,但研究團(tuán)隊(duì)也坦誠(chéng)地指出了幾個(gè)局限性:
首先是自動(dòng)化任務(wù)質(zhì)量評(píng)估的局限。雖然他們采用了自動(dòng)化質(zhì)量評(píng)估,但完全自動(dòng)化的管道可能導(dǎo)致一些任務(wù)描述不完善或僅憑問(wèn)題無(wú)法解決。這可能導(dǎo)致與手動(dòng)整理的基準(zhǔn)相比,絕對(duì)成功率較低。
其次是有限的語(yǔ)言多樣性。SWE-rebench的初始版本及其底層數(shù)據(jù)集專(zhuān)注于基于Python的任務(wù)。從根本上說(shuō),他們的管道是與語(yǔ)言無(wú)關(guān)的,可以擴(kuò)展到包含使用其他編程語(yǔ)言的項(xiàng)目的任務(wù)。
對(duì)于未來(lái)的工作,研究團(tuán)隊(duì)計(jì)劃集中在幾個(gè)關(guān)鍵領(lǐng)域:
擴(kuò)大數(shù)據(jù)覆蓋范圍和數(shù)量。他們的目標(biāo)是通過(guò)將收集方法從嚴(yán)格與GitHub問(wèn)題相關(guān)的任務(wù)擴(kuò)展到更廣泛的代碼更改集,顯著增加數(shù)據(jù)集的數(shù)量。
改進(jìn)任務(wù)過(guò)濾管道。為了提高提取任務(wù)的整體質(zhì)量,他們計(jì)劃改進(jìn)在管道中使用的過(guò)濾啟發(fā)式方法。
支持新的編程語(yǔ)言。應(yīng)用相同的核心方法,他們計(jì)劃為其他流行語(yǔ)言(如JavaScript、Java、C++)收集數(shù)據(jù)集,從而擴(kuò)展SWE-rebench的語(yǔ)言和技術(shù)多樣性。
保持SWE-rebench基準(zhǔn)的最新性。維護(hù)對(duì)現(xiàn)有模型的評(píng)估過(guò)程,評(píng)估更廣泛的LLM,并與社區(qū)分享詳細(xì)的性能分析。
結(jié)論與影響
歸根結(jié)底,Nebius團(tuán)隊(duì)引入的這個(gè)自動(dòng)化數(shù)據(jù)收集管道和SWE-rebench基準(zhǔn)為開(kāi)發(fā)和評(píng)估下一代LLM基礎(chǔ)的代理提供了一個(gè)至關(guān)重要的基礎(chǔ),這些代理能夠應(yīng)對(duì)真實(shí)世界的軟件工程挑戰(zhàn)。
想象一下,這就像是為足球教練們提供了一個(gè)自動(dòng)化系統(tǒng),不斷從世界各地的比賽中收集新的戰(zhàn)術(shù)動(dòng)作和訓(xùn)練素材,同時(shí)確保在全新、未見(jiàn)過(guò)的比賽場(chǎng)景中公平評(píng)估球員的能力。這樣的系統(tǒng)不僅能加速球隊(duì)的進(jìn)步,還能確保我們對(duì)球員能力的評(píng)估是真實(shí)可靠的。
對(duì)于軟件開(kāi)發(fā)領(lǐng)域,SWE-rebench的出現(xiàn)意味著我們能夠開(kāi)發(fā)出更加強(qiáng)大、更加適應(yīng)實(shí)際開(kāi)發(fā)環(huán)境的AI助手,它們能夠理解復(fù)雜的代碼庫(kù),解決真實(shí)的軟件問(wèn)題,并在開(kāi)發(fā)過(guò)程中提供有價(jià)值的幫助。這不僅能提高開(kāi)發(fā)效率,還能降低軟件bug的發(fā)生率,最終為用戶(hù)提供更加可靠、高質(zhì)量的軟件產(chǎn)品。
對(duì)于想深入了解這項(xiàng)研究的讀者,可以在Hugging Face Datasets上訪問(wèn)SWE-rebench數(shù)據(jù)集,或者通過(guò)arXiv:2505.20411v1查閱完整的研究論文。這項(xiàng)創(chuàng)新工作無(wú)疑將推動(dòng)軟件工程AI助手的快速發(fā)展,為編程世界帶來(lái)更多可能性。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。