這項由波士頓大學金娜靜教授、李裕京博士和毛雨君博士聯(lián)合倫敦大學學院尼古拉斯·愛德華茲博士、維也納大學塞巴斯蒂安·舒斯特教授共同完成的開創(chuàng)性研究發(fā)表于2025年6月,論文標題為"REXBENCH: Can coding agents autonomously implement AI research extensions?"。這項研究首次系統(tǒng)性地評估了當前最先進的AI代碼智能體是否具備獨立擴展和實施科學研究的能力。有興趣深入了解的讀者可以通過https://rexbench.com/訪問完整的研究基準測試平臺和相關代碼。
科學研究的本質(zhì)就像搭積木一樣,每項新研究都需要在前人工作的基礎上添加新的積木塊。過去,這種"添磚加瓦"的工作完全依賴人類研究者的智慧和努力。但隨著AI技術的飛速發(fā)展,一個令人興奮卻也充滿挑戰(zhàn)的問題擺在了科研界面前:AI能否像人類研究者一樣,獨立地在現(xiàn)有研究基礎上進行有意義的擴展?
研究團隊發(fā)現(xiàn),當前即使是最先進的AI代碼智能體,在面對真正的科學研究擴展任務時,表現(xiàn)遠不如我們期待的那樣出色。這就好比我們期待一個聰明的助手能夠根據(jù)我們的想法獨立完成復雜的項目,但實際上,這個助手雖然在某些簡單任務上表現(xiàn)不錯,卻在需要深度理解和創(chuàng)新思維的任務上頻頻遇挫。
為了系統(tǒng)性地測試AI在科學研究擴展方面的能力,研究團隊精心設計了一個名為REXBENCH的全新評估基準。這個基準就像是為AI研究助手設計的"綜合能力測試",包含了12個基于真實已發(fā)表論文的研究擴展任務。每個任務都要求AI智能體不僅要理解原始研究的核心內(nèi)容,還要根據(jù)專家編寫的擴展指令,在現(xiàn)有代碼基礎上實施具體的改進或變化。
這些擴展任務涵蓋了科學研究的各個重要方面。有些任務要求修改機器學習模型的架構,就像重新設計一個復雜機器的核心組件。有些任務需要改變算法的運行方式,類似于調(diào)整工廠生產(chǎn)線的操作流程。還有一些任務涉及數(shù)據(jù)處理方法的改進,好比改變原材料的加工方式。另外還有一類任務專注于評估方法的創(chuàng)新,相當于設計新的質(zhì)量檢測標準。
研究團隊選擇了九個不同的AI智能體進行測試,這些智能體基于當前最先進的大語言模型構建,包括Claude 3.7 Sonnet、OpenAI的o1和o4-mini模型,以及開源的DeepSeek R1模型。這些智能體使用了三種不同的代理框架:開源的aider和OpenHands,以及商業(yè)化的Claude Code。每個智能體都接受了相同的測試條件:獲得原始研究論文、對應的代碼庫,以及詳細的擴展任務指令。
測試結果令人深思。即使是表現(xiàn)最好的智能體組合——使用Claude 3.7 Sonnet作為核心模型的OpenHands和Claude Code——在12個任務中平均只能成功完成約四分之一,成功率僅為25%。這個數(shù)字雖然看起來不高,但考慮到任務的復雜性,也展現(xiàn)了AI技術的一定潛力。更令人擔憂的是,一些原本被認為非常先進的模型,如OpenAI的o1和DeepSeek R1,在這類任務上的成功率幾乎為零。
為了更深入地理解AI智能體的局限性,研究團隊還設計了帶有不同程度提示信息的對照實驗。第一層提示主要幫助智能體定位需要修改的代碼位置和找到相關信息,就像給迷路的人提供地圖和指南針。第二層提示則更進一步,提供了逐步的實施指導,類似于詳細的操作手冊。
令人意外的是,即使有了這些額外的幫助,智能體的表現(xiàn)提升也很有限。最好的情況下,OpenHands配合Claude 3.7 Sonnet在有提示的情況下能達到39%的成功率,但這仍然意味著超過一半的任務無法成功完成。更有趣的是,第二層的詳細指導并沒有帶來預期的額外改進,這表明問題可能不僅僅在于信息不足,而是AI智能體在處理復雜推理和規(guī)劃任務時存在根本性的局限。
研究團隊還詳細分析了智能體失敗的原因。他們發(fā)現(xiàn),失敗主要分為兩大類:顯性錯誤和隱性錯誤。顯性錯誤是那些能夠直接從執(zhí)行日志中識別出來的問題,比如代碼語法錯誤、文件路徑錯誤,或者智能體完全沒有生成任何代碼修改。最常見的顯性錯誤是智能體生成了空的修改文件,這通常發(fā)生在智能體試圖一次性解決整個復雜任務時,由于任務復雜度超出了其處理能力,導致執(zhí)行失敗。
隱性錯誤則更加微妙和危險。這類錯誤發(fā)生在代碼能夠正常執(zhí)行,但實驗結果與預期目標不符的情況下。研究團隊發(fā)現(xiàn),這類錯誤大約一半源于實現(xiàn)邏輯的問題,另一半則是參數(shù)設置或數(shù)值處理的錯誤。更重要的是,隱性錯誤很難被發(fā)現(xiàn)和診斷,即使是設計了原始解決方案的人類專家也需要花費大量時間來分析問題所在。
這種情況在實際應用中可能帶來嚴重后果。當AI智能體生成的代碼能夠正常運行時,研究者很容易誤以為實驗是成功的,可能基于錯誤的結果得出不正確的科學結論。這就好比一個看起來精美的蛋糕,外表完美無缺,但內(nèi)部的配方卻是錯誤的,只有品嘗后才能發(fā)現(xiàn)問題。
通過深入的誤差分析,研究團隊還發(fā)現(xiàn)了一些有趣的模式。不同的AI模型表現(xiàn)出不同類型的問題傾向。例如,Claude 3.7 Sonnet很少產(chǎn)生語法錯誤,生成的代碼通常能夠正常執(zhí)行,但可能在邏輯實現(xiàn)上存在細微但關鍵的錯誤。相比之下,OpenAI的o1模型雖然推理能力強,但經(jīng)常產(chǎn)生語法錯誤,影響了代碼的基本可執(zhí)行性。
研究還揭示了另一個重要發(fā)現(xiàn):某些模型存在"過度思考"的問題。特別是DeepSeek R1、o1和o4-mini這些模型,它們往往會產(chǎn)生過多的思考過程輸出,消耗大量的計算資源和時間,但最終卻沒有產(chǎn)生實際的代碼修改。這種現(xiàn)象表明,模型的推理能力和實際執(zhí)行能力之間可能存在脫節(jié)。
為了找出影響任務難度的關鍵因素,研究團隊進行了統(tǒng)計分析。他們發(fā)現(xiàn),任務的成功率與需要修改的代碼行數(shù)呈顯著負相關關系。也就是說,需要修改的代碼越多,AI智能體成功完成任務的可能性就越小。這個發(fā)現(xiàn)符合直覺:更大規(guī)模的修改需要更強的整體規(guī)劃和協(xié)調(diào)能力,這正是當前AI智能體的薄弱環(huán)節(jié)。
另一個有趣的發(fā)現(xiàn)是,代碼庫的流行程度(通過GitHub的星標和分叉數(shù)量衡量)對成功率有輕微的正面影響,雖然效果很小。這可能是因為更流行的代碼庫在AI模型的訓練數(shù)據(jù)中出現(xiàn)得更頻繁,使得模型對這些代碼結構更加熟悉。
成本效益分析顯示,不同智能體在經(jīng)濟成本和時間效率方面表現(xiàn)差異很大。aider配合o4-mini模型在成本控制方面表現(xiàn)最佳,而OpenHands配合Claude 3.7 Sonnet在時間效率方面領先。這種差異主要源于不同框架的設計哲學:aider采用非迭代設計,通常只需要兩輪對話就完成任務,而其他框架則采用多輪交互方式,雖然可能獲得更好的結果,但也消耗更多資源。
研究團隊還觀察到了AI智能體在利用提示信息方面的有趣現(xiàn)象。不同的智能體對相同的提示信息反應差異很大。在某些任務中,額外的指導信息反而降低了智能體的表現(xiàn),這表明不同的智能體可能擅長實現(xiàn)不同類型的解決方案,而過于具體的指導可能會限制它們發(fā)揮自身優(yōu)勢。
這項研究的一個重要創(chuàng)新在于解決了AI評估中的數(shù)據(jù)污染問題。傳統(tǒng)的代碼生成評估往往面臨一個困境:如果評估任務的解決方案已經(jīng)在網(wǎng)上公開,那么AI模型可能在訓練過程中就已經(jīng)"見過"這些解決方案,使得評估結果不夠可靠。REXBENCH通過使用全新的研究擴展任務,確保所有的"標準答案"都是研究團隊獨立開發(fā)的,并且存儲在私有代碼庫中,從根本上避免了數(shù)據(jù)泄露的風險。
研究團隊還建立了一套完整的自動化評估基礎設施。這套系統(tǒng)基于虛擬機技術,為每個任務提供完全相同的硬件和軟件環(huán)境,確保評估結果的可重復性和可靠性。整個評估過程就像是為每個AI智能體提供了一個標準化的"實驗室",在其中完成指定的研究任務,然后通過統(tǒng)一的標準來衡量完成質(zhì)量。
評估標準包括三個層次的指標。最高層次是"最終成功率",即AI智能體的輸出是否能產(chǎn)生與專家解決方案數(shù)值相符的實驗結果。中間層次是"執(zhí)行成功率",衡量生成的代碼是否能夠正常運行而不產(chǎn)生錯誤。最基礎的層次是"文件召回率",檢查AI智能體是否至少識別并修改了專家解決方案中涉及的關鍵文件。
通過這種多層次的評估體系,研究團隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:大多數(shù)AI智能體在文件召回率方面表現(xiàn)相當不錯,說明它們能夠根據(jù)任務描述識別出需要修改的代碼位置。但是,從文件識別到成功執(zhí)行,再到最終的正確結果,每一步都存在顯著的性能下降,這揭示了AI智能體在不同認知層面上的能力差異。
研究還涉及了12個不同領域的真實研究論文,涵蓋了自然語言處理、機器學習、認知科學等多個前沿領域。這些論文來自頂級學術會議和期刊,如EMNLP、ACL、ICLR、NeurIPS等,確保了任務的學術價值和現(xiàn)實意義。每個任務都是基于真實的科學假設和研究問題設計的,而不是人工構造的簡單編程練習。
例如,其中一個任務要求擴展WinoDict研究,探索當學習的新詞匯與現(xiàn)有英語單詞重名時會發(fā)生什么。另一個任務基于Tree of Thoughts算法,要求實現(xiàn)一種新的問題解決策略。還有任務涉及實體追蹤能力的評估,或者對話生成模型的性能分析。這些任務的共同特點是都具有明確的科學價值,同時在技術實現(xiàn)上具有一定的挑戰(zhàn)性。
為了確保任務質(zhì)量,每個擴展任務都經(jīng)過了嚴格的設計和驗證過程。首先,博士級別的領域?qū)<倚枰炞C原始代碼能夠復現(xiàn)論文結果。然后,專家實現(xiàn)"黃金標準"的擴展方案,并記錄數(shù)值結果。接下來,專家編寫清晰但不過于詳細的任務指令,確保指令既能傳達任務要求,又不會簡化為簡單的代碼復制任務。最后,多位作者共同審查和完善任務設計,確保指令的準確性和無歧義性。
研究團隊特別注意控制任務的復雜度,確保所有任務都能在12小時內(nèi)完成(實際的專家解決方案通常在6小時內(nèi)完成)。這種時間限制既保證了任務的可行性,又避免了過于簡單而失去評估價值的問題。同時,所有任務都被設計為自包含的,即完成任務所需的所有信息都包含在提供的材料中,不需要額外的外部資源。
工具使用分析顯示,OpenHands智能體在執(zhí)行過程中主要依賴文件編輯工具和bash命令執(zhí)行工具。Claude 3.7 Sonnet和o4-mini模型表現(xiàn)出了最高的工具使用頻率,表明它們采用了更加積極的探索和試錯策略。相比之下,o1模型的工具使用相對較少,這可能與其更傾向于深度思考而非頻繁執(zhí)行的特點有關。
成本分析揭示了實用化部署的考慮因素。在當前的定價體系下,使用OpenAI o1進行此類任務的成本相對較高,平均每個任務約1.3美元,而o4-mini則只需要約0.03美元。雖然絕對金額看起來不大,但如果考慮到大規(guī)模應用場景,成本差異就會變得非常顯著。
研究的局限性也值得關注。雖然REXBENCH設計了相對現(xiàn)實的研究擴展任務,但為了確保自動化評估的可行性,這些任務仍然比真實的開放式研究探索要受限得多。真實的科學研究往往涉及更多的不確定性、創(chuàng)造性和迭代探索,而這些方面在當前的評估框架中很難量化。
另一個重要考慮是評估標準的選擇。雖然數(shù)值結果匹配是一個客觀的成功標準,但在某些情況下,AI智能體可能通過完全不同但同樣有效的方法達到相同的結果。當前的評估框架可能會錯誤地將這種創(chuàng)新性解決方案標記為失敗,從而低估了AI智能體的真實能力。
研究團隊認為,這些發(fā)現(xiàn)對AI研究助手的未來發(fā)展具有重要指導意義。首先,當前的AI智能體在處理需要深度理解和長期規(guī)劃的復雜任務時仍然存在顯著局限,特別是在需要修改大量代碼或涉及復雜邏輯推理的情況下。其次,隱性錯誤的普遍存在表明,在實際部署此類系統(tǒng)時需要建立強有力的驗證和檢查機制。
從更廣闊的視角來看,這項研究為評估AI系統(tǒng)在科學研究中的作用提供了一個新的基準。隨著AI技術的不斷進步,研究團隊期待看到未來的模型在這個基準上取得更好的表現(xiàn)。同時,他們也呼吁社區(qū)貢獻更多樣化的任務,覆蓋更廣泛的科學領域和更復雜的研究場景。
研究還揭示了不同AI框架的設計哲學差異。aider采用簡單直接的方法,通過少量交互完成任務,雖然成功率不是最高,但在效率和成本控制方面表現(xiàn)出色。OpenHands和Claude Code則采用更復雜的多輪交互策略,能夠取得更好的結果,但也消耗更多資源。這種差異表明,在實際應用中需要根據(jù)具體需求在性能和效率之間進行權衡。
展望未來,研究團隊計劃擴展REXBENCH到更多科學領域,包括生物學、化學、物理學等。他們也在探索設計更開放式的評估任務,更好地模擬真實科學研究的探索性特點。同時,他們呼吁AI研究社區(qū)關注科學研究擴展這一重要應用場景,開發(fā)專門針對此類任務優(yōu)化的模型和框架。
說到底,這項研究為我們理解AI在科學研究中的現(xiàn)狀和潛力提供了珍貴的洞察。雖然當前的AI智能體還遠未達到獨立進行科學研究的水平,但它們已經(jīng)展現(xiàn)出了一定的潛力,特別是在處理相對簡單和結構化的任務方面。隨著技術的不斷進步,我們有理由相信未來的AI系統(tǒng)將能夠成為科學研究的有力助手,幫助人類研究者更高效地探索未知領域。
不過,這項研究也提醒我們,在AI系統(tǒng)能夠真正勝任復雜科學任務之前,我們需要保持謹慎的態(tài)度。特別是在那些AI生成的代碼能夠運行但結果可能存在subtle錯誤的情況下,過度依賴AI可能會導致錯誤的科學結論。因此,建立完善的驗證機制和保持人類專家的監(jiān)督仍然至關重要。
這項研究不僅為AI研究社區(qū)提供了一個新的評估工具,也為思考AI在科學發(fā)現(xiàn)中的角色提供了重要參考。正如研究團隊所指出的,真正的科學進步往往需要創(chuàng)造性思維、直覺洞察和批判性思考,而這些能力仍然是人類智慧的獨特優(yōu)勢。AI系統(tǒng)最有可能發(fā)揮作用的是作為增強人類研究能力的工具,而不是完全替代人類研究者。
Q&A
Q1:REXBENCH是什么?它能測試什么? A:REXBENCH是由波士頓大學團隊開發(fā)的AI研究擴展能力評估基準,專門測試AI代碼智能體是否能夠獨立在現(xiàn)有科學研究基礎上進行有意義的擴展。它包含12個基于真實已發(fā)表論文的研究擴展任務,涵蓋機器學習、自然語言處理等多個領域,能夠全面評估AI在理解研究內(nèi)容、分析代碼結構、實施技術改進等方面的能力。
Q2:當前最先進的AI智能體在科學研究擴展方面表現(xiàn)如何? A:表現(xiàn)遠低于預期。即使是最好的AI智能體組合(如OpenHands + Claude 3.7 Sonnet),成功率也只有25%左右,意味著四分之三的任務無法成功完成。更令人擔憂的是,一些頂尖模型如OpenAI o1和DeepSeek R1的成功率幾乎為零。這表明當前AI在處理需要深度理解和復雜推理的科學任務時存在顯著局限。
Q3:AI智能體在科學研究中失敗的主要原因是什么? A:主要有兩類問題:顯性錯誤包括代碼語法錯誤、執(zhí)行失敗或完全沒有生成代碼修改;隱性錯誤更危險,指代碼能正常運行但結果不正確,這類錯誤難以發(fā)現(xiàn)且可能導致錯誤的科學結論。研究還發(fā)現(xiàn),需要修改的代碼越多,AI成功的可能性越小,且某些模型存在"過度思考"但不產(chǎn)生實際輸出的問題。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。