這項(xiàng)由波士頓大學(xué)金娜靜教授、李裕京博士和毛雨君博士聯(lián)合倫敦大學(xué)學(xué)院尼古拉斯·愛德華茲博士、維也納大學(xué)塞巴斯蒂安·舒斯特教授共同完成的開創(chuàng)性研究發(fā)表于2025年6月,論文標(biāo)題為"REXBENCH: Can coding agents autonomously implement AI research extensions?"。這項(xiàng)研究首次系統(tǒng)性地評(píng)估了當(dāng)前最先進(jìn)的AI代碼智能體是否具備獨(dú)立擴(kuò)展和實(shí)施科學(xué)研究的能力。有興趣深入了解的讀者可以通過https://rexbench.com/訪問完整的研究基準(zhǔn)測(cè)試平臺(tái)和相關(guān)代碼。
科學(xué)研究的本質(zhì)就像搭積木一樣,每項(xiàng)新研究都需要在前人工作的基礎(chǔ)上添加新的積木塊。過去,這種"添磚加瓦"的工作完全依賴人類研究者的智慧和努力。但隨著AI技術(shù)的飛速發(fā)展,一個(gè)令人興奮卻也充滿挑戰(zhàn)的問題擺在了科研界面前:AI能否像人類研究者一樣,獨(dú)立地在現(xiàn)有研究基礎(chǔ)上進(jìn)行有意義的擴(kuò)展?
研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)前即使是最先進(jìn)的AI代碼智能體,在面對(duì)真正的科學(xué)研究擴(kuò)展任務(wù)時(shí),表現(xiàn)遠(yuǎn)不如我們期待的那樣出色。這就好比我們期待一個(gè)聰明的助手能夠根據(jù)我們的想法獨(dú)立完成復(fù)雜的項(xiàng)目,但實(shí)際上,這個(gè)助手雖然在某些簡(jiǎn)單任務(wù)上表現(xiàn)不錯(cuò),卻在需要深度理解和創(chuàng)新思維的任務(wù)上頻頻遇挫。
為了系統(tǒng)性地測(cè)試AI在科學(xué)研究擴(kuò)展方面的能力,研究團(tuán)隊(duì)精心設(shè)計(jì)了一個(gè)名為REXBENCH的全新評(píng)估基準(zhǔn)。這個(gè)基準(zhǔn)就像是為AI研究助手設(shè)計(jì)的"綜合能力測(cè)試",包含了12個(gè)基于真實(shí)已發(fā)表論文的研究擴(kuò)展任務(wù)。每個(gè)任務(wù)都要求AI智能體不僅要理解原始研究的核心內(nèi)容,還要根據(jù)專家編寫的擴(kuò)展指令,在現(xiàn)有代碼基礎(chǔ)上實(shí)施具體的改進(jìn)或變化。
這些擴(kuò)展任務(wù)涵蓋了科學(xué)研究的各個(gè)重要方面。有些任務(wù)要求修改機(jī)器學(xué)習(xí)模型的架構(gòu),就像重新設(shè)計(jì)一個(gè)復(fù)雜機(jī)器的核心組件。有些任務(wù)需要改變算法的運(yùn)行方式,類似于調(diào)整工廠生產(chǎn)線的操作流程。還有一些任務(wù)涉及數(shù)據(jù)處理方法的改進(jìn),好比改變?cè)牧系募庸し绞?。另外還有一類任務(wù)專注于評(píng)估方法的創(chuàng)新,相當(dāng)于設(shè)計(jì)新的質(zhì)量檢測(cè)標(biāo)準(zhǔn)。
研究團(tuán)隊(duì)選擇了九個(gè)不同的AI智能體進(jìn)行測(cè)試,這些智能體基于當(dāng)前最先進(jìn)的大語言模型構(gòu)建,包括Claude 3.7 Sonnet、OpenAI的o1和o4-mini模型,以及開源的DeepSeek R1模型。這些智能體使用了三種不同的代理框架:開源的aider和OpenHands,以及商業(yè)化的Claude Code。每個(gè)智能體都接受了相同的測(cè)試條件:獲得原始研究論文、對(duì)應(yīng)的代碼庫,以及詳細(xì)的擴(kuò)展任務(wù)指令。
測(cè)試結(jié)果令人深思。即使是表現(xiàn)最好的智能體組合——使用Claude 3.7 Sonnet作為核心模型的OpenHands和Claude Code——在12個(gè)任務(wù)中平均只能成功完成約四分之一,成功率僅為25%。這個(gè)數(shù)字雖然看起來不高,但考慮到任務(wù)的復(fù)雜性,也展現(xiàn)了AI技術(shù)的一定潛力。更令人擔(dān)憂的是,一些原本被認(rèn)為非常先進(jìn)的模型,如OpenAI的o1和DeepSeek R1,在這類任務(wù)上的成功率幾乎為零。
為了更深入地理解AI智能體的局限性,研究團(tuán)隊(duì)還設(shè)計(jì)了帶有不同程度提示信息的對(duì)照實(shí)驗(yàn)。第一層提示主要幫助智能體定位需要修改的代碼位置和找到相關(guān)信息,就像給迷路的人提供地圖和指南針。第二層提示則更進(jìn)一步,提供了逐步的實(shí)施指導(dǎo),類似于詳細(xì)的操作手冊(cè)。
令人意外的是,即使有了這些額外的幫助,智能體的表現(xiàn)提升也很有限。最好的情況下,OpenHands配合Claude 3.7 Sonnet在有提示的情況下能達(dá)到39%的成功率,但這仍然意味著超過一半的任務(wù)無法成功完成。更有趣的是,第二層的詳細(xì)指導(dǎo)并沒有帶來預(yù)期的額外改進(jìn),這表明問題可能不僅僅在于信息不足,而是AI智能體在處理復(fù)雜推理和規(guī)劃任務(wù)時(shí)存在根本性的局限。
研究團(tuán)隊(duì)還詳細(xì)分析了智能體失敗的原因。他們發(fā)現(xiàn),失敗主要分為兩大類:顯性錯(cuò)誤和隱性錯(cuò)誤。顯性錯(cuò)誤是那些能夠直接從執(zhí)行日志中識(shí)別出來的問題,比如代碼語法錯(cuò)誤、文件路徑錯(cuò)誤,或者智能體完全沒有生成任何代碼修改。最常見的顯性錯(cuò)誤是智能體生成了空的修改文件,這通常發(fā)生在智能體試圖一次性解決整個(gè)復(fù)雜任務(wù)時(shí),由于任務(wù)復(fù)雜度超出了其處理能力,導(dǎo)致執(zhí)行失敗。
隱性錯(cuò)誤則更加微妙和危險(xiǎn)。這類錯(cuò)誤發(fā)生在代碼能夠正常執(zhí)行,但實(shí)驗(yàn)結(jié)果與預(yù)期目標(biāo)不符的情況下。研究團(tuán)隊(duì)發(fā)現(xiàn),這類錯(cuò)誤大約一半源于實(shí)現(xiàn)邏輯的問題,另一半則是參數(shù)設(shè)置或數(shù)值處理的錯(cuò)誤。更重要的是,隱性錯(cuò)誤很難被發(fā)現(xiàn)和診斷,即使是設(shè)計(jì)了原始解決方案的人類專家也需要花費(fèi)大量時(shí)間來分析問題所在。
這種情況在實(shí)際應(yīng)用中可能帶來嚴(yán)重后果。當(dāng)AI智能體生成的代碼能夠正常運(yùn)行時(shí),研究者很容易誤以為實(shí)驗(yàn)是成功的,可能基于錯(cuò)誤的結(jié)果得出不正確的科學(xué)結(jié)論。這就好比一個(gè)看起來精美的蛋糕,外表完美無缺,但內(nèi)部的配方卻是錯(cuò)誤的,只有品嘗后才能發(fā)現(xiàn)問題。
通過深入的誤差分析,研究團(tuán)隊(duì)還發(fā)現(xiàn)了一些有趣的模式。不同的AI模型表現(xiàn)出不同類型的問題傾向。例如,Claude 3.7 Sonnet很少產(chǎn)生語法錯(cuò)誤,生成的代碼通常能夠正常執(zhí)行,但可能在邏輯實(shí)現(xiàn)上存在細(xì)微但關(guān)鍵的錯(cuò)誤。相比之下,OpenAI的o1模型雖然推理能力強(qiáng),但經(jīng)常產(chǎn)生語法錯(cuò)誤,影響了代碼的基本可執(zhí)行性。
研究還揭示了另一個(gè)重要發(fā)現(xiàn):某些模型存在"過度思考"的問題。特別是DeepSeek R1、o1和o4-mini這些模型,它們往往會(huì)產(chǎn)生過多的思考過程輸出,消耗大量的計(jì)算資源和時(shí)間,但最終卻沒有產(chǎn)生實(shí)際的代碼修改。這種現(xiàn)象表明,模型的推理能力和實(shí)際執(zhí)行能力之間可能存在脫節(jié)。
為了找出影響任務(wù)難度的關(guān)鍵因素,研究團(tuán)隊(duì)進(jìn)行了統(tǒng)計(jì)分析。他們發(fā)現(xiàn),任務(wù)的成功率與需要修改的代碼行數(shù)呈顯著負(fù)相關(guān)關(guān)系。也就是說,需要修改的代碼越多,AI智能體成功完成任務(wù)的可能性就越小。這個(gè)發(fā)現(xiàn)符合直覺:更大規(guī)模的修改需要更強(qiáng)的整體規(guī)劃和協(xié)調(diào)能力,這正是當(dāng)前AI智能體的薄弱環(huán)節(jié)。
另一個(gè)有趣的發(fā)現(xiàn)是,代碼庫的流行程度(通過GitHub的星標(biāo)和分叉數(shù)量衡量)對(duì)成功率有輕微的正面影響,雖然效果很小。這可能是因?yàn)楦餍械拇a庫在AI模型的訓(xùn)練數(shù)據(jù)中出現(xiàn)得更頻繁,使得模型對(duì)這些代碼結(jié)構(gòu)更加熟悉。
成本效益分析顯示,不同智能體在經(jīng)濟(jì)成本和時(shí)間效率方面表現(xiàn)差異很大。aider配合o4-mini模型在成本控制方面表現(xiàn)最佳,而OpenHands配合Claude 3.7 Sonnet在時(shí)間效率方面領(lǐng)先。這種差異主要源于不同框架的設(shè)計(jì)哲學(xué):aider采用非迭代設(shè)計(jì),通常只需要兩輪對(duì)話就完成任務(wù),而其他框架則采用多輪交互方式,雖然可能獲得更好的結(jié)果,但也消耗更多資源。
研究團(tuán)隊(duì)還觀察到了AI智能體在利用提示信息方面的有趣現(xiàn)象。不同的智能體對(duì)相同的提示信息反應(yīng)差異很大。在某些任務(wù)中,額外的指導(dǎo)信息反而降低了智能體的表現(xiàn),這表明不同的智能體可能擅長(zhǎng)實(shí)現(xiàn)不同類型的解決方案,而過于具體的指導(dǎo)可能會(huì)限制它們發(fā)揮自身優(yōu)勢(shì)。
這項(xiàng)研究的一個(gè)重要?jiǎng)?chuàng)新在于解決了AI評(píng)估中的數(shù)據(jù)污染問題。傳統(tǒng)的代碼生成評(píng)估往往面臨一個(gè)困境:如果評(píng)估任務(wù)的解決方案已經(jīng)在網(wǎng)上公開,那么AI模型可能在訓(xùn)練過程中就已經(jīng)"見過"這些解決方案,使得評(píng)估結(jié)果不夠可靠。REXBENCH通過使用全新的研究擴(kuò)展任務(wù),確保所有的"標(biāo)準(zhǔn)答案"都是研究團(tuán)隊(duì)獨(dú)立開發(fā)的,并且存儲(chǔ)在私有代碼庫中,從根本上避免了數(shù)據(jù)泄露的風(fēng)險(xiǎn)。
研究團(tuán)隊(duì)還建立了一套完整的自動(dòng)化評(píng)估基礎(chǔ)設(shè)施。這套系統(tǒng)基于虛擬機(jī)技術(shù),為每個(gè)任務(wù)提供完全相同的硬件和軟件環(huán)境,確保評(píng)估結(jié)果的可重復(fù)性和可靠性。整個(gè)評(píng)估過程就像是為每個(gè)AI智能體提供了一個(gè)標(biāo)準(zhǔn)化的"實(shí)驗(yàn)室",在其中完成指定的研究任務(wù),然后通過統(tǒng)一的標(biāo)準(zhǔn)來衡量完成質(zhì)量。
評(píng)估標(biāo)準(zhǔn)包括三個(gè)層次的指標(biāo)。最高層次是"最終成功率",即AI智能體的輸出是否能產(chǎn)生與專家解決方案數(shù)值相符的實(shí)驗(yàn)結(jié)果。中間層次是"執(zhí)行成功率",衡量生成的代碼是否能夠正常運(yùn)行而不產(chǎn)生錯(cuò)誤。最基礎(chǔ)的層次是"文件召回率",檢查AI智能體是否至少識(shí)別并修改了專家解決方案中涉及的關(guān)鍵文件。
通過這種多層次的評(píng)估體系,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:大多數(shù)AI智能體在文件召回率方面表現(xiàn)相當(dāng)不錯(cuò),說明它們能夠根據(jù)任務(wù)描述識(shí)別出需要修改的代碼位置。但是,從文件識(shí)別到成功執(zhí)行,再到最終的正確結(jié)果,每一步都存在顯著的性能下降,這揭示了AI智能體在不同認(rèn)知層面上的能力差異。
研究還涉及了12個(gè)不同領(lǐng)域的真實(shí)研究論文,涵蓋了自然語言處理、機(jī)器學(xué)習(xí)、認(rèn)知科學(xué)等多個(gè)前沿領(lǐng)域。這些論文來自頂級(jí)學(xué)術(shù)會(huì)議和期刊,如EMNLP、ACL、ICLR、NeurIPS等,確保了任務(wù)的學(xué)術(shù)價(jià)值和現(xiàn)實(shí)意義。每個(gè)任務(wù)都是基于真實(shí)的科學(xué)假設(shè)和研究問題設(shè)計(jì)的,而不是人工構(gòu)造的簡(jiǎn)單編程練習(xí)。
例如,其中一個(gè)任務(wù)要求擴(kuò)展WinoDict研究,探索當(dāng)學(xué)習(xí)的新詞匯與現(xiàn)有英語單詞重名時(shí)會(huì)發(fā)生什么。另一個(gè)任務(wù)基于Tree of Thoughts算法,要求實(shí)現(xiàn)一種新的問題解決策略。還有任務(wù)涉及實(shí)體追蹤能力的評(píng)估,或者對(duì)話生成模型的性能分析。這些任務(wù)的共同特點(diǎn)是都具有明確的科學(xué)價(jià)值,同時(shí)在技術(shù)實(shí)現(xiàn)上具有一定的挑戰(zhàn)性。
為了確保任務(wù)質(zhì)量,每個(gè)擴(kuò)展任務(wù)都經(jīng)過了嚴(yán)格的設(shè)計(jì)和驗(yàn)證過程。首先,博士級(jí)別的領(lǐng)域?qū)<倚枰?yàn)證原始代碼能夠復(fù)現(xiàn)論文結(jié)果。然后,專家實(shí)現(xiàn)"黃金標(biāo)準(zhǔn)"的擴(kuò)展方案,并記錄數(shù)值結(jié)果。接下來,專家編寫清晰但不過于詳細(xì)的任務(wù)指令,確保指令既能傳達(dá)任務(wù)要求,又不會(huì)簡(jiǎn)化為簡(jiǎn)單的代碼復(fù)制任務(wù)。最后,多位作者共同審查和完善任務(wù)設(shè)計(jì),確保指令的準(zhǔn)確性和無歧義性。
研究團(tuán)隊(duì)特別注意控制任務(wù)的復(fù)雜度,確保所有任務(wù)都能在12小時(shí)內(nèi)完成(實(shí)際的專家解決方案通常在6小時(shí)內(nèi)完成)。這種時(shí)間限制既保證了任務(wù)的可行性,又避免了過于簡(jiǎn)單而失去評(píng)估價(jià)值的問題。同時(shí),所有任務(wù)都被設(shè)計(jì)為自包含的,即完成任務(wù)所需的所有信息都包含在提供的材料中,不需要額外的外部資源。
工具使用分析顯示,OpenHands智能體在執(zhí)行過程中主要依賴文件編輯工具和bash命令執(zhí)行工具。Claude 3.7 Sonnet和o4-mini模型表現(xiàn)出了最高的工具使用頻率,表明它們采用了更加積極的探索和試錯(cuò)策略。相比之下,o1模型的工具使用相對(duì)較少,這可能與其更傾向于深度思考而非頻繁執(zhí)行的特點(diǎn)有關(guān)。
成本分析揭示了實(shí)用化部署的考慮因素。在當(dāng)前的定價(jià)體系下,使用OpenAI o1進(jìn)行此類任務(wù)的成本相對(duì)較高,平均每個(gè)任務(wù)約1.3美元,而o4-mini則只需要約0.03美元。雖然絕對(duì)金額看起來不大,但如果考慮到大規(guī)模應(yīng)用場(chǎng)景,成本差異就會(huì)變得非常顯著。
研究的局限性也值得關(guān)注。雖然REXBENCH設(shè)計(jì)了相對(duì)現(xiàn)實(shí)的研究擴(kuò)展任務(wù),但為了確保自動(dòng)化評(píng)估的可行性,這些任務(wù)仍然比真實(shí)的開放式研究探索要受限得多。真實(shí)的科學(xué)研究往往涉及更多的不確定性、創(chuàng)造性和迭代探索,而這些方面在當(dāng)前的評(píng)估框架中很難量化。
另一個(gè)重要考慮是評(píng)估標(biāo)準(zhǔn)的選擇。雖然數(shù)值結(jié)果匹配是一個(gè)客觀的成功標(biāo)準(zhǔn),但在某些情況下,AI智能體可能通過完全不同但同樣有效的方法達(dá)到相同的結(jié)果。當(dāng)前的評(píng)估框架可能會(huì)錯(cuò)誤地將這種創(chuàng)新性解決方案標(biāo)記為失敗,從而低估了AI智能體的真實(shí)能力。
研究團(tuán)隊(duì)認(rèn)為,這些發(fā)現(xiàn)對(duì)AI研究助手的未來發(fā)展具有重要指導(dǎo)意義。首先,當(dāng)前的AI智能體在處理需要深度理解和長(zhǎng)期規(guī)劃的復(fù)雜任務(wù)時(shí)仍然存在顯著局限,特別是在需要修改大量代碼或涉及復(fù)雜邏輯推理的情況下。其次,隱性錯(cuò)誤的普遍存在表明,在實(shí)際部署此類系統(tǒng)時(shí)需要建立強(qiáng)有力的驗(yàn)證和檢查機(jī)制。
從更廣闊的視角來看,這項(xiàng)研究為評(píng)估AI系統(tǒng)在科學(xué)研究中的作用提供了一個(gè)新的基準(zhǔn)。隨著AI技術(shù)的不斷進(jìn)步,研究團(tuán)隊(duì)期待看到未來的模型在這個(gè)基準(zhǔn)上取得更好的表現(xiàn)。同時(shí),他們也呼吁社區(qū)貢獻(xiàn)更多樣化的任務(wù),覆蓋更廣泛的科學(xué)領(lǐng)域和更復(fù)雜的研究場(chǎng)景。
研究還揭示了不同AI框架的設(shè)計(jì)哲學(xué)差異。aider采用簡(jiǎn)單直接的方法,通過少量交互完成任務(wù),雖然成功率不是最高,但在效率和成本控制方面表現(xiàn)出色。OpenHands和Claude Code則采用更復(fù)雜的多輪交互策略,能夠取得更好的結(jié)果,但也消耗更多資源。這種差異表明,在實(shí)際應(yīng)用中需要根據(jù)具體需求在性能和效率之間進(jìn)行權(quán)衡。
展望未來,研究團(tuán)隊(duì)計(jì)劃擴(kuò)展REXBENCH到更多科學(xué)領(lǐng)域,包括生物學(xué)、化學(xué)、物理學(xué)等。他們也在探索設(shè)計(jì)更開放式的評(píng)估任務(wù),更好地模擬真實(shí)科學(xué)研究的探索性特點(diǎn)。同時(shí),他們呼吁AI研究社區(qū)關(guān)注科學(xué)研究擴(kuò)展這一重要應(yīng)用場(chǎng)景,開發(fā)專門針對(duì)此類任務(wù)優(yōu)化的模型和框架。
說到底,這項(xiàng)研究為我們理解AI在科學(xué)研究中的現(xiàn)狀和潛力提供了珍貴的洞察。雖然當(dāng)前的AI智能體還遠(yuǎn)未達(dá)到獨(dú)立進(jìn)行科學(xué)研究的水平,但它們已經(jīng)展現(xiàn)出了一定的潛力,特別是在處理相對(duì)簡(jiǎn)單和結(jié)構(gòu)化的任務(wù)方面。隨著技術(shù)的不斷進(jìn)步,我們有理由相信未來的AI系統(tǒng)將能夠成為科學(xué)研究的有力助手,幫助人類研究者更高效地探索未知領(lǐng)域。
不過,這項(xiàng)研究也提醒我們,在AI系統(tǒng)能夠真正勝任復(fù)雜科學(xué)任務(wù)之前,我們需要保持謹(jǐn)慎的態(tài)度。特別是在那些AI生成的代碼能夠運(yùn)行但結(jié)果可能存在subtle錯(cuò)誤的情況下,過度依賴AI可能會(huì)導(dǎo)致錯(cuò)誤的科學(xué)結(jié)論。因此,建立完善的驗(yàn)證機(jī)制和保持人類專家的監(jiān)督仍然至關(guān)重要。
這項(xiàng)研究不僅為AI研究社區(qū)提供了一個(gè)新的評(píng)估工具,也為思考AI在科學(xué)發(fā)現(xiàn)中的角色提供了重要參考。正如研究團(tuán)隊(duì)所指出的,真正的科學(xué)進(jìn)步往往需要?jiǎng)?chuàng)造性思維、直覺洞察和批判性思考,而這些能力仍然是人類智慧的獨(dú)特優(yōu)勢(shì)。AI系統(tǒng)最有可能發(fā)揮作用的是作為增強(qiáng)人類研究能力的工具,而不是完全替代人類研究者。
Q&A
Q1:REXBENCH是什么?它能測(cè)試什么? A:REXBENCH是由波士頓大學(xué)團(tuán)隊(duì)開發(fā)的AI研究擴(kuò)展能力評(píng)估基準(zhǔn),專門測(cè)試AI代碼智能體是否能夠獨(dú)立在現(xiàn)有科學(xué)研究基礎(chǔ)上進(jìn)行有意義的擴(kuò)展。它包含12個(gè)基于真實(shí)已發(fā)表論文的研究擴(kuò)展任務(wù),涵蓋機(jī)器學(xué)習(xí)、自然語言處理等多個(gè)領(lǐng)域,能夠全面評(píng)估AI在理解研究?jī)?nèi)容、分析代碼結(jié)構(gòu)、實(shí)施技術(shù)改進(jìn)等方面的能力。
Q2:當(dāng)前最先進(jìn)的AI智能體在科學(xué)研究擴(kuò)展方面表現(xiàn)如何? A:表現(xiàn)遠(yuǎn)低于預(yù)期。即使是最好的AI智能體組合(如OpenHands + Claude 3.7 Sonnet),成功率也只有25%左右,意味著四分之三的任務(wù)無法成功完成。更令人擔(dān)憂的是,一些頂尖模型如OpenAI o1和DeepSeek R1的成功率幾乎為零。這表明當(dāng)前AI在處理需要深度理解和復(fù)雜推理的科學(xué)任務(wù)時(shí)存在顯著局限。
Q3:AI智能體在科學(xué)研究中失敗的主要原因是什么? A:主要有兩類問題:顯性錯(cuò)誤包括代碼語法錯(cuò)誤、執(zhí)行失敗或完全沒有生成代碼修改;隱性錯(cuò)誤更危險(xiǎn),指代碼能正常運(yùn)行但結(jié)果不正確,這類錯(cuò)誤難以發(fā)現(xiàn)且可能導(dǎo)致錯(cuò)誤的科學(xué)結(jié)論。研究還發(fā)現(xiàn),需要修改的代碼越多,AI成功的可能性越小,且某些模型存在"過度思考"但不產(chǎn)生實(shí)際輸出的問題。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。