av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<cite id="rriui"><rp id="rriui"><form id="rriui"></form></rp></cite>

^{<sub id="rriui"></sub>}

<style id="rriui"></style>

<sub id="rriui"></sub>

<blockquote id="rriui"><p id="rriui"></p></blockquote>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

SWE-rebench：一個(gè)自動(dòng)化軟件工程智能代理評(píng)估的新突破——Nebius團(tuán)隊(duì)打造無(wú)污染數(shù)據(jù)集和評(píng)估體系

軟件工程自動(dòng)化數(shù)據(jù)收集大語(yǔ)言模型評(píng)估

SWE-rebench：一個(gè)自動(dòng)化軟件工程智能代理評(píng)估的新突破——Nebius團(tuán)隊(duì)打造無(wú)污染數(shù)據(jù)集和評(píng)估體系

作者：科技行者

2025-06-02 19:20

分享至：

Nebius團(tuán)隊(duì)開(kāi)發(fā)了SWE-rebench，一個(gè)自動(dòng)化管道用于從GitHub收集軟件工程任務(wù)并進(jìn)行去污染評(píng)估。該系統(tǒng)解決了兩大挑戰(zhàn)：高質(zhì)量訓(xùn)練數(shù)據(jù)稀缺和評(píng)估基準(zhǔn)容易被污染。通過(guò)四階段處理（初步收集、自動(dòng)安裝配置、執(zhí)行驗(yàn)證和質(zhì)量評(píng)估），SWE-rebench構(gòu)建了包含超過(guò)21,000個(gè)Python交互式任務(wù)的數(shù)據(jù)集，并提供持續(xù)更新的評(píng)估基準(zhǔn)。研究發(fā)現(xiàn)部分語(yǔ)言模型在傳統(tǒng)基準(zhǔn)上的表現(xiàn)可能被污染效應(yīng)夸大，而DeepSeek模型在開(kāi)源模型中表現(xiàn)最為穩(wěn)健。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-02 19:20 ? 科技行者

背景介紹與研究團(tuán)隊(duì)

2025年5月26日，由Nebius公司的Ibragim Badertdinov和Alexander Golubev領(lǐng)銜的研究團(tuán)隊(duì)在arXiv上發(fā)布了一篇具有前瞻性的研究論文（arXiv:2505.20411v1）。這支團(tuán)隊(duì)還包括來(lái)自同一機(jī)構(gòu)的Maksim Nekrashevich、Anton Shevtsov、Simon Karasik、Andrei Andriushchenko、Maria Trofimova、Daria Litvintseva和Boris Yangel。這篇論文為軟件工程領(lǐng)域的大語(yǔ)言模型評(píng)估帶來(lái)了一個(gè)全新的自動(dòng)化框架——SWE-rebench。

在當(dāng)今科技快速發(fā)展的時(shí)代，基于大語(yǔ)言模型（LLM）的智能代理在軟件工程領(lǐng)域展現(xiàn)出了令人印象深刻的能力。從代碼生成、調(diào)試到自動(dòng)化開(kāi)發(fā)工作流程，這些智能代理正在逐步改變軟件開(kāi)發(fā)的方式。研究人員們開(kāi)始創(chuàng)建由LLM驅(qū)動(dòng)的代理，這些代理能與真實(shí)代碼庫(kù)和開(kāi)發(fā)環(huán)境交互，執(zhí)行操作并根據(jù)反饋調(diào)整行為。雖然像OpenHands、Moatless Tools和Agentless等依托專(zhuān)有模型的代理在SWE-bench等基準(zhǔn)測(cè)試中表現(xiàn)出色，但開(kāi)源模型在這方面仍有很大的提升空間。

研究面臨的兩大挑戰(zhàn)

想象一下，你是一位教練，想要訓(xùn)練一支優(yōu)秀的足球隊(duì)。你會(huì)面臨兩個(gè)關(guān)鍵問(wèn)題：首先，你需要足夠多樣化的訓(xùn)練素材，讓隊(duì)員能應(yīng)對(duì)各種比賽情況；其次，你需要一個(gè)公平的評(píng)估體系，確保能準(zhǔn)確判斷隊(duì)員的真實(shí)水平，而不是僅僅看他們?cè)谑煜さ挠?xùn)練場(chǎng)上的表現(xiàn)。

Nebius團(tuán)隊(duì)在研究中發(fā)現(xiàn)，軟件工程智能代理的發(fā)展正面臨著類(lèi)似的兩大挑戰(zhàn)：

首先是高質(zhì)量訓(xùn)練數(shù)據(jù)的稀缺。特別是那些能反映真實(shí)世界軟件工程場(chǎng)景的數(shù)據(jù)，在這些場(chǎng)景中，代理需要與開(kāi)發(fā)環(huán)境交互，執(zhí)行代碼并根據(jù)結(jié)果調(diào)整行為?，F(xiàn)有的數(shù)據(jù)集要么局限于一次性代碼生成，要么是小規(guī)模、手動(dòng)整理的交互式任務(wù)集合，缺乏規(guī)模和多樣性。

其次是缺少新鮮的交互式軟件工程任務(wù)來(lái)評(píng)估快速進(jìn)步的模型。靜態(tài)基準(zhǔn)測(cè)試很快就會(huì)因?yàn)槲廴締?wèn)題而過(guò)時(shí)，當(dāng)新模型在訓(xùn)練過(guò)程中可能已經(jīng)接觸過(guò)這些測(cè)試用例，導(dǎo)致評(píng)估結(jié)果被人為抬高。

SWE-rebench：一個(gè)創(chuàng)新的解決方案

為了解決這些限制，研究團(tuán)隊(duì)提出了一個(gè)全新的、自動(dòng)化且可擴(kuò)展的管道，用于從多樣化的GitHub倉(cāng)庫(kù)中持續(xù)提取真實(shí)世界的交互式軟件工程任務(wù)。這就好比建立了一個(gè)自動(dòng)化的足球訓(xùn)練系統(tǒng)，不斷從世界各地的比賽中捕捉各種精彩的戰(zhàn)術(shù)動(dòng)作，并自動(dòng)整理成訓(xùn)練素材。

利用這個(gè)管道，團(tuán)隊(duì)構(gòu)建了SWE-rebench，一個(gè)包含超過(guò)21,000個(gè)基于Python的交互式軟件工程任務(wù)的公共數(shù)據(jù)集，適用于軟件工程代理的大規(guī)模強(qiáng)化學(xué)習(xí)。此外，研究團(tuán)隊(duì)還利用SWE-rebench方法持續(xù)收集的新任務(wù)，構(gòu)建了一個(gè)無(wú)污染的軟件工程代理評(píng)估基準(zhǔn)。

通過(guò)在這個(gè)基準(zhǔn)上比較各種LLM的結(jié)果，并與SWE-bench Verified的結(jié)果進(jìn)行對(duì)比，研究團(tuán)隊(duì)發(fā)現(xiàn)一些語(yǔ)言模型的性能可能因?yàn)槲廴締?wèn)題而被人為夸大。這就像發(fā)現(xiàn)一些隊(duì)員在熟悉的訓(xùn)練場(chǎng)上表現(xiàn)出色，但面對(duì)全新的比賽場(chǎng)地和戰(zhàn)術(shù)時(shí)卻力不從心。

自動(dòng)化管道的工作原理

SWE-rebench的核心是一個(gè)自動(dòng)化管道，能夠大規(guī)模地收集、處理和驗(yàn)證軟件工程任務(wù)。想象這個(gè)管道像一條智能生產(chǎn)線，從原料（GitHub數(shù)據(jù)）到成品（可驗(yàn)證的軟件工程任務(wù)）全程自動(dòng)化。這個(gè)管道包括四個(gè)關(guān)鍵階段：

第一階段是初步任務(wù)收集。系統(tǒng)從GitHub Archive和GitHub上下載原始數(shù)據(jù)，包括問(wèn)題描述、討論、關(guān)聯(lián)的拉取請(qǐng)求等信息。它會(huì)將問(wèn)題與解決它們的拉取請(qǐng)求鏈接起來(lái)，并應(yīng)用一系列過(guò)濾器選擇符合條件的實(shí)例。例如，問(wèn)題必須來(lái)自許可證寬松的Python倉(cāng)庫(kù)、已標(biāo)記為已解決、相關(guān)PR必須合并到主分支等。這個(gè)階段就像是在世界各地的足球比賽中初步篩選出那些包含精彩戰(zhàn)術(shù)配合的片段。

第二階段是自動(dòng)化安裝指令配置。傳統(tǒng)方法如SWE-bench或SWE-Gym依賴(lài)手動(dòng)整理來(lái)配置每個(gè)倉(cāng)庫(kù)的可執(zhí)行環(huán)境，這種方法固有地限制了可擴(kuò)展性。而SWE-rebench則采用了一種完全自動(dòng)化的方法，使用大語(yǔ)言模型來(lái)生成候選環(huán)境設(shè)置指令。這就像有一個(gè)AI助手，能自動(dòng)理解每個(gè)足球訓(xùn)練素材需要的場(chǎng)地設(shè)置和器材準(zhǔn)備。

第三階段是基于執(zhí)行的安裝驗(yàn)證。為了確認(rèn)任務(wù)的可解決性和提供的測(cè)試的完整性，系統(tǒng)會(huì)在容器中安裝每個(gè)任務(wù)的環(huán)境，并執(zhí)行拉取請(qǐng)求的測(cè)試補(bǔ)丁。它會(huì)解析測(cè)試運(yùn)行輸出，確保：1）應(yīng)用解決方案補(bǔ)丁前，至少有一個(gè)測(cè)試失?。?）應(yīng)用解決方案補(bǔ)丁后，所有最初失敗的測(cè)試都通過(guò)；3）最初通過(guò)的測(cè)試在應(yīng)用解決方案補(bǔ)丁后仍然通過(guò)。這就像在實(shí)際訓(xùn)練前驗(yàn)證每個(gè)訓(xùn)練素材的有效性和挑戰(zhàn)性。

第四階段是自動(dòng)化實(shí)例質(zhì)量評(píng)估。為了有效用于強(qiáng)化學(xué)習(xí)，收集的任務(wù)應(yīng)該具備某些特性，否則RL代理可能會(huì)生成看似失敗但實(shí)際上是由于任務(wù)不完善導(dǎo)致的軌跡。團(tuán)隊(duì)微調(diào)了一個(gè)指令跟隨模型，使用來(lái)自SWE-bench Verified的人工注釋來(lái)預(yù)測(cè)：?jiǎn)栴}清晰度（GitHub問(wèn)題描述是否足夠詳細(xì)）、任務(wù)復(fù)雜性（解決問(wèn)題的預(yù)估工作量）、測(cè)試補(bǔ)丁正確性（拉取請(qǐng)求中的測(cè)試是否準(zhǔn)確驗(yàn)證了預(yù)期的修復(fù)）。這就像有一個(gè)專(zhuān)家教練團(tuán)隊(duì)，能夠評(píng)估每個(gè)訓(xùn)練素材的質(zhì)量、難度和教學(xué)價(jià)值。

SWE-rebench數(shù)據(jù)集的特點(diǎn)

通過(guò)這個(gè)四階段管道，研究團(tuán)隊(duì)自動(dòng)收集和處理了交互式軟件工程任務(wù)，產(chǎn)生了SWE-rebench數(shù)據(jù)集，其中包含21,336個(gè)帶注釋的任務(wù)實(shí)例。這個(gè)數(shù)據(jù)集公開(kāi)發(fā)布在Hugging Face Datasets上，任何人都可以訪問(wèn)。配套代碼，包括任務(wù)評(píng)估腳本，也在GitHub上提供。

SWE-rebench數(shù)據(jù)集的一個(gè)任務(wù)實(shí)例包含了問(wèn)題描述、代碼更改（補(bǔ)丁和測(cè)試補(bǔ)?。┮约跋嚓P(guān)元數(shù)據(jù)，包括LLM生成的質(zhì)量評(píng)分和安裝配置。這些豐富的信息使得研究人員和開(kāi)發(fā)者能夠根據(jù)特定需求篩選和選擇任務(wù)實(shí)例。

SWE-rebench評(píng)估基準(zhǔn)

除了提供大規(guī)模數(shù)據(jù)集外，研究團(tuán)隊(duì)還利用自動(dòng)化管道構(gòu)建了SWE-rebench評(píng)估基準(zhǔn)。這個(gè)基準(zhǔn)由294個(gè)來(lái)自169個(gè)不同倉(cāng)庫(kù)的可執(zhí)行任務(wù)組成，是經(jīng)過(guò)篩選的SWE-rebench數(shù)據(jù)集的一部分。

研究團(tuán)隊(duì)發(fā)現(xiàn)，現(xiàn)有的軟件工程代理評(píng)估面臨幾個(gè)關(guān)鍵挑戰(zhàn)：潛在的數(shù)據(jù)污染、由于腳手架變異導(dǎo)致的結(jié)果不可比、缺乏標(biāo)準(zhǔn)化和可驗(yàn)證的評(píng)估、以及代理性能在多次運(yùn)行中的高變異性。

為了解決這些挑戰(zhàn)，SWE-rebench評(píng)估基準(zhǔn)設(shè)計(jì)基于幾個(gè)核心原則：

首先是集中化和標(biāo)準(zhǔn)化的評(píng)估框架。所有在SWE-rebench上的評(píng)估都由研究團(tuán)隊(duì)使用固定的腳手架進(jìn)行，即每個(gè)模型都使用相同的最小ReAct風(fēng)格代理框架、相同的提示和默認(rèn)生成超參數(shù)。這就像在完全相同的比賽條件下測(cè)試不同的足球隊(duì)，確保比較的公平性。

其次是持續(xù)數(shù)據(jù)集更新和去污染。SWE-rebench使用自動(dòng)化管道持續(xù)提供新鮮任務(wù)。由于系統(tǒng)精確跟蹤問(wèn)題及其對(duì)應(yīng)拉取請(qǐng)求的創(chuàng)建日期與模型發(fā)布日期，可以明確標(biāo)記潛在被污染的評(píng)估，這些評(píng)估包括在模型發(fā)布日期之前創(chuàng)建的問(wèn)題。這些評(píng)估在排行榜上被明確標(biāo)記，以確保關(guān)于可能數(shù)據(jù)泄漏的透明度。

第三是考慮代理行為的隨機(jī)性。為了捕捉性能變異性，研究團(tuán)隊(duì)在完整基準(zhǔn)上運(yùn)行每個(gè)模型五次。他們額外報(bào)告平均值的標(biāo)準(zhǔn)誤差(SEM)和pass@5指標(biāo)，提供對(duì)每個(gè)模型性能的統(tǒng)計(jì)基礎(chǔ)和更可靠的評(píng)估。

研究結(jié)果分析

研究團(tuán)隊(duì)利用SWE-rebench的去污染特性，分析了不同時(shí)間窗口任務(wù)上的性能趨勢(shì)，并識(shí)別先前基準(zhǔn)中潛在的污染效應(yīng)。具體來(lái)說(shuō)，他們?cè)u(píng)估了模型在兩個(gè)不同時(shí)間子集的任務(wù)上的表現(xiàn)：2025年1月創(chuàng)建的任務(wù)和2025年3月至4月創(chuàng)建的任務(wù)。

研究結(jié)果顯示了幾個(gè)值得注意的觀察：

GPT-4.1是唯一一個(gè)在3月至4月子集上性能明顯下降的模型，相比于1月子集。這可能表明這個(gè)模型對(duì)某些特定類(lèi)型的任務(wù)更敏感，或者在處理更新、更復(fù)雜的軟件工程問(wèn)題時(shí)面臨挑戰(zhàn)。

LLaMa-4-Maverick表現(xiàn)出相對(duì)于具有類(lèi)似平均解決率的模型更高的pass@5分?jǐn)?shù)，但解決率相對(duì)適中。這表明該模型可以產(chǎn)生正確的解決方案來(lái)解決更復(fù)雜的問(wèn)題，但在多次運(yùn)行中缺乏一致性，展示了高潛力但執(zhí)行不一致。

Qwen2.5-Coder-32B-Instruct表現(xiàn)不如預(yù)期，特別是考慮到其強(qiáng)大的代碼生成能力。分析其軌跡顯示了指令遵循問(wèn)題；模型經(jīng)?；孟氕h(huán)境響應(yīng)或陷入格式錯(cuò)誤循環(huán)，最終在沒(méi)有產(chǎn)生有意義的解決方案嘗試的情況下失敗。

Qwen3模型在啟用或不啟用思考模式的情況下表現(xiàn)相似——在某些情況下，非思考變體甚至略微超過(guò)思考版本。這表明基礎(chǔ)模型的能力足夠強(qiáng)，以至于刻意規(guī)劃并不能提供可測(cè)量的優(yōu)勢(shì)。幾乎相同的pass@5分?jǐn)?shù)進(jìn)一步表明，即使沒(méi)有明確的推理機(jī)制，模型的問(wèn)題解決效率仍然保持一致。

DeepSeek模型在SWE-rebench兩個(gè)子集和SWE-bench Verified基準(zhǔn)上都展示了開(kāi)源模型中最強(qiáng)的性能。值得注意的是，DeepSeek-V3的12月和3月版本在解決率和pass@5方面始終優(yōu)于其他開(kāi)放模型，突顯了它們對(duì)任務(wù)分布變化的穩(wěn)健性。

研究局限性與未來(lái)工作

盡管SWE-rebench自動(dòng)化管道和由此產(chǎn)生的數(shù)據(jù)集旨在解決大規(guī)模、真實(shí)世界任務(wù)缺乏和去污染基準(zhǔn)的需求，但研究團(tuán)隊(duì)也坦誠(chéng)地指出了幾個(gè)局限性：

首先是自動(dòng)化任務(wù)質(zhì)量評(píng)估的局限。雖然他們采用了自動(dòng)化質(zhì)量評(píng)估，但完全自動(dòng)化的管道可能導(dǎo)致一些任務(wù)描述不完善或僅憑問(wèn)題無(wú)法解決。這可能導(dǎo)致與手動(dòng)整理的基準(zhǔn)相比，絕對(duì)成功率較低。

其次是有限的語(yǔ)言多樣性。SWE-rebench的初始版本及其底層數(shù)據(jù)集專(zhuān)注于基于Python的任務(wù)。從根本上說(shuō)，他們的管道是與語(yǔ)言無(wú)關(guān)的，可以擴(kuò)展到包含使用其他編程語(yǔ)言的項(xiàng)目的任務(wù)。

對(duì)于未來(lái)的工作，研究團(tuán)隊(duì)計(jì)劃集中在幾個(gè)關(guān)鍵領(lǐng)域：

擴(kuò)大數(shù)據(jù)覆蓋范圍和數(shù)量。他們的目標(biāo)是通過(guò)將收集方法從嚴(yán)格與GitHub問(wèn)題相關(guān)的任務(wù)擴(kuò)展到更廣泛的代碼更改集，顯著增加數(shù)據(jù)集的數(shù)量。

改進(jìn)任務(wù)過(guò)濾管道。為了提高提取任務(wù)的整體質(zhì)量，他們計(jì)劃改進(jìn)在管道中使用的過(guò)濾啟發(fā)式方法。

支持新的編程語(yǔ)言。應(yīng)用相同的核心方法，他們計(jì)劃為其他流行語(yǔ)言（如JavaScript、Java、C++）收集數(shù)據(jù)集，從而擴(kuò)展SWE-rebench的語(yǔ)言和技術(shù)多樣性。

保持SWE-rebench基準(zhǔn)的最新性。維護(hù)對(duì)現(xiàn)有模型的評(píng)估過(guò)程，評(píng)估更廣泛的LLM，并與社區(qū)分享詳細(xì)的性能分析。

結(jié)論與影響

歸根結(jié)底，Nebius團(tuán)隊(duì)引入的這個(gè)自動(dòng)化數(shù)據(jù)收集管道和SWE-rebench基準(zhǔn)為開(kāi)發(fā)和評(píng)估下一代LLM基礎(chǔ)的代理提供了一個(gè)至關(guān)重要的基礎(chǔ)，這些代理能夠應(yīng)對(duì)真實(shí)世界的軟件工程挑戰(zhàn)。

想象一下，這就像是為足球教練們提供了一個(gè)自動(dòng)化系統(tǒng)，不斷從世界各地的比賽中收集新的戰(zhàn)術(shù)動(dòng)作和訓(xùn)練素材，同時(shí)確保在全新、未見(jiàn)過(guò)的比賽場(chǎng)景中公平評(píng)估球員的能力。這樣的系統(tǒng)不僅能加速球隊(duì)的進(jìn)步，還能確保我們對(duì)球員能力的評(píng)估是真實(shí)可靠的。

對(duì)于軟件開(kāi)發(fā)領(lǐng)域，SWE-rebench的出現(xiàn)意味著我們能夠開(kāi)發(fā)出更加強(qiáng)大、更加適應(yīng)實(shí)際開(kāi)發(fā)環(huán)境的AI助手，它們能夠理解復(fù)雜的代碼庫(kù)，解決真實(shí)的軟件問(wèn)題，并在開(kāi)發(fā)過(guò)程中提供有價(jià)值的幫助。這不僅能提高開(kāi)發(fā)效率，還能降低軟件bug的發(fā)生率，最終為用戶(hù)提供更加可靠、高質(zhì)量的軟件產(chǎn)品。

對(duì)于想深入了解這項(xiàng)研究的讀者，可以在Hugging Face Datasets上訪問(wèn)SWE-rebench數(shù)據(jù)集，或者通過(guò)arXiv:2505.20411v1查閱完整的研究論文。這項(xiàng)創(chuàng)新工作無(wú)疑將推動(dòng)軟件工程AI助手的快速發(fā)展，為編程世界帶來(lái)更多可能性。

軟件工程自動(dòng)化數(shù)據(jù)收集大語(yǔ)言模型評(píng)估

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

自對(duì)弈訓(xùn)練
推理能力提升
零和游戲?qū)W習(xí)

2025-07-02 14:26

AI玩游戲能讓推理變聰明？新加坡國(guó)立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架，通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示，僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%，通用推理提升8.4%，且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中，為AI訓(xùn)練提供了新思路。
計(jì)算機(jī)視覺(jué)
圖像降噪
3D相機(jī)技術(shù)

2025-07-02 14:26

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息，創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系，結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法，在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升，并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力，為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
人工智能
視覺(jué)語(yǔ)言模型
強(qiáng)化學(xué)習(xí)

2025-07-02 14:26

AI視覺(jué)推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn)，經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象，但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距"，即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力，且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息，為AI多模態(tài)推理發(fā)展提供了重要啟示。
大語(yǔ)言模型
稀疏性訓(xùn)練
計(jì)算效率優(yōu)化

2025-07-02 14:25

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù)，通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍，計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分，在保持模型性能的同時(shí)顯著提升訓(xùn)練效率，已在多個(gè)任務(wù)上驗(yàn)證有效性。

AI玩游戲能讓推理變聰明？新加坡國(guó)立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

AI玩游戲能讓推理變聰明？新加坡國(guó)立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

2025-07-02 14:26

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

2025-07-02 14:26

AI視覺(jué)推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

AI視覺(jué)推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

2025-07-02 14:26

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

2025-07-02 14:25

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專(zhuān)線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專(zhuān)區(qū)：https://www.12377.cn

<sub id="nxngz"><p id="nxngz"></p></sub><blockquote id="nxngz"><i id="nxngz"><video id="nxngz"></video></i></blockquote>

<sub id="nxngz"></sub>