這項(xiàng)由Meta公司的Bingchen Zhao、Despoina Magka、Minqi Jiang等眾多研究人員與愛(ài)丁堡大學(xué)合作完成的研究發(fā)表于2025年6月,論文編號(hào)為arXiv:2506.22419v1。有興趣深入了解的讀者可以通過(guò)https://github.com/facebookresearch/llm-speedrunner訪(fǎng)問(wèn)完整的研究代碼和詳細(xì)內(nèi)容。
人工智能正在悄悄改變我們的生活,從語(yǔ)音助手到自動(dòng)駕駛,AI的觸角已經(jīng)延伸到各個(gè)角落。但有一個(gè)問(wèn)題始終讓科學(xué)家們感到困擾:AI能否成為真正的科學(xué)家,獨(dú)立進(jìn)行研究并重現(xiàn)已有的科學(xué)發(fā)現(xiàn)?這就像問(wèn)一個(gè)學(xué)生能否不僅學(xué)會(huì)解題,還能自己發(fā)現(xiàn)新的解題方法一樣。
Meta的研究團(tuán)隊(duì)決定用一個(gè)非常巧妙的方法來(lái)測(cè)試這個(gè)問(wèn)題。他們選擇了一個(gè)叫做"NanoGPT訓(xùn)練加速競(jìng)賽"的真實(shí)案例作為試驗(yàn)場(chǎng)。這個(gè)競(jìng)賽就像是程序員們的馬拉松比賽,參賽者們要想辦法讓一個(gè)叫GPT-2的AI模型訓(xùn)練得更快。從2024年6月開(kāi)始,這個(gè)社區(qū)驅(qū)動(dòng)的競(jìng)賽已經(jīng)將訓(xùn)練時(shí)間從最初的45分鐘壓縮到了不到3分鐘,這簡(jiǎn)直就像把一道需要煮45分鐘的菜壓縮到3分鐘內(nèi)完成,而且味道還要保持一樣好。
這些改進(jìn)可不是簡(jiǎn)單的調(diào)整參數(shù)那么容易。參賽者們發(fā)明了各種創(chuàng)新技術(shù),比如著名的Muon優(yōu)化器,這就像是發(fā)明了一種新的烹飪方法,不僅能用在這道菜上,還能推廣到其他大型菜譜中。研究團(tuán)隊(duì)將這些連續(xù)的改進(jìn)記錄變成了一個(gè)獨(dú)特的測(cè)試平臺(tái),用來(lái)檢驗(yàn)AI代理能否像人類(lèi)研究者一樣,根據(jù)提示重現(xiàn)這些突破性的發(fā)現(xiàn)。
這個(gè)研究的意義遠(yuǎn)不止于技術(shù)層面??茖W(xué)進(jìn)步的核心在于結(jié)果的可重現(xiàn)性,就像一個(gè)好的食譜應(yīng)該能被不同的廚師按照同樣的步驟做出同樣美味的菜肴。如果AI代理能夠成功重現(xiàn)科學(xué)發(fā)現(xiàn),這就意味著我們向自動(dòng)化科學(xué)研究邁出了關(guān)鍵一步。但如果它們連已知的發(fā)現(xiàn)都無(wú)法重現(xiàn),那么談?wù)揂I進(jìn)行原創(chuàng)性研究就還為時(shí)過(guò)早。
然而,研究結(jié)果卻讓人有些意外。即使是最先進(jìn)的AI模型,比如o3-mini和DeepSeek-R1,在配備了最好的搜索框架后,也很難成功重現(xiàn)這些已知的創(chuàng)新。即便研究人員給這些AI提供了詳細(xì)的提示和說(shuō)明,它們平均也只能恢復(fù)大約20-40%的性能提升效果。這就像給一個(gè)廚師提供了詳細(xì)的食譜,但做出來(lái)的菜只有原版一半的味道。
**一、從競(jìng)賽到科學(xué)測(cè)試平臺(tái)**
NanoGPT訓(xùn)練加速競(jìng)賽本身就是一個(gè)精彩的故事。這個(gè)競(jìng)賽基于Andrej Karpathy創(chuàng)建的NanoGPT項(xiàng)目,目標(biāo)很簡(jiǎn)單:在單個(gè)8×H100節(jié)點(diǎn)上訓(xùn)練GPT-2模型,讓驗(yàn)證損失達(dá)到3.28的目標(biāo)值,但要用最短的時(shí)間。這就像是要求參賽者用同樣的食材和廚具,但要在最短時(shí)間內(nèi)做出合格的菜肴。
競(jìng)賽的規(guī)則很明確。所有參賽者都使用FineWeb數(shù)據(jù)集進(jìn)行訓(xùn)練,硬件配置完全相同,唯一的變量就是訓(xùn)練代碼的優(yōu)化程度。這種設(shè)置確保了公平性,就像所有運(yùn)動(dòng)員在同一條跑道上比賽一樣。
從2024年6月到2025年5月,這個(gè)競(jìng)賽產(chǎn)生了21個(gè)連續(xù)的記錄突破。每個(gè)新記錄都代表著一個(gè)具體的技術(shù)創(chuàng)新,從算法改進(jìn)到硬件優(yōu)化應(yīng)有盡有。第一個(gè)重大突破是引入了旋轉(zhuǎn)位置嵌入和調(diào)整學(xué)習(xí)率,將訓(xùn)練時(shí)間從45分鐘縮短到31.4分鐘。接下來(lái)是Muon優(yōu)化器的發(fā)明,這個(gè)創(chuàng)新不僅在這個(gè)小規(guī)模模型上有效,后來(lái)還被證明對(duì)大型現(xiàn)代語(yǔ)言模型同樣有益。
更有趣的是,這些改進(jìn)涵蓋了機(jī)器學(xué)習(xí)的各個(gè)方面。有些改進(jìn)專(zhuān)注于模型架構(gòu),比如引入U(xiǎn)-net模式的跳躍連接。有些則關(guān)注數(shù)據(jù)類(lèi)型優(yōu)化,比如使用bfloat16激活函數(shù)或FP8頭部。還有一些改進(jìn)涉及注意力機(jī)制的創(chuàng)新,比如從傳統(tǒng)的密集因果注意力轉(zhuǎn)向64K上下文的FlexAttention。
研究團(tuán)隊(duì)將這些連續(xù)改進(jìn)轉(zhuǎn)化為一個(gè)系統(tǒng)化的測(cè)試基準(zhǔn)。每個(gè)任務(wù)都要求AI代理從前一個(gè)記錄的代碼開(kāi)始,根據(jù)提供的提示,重現(xiàn)下一個(gè)記錄的性能提升。這就像是要求一個(gè)學(xué)生看著昨天的作業(yè),根據(jù)老師的提示,完成今天更進(jìn)一步的作業(yè)。
**二、為AI代理設(shè)計(jì)的挑戰(zhàn)系統(tǒng)**
為了公平測(cè)試AI代理的能力,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)精巧的提示系統(tǒng)。他們?yōu)槊總€(gè)改進(jìn)創(chuàng)建了三個(gè)不同級(jí)別的提示,就像給學(xué)生提供不同詳細(xì)程度的學(xué)習(xí)材料。
第一級(jí)提示是偽代碼形式,就像給廚師提供一個(gè)簡(jiǎn)化的食譜大綱。比如對(duì)于旋轉(zhuǎn)位置嵌入的改進(jìn),偽代碼提示會(huì)說(shuō)明需要實(shí)現(xiàn)一個(gè)旋轉(zhuǎn)位置嵌入類(lèi),預(yù)計(jì)算逆頻率,然后在注意力機(jī)制中應(yīng)用這些嵌入。這種提示給出了大致的實(shí)現(xiàn)思路,但需要AI代理自己填補(bǔ)具體的實(shí)現(xiàn)細(xì)節(jié)。
第二級(jí)提示是自然語(yǔ)言描述,更像是詳細(xì)的烹飪說(shuō)明。它會(huì)解釋為什么要做這個(gè)改變,預(yù)期的效果是什么,以及如何與現(xiàn)有代碼集成。對(duì)于同樣的旋轉(zhuǎn)位置嵌入改進(jìn),這種提示會(huì)解釋這種方法如何改善位置感知,為什么比傳統(tǒng)的位置嵌入更有效,以及實(shí)現(xiàn)時(shí)需要注意的技術(shù)挑戰(zhàn)。
第三級(jí)提示則是迷你論文格式,就像給出了完整的研究報(bào)告。這種提示不僅包含了前兩級(jí)的所有信息,還提供了理論背景、實(shí)現(xiàn)細(xì)節(jié)和預(yù)期的性能影響。它幾乎就像是一個(gè)完整的技術(shù)文檔,告訴AI代理從理論到實(shí)踐的每一個(gè)步驟。
除了這三個(gè)基礎(chǔ)級(jí)別,研究團(tuán)隊(duì)還測(cè)試了組合提示的效果。他們發(fā)現(xiàn),有時(shí)候給AI代理提供更多信息并不總是更好。這就像有些學(xué)生在面對(duì)過(guò)于詳細(xì)的說(shuō)明時(shí)反而會(huì)感到困惑一樣。
為了確保測(cè)試的公正性,研究團(tuán)隊(duì)還開(kāi)發(fā)了一個(gè)復(fù)雜的搜索框架。這個(gè)框架允許AI代理不僅僅嘗試一次,而是可以進(jìn)行多次迭代改進(jìn)。每次嘗試后,代理會(huì)得到關(guān)于代碼執(zhí)行結(jié)果的反饋,然后可以基于這個(gè)反饋進(jìn)行調(diào)整。這就像允許廚師品嘗正在制作的菜肴,然后根據(jù)味道調(diào)整調(diào)料一樣。
搜索框架包含了五種不同的策略。最簡(jiǎn)單的是"平鋪"方法,就是簡(jiǎn)單地嘗試多個(gè)不同的解決方案,然后選擇最好的。更復(fù)雜的方法包括樹(shù)狀搜索和森林搜索,這些方法允許代理在成功的解決方案基礎(chǔ)上進(jìn)一步改進(jìn)。最先進(jìn)的方法是Multi-AIDE,它結(jié)合了迭代改進(jìn)和調(diào)試功能,就像有一個(gè)AI助手可以不斷優(yōu)化和修復(fù)代碼一樣。
**三、測(cè)試結(jié)果揭示的現(xiàn)實(shí)**
當(dāng)研究團(tuán)隊(duì)將最先進(jìn)的AI模型放到這個(gè)測(cè)試平臺(tái)上時(shí),結(jié)果相當(dāng)令人意外。即使是表現(xiàn)最好的模型組合——o3-mini配合Multi-AIDE搜索框架,在獲得最詳細(xì)提示的情況下,平均也只能恢復(fù)大約46%的預(yù)期性能提升。這就像是給了一個(gè)優(yōu)秀的廚師完整的食譜和所有工具,但做出來(lái)的菜只有原版一半的味道。
更令人驚訝的是,不同類(lèi)型的提示對(duì)不同模型的效果差異很大。對(duì)于o3-mini這樣的模型,偽代碼提示往往比詳細(xì)的文本描述更有效。這可能是因?yàn)檫^(guò)于詳細(xì)的信息反而會(huì)讓模型感到困惑,就像有些人在面對(duì)過(guò)于復(fù)雜的說(shuō)明書(shū)時(shí)反而不知所措一樣。
相比之下,開(kāi)源模型如DeepSeek-R1的表現(xiàn)更加有趣。當(dāng)沒(méi)有提示時(shí),這些模型的表現(xiàn)還算可以,但當(dāng)給出詳細(xì)提示后,它們的表現(xiàn)反而下降了。這就像是一個(gè)廚師在沒(méi)有食譜時(shí)能做出還不錯(cuò)的菜,但看了食譜后反而做砸了。研究人員推測(cè),這可能是因?yàn)檫@些模型試圖實(shí)現(xiàn)提示中描述的復(fù)雜改動(dòng)時(shí),引入了更多的錯(cuò)誤。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的模式:后期的記錄比早期的記錄更難重現(xiàn)。隨著競(jìng)賽的進(jìn)行,每個(gè)新的改進(jìn)都變得更加精妙和復(fù)雜,這使得AI代理更難理解和實(shí)現(xiàn)這些改進(jìn)。這就像是隨著烹飪技術(shù)的進(jìn)步,新的食譜變得越來(lái)越需要精確的技巧和經(jīng)驗(yàn)。
為了更深入地理解AI代理的表現(xiàn),研究團(tuán)隊(duì)還分析了它們的搜索行為。他們發(fā)現(xiàn),平鋪搜索(簡(jiǎn)單地嘗試多個(gè)方案)往往會(huì)產(chǎn)生更多有問(wèn)題的代碼,但偶爾也能產(chǎn)生出色的解決方案。相比之下,更復(fù)雜的搜索方法雖然產(chǎn)生的錯(cuò)誤代碼較少,但也很少能產(chǎn)生真正優(yōu)秀的解決方案。
**四、代碼相似性的深度分析**
僅僅看性能數(shù)字還不夠,研究團(tuán)隊(duì)還想知道AI代理生成的代碼在多大程度上真正復(fù)制了人類(lèi)的創(chuàng)新思路。他們使用了兩種方法來(lái)評(píng)估代碼相似性:自動(dòng)化的嵌入向量比較和人工智能判官評(píng)估。
嵌入向量比較就像是用數(shù)學(xué)方法測(cè)量?jī)善恼碌南嗨贫?。研究團(tuán)隊(duì)使用專(zhuān)門(mén)的代碼嵌入模型來(lái)計(jì)算AI生成的代碼與目標(biāo)代碼之間的距離。有趣的是,他們發(fā)現(xiàn)代碼相似性和性能提升之間存在一定的相關(guān)性,但這種相關(guān)性并不完美。這意味著有時(shí)候AI代理可能用完全不同的方法達(dá)到了類(lèi)似的性能提升,就像兩個(gè)廚師用不同的烹飪技巧做出了同樣美味的菜肴。
更有趣的是AI判官評(píng)估的結(jié)果。研究團(tuán)隊(duì)讓另一個(gè)AI模型來(lái)評(píng)判生成的代碼在多大程度上重現(xiàn)了人類(lèi)專(zhuān)家的改動(dòng)。這個(gè)AI判官會(huì)仔細(xì)比較兩段代碼,然后給出一個(gè)0到1之間的分?jǐn)?shù),表示重現(xiàn)程度。結(jié)果顯示,即使在最好的情況下,AI代理也很少能完全重現(xiàn)人類(lèi)的創(chuàng)新思路。
這種分析揭示了一個(gè)重要的區(qū)別:達(dá)到相似的性能和真正理解創(chuàng)新思路是兩回事。AI代理有時(shí)候能夠通過(guò)不同的路徑達(dá)到相似的結(jié)果,但這并不意味著它們真正掌握了人類(lèi)研究者的創(chuàng)新邏輯。這就像是兩個(gè)學(xué)生都解出了同一道數(shù)學(xué)題,但使用了完全不同的解題方法。
研究團(tuán)隊(duì)還發(fā)現(xiàn),對(duì)于一些特別困難的記錄,幾乎所有的AI代理都表現(xiàn)很差。比如記錄10(引入FlexAttention)對(duì)所有方法和模型來(lái)說(shuō)都是一個(gè)巨大的挑戰(zhàn)。這可能是因?yàn)檫@個(gè)改進(jìn)涉及了相對(duì)較新的技術(shù),而這些技術(shù)可能不在AI模型的訓(xùn)練數(shù)據(jù)中。
**五、累積性研究的更大挑戰(zhàn)**
除了單個(gè)記錄的重現(xiàn),研究團(tuán)隊(duì)還測(cè)試了一個(gè)更具挑戰(zhàn)性的任務(wù):累積性重現(xiàn)。這就像是要求AI代理不僅要學(xué)會(huì)單個(gè)烹飪技巧,還要能夠?qū)⒍鄠€(gè)技巧組合起來(lái),制作越來(lái)越復(fù)雜的菜肴。
在這個(gè)實(shí)驗(yàn)中,AI代理需要從最初的基線(xiàn)代碼開(kāi)始,逐步應(yīng)用每個(gè)改進(jìn),最終達(dá)到后續(xù)記錄的性能。這個(gè)任務(wù)更接近真實(shí)的科學(xué)研究過(guò)程,因?yàn)榭茖W(xué)發(fā)現(xiàn)往往是建立在前人工作基礎(chǔ)上的漸進(jìn)式進(jìn)步。
結(jié)果顯示,累積性重現(xiàn)比單獨(dú)重現(xiàn)個(gè)別記錄要困難得多。最好的AI代理在第一個(gè)改進(jìn)上還能恢復(fù)大約60%的性能提升,但到了第三個(gè)改進(jìn)時(shí),這個(gè)數(shù)字就降到了20%左右。到了第四個(gè)改進(jìn)時(shí),AI代理基本上就無(wú)法產(chǎn)生任何有意義的性能提升了。
這個(gè)結(jié)果特別令人深思,因?yàn)樗砻鰽I代理在處理連續(xù)的、相互依賴(lài)的改進(jìn)時(shí)面臨著更大的挑戰(zhàn)。每個(gè)錯(cuò)誤都會(huì)累積,每個(gè)不完美的實(shí)現(xiàn)都會(huì)影響后續(xù)的改進(jìn)。這就像是在建造一座塔,如果底層有問(wèn)題,上層就會(huì)越來(lái)越不穩(wěn)定。
**六、外部知識(shí)的作用與局限**
研究團(tuán)隊(duì)還進(jìn)行了一個(gè)有趣的實(shí)驗(yàn):當(dāng)AI代理面對(duì)其訓(xùn)練數(shù)據(jù)中可能沒(méi)有的新技術(shù)時(shí)會(huì)發(fā)生什么?他們選擇了FlexAttention這個(gè)記錄進(jìn)行特殊測(cè)試,因?yàn)檫@個(gè)技術(shù)是在2024年8月發(fā)布的,很可能不在大多數(shù)AI模型的訓(xùn)練數(shù)據(jù)中。
研究人員為AI代理提供了關(guān)于FlexAttention的詳細(xì)文檔,包括使用示例和技術(shù)說(shuō)明。按理說(shuō),這應(yīng)該能幫助AI代理更好地實(shí)現(xiàn)這個(gè)改進(jìn)。但結(jié)果卻恰恰相反:提供額外文檔的AI代理表現(xiàn)反而更差了。
這個(gè)發(fā)現(xiàn)很有啟發(fā)性。它表明,即使是最先進(jìn)的AI模型,在處理它們訓(xùn)練時(shí)未見(jiàn)過(guò)的技術(shù)時(shí),也很難有效利用外部知識(shí)。這就像是給一個(gè)從未見(jiàn)過(guò)微波爐的廚師提供微波爐說(shuō)明書(shū),他們可能反而會(huì)把簡(jiǎn)單的任務(wù)搞復(fù)雜。
這個(gè)結(jié)果對(duì)于AI代理在科學(xué)研究中的應(yīng)用有重要意義??茖W(xué)研究的本質(zhì)就是探索未知,創(chuàng)造新的知識(shí)。如果AI代理連利用明確提供的新知識(shí)都有困難,那么它們?cè)诿鎸?duì)真正的未知領(lǐng)域時(shí)會(huì)面臨更大的挑戰(zhàn)。
**七、不同搜索策略的啟示**
研究團(tuán)隊(duì)對(duì)不同搜索策略的分析提供了關(guān)于AI代理行為的有趣見(jiàn)解。他們發(fā)現(xiàn),簡(jiǎn)單的平鋪搜索策略雖然會(huì)產(chǎn)生更多有問(wèn)題的代碼,但也更有可能偶然發(fā)現(xiàn)有效的解決方案。相比之下,更復(fù)雜的搜索策略產(chǎn)生的代碼更穩(wěn)定,但很少能達(dá)到突破性的性能。
這種現(xiàn)象類(lèi)似于探索與利用的權(quán)衡。簡(jiǎn)單的策略更傾向于探索,愿意嘗試各種可能性,即使風(fēng)險(xiǎn)更高。復(fù)雜的策略更傾向于利用已知的安全方法,但也因此限制了發(fā)現(xiàn)突破性解決方案的可能性。
研究團(tuán)隊(duì)還觀察到,不同的AI模型對(duì)調(diào)試步驟的反應(yīng)差異很大。一些模型,特別是開(kāi)源模型,在包含調(diào)試功能的搜索框架中產(chǎn)生了更多有問(wèn)題的代碼。這表明這些模型可能不如商業(yè)模型那樣善于從錯(cuò)誤中學(xué)習(xí)和改進(jìn)。
這些發(fā)現(xiàn)對(duì)于設(shè)計(jì)更好的AI代理搜索策略有重要啟示??赡苄枰獮椴煌?lèi)型的任務(wù)和不同的模型定制不同的搜索策略,而不是使用一種通用的方法。
**八、基準(zhǔn)測(cè)試的獨(dú)特價(jià)值**
Meta團(tuán)隊(duì)創(chuàng)建的這個(gè)基準(zhǔn)測(cè)試在多個(gè)方面都是獨(dú)特的。與其他科學(xué)重現(xiàn)性基準(zhǔn)不同,這個(gè)測(cè)試專(zhuān)注于一個(gè)連貫的研究主題,而不是隨機(jī)選擇的各種研究。這種設(shè)計(jì)使得能夠評(píng)估AI代理在處理相互關(guān)聯(lián)的累積性改進(jìn)時(shí)的能力。
更重要的是,這個(gè)基準(zhǔn)的所有任務(wù)都有明確的成功標(biāo)準(zhǔn):訓(xùn)練時(shí)間的縮短。這與其他可能需要主觀判斷的科學(xué)任務(wù)不同,這里的成功或失敗是可以精確測(cè)量的。同時(shí),所有的改進(jìn)都在相同的硬件配置上運(yùn)行,確保了比較的公平性。
這個(gè)基準(zhǔn)還有一個(gè)獨(dú)特的優(yōu)勢(shì):它基于真實(shí)的、社區(qū)驅(qū)動(dòng)的研究競(jìng)賽。這意味著所有的改進(jìn)都是由真正的研究者在真實(shí)的競(jìng)爭(zhēng)環(huán)境中開(kāi)發(fā)的,而不是為了測(cè)試目的而人為設(shè)計(jì)的。這增加了測(cè)試的真實(shí)性和相關(guān)性。
此外,這個(gè)基準(zhǔn)涵蓋了機(jī)器學(xué)習(xí)的多個(gè)重要方面,從算法創(chuàng)新到硬件優(yōu)化,從數(shù)據(jù)類(lèi)型選擇到注意力機(jī)制設(shè)計(jì)。這種多樣性使得它能夠全面評(píng)估AI代理在不同類(lèi)型的科學(xué)問(wèn)題上的能力。
**九、對(duì)未來(lái)AI研究的啟示**
這項(xiàng)研究的結(jié)果對(duì)AI研究領(lǐng)域提出了一些重要的思考。首先,它表明即使是最先進(jìn)的AI模型,在科學(xué)重現(xiàn)性這個(gè)相對(duì)基礎(chǔ)的任務(wù)上也還有很大的改進(jìn)空間。如果AI代理連重現(xiàn)已知的發(fā)現(xiàn)都有困難,那么讓它們進(jìn)行原創(chuàng)性研究還為時(shí)過(guò)早。
研究結(jié)果也揭示了當(dāng)前AI模型的一些根本性限制。這些模型似乎更擅長(zhǎng)模式匹配和統(tǒng)計(jì)推理,而不是真正的理解和創(chuàng)新。當(dāng)面對(duì)需要深入理解代碼邏輯和算法原理的任務(wù)時(shí),它們的表現(xiàn)明顯下降。
另一個(gè)重要的發(fā)現(xiàn)是,提供更多信息并不總是有幫助的。這表明當(dāng)前的AI模型在信息整合和篩選方面還存在問(wèn)題。在真實(shí)的科學(xué)研究中,研究者需要從大量的相關(guān)和不相關(guān)信息中提取有用的洞察,這對(duì)當(dāng)前的AI模型來(lái)說(shuō)仍然是一個(gè)挑戰(zhàn)。
研究還顯示了累積性學(xué)習(xí)的困難??茖W(xué)研究的本質(zhì)是建立在前人工作基礎(chǔ)上的漸進(jìn)式進(jìn)步,但AI代理在這種累積性任務(wù)上表現(xiàn)不佳。這表明需要開(kāi)發(fā)新的方法來(lái)幫助AI模型更好地處理相互依賴(lài)的任務(wù)序列。
**十、實(shí)際應(yīng)用的前景與限制**
雖然當(dāng)前的結(jié)果顯示AI代理還無(wú)法完全自主進(jìn)行科學(xué)研究,但這并不意味著它們?cè)诳茖W(xué)領(lǐng)域沒(méi)有價(jià)值。這項(xiàng)研究實(shí)際上為AI在科學(xué)研究中的輔助作用提供了有價(jià)值的見(jiàn)解。
AI代理可能更適合作為研究助手,而不是獨(dú)立的研究者。它們可以幫助研究人員快速測(cè)試不同的想法,進(jìn)行初步的代碼實(shí)現(xiàn),或者在研究人員的指導(dǎo)下執(zhí)行具體的實(shí)驗(yàn)步驟。這種人機(jī)協(xié)作的模式可能比完全自主的AI研究更現(xiàn)實(shí)和有效。
研究結(jié)果也表明,為不同類(lèi)型的科學(xué)任務(wù)開(kāi)發(fā)專(zhuān)門(mén)的AI工具可能更有效,而不是期望一個(gè)通用的AI代理能夠處理所有類(lèi)型的科學(xué)問(wèn)題。就像專(zhuān)業(yè)工具在特定領(lǐng)域比通用工具更有效一樣,專(zhuān)門(mén)的科學(xué)AI可能在特定研究領(lǐng)域表現(xiàn)更好。
此外,這個(gè)基準(zhǔn)測(cè)試本身就成為了一個(gè)有價(jià)值的工具,可以用來(lái)評(píng)估未來(lái)AI模型在科學(xué)重現(xiàn)性方面的改進(jìn)。隨著AI技術(shù)的不斷發(fā)展,研究者可以使用這個(gè)基準(zhǔn)來(lái)跟蹤進(jìn)展,識(shí)別需要改進(jìn)的特定能力。
**十一、技術(shù)細(xì)節(jié)的深入探討**
為了確保測(cè)試的嚴(yán)謹(jǐn)性,研究團(tuán)隊(duì)在技術(shù)實(shí)現(xiàn)上做了大量的工作。他們重新運(yùn)行了所有的人類(lèi)記錄,確保在他們的硬件配置上能夠重現(xiàn)相同的性能。這種驗(yàn)證確保了基準(zhǔn)測(cè)試的可靠性,避免了因硬件差異導(dǎo)致的不公平比較。
在評(píng)估指標(biāo)的設(shè)計(jì)上,研究團(tuán)隊(duì)使用了"速度提升恢復(fù)分?jǐn)?shù)"(FSR)這個(gè)精心設(shè)計(jì)的指標(biāo)。這個(gè)指標(biāo)不僅考慮了AI代理達(dá)到的絕對(duì)性能,還考慮了它相對(duì)于目標(biāo)改進(jìn)的相對(duì)表現(xiàn)。這種設(shè)計(jì)使得能夠公平地比較不同難度的改進(jìn)任務(wù)。
研究團(tuán)隊(duì)還開(kāi)發(fā)了復(fù)雜的代碼相似性評(píng)估方法。除了使用專(zhuān)門(mén)的代碼嵌入模型,他們還設(shè)計(jì)了AI判官系統(tǒng)來(lái)評(píng)估代碼變更的語(yǔ)義相似性。這種多維度的評(píng)估方法提供了更全面的性能評(píng)估。
在搜索框架的設(shè)計(jì)上,研究團(tuán)隊(duì)提供了從簡(jiǎn)單到復(fù)雜的多種選擇。這種設(shè)計(jì)使得能夠研究不同搜索策略對(duì)不同類(lèi)型AI模型的影響,為未來(lái)的AI代理設(shè)計(jì)提供了寶貴的經(jīng)驗(yàn)。
說(shuō)到底,這項(xiàng)研究為我們提供了一個(gè)重要的現(xiàn)實(shí)檢驗(yàn)。雖然AI技術(shù)在很多領(lǐng)域都取得了令人矚目的進(jìn)展,但在科學(xué)研究這個(gè)需要深度理解、創(chuàng)新思維和累積性學(xué)習(xí)的領(lǐng)域,它們還有很長(zhǎng)的路要走。這個(gè)發(fā)現(xiàn)既讓人保持謙遜,也為未來(lái)的改進(jìn)指明了方向。
當(dāng)我們談?wù)揂I的未來(lái)時(shí),經(jīng)常會(huì)聽(tīng)到關(guān)于AI科學(xué)家、AI研究者的預(yù)測(cè)。但這項(xiàng)研究提醒我們,真正的科學(xué)研究比我們想象的更復(fù)雜、更微妙。它不僅需要強(qiáng)大的計(jì)算能力和數(shù)據(jù)處理能力,還需要直覺(jué)、創(chuàng)造力和對(duì)復(fù)雜系統(tǒng)的深度理解。
這并不意味著AI在科學(xué)研究中沒(méi)有前途。相反,這項(xiàng)研究為我們提供了一個(gè)清晰的路線(xiàn)圖,告訴我們需要在哪些方面改進(jìn)AI系統(tǒng),才能讓它們成為真正有效的科學(xué)研究助手。無(wú)論是改進(jìn)模型的理解能力,還是開(kāi)發(fā)更好的人機(jī)協(xié)作框架,這些都是值得繼續(xù)探索的方向。
對(duì)于那些希望深入了解這項(xiàng)研究的讀者,完整的研究代碼和數(shù)據(jù)已經(jīng)在GitHub上開(kāi)源,地址是https://github.com/facebookresearch/llm-speedrunner。這種開(kāi)放的態(tài)度本身就體現(xiàn)了科學(xué)研究的精神:通過(guò)分享和協(xié)作來(lái)推動(dòng)整個(gè)領(lǐng)域的進(jìn)步。
Q&A
Q1:什么是NanoGPT訓(xùn)練加速競(jìng)賽?它為什么適合測(cè)試AI研究能力? A:NanoGPT訓(xùn)練加速競(jìng)賽是一個(gè)社區(qū)驅(qū)動(dòng)的編程競(jìng)賽,目標(biāo)是在相同硬件條件下用最短時(shí)間訓(xùn)練GPT-2模型到指定性能。它適合測(cè)試AI研究能力因?yàn)椋焊?jìng)賽產(chǎn)生了21個(gè)連續(xù)的真實(shí)技術(shù)突破,每個(gè)改進(jìn)都有明確的性能提升,且涵蓋了機(jī)器學(xué)習(xí)的多個(gè)重要方面,為AI代理提供了理想的科學(xué)重現(xiàn)性測(cè)試環(huán)境。
Q2:為什么最先進(jìn)的AI模型在重現(xiàn)已知研究成果時(shí)表現(xiàn)不佳? A:主要原因包括幾個(gè)方面:AI模型更擅長(zhǎng)模式匹配而非深度理解,面對(duì)需要算法邏輯理解的任務(wù)時(shí)能力下降;過(guò)多的提示信息反而會(huì)讓模型困惑;累積性任務(wù)中錯(cuò)誤會(huì)疊加放大;對(duì)訓(xùn)練數(shù)據(jù)中未見(jiàn)過(guò)的新技術(shù)難以有效利用外部知識(shí)。這表明當(dāng)前AI在科學(xué)創(chuàng)新思維方面還存在根本性限制。
Q3:這個(gè)研究對(duì)AI在科學(xué)研究中的應(yīng)用有什么啟示? A:研究表明AI更適合作為研究助手而非獨(dú)立研究者,可以在人類(lèi)指導(dǎo)下執(zhí)行具體實(shí)驗(yàn)步驟或快速測(cè)試想法。需要為不同科學(xué)領(lǐng)域開(kāi)發(fā)專(zhuān)門(mén)的AI工具,而非期望通用AI處理所有問(wèn)題。同時(shí)這個(gè)基準(zhǔn)為評(píng)估未來(lái)AI模型的科學(xué)研究能力提供了標(biāo)準(zhǔn)化測(cè)試平臺(tái),有助于跟蹤技術(shù)進(jìn)展。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線(xiàn)性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話(huà)問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。