這項(xiàng)由OpenAI領(lǐng)導(dǎo)的國(guó)際研究團(tuán)隊(duì)發(fā)表于2025年1月的重磅研究,揭示了一個(gè)令人震撼的AI能力新邊界。研究團(tuán)隊(duì)包括來(lái)自O(shè)penAI的Giulio Starace、Oliver Jaffe、Dane Sherburn等十多位頂尖研究者,他們開(kāi)發(fā)了一個(gè)名為PaperBench的評(píng)估系統(tǒng),專門(mén)測(cè)試AI能否像人類研究員一樣,從零開(kāi)始復(fù)現(xiàn)最前沿的機(jī)器學(xué)習(xí)研究。完整論文可通過(guò)arXiv:2504.01848v3訪問(wèn),這項(xiàng)研究標(biāo)志著AI自主研發(fā)能力評(píng)估進(jìn)入了全新時(shí)代。
要理解這項(xiàng)研究的重要性,我們可以這樣想象:如果說(shuō)以前的AI就像一個(gè)只會(huì)背書(shū)的學(xué)生,那么現(xiàn)在研究團(tuán)隊(duì)要測(cè)試的是AI能否成為一個(gè)真正的科學(xué)家——不僅要理解復(fù)雜的研究論文,還要自己動(dòng)手編寫(xiě)代碼,設(shè)計(jì)實(shí)驗(yàn),最終重現(xiàn)出論文中的所有研究成果。這就好比讓一個(gè)從未做過(guò)菜的人,僅憑一本食譜就做出米其林三星級(jí)的大餐,難度可想而知。
研究團(tuán)隊(duì)選擇了20篇2024年國(guó)際機(jī)器學(xué)習(xí)大會(huì)(ICML)上最優(yōu)秀的論文作為測(cè)試材料,這些論文涵蓋了當(dāng)今AI領(lǐng)域最前沿的12個(gè)研究方向,包括深度強(qiáng)化學(xué)習(xí)、模型魯棒性、概率方法等。每篇論文都像一道復(fù)雜的科學(xué)難題,需要AI不僅讀懂理論,還要將理論轉(zhuǎn)化為可執(zhí)行的代碼,并成功運(yùn)行實(shí)驗(yàn)得出結(jié)果。
為了確保評(píng)估的公正性和準(zhǔn)確性,研究團(tuán)隊(duì)做了一件史無(wú)前例的事情:他們邀請(qǐng)每篇論文的原作者親自參與,共同制定詳細(xì)的評(píng)分標(biāo)準(zhǔn)。這就像請(qǐng)?jiān)瓘N師親自制定菜譜的評(píng)判標(biāo)準(zhǔn)一樣,確保每一個(gè)細(xì)節(jié)都不會(huì)被遺漏。最終,他們建立了一個(gè)包含8316個(gè)具體評(píng)估點(diǎn)的龐大評(píng)分體系,每個(gè)評(píng)估點(diǎn)都像考試中的一道小題,綜合起來(lái)就能全面衡量AI的研究復(fù)現(xiàn)能力。
研究團(tuán)隊(duì)測(cè)試了當(dāng)前最先進(jìn)的幾個(gè)AI模型,包括Claude 3.5 Sonnet、OpenAI的o1和o3-mini、DeepSeek-R1等。結(jié)果令人既驚喜又深思:表現(xiàn)最好的Claude 3.5 Sonnet也只達(dá)到了21%的成功率,而即使是強(qiáng)大的o1模型也僅獲得了13.2%的分?jǐn)?shù)。相比之下,人類機(jī)器學(xué)習(xí)博士在相同條件下的表現(xiàn)達(dá)到了41.4%。這個(gè)結(jié)果就像一面鏡子,既照出了AI能力的快速進(jìn)步,也清晰地顯示了與人類專家之間仍然存在的顯著差距。
一、AI研究助手的現(xiàn)實(shí)考驗(yàn):從理論到實(shí)踐的鴻溝
當(dāng)我們討論AI能否成為真正的研究助手時(shí),PaperBench提供了一個(gè)極其嚴(yán)格的測(cè)試標(biāo)準(zhǔn)。這個(gè)評(píng)估系統(tǒng)要求AI完成三個(gè)層次的任務(wù),就像考察一個(gè)研究生的綜合能力一樣。
第一個(gè)層次是代碼開(kāi)發(fā)能力。AI需要根據(jù)論文中的方法描述,從零開(kāi)始編寫(xiě)完整的代碼實(shí)現(xiàn)。這就好比讓一個(gè)程序員僅憑產(chǎn)品說(shuō)明書(shū)就開(kāi)發(fā)出完整的軟件,不僅要理解抽象的算法思想,還要將其轉(zhuǎn)化為可執(zhí)行的代碼。研究團(tuán)隊(duì)發(fā)現(xiàn),這是AI表現(xiàn)相對(duì)較好的環(huán)節(jié),因?yàn)榇a編寫(xiě)本身就是AI的強(qiáng)項(xiàng)之一。
第二個(gè)層次是執(zhí)行能力。有了代碼還不夠,AI還必須能夠成功運(yùn)行這些代碼,處理各種可能出現(xiàn)的錯(cuò)誤和問(wèn)題。這就像廚師不僅要會(huì)看菜譜,還要能實(shí)際操作爐火,掌控火候。研究中,AI需要?jiǎng)?chuàng)建一個(gè)名為reproduce.sh的腳本文件,這個(gè)文件就像一個(gè)自動(dòng)化的實(shí)驗(yàn)室助手,能夠按照正確的步驟執(zhí)行所有實(shí)驗(yàn)。
第三個(gè)層次是結(jié)果匹配。最終的實(shí)驗(yàn)結(jié)果必須與原論文中報(bào)告的結(jié)果基本一致,允許合理的誤差范圍,但整體趨勢(shì)和核心發(fā)現(xiàn)必須相符。這就像重現(xiàn)一個(gè)化學(xué)實(shí)驗(yàn),不僅過(guò)程要正確,最終的化學(xué)反應(yīng)結(jié)果也要與預(yù)期一致。
令人意外的是,研究發(fā)現(xiàn)AI在代碼編寫(xiě)方面表現(xiàn)尚可,但在執(zhí)行和結(jié)果驗(yàn)證方面卻遇到了重大困難。這反映了一個(gè)深層問(wèn)題:AI雖然擅長(zhǎng)生成看起來(lái)合理的代碼,但在處理實(shí)際運(yùn)行中的復(fù)雜問(wèn)題、調(diào)試錯(cuò)誤、優(yōu)化性能等方面,仍然遠(yuǎn)不如人類程序員來(lái)得靈活和有效。
二、評(píng)分系統(tǒng)的精密設(shè)計(jì):像拆解鐘表一樣分析研究
為了公平評(píng)估AI的表現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)極其精細(xì)的評(píng)分系統(tǒng),就像將一臺(tái)復(fù)雜的鐘表拆解成無(wú)數(shù)個(gè)零件,每個(gè)零件都有明確的功能和評(píng)判標(biāo)準(zhǔn)。
這個(gè)評(píng)分系統(tǒng)采用了樹(shù)狀結(jié)構(gòu),從最頂層的"完全復(fù)現(xiàn)論文核心貢獻(xiàn)"開(kāi)始,逐層分解為越來(lái)越具體的子任務(wù)。比如,頂層目標(biāo)可能是"成功復(fù)現(xiàn)論文中的所有實(shí)驗(yàn)",然后分解為"復(fù)現(xiàn)實(shí)驗(yàn)A"、"復(fù)現(xiàn)實(shí)驗(yàn)B"等,每個(gè)實(shí)驗(yàn)又進(jìn)一步分解為"數(shù)據(jù)預(yù)處理"、"模型訓(xùn)練"、"結(jié)果評(píng)估"等具體步驟。最終,這棵評(píng)分樹(shù)包含了8316個(gè)葉子節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)都對(duì)應(yīng)一個(gè)可以明確判斷對(duì)錯(cuò)的具體要求。
評(píng)分系統(tǒng)還引入了權(quán)重機(jī)制,就像考試中不同題目有不同分值一樣。論文的核心貢獻(xiàn)被賦予更高的權(quán)重,而輔助性的實(shí)驗(yàn)或技術(shù)細(xì)節(jié)則權(quán)重較低。這確保了評(píng)分能夠準(zhǔn)確反映AI對(duì)論文最重要部分的理解和實(shí)現(xiàn)能力。
更令人印象深刻的是,每個(gè)評(píng)估節(jié)點(diǎn)都有三種不同的評(píng)判類型。代碼開(kāi)發(fā)類節(jié)點(diǎn)檢查AI是否正確實(shí)現(xiàn)了相關(guān)功能,就像檢查學(xué)生的作業(yè)是否按要求完成。執(zhí)行類節(jié)點(diǎn)驗(yàn)證代碼是否能夠成功運(yùn)行,就像檢查機(jī)器是否能正常工作。結(jié)果匹配類節(jié)點(diǎn)則對(duì)比最終輸出與論文原始結(jié)果的一致性,就像驗(yàn)證實(shí)驗(yàn)是否重現(xiàn)了預(yù)期的科學(xué)發(fā)現(xiàn)。
三、AI評(píng)判員的誕生:讓機(jī)器評(píng)判機(jī)器的表現(xiàn)
面對(duì)如此龐大的評(píng)估任務(wù),人工評(píng)判顯然不現(xiàn)實(shí)。研究團(tuán)隊(duì)估算,僅憑人工評(píng)分一篇論文的復(fù)現(xiàn)嘗試就需要幾十個(gè)小時(shí),這在實(shí)際應(yīng)用中完全不可行。因此,他們開(kāi)發(fā)了一個(gè)AI評(píng)判系統(tǒng),就像訓(xùn)練一個(gè)專業(yè)的考試閱卷老師一樣。
這個(gè)AI評(píng)判員的工作原理相當(dāng)巧妙。對(duì)于每個(gè)具體的評(píng)估點(diǎn),它會(huì)仔細(xì)閱讀原論文、查看AI提交的代碼文件、檢查實(shí)驗(yàn)運(yùn)行日志,然后做出0分或1分的二元判斷。為了確保AI評(píng)判員不會(huì)因?yàn)槲募?shù)量過(guò)多而"消化不良",系統(tǒng)還設(shè)計(jì)了智能文件篩選機(jī)制,優(yōu)先關(guān)注與當(dāng)前評(píng)估點(diǎn)最相關(guān)的代碼文件。
為了驗(yàn)證AI評(píng)判員的可靠性,研究團(tuán)隊(duì)創(chuàng)建了一個(gè)名為JudgeEval的輔助評(píng)估系統(tǒng)。他們邀請(qǐng)人類專家對(duì)部分復(fù)現(xiàn)嘗試進(jìn)行人工評(píng)分,然后將這些"標(biāo)準(zhǔn)答案"與AI評(píng)判員的判斷進(jìn)行對(duì)比。結(jié)果顯示,使用o3-mini模型的AI評(píng)判員達(dá)到了0.83的F1分?jǐn)?shù),這意味著它的判斷與人類專家高度一致,完全可以勝任評(píng)分工作。
更重要的是,AI評(píng)判員的成本控制在每篇論文66美元左右,而人工評(píng)判的成本則高達(dá)數(shù)千美元,效率提升非常顯著。這就像從手工制作轉(zhuǎn)向機(jī)器批量生產(chǎn),在保證質(zhì)量的同時(shí)大幅降低了成本。
四、實(shí)驗(yàn)結(jié)果揭秘:AI的長(zhǎng)板與短板一覽無(wú)余
當(dāng)研究團(tuán)隊(duì)將各種先進(jìn)AI模型投入到PaperBench的嚴(yán)格測(cè)試中時(shí),結(jié)果既令人鼓舞又發(fā)人深省。
Claude 3.5 Sonnet表現(xiàn)最為出色,獲得了21.0%的平均分?jǐn)?shù)。這個(gè)結(jié)果就像一個(gè)學(xué)霸在最難的考試中得了20分(滿分100分),雖然離完美還很遠(yuǎn),但考慮到任務(wù)的超高難度,這已經(jīng)是相當(dāng)了不起的成就。更有趣的是,Claude在代碼編寫(xiě)方面表現(xiàn)尤為突出,平均得分達(dá)到35.4%,顯示出它在理解算法邏輯和轉(zhuǎn)化為代碼方面的強(qiáng)大能力。
OpenAI的o1模型獲得了13.2%的分?jǐn)?shù),雖然總體略低于Claude,但在某些特定任務(wù)上展現(xiàn)出了獨(dú)特的優(yōu)勢(shì)。特別是當(dāng)研究團(tuán)隊(duì)調(diào)整了測(cè)試策略,阻止模型過(guò)早結(jié)束任務(wù)并鼓勵(lì)其充分利用時(shí)間時(shí),o1的表現(xiàn)提升到了24.4%,這說(shuō)明模型的潛力還有很大挖掘空間。
最令人深思的發(fā)現(xiàn)是,所有AI模型都存在一個(gè)共同的問(wèn)題:它們?cè)诖a編寫(xiě)方面相對(duì)較強(qiáng),但在實(shí)際執(zhí)行和結(jié)果驗(yàn)證方面卻表現(xiàn)不佳。這就像一個(gè)理論家能夠設(shè)計(jì)出完美的建筑圖紙,但在實(shí)際施工中卻頻頻遇到問(wèn)題。具體來(lái)說(shuō),AI能夠編寫(xiě)出看似正確的代碼,但往往無(wú)法處理實(shí)際運(yùn)行中的各種意外情況,比如數(shù)據(jù)格式不匹配、內(nèi)存不足、依賴包沖突等實(shí)際問(wèn)題。
與人類表現(xiàn)的對(duì)比更加清晰地展現(xiàn)了差距。研究團(tuán)隊(duì)招募了8名機(jī)器學(xué)習(xí)博士,讓他們?cè)谙嗤瑮l件下嘗試復(fù)現(xiàn)部分論文。結(jié)果顯示,人類專家在48小時(shí)內(nèi)的最佳表現(xiàn)達(dá)到41.4%,幾乎是AI最好成績(jī)的兩倍。更有意思的是,時(shí)間分析顯示,AI在最初幾小時(shí)內(nèi)進(jìn)展神速,能夠快速生成大量代碼,但隨后就陷入停滯,而人類專家則表現(xiàn)出更好的持續(xù)改進(jìn)能力,能夠在長(zhǎng)時(shí)間內(nèi)不斷調(diào)試和優(yōu)化。
五、技術(shù)細(xì)節(jié)深度解析:魔鬼藏在實(shí)施中
PaperBench的技術(shù)實(shí)現(xiàn)充滿了精巧的設(shè)計(jì)細(xì)節(jié),這些細(xì)節(jié)決定了評(píng)估的公平性和準(zhǔn)確性。
在論文選擇方面,研究團(tuán)隊(duì)從2024年ICML會(huì)議的spotlight和oral論文中精心篩選,確保每篇論文都具有足夠的復(fù)現(xiàn)價(jià)值。他們建立了嚴(yán)格的篩選標(biāo)準(zhǔn):論文必須包含實(shí)質(zhì)性的實(shí)驗(yàn)內(nèi)容,不能依賴閉源模型或需要人工數(shù)據(jù)標(biāo)注,硬件需求不能超過(guò)單機(jī)限制,并且必須有足夠的技術(shù)細(xì)節(jié)支持從零重現(xiàn)。這就像挑選適合的考試題目,既要有挑戰(zhàn)性,又要確保在合理?xiàng)l件下可以完成。
為了防止AI"作弊",系統(tǒng)建立了完善的監(jiān)控機(jī)制。每篇論文都有一個(gè)黑名單,包含原作者的代碼倉(cāng)庫(kù)和其他在線復(fù)現(xiàn)資源,AI被嚴(yán)格禁止訪問(wèn)這些資源。研究團(tuán)隊(duì)開(kāi)發(fā)了自動(dòng)監(jiān)控工具,能夠檢測(cè)AI是否試圖訪問(wèn)被禁止的網(wǎng)站,一旦發(fā)現(xiàn)違規(guī)行為,該次嘗試的得分會(huì)被直接置零。在整個(gè)實(shí)驗(yàn)過(guò)程中,646次運(yùn)行中只有10次違規(guī),說(shuō)明監(jiān)控機(jī)制非常有效。
實(shí)驗(yàn)環(huán)境的設(shè)計(jì)也極其用心。每個(gè)AI都在標(biāo)準(zhǔn)化的Ubuntu 24.04容器中運(yùn)行,配備NVIDIA A10 GPU,具有12小時(shí)的最大運(yùn)行時(shí)間。AI可以訪問(wèn)互聯(lián)網(wǎng)下載必要的數(shù)據(jù)集和依賴包,也可以使用OpenAI、HuggingFace等服務(wù)的API密鑰。這種設(shè)計(jì)既保證了實(shí)驗(yàn)條件的一致性,又盡可能貼近真實(shí)的研究環(huán)境。
代碼執(zhí)行和驗(yàn)證環(huán)節(jié)采用了雙重隔離機(jī)制。AI首先在自己的工作環(huán)境中開(kāi)發(fā)代碼,完成后,系統(tǒng)會(huì)將代碼復(fù)制到全新的環(huán)境中執(zhí)行reproduce.sh腳本。這種設(shè)計(jì)防止了AI硬編碼結(jié)果或利用開(kāi)發(fā)環(huán)境中的臨時(shí)文件,確保代碼具有真正的可重現(xiàn)性。
六、深層啟示:AI研發(fā)能力的現(xiàn)狀與未來(lái)
PaperBench的研究結(jié)果為我們理解AI的研發(fā)能力提供了珍貴的洞察。
首先,結(jié)果揭示了當(dāng)前AI在長(zhǎng)期規(guī)劃和問(wèn)題解決方面的根本局限。雖然AI能夠快速生成大量看似合理的代碼,但在面對(duì)復(fù)雜的、需要多步驟協(xié)調(diào)的任務(wù)時(shí),往往缺乏持續(xù)的推理能力。這就像一個(gè)短跑選手試圖完成馬拉松比賽,雖然起跑速度很快,但缺乏長(zhǎng)距離耐力。
其次,AI在理論理解和實(shí)踐應(yīng)用之間存在顯著鴻溝。它們能夠很好地理解論文中描述的算法原理,也能將這些原理轉(zhuǎn)化為代碼,但在處理實(shí)際運(yùn)行中的各種意外情況時(shí)卻束手無(wú)策。這反映了當(dāng)前AI缺乏真正的"工程經(jīng)驗(yàn)",無(wú)法像人類程序員那樣憑借經(jīng)驗(yàn)快速定位和解決問(wèn)題。
令人驚訝的是,即使是表現(xiàn)最好的Claude 3.5 Sonnet,在復(fù)現(xiàn)論文核心結(jié)果方面的成功率也只有不到1%。這個(gè)數(shù)字看似令人失望,但考慮到任務(wù)的極端復(fù)雜性,這實(shí)際上代表了AI能力的重大進(jìn)步。要知道,僅僅幾年前,AI還無(wú)法理解復(fù)雜的學(xué)術(shù)論文,更別說(shuō)編寫(xiě)相應(yīng)的代碼了。
研究還發(fā)現(xiàn),AI的表現(xiàn)高度依賴于提示策略的設(shè)計(jì)。當(dāng)研究團(tuán)隊(duì)調(diào)整了AI的工作方式,阻止其過(guò)早結(jié)束任務(wù)并鼓勵(lì)分步驟工作時(shí),某些模型的表現(xiàn)得到了顯著提升。這說(shuō)明AI的潛力遠(yuǎn)未被充分挖掘,更好的引導(dǎo)和訓(xùn)練方法可能會(huì)帶來(lái)突破性的改進(jìn)。
人機(jī)對(duì)比的結(jié)果也很有啟發(fā)性。在任務(wù)開(kāi)始的前幾小時(shí),AI的進(jìn)展速度甚至超過(guò)了人類專家,但隨著時(shí)間推移,人類的持續(xù)學(xué)習(xí)和適應(yīng)能力開(kāi)始顯現(xiàn)。這提醒我們,雖然AI在某些方面已經(jīng)接近或超越人類,但在需要長(zhǎng)期思考、反復(fù)試錯(cuò)和經(jīng)驗(yàn)積累的復(fù)雜任務(wù)中,人類仍然保持著顯著優(yōu)勢(shì)。
七、實(shí)際應(yīng)用前景:科研助手還是科研伙伴?
PaperBench的研究成果對(duì)科研工作的未來(lái)發(fā)展具有深遠(yuǎn)影響。雖然當(dāng)前的AI還無(wú)法完全獨(dú)立完成復(fù)雜的研究任務(wù),但它們已經(jīng)展現(xiàn)出作為強(qiáng)大科研助手的潛力。
在代碼實(shí)現(xiàn)方面,AI已經(jīng)能夠承擔(dān)相當(dāng)比例的工作。對(duì)于那些算法邏輯清晰、實(shí)現(xiàn)路徑明確的研究任務(wù),AI可以大大加速開(kāi)發(fā)過(guò)程。就像有了一個(gè)能夠快速打字的助手,研究人員可以將更多時(shí)間投入到創(chuàng)造性思考和問(wèn)題分析上。
然而,在復(fù)雜問(wèn)題的調(diào)試和優(yōu)化方面,人類專家仍然不可替代。當(dāng)代碼運(yùn)行出現(xiàn)問(wèn)題時(shí),人類能夠憑借經(jīng)驗(yàn)快速定位問(wèn)題所在,而AI往往陷入盲目嘗試的循環(huán)中。這就像修理汽車時(shí),經(jīng)驗(yàn)豐富的技師能夠通過(guò)聲音判斷故障部位,而新手只能按照手冊(cè)一項(xiàng)項(xiàng)檢查。
更重要的是,科學(xué)研究的核心價(jià)值在于創(chuàng)新和發(fā)現(xiàn),而不僅僅是重現(xiàn)已知結(jié)果。雖然PaperBench測(cè)試的是復(fù)現(xiàn)能力,但這種能力是進(jìn)行原創(chuàng)研究的基礎(chǔ)。一個(gè)無(wú)法理解和實(shí)現(xiàn)已有研究的AI,顯然也無(wú)法進(jìn)行真正的科學(xué)創(chuàng)新。
從長(zhǎng)遠(yuǎn)來(lái)看,AI在科研領(lǐng)域的作用可能會(huì)從"工具"逐步演變?yōu)?伙伴"。未來(lái)的科研工作可能會(huì)是人機(jī)協(xié)作的模式:AI負(fù)責(zé)快速生成初始實(shí)現(xiàn)、處理大規(guī)模數(shù)據(jù)處理、進(jìn)行基礎(chǔ)的錯(cuò)誤檢查,而人類則專注于創(chuàng)新思考、策略規(guī)劃、復(fù)雜問(wèn)題解決和最終的科學(xué)判斷。
八、技術(shù)發(fā)展趨勢(shì):從復(fù)現(xiàn)到創(chuàng)新的漫長(zhǎng)道路
PaperBench為AI研發(fā)能力的未來(lái)發(fā)展指明了幾個(gè)重要方向。
首先是長(zhǎng)期規(guī)劃能力的提升。當(dāng)前AI模型在短期任務(wù)上表現(xiàn)出色,但在需要多步驟協(xié)調(diào)和長(zhǎng)期規(guī)劃的復(fù)雜任務(wù)中表現(xiàn)不佳。這就像教會(huì)了AI如何解決單個(gè)數(shù)學(xué)題,但還沒(méi)有教會(huì)它如何規(guī)劃整個(gè)考試的答題策略。未來(lái)的AI需要更強(qiáng)的"宏觀思維"能力,能夠在復(fù)雜項(xiàng)目中保持方向感和優(yōu)先級(jí)意識(shí)。
其次是實(shí)際工程經(jīng)驗(yàn)的積累。AI需要學(xué)會(huì)處理真實(shí)世界中的各種意外情況,而不僅僅是理想環(huán)境下的標(biāo)準(zhǔn)情況。這可能需要AI接受更多樣化的訓(xùn)練,接觸更多失敗案例,學(xué)會(huì)從錯(cuò)誤中學(xué)習(xí)和改進(jìn)。
第三是人機(jī)協(xié)作機(jī)制的優(yōu)化。研究表明,合適的提示策略和工作流程設(shè)計(jì)能夠顯著提升AI的表現(xiàn)。這說(shuō)明單純提升AI模型本身可能不如優(yōu)化人機(jī)交互方式來(lái)得有效。未來(lái)可能會(huì)出現(xiàn)專門(mén)的AI研發(fā)助手平臺(tái),能夠智能地引導(dǎo)AI完成復(fù)雜的研究任務(wù)。
評(píng)估方法的標(biāo)準(zhǔn)化也將成為重要趨勢(shì)。PaperBench提供了一個(gè)很好的起點(diǎn),但要真正推動(dòng)AI研發(fā)能力的發(fā)展,需要更多類似的基準(zhǔn)測(cè)試,覆蓋不同學(xué)科和不同類型的研究任務(wù)。這就像建立統(tǒng)一的考試標(biāo)準(zhǔn),能夠客觀衡量不同AI系統(tǒng)的能力水平。
最后,成本效益的平衡將決定AI在科研領(lǐng)域的實(shí)際采用速度。雖然當(dāng)前AI的研發(fā)成本仍然較高,但隨著技術(shù)進(jìn)步和規(guī)模效應(yīng),這些成本將逐步降低。當(dāng)AI助手的成本降低到足以普及時(shí),整個(gè)科研生態(tài)可能會(huì)發(fā)生根本性變化。
說(shuō)到底,PaperBench為我們描繪了一個(gè)既令人興奮又需要謹(jǐn)慎對(duì)待的未來(lái)圖景。AI確實(shí)正在快速接近人類的研發(fā)能力,但要真正成為可靠的科研伙伴,還有很長(zhǎng)的路要走。就像學(xué)開(kāi)車一樣,AI已經(jīng)學(xué)會(huì)了基本操作,但要在復(fù)雜的真實(shí)道路上安全駕駛,還需要大量的練習(xí)和經(jīng)驗(yàn)積累。這項(xiàng)研究最重要的貢獻(xiàn)在于,它為衡量這種進(jìn)步提供了一把精確的尺子,讓我們能夠清楚地看到AI能力的邊界,并指引未來(lái)發(fā)展的方向。
對(duì)于普通人來(lái)說(shuō),這項(xiàng)研究意味著AI正在從簡(jiǎn)單的問(wèn)答工具進(jìn)化為真正的智能助手。雖然現(xiàn)在還不能完全依賴AI進(jìn)行復(fù)雜的創(chuàng)造性工作,但在不久的將來(lái),AI可能會(huì)成為各行各業(yè)專業(yè)人士的得力助手,幫助他們更高效地完成工作,釋放更多時(shí)間用于創(chuàng)新和思考。這種變化不會(huì)一夜之間發(fā)生,但正如這項(xiàng)研究所展示的,它已經(jīng)在悄然進(jìn)行中。
Q&A
Q1:PaperBench究竟測(cè)試AI的什么能力?為什么這很重要? A:PaperBench測(cè)試AI能否像人類科研人員一樣,從零開(kāi)始復(fù)現(xiàn)頂級(jí)學(xué)術(shù)論文的研究成果,包括理解論文、編寫(xiě)代碼、運(yùn)行實(shí)驗(yàn)等全流程。這很重要因?yàn)樗饬苛薃I是否具備真正的科研能力,而不僅僅是聊天或答題能力。
Q2:AI在這個(gè)測(cè)試中表現(xiàn)如何?是否已經(jīng)接近人類水平? A:最好的AI模型Claude 3.5 Sonnet達(dá)到21%的成功率,而人類博士專家達(dá)到41.4%。雖然AI已經(jīng)展現(xiàn)出驚人能力,但距離人類專家水平還有明顯差距,特別是在長(zhǎng)期規(guī)劃和復(fù)雜問(wèn)題解決方面。
Q3:這項(xiàng)研究對(duì)普通人有什么實(shí)際意義? A:雖然現(xiàn)在AI還不能完全替代人類專家,但正快速成為強(qiáng)大的工作助手。未來(lái)幾年內(nèi),AI可能會(huì)大幅提升各行業(yè)的工作效率,幫助專業(yè)人士更好地完成復(fù)雜任務(wù),釋放更多時(shí)間用于創(chuàng)新思考。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。