這項由耶魯大學(xué)自然語言處理實驗室的王承燁、沈逸飛、曠澤璽、阿曼·科漢和趙逸倫等研究人員完成的研究,發(fā)表于2025年6月18日的arXiv預(yù)印本平臺。感興趣的讀者可以通過arXiv:2506.15569v1訪問完整論文,同時相關(guān)數(shù)據(jù)和代碼已在GitHub上開源供研究使用。
在當(dāng)今這個信息爆炸的時代,科學(xué)研究如雨后春筍般涌現(xiàn),但如何快速準(zhǔn)確地驗證這些研究中的聲明卻成了一個巨大挑戰(zhàn)。就像在圖書館里尋找特定信息一樣,科學(xué)家們需要在海量的論文、圖表和數(shù)據(jù)中找到支持或反駁某個觀點的證據(jù)。
耶魯大學(xué)的研究團(tuán)隊注意到了一個有趣的現(xiàn)象:雖然現(xiàn)在的人工智能已經(jīng)很聰明了,但在處理科學(xué)論文時卻經(jīng)常"偏科"——它們可能很擅長理解文字,但在同時處理文字、圖表和表格時就顯得力不從心。這就像一個學(xué)生可能語文很好,但遇到需要同時運用語文、數(shù)學(xué)和科學(xué)知識的綜合題時就犯難了。
為了解決這個問題,研究團(tuán)隊開發(fā)了一個名為SCIVER的評估工具。這個工具就像是給AI設(shè)計的"科學(xué)論文理解考試",專門測試AI是否能像人類專家一樣,在復(fù)雜的科學(xué)文獻(xiàn)中準(zhǔn)確驗證各種聲明。
研究團(tuán)隊精心收集了1113篇計算機(jī)科學(xué)領(lǐng)域的論文,從中提取出3000個需要驗證的聲明。這些聲明涵蓋了四種不同的推理類型,就像考試中的不同題型一樣。第一種是直接推理,就像在文章中直接找到答案的選擇題;第二種是并行推理,需要同時查看多個不同的信息源;第三種是順序推理,需要一步步地建立邏輯鏈條;最后一種是分析推理,需要運用專業(yè)知識進(jìn)行深度分析。
為了確保這個"考試"的質(zhì)量,研究團(tuán)隊特意招募了18位計算機(jī)科學(xué)領(lǐng)域的研究生和博士后作為專家標(biāo)注員。這些專家就像嚴(yán)格的閱卷老師,每個人都在自己的專業(yè)領(lǐng)域有著豐富的發(fā)表經(jīng)驗。他們不僅要判斷每個聲明是否正確,還要詳細(xì)標(biāo)注出支持這個判斷的具體證據(jù),就像在試卷上標(biāo)出正確答案的依據(jù)一樣。
當(dāng)研究團(tuán)隊用這個工具測試21個最先進(jìn)的AI模型時,結(jié)果令人驚訝。這些模型包括了OpenAI的GPT-4系列、谷歌的Gemini系列,以及眾多開源模型。測試結(jié)果顯示,即使是最優(yōu)秀的AI模型,在面對復(fù)雜的科學(xué)驗證任務(wù)時,表現(xiàn)也遠(yuǎn)不如人類專家。
以最新的推理模型o4-mini為例,它在最簡單的直接推理任務(wù)上能達(dá)到85%的準(zhǔn)確率,已經(jīng)接近人類專家的水平。但在最復(fù)雜的分析推理任務(wù)上,即使是表現(xiàn)最好的GPT-4.1也只能達(dá)到70.8%的準(zhǔn)確率,而人類專家的準(zhǔn)確率高達(dá)90%。這就像一個學(xué)生在簡單的計算題上表現(xiàn)不錯,但遇到需要深度思考的應(yīng)用題時就明顯吃力了。
更有趣的是,研究團(tuán)隊發(fā)現(xiàn)了AI模型的幾個典型"毛病"。第一個問題是"找不到重點",占錯誤的32%。就像學(xué)生做閱讀理解時,明明答案就在文章里,但就是找不到關(guān)鍵信息。第二個問題是"看圖說話能力差",占21%的錯誤。AI在解讀圖表時經(jīng)常出現(xiàn)誤判,比如把數(shù)據(jù)趨勢看反了。第三個問題是"邏輯鏈條斷裂",占17%的錯誤。AI無法將多個推理步驟有效連接起來,就像做數(shù)學(xué)證明題時步驟跳躍太大。
研究團(tuán)隊還發(fā)現(xiàn),當(dāng)需要的證據(jù)越多時,AI的表現(xiàn)就越差。這就像做綜合性大題時,需要用到的知識點越多,出錯的概率就越高。當(dāng)一個聲明需要三個以上的證據(jù)支持時,所有模型的準(zhǔn)確率都明顯下降。
為了幫助AI提高表現(xiàn),研究團(tuán)隊還測試了檢索增強(qiáng)生成技術(shù),這就像給學(xué)生提供參考資料一樣。結(jié)果顯示,當(dāng)AI能夠獲得更準(zhǔn)確的相關(guān)信息時,它們的表現(xiàn)確實有所改善。使用OpenAI的嵌入模型進(jìn)行信息檢索時,Qwen2.5-VL-72B模型的準(zhǔn)確率從70.2%提升到了75.3%。
這項研究的意義遠(yuǎn)不止于測試AI的能力。在當(dāng)今科研環(huán)境下,研究論文數(shù)量激增,人工驗證每個聲明既費時又費力。如果AI能夠可靠地完成這項工作,就能大大提高科研效率,幫助研究人員快速篩選和驗證信息。
然而,研究也揭示了當(dāng)前AI技術(shù)的局限性。這些模型在處理需要深度專業(yè)知識和復(fù)雜推理的任務(wù)時,仍然無法達(dá)到人類專家的水平。這提醒我們,雖然AI在很多領(lǐng)域都表現(xiàn)出色,但在科學(xué)研究這樣需要嚴(yán)謹(jǐn)邏輯和專業(yè)判斷的領(lǐng)域,人類專家的價值依然不可替代。
研究團(tuán)隊通過詳細(xì)的錯誤分析發(fā)現(xiàn),開源模型在某些方面還存在明顯的不足。比如,它們往往過度依賴文本信息,而忽略了圖表中的關(guān)鍵數(shù)據(jù)。這就像學(xué)生只看文字描述而忽略了配圖,自然會遺漏重要信息。另外,一些模型還會犯領(lǐng)域知識錯誤,錯誤地應(yīng)用專業(yè)術(shù)語或概念。
值得注意的是,不同類型的推理任務(wù)對AI來說難度差別很大。直接推理任務(wù)相對簡單,因為答案通常能在單一信息源中找到。而分析推理任務(wù)最具挑戰(zhàn)性,因為它不僅需要整合多個信息源,還需要運用專業(yè)知識進(jìn)行判斷。這種差異性為未來AI模型的改進(jìn)指明了方向。
研究團(tuán)隊還發(fā)現(xiàn),模型的規(guī)模并不總是決定性因素。一些參數(shù)量較小但設(shè)計精良的模型,在某些任務(wù)上的表現(xiàn)可能超過參數(shù)量更大的模型。這說明模型架構(gòu)和訓(xùn)練方法的重要性,而不僅僅是簡單地增加模型大小。
從實際應(yīng)用角度來看,這項研究為科研工具的開發(fā)提供了重要參考。未來的科研助手工具需要在多模態(tài)理解能力上有更大突破,特別是在整合文本、圖表和表格信息方面。同時,這些工具還需要具備更強(qiáng)的領(lǐng)域知識理解能力,能夠準(zhǔn)確把握不同學(xué)科的專業(yè)概念和推理模式。
對于普通讀者來說,這項研究揭示了一個重要事實:雖然AI技術(shù)發(fā)展迅速,但在需要深度理解和專業(yè)判斷的領(lǐng)域,我們?nèi)匀恍枰祟悓<业闹腔?。這并不意味著AI沒有價值,而是說AI和人類專家應(yīng)該發(fā)揮各自的優(yōu)勢,形成互補(bǔ)的合作關(guān)系。
研究的另一個重要發(fā)現(xiàn)是,不同的AI模型在不同類型的任務(wù)上表現(xiàn)各異。這提醒我們,在選擇AI工具時不能一概而論,而應(yīng)該根據(jù)具體的應(yīng)用場景和需求來選擇最合適的模型。就像選擇工具一樣,不同的任務(wù)需要不同的專業(yè)工具。
最終,這項研究為AI在科學(xué)研究中的應(yīng)用提供了重要的基準(zhǔn)和參考標(biāo)準(zhǔn)。SCIVER不僅是一個評估工具,更是推動AI技術(shù)進(jìn)步的重要驅(qū)動力。通過明確現(xiàn)有技術(shù)的不足,它為研究人員指明了改進(jìn)方向,有助于開發(fā)出更加智能和可靠的科研助手工具。
說到底,這項研究告訴我們,AI在科學(xué)驗證方面還有很長的路要走。雖然最先進(jìn)的AI模型已經(jīng)展現(xiàn)出了一定的能力,但距離人類專家的水平仍有明顯差距。這種差距不僅體現(xiàn)在準(zhǔn)確率上,更體現(xiàn)在深度理解和復(fù)雜推理能力上。不過,這也意味著巨大的發(fā)展空間和機(jī)遇。隨著技術(shù)的不斷進(jìn)步,我們有理由相信,未來的AI將能夠更好地協(xié)助人類進(jìn)行科學(xué)研究,讓知識的驗證和傳播變得更加高效和準(zhǔn)確。對于關(guān)心科技發(fā)展的普通讀者來說,這項研究提醒我們既要對AI技術(shù)保持合理期待,也要認(rèn)識到人類智慧在科學(xué)探索中的不可替代性。
Q&A
Q1:SCIVER是什么?它主要用來做什么? A:SCIVER是耶魯大學(xué)開發(fā)的AI評估工具,專門測試人工智能是否能像人類專家一樣驗證科學(xué)論文中的聲明。它包含3000個專家標(biāo)注的例子,涵蓋四種不同難度的推理任務(wù),用來全面評估AI在處理科學(xué)文獻(xiàn)時的理解和推理能力。
Q2:目前最先進(jìn)的AI在科學(xué)驗證方面表現(xiàn)如何? A:即使是最優(yōu)秀的AI模型,在復(fù)雜的科學(xué)驗證任務(wù)上仍然遠(yuǎn)不如人類專家。比如GPT-4.1在最難的分析推理任務(wù)上只能達(dá)到70.8%的準(zhǔn)確率,而人類專家能達(dá)到90%。AI主要在找不到關(guān)鍵信息、誤讀圖表和邏輯推理鏈條斷裂等方面存在問題。
Q3:這項研究對普通人有什么意義? A:這項研究揭示了AI在需要深度理解和專業(yè)判斷的領(lǐng)域仍有局限性,提醒我們在科學(xué)研究等嚴(yán)謹(jǐn)領(lǐng)域,人類專家的價值依然不可替代。同時,它為未來開發(fā)更好的科研助手工具提供了方向,最終可能讓知識驗證變得更高效。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。