av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 耶魯大學(xué)研究揭秘:大語言模型在科學(xué)推理中究竟是缺乏知識(shí)還是推理能力?

耶魯大學(xué)研究揭秘:大語言模型在科學(xué)推理中究竟是缺乏知識(shí)還是推理能力?

2025-09-03 11:38
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-03 11:38 ? 科技行者

這項(xiàng)由耶魯大學(xué)的Alan Li和Yixin Liu領(lǐng)導(dǎo)的研究發(fā)表于2025年8月,并提交到了arXiv預(yù)印本服務(wù)器(論文編號(hào):arXiv:2508.19202)。研究團(tuán)隊(duì)還包括來自哈佛大學(xué)、西北大學(xué)以及Allen人工智能研究所的學(xué)者們。有興趣深入了解的讀者可以通過https://github.com/yale-nlp/SciReas-Eval訪問研究代碼和相關(guān)資料。

當(dāng)我們使用ChatGPT或其他大語言模型來解決科學(xué)問題時(shí),經(jīng)常會(huì)遇到這樣的困惑:模型有時(shí)能給出令人印象深刻的答案,有時(shí)卻在看似簡(jiǎn)單的科學(xué)問題上出錯(cuò)。這背后到底是什么原因呢?是因?yàn)槟P腿狈ψ銐虻目茖W(xué)知識(shí),還是因?yàn)樗鼈兊耐评砟芰Σ粔驈?qiáng)?

這個(gè)問題就像是在判斷一個(gè)學(xué)生考試失利的原因。如果一個(gè)學(xué)生在物理考試中答錯(cuò)了題目,可能是因?yàn)樗麤]有掌握相關(guān)的物理定律(知識(shí)問題),也可能是因?yàn)樗m然知道定律但不會(huì)運(yùn)用這些定律進(jìn)行推理計(jì)算(推理問題)。對(duì)于大語言模型來說,區(qū)分這兩種情況同樣重要,因?yàn)檫@決定了我們應(yīng)該如何改進(jìn)這些AI系統(tǒng)。

為了解決這個(gè)根本性問題,研究團(tuán)隊(duì)就像偵探一樣,設(shè)計(jì)了一套巧妙的"實(shí)驗(yàn)裝置"來分離和測(cè)試模型的知識(shí)儲(chǔ)備與推理能力。他們首先構(gòu)建了一個(gè)名為SCIREAS的綜合評(píng)估套件,這就像是為AI模型設(shè)計(jì)的一場(chǎng)全方位科學(xué)考試,涵蓋了物理、化學(xué)、生物、醫(yī)學(xué)、材料科學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)和工程學(xué)等多個(gè)領(lǐng)域。

更有趣的是,研究團(tuán)隊(duì)還開發(fā)了KRUX框架,這可以比作是一種"知識(shí)輸液裝置"。通過這個(gè)裝置,研究人員可以人為地向模型提供解題所需的關(guān)鍵知識(shí)點(diǎn),然后觀察模型的表現(xiàn)如何變化。這就好比在考試中給學(xué)生提供參考資料,看看他們是否能利用這些資料正確解題。

通過這種創(chuàng)新的研究方法,團(tuán)隊(duì)得出了三個(gè)令人意外的發(fā)現(xiàn)。首先,當(dāng)給基礎(chǔ)模型提供了高質(zhì)量的外部知識(shí)后,它們竟然能夠超越那些經(jīng)過專門推理訓(xùn)練的模型10%以上。這就像是給一個(gè)普通學(xué)生提供了最好的參考書后,他的成績(jī)竟然超過了那些接受過專門訓(xùn)練的學(xué)霸。

其次,即使是那些已經(jīng)具備強(qiáng)大推理能力的模型,在獲得外部知識(shí)支持后,表現(xiàn)仍然會(huì)顯著提升。這表明推理能力和知識(shí)獲取是相互補(bǔ)充的,就像是一個(gè)優(yōu)秀的廚師,即使技藝高超,有了更好的食材也能做出更美味的菜肴。

最后,研究發(fā)現(xiàn)經(jīng)過推理訓(xùn)練的模型能夠更好地"挖掘"出解決問題所需的關(guān)鍵知識(shí)。這就像是經(jīng)驗(yàn)豐富的醫(yī)生不僅醫(yī)術(shù)精湛,還能更準(zhǔn)確地識(shí)別出診斷所需的關(guān)鍵癥狀和信息。

這項(xiàng)研究的意義遠(yuǎn)超學(xué)術(shù)范疇。隨著AI系統(tǒng)在科學(xué)研究、教育和各種專業(yè)領(lǐng)域的應(yīng)用越來越廣泛,理解這些系統(tǒng)的優(yōu)勢(shì)和局限性變得至關(guān)重要。研究結(jié)果暗示,未來的AI系統(tǒng)可能需要將強(qiáng)大的推理能力與高質(zhì)量的外部知識(shí)庫相結(jié)合,才能在科學(xué)領(lǐng)域發(fā)揮最大作用。

一、科學(xué)推理的雙重挑戰(zhàn):知識(shí)與推理能力的糾葛

在人工智能發(fā)展的征程中,大語言模型在科學(xué)問題解決方面的表現(xiàn)一直讓研究者們感到困惑。當(dāng)我們觀察這些模型處理科學(xué)問題時(shí),就像是觀察一個(gè)多面的鉆石,每個(gè)角度都呈現(xiàn)出不同的光芒,有時(shí)明亮奪目,有時(shí)卻暗淡無光。

科學(xué)推理本身就像是一場(chǎng)復(fù)雜的交響樂演奏。演奏者不僅需要掌握樂譜上的每一個(gè)音符(知識(shí)),還需要具備精湛的演奏技巧來將這些音符串聯(lián)成美妙的旋律(推理)。對(duì)于大語言模型而言,科學(xué)問題的解決同樣需要兩種核心能力的完美配合:深厚的領(lǐng)域知識(shí)儲(chǔ)備和復(fù)雜的邏輯推理能力。

傳統(tǒng)的科學(xué)基準(zhǔn)測(cè)試就像是分散的考試科目,每個(gè)測(cè)試都有自己的專業(yè)領(lǐng)域和評(píng)估標(biāo)準(zhǔn)。比如GPQA專注于研究生水平的科學(xué)問題,但僅限于多項(xiàng)選擇題格式。MMLU-Pro覆蓋更廣泛的主題,卻可能包含非STEM領(lǐng)域的內(nèi)容。LabBench關(guān)注生物學(xué)實(shí)驗(yàn)設(shè)計(jì),SciBench測(cè)試數(shù)學(xué)和科學(xué)計(jì)算能力。這種分散的評(píng)估方式就像是用不同的尺子測(cè)量同一個(gè)物體的不同部分,難以獲得完整的畫面。

更重要的是,當(dāng)前的評(píng)估體系無法有效區(qū)分模型失敗的根本原因。當(dāng)一個(gè)模型在回答"在變頻電源上運(yùn)行時(shí),交流電機(jī)需要可變電壓以便____"這樣的問題時(shí)出錯(cuò),我們很難判斷是因?yàn)樗恢老嚓P(guān)的電機(jī)原理(知識(shí)缺失),還是因?yàn)樗鼰o法將已知的原理正確應(yīng)用到具體問題中(推理不足)。

這種困惑在最新一代的推理模型出現(xiàn)后變得更加突出。OpenAI的o系列模型和DeepSeek-R1等系統(tǒng)通過增加測(cè)試時(shí)計(jì)算來提升推理能力,在數(shù)學(xué)和編程任務(wù)上展現(xiàn)出了令人印象深刻的性能提升。然而,這些進(jìn)步是否能夠平等地惠及科學(xué)領(lǐng)域的各個(gè)分支,仍然是一個(gè)懸而未決的問題。

當(dāng)我們深入分析科學(xué)工作的本質(zhì)時(shí),會(huì)發(fā)現(xiàn)它不僅需要嚴(yán)謹(jǐn)?shù)耐评?,更需要?duì)專門概念、基礎(chǔ)理論、方法論專業(yè)知識(shí)以及那些晦澀但關(guān)鍵的研究發(fā)現(xiàn)有深入的理解。成功的科學(xué)推理系統(tǒng)必須能夠在復(fù)雜的多步推理過程中靈活運(yùn)用這些知識(shí)。這就像是一位經(jīng)驗(yàn)豐富的偵探,不僅要掌握各種偵查技術(shù),還要對(duì)犯罪心理學(xué)、法醫(yī)學(xué)、社會(huì)學(xué)等多個(gè)領(lǐng)域有深入了解,才能在復(fù)雜案件中抽絲剝繭,找到真相。

正是在這樣的背景下,研究團(tuán)隊(duì)意識(shí)到需要一個(gè)更加全面和系統(tǒng)的方法來評(píng)估和理解大語言模型在科學(xué)推理中的表現(xiàn)。他們需要的不僅僅是另一個(gè)基準(zhǔn)測(cè)試,而是一套能夠深入剖析模型內(nèi)部工作機(jī)制的分析工具。

二、構(gòu)建科學(xué)推理的標(biāo)準(zhǔn)試金石:SCIREAS評(píng)估體系

面對(duì)科學(xué)推理評(píng)估的復(fù)雜挑戰(zhàn),研究團(tuán)隊(duì)決定構(gòu)建一個(gè)統(tǒng)一而全面的評(píng)估框架,就像建造一座能夠同時(shí)測(cè)試多種能力的綜合體育館。這個(gè)名為SCIREAS的評(píng)估套件將原本分散的10個(gè)科學(xué)基準(zhǔn)整合到一個(gè)標(biāo)準(zhǔn)化的平臺(tái)上,覆蓋了從物理、化學(xué)到生物、醫(yī)學(xué)等8個(gè)主要科學(xué)領(lǐng)域。

SCIREAS的構(gòu)建過程就像是精心策劃一場(chǎng)奧運(yùn)會(huì)。研究團(tuán)隊(duì)需要從每個(gè)"參賽項(xiàng)目"(基準(zhǔn)測(cè)試)中挑選最具代表性和挑戰(zhàn)性的"比賽項(xiàng)目"(任務(wù))。他們對(duì)每個(gè)子任務(wù)進(jìn)行了細(xì)致的人工檢查,確保每個(gè)被選中的問題都需要深入的領(lǐng)域知識(shí)理解和復(fù)雜的多步推理過程。這個(gè)篩選過程就像是奧運(yùn)會(huì)的資格賽,只有真正具備挑戰(zhàn)性的項(xiàng)目才能入選。

通過這種精心篩選,SCIREAS最終包含了15567個(gè)精選實(shí)例,雖然比原始數(shù)據(jù)集的總量減少了近50%,但每一個(gè)問題都是經(jīng)過嚴(yán)格審查的"精品"。這些問題不僅要求模型具備特定的科學(xué)知識(shí),更重要的是需要運(yùn)用這些知識(shí)進(jìn)行復(fù)雜的推理分析。

在SCIREAS的基礎(chǔ)上,研究團(tuán)隊(duì)進(jìn)一步開發(fā)了SCIREAS-PRO,這可以比作是從普通考試中挑選出的"壓軸題集合"。SCIREAS-PRO的構(gòu)建采用了一種巧妙的方法:研究人員利用最新推理模型在不同計(jì)算預(yù)算下的性能差異來識(shí)別真正需要復(fù)雜推理的問題。

這種方法的原理很容易理解:如果一個(gè)問題僅僅需要知識(shí)回憶就能解決,那么給模型更多的思考時(shí)間(計(jì)算預(yù)算)不會(huì)帶來顯著的性能提升。但如果問題需要復(fù)雜的推理過程,額外的思考時(shí)間就會(huì)產(chǎn)生明顯的效果差異。研究團(tuán)隊(duì)使用o3-mini和o4-mini模型分別在低推理努力和高推理努力設(shè)置下進(jìn)行測(cè)試,將那些在低努力設(shè)置下失敗但在高努力設(shè)置下成功的問題篩選出來。

這種篩選機(jī)制的效果相當(dāng)顯著。高推理努力設(shè)置的成本至少是低努力設(shè)置的5.8倍,但通過這種成本差異,研究團(tuán)隊(duì)成功識(shí)別出了1260個(gè)真正需要復(fù)雜推理的問題。令人驚訝的是,盡管SCIREAS-PRO只包含SCIREAS約8%的問題數(shù)量,但它在區(qū)分不同推理能力模型方面表現(xiàn)得更加出色。

為了驗(yàn)證這種篩選方法的有效性,研究團(tuán)隊(duì)還進(jìn)行了人工評(píng)估和LLM評(píng)判驗(yàn)證。結(jié)果表明,無論是人類評(píng)審員還是AI評(píng)判系統(tǒng),都認(rèn)為SCIREAS-PRO中的問題確實(shí)比普通問題更加注重推理能力。人類評(píng)審員的一致性達(dá)到78%,AI評(píng)判系統(tǒng)的一致性更是高達(dá)91%。

當(dāng)研究團(tuán)隊(duì)使用SCIREAS對(duì)各種前沿模型進(jìn)行測(cè)試時(shí),發(fā)現(xiàn)了許多有趣的現(xiàn)象。不同的模型在整體評(píng)估中的排名與在單個(gè)基準(zhǔn)上的表現(xiàn)可能存在顯著差異。例如,在GPQA和MMLU-Pro上表現(xiàn)相近的兩個(gè)模型,在SCIREAS的綜合評(píng)估中可能會(huì)顯示出明顯的性能差距。

更有趣的是,一些模型在特定任務(wù)上表現(xiàn)出了超出其整體排名的優(yōu)異成績(jī)。比如Qwen3-32B-Thinking在SciBench上的表現(xiàn)可以與商業(yè)級(jí)前沿模型媲美,而DeepSeek-V3和DeepSeek-R1在MMLU-Pro上的表現(xiàn)也超過了它們的整體排名。這種現(xiàn)象暗示,不同的模型可能針對(duì)特定類型的任務(wù)或技能進(jìn)行了優(yōu)化調(diào)整。

通過對(duì)比不同推理設(shè)置下的模型表現(xiàn),研究團(tuán)隊(duì)還發(fā)現(xiàn)了推理計(jì)算預(yù)算對(duì)性能的影響程度因模型而異。o3-mini在低推理設(shè)置和高推理設(shè)置之間展現(xiàn)出了6.8個(gè)百分點(diǎn)的性能差距,而Gemini-2.5-Pro即使在顯著增加思考預(yù)算的情況下,性能提升也相對(duì)有限。

這些發(fā)現(xiàn)為SCIREAS-PRO的設(shè)計(jì)理念提供了有力支撐:通過識(shí)別那些真正受益于額外推理計(jì)算的問題,可以更準(zhǔn)確地評(píng)估和比較不同模型的推理能力。這種方法不僅提高了評(píng)估的效率,也為理解模型的內(nèi)在機(jī)制提供了新的視角。

三、解密知識(shí)與推理的奧秘:KRUX框架的巧妙設(shè)計(jì)

在構(gòu)建了綜合評(píng)估體系之后,研究團(tuán)隊(duì)面臨的下一個(gè)挑戰(zhàn)就像是解開一個(gè)復(fù)雜的謎團(tuán):當(dāng)模型在科學(xué)問題上表現(xiàn)不佳時(shí),究竟是因?yàn)槿狈Ρ匾闹R(shí),還是因?yàn)橥评砟芰Σ蛔??為了回答這個(gè)關(guān)鍵問題,他們?cè)O(shè)計(jì)了KRUX(Knowledge & Reasoning Utilization eXams)框架,這個(gè)框架就像是一臺(tái)精密的解剖儀器,能夠?qū)⒅R(shí)和推理能力分離開來進(jìn)行獨(dú)立分析。

KRUX的核心創(chuàng)新在于引入了"知識(shí)配料"(Knowledge Ingredients, KIs)的概念。這些知識(shí)配料就像是烹飪時(shí)的調(diào)料包,包含了解決特定問題所需的關(guān)鍵信息片段。研究團(tuán)隊(duì)開發(fā)了一套自動(dòng)化的提取流程,能夠從模型的推理軌跡中提取出這些原子級(jí)的知識(shí)單元。

知識(shí)配料的提取過程頗具匠心。研究團(tuán)隊(duì)首先讓不同的模型(包括基礎(chǔ)模型、推理增強(qiáng)模型等)對(duì)同一個(gè)科學(xué)問題進(jìn)行解答,記錄下它們完整的推理過程。然后,他們使用強(qiáng)大的推理模型(如DeepSeek-R1)作為"知識(shí)提取器",從這些推理軌跡中識(shí)別和提煉出獨(dú)立的、與答案無關(guān)的知識(shí)點(diǎn)。

例如,當(dāng)處理一個(gè)關(guān)于交流電機(jī)的問題時(shí),提取器可能會(huì)識(shí)別出這樣的知識(shí)配料:"交流電機(jī)的同步速度與電源頻率和電機(jī)極數(shù)的比值成正比"、"感應(yīng)電機(jī)需要保持恒定的電壓頻率比以實(shí)現(xiàn)最佳運(yùn)行"、"在降低電源頻率的同時(shí)保持電壓不變會(huì)增加磁通量,可能導(dǎo)致鐵芯飽和"等。這些知識(shí)點(diǎn)都是理解和解決問題的關(guān)鍵構(gòu)件,但本身不透露最終答案。

為了確保提取的知識(shí)配料確實(shí)有用且不泄露答案信息,研究團(tuán)隊(duì)進(jìn)行了嚴(yán)格的驗(yàn)證。他們將提取的知識(shí)配料重新提供給原始模型,觀察性能變化。如果性能出現(xiàn)顯著變化,可能意味著知識(shí)配料中包含了答案信息或無關(guān)內(nèi)容。實(shí)驗(yàn)結(jié)果顯示,這種情況并沒有出現(xiàn),表明提取的知識(shí)配料是忠實(shí)且有用的。

基于這個(gè)巧妙的設(shè)計(jì),研究團(tuán)隊(duì)能夠進(jìn)行三組關(guān)鍵的對(duì)比實(shí)驗(yàn)。首先是測(cè)試基礎(chǔ)模型在獲得高質(zhì)量外部知識(shí)后的表現(xiàn)提升。這就像是給一個(gè)學(xué)生提供了最好的參考資料,看看他能否利用這些資料解決問題。其次是測(cè)試推理增強(qiáng)模型在獲得相同外部知識(shí)后的表現(xiàn)變化,這能幫助理解推理能力和知識(shí)獲取之間的關(guān)系。最后是比較不同來源的知識(shí)配料對(duì)模型表現(xiàn)的影響,這能揭示推理訓(xùn)練對(duì)模型知識(shí)提取能力的影響。

在第一組實(shí)驗(yàn)中,研究結(jié)果令人驚訝。當(dāng)基礎(chǔ)模型獲得從DeepSeek-R1提取的高質(zhì)量知識(shí)配料后,它們?cè)贕PQA和LabBench測(cè)試中的表現(xiàn)提升了20%以上,甚至超過了那些經(jīng)過專門推理訓(xùn)練的模型。這個(gè)發(fā)現(xiàn)就像是發(fā)現(xiàn)了一個(gè)普通學(xué)生在獲得優(yōu)質(zhì)參考資料后,竟然能夠超越那些接受過專門訓(xùn)練的優(yōu)等生。

Qwen模型在獲得高質(zhì)量知識(shí)配料后,GPQA得分從35.27分躍升至47.19分,LabBench得分從32.38分提升至41.40分。類似的提升在Llama模型上也有體現(xiàn),GPQA得分從28.13分提升至43.57分,LabBench得分從33.55分上升至42.27分。這種顯著的性能提升表明,知識(shí)檢索確實(shí)是科學(xué)推理中的一個(gè)關(guān)鍵瓶頸。

第二組實(shí)驗(yàn)揭示了推理增強(qiáng)模型的另一面特征。即使是那些已經(jīng)具備強(qiáng)大推理能力的模型,在獲得外部知識(shí)支持后,性能仍然會(huì)顯著提升。Qwen-STEM模型在GPQA上的得分從41.63分提升至52.50分,Qwen-Math從39.47分提升至53.53分。這種現(xiàn)象表明,推理能力和知識(shí)獲取是互補(bǔ)而非替代的關(guān)系。

最有趣的發(fā)現(xiàn)來自第三組實(shí)驗(yàn)。研究團(tuán)隊(duì)比較了來自不同模型的知識(shí)配料對(duì)性能的影響。結(jié)果顯示,從推理增強(qiáng)模型(如數(shù)學(xué)推理模型)提取的知識(shí)配料,即使應(yīng)用到基礎(chǔ)模型上,也能帶來比從基礎(chǔ)模型自身提取的知識(shí)配料更大的性能提升。

這個(gè)現(xiàn)象的深層含義相當(dāng)重要。為了驗(yàn)證這不是因?yàn)橥评碛?xùn)練引入了新的科學(xué)知識(shí),研究團(tuán)隊(duì)設(shè)計(jì)了專門的知識(shí)探測(cè)實(shí)驗(yàn)。他們生成了測(cè)試各個(gè)知識(shí)配料的問題,發(fā)現(xiàn)基礎(chǔ)模型和對(duì)應(yīng)的數(shù)學(xué)推理模型在這些知識(shí)點(diǎn)上的掌握程度基本相當(dāng)。這表明性能提升并非來自新知識(shí)的注入,而是來自推理訓(xùn)練提升了模型識(shí)別和表達(dá)相關(guān)知識(shí)的能力。

換句話說,推理訓(xùn)練就像是給模型配備了一副更好的"眼鏡",讓它能夠更清晰地"看到"自己參數(shù)中儲(chǔ)存的相關(guān)知識(shí),并將這些知識(shí)以更有用的形式表達(dá)出來。這種能力的提升不僅體現(xiàn)在問題解決上,也體現(xiàn)在知識(shí)的組織和呈現(xiàn)方面。

四、令人意外的實(shí)驗(yàn)發(fā)現(xiàn):重新審視AI的科學(xué)能力

通過KRUX框架的系統(tǒng)性實(shí)驗(yàn),研究團(tuán)隊(duì)獲得了三個(gè)顛覆性的發(fā)現(xiàn),這些發(fā)現(xiàn)就像是重新調(diào)焦的鏡頭,讓我們以全新的視角審視大語言模型在科學(xué)推理中的真實(shí)能力。

第一個(gè)發(fā)現(xiàn)徹底改變了我們對(duì)基礎(chǔ)模型和推理模型關(guān)系的認(rèn)知。當(dāng)基礎(chǔ)模型獲得高質(zhì)量的外部知識(shí)支持時(shí),它們的表現(xiàn)竟然能夠超越那些經(jīng)過專門推理訓(xùn)練的模型。這個(gè)結(jié)果就像是發(fā)現(xiàn)了一個(gè)裝備精良的業(yè)余選手能夠擊敗專業(yè)選手,聽起來不可思議,但實(shí)驗(yàn)數(shù)據(jù)確鑿無疑。

在GPQA測(cè)試中,原本得分僅為35.27的Qwen基礎(chǔ)模型,在獲得DeepSeek-R1提供的知識(shí)配料后,得分躍升至47.19,不僅超過了自身40.81的推理增強(qiáng)版本Qwen-BOTH,甚至接近了一些專門的推理模型的性能。這種現(xiàn)象在Llama模型族中也同樣明顯,基礎(chǔ)版本在知識(shí)支持下的表現(xiàn)(43.57)超過了所有經(jīng)過推理訓(xùn)練的變體。

這個(gè)發(fā)現(xiàn)的深層含義令人深思。它暗示著當(dāng)前大語言模型在科學(xué)推理中面臨的主要障礙并非推理能力本身的缺陷,而是無法有效檢索和激活其參數(shù)中已經(jīng)存儲(chǔ)的相關(guān)知識(shí)。這就像是一個(gè)擁有豐富藏書的圖書管理員,問題不在于缺乏信息,而在于無法快速找到需要的那本書。

第二個(gè)發(fā)現(xiàn)則展現(xiàn)了推理能力和知識(shí)獲取之間的協(xié)同效應(yīng)。當(dāng)推理增強(qiáng)模型也獲得同樣的外部知識(shí)支持時(shí),它們的表現(xiàn)進(jìn)一步提升,表明這兩種能力是互補(bǔ)而非競(jìng)爭(zhēng)的關(guān)系。Qwen-BOTH模型在獲得外部知識(shí)配料后,GPQA得分從40.81提升至54.46,MMLU-Pro得分從65.71提升至71.64。

這種協(xié)同效應(yīng)就像是優(yōu)秀的廚師遇到了頂級(jí)食材。單獨(dú)的推理能力就像是精湛的廚藝,而外部知識(shí)就像是優(yōu)質(zhì)的食材。當(dāng)兩者結(jié)合時(shí),產(chǎn)生的效果遠(yuǎn)超單獨(dú)使用任何一種的效果。這個(gè)發(fā)現(xiàn)為未來AI系統(tǒng)的設(shè)計(jì)指出了明確的方向:最優(yōu)的科學(xué)推理系統(tǒng)可能需要將強(qiáng)大的推理能力與高質(zhì)量的外部知識(shí)庫相結(jié)合。

第三個(gè)發(fā)現(xiàn)可能是最微妙但也最重要的。研究表明,推理訓(xùn)練能夠提升模型提取和表達(dá)任務(wù)相關(guān)知識(shí)的能力。當(dāng)研究團(tuán)隊(duì)比較來自不同模型的知識(shí)配料時(shí),發(fā)現(xiàn)即使是僅在數(shù)學(xué)領(lǐng)域接受訓(xùn)練的推理模型,其提供的知識(shí)配料也能比基礎(chǔ)模型自身提取的知識(shí)配料帶來更好的效果。

為了排除這種提升來自新知識(shí)注入的可能性,研究團(tuán)隊(duì)進(jìn)行了精心設(shè)計(jì)的知識(shí)探測(cè)實(shí)驗(yàn)。他們針對(duì)每個(gè)知識(shí)配料生成了專門的測(cè)試問題,結(jié)果顯示基礎(chǔ)模型和數(shù)學(xué)推理模型在這些知識(shí)點(diǎn)的掌握程度上基本相當(dāng)。這意味著推理訓(xùn)練的作用不是添加新知識(shí),而是改善了模型對(duì)現(xiàn)有知識(shí)的組織和表達(dá)能力。

這個(gè)發(fā)現(xiàn)就像是發(fā)現(xiàn)了推理訓(xùn)練具有"知識(shí)整理師"的功能。它不僅提升了模型的邏輯推理能力,還像是給模型的知識(shí)庫進(jìn)行了重新整理和索引,使得相關(guān)知識(shí)能夠以更有序、更有用的方式被檢索和呈現(xiàn)。

通過對(duì)SCIREAS-PRO中數(shù)學(xué)和非數(shù)學(xué)問題的細(xì)致分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了另一個(gè)有趣的現(xiàn)象。在1260個(gè)推理密集型問題中,有1172個(gè)涉及數(shù)學(xué)計(jì)算,這解釋了為什么僅在數(shù)學(xué)領(lǐng)域訓(xùn)練的模型也能在科學(xué)推理任務(wù)上取得顯著提升。但更重要的是,當(dāng)提供來自STEM領(lǐng)域訓(xùn)練的知識(shí)配料時(shí),模型在非數(shù)學(xué)問題上也表現(xiàn)出了明顯的改進(jìn),這進(jìn)一步證實(shí)了知識(shí)來源的重要性。

這些發(fā)現(xiàn)共同描繪了一幅關(guān)于AI科學(xué)推理能力的新圖景。傳統(tǒng)觀點(diǎn)認(rèn)為推理能力是科學(xué)問題解決的關(guān)鍵瓶頸,但這項(xiàng)研究表明,知識(shí)檢索和激活可能是更加根本的限制因素。同時(shí),推理訓(xùn)練的價(jià)值不僅在于提升邏輯推理能力,還在于改善知識(shí)的內(nèi)部組織和表達(dá),這為理解和改進(jìn)AI系統(tǒng)提供了新的視角。

五、打造科學(xué)推理的新標(biāo)桿:SCILIT01模型的誕生

在深入理解了知識(shí)與推理能力的復(fù)雜關(guān)系后,研究團(tuán)隊(duì)決定將理論發(fā)現(xiàn)轉(zhuǎn)化為實(shí)踐成果。他們基于研究中獲得的深刻洞察,開發(fā)了一個(gè)名為SCILIT01的新型科學(xué)推理模型,這個(gè)模型就像是將所有實(shí)驗(yàn)發(fā)現(xiàn)精華融合而成的"集大成之作"。

SCILIT01的開發(fā)過程體現(xiàn)了研究團(tuán)隊(duì)對(duì)數(shù)據(jù)組合策略的深入思考。他們發(fā)現(xiàn),將數(shù)學(xué)推理數(shù)據(jù)與STEM領(lǐng)域數(shù)據(jù)相結(jié)合的訓(xùn)練策略能夠產(chǎn)生最佳的科學(xué)推理性能。這種組合策略的原理很容易理解:數(shù)學(xué)推理提供了強(qiáng)大的邏輯分析基礎(chǔ),就像是鍛煉了"思維肌肉",而STEM數(shù)據(jù)則提供了豐富的領(lǐng)域知識(shí)和應(yīng)用場(chǎng)景,就像是提供了"營養(yǎng)補(bǔ)給"。

研究團(tuán)隊(duì)采用了SYNTHETIC-1數(shù)據(jù)集中的數(shù)學(xué)和STEM子集進(jìn)行訓(xùn)練。SYNTHETIC-1是一個(gè)由DeepSeek-R1生成的大規(guī)模推理軌跡數(shù)據(jù)集,包含了約462K個(gè)數(shù)學(xué)實(shí)例和512K個(gè)STEM實(shí)例。這些數(shù)據(jù)就像是從最優(yōu)秀的"老師"那里收集的教學(xué)案例,為模型提供了高質(zhì)量的學(xué)習(xí)材料。

在具體的訓(xùn)練過程中,研究團(tuán)隊(duì)采用了精心調(diào)優(yōu)的參數(shù)設(shè)置。他們過濾掉了長度超過4096個(gè)token的實(shí)例以控制訓(xùn)練復(fù)雜度,使用余弦學(xué)習(xí)率調(diào)度器,最大學(xué)習(xí)率設(shè)置為1e-5,并設(shè)置了3%的預(yù)熱步驟。模型訓(xùn)練了5個(gè)epoch,這個(gè)配置在計(jì)算效率和性能之間達(dá)到了良好的平衡。

為了驗(yàn)證數(shù)據(jù)組合策略的有效性,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融研究。他們分別訓(xùn)練了僅使用數(shù)學(xué)數(shù)據(jù)的Qwen-Math模型,僅使用STEM數(shù)據(jù)的Qwen-STEM模型,以及結(jié)合兩者的Qwen-BOTH模型。結(jié)果顯示,Qwen-BOTH在SCIREAS上取得了42.84的得分,在SCIREAS-PRO上取得了21.11的得分,顯著超過了單獨(dú)使用任一數(shù)據(jù)源的模型。

更有趣的是,通過分析SCIREAS-PRO中數(shù)學(xué)問題和非數(shù)學(xué)問題的表現(xiàn),研究團(tuán)隊(duì)發(fā)現(xiàn)了數(shù)據(jù)組合的深層機(jī)制。數(shù)學(xué)訓(xùn)練主要提升模型在計(jì)算密集型問題上的表現(xiàn),而STEM訓(xùn)練則在需要領(lǐng)域知識(shí)的問題上發(fā)揮更大作用。結(jié)合訓(xùn)練使模型能夠同時(shí)具備強(qiáng)大的計(jì)算能力和豐富的科學(xué)知識(shí)。

當(dāng)研究團(tuán)隊(duì)將這種訓(xùn)練策略應(yīng)用到更強(qiáng)大的基礎(chǔ)模型Qwen3-8B-Base上時(shí),SCILIT01展現(xiàn)出了令人印象深刻的性能。在與其他開源推理模型的比較中,SCILIT01在多個(gè)基準(zhǔn)上都表現(xiàn)出色。雖然它的性能仍然落后于Qwen3-8B的思考模式(這是經(jīng)過更精心post-training的版本),但在非思考模式下超越了原版Qwen3-8B。

這個(gè)結(jié)果具有重要的實(shí)際意義。它表明通過合適的數(shù)據(jù)組合和訓(xùn)練策略,可以顯著提升中等規(guī)模模型的科學(xué)推理能力。SCILIT01作為一個(gè)8B參數(shù)的模型,為社區(qū)提供了一個(gè)強(qiáng)有力的開源基線,促進(jìn)了科學(xué)推理領(lǐng)域的進(jìn)一步研究和發(fā)展。

在與同期其他推理訓(xùn)練工作的比較中,SCILIT01也展現(xiàn)出了競(jìng)爭(zhēng)力。與OpenR1、Llama-Nemotron、General-Reasoner等模型相比,SCILIT01在SCIREAS綜合評(píng)估中取得了可比較的性能,特別是在SCIREAS-PRO這樣的推理密集型任務(wù)上表現(xiàn)突出。

SCILIT01的成功不僅驗(yàn)證了研究團(tuán)隊(duì)的理論發(fā)現(xiàn),也為未來科學(xué)推理模型的開發(fā)提供了實(shí)用的指導(dǎo)方針。它證明了合理的數(shù)據(jù)策略和訓(xùn)練方法比單純?cè)黾幽P鸵?guī)??赡芨又匾@對(duì)于資源有限的研究團(tuán)隊(duì)來說具有特別的意義。

六、深度剖析:數(shù)學(xué)與科學(xué)推理的內(nèi)在聯(lián)系

在構(gòu)建SCILIT01的過程中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人著迷的現(xiàn)象:僅在數(shù)學(xué)領(lǐng)域訓(xùn)練的模型在科學(xué)推理任務(wù)上也表現(xiàn)出了顯著的性能提升。這個(gè)發(fā)現(xiàn)就像是發(fā)現(xiàn)了一把萬能鑰匙,促使研究團(tuán)隊(duì)深入探索數(shù)學(xué)推理與科學(xué)推理之間的內(nèi)在聯(lián)系。

為了理解這種跨領(lǐng)域遷移的機(jī)制,研究團(tuán)隊(duì)對(duì)SCIREAS-PRO中的問題進(jìn)行了細(xì)致的分析。他們開發(fā)了一套啟發(fā)式規(guī)則來區(qū)分需要數(shù)學(xué)計(jì)算的問題和純概念性的科學(xué)問題。具體來說,他們將包含明確數(shù)值計(jì)算的問題標(biāo)記為"數(shù)學(xué)密集型",將主要依賴科學(xué)概念理解的問題標(biāo)記為"概念密集型"。

分析結(jié)果令人驚訝:在1260個(gè)推理密集型問題中,高達(dá)1172個(gè)涉及某種形式的數(shù)學(xué)計(jì)算。這意味著即使是看似純粹的科學(xué)問題,實(shí)際上也經(jīng)常需要數(shù)學(xué)技能的支撐。這就像是發(fā)現(xiàn)了科學(xué)推理的"隱藏基礎(chǔ)設(shè)施"——數(shù)學(xué)計(jì)算能力就像是支撐科學(xué)大廈的地基,雖然不總是顯而易見,但卻不可或缺。

當(dāng)研究團(tuán)隊(duì)分別分析模型在這兩類問題上的表現(xiàn)時(shí),發(fā)現(xiàn)了有趣的模式。Qwen-Math模型在數(shù)學(xué)密集型問題上的得分從基礎(chǔ)模型的14.25分提升至17.58分,而在概念密集型問題上的改進(jìn)相對(duì)有限(從12.50分僅提升至13.64分)。相比之下,Qwen-STEM模型在概念密集型問題上表現(xiàn)出了更大的提升(從12.50分躍升至23.86分),同時(shí)在數(shù)學(xué)密集型問題上也有改進(jìn)。

這種分析揭示了科學(xué)推理能力的多維性質(zhì)。科學(xué)問題的解決往往需要兩種互補(bǔ)的能力:精確的數(shù)學(xué)計(jì)算能力和深入的概念理解能力。數(shù)學(xué)訓(xùn)練主要強(qiáng)化了前者,而STEM領(lǐng)域的訓(xùn)練則更多地提升了后者。最終的Qwen-BOTH模型通過結(jié)合兩種訓(xùn)練數(shù)據(jù),在兩個(gè)維度上都取得了最佳表現(xiàn)。

為了進(jìn)一步驗(yàn)證這種分析,研究團(tuán)隊(duì)進(jìn)行了知識(shí)探測(cè)實(shí)驗(yàn)。他們從不同模型提取的知識(shí)配料生成了專門的測(cè)試問題,然后評(píng)估基礎(chǔ)模型和數(shù)學(xué)推理模型對(duì)這些知識(shí)點(diǎn)的掌握程度。結(jié)果顯示,在科學(xué)概念的基本理解上,兩類模型的表現(xiàn)基本相當(dāng),這排除了數(shù)學(xué)訓(xùn)練簡(jiǎn)單地注入更多科學(xué)知識(shí)的可能性。

這個(gè)發(fā)現(xiàn)的深層意義在于揭示了推理訓(xùn)練的作用機(jī)制。數(shù)學(xué)推理訓(xùn)練不僅提升了計(jì)算技能,更重要的是培養(yǎng)了一種系統(tǒng)化的思維方式。這種思維方式幫助模型更好地組織和表達(dá)已有的科學(xué)知識(shí),就像是給散亂的知識(shí)片段提供了一個(gè)清晰的框架結(jié)構(gòu)。

通過對(duì)比來自不同模型的知識(shí)配料質(zhì)量,研究團(tuán)隊(duì)進(jìn)一步證實(shí)了這一觀點(diǎn)。即使在處理同一個(gè)科學(xué)問題時(shí),經(jīng)過數(shù)學(xué)推理訓(xùn)練的模型能夠提取出更加結(jié)構(gòu)化、更加有用的知識(shí)配料。這些知識(shí)配料在應(yīng)用到基礎(chǔ)模型時(shí),帶來了比基礎(chǔ)模型自身提取的知識(shí)配料更好的效果。

這種現(xiàn)象可以用"知識(shí)組織能力"來解釋。數(shù)學(xué)推理訓(xùn)練就像是教會(huì)了模型如何整理圖書館。雖然圖書館中的書籍(知識(shí))沒有增加,但經(jīng)過訓(xùn)練的"圖書管理員"(模型)能夠以更有序、更有效的方式組織和檢索這些信息。

研究團(tuán)隊(duì)還發(fā)現(xiàn),這種知識(shí)組織能力的改善不僅體現(xiàn)在數(shù)學(xué)領(lǐng)域,還能遷移到其他科學(xué)領(lǐng)域。這解釋了為什么僅在數(shù)學(xué)領(lǐng)域訓(xùn)練的模型也能在更廣泛的科學(xué)任務(wù)上取得性能提升。數(shù)學(xué)推理訓(xùn)練培養(yǎng)的系統(tǒng)化思維和邏輯分析能力,為處理各類科學(xué)問題提供了通用的認(rèn)知工具。

七、突破傳統(tǒng)認(rèn)知:重新定義AI的科學(xué)推理瓶頸

通過一系列精心設(shè)計(jì)的實(shí)驗(yàn)和深入的分析,這項(xiàng)研究徹底顛覆了我們對(duì)大語言模型科學(xué)推理能力的傳統(tǒng)認(rèn)知。長期以來,研究者們普遍認(rèn)為推理能力是制約AI系統(tǒng)科學(xué)表現(xiàn)的主要瓶頸,但這項(xiàng)研究的發(fā)現(xiàn)卻指向了一個(gè)更加根本的問題:知識(shí)的檢索和激活能力。

這種認(rèn)知轉(zhuǎn)變就像是醫(yī)生重新診斷了病人的病因。之前我們以為病人的問題在于"思維不夠敏捷"(推理能力不足),但現(xiàn)在發(fā)現(xiàn)真正的問題可能是"記憶提取困難"(知識(shí)檢索障礙)。這個(gè)新發(fā)現(xiàn)不僅改變了我們對(duì)現(xiàn)有AI系統(tǒng)的理解,也為未來的改進(jìn)方向指明了道路。

研究結(jié)果顯示,當(dāng)基礎(chǔ)模型獲得高質(zhì)量的外部知識(shí)支持時(shí),它們能夠在科學(xué)推理任務(wù)上超越那些經(jīng)過專門推理訓(xùn)練的模型。這個(gè)現(xiàn)象的出現(xiàn)頻率和幅度都超出了研究者的預(yù)期。在GPQA測(cè)試中,知識(shí)增強(qiáng)后的基礎(chǔ)模型平均性能提升超過12個(gè)百分點(diǎn),在某些情況下甚至達(dá)到15個(gè)百分點(diǎn)的提升。

更令人印象深刻的是,這種知識(shí)增強(qiáng)效應(yīng)在不同規(guī)模和架構(gòu)的模型上都得到了驗(yàn)證。無論是7B參數(shù)的Qwen模型還是8B參數(shù)的Llama模型,都展現(xiàn)出了類似的模式。這表明知識(shí)檢索瓶頸是一個(gè)普遍存在的現(xiàn)象,而不是特定模型或架構(gòu)的局限性。

通過對(duì)比分析,研究團(tuán)隊(duì)發(fā)現(xiàn)推理增強(qiáng)模型雖然在基線性能上更高,但在獲得外部知識(shí)支持后的相對(duì)提升幅度與基礎(chǔ)模型相當(dāng)。這意味著即使是最先進(jìn)的推理模型,仍然受到相同的知識(shí)檢索限制。推理能力的提升并沒有完全解決知識(shí)激活的根本問題。

這個(gè)發(fā)現(xiàn)對(duì)AI系統(tǒng)的設(shè)計(jì)和部署具有深遠(yuǎn)的影響。它暗示著未來的AI助手可能需要采用"推理引擎+知識(shí)庫"的混合架構(gòu),而不是單純依賴參數(shù)化知識(shí)的端到端模型。這種架構(gòu)設(shè)計(jì)就像是給AI系統(tǒng)配備了外部的"參考書架",使其能夠在需要時(shí)快速查閱相關(guān)信息。

研究還揭示了推理訓(xùn)練的一個(gè)意外收益:改善知識(shí)的內(nèi)部組織和表達(dá)。這種改善不是通過增加新的知識(shí)內(nèi)容實(shí)現(xiàn)的,而是通過重新組織現(xiàn)有知識(shí)的方式實(shí)現(xiàn)的。推理訓(xùn)練就像是給模型的知識(shí)庫進(jìn)行了"重新裝修",使得信息檢索變得更加高效和精確。

從實(shí)用角度來看,這些發(fā)現(xiàn)為改進(jìn)現(xiàn)有AI系統(tǒng)提供了直接的指導(dǎo)。對(duì)于那些需要處理科學(xué)問題的AI應(yīng)用,與其單純追求更強(qiáng)的推理能力,不如考慮如何為模型提供高質(zhì)量的外部知識(shí)支持。這種方法的成本效益比可能遠(yuǎn)高于從頭訓(xùn)練更大的推理模型。

研究團(tuán)隊(duì)還發(fā)現(xiàn),知識(shí)配料的來源對(duì)效果有顯著影響。來自強(qiáng)推理模型的知識(shí)配料比來自基礎(chǔ)模型的知識(shí)配料更加有效,即使兩者在原始知識(shí)掌握上并無顯著差異。這表明知識(shí)的表達(dá)形式和組織結(jié)構(gòu)對(duì)模型的利用效率具有重要影響。

這個(gè)發(fā)現(xiàn)啟發(fā)了一種新的模型改進(jìn)策略:通過訓(xùn)練專門的"知識(shí)提取器"來為其他模型提供高質(zhì)量的知識(shí)支持。這種分工合作的方式就像是建立了AI系統(tǒng)的"專家咨詢網(wǎng)絡(luò)",每個(gè)模型都能在自己擅長的領(lǐng)域發(fā)揮最大價(jià)值。

從更廣的視角來看,這項(xiàng)研究挑戰(zhàn)了當(dāng)前AI發(fā)展的一些主流假設(shè)。它表明,在某些任務(wù)上,智能的表現(xiàn)可能更多地取決于信息的獲取和組織能力,而不是純粹的計(jì)算和推理能力。這種認(rèn)知轉(zhuǎn)變可能會(huì)影響整個(gè)AI領(lǐng)域的研究方向和資源配置。

說到底,這項(xiàng)來自耶魯大學(xué)的研究就像是給AI科學(xué)推理能力做了一次全面的"體檢",結(jié)果發(fā)現(xiàn)問題的根源可能與我們之前的診斷截然不同。模型們并不是缺乏"思考能力",而是在"記憶檢索"方面存在困難。這個(gè)發(fā)現(xiàn)不僅改變了我們對(duì)現(xiàn)有AI系統(tǒng)的理解,也為未來的發(fā)展指明了新的方向。

當(dāng)我們回顧這整個(gè)研究歷程時(shí),可以看到它不僅僅是一項(xiàng)學(xué)術(shù)研究,更像是一次科學(xué)探險(xiǎn)。研究團(tuán)隊(duì)從最初的困惑出發(fā),通過巧妙的實(shí)驗(yàn)設(shè)計(jì)和深入的分析,最終發(fā)現(xiàn)了隱藏在AI科學(xué)推理能力背后的真相。這個(gè)真相可能會(huì)改變我們構(gòu)建和使用AI系統(tǒng)的方式,讓未來的AI助手在科學(xué)領(lǐng)域發(fā)揮更大的作用。

對(duì)于普通人來說,這項(xiàng)研究的意義在于它讓我們更好地理解了AI的能力邊界和改進(jìn)方向。當(dāng)我們使用AI工具處理科學(xué)問題時(shí),可以更有針對(duì)性地提供背景信息和相關(guān)知識(shí),從而獲得更好的結(jié)果。同時(shí),這項(xiàng)研究也預(yù)示著未來的AI系統(tǒng)可能會(huì)變得更加智能和實(shí)用,特別是在需要專業(yè)知識(shí)的領(lǐng)域。

有興趣深入了解這項(xiàng)研究細(xì)節(jié)的讀者,可以通過訪問研究團(tuán)隊(duì)的GitHub頁面(https://github.com/yale-nlp/SciReas-Eval)獲取更多技術(shù)資料和數(shù)據(jù),或查閱發(fā)表在arXiv上的完整論文(編號(hào):arXiv:2508.19202)。

Q&A

Q1:SCIREAS評(píng)估體系和傳統(tǒng)的科學(xué)AI測(cè)試有什么不同?

A:SCIREAS將原本分散的10個(gè)科學(xué)基準(zhǔn)整合到一個(gè)標(biāo)準(zhǔn)化平臺(tái)上,覆蓋物理、化學(xué)、生物、醫(yī)學(xué)等8個(gè)科學(xué)領(lǐng)域,包含15567個(gè)精選問題。與傳統(tǒng)測(cè)試相比,它不僅提供統(tǒng)一的評(píng)估標(biāo)準(zhǔn),還能通過SCIREAS-PRO子集專門識(shí)別真正需要復(fù)雜推理的問題,避免了單個(gè)基準(zhǔn)測(cè)試的局限性。

Q2:KRUX框架是如何區(qū)分AI模型的知識(shí)儲(chǔ)備和推理能力的?

A:KRUX通過"知識(shí)配料"技術(shù)來分離這兩種能力。研究團(tuán)隊(duì)從模型的推理過程中提取關(guān)鍵知識(shí)點(diǎn),然后將這些知識(shí)點(diǎn)提供給其他模型進(jìn)行測(cè)試。如果模型在獲得知識(shí)配料后表現(xiàn)顯著提升,說明原本的問題在于知識(shí)檢索;如果提升有限,則說明推理能力是瓶頸。

Q3:為什么基礎(chǔ)模型加上外部知識(shí)后能超越推理訓(xùn)練模型?

A:研究發(fā)現(xiàn),AI模型在科學(xué)推理中的主要困難不是缺乏推理能力,而是無法有效檢索和激活其內(nèi)部已有的相關(guān)知識(shí)。當(dāng)給基礎(chǔ)模型提供高質(zhì)量的外部知識(shí)支持時(shí),它們就能展現(xiàn)出強(qiáng)大的問題解決能力,這就像是給一個(gè)擁有豐富知識(shí)但記憶混亂的學(xué)者提供了完美的參考資料。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-