av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 大規(guī)模推理能力如何提升大語言模型的事實(shí)準(zhǔn)確性:從思考長短與可靠性角度的實(shí)證研究

大規(guī)模推理能力如何提升大語言模型的事實(shí)準(zhǔn)確性:從思考長短與可靠性角度的實(shí)證研究

2025-07-08 09:41
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-08 09:41 ? 科技行者

你是否好奇過,當(dāng)AI語言模型像人類一樣"思考"更久時(shí),它們的回答是否會變得更加準(zhǔn)確?丹麥奧爾堡大學(xué)計(jì)算機(jī)科學(xué)系的Mike Zhang、Johannes Bjerva和Russa Biswas三位研究者就對這個(gè)問題進(jìn)行了深入探索。他們的研究成果已于2025年5月16日發(fā)表在arXiv預(yù)印本平臺(arXiv:2505.11140v1),這項(xiàng)研究揭示了推理過程的擴(kuò)展如何影響大語言模型回答事實(shí)性問題的準(zhǔn)確度。

想象一下,如果你遇到一個(gè)復(fù)雜的問題,例如"2020年歐盟的人口總數(shù)是多少?",你可能會先回憶你知道的信息,然后進(jìn)行一連串的推理:"歐盟大約有27個(gè)成員國,主要國家如德國有8000多萬人口,法國有6000多萬人口..."等等。大語言模型也可以采用類似的方式,通過一步步地"思考"來得出答案。但問題是,讓AI模型進(jìn)行更長時(shí)間的思考真的會讓它的回答更加準(zhǔn)確嗎?

我們都知道,在解決數(shù)學(xué)問題時(shí),仔細(xì)思考每一步通常會帶來更準(zhǔn)確的結(jié)果。但在處理現(xiàn)實(shí)世界的事實(shí)問題時(shí),例如"哪個(gè)科學(xué)家發(fā)明了電燈泡?"或"日本的首都是哪里?",更長的推理過程是否同樣有效呢?這正是此項(xiàng)研究要探索的核心問題。

研究團(tuán)隊(duì)構(gòu)建了一個(gè)龐大的實(shí)驗(yàn)框架,分析了長推理過程如何影響大語言模型在開放域問答任務(wù)中的事實(shí)準(zhǔn)確性。他們從最先進(jìn)的推理模型中提取思考軌跡,利用知識圖譜增強(qiáng)這些軌跡,然后對各種規(guī)模的模型進(jìn)行微調(diào),最終通過六個(gè)不同的基準(zhǔn)數(shù)據(jù)集(共22.6K個(gè)問題)進(jìn)行測試。整體實(shí)驗(yàn)包括168次運(yùn)行,生成了約170萬個(gè)推理軌跡!這就像是讓AI在回答問題時(shí)"放聲思考",然后研究者們仔細(xì)分析這些思考過程的價(jià)值。

這項(xiàng)研究不僅揭示了推理能力擴(kuò)展的價(jià)值,還提出了一種名為"fs1"的新方法,利用知識圖譜路徑來增強(qiáng)模型的事實(shí)推理能力。它就像是給AI提供了一本可查閱的百科全書,讓它在思考時(shí)能夠參考可靠的信息源,而不僅僅依賴自己"記憶"中的知識。

接下來,讓我們深入了解這項(xiàng)研究的具體內(nèi)容,看看研究團(tuán)隊(duì)如何設(shè)計(jì)實(shí)驗(yàn)、收集數(shù)據(jù)并得出結(jié)論,以及這對我們理解和改進(jìn)AI系統(tǒng)有何啟示。

一、研究背景:為什么研究推理與事實(shí)準(zhǔn)確性?

想象一下,你在解決一道復(fù)雜的數(shù)學(xué)題。你會怎么做?通常,你會一步步地思考,寫下中間步驟,檢查每一步的正確性,必要時(shí)回過頭來修正錯(cuò)誤,直到得出最終答案。這個(gè)過程就像是你大腦中的"思考"過程。

最近的研究表明,大語言模型(LLM)可以通過類似的"思考過程"來提高其解決復(fù)雜問題的能力。例如,Muennighoff等人在2025年的研究表明,通過讓模型生成長思考鏈并在推理過程中使用額外計(jì)算資源,模型在數(shù)學(xué)推理任務(wù)上的表現(xiàn)得到了顯著提升。這就像是給AI更多的"思考時(shí)間",讓它能夠更仔細(xì)地分析問題。

然而,一個(gè)關(guān)鍵問題仍然存在:這種長推理過程對于提高模型在處理事實(shí)性問題時(shí)的準(zhǔn)確度是否同樣有效?例如,當(dāng)模型被問到"哪位藝術(shù)家創(chuàng)作了星空"或"埃菲爾鐵塔位于哪個(gè)城市"時(shí),更長的推理鏈?zhǔn)欠駮砀鼫?zhǔn)確的答案?

張、比爾瓦和比斯瓦斯的研究就是要回答這個(gè)問題。他們特別關(guān)注復(fù)雜的多跳問答場景,這類問題需要模型連接多個(gè)信息點(diǎn)才能得出答案。例如,"馬克·扎克伯格創(chuàng)辦的公司總部位于哪個(gè)州?"需要模型先知道扎克伯格創(chuàng)辦了Facebook,然后知道Facebook總部在加利福尼亞州。

研究團(tuán)隊(duì)的方法與眾不同之處在于,他們不僅關(guān)注推理過程的長度,還嘗試通過知識圖譜來增強(qiáng)推理的質(zhì)量。知識圖譜是一種結(jié)構(gòu)化的知識表示,包含實(shí)體(如人物、地點(diǎn)、組織)和這些實(shí)體之間的關(guān)系。通過將知識圖譜引入推理過程,模型可以更好地將其推理建立在可驗(yàn)證的事實(shí)基礎(chǔ)上,而不僅僅依賴于它在訓(xùn)練期間學(xué)到的知識。

該研究在實(shí)踐上的重要性在于:如果長推理過程確實(shí)提高了事實(shí)準(zhǔn)確性,那么我們可以通過簡單地增加模型在推理上的計(jì)算資源來提高其在回答事實(shí)性問題時(shí)的可靠性,而無需收集更多的訓(xùn)練數(shù)據(jù)或訓(xùn)練更大的模型。這就像是通過更有效地使用現(xiàn)有資源來提高AI的表現(xiàn),而不是簡單地投入更多資源。

二、研究方法:從推理軌跡提取到知識增強(qiáng)

研究團(tuán)隊(duì)的方法可以想象成為AI大語言模型設(shè)計(jì)了一套"思考訓(xùn)練計(jì)劃",并研究這種訓(xùn)練如何影響它們回答事實(shí)性問題的準(zhǔn)確度。這個(gè)過程包括幾個(gè)關(guān)鍵步驟:提取推理軌跡、用知識圖譜增強(qiáng)這些軌跡、微調(diào)模型,以及在各種基準(zhǔn)測試上評估性能。

首先,研究者們需要收集AI的"思考過程"。他們選擇了ComplexWebQuestions (CWQ)數(shù)據(jù)集作為起點(diǎn),這是一個(gè)專門設(shè)計(jì)用于測試復(fù)雜多跳問題的數(shù)據(jù)集。這些問題就像是多層拼圖,需要連接多個(gè)信息點(diǎn)才能找到答案。例如,問題可能是"哪位西班牙裔藝術(shù)家參加了Stars Dance巡回演唱會?",需要模型先確定誰舉辦了Stars Dance巡回演唱會,然后判斷這個(gè)人的族裔背景。

研究團(tuán)隊(duì)使用了兩個(gè)先進(jìn)的推理模型——QwQ-32B和Deepseek-R1(671B)——來回答這些問題,并記錄它們的思考過程。這些思考過程被稱為"推理軌跡"(rt),記錄了模型從問題到答案的整個(gè)思考鏈。這就像是讓一個(gè)優(yōu)秀的學(xué)生在解題時(shí)把每一步思考都寫下來,然后用這些筆記來教其他學(xué)生如何思考。

但研究者們并不滿足于簡單收集這些推理軌跡。他們注意到,即使是先進(jìn)的模型在推理過程中也可能包含事實(shí)錯(cuò)誤。為了解決這個(gè)問題,他們想出了一個(gè)創(chuàng)新方法:利用知識圖譜來增強(qiáng)推理軌跡。

想象一下,普通推理模型就像一個(gè)只依靠記憶來回答問題的學(xué)生,而增強(qiáng)后的模型則像一個(gè)可以查閱百科全書的學(xué)生。研究團(tuán)隊(duì)使用Wikidata(一個(gè)大型結(jié)構(gòu)化知識庫)中的信息來"指導(dǎo)"模型的推理。他們將問題中涉及的實(shí)體映射到Wikidata中的對應(yīng)實(shí)體,然后提取相關(guān)的知識圖譜路徑。例如,對于Stars Dance巡回演唱會的問題,他們可能提取出這樣的路徑: ""

這些知識圖譜路徑被用來"引導(dǎo)"模型的推理,但不直接給出答案。研究者們使用這樣的提示:"回答問題時(shí),請利用以下線性化圖譜作為推理靈感,而不是唯一答案:[知識圖譜路徑]"。通過這種方式增強(qiáng)的推理軌跡被稱為"fs1"。

研究表明,fs1推理軌跡在準(zhǔn)確性方面明顯優(yōu)于原始推理軌跡。例如,使用QwQ-32B生成的原始推理軌跡的精確匹配準(zhǔn)確率為0.46,而使用fs1增強(qiáng)后,準(zhǔn)確率提高到了0.63。這相當(dāng)于將錯(cuò)誤率減少了約三分之一!

接下來,研究團(tuán)隊(duì)使用這些高質(zhì)量的推理軌跡來微調(diào)不同大小的模型,從最小的0.5B參數(shù)到最大的32B參數(shù)。這就像是用優(yōu)秀學(xué)生的思考方式來教導(dǎo)其他學(xué)生,希望他們能學(xué)會類似的推理技巧。

最后,他們在六個(gè)不同的問答基準(zhǔn)數(shù)據(jù)集上評估了這些微調(diào)模型的性能,共計(jì)22.6K個(gè)問題。這些數(shù)據(jù)集涵蓋了各種類型的事實(shí)性問題,從時(shí)間相關(guān)的問題到多語言問題,構(gòu)成了一個(gè)全面的測試場景。

三、研究發(fā)現(xiàn):思考更久真的有用嗎?

研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)得出了幾個(gè)關(guān)鍵發(fā)現(xiàn),解答了長推理過程是否提高事實(shí)準(zhǔn)確性的疑問。這些發(fā)現(xiàn)可以幫助我們理解AI"思考"的價(jià)值,以及如何最有效地利用計(jì)算資源來提高模型性能。

首先,研究表明,對于較小的模型(0.5B-1.5B參數(shù)),長推理確實(shí)能顯著提高事實(shí)準(zhǔn)確性。想象一下,這就像是給智力較一般的學(xué)生提供詳細(xì)的解題步驟,這些學(xué)生能夠從結(jié)構(gòu)化的思考過程中獲益良多。例如,0.5B參數(shù)的模型在經(jīng)過推理軌跡微調(diào)后,在CWQ數(shù)據(jù)集上的準(zhǔn)確率從19.2%提高到了24.3%,這是一個(gè)顯著的提升。

然而,隨著模型規(guī)模的增大(3B參數(shù)以上),簡單的推理微調(diào)帶來的改進(jìn)變得不那么明顯。這就像是高智商的學(xué)生已經(jīng)掌握了基本的思考技巧,僅僅教他們常規(guī)的思考方法無法帶來太大提升。對于這些較大的模型,知識圖譜增強(qiáng)(fs1)的價(jià)值也相應(yīng)減小。

一個(gè)重要的發(fā)現(xiàn)是測試時(shí)計(jì)算資源擴(kuò)展(test-time scaling)的價(jià)值。研究團(tuán)隊(duì)探索了兩種擴(kuò)展方式:并行擴(kuò)展和順序擴(kuò)展。

并行擴(kuò)展就像是讓多個(gè)學(xué)生獨(dú)立解決同一個(gè)問題,然后采用多數(shù)投票或選擇最佳答案。研究顯示,對于相同的計(jì)算預(yù)算,讓模型生成多個(gè)答案然后取最佳結(jié)果,比讓模型進(jìn)行更長時(shí)間的推理更有效。例如,在CWQ數(shù)據(jù)集上,當(dāng)生成16個(gè)答案并采用"any@k"策略(只要有一個(gè)答案正確就算正確)時(shí),準(zhǔn)確率可以從單次推理的約50%提高到85%左右。

順序擴(kuò)展則類似于給學(xué)生更多的時(shí)間來思考一個(gè)問題。研究團(tuán)隊(duì)通過"預(yù)算強(qiáng)制"實(shí)驗(yàn)探索了推理長度對準(zhǔn)確性的影響。他們發(fā)現(xiàn),隨著推理令牌預(yù)算從256增加到2048,準(zhǔn)確率穩(wěn)步提高,但在2048令牌之后趨于平穩(wěn)。這表明,對于事實(shí)推理任務(wù),中等長度的思考(大約2K令牌)可能是最優(yōu)的,提供了準(zhǔn)確性和效率之間的良好平衡。

這一發(fā)現(xiàn)與常識相符:思考太少可能導(dǎo)致錯(cuò)過重要信息,但思考太多可能引入噪音或?qū)е?過度思考"。這就像人類在解決問題時(shí),適量的思考是有幫助的,但過度分析有時(shí)反而會導(dǎo)致混淆。

另一個(gè)重要發(fā)現(xiàn)是知識圖譜增強(qiáng)(fs1)在提高推理質(zhì)量方面的價(jià)值。通過將可驗(yàn)證的事實(shí)引入推理過程,模型能夠生成更加準(zhǔn)確的答案。這表明,即使是先進(jìn)的大語言模型,在處理事實(shí)性問題時(shí)也能從外部知識源中獲益。

總體而言,研究結(jié)果支持這樣一個(gè)觀點(diǎn):適度的長推理結(jié)合知識增強(qiáng)和測試時(shí)計(jì)算擴(kuò)展可以顯著提高大語言模型在事實(shí)性問答任務(wù)上的性能,特別是對于較小的模型。對于大型模型,雖然簡單的推理微調(diào)帶來的收益有限,但它們?nèi)匀豢梢詮臏y試時(shí)的計(jì)算擴(kuò)展中獲益。

四、案例分析:從錯(cuò)誤到正確的轉(zhuǎn)變

為了更具體地理解研究成果,讓我們看一個(gè)實(shí)際例子,展示不同方法如何影響模型回答問題的準(zhǔn)確性。

假設(shè)問題是:"參加Stars Dance巡回演唱會的西班牙裔藝術(shù)家的族裔是什么?"

在原始的指令微調(diào)模型中,模型可能直接回答:"墨西哥裔"。這是一個(gè)錯(cuò)誤的回答,因?yàn)闆]有進(jìn)行充分的推理。

使用鏈?zhǔn)剿伎挤椒〞r(shí),模型會嘗試更結(jié)構(gòu)化地思考,例如:"讓我一步步思考...我的答案是古巴裔。"但這仍然是錯(cuò)誤的。

使用標(biāo)準(zhǔn)思考方法(rt)時(shí),模型會進(jìn)行更詳細(xì)的思考:"好的,我需要...(思考過程)...星Dance巡回演唱會的西班牙裔藝術(shù)家是羅密歐·桑托斯,他的族裔是多米尼加裔。"這也是錯(cuò)誤的。

然而,當(dāng)使用知識圖譜增強(qiáng)的思考方法(fs1)時(shí),模型能夠接觸到實(shí)際的知識:""和""。這讓模型能夠基于可驗(yàn)證的事實(shí)進(jìn)行推理,最終給出正確答案:"意大利裔美國人"。

這個(gè)例子展示了如何通過結(jié)構(gòu)化思考和知識增強(qiáng)來提高模型的事實(shí)準(zhǔn)確性。當(dāng)模型能夠參考可靠的知識源并有足夠的"思考空間"時(shí),它能夠從錯(cuò)誤的初始直覺轉(zhuǎn)變?yōu)檎_的答案。

研究中的許多實(shí)例展示了類似的模式:模型在簡單回答時(shí)可能犯錯(cuò),但通過深入思考并參考可靠知識,它們能夠糾正初始錯(cuò)誤并達(dá)到更高的準(zhǔn)確性。這與人類的認(rèn)知過程相似——我們也常常通過深入思考和查閱參考資料來改進(jìn)最初的判斷。

五、研究啟示:推理、知識和計(jì)算的價(jià)值

這項(xiàng)研究為AI系統(tǒng)設(shè)計(jì)者和用戶提供了幾個(gè)重要啟示,幫助我們理解如何最有效地利用大語言模型處理事實(shí)性問題。

首先,研究清楚地表明,對于較小的模型(0.5B-1.5B參數(shù)),教導(dǎo)它們?nèi)绾瓮评砜梢燥@著提高事實(shí)準(zhǔn)確性。這意味著,即使沒有龐大的計(jì)算資源來訓(xùn)練超大模型,我們也可以通過教導(dǎo)更小的模型進(jìn)行結(jié)構(gòu)化思考來提高它們的性能。這就像是教給普通學(xué)生良好的解題方法,即使他們的基礎(chǔ)知識有限,也能取得更好的成績。

其次,研究顯示,知識圖譜增強(qiáng)是提高推理質(zhì)量的有效方法。通過將可驗(yàn)證的事實(shí)引入推理過程,模型能夠生成更加準(zhǔn)確的答案。這表明,未來的AI系統(tǒng)可能需要更緊密地結(jié)合結(jié)構(gòu)化知識庫和大語言模型,而不是僅僅依賴于模型內(nèi)部"記憶"的知識。

第三,測試時(shí)計(jì)算擴(kuò)展是提高事實(shí)準(zhǔn)確性的強(qiáng)大工具。特別是,并行擴(kuò)展(生成多個(gè)答案并選擇最佳結(jié)果)似乎是一種特別有效的策略。這對實(shí)際應(yīng)用有重要啟示:在資源允許的情況下,讓模型生成多個(gè)候選答案然后進(jìn)行選擇可能是提高準(zhǔn)確性的簡單而有效的方法。

第四,長推理不是萬能的。研究發(fā)現(xiàn),超過2K令牌的推理帶來的額外收益有限。這表明,對于事實(shí)推理任務(wù),存在一個(gè)最優(yōu)的推理長度,超過這個(gè)長度不會帶來顯著改進(jìn)。這有助于指導(dǎo)AI系統(tǒng)的設(shè)計(jì)者如何最有效地分配計(jì)算資源。

最后,研究結(jié)果表明,沒有一種通用的最佳策略適用于所有模型大小和任務(wù)。較小的模型從長推理和知識增強(qiáng)中獲益更多,而較大的模型則從測試時(shí)計(jì)算擴(kuò)展中獲益更多。這意味著,AI系統(tǒng)的設(shè)計(jì)應(yīng)該考慮模型大小、任務(wù)類型和可用計(jì)算資源,采用定制化的策略來最大化性能。

六、未來方向:推理、知識和事實(shí)性的新前沿

雖然這項(xiàng)研究在理解推理對事實(shí)準(zhǔn)確性的影響方面取得了重要進(jìn)展,但它也揭示了一些值得進(jìn)一步探索的方向。

一個(gè)重要的后續(xù)研究方向是開發(fā)更好的流程級驗(yàn)證方法。目前,大多數(shù)驗(yàn)證推理質(zhì)量的工作集中在數(shù)學(xué)領(lǐng)域,因?yàn)樵跀?shù)學(xué)中,我們可以清楚地檢查每一步是否正確。在事實(shí)推理中,驗(yàn)證中間步驟的正確性要困難得多。未來的研究可能需要開發(fā)專門的事實(shí)性獎勵模型,能夠驗(yàn)證推理過程中的每一步,而不僅僅是最終答案。

另一個(gè)有前途的方向是探索混合擴(kuò)展策略的潛力。研究表明,并行擴(kuò)展和順序擴(kuò)展各有優(yōu)勢。未來的系統(tǒng)可能采用混合策略,例如,生成多個(gè)中等長度的推理軌跡,而不是一個(gè)非常長的軌跡或多個(gè)簡短的直接答案。

此外,知識圖譜與大語言模型的更緊密結(jié)合也是一個(gè)值得探索的方向。雖然fs1方法展示了知識圖譜在引導(dǎo)推理方面的價(jià)值,但未來的研究可能探索更深層次的整合,例如,在生成過程中實(shí)時(shí)查詢知識圖譜,或者訓(xùn)練模型直接生成可以在知識圖譜中驗(yàn)證的事實(shí)陳述。

最后,研究團(tuán)隊(duì)發(fā)布的所有代碼、模型和170萬個(gè)推理軌跡為未來的研究提供了寶貴資源。這些數(shù)據(jù)可以用于訓(xùn)練更好的獎勵模型,研究不同推理模式的特征,或者開發(fā)新的事實(shí)性驗(yàn)證方法。

七、結(jié)論:推理能力擴(kuò)展的價(jià)值與限制

總結(jié)這項(xiàng)研究,我們可以得出幾個(gè)關(guān)鍵結(jié)論:

首先,推理能力的擴(kuò)展確實(shí)可以提高大語言模型在事實(shí)性問答任務(wù)上的準(zhǔn)確性,特別是對于較小的模型。這表明,教導(dǎo)模型如何思考可以部分彌補(bǔ)它們在參數(shù)量上的劣勢。

其次,知識圖譜增強(qiáng)是提高推理質(zhì)量的有效方法。通過將可驗(yàn)證的事實(shí)引入推理過程,模型能夠生成更加準(zhǔn)確的答案,這表明未來的AI系統(tǒng)可能需要更緊密地結(jié)合結(jié)構(gòu)化知識和大語言模型。

第三,測試時(shí)計(jì)算擴(kuò)展,特別是并行擴(kuò)展,是提高事實(shí)準(zhǔn)確性的強(qiáng)大工具。在資源允許的情況下,生成多個(gè)答案并選擇最佳結(jié)果可以顯著提高準(zhǔn)確性。

然而,研究也揭示了長推理的局限性。對于較大的模型,簡單的推理微調(diào)帶來的改進(jìn)有限,超過2K令牌的推理也不會帶來顯著收益。這表明,推理能力擴(kuò)展不是解決所有事實(shí)性問題的萬能鑰匙,而是需要與其他方法結(jié)合使用。

總的來說,這項(xiàng)研究為理解和提高大語言模型的事實(shí)準(zhǔn)確性提供了重要見解。通過適當(dāng)?shù)耐评?、知識增強(qiáng)和測試時(shí)計(jì)算擴(kuò)展,我們可以使AI系統(tǒng)在回答事實(shí)性問題時(shí)變得更加可靠,這對于AI在教育、研究和決策支持等領(lǐng)域的應(yīng)用具有重要意義。

如果你對這項(xiàng)研究感興趣,可以在arXiv上查看完整論文(arXiv:2505.11140v1),或訪問研究團(tuán)隊(duì)的GitHub倉庫(https://github.com/jjzha/fs1)和Hugging Face頁面(https://huggingface.co/jjzha/fs1)了解更多細(xì)節(jié)。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-