av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 華東師范大學(xué)研究團(tuán)隊讓AI預(yù)測自己說話的"靠譜程度":首次實現(xiàn)細(xì)粒度實時信心評估

華東師范大學(xué)研究團(tuán)隊讓AI預(yù)測自己說話的"靠譜程度":首次實現(xiàn)細(xì)粒度實時信心評估

2025-09-09 10:55
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-09 10:55 ? 科技行者

當(dāng)我們在日常交流中不太確定某個答案時,通常會說"我覺得大概是這樣"或"我不太確定"。但是,目前的大型語言模型卻缺乏這種自我意識能力——它們往往對錯誤答案也表現(xiàn)出極高的自信,就像一個永遠(yuǎn)不會懷疑自己的人。這項由華東師范大學(xué)人工智能教育研究院韓金義、李廷云等研究者以及復(fù)旦大學(xué)數(shù)據(jù)科學(xué)學(xué)院、阿里巴巴等多個機(jī)構(gòu)合作完成的研究,發(fā)表于2024年8月的arXiv預(yù)印本平臺,為解決這個關(guān)鍵問題提出了突破性方案。有興趣深入了解的讀者可以通過GitHub項目地址https://github.com/JinyiHan99/FineCE訪問相關(guān)代碼和數(shù)據(jù)。

這項研究的核心創(chuàng)新在于開發(fā)了一種名為FineCE的方法,它能讓AI模型在生成文本的過程中持續(xù)評估自己答案的可靠性。這就像給AI裝上了一個"內(nèi)心獨白系統(tǒng)",讓它能夠在回答問題時實時反思"我對這個答案有多大把握"。

傳統(tǒng)的AI信心評估方法存在明顯缺陷。有些方法只在AI完全拒絕回答和給出答案之間做簡單選擇,就像一個要么保持沉默、要么侃侃而談的人,缺乏中間狀態(tài)的表達(dá)。另一些方法則只在生成完整答案后給出一個總體信心分?jǐn)?shù),就像考完試后才能評估自己的表現(xiàn),無法在答題過程中及時調(diào)整策略。

研究團(tuán)隊發(fā)現(xiàn),現(xiàn)有方法普遍存在三大挑戰(zhàn)。首先是如何教會AI表達(dá)細(xì)粒度的信心水平,因為AI系統(tǒng)本身并不具備這種天然能力,需要專門的訓(xùn)練。其次是如何在生成過程中提供準(zhǔn)確無偏的信心估計,因為AI在生成時無法預(yù)知后續(xù)內(nèi)容,僅憑當(dāng)前部分輸出容易產(chǎn)生偏差。最后是如何確定在生成過程中的最佳信心評估位置,因為在每個詞匯生成后都進(jìn)行評估既不必要也不高效。

為了解決這些挑戰(zhàn),研究團(tuán)隊設(shè)計了一套完整的解決方案。他們首先構(gòu)建了一個基于蒙特卡羅采樣的訓(xùn)練數(shù)據(jù)生成流程,這種方法就像讓AI對同一個問題反復(fù)練習(xí)多次,然后根據(jù)答對的比例來確定信心分?jǐn)?shù)。具體來說,對于每個問題,他們讓AI生成30個不同的答案,然后計算正確答案的比例作為信心分?jǐn)?shù)。

這個數(shù)據(jù)構(gòu)建過程特別巧妙。研究團(tuán)隊不僅為完整問題生成信心分?jǐn)?shù),還為問題的部分答案生成相應(yīng)的信心評估。他們采用了一種漸進(jìn)式的方法,先對完整答案進(jìn)行截斷得到部分答案,然后對這些部分答案進(jìn)行語義聚類,選擇代表性的片段繼續(xù)生成后續(xù)內(nèi)容。這種方法顯著降低了計算復(fù)雜度,將原本指數(shù)增長的計算成本降低到線性水平。

在訓(xùn)練技術(shù)方面,研究團(tuán)隊比較了兩種不同的方法。一種是在模型末端添加額外的分類頭來輸出信心分?jǐn)?shù),另一種是利用指令微調(diào)讓模型直接生成信心評估。實驗結(jié)果表明,指令微調(diào)方法表現(xiàn)更優(yōu),因為它能夠利用模型的自然語言生成能力,產(chǎn)生更可解釋和人類可讀的信心估計。

為了平衡性能和效率,研究團(tuán)隊提出了三種確定最佳信心評估位置的策略。段落結(jié)尾校準(zhǔn)在自然語言邊界(如段落結(jié)尾)進(jìn)行評估,既保持了語義連貫性,又最小化了對生成流程的干擾。周期性校準(zhǔn)按固定間隔(例如每50個詞匯)進(jìn)行評估,提供了確定性的監(jiān)控機(jī)制。熵值校準(zhǔn)則在模型輸出不確定性超過預(yù)設(shè)閾值時觸發(fā)評估,實現(xiàn)了自適應(yīng)的信心監(jiān)控。

研究團(tuán)隊還引入了一個創(chuàng)新的后向信心整合策略。這種方法利用后續(xù)生成的文本信息來修正當(dāng)前位置的信心估計,就像在寫作過程中根據(jù)后續(xù)內(nèi)容的發(fā)展來重新評估前面觀點的可靠性。具體而言,該策略通過遞歸方式將未來多個位置的信心信息融合到當(dāng)前評估中,從而提供更全局化和準(zhǔn)確的信心估計。

在實驗驗證方面,研究團(tuán)隊在六個不同的數(shù)據(jù)集上進(jìn)行了全面測試,包括數(shù)學(xué)推理任務(wù)GSM8K、常識問答CommonsenseQA、知識問答TriviaQA、高難度數(shù)學(xué)競賽AIME24、多任務(wù)語言理解MMLU以及開放域問答NQ-Open。實驗使用了三個廣泛應(yīng)用的開源模型:Llama2-13B、Llama3.1-8B和Qwen2.5-7B。

實驗結(jié)果令人印象深刻。FineCE在所有測試條件下都顯著優(yōu)于現(xiàn)有方法,在AUROC指標(biāo)上普遍超過70%,比基線方法高出10-15個百分點。特別值得注意的是,在Llama2-13B模型上的GSM8K數(shù)據(jù)集測試中,F(xiàn)ineCE達(dá)到了77.8%的AUROC分?jǐn)?shù)和5.1%的ECE(期望校準(zhǔn)誤差),相比最強(qiáng)基線方法實現(xiàn)了實質(zhì)性改進(jìn)。

更重要的是,F(xiàn)ineCE能夠在生成過程的早期階段就提供可靠的信心估計。實驗表明,僅使用約30%的生成內(nèi)容,該方法就能準(zhǔn)確預(yù)測最終答案的正確性。在不同類型的任務(wù)中,數(shù)學(xué)推理任務(wù)如GSM8K需要的評估點較早(30.4%),而知識密集型或常識推理任務(wù)如CSQA和TriviaQA則需要稍多的上下文信息(約34%)。

在下游應(yīng)用驗證中,研究團(tuán)隊實施了基于信心的過濾策略,只保留信心分?jǐn)?shù)超過預(yù)定閾值的回答。這種策略在GSM8K數(shù)據(jù)集上實現(xiàn)了39.5%的準(zhǔn)確率提升,證明了FineCE作為輸出質(zhì)量控制機(jī)制的有效性,特別適用于要求計算效率和可靠性的部署場景。

研究團(tuán)隊還進(jìn)行了詳細(xì)的消融研究來驗證各組件的有效性。后向信心整合策略在所有模型和數(shù)據(jù)集組合中都表現(xiàn)出一致的改進(jìn)效果。隨著融合深度從0增加到2,ECE值顯著下降,在CSQA數(shù)據(jù)集上使用Llama2-7B模型時ECE從15.3降至12.6。同樣,增加融合寬度也帶來了逐步的校準(zhǔn)改進(jìn),在CSQA數(shù)據(jù)集上ECE降幅達(dá)到15%。

有趣的是,這些改進(jìn)在更大模型和更復(fù)雜推理任務(wù)上更加顯著。Llama2-13B比Llama2-7B從后向信心整合中獲得更多收益,表明該策略隨模型容量增加而變得更有效。CSQA相比GSM8K對融合寬度表現(xiàn)出更高的敏感性,說明知識密集型任務(wù)需要更廣泛的交叉注意力整合來捕獲多樣化的推理路徑。

在泛化能力方面,研究團(tuán)隊在OpenBookQA數(shù)據(jù)集上進(jìn)行了零樣本測試,結(jié)果顯示FineCE在ECE和AUROC指標(biāo)上都表現(xiàn)出優(yōu)異性能。更重要的是,觀察到模型信心估計與答案實際準(zhǔn)確性之間存在強(qiáng)烈正相關(guān)關(guān)系,高信心水平對應(yīng)更高的準(zhǔn)確性,證明該方法具有值得注意的泛化能力。

研究團(tuán)隊還探討了使用不同來源數(shù)據(jù)集進(jìn)行訓(xùn)練的效果。當(dāng)使用來自同一模型家族的不同模型構(gòu)建訓(xùn)練數(shù)據(jù)時,獲得的信心校準(zhǔn)性能與使用模型自身構(gòu)建的數(shù)據(jù)集非常接近,特別是在GSM8K和CSQA數(shù)據(jù)集上。這表明更大的模型可以有效指導(dǎo)較小模型學(xué)習(xí)表達(dá)信心,利用較小模型構(gòu)建訓(xùn)練數(shù)據(jù)可能是一種成本效益高的替代方案。

然而,當(dāng)使用來自不同模型家族的數(shù)據(jù)進(jìn)行訓(xùn)練時,結(jié)果呈現(xiàn)出任務(wù)依賴的特性。在GSM8K數(shù)據(jù)集上,使用其他模型構(gòu)建的訓(xùn)練數(shù)據(jù)性能較差,特別是在ECE值上差異顯著。而在CSQA數(shù)據(jù)集上,兩種方法之間的性能差異較小。這可能是因為不同模型在GSM8K數(shù)據(jù)集上的準(zhǔn)確率存在較大差異,使得這些模型構(gòu)建的信心訓(xùn)練數(shù)據(jù)難以有效遷移。

針對高度開放性問題,研究團(tuán)隊也承認(rèn)了當(dāng)前方法的局限性。對于"如何保持健康"這類缺乏明確答案約束的問題,由于其固有的模糊性和廣泛的潛在解決方案范圍,為可靠的信心估計帶來了重大挑戰(zhàn)。在300個隨機(jī)選擇的開放性問答數(shù)據(jù)上的測試顯示,該方法的ECE值達(dá)到65.66,表明在這類任務(wù)上仍有改進(jìn)空間。

這項研究的意義遠(yuǎn)不止技術(shù)層面的突破。在實際應(yīng)用中,具備準(zhǔn)確自我評估能力的AI系統(tǒng)能夠在不確定時及時停止生成,避免產(chǎn)生誤導(dǎo)性信息。這對于醫(yī)療咨詢、法律建議、教育輔導(dǎo)等關(guān)鍵領(lǐng)域尤為重要,因為錯誤信息可能造成嚴(yán)重后果。

從更廣闊的角度來看,這項工作為AI系統(tǒng)的自我意識和元認(rèn)知能力研究開辟了新的方向。正如人類在學(xué)習(xí)過程中逐漸培養(yǎng)出對自己知識邊界的認(rèn)知,AI系統(tǒng)也需要類似的能力來判斷何時應(yīng)該表達(dá)不確定性、尋求幫助或承認(rèn)知識的局限性。

研究團(tuán)隊提出的FineCE方法還為AI安全和可解釋性研究提供了有價值的工具。當(dāng)AI系統(tǒng)能夠準(zhǔn)確表達(dá)其信心水平時,用戶可以更好地理解和評估AI生成的內(nèi)容,從而做出更明智的決策。這種透明度對于建立人與AI之間的信任關(guān)系至關(guān)重要。

此外,這項研究還展示了如何通過巧妙的數(shù)據(jù)構(gòu)建和訓(xùn)練策略來解決復(fù)雜的AI能力培養(yǎng)問題。蒙特卡羅采樣結(jié)合漸進(jìn)式數(shù)據(jù)生成的方法,不僅確保了訓(xùn)練數(shù)據(jù)的質(zhì)量,還有效控制了計算成本。這種方法論對其他需要大規(guī)模數(shù)據(jù)訓(xùn)練的AI能力開發(fā)具有借鑒意義。

展望未來,這項研究為多個研究方向奠定了基礎(chǔ)。首先是將細(xì)粒度信心評估擴(kuò)展到更多模態(tài),如圖像生成、語音合成等領(lǐng)域。其次是探索信心評估與AI推理能力的深度整合,讓AI系統(tǒng)能夠根據(jù)信心水平動態(tài)調(diào)整推理策略。最后是研究如何將這種自我評估能力應(yīng)用于AI系統(tǒng)的持續(xù)學(xué)習(xí)和自我改進(jìn)。

說到底,這項研究解決的是AI時代一個根本性問題:如何讓機(jī)器知道自己不知道什么。正如蘇格拉底的名言"知道自己無知"是智慧的開始,讓AI系統(tǒng)具備準(zhǔn)確的自我評估能力,可能是通向真正智能系統(tǒng)的關(guān)鍵一步。當(dāng)AI不再是一個永遠(yuǎn)自信滿滿的回答機(jī)器,而是一個能夠謙遜地承認(rèn)不確定性的智能伙伴時,人與AI的協(xié)作將變得更加安全、可靠和富有成效。

Q&A

Q1:FineCE是什么?它解決了AI的什么問題?

A:FineCE是由華東師范大學(xué)等機(jī)構(gòu)開發(fā)的一種細(xì)粒度信心評估方法,專門解決大型語言模型缺乏自我意識、對錯誤答案也表現(xiàn)高度自信的問題。它能讓AI在生成文本過程中實時評估自己答案的可靠程度,就像給AI裝上了"內(nèi)心獨白系統(tǒng)"。

Q2:FineCE如何訓(xùn)練AI學(xué)會評估自己的信心?

A:研究團(tuán)隊使用蒙特卡羅采樣方法構(gòu)建訓(xùn)練數(shù)據(jù),讓AI對同一問題生成30個不同答案,然后根據(jù)正確答案的比例計算信心分?jǐn)?shù)。他們還采用漸進(jìn)式方法為部分答案生成信心評估,通過指令微調(diào)讓模型直接生成可解釋的信心估計。

Q3:FineCE在實際應(yīng)用中效果如何?有什么局限性?

A:實驗顯示FineCE在各項指標(biāo)上顯著優(yōu)于現(xiàn)有方法,僅用約30%的生成內(nèi)容就能準(zhǔn)確預(yù)測最終答案正確性,在GSM8K數(shù)據(jù)集上實現(xiàn)了39.5%的準(zhǔn)確率提升。但對于"如何保持健康"等高度開放性問題,該方法仍有改進(jìn)空間。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-