你有沒(méi)有好奇過(guò),當(dāng)AI告訴你某條新聞是"假的"時(shí),它到底有多確定?又是根據(jù)什么做出這個(gè)判斷的?當(dāng)不同證據(jù)相互矛盾時(shí),AI又是如何權(quán)衡的?哥本哈根大學(xué)的研究團(tuán)隊(duì)最近在這個(gè)問(wèn)題上取得了重要突破。
這項(xiàng)由哥本哈根大學(xué)的Jingyi Sun、Greta Warren(共同第一作者)、Irina Shklovski和Isabelle Augenstein教授共同完成的研究,發(fā)表于2025年5月的arXiv預(yù)印本平臺(tái)(arXiv:2505.17855v1),標(biāo)題為《解釋自動(dòng)化事實(shí)核查中的不確定性來(lái)源》(Explaining Sources of Uncertainty in Automated Fact-Checking)。
在我們?nèi)粘=佑|的信息海洋中,辨別真假變得越來(lái)越重要,也越來(lái)越困難。大型語(yǔ)言模型(LLMs)正在被越來(lái)越多地應(yīng)用于事實(shí)核查等高風(fēng)險(xiǎn)任務(wù)。然而,現(xiàn)有的自動(dòng)化事實(shí)核查系統(tǒng)通常只會(huì)告訴你一個(gè)結(jié)論("支持"、"反駁"或"中立"),以及一個(gè)數(shù)字化的置信度分?jǐn)?shù)(比如"我73%確定")。這種表達(dá)方式對(duì)用戶來(lái)說(shuō)往往難以理解和采取行動(dòng)。更重要的是,這些系統(tǒng)缺乏對(duì)不確定性來(lái)源的解釋,特別是當(dāng)面對(duì)矛盾證據(jù)時(shí)。
想象一下這個(gè)場(chǎng)景:你想核查"貓可以感染新冠病毒并將其傳播給其他貓"這一說(shuō)法。AI告訴你這個(gè)說(shuō)法是正確的,但它只有73%的把握。作為用戶,你不僅想知道AI為什么不是100%確定,更想了解是哪些證據(jù)讓它猶豫不決。是證據(jù)不足?還是證據(jù)之間存在沖突?
哥本哈根大學(xué)的研究團(tuán)隊(duì)開(kāi)發(fā)的CLUE(Conflict-&Agreement-aware Language-model Uncertainty Explanations)框架正是為解決這個(gè)問(wèn)題而生。這個(gè)框架不僅能告訴你AI的判斷及其確定程度,還能明確指出導(dǎo)致AI不確定性的具體證據(jù)沖突或一致點(diǎn)。
CLUE框架的獨(dú)特之處在于它采用了兩步走的方法:首先,以無(wú)監(jiān)督的方式識(shí)別文本中表達(dá)聲明-證據(jù)或證據(jù)之間沖突/一致關(guān)系的關(guān)鍵片段;然后,通過(guò)提示和注意力引導(dǎo),生成自然語(yǔ)言解釋,清晰表達(dá)這些關(guān)鍵交互如何影響模型的預(yù)測(cè)不確定性。
讓我們一起深入了解這項(xiàng)研究如何讓AI的事實(shí)核查變得更加透明和可理解。
一、為什么我們需要解釋AI的不確定性?
當(dāng)我們使用AI進(jìn)行事實(shí)核查時(shí),僅僅知道AI的判斷結(jié)果是遠(yuǎn)遠(yuǎn)不夠的。想象一下,你是一名專業(yè)事實(shí)核查員,正在調(diào)查一條關(guān)于新冠病毒的信息。AI告訴你:"這條信息是正確的,我73%確定。"這樣的回答對(duì)你幫助有限。你需要知道AI是基于什么證據(jù)做出這個(gè)判斷的,更重要的是,你需要知道為什么AI不是100%確定——是哪些因素導(dǎo)致了剩余的27%不確定性。
現(xiàn)有的解釋方法主要集中在兩個(gè)方面:一是提供數(shù)字化的不確定性分?jǐn)?shù)(如"我73%確定"),二是使用模糊表達(dá)(如"我不太確定,但...")。但研究表明,這兩種方式都存在問(wèn)題。數(shù)字化分?jǐn)?shù)難以被用戶理解和利用,而模糊表達(dá)則往往無(wú)法真實(shí)反映模型的不確定性,有時(shí)還會(huì)讓用戶高估模型的信心。
更重要的是,這些方法都沒(méi)有解釋不確定性的來(lái)源,特別是當(dāng)面對(duì)相互矛盾的證據(jù)時(shí)。在事實(shí)核查的實(shí)際工作中,事實(shí)核查員需要明確識(shí)別不確定性的來(lái)源(例如來(lái)自矛盾證據(jù)),才能有針對(duì)性地進(jìn)行驗(yàn)證。
這就是CLUE框架的創(chuàng)新之處。它不僅告訴你AI的判斷和確定程度,還能明確指出導(dǎo)致AI不確定性的具體證據(jù)沖突或一致點(diǎn)。這種方法能夠幫助用戶理解AI的推理過(guò)程,為后續(xù)的驗(yàn)證工作提供明確的方向。
舉個(gè)例子,在檢驗(yàn)"貓可以感染新冠病毒并將其傳播給其他貓"這一說(shuō)法時(shí),CLUE可能會(huì)指出:"證據(jù)1中提到'有可能通過(guò)家養(yǎng)寵物傳播SARS-CoV-2',而證據(jù)2中提到'沒(méi)有進(jìn)一步傳播給其他動(dòng)物或人類的事件',這一矛盾是導(dǎo)致模型不確定性的主要原因。"這樣的解釋讓用戶清楚地知道,不確定性來(lái)源于兩個(gè)證據(jù)之間的矛盾,并可以據(jù)此決定是否需要查找更多證據(jù)來(lái)解決這個(gè)矛盾。
二、CLUE框架:如何揭示AI的不確定性來(lái)源
CLUE框架的核心思想是通過(guò)識(shí)別文本片段之間的交互關(guān)系,揭示模型不確定性的來(lái)源。它的工作流程可以分為三個(gè)主要步驟:不確定性評(píng)分、沖突/一致提取和解釋生成。
### 1. 不確定性評(píng)分
首先,CLUE需要量化模型對(duì)特定輸入的不確定性程度。每個(gè)輸入實(shí)例包含三部分:一個(gè)聲明C和兩個(gè)證據(jù)片段E1、E2。模型會(huì)基于這些輸入預(yù)測(cè)一個(gè)標(biāo)簽(支持、反駁或中立)。
CLUE采用預(yù)測(cè)熵(predictive entropy)來(lái)量化模型的不確定性。預(yù)測(cè)熵基于模型輸出的概率分布計(jì)算:
對(duì)于每個(gè)候選標(biāo)簽yi(支持、反駁或中立),模型會(huì)給出一個(gè)概率P(yi|X)。CLUE通過(guò)計(jì)算這個(gè)概率分布的熵來(lái)量化不確定性:值越高,表示模型越不確定;值越低,表示模型越確定。
這就好比你在猜一個(gè)人心里想的數(shù)字。如果你覺(jué)得各種可能性差不多(概率分布平均),你的不確定性就高;如果你很確定是某個(gè)特定數(shù)字(概率分布集中),你的不確定性就低。
### 2. 沖突和一致性片段提取
確定了不確定性分?jǐn)?shù)后,CLUE的下一步是找出導(dǎo)致這種不確定性的文本片段交互。這一步是CLUE最創(chuàng)新的部分。
CLUE通過(guò)分析聲明和證據(jù)之間,以及不同證據(jù)之間的注意力模式來(lái)提取重要的片段交互。具體來(lái)說(shuō),它會(huì):
首先,找出模型最后一層中對(duì)答案預(yù)測(cè)最重要的注意力頭,獲取其注意力矩陣。 然后,計(jì)算跨部分的對(duì)稱化注意力分?jǐn)?shù),構(gòu)建一個(gè)基于注意力權(quán)重的二部分詞圖。 最后,使用Louvain算法將這個(gè)圖劃分為連續(xù)的文本片段,并計(jì)算每對(duì)片段之間的交互重要性。
這個(gè)過(guò)程有點(diǎn)像檢測(cè)一篇文章中哪些段落之間存在強(qiáng)烈的聯(lián)系。如果聲明中的"貓可以傳播新冠病毒"和證據(jù)中的"沒(méi)有進(jìn)一步傳播的事件"之間有強(qiáng)烈的注意力連接,CLUE就會(huì)識(shí)別出這兩個(gè)片段之間存在重要的交互關(guān)系。
接下來(lái),CLUE會(huì)使用GPT-4o為每對(duì)提取的片段標(biāo)注關(guān)系類型:同意(agree)、不同意(disagree)或無(wú)關(guān)(unrelated)。這樣,CLUE就能夠識(shí)別出導(dǎo)致模型不確定性的具體文本片段及其關(guān)系類型。
### 3. 不確定性自然語(yǔ)言解釋生成
有了片段交互及其關(guān)系標(biāo)簽,CLUE的最后一步是生成自然語(yǔ)言解釋,說(shuō)明這些交互如何影響模型的不確定性。
CLUE提供了兩種方法來(lái)生成解釋:
第一種是基于指令的提示。CLUE會(huì)將提取的前K=3個(gè)最重要的片段交互填入一個(gè)三段式提示模板,指導(dǎo)模型解釋這些交互如何影響其確信度。
第二種是注意力引導(dǎo)。除了提示外,CLUE還可以在生成過(guò)程中動(dòng)態(tài)修改模型的注意力,引導(dǎo)它關(guān)注提取的關(guān)鍵片段。具體來(lái)說(shuō),它會(huì)選擇與模型不確定性最相關(guān)的100個(gè)注意力頭進(jìn)行引導(dǎo),通過(guò)降低非目標(biāo)詞元的權(quán)重(設(shè)為原來(lái)的1%),使模型更加關(guān)注關(guān)鍵片段。
這兩種方法就像是在給AI講故事時(shí),一方面告訴它應(yīng)該關(guān)注哪些重要內(nèi)容(指令提示),另一方面還在它表達(dá)過(guò)程中輕輕引導(dǎo)它的注意力(注意力引導(dǎo))。
通過(guò)這三個(gè)步驟,CLUE能夠生成詳細(xì)解釋模型不確定性來(lái)源的自然語(yǔ)言解釋,幫助用戶理解模型的推理過(guò)程和不確定性來(lái)源。
三、CLUE如何在實(shí)際中工作?
為了測(cè)試CLUE的效果,研究團(tuán)隊(duì)在兩個(gè)事實(shí)核查數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn):HealthVer(健康領(lǐng)域特定的數(shù)據(jù)集)和DRUID(更接近真實(shí)世界事實(shí)核查場(chǎng)景的數(shù)據(jù)集)。他們選擇了這兩個(gè)數(shù)據(jù)集是因?yàn)樗鼈兠總€(gè)聲明都提供了多個(gè)證據(jù)片段,非常適合研究證據(jù)沖突導(dǎo)致的不確定性。
研究團(tuán)隊(duì)使用了三個(gè)開(kāi)源的指令調(diào)優(yōu)語(yǔ)言模型進(jìn)行測(cè)試:Qwen2.5-14B-Instruct、OLMo-2-1124-13B-Instruct和Gemma-2-9B-IT。他們比較了三種生成解釋的策略:
1. PromptBaseline:一個(gè)三段式提示基線,擴(kuò)展了之前的少樣本自然語(yǔ)言解釋工作,明確要求模型突出影響其不確定性的沖突或支持性片段。
2. CLUE-Span:CLUE的指令型變體,其中提取的片段交互被填入三段式提示以指導(dǎo)解釋生成。
3. CLUE-Span+Steering:CLUE的注意力引導(dǎo)變體,在使用與CLUE-Span相同提示的基礎(chǔ)上,額外應(yīng)用注意力引導(dǎo),引導(dǎo)模型的解釋生成過(guò)程關(guān)注已識(shí)別的片段。
### 自動(dòng)評(píng)估結(jié)果
研究團(tuán)隊(duì)從多個(gè)維度評(píng)估了CLUE的效果:
1. 忠實(shí)度(Faithfulness):他們提出了一種新的評(píng)估指標(biāo)——Entropy-CCT,用于測(cè)量生成的解釋對(duì)模型不確定性的忠實(shí)反映程度。結(jié)果顯示,PromptBaseline在所有六種設(shè)置中都表現(xiàn)出非忠實(shí)性,其解釋提到真正有影響的詞元的概率比無(wú)影響的詞元低3-13個(gè)百分點(diǎn)。相比之下,CLUE的兩個(gè)變體都扭轉(zhuǎn)了這一趨勢(shì),特別是CLUE-Span+Steering在DRUID-Qwen設(shè)置中達(dá)到了0.102的相關(guān)性,比PromptBaseline提高了約18個(gè)百分點(diǎn)。
2. 片段覆蓋率(Span-Coverage):CLUE-Span+Steering的表現(xiàn)優(yōu)于CLUE-Span,表明注意力引導(dǎo)方法在引導(dǎo)模型關(guān)注提供的片段方面的有效性。在Qwen模型上,最高的片段覆蓋率達(dá)到了44%。
3. 片段外部?jī)?nèi)容(Span-Extraneous):CLUE-Span+Steering也在這一指標(biāo)上表現(xiàn)最好,在Qwen模型上的最低分?jǐn)?shù)為20%,表明它能更好地避免引入非提取片段的內(nèi)容。
4. 標(biāo)簽-解釋一致性(Label-Explanation Entailment):CLUE的兩個(gè)變體都比基線取得了更強(qiáng)的標(biāo)簽-解釋一致性分?jǐn)?shù),產(chǎn)生的解釋在邏輯上與預(yù)測(cè)標(biāo)簽更加一致,同時(shí)仍然忠實(shí)于模型的不確定性模式。
### 人類評(píng)估結(jié)果
研究團(tuán)隊(duì)還招募了12名參與者對(duì)40個(gè)實(shí)例(20個(gè)來(lái)自DRUID,20個(gè)來(lái)自HealthVer)的解釋進(jìn)行排名。參與者根據(jù)五個(gè)標(biāo)準(zhǔn)對(duì)解釋進(jìn)行評(píng)估:
1. 有用性(Helpfulness):解釋提供的信息是否有助于讀者判斷聲明和進(jìn)行事實(shí)核查。 2. 覆蓋率(Coverage):解釋是否捕捉了輸入中所有與事實(shí)核查相關(guān)的重要信息。 3. 非冗余性(Non-redundancy):解釋是否不包含與聲明和事實(shí)核查無(wú)關(guān)的冗余或重復(fù)信息。 4. 一致性(Consistency):解釋是否不包含與輸入在邏輯上矛盾的信息。 5. 整體質(zhì)量(Overall Quality):綜合考慮所有標(biāo)準(zhǔn)的解釋整體質(zhì)量。
結(jié)果顯示,由CLUE生成的解釋比PromptBaseline生成的解釋更受參與者歡迎:CLUE-Span+Steering生成的解釋被評(píng)為最有用、覆蓋率最高、冗余信息最少,而CLUE-Span生成的解釋被評(píng)為一致性最高、整體質(zhì)量最佳。
研究人員注意到,雖然CLUE-Span+Steering在忠實(shí)度方面表現(xiàn)最好,但參與者對(duì)其整體質(zhì)量的評(píng)價(jià)略低于CLUE-Span。這可能是因?yàn)殡m然CLUE-Span+Steering更忠實(shí)于提取的關(guān)鍵片段交互,但它可能產(chǎn)生的解釋在內(nèi)部一致性或流暢性方面略遜一籌。這突顯了忠實(shí)性和合理性之間的權(quán)衡,這是解釋AI系統(tǒng)中的一個(gè)普遍挑戰(zhàn)。
此外,研究人員還觀察到數(shù)據(jù)集之間的細(xì)微差異:對(duì)于DRUID數(shù)據(jù)集,CLUE-Span+Steering的評(píng)分往往高于CLUE-Span,而對(duì)于HealthVer則相反。這可能源于輸入的長(zhǎng)度和復(fù)雜性差異:DRUID的證據(jù)文檔來(lái)自異構(gòu)的在線來(lái)源,通常由較長(zhǎng)形式的新聞文章組成,可能比HealthVer的證據(jù)文檔(由科學(xué)摘要的簡(jiǎn)短摘錄組成)更能從注意力引導(dǎo)中受益。
四、CLUE的創(chuàng)新與局限
CLUE框架的主要?jiǎng)?chuàng)新在于它能夠明確指出導(dǎo)致模型不確定性的具體證據(jù)沖突或一致點(diǎn),這是之前的自動(dòng)化事實(shí)核查系統(tǒng)所缺乏的。通過(guò)提取關(guān)鍵的片段交互并標(biāo)注它們的關(guān)系類型,CLUE能夠生成更加忠實(shí)于模型不確定性的自然語(yǔ)言解釋,幫助用戶理解模型的推理過(guò)程和不確定性來(lái)源。
CLUE的另一個(gè)優(yōu)勢(shì)是它不需要微調(diào)或架構(gòu)更改,可以直接用于任何白盒語(yǔ)言模型。它也不需要金標(biāo)簽解釋,避免了微調(diào),完全在推理時(shí)操作。這使得它更加靈活和易于使用。
然而,CLUE也存在一些局限性:
1. 實(shí)驗(yàn)僅限于中等規(guī)模的模型(Qwen2.5-14B-Instruct、Gemma-2-9B-IT和OLMo2-13B-Instruct),未來(lái)可以探索更大規(guī)模模型的表現(xiàn)。
2. 研究?jī)H關(guān)注了HealthVer和DRUID這兩個(gè)數(shù)據(jù)集,這些數(shù)據(jù)集的聲明與離散的證據(jù)片段配對(duì),非常適合研究證據(jù)沖突場(chǎng)景。未來(lái)工作可以研究更復(fù)雜的證據(jù)結(jié)構(gòu)(如長(zhǎng)篇文檔)、多樣化的事實(shí)核查來(lái)源,以及每個(gè)聲明超過(guò)兩個(gè)證據(jù)片段的場(chǎng)景,以更好地反映真實(shí)世界的事實(shí)核查挑戰(zhàn)。
3. 雖然研究通過(guò)普通人的評(píng)估證實(shí)了CLUE框架生成的解釋質(zhì)量高于提示基線,但還需要專家評(píng)估(如專業(yè)事實(shí)核查員)來(lái)評(píng)估其在高風(fēng)險(xiǎn)環(huán)境中的實(shí)際效用。
4. CLUE的研究范圍僅限于解釋源自證據(jù)沖突的模型不確定性?,F(xiàn)實(shí)世界的不確定性可能還來(lái)自其他來(lái)源,包括證據(jù)不足、模型的知識(shí)缺口以及上下文-記憶沖突等。
五、CLUE對(duì)事實(shí)核查和AI可解釋性的意義
CLUE框架的提出對(duì)事實(shí)核查和AI可解釋性領(lǐng)域具有重要意義。在信息泛濫的今天,自動(dòng)化事實(shí)核查系統(tǒng)的透明性和可解釋性變得越來(lái)越重要。用戶不僅需要知道一條信息是真是假,還需要理解系統(tǒng)是如何得出這個(gè)結(jié)論的,特別是當(dāng)系統(tǒng)不是100%確定時(shí)。
傳統(tǒng)的自動(dòng)化事實(shí)核查系統(tǒng)往往只提供一個(gè)結(jié)論和一個(gè)置信度分?jǐn)?shù),缺乏對(duì)推理過(guò)程的解釋,特別是當(dāng)面對(duì)矛盾證據(jù)時(shí)。CLUE通過(guò)明確指出導(dǎo)致系統(tǒng)不確定性的具體證據(jù)沖突或一致點(diǎn),提高了系統(tǒng)的透明性和可解釋性,使用戶能夠更好地理解系統(tǒng)的推理過(guò)程,并據(jù)此做出更明智的決策。
對(duì)于專業(yè)事實(shí)核查員來(lái)說(shuō),CLUE提供的詳細(xì)解釋可以幫助他們更有針對(duì)性地進(jìn)行驗(yàn)證工作,特別是當(dāng)面對(duì)矛盾證據(jù)時(shí)。例如,當(dāng)CLUE指出兩個(gè)證據(jù)之間存在矛盾,事實(shí)核查員可以據(jù)此決定是否需要查找更多證據(jù)來(lái)解決這個(gè)矛盾。
對(duì)于AI可解釋性研究領(lǐng)域來(lái)說(shuō),CLUE提供了一種新的思路:通過(guò)分析模型內(nèi)部的注意力模式,提取關(guān)鍵的文本片段交互,并生成詳細(xì)解釋這些交互如何影響模型決策的自然語(yǔ)言解釋。這種方法不僅適用于事實(shí)核查任務(wù),還可以推廣到其他需要推理復(fù)雜信息的任務(wù)。
總的來(lái)說(shuō),CLUE框架通過(guò)提供詳細(xì)解釋模型不確定性來(lái)源的自然語(yǔ)言解釋,提高了自動(dòng)化事實(shí)核查系統(tǒng)的透明性和可解釋性,為用戶提供了更有價(jià)值的信息,幫助他們做出更明智的決策。
結(jié)語(yǔ)
在這個(gè)信息爆炸的時(shí)代,辨別真假變得越來(lái)越重要,也越來(lái)越困難。大型語(yǔ)言模型在事實(shí)核查等任務(wù)中的應(yīng)用為我們提供了新的可能性,但也帶來(lái)了新的挑戰(zhàn)。如何讓AI的事實(shí)核查結(jié)果更加透明、可解釋,特別是當(dāng)面對(duì)矛盾證據(jù)時(shí),成為了一個(gè)亟待解決的問(wèn)題。
哥本哈根大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)的CLUE框架為這個(gè)問(wèn)題提供了一個(gè)創(chuàng)新的解決方案。通過(guò)明確指出導(dǎo)致模型不確定性的具體證據(jù)沖突或一致點(diǎn),CLUE讓AI的事實(shí)核查結(jié)果變得更加透明、可解釋,幫助用戶更好地理解AI的推理過(guò)程和不確定性來(lái)源。
實(shí)驗(yàn)結(jié)果表明,CLUE生成的解釋在忠實(shí)反映模型不確定性和與事實(shí)核查決策保持一致方面表現(xiàn)優(yōu)于基線方法。人類評(píng)估也證實(shí),CLUE生成的解釋更有用、信息量更大、冗余更少、在邏輯上與輸入更一致。
雖然CLUE仍存在一些局限性,但它為自動(dòng)化事實(shí)核查系統(tǒng)的透明性和可解釋性提供了一個(gè)重要的突破,為未來(lái)的研究指明了方向。隨著技術(shù)的不斷發(fā)展,我們可以期待更加透明、可解釋的自動(dòng)化事實(shí)核查系統(tǒng),幫助我們?cè)谛畔⒑Q笾懈玫乇鎰e真假。
如果你對(duì)這項(xiàng)研究感興趣,可以通過(guò)arXiv:2505.17855v1訪問(wèn)完整論文,進(jìn)一步了解CLUE框架的技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。