這項由加州大學伯克利分校(UC Berkeley)和韓國浦項科技大學(POSTECH)的研究團隊于2025年5月發(fā)表的研究,為解決人工智能視覺模型的"幻覺"問題提供了突破性方案。該論文題為《Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling》,有興趣深入了解的讀者可以通過arXiv:2504.13169v2訪問完整論文。研究團隊由UC伯克利的吳宗翰(Tsung-Han Wu)、李熙京(Heekyung Lee)、葛嘉欣(Jiaxin Ge)、Joseph E. Gonzalez、Trevor Darrell和David M. Chan等人組成。
當前的視覺語言模型雖然在理解圖像內(nèi)容方面表現(xiàn)出色,但經(jīng)常出現(xiàn)一個令人頭疼的問題:它們會"看到"實際并不存在的東西,就像一個過度想象的人,明明圖片里只有一只貓,卻非要說還有一只狗在旁邊。這種現(xiàn)象被稱為"視覺幻覺",在自動駕駛汽車、醫(yī)療診斷等安全關鍵領域可能帶來嚴重后果。
現(xiàn)有的解決方案主要分為兩類:一類是在生成過程中調(diào)整AI的行為,就像給一個愛夸大其詞的朋友提前打預防針;另一類是生成內(nèi)容后再請外部"專家"來檢查糾錯,類似于寫完作文后找老師批改。然而,前者一旦說錯就無法糾正,后者則需要復雜的多重驗證流程,往往只能選擇拒絕回答而非主動改正。
研究團隊開發(fā)的REVERSE系統(tǒng)(全稱"REtrospective VERification and SElf-correction",即"回顧性驗證與自我糾正")首次將兩種方法完美融合,讓AI模型能夠在生成內(nèi)容的同時監(jiān)控自己是否在"胡說八道",一旦發(fā)現(xiàn)問題就立即回退重新思考,就像一個會自我反省的聰明學生。
一、讓AI學會自我懷疑:打造"幻覺感知"模型
傳統(tǒng)的AI模型就像一個過分自信的學生,無論說什么都很肯定,從不懷疑自己可能出錯。REVERSE系統(tǒng)的第一個創(chuàng)新是教會AI模型學會"自我懷疑",讓它能夠識別自己可能在胡說八道的時刻。
研究團隊構(gòu)建了一個包含130萬個樣本的特殊訓練數(shù)據(jù)集,這個數(shù)據(jù)集的巧妙之處在于既包含正確的描述,也包含錯誤的描述,并且用特殊標記來區(qū)分它們。具體來說,他們引入了三個特殊的標記符號:``標記重要短語的開始,``標記可信內(nèi)容的結(jié)束,``標記不可信內(nèi)容的結(jié)束。
這就好比教一個孩子看圖說話時,不僅要告訴他"這是正確的說法",還要展示"這是錯誤的說法",并且明確標注哪些是對的哪些是錯的。通過這種方式,AI模型學會了在生成內(nèi)容時自動評估每個短語的可信度。
在訓練過程中,研究團隊采用了一種巧妙的損失函數(shù)設計。對于標記為不可信的內(nèi)容,模型在訓練時不會受到"懲罰",這樣避免了模型學會胡亂猜測的壞習慣。同時,模型被鼓勵在遇到不確定內(nèi)容時生成``標記,相當于教會它說"我不確定這個"。
這種訓練方法的效果相當顯著。經(jīng)過訓練的模型不再是那個盲目自信的"學霸",而是變成了一個懂得質(zhì)疑自己的"謹慎學生"。當它描述圖片內(nèi)容時,會在內(nèi)心給每個短語打分,判斷這個描述是否靠譜。
二、實時"回頭看":創(chuàng)新的回溯重采樣機制
REVERSE系統(tǒng)的第二個核心創(chuàng)新是"回溯重采樣"技術,這就像給AI模型裝上了一個實時的"良心檢測器"。當模型正在生成描述時,系統(tǒng)會持續(xù)監(jiān)控生成``標記的概率。一旦這個概率超過預設閾值,就像警報器響起一樣,系統(tǒng)立即觸發(fā)自我糾錯流程。
這個過程可以用開車導航來類比。普通的導航系統(tǒng)一旦選定路線就會一直走下去,即使前方堵車也不會改變。而REVERSE系統(tǒng)就像一個智能導航,會實時監(jiān)控路況,一旦發(fā)現(xiàn)前方有問題,立即回到最近的安全路口重新選擇路線。
具體的回溯策略采用了分層設計。系統(tǒng)首先會回到最近的一個"可信檢查點"(標記為``的位置),嘗試從那里重新生成內(nèi)容。如果在同一個位置多次失敗,系統(tǒng)會判斷問題可能出現(xiàn)得更早,于是回退到上一個句號位置重新開始。這種設計確保了即使遇到復雜的錯誤情況,系統(tǒng)也能找到合適的回退點。
回溯后的重新生成過程使用了兩種互補策略。第一種是"拒絕采樣",通過提高生成溫度增加輸出的多樣性,然后從多個候選中選擇最可信的版本。第二種是"查詢重寫",系統(tǒng)會修改原始問題,添加類似"注意:可能的錯誤短語包括..."這樣的提示信息,幫助模型避免重復犯錯。
這種實時監(jiān)控和糾錯機制的優(yōu)勢在于它是完全自主的。不需要外部的檢查程序,模型自己就能發(fā)現(xiàn)和糾正錯誤,就像一個具備自我修正能力的智能助手。
三、從數(shù)據(jù)制作到模型訓練:構(gòu)建可信AI的完整流程
為了訓練出具備自我驗證能力的模型,研究團隊精心設計了數(shù)據(jù)制作流程。他們從現(xiàn)有的LLaVA-v1.5數(shù)據(jù)集出發(fā),這個數(shù)據(jù)集包含約66.5萬個圖像-問答對,但都是"正確"的樣本。
研究團隊的創(chuàng)新在于系統(tǒng)性地生成"負面樣本"。他們設計了一套規(guī)則和AI輔助的方法來創(chuàng)造錯誤的描述。對于簡單的問題,比如計數(shù)或是非判斷,他們使用規(guī)則方法直接生成錯誤答案。對于復雜的描述性問題,他們利用GPT-4o-mini來生成高質(zhì)量的錯誤描述,確保這些錯誤既逼真又具有挑戰(zhàn)性。
生成負面樣本的過程非常細致。系統(tǒng)會自動識別原始答案中的關鍵短語,然后用同類但不正確的內(nèi)容替換。比如,如果原始描述中有"紅色塑料杯",可能會被替換為"綠色玻璃瓶"。這種替換保持了語義的連貫性,但改變了事實內(nèi)容,創(chuàng)造出了高質(zhì)量的"迷惑性"錯誤樣本。
最終的數(shù)據(jù)集包含130萬個訓練樣本,共680萬個問答輪次,其中380萬個是正確答案,290萬個是錯誤答案。這種平衡的設計確保模型既能學會生成正確內(nèi)容,也能識別錯誤內(nèi)容。
訓練過程采用了改進的交叉熵損失函數(shù)。關鍵創(chuàng)新在于對不同類型的標記使用不同的權重。正確內(nèi)容的標記獲得正常權重,而錯誤內(nèi)容的標記被屏蔽(權重為零),這樣模型在學習時不會被錯誤內(nèi)容誤導,但同時學會了如何識別和標記不可信的內(nèi)容。
四、實驗驗證:多項指標全面領先
研究團隊在多個標準數(shù)據(jù)集上驗證了REVERSE系統(tǒng)的效果,結(jié)果令人印象深刻。在圖像描述任務中,REVERSE在CHAIR-MSCOCO基準上將幻覺率降低了12%,在HaloQuest數(shù)據(jù)集上更是達到了34%的顯著改進。
CHAIR-MSCOCO是評估視覺幻覺的經(jīng)典基準,它會檢查模型生成的描述中提到的物體是否真實存在于圖像中。傳統(tǒng)的LLaVA-v1.5模型在這個測試中的CHAIRi得分(物體級幻覺率)為15.4%,而REVERSE系統(tǒng)在保守設置下可以降至10.3%,在更嚴格設置下甚至可以降至6.1%。
在處理包含錯誤前提的問題時,REVERSE表現(xiàn)尤為出色。HaloQuest數(shù)據(jù)集專門設計了三類挑戰(zhàn)性問題:錯誤前提問題、視覺證據(jù)不足問題和視覺復雜問題。傳統(tǒng)模型往往會被錯誤前提誤導,給出不正確的答案。而REVERSE系統(tǒng)學會了識別這些陷阱,在錯誤前提問題上的準確率從17.1%提升到31.8%,在證據(jù)不足問題上從10.7%提升到26.9%。
系統(tǒng)的另一個優(yōu)勢是可控性。通過調(diào)整檢測閾值,用戶可以在"保守程度"和"表達豐富度"之間找到平衡。較低的閾值讓系統(tǒng)更加謹慎,減少幻覺但可能使描述變得簡潔;較高的閾值則允許更豐富的表達但承擔更多風險。這種靈活性讓REVERSE能夠適應不同應用場景的需求。
在計算效率方面,REVERSE的開銷是可接受的。驗證過程只在63%的情況下被觸發(fā),而且基于輕量級的概率檢查而非復雜的外部模型調(diào)用。在觸發(fā)驗證的情況下,超過一半的幻覺問題可以通過單輪重新生成解決,平均計算開銷增加不到50%。
五、技術細節(jié):讓AI"回頭看"的工程實現(xiàn)
REVERSE系統(tǒng)的技術實現(xiàn)包含幾個關鍵組件。首先是閾值設定機制,不同的模型需要不同的閾值參數(shù)。研究團隊發(fā)現(xiàn),LLaVA系列模型適合使用0.003的閾值,而Qwen2.5-VL模型則需要0.01的閾值。這種差異反映了不同模型架構(gòu)在置信度校準方面的特性。
回溯策略采用了多層次設計。系統(tǒng)維護兩種檢查點:局部檢查點(最近的``標記)和全局檢查點(最近的句號位置)。當局部糾錯連續(xù)失敗10次時,系統(tǒng)會回退到全局檢查點重新開始,總共允許50次糾錯嘗試。這種設計平衡了糾錯能力和計算效率。
溫度調(diào)整策略也很巧妙。系統(tǒng)從基礎溫度開始,每次失敗后增加0.1,最高不超過基礎溫度加0.5。這種漸進式升溫策略在保持輸出質(zhì)量的同時增加了多樣性,提高了找到正確答案的概率。
查詢重寫功能通過修改輸入提示來引導模型避免重復錯誤。系統(tǒng)會自動在原始問題后添加"提示:可能的錯誤短語包括..."等信息,這種方法在訓練時隨機使用(20%的概率),讓模型學會理解和響應這類提示。
針對開放式問答任務,系統(tǒng)還實現(xiàn)了特殊的處理機制。當模型檢測到問題可能包含錯誤前提或證據(jù)不足時,會生成空白回應。此時系統(tǒng)自動切換到第二輪推理,使用修改后的提示:"對于這個問題,請指出錯誤前提或說明缺失的信息,而不是直接回答。"這種兩階段處理確保了系統(tǒng)能夠優(yōu)雅地處理無法回答的問題。
六、創(chuàng)新意義:重新定義AI的可信邊界
REVERSE系統(tǒng)的出現(xiàn)標志著AI可信性研究的一個重要里程碑。傳統(tǒng)的幻覺緩解方法要么是"一次性"的生成調(diào)整,要么是"事后諸葛亮"式的外部檢查。REVERSE首次實現(xiàn)了真正的"邊生成邊驗證",讓AI模型具備了類似人類的自我反省能力。
這種能力對于AI的實際應用具有深遠意義。在醫(yī)療影像分析中,一個能夠表達不確定性的AI系統(tǒng)比一個過度自信的系統(tǒng)更值得信任。在自動駕駛領域,能夠識別和糾正感知錯誤的系統(tǒng)將大大提高安全性。在教育輔助工具中,會承認"我不確定"的AI比給出錯誤答案的AI更有價值。
從技術角度看,REVERSE展示了"自監(jiān)督學習"的新可能性。通過讓模型學會評估自己的輸出質(zhì)量,系統(tǒng)實現(xiàn)了某種形式的"元認知"能力。這種能力不僅適用于視覺語言任務,也為其他AI應用提供了新的思路。
系統(tǒng)的模塊化設計也具有重要價值。REVERSE的核心思想可以應用到其他類型的生成模型中,比如純文本生成、代碼生成等領域。只要是存在"幻覺"或錯誤輸出問題的生成任務,都可以借鑒這種"生成-驗證-糾錯"的框架。
七、局限性與未來展望:仍待完善的AI良心
盡管REVERSE系統(tǒng)取得了顯著進展,但研究團隊也誠實地指出了當前的局限性。首先,系統(tǒng)主要針對生成式任務進行了優(yōu)化,在判斷式任務(如是非題)上的改進有限。這是因為是非題的答案空間很小,回溯重采樣的作用相對有限。
數(shù)據(jù)集質(zhì)量是另一個潛在限制。雖然130萬樣本的規(guī)模令人印象深刻,但數(shù)據(jù)主要來源于MS-COCO等現(xiàn)有數(shù)據(jù)集,可能存在一定的偏見。比如,這些數(shù)據(jù)集在性別、種族、地理區(qū)域等方面的代表性可能不夠均衡。未來需要更多樣化、更高質(zhì)量的訓練數(shù)據(jù)來進一步提升系統(tǒng)的公平性和準確性。
閾值設定目前還依賴于經(jīng)驗調(diào)優(yōu),不同模型需要不同的參數(shù)設置。理想情況下,未來的系統(tǒng)應該能夠自適應地調(diào)整這些參數(shù),根據(jù)具體任務和用戶需求自動優(yōu)化置信度閾值。
計算開銷雖然可接受,但仍有優(yōu)化空間。目前的回溯重采樣過程可能需要多輪迭代,在某些實時應用中可能成為瓶頸。未來的研究可以探索更高效的驗證機制,比如并行生成多個候選答案然后選擇最優(yōu)的。
從更廣闊的視角看,REVERSE代表了AI安全研究的一個重要方向:讓AI系統(tǒng)具備自我監(jiān)督和糾錯能力。這種能力對于實現(xiàn)真正可信的人工智能至關重要。隨著AI系統(tǒng)變得越來越復雜和強大,單純依靠外部監(jiān)督已經(jīng)不夠,必須讓AI系統(tǒng)學會自我約束和自我改進。
未來的研究可能會探索更復雜的自我驗證機制,比如引入因果推理、常識知識庫或多模態(tài)交叉驗證等。也可能會將這種思想擴展到更多領域,比如科學計算、創(chuàng)意寫作或戰(zhàn)略規(guī)劃等高級認知任務。
說到底,REVERSE系統(tǒng)最重要的貢獻不僅僅是技術上的突破,更是為AI發(fā)展指明了一個新方向:不是讓AI變得更加"強大",而是讓它變得更加"謙遜"和"可信"。在這個AI能力快速提升的時代,學會說"我不確定"的AI可能比無所不知的AI更有價值。畢竟,一個懂得自我質(zhì)疑的智能系統(tǒng),才是真正值得人類信任的伙伴。
對于普通用戶而言,REVERSE系統(tǒng)的普及意味著未來的AI助手將更加可靠。當你問AI一張照片里有什么時,它不會再信口開河地編造不存在的細節(jié),而是會誠實地告訴你哪些地方它不確定。這種改變看似微小,實際上是AI從"炫技工具"向"可信伙伴"轉(zhuǎn)變的關鍵一步。
想要深入了解這項研究的技術細節(jié)和實驗數(shù)據(jù)的讀者,可以訪問論文的完整版本和相關代碼。研究團隊已經(jīng)在MIT許可證下開源了完整的代碼和訓練數(shù)據(jù),為學術界和工業(yè)界的進一步研究提供了寶貴資源。
Q&A
Q1:什么是AI的"視覺幻覺"問題?為什么需要解決? A:AI的"視覺幻覺"是指AI模型在描述圖片時會"看到"實際不存在的東西,比如明明圖片里只有一只貓,AI卻說還有一只狗。在自動駕駛、醫(yī)療診斷等安全關鍵領域,這種錯誤可能帶來嚴重后果,因此亟需解決。
Q2:REVERSE系統(tǒng)和傳統(tǒng)方法有什么不同? A:傳統(tǒng)方法要么在生成前調(diào)整AI行為(但一旦出錯無法糾正),要么生成后用外部程序檢查(復雜且只能拒絕而非改正)。REVERSE首次實現(xiàn)了"邊生成邊驗證",讓AI能夠?qū)崟r監(jiān)控自己是否在胡說八道,一旦發(fā)現(xiàn)問題就立即回退重新思考。
Q3:普通用戶什么時候能用上這種更可靠的AI? A:目前REVERSE還處于研究階段,但研究團隊已經(jīng)開源了完整代碼和數(shù)據(jù)。隨著技術成熟,預計未來1-2年內(nèi)就會有商業(yè)產(chǎn)品采用類似技術,屆時AI助手將變得更加誠實可信,不再隨意編造不存在的內(nèi)容。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。