av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 解決視覺語言模型的"眼見為實(shí)"難題:布朗大學(xué)團(tuán)隊(duì)開發(fā)像素與先驗(yàn)知識(shí)控制技術(shù)

解決視覺語言模型的"眼見為實(shí)"難題:布朗大學(xué)團(tuán)隊(duì)開發(fā)像素與先驗(yàn)知識(shí)控制技術(shù)

2025-06-06 14:14
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-06 14:14 ? 科技行者

視覺語言模型(VLMs)是當(dāng)今人工智能的一大前沿,它們能夠同時(shí)理解圖像和文本,回答關(guān)于圖片的問題,甚至進(jìn)行復(fù)雜的推理。但這些模型究竟是更依賴于它們從訓(xùn)練數(shù)據(jù)中記憶的世界知識(shí),還是更相信眼前所見的視覺信息?當(dāng)這兩種信息發(fā)生沖突時(shí),模型會(huì)如何選擇?

這正是布朗大學(xué)Michal Golovanevsky和William Rudman帶領(lǐng)的研究團(tuán)隊(duì)(包括Michael Lepori、Amir Bar、Ritambhara Singh和Carsten Eickhoff)在2025年5月發(fā)表于arXiv預(yù)印本平臺(tái)(arXiv:2505.17127v1)上的論文《Pixels Versus Priors: Controlling Knowledge Priors in Vision-Language Models through Visual Counterfacts》所探索的問題。

想象一下,如果我給你看一張藍(lán)色草莓的圖片,然后問你"這個(gè)草莓是什么顏色?",你會(huì)毫不猶豫地回答"藍(lán)色"。但如果我問"大多數(shù)草莓是什么顏色?",你會(huì)根據(jù)你的常識(shí)回答"紅色"。視覺語言模型也應(yīng)該具備類似的能力——在需要時(shí)依賴視覺輸入,在需要常識(shí)時(shí)使用記憶中的知識(shí)。但事實(shí)證明,這對AI來說并不容易。

研究團(tuán)隊(duì)創(chuàng)建了一個(gè)名為"Visual CounterFact"的數(shù)據(jù)集,其中包含了與常識(shí)相悖的視覺圖像,比如藍(lán)色草莓或比大象還大的螞蟻。通過這些"視覺反事實(shí)"圖像,他們測試了模型如何平衡視覺輸入和記憶中的知識(shí)。更重要的是,他們開發(fā)了"像素與先驗(yàn)"(Pixels Versus Priors,簡稱PvP)的控制機(jī)制,讓我們能夠主動(dòng)調(diào)節(jié)模型是依賴視覺信息還是先驗(yàn)知識(shí)。

這項(xiàng)研究不僅幫助我們更好地理解視覺語言模型的內(nèi)部運(yùn)作,還提供了實(shí)用工具來控制這些模型的行為,讓它們在需要時(shí)能夠忽略誤導(dǎo)性的視覺信息,或者在適當(dāng)情境下重視眼前所見。這對于打造更可靠、更安全的多模態(tài)AI系統(tǒng)具有重要意義。

一、視覺語言模型的知識(shí)困境

想象一下,你平生第一次看到一只被染成藍(lán)色的草莓。雖然你的眼睛告訴你它是藍(lán)色的,但你的大腦知道草莓通常是紅色的。這種視覺輸入與先驗(yàn)知識(shí)之間的沖突,正是當(dāng)今視覺語言模型面臨的挑戰(zhàn)。

在純文本大語言模型(LLMs)的世界里,研究人員已經(jīng)深入研究了模型如何存儲(chǔ)和檢索事實(shí)知識(shí)。例如,我們知道像GPT這樣的模型會(huì)在其權(quán)重中記憶"草莓是紅色的"這類事實(shí),并且研究者已經(jīng)開發(fā)出了多種方法來系統(tǒng)地編輯這些事實(shí)關(guān)聯(lián)。在自然語言處理領(lǐng)域,"反事實(shí)數(shù)據(jù)集"是研究的重要工具——這些數(shù)據(jù)集包含了經(jīng)過最小化改動(dòng)的輸入對,僅僅改變特定事實(shí)(如把"草莓是紅色的"改為"草莓是藍(lán)色的"),同時(shí)保持其他內(nèi)容不變。這些數(shù)據(jù)集使研究者能夠因果分析模型行為,了解事實(shí)關(guān)聯(lián)如何被存儲(chǔ)、檢索和操縱。

然而,在視覺語言領(lǐng)域,我們?nèi)狈︻愃频墓ぞ?。與文本不同,我們不清楚視覺語言模型中事實(shí)關(guān)聯(lián)的存儲(chǔ)位置,也沒有方法來修改這些關(guān)聯(lián)。更重要的是,我們沒有針對視覺的"反事實(shí)數(shù)據(jù)集"來測試這些模型如何平衡視覺感知與記憶中的先驗(yàn)知識(shí),也沒有方法來控制模型在兩種信息沖突時(shí)的響應(yīng)。

Golovanevsky和Rudman團(tuán)隊(duì)的研究正是要填補(bǔ)這一空白。他們創(chuàng)建了首個(gè)名為"Visual CounterFact"的數(shù)據(jù)集,專門研究視覺語言模型中與視覺屬性相關(guān)的世界知識(shí)先驗(yàn),并基于此開發(fā)了"像素與先驗(yàn)控制"(PvP)方法,使我們能夠控制模型是依賴像素級(jí)信息還是世界知識(shí)。

二、Visual CounterFact:挑戰(zhàn)AI的常識(shí)

Visual CounterFact數(shù)據(jù)集修改了日常物體的視覺屬性(如顏色和大?。?,從而在記憶的事實(shí)和輸入像素之間創(chuàng)造直接沖突。在這個(gè)框架中,"世界知識(shí)先驗(yàn)"指的是模型在預(yù)訓(xùn)練過程中記憶的視覺屬性與物體之間的語言關(guān)聯(lián)(如"草莓是紅色的")。相比之下,"視覺感知"則是由模型處理的當(dāng)前視覺輸入定義的,而研究者會(huì)操縱這一輸入創(chuàng)建反事實(shí)圖像。

這些反事實(shí)圖像被設(shè)計(jì)為挑戰(zhàn)模型對視覺屬性的世界知識(shí),呈現(xiàn)看似合理但與常識(shí)相矛盾的視覺證據(jù)。例如,他們對比了與大小相關(guān)的知識(shí)先驗(yàn)"草莓比蒼蠅大"與反事實(shí)"蒼蠅比草莓大",違反了預(yù)期的大小關(guān)系。

研究團(tuán)隊(duì)采用了精心設(shè)計(jì)的四步流程來創(chuàng)建Visual CounterFact數(shù)據(jù)集:

首先,他們從McRae特征規(guī)范、CIFAR-100和ImageNet等數(shù)據(jù)集中識(shí)別具有強(qiáng)烈視覺先驗(yàn)的物體(如紅色草莓、黃色香蕉等)。他們請人類標(biāo)注者列出物體的常見屬性,如果至少30%的參與者提到特定顏色是該物體的關(guān)鍵屬性,就將其納入數(shù)據(jù)集。他們還使用GPT-4o來推斷典型物體的顏色和大小。

第二步,他們使用Google圖像API檢索反映這些先驗(yàn)的真實(shí)世界圖像,要求物體必須出現(xiàn)在白色背景上以減少干擾視覺線索。每張圖像都由GPT-4o評分,基于物體正確性、顏色準(zhǔn)確性和真實(shí)感,選擇得分最高的圖像確保視覺保真度。

第三步,他們構(gòu)建故意與典型視覺先驗(yàn)相沖突的反事實(shí)關(guān)系。對于顏色任務(wù),他們首先提示LLaVA-Next模型生成給定物體的可能顏色,然后從五個(gè)最不可能的常見顏色中隨機(jī)抽樣來選擇反事實(shí)顏色。為保持視覺清晰度,他們限制這些反事實(shí)顏色在視覺上與原始顏色明顯不同。對于大小任務(wù),他們使用GPT-4o估計(jì)物體的真實(shí)世界尺寸,并選擇大小差異至少為10倍的物體對,通過顛倒預(yù)期的大小順序?yàn)槊總€(gè)物體生成兩個(gè)反事實(shí)關(guān)系。

最后,他們使用SAM2分割掩碼來應(yīng)用控制的、局部化的轉(zhuǎn)換。在顏色任務(wù)中,他們修改色調(diào)值同時(shí)保留紋理和陰影;在大小任務(wù)中,他們調(diào)整物體掩碼大小并將它們對齊在虛線上,以反映改變后的大小關(guān)系而不引入深度歧義。

最終的數(shù)據(jù)集包含575個(gè)顏色樣本、575個(gè)顏色反事實(shí)圖像,以及877個(gè)原始大小和877個(gè)反事實(shí)大小圖像,總共2,904個(gè)有視覺依據(jù)的樣本。這些圖像保持了視覺真實(shí)性,同時(shí)創(chuàng)造了與模型預(yù)期相沖突的場景,為研究視覺語言模型的行為提供了理想工具。

三、當(dāng)眼見不為實(shí):AI的視覺沖突處理

有了Visual CounterFact數(shù)據(jù)集,研究團(tuán)隊(duì)開始評估三個(gè)頂尖視覺語言模型——LLaVA-Next-7B、Qwen2-VL-7B和DeepSeek Janus Pro-7B——如何在視覺輸入與記憶知識(shí)沖突時(shí)做出決策。

研究團(tuán)隊(duì)設(shè)計(jì)了兩種提問方式來測試模型:一種是針對圖像的具體問題,如"這個(gè)草莓是什么顏色?"("this"問題),另一種是針對一般知識(shí)的問題,如"大多數(shù)草莓是什么顏色?"("most"問題)。理論上,當(dāng)面對反事實(shí)圖像(如藍(lán)色草莓)時(shí),模型應(yīng)該對"this"問題回答"藍(lán)色"(基于視覺輸入),對"most"問題回答"紅色"(基于世界知識(shí))。

實(shí)驗(yàn)結(jié)果令人驚訝。當(dāng)使用"this"問題時(shí),所有模型表現(xiàn)出色,即使面對反事實(shí)圖像也能達(dá)到80%以上的準(zhǔn)確率。這表明視覺語言模型非常擅長將答案與當(dāng)前視覺輸入聯(lián)系起來。這種情況下的錯(cuò)誤通常涉及微妙的色調(diào)分歧,如金色與橙色或黃色,而不是對基本物體屬性的混淆。

然而,當(dāng)使用"most"問題時(shí),情況發(fā)生了戲劇性變化。雖然模型在看到符合常識(shí)的圖像(如紅色草莓)時(shí)表現(xiàn)良好,但當(dāng)同樣的問題與反事實(shí)圖像(如藍(lán)色草莓)配對時(shí),準(zhǔn)確率急劇下降。在這些情況下,模型往往會(huì)放棄它們的先驗(yàn)知識(shí),轉(zhuǎn)而支持視覺呈現(xiàn)的內(nèi)容,即使提示明確要求一個(gè)通用概念。這表明視覺語言模型很容易被當(dāng)前圖像分心,即使被指示要泛化。

為了更深入地理解這種行為,研究團(tuán)隊(duì)?wèi)?yīng)用了一種稱為"早期解碼"的技術(shù),在模型完成前向傳遞之前解碼隱藏狀態(tài),追蹤模型預(yù)測在各層中的演變。這揭示了一個(gè)有趣的現(xiàn)象:當(dāng)模型被提示給出世界知識(shí)答案但被給予反事實(shí)圖像時(shí),世界知識(shí)答案的概率在中后期層中上升,然后在最終層突然翻轉(zhuǎn)為反事實(shí)答案。

這種"翻轉(zhuǎn)行為"在模型被提示回答世界知識(shí)問題并提供反事實(shí)圖像時(shí)最為常見。這種延遲整合視覺輸入導(dǎo)致模型在圖像與記憶關(guān)聯(lián)沖突時(shí)出錯(cuò)。相比之下,當(dāng)使用"this"提示來識(shí)別反事實(shí)屬性時(shí),模型在中間層就對反事實(shí)答案充滿信心,很少翻轉(zhuǎn)到世界知識(shí)替代答案。這種信心得到了高推理準(zhǔn)確率的支持。

更具體地說,研究者發(fā)現(xiàn)LLaVA-Next在顏色任務(wù)中,有58%的樣本會(huì)發(fā)生翻轉(zhuǎn),平均從世界知識(shí)到反事實(shí)的翻轉(zhuǎn)次數(shù)為1.24次,而從反事實(shí)到世界知識(shí)的翻轉(zhuǎn)只有0.79次。這表明視覺語言模型在面對反事實(shí)圖像時(shí)傾向于覆蓋先驗(yàn)知識(shí)。

這些結(jié)果表明一個(gè)一致的模式:模型最初依賴于植根于世界知識(shí)的語言先驗(yàn),只有在處理過程后期才會(huì)用視覺證據(jù)覆蓋這些先驗(yàn)。這種視覺信息的延遲整合常常導(dǎo)致模型在圖像與先驗(yàn)知識(shí)沖突時(shí)做出不穩(wěn)定的預(yù)測。

四、PvP轉(zhuǎn)向:控制AI的知識(shí)來源

既然研究團(tuán)隊(duì)已經(jīng)確定視覺語言模型在早期層依賴世界知識(shí),而在后期層轉(zhuǎn)向視覺信息,往往在兩者之間翻轉(zhuǎn),那么下一個(gè)問題是:我們能否控制這種行為?

為了實(shí)現(xiàn)這一目標(biāo),研究者開發(fā)了"像素與先驗(yàn)轉(zhuǎn)向"(PvP)技術(shù)。這種方法通過計(jì)算具有相反提示的激活差異來創(chuàng)建轉(zhuǎn)向向量。具體來說,他們向模型呈現(xiàn)一個(gè)反事實(shí)圖像,配以兩個(gè)提示:一個(gè)鼓勵(lì)檢索世界知識(shí)先驗(yàn)("大多數(shù)草莓是什么顏色?"),另一個(gè)引導(dǎo)模型分析圖像像素("這個(gè)草莓是什么顏色?")。

當(dāng)計(jì)算PvP轉(zhuǎn)向向量時(shí),視覺輸入始終是反事實(shí)圖像(如藍(lán)色草莓)。理想情況下,面對第一個(gè)問題,模型應(yīng)該回答"紅色"(基于世界知識(shí)),而面對第二個(gè)問題,應(yīng)該回答"藍(lán)色"(基于視覺輸入)。

對于給定層l,研究者提取兩個(gè)提示在每一層MLP塊的隱藏表示,并計(jì)算兩個(gè)轉(zhuǎn)向向量,S^l_CF(反事實(shí)方向)和S^l_WK(世界知識(shí)方向):

S^l_CF表示從"most"提示到"this"提示的轉(zhuǎn)向,推動(dòng)模型關(guān)注視覺輸入。 S^l_WK則是相反方向,從"this"到"most",鼓勵(lì)模型使用世界知識(shí)先驗(yàn)。

這些轉(zhuǎn)向向量捕捉了表示變化,需要調(diào)節(jié)模型對視覺輸入與世界知識(shí)先驗(yàn)的依賴。研究者通過在語言解碼器中修改特定層最后一個(gè)標(biāo)記的隱藏狀態(tài)來應(yīng)用這些轉(zhuǎn)向。這種激活級(jí)別的干預(yù)使研究者能夠控制模型是依賴圖像中的像素級(jí)信息還是先驗(yàn)知識(shí)。

實(shí)驗(yàn)結(jié)果令人印象深刻。PvP轉(zhuǎn)向成功地影響了模型的輸出,能夠讓模型在需要時(shí)關(guān)注視覺信息或回歸到世界知識(shí)。在顏色任務(wù)中,轉(zhuǎn)向成功率高達(dá)92.5%,而在更復(fù)雜的大小任務(wù)中也達(dá)到了74.6%。

研究者還發(fā)現(xiàn),將模型從世界知識(shí)轉(zhuǎn)向反事實(shí)視覺輸入(WK→CF)比逆向操作(CF→WK)更容易,這表明一旦視覺輸入抑制了記憶的先驗(yàn),恢復(fù)這些先驗(yàn)就更加困難。這與注意力分析一致,顯示PvP轉(zhuǎn)向向量能夠重塑模型的內(nèi)部注意力機(jī)制,比單純改變提示更有效。

具體來說,在顏色任務(wù)中,僅通過改變提示從"most"到"this",LLaVA-Next對圖像標(biāo)記的注意力質(zhì)量增加了13%。而使用PvP干預(yù)向量則導(dǎo)致更強(qiáng)烈的變化,將對圖像標(biāo)記的注意力質(zhì)量增加到40%。這表明PvP轉(zhuǎn)向提供了對視覺語言模型行為的精確控制,尤其是在顏色任務(wù)這樣更局部化的任務(wù)中,比改變提示更有效。

五、研究啟示與未來方向

這項(xiàng)研究揭示了視覺語言模型如何在記憶知識(shí)和視覺輸入之間進(jìn)行平衡,并提供了一種機(jī)制來控制這種平衡。這些發(fā)現(xiàn)對于理解和改進(jìn)多模態(tài)AI系統(tǒng)具有重要意義。

研究表明,視覺語言模型傾向于在視覺輸入和記憶知識(shí)沖突時(shí)優(yōu)先考慮視覺證據(jù),即使在被問及通用事實(shí)時(shí)也是如此。這種行為在模型的前向傳遞中逐漸顯現(xiàn),最初模型更依賴存儲(chǔ)的知識(shí),但在中后期層轉(zhuǎn)向視覺信息。這種轉(zhuǎn)變往往不穩(wěn)定,模型會(huì)在兩種信息源之間翻轉(zhuǎn)。

更重要的是,研究者開發(fā)的PvP轉(zhuǎn)向向量提供了一種工具,可以因果干預(yù)模型處理,控制模型是依賴視覺輸入還是世界知識(shí)。這種激活級(jí)別的干預(yù)能夠產(chǎn)生顯著的注意力轉(zhuǎn)移,遠(yuǎn)比簡單改變提示更有效。

這項(xiàng)研究為解釋和控制多模態(tài)模型行為提供了新的框架,也為我們理解視覺語言模型如何整合圖像輸入與先驗(yàn)知識(shí)打下了基礎(chǔ)。未來的工作可能會(huì)擴(kuò)展到更廣泛的模型架構(gòu),或深入探索視覺與先驗(yàn)知識(shí)之間的不對稱性,為什么從視覺感知回到世界知識(shí)比反方向更困難。

這些發(fā)現(xiàn)不僅有助于我們更好地理解當(dāng)前的視覺語言模型,還能指導(dǎo)未來更可靠、更可控的多模態(tài)AI系統(tǒng)的開發(fā)。例如,在需要模型忽略潛在誤導(dǎo)性視覺輸入的關(guān)鍵應(yīng)用中,如醫(yī)療診斷或自動(dòng)駕駛,PvP轉(zhuǎn)向可能提供必要的控制機(jī)制,確保模型在適當(dāng)情況下回退到可靠的先驗(yàn)知識(shí)。

總之,這項(xiàng)研究不僅揭示了視覺語言模型如何平衡記憶與感知,還提供了一種實(shí)用工具來控制這種平衡,為構(gòu)建更可靠、更可解釋的多模態(tài)AI系統(tǒng)鋪平了道路。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-