av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 多模態(tài)AI的視覺(jué)語(yǔ)言沖突危機(jī)——中科大團(tuán)隊(duì)揭示人工智能"看圖說(shuō)話"的致命盲點(diǎn)

多模態(tài)AI的視覺(jué)語(yǔ)言沖突危機(jī)——中科大團(tuán)隊(duì)揭示人工智能"看圖說(shuō)話"的致命盲點(diǎn)

2025-07-21 11:29
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-21 11:29 ? 科技行者

這項(xiàng)由中國(guó)科學(xué)技術(shù)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院張宗萌、周文罡、李厚強(qiáng),以及華為技術(shù)有限公司趙潔組成的研究團(tuán)隊(duì)完成的研究,發(fā)表于2025年第42屆國(guó)際機(jī)器學(xué)習(xí)大會(huì)(ICML 2025)。感興趣的讀者可以通過(guò)https://github.com/zmzhang2000/MMMC獲取相關(guān)代碼和數(shù)據(jù)集。

當(dāng)下最火熱的多模態(tài)大語(yǔ)言模型就像是擁有了視覺(jué)能力的超級(jí)助手,它們能夠同時(shí)理解圖片和文字,回答各種復(fù)雜的問(wèn)題。然而,這些看似聰明的AI系統(tǒng)卻存在著一個(gè)令人擔(dān)憂的問(wèn)題:當(dāng)它們面對(duì)圖片和文字信息相互矛盾的情況時(shí),經(jīng)常會(huì)產(chǎn)生錯(cuò)誤的理解,甚至"編造"出根本不存在的內(nèi)容。

設(shè)想這樣一個(gè)場(chǎng)景:你向AI展示一張狗在海邊沖浪的照片,然后詢問(wèn)"圖片中的球是什么顏色?"顯然,照片里根本沒(méi)有球,但是這些多模態(tài)AI系統(tǒng)卻可能會(huì)一本正經(jīng)地告訴你"圖片中的球是綠色的",仿佛真的看到了一個(gè)綠色的球。這種現(xiàn)象在AI領(lǐng)域被稱為"幻覺(jué)",而中科大的研究團(tuán)隊(duì)深入探究了這種幻覺(jué)產(chǎn)生的根本原因。

研究團(tuán)隊(duì)發(fā)現(xiàn),導(dǎo)致這種問(wèn)題的根源在于"模態(tài)沖突"——也就是視覺(jué)信息和文字信息之間存在根本性的矛盾。以往的研究主要關(guān)注AI的回答與輸入信息之間的沖突,但這項(xiàng)研究首次系統(tǒng)性地關(guān)注了輸入信息本身內(nèi)部的沖突問(wèn)題。當(dāng)圖片顯示的內(nèi)容與問(wèn)題中假設(shè)的內(nèi)容不一致時(shí),AI系統(tǒng)就會(huì)陷入困境,往往選擇相信文字而忽視視覺(jué)證據(jù),從而產(chǎn)生錯(cuò)誤的回答。

為了深入研究這個(gè)問(wèn)題,團(tuán)隊(duì)構(gòu)建了一個(gè)名為"多模態(tài)模態(tài)沖突"(MMMC)的專門數(shù)據(jù)集,包含了2萬(wàn)個(gè)精心設(shè)計(jì)的圖片-問(wèn)題-答案組合。這些樣本專門設(shè)計(jì)來(lái)測(cè)試AI在面對(duì)模態(tài)沖突時(shí)的表現(xiàn)。研究團(tuán)隊(duì)將模態(tài)沖突分為三個(gè)主要類型:對(duì)象沖突、屬性沖突和關(guān)系沖突。

對(duì)象沖突就像是在一張只有貓的照片前問(wèn)"狗在哪里"——問(wèn)題中提到的對(duì)象在圖片中根本不存在。屬性沖突則是指同一個(gè)對(duì)象在圖片和文字中被描述為具有不同的特征,比如圖片中是紅蘋果,但問(wèn)題詢問(wèn)綠蘋果的相關(guān)信息。關(guān)系沖突涉及對(duì)象之間位置或相互關(guān)系的不一致,例如圖片顯示貓?jiān)谧雷由?,但?wèn)題卻詢問(wèn)貓?jiān)诘匕迳系那闆r。

通過(guò)在這個(gè)數(shù)據(jù)集上測(cè)試當(dāng)前最先進(jìn)的多模態(tài)AI系統(tǒng),包括InstructBLIP、LLaVA系列、Qwen2-VL以及GPT-4o等知名模型,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人震驚的事實(shí):所有被測(cè)試的模型都表現(xiàn)出極高的幻覺(jué)率,超過(guò)40%的情況下會(huì)產(chǎn)生錯(cuò)誤的回答。即使是被譽(yù)為最強(qiáng)AI的GPT-4o,在面對(duì)模態(tài)沖突時(shí)也顯得力不從心。

面對(duì)這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了三種不同的解決方案。第一種是提示工程方法,通過(guò)改進(jìn)給AI的指令來(lái)提醒它首先檢查圖片中是否真的包含問(wèn)題所詢問(wèn)的內(nèi)容。這就像是在問(wèn)AI問(wèn)題之前先提醒它"請(qǐng)仔細(xì)看看圖片再回答"。這種方法簡(jiǎn)單易行,不需要額外的計(jì)算資源,但效果很大程度上取決于AI模型本身的能力。

第二種方法是監(jiān)督微調(diào),類似于給AI進(jìn)行專門的訓(xùn)練課程。研究團(tuán)隊(duì)使用MMMC數(shù)據(jù)集中的正確答案來(lái)訓(xùn)練AI,讓它學(xué)會(huì)在面對(duì)模態(tài)沖突時(shí)給出正確的回應(yīng)。這種方法就像是反復(fù)練習(xí)一種特定技能,直到形成肌肉記憶。監(jiān)督微調(diào)表現(xiàn)出了穩(wěn)定且顯著的改進(jìn)效果,能夠有效降低AI的幻覺(jué)率。

第三種也是效果最好的方法是強(qiáng)化學(xué)習(xí)。這種方法讓AI在訓(xùn)練過(guò)程中不斷嘗試回答問(wèn)題,當(dāng)它給出正確答案時(shí)就獲得獎(jiǎng)勵(lì),給出錯(cuò)誤答案時(shí)就受到懲罰。通過(guò)這種獎(jiǎng)懲機(jī)制,AI逐漸學(xué)會(huì)了更好地處理模態(tài)沖突。強(qiáng)化學(xué)習(xí)方法就像是讓AI在一個(gè)虛擬的游戲環(huán)境中不斷練習(xí),通過(guò)試錯(cuò)來(lái)掌握正確的判斷方式。

實(shí)驗(yàn)結(jié)果顯示,強(qiáng)化學(xué)習(xí)方法在減少幻覺(jué)方面效果最為顯著,能夠?qū)㈠e(cuò)誤率降低10%到50%不等。不過(guò),這種方法也帶來(lái)了一些挑戰(zhàn),比如訓(xùn)練過(guò)程相對(duì)不穩(wěn)定,有時(shí)候AI模型會(huì)出現(xiàn)"崩潰"現(xiàn)象,開(kāi)始生成冗長(zhǎng)而重復(fù)的無(wú)意義回答。

研究團(tuán)隊(duì)還深入分析了不同類型沖突的難易程度。他們發(fā)現(xiàn),對(duì)象沖突是最容易被AI識(shí)別的,因?yàn)榕袛嘁粋€(gè)物體是否存在相對(duì)簡(jiǎn)單。屬性沖突處于中等難度,需要AI仔細(xì)比較圖片中物體的特征與問(wèn)題中描述的特征。而關(guān)系沖突則是最具挑戰(zhàn)性的,因?yàn)樗驛I準(zhǔn)確理解多個(gè)對(duì)象之間復(fù)雜的空間或邏輯關(guān)系。

這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的改進(jìn)。隨著多模態(tài)AI在自動(dòng)駕駛、醫(yī)療診斷、教育輔助等關(guān)鍵領(lǐng)域的廣泛應(yīng)用,確保這些系統(tǒng)能夠準(zhǔn)確理解和處理多模態(tài)信息變得至關(guān)重要。當(dāng)一個(gè)醫(yī)療AI在分析X光片時(shí)產(chǎn)生幻覺(jué),或者自動(dòng)駕駛系統(tǒng)誤判路況信息時(shí),后果可能是災(zāi)難性的。

研究團(tuán)隊(duì)在測(cè)試過(guò)程中還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:不同的AI模型對(duì)于訓(xùn)練方法的適應(yīng)性存在顯著差異。有些模型在經(jīng)過(guò)改進(jìn)后能夠在多個(gè)任務(wù)上保持穩(wěn)定表現(xiàn),而有些模型則會(huì)出現(xiàn)"對(duì)齊稅"問(wèn)題——在解決模態(tài)沖突的同時(shí),在其他任務(wù)上的表現(xiàn)有所下降。這就像是專門訓(xùn)練某項(xiàng)技能可能會(huì)影響其他能力的發(fā)揮。

特別值得關(guān)注的是,研究團(tuán)隊(duì)發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)方法雖然效果最好,但訓(xùn)練過(guò)程需要格外小心。在某些情況下,AI模型會(huì)在訓(xùn)練過(guò)程中突然開(kāi)始生成極長(zhǎng)的重復(fù)性回答,仿佛陷入了某種循環(huán)思維模式。這種現(xiàn)象提醒我們,在追求AI性能提升的同時(shí),必須時(shí)刻關(guān)注模型的穩(wěn)定性和可靠性。

從更廣闊的視角來(lái)看,這項(xiàng)研究揭示了當(dāng)前AI技術(shù)發(fā)展中的一個(gè)根本性挑戰(zhàn):如何讓機(jī)器真正理解多模態(tài)信息之間的一致性和矛盾性。人類在面對(duì)沖突信息時(shí)會(huì)本能地進(jìn)行判斷和質(zhì)疑,但AI系統(tǒng)往往缺乏這種批判性思維能力。這不僅是一個(gè)技術(shù)問(wèn)題,更是一個(gè)關(guān)于如何讓AI具備更接近人類認(rèn)知能力的深層次挑戰(zhàn)。

研究結(jié)果還表明,解決模態(tài)沖突問(wèn)題需要在數(shù)據(jù)質(zhì)量、訓(xùn)練方法和模型架構(gòu)等多個(gè)層面進(jìn)行系統(tǒng)性改進(jìn)。單純依靠某一種方法很難徹底解決問(wèn)題,需要多種技術(shù)手段的有機(jī)結(jié)合。這就像是治療一種復(fù)雜疾病需要綜合治療方案一樣。

值得一提的是,這項(xiàng)研究的方法論也為未來(lái)的相關(guān)研究提供了重要參考。通過(guò)構(gòu)建專門的測(cè)試數(shù)據(jù)集來(lái)系統(tǒng)性評(píng)估AI的特定能力,這種做法可以推廣到其他AI安全和可靠性問(wèn)題的研究中。研究團(tuán)隊(duì)公開(kāi)了所有相關(guān)代碼和數(shù)據(jù),為學(xué)術(shù)界和產(chǎn)業(yè)界進(jìn)一步改進(jìn)多模態(tài)AI系統(tǒng)提供了寶貴資源。

對(duì)于普通用戶而言,這項(xiàng)研究提醒我們?cè)谑褂枚嗄B(tài)AI系統(tǒng)時(shí)需要保持適度的警惕。雖然這些系統(tǒng)在大多數(shù)情況下表現(xiàn)良好,但在面對(duì)復(fù)雜或矛盾的信息時(shí)可能會(huì)出現(xiàn)錯(cuò)誤。了解AI的局限性有助于我們更好地利用這些工具,同時(shí)避免過(guò)度依賴可能導(dǎo)致的問(wèn)題。

說(shuō)到底,這項(xiàng)研究為我們描繪了一幅多模態(tài)AI發(fā)展的真實(shí)圖景:既有令人振奮的進(jìn)步,也有需要認(rèn)真對(duì)待的挑戰(zhàn)。通過(guò)深入理解和解決模態(tài)沖突問(wèn)題,我們正在向更加可靠、更加智能的AI系統(tǒng)邁進(jìn)。這不僅是技術(shù)進(jìn)步的體現(xiàn),更是對(duì)AI安全和可信賴性的重要貢獻(xiàn)。隨著相關(guān)技術(shù)的不斷成熟,我們有理由相信未來(lái)的多模態(tài)AI將能夠更好地理解和處理復(fù)雜的現(xiàn)實(shí)世界信息,為人類社會(huì)帶來(lái)更大的價(jià)值。

Q&A

Q1:什么是模態(tài)沖突?為什么會(huì)讓AI產(chǎn)生幻覺(jué)? A:模態(tài)沖突是指圖片和文字信息之間存在矛盾的情況。比如圖片顯示一只狗,但問(wèn)題卻詢問(wèn)貓的信息。AI在面對(duì)這種沖突時(shí)往往會(huì)偏信文字而忽視圖片證據(jù),從而"編造"出不存在的內(nèi)容,產(chǎn)生幻覺(jué)現(xiàn)象。

Q2:目前的多模態(tài)AI有多容易產(chǎn)生這種錯(cuò)誤? A:研究發(fā)現(xiàn),包括GPT-4o在內(nèi)的所有主流多模態(tài)AI都存在這個(gè)問(wèn)題,錯(cuò)誤率超過(guò)40%。這意味著在近一半涉及模態(tài)沖突的情況下,AI會(huì)給出錯(cuò)誤答案,這個(gè)比例相當(dāng)高。

Q3:有什么方法可以解決這個(gè)問(wèn)題嗎? A:研究團(tuán)隊(duì)提出了三種解決方案:改進(jìn)提示詞、專門訓(xùn)練和強(qiáng)化學(xué)習(xí)。其中強(qiáng)化學(xué)習(xí)效果最好,能將錯(cuò)誤率降低10-50%,但訓(xùn)練過(guò)程較為復(fù)雜。目前這些方法都在不斷完善中。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-