av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 多模態(tài)AI的"視力"和"文字理解"為何不在一個頻道上?多倫多大學(xué)重磅發(fā)現(xiàn)

多模態(tài)AI的"視力"和"文字理解"為何不在一個頻道上?多倫多大學(xué)重磅發(fā)現(xiàn)

2025-09-04 14:30
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-04 14:30 ? 科技行者

當(dāng)我們看到一張棋盤照片和一串看起來像天書一樣的字母數(shù)字組合"rnbqkbnr/pppppppp/8/8/8/8/PPPPPPPP/RNBQKBNR"時,可能很難相信它們其實(shí)在描述完全相同的信息——同一個國際象棋開局位置。然而,這正是多倫多大學(xué)計算機(jī)科學(xué)系的唐振偉、焦迪凡、楊布萊爾和安德森·阿什頓教授團(tuán)隊在2025年發(fā)表于COLM會議的最新研究所關(guān)注的核心問題。這項(xiàng)發(fā)表于2025年8月的研究論文完整標(biāo)題為《SEAM: Semantically Equivalent Across Modalities Benchmark for Vision-Language Models》,感興趣的讀者可以通過arXiv:2508.18179v1訪問完整論文。

當(dāng)前的人工智能模型被稱為"視覺-語言模型",就像是擁有眼睛和大腦的機(jī)器人,既能"看"圖片,又能"讀"文字。按理說,無論是給這些AI模型看一張國際象棋棋盤的照片,還是給它們看那串神秘的字母數(shù)字代碼,它們都應(yīng)該能得出相同的結(jié)論——因?yàn)檫@兩種表達(dá)方式本質(zhì)上傳達(dá)的是同樣的信息。然而現(xiàn)實(shí)情況并非如此簡單。

研究團(tuán)隊發(fā)現(xiàn)了一個令人意外的現(xiàn)象:即便是最先進(jìn)的AI模型,當(dāng)面對語義上完全相同的信息時,如果這些信息以不同的方式呈現(xiàn)(比如圖片versus文字),它們的表現(xiàn)會出現(xiàn)顯著差異。這就好比一個人看地圖很厲害,但是聽路線描述就迷糊了,明明是同一條路線,只是表達(dá)方式不同而已。

為了深入研究這個問題,研究團(tuán)隊開發(fā)了一個名為SEAM的基準(zhǔn)測試系統(tǒng),全稱是"跨模態(tài)語義等價基準(zhǔn)"。這個系統(tǒng)的巧妙之處在于,它選擇了四個有著標(biāo)準(zhǔn)化符號系統(tǒng)的領(lǐng)域:國際象棋、化學(xué)、音樂和圖論。每個領(lǐng)域都有自己的"雙語"表達(dá)方式——既有視覺圖形,也有對應(yīng)的文字符號系統(tǒng)。

在國際象棋領(lǐng)域,除了我們熟悉的黑白格棋盤圖,還有一種叫做FEN記號的文字表示法,專業(yè)棋手經(jīng)常使用這種簡潔的代碼來記錄和分析棋局?;瘜W(xué)領(lǐng)域有分子結(jié)構(gòu)圖和SMILES字符串兩種表達(dá)方式,前者直觀地展示原子和化學(xué)鍵的空間關(guān)系,后者則用一串特殊的字符來編碼同樣的信息。音樂世界里,五線譜是我們最熟悉的視覺表示,但還有一種叫做ABC記號的文字格式,能夠用純文本記錄旋律和節(jié)奏。圖論這個數(shù)學(xué)分支既可以用節(jié)點(diǎn)和連線的圖形來表示網(wǎng)絡(luò)關(guān)系,也可以用鄰接矩陣這種數(shù)字表格來精確描述同樣的連接模式。

研究團(tuán)隊精心設(shè)計了16個具體任務(wù),每個領(lǐng)域包含4個不同類型的問題。以國際象棋為例,他們設(shè)計了戰(zhàn)術(shù)分叉識別、合法走子判斷、謎題求解和局面評估等任務(wù)。每個任務(wù)都準(zhǔn)備了200道題目,總計3200個測試項(xiàng)目。這些題目的設(shè)計遵循一個關(guān)鍵原則:無論是看圖片還是讀文字描述,聰明的AI模型都應(yīng)該能得出相同的答案,因?yàn)樗鼈兠鎸Φ谋举|(zhì)上是同一個問題。

當(dāng)研究團(tuán)隊用這套測試系統(tǒng)檢驗(yàn)21個當(dāng)前最先進(jìn)的視覺-語言模型時,結(jié)果令人深思。從GPT-5到Claude-4,從開源的Qwen2.5到專有的InternVL系列,幾乎所有模型都顯現(xiàn)出了明顯的"模態(tài)失衡"現(xiàn)象。簡單來說,這些AI在處理文字信息時通常比處理圖片信息表現(xiàn)更好,即便這些信息在本質(zhì)上是相同的。

更有趣的是,不同領(lǐng)域的模態(tài)失衡程度并不一致。在國際象棋和化學(xué)領(lǐng)域,模型的視覺理解能力有時甚至能與文字理解能力媲美,偶爾還能略勝一籌。但是在音樂理解方面,文字輸入幾乎總是產(chǎn)生比圖片輸入更好的結(jié)果。而在圖論任務(wù)中,這種差異變得更加明顯,文字表示的鄰接矩陣比圖形化的網(wǎng)絡(luò)圖能讓AI模型表現(xiàn)得更好。

研究團(tuán)隊深入分析了造成這種現(xiàn)象的原因,發(fā)現(xiàn)了兩個主要的"罪魁禍?zhǔn)?。第一個問題出現(xiàn)在文字理解環(huán)節(jié),具體表現(xiàn)為"分詞錯誤"。當(dāng)AI模型試圖理解像SMILES化學(xué)式這樣的特殊符號串時,它們的分詞系統(tǒng)會將這些符號切割成毫無意義的片段。就像把一個完整的化學(xué)分子式"COC(=O)C(OC(C)(C)C)c1cc"錯誤地分解成"OC"、"cc"、"([" 等無關(guān)片段,這就好比把一個完整的電話號碼隨意分段,讓人根本無法理解原始信息。

第二個問題存在于視覺理解過程中,表現(xiàn)為"視覺幻覺"。當(dāng)AI模型分析圖形時,有時會"看到"實(shí)際上不存在的連接或元素。研究團(tuán)隊發(fā)現(xiàn),這種問題在圖論任務(wù)中尤其明顯,當(dāng)圖形在轉(zhuǎn)換成小塊輸入給視覺系統(tǒng)時,如果分割點(diǎn)恰好經(jīng)過節(jié)點(diǎn)之間的連接線,模型可能會產(chǎn)生混亂,誤認(rèn)為存在實(shí)際上并不存在的連接路徑。

為了驗(yàn)證他們的發(fā)現(xiàn)不是由視覺呈現(xiàn)的細(xì)節(jié)差異造成的,研究團(tuán)隊進(jìn)行了穩(wěn)健性測試。他們對圖片進(jìn)行了各種變換,包括分辨率調(diào)整、黑白轉(zhuǎn)換和180度旋轉(zhuǎn)等,結(jié)果發(fā)現(xiàn)這些變化對模型性能的影響微乎其微,變化幅度僅在1-3個百分點(diǎn)之間。這證明了觀察到的模態(tài)失衡確實(shí)源于深層的理解機(jī)制差異,而非表面的視覺細(xì)節(jié)問題。

研究團(tuán)隊還發(fā)現(xiàn)了另一個有趣現(xiàn)象:不同模型之間的"跨模態(tài)一致性"相當(dāng)?shù)汀Q句話說,即便是面對語義相同的問題,不同的AI模型在處理視覺信息和文字信息時經(jīng)常給出不同的答案,這種不一致性遠(yuǎn)超隨機(jī)猜測的水平。這就像幾個人看同一張地圖和聽同一個路線描述后,卻對目的地有著完全不同的理解。

更深入的分析揭示了一個令人擔(dān)憂的現(xiàn)象:即便是那些在標(biāo)準(zhǔn)測試中表現(xiàn)優(yōu)秀的大型模型,在面對真正需要跨模態(tài)理解的任務(wù)時,它們的內(nèi)部表征(可以理解為大腦中的"概念地圖")在不同模態(tài)間并沒有很好地對齊。通過可視化技術(shù),研究人員發(fā)現(xiàn),當(dāng)模型處理同一概念的視覺和文字表示時,它們在內(nèi)部"大腦空間"中的位置相距甚遠(yuǎn),就像兩個本應(yīng)重合的概念被放在了完全不同的思維區(qū)域。

這項(xiàng)研究的意義遠(yuǎn)不止是發(fā)現(xiàn)了AI模型的一個技術(shù)缺陷。它揭示了當(dāng)前"多模態(tài)"人工智能的一個根本性挑戰(zhàn):真正的智能應(yīng)該能夠無縫地在不同表示形式之間轉(zhuǎn)換和推理,就像人類專家無論是看到化學(xué)結(jié)構(gòu)圖還是讀到化學(xué)式都能立刻識別出同一個分子一樣。

研究團(tuán)隊的工作為未來的AI發(fā)展指明了方向。他們建議開發(fā)針對特定領(lǐng)域的專用分詞器,以更好地處理專業(yè)符號系統(tǒng)。同時,他們認(rèn)為需要改進(jìn)視覺處理機(jī)制,減少因圖像分割導(dǎo)致的信息丟失和錯誤解釋。更重要的是,未來的AI系統(tǒng)應(yīng)該具備更強(qiáng)的跨模態(tài)轉(zhuǎn)換能力,能夠在內(nèi)部將不同形式的相同信息映射到統(tǒng)一的概念空間中。

這項(xiàng)研究的另一個重要貢獻(xiàn)是為AI評估建立了新的標(biāo)準(zhǔn)。SEAM基準(zhǔn)測試系統(tǒng)現(xiàn)在已經(jīng)公開發(fā)布,包括完整的數(shù)據(jù)集、代碼和在線排行榜,為研究社區(qū)提供了一個客觀評估模態(tài)平衡能力的工具。這就像為汽車行業(yè)建立了新的安全測試標(biāo)準(zhǔn),不僅要看車子跑得多快,還要看它在不同路況下的一致性表現(xiàn)。

從更廣闊的視角來看,這項(xiàng)研究提醒我們,真正的人工智能不應(yīng)該只是在單一任務(wù)上表現(xiàn)出色的專家,而應(yīng)該像人類一樣具備靈活的跨模態(tài)理解能力。當(dāng)我們向通用人工智能邁進(jìn)時,確保AI系統(tǒng)能夠以同樣的深度和一致性理解各種形式的信息表達(dá),將是一個至關(guān)重要的里程碑。

說到底,這項(xiàng)研究揭示了一個簡單卻深刻的道理:同一件事情可以用很多種方式來表達(dá),但真正的理解應(yīng)該超越表達(dá)方式的差異,抓住事物的本質(zhì)。雖然當(dāng)前的AI模型在這方面還有很大的改進(jìn)空間,但正是這樣的研究為我們指出了前進(jìn)的方向,讓我們離真正智能的機(jī)器又近了一步。

Q&A

Q1:SEAM基準(zhǔn)測試系統(tǒng)是什么?它如何檢驗(yàn)AI模型的跨模態(tài)能力?

A:SEAM是"跨模態(tài)語義等價基準(zhǔn)"的簡稱,由多倫多大學(xué)研究團(tuán)隊開發(fā)。它通過四個有標(biāo)準(zhǔn)化符號系統(tǒng)的領(lǐng)域(國際象棋、化學(xué)、音樂、圖論)來測試AI模型。每個領(lǐng)域都有視覺和文字兩種表達(dá)同一信息的方式,比如國際象棋棋盤圖片和FEN代碼、化學(xué)分子結(jié)構(gòu)圖和SMILES字符串。系統(tǒng)包含16個任務(wù)共3200道題目,檢驗(yàn)AI模型面對相同信息的不同表達(dá)形式時是否能給出一致答案。

Q2:為什么當(dāng)前的視覺-語言AI模型會出現(xiàn)模態(tài)失衡現(xiàn)象?

A:研究發(fā)現(xiàn)兩個主要原因:一是文字處理中的分詞錯誤,AI系統(tǒng)會將專業(yè)符號串錯誤分割成無意義片段,比如把完整的化學(xué)式分解成"OC"、"cc"等碎片;二是視覺處理中的"視覺幻覺",AI在分析圖形時可能"看到"不存在的連接,特別是當(dāng)圖像被分割成小塊輸入時容易產(chǎn)生誤解。這些問題導(dǎo)致相同信息的不同表達(dá)形式產(chǎn)生不同的理解結(jié)果。

Q3:這項(xiàng)研究對未來AI發(fā)展有什么重要意義?

A:這項(xiàng)研究揭示了通向真正通用人工智能的關(guān)鍵挑戰(zhàn)——跨模態(tài)理解一致性。它為AI評估建立了新標(biāo)準(zhǔn),不僅要看模型在單一任務(wù)上的表現(xiàn),還要檢驗(yàn)其處理不同表達(dá)形式時的一致性。研究指出了改進(jìn)方向:開發(fā)專業(yè)領(lǐng)域的分詞器、改進(jìn)視覺處理機(jī)制、增強(qiáng)跨模態(tài)轉(zhuǎn)換能力。這對構(gòu)建真正能像人類一樣靈活理解各種信息表達(dá)的AI系統(tǒng)具有重要指導(dǎo)意義。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-