av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<blockquote id="3dnbg"><i id="3dnbg"><video id="3dnbg"></video></i></blockquote>

^{<blockquote id="3dnbg"></blockquote>}

<sub id="3dnbg"><p id="3dnbg"></p></sub>

<cite id="3dnbg"><rp id="3dnbg"></rp></cite>

<cite id="3dnbg"></cite>

<sub id="3dnbg"><p id="3dnbg"></p></sub>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

多模態(tài)AI的"視力"和"文字理解"為何不在一個頻道上？多倫多大學(xué)重磅發(fā)現(xiàn)

人工智能多模態(tài)理解基準(zhǔn)測試

多模態(tài)AI的"視力"和"文字理解"為何不在一個頻道上？多倫多大學(xué)重磅發(fā)現(xiàn)

作者：科技行者

2025-09-04 14:30

分享至：

多倫多大學(xué)研究團(tuán)隊通過開發(fā)SEAM基準(zhǔn)測試系統(tǒng)，發(fā)現(xiàn)當(dāng)前最先進(jìn)的視覺-語言AI模型存在顯著的"模態(tài)失衡"現(xiàn)象。即便面對語義完全相同的信息，這些模型在處理視覺輸入和文字輸入時表現(xiàn)差異明顯。研究涵蓋國際象棋、化學(xué)、音樂、圖論四個領(lǐng)域，測試了21個主流模型，揭示了分詞錯誤和視覺幻覺兩大根本原因。這項(xiàng)工作為評估和改進(jìn)AI跨模態(tài)理解能力提供了重要基準(zhǔn)，對推進(jìn)通用人工智能發(fā)展具有重要意義。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-09-04 14:30 ? 科技行者

當(dāng)我們看到一張棋盤照片和一串看起來像天書一樣的字母數(shù)字組合"rnbqkbnr/pppppppp/8/8/8/8/PPPPPPPP/RNBQKBNR"時，可能很難相信它們其實(shí)在描述完全相同的信息——同一個國際象棋開局位置。然而，這正是多倫多大學(xué)計算機(jī)科學(xué)系的唐振偉、焦迪凡、楊布萊爾和安德森·阿什頓教授團(tuán)隊在2025年發(fā)表于COLM會議的最新研究所關(guān)注的核心問題。這項(xiàng)發(fā)表于2025年8月的研究論文完整標(biāo)題為《SEAM: Semantically Equivalent Across Modalities Benchmark for Vision-Language Models》，感興趣的讀者可以通過arXiv:2508.18179v1訪問完整論文。

當(dāng)前的人工智能模型被稱為"視覺-語言模型"，就像是擁有眼睛和大腦的機(jī)器人，既能"看"圖片，又能"讀"文字。按理說，無論是給這些AI模型看一張國際象棋棋盤的照片，還是給它們看那串神秘的字母數(shù)字代碼，它們都應(yīng)該能得出相同的結(jié)論——因?yàn)檫@兩種表達(dá)方式本質(zhì)上傳達(dá)的是同樣的信息。然而現(xiàn)實(shí)情況并非如此簡單。

研究團(tuán)隊發(fā)現(xiàn)了一個令人意外的現(xiàn)象：即便是最先進(jìn)的AI模型，當(dāng)面對語義上完全相同的信息時，如果這些信息以不同的方式呈現(xiàn)（比如圖片versus文字），它們的表現(xiàn)會出現(xiàn)顯著差異。這就好比一個人看地圖很厲害，但是聽路線描述就迷糊了，明明是同一條路線，只是表達(dá)方式不同而已。

為了深入研究這個問題，研究團(tuán)隊開發(fā)了一個名為SEAM的基準(zhǔn)測試系統(tǒng)，全稱是"跨模態(tài)語義等價基準(zhǔn)"。這個系統(tǒng)的巧妙之處在于，它選擇了四個有著標(biāo)準(zhǔn)化符號系統(tǒng)的領(lǐng)域：國際象棋、化學(xué)、音樂和圖論。每個領(lǐng)域都有自己的"雙語"表達(dá)方式——既有視覺圖形，也有對應(yīng)的文字符號系統(tǒng)。

在國際象棋領(lǐng)域，除了我們熟悉的黑白格棋盤圖，還有一種叫做FEN記號的文字表示法，專業(yè)棋手經(jīng)常使用這種簡潔的代碼來記錄和分析棋局?；瘜W(xué)領(lǐng)域有分子結(jié)構(gòu)圖和SMILES字符串兩種表達(dá)方式，前者直觀地展示原子和化學(xué)鍵的空間關(guān)系，后者則用一串特殊的字符來編碼同樣的信息。音樂世界里，五線譜是我們最熟悉的視覺表示，但還有一種叫做ABC記號的文字格式，能夠用純文本記錄旋律和節(jié)奏。圖論這個數(shù)學(xué)分支既可以用節(jié)點(diǎn)和連線的圖形來表示網(wǎng)絡(luò)關(guān)系，也可以用鄰接矩陣這種數(shù)字表格來精確描述同樣的連接模式。

研究團(tuán)隊精心設(shè)計了16個具體任務(wù)，每個領(lǐng)域包含4個不同類型的問題。以國際象棋為例，他們設(shè)計了戰(zhàn)術(shù)分叉識別、合法走子判斷、謎題求解和局面評估等任務(wù)。每個任務(wù)都準(zhǔn)備了200道題目，總計3200個測試項(xiàng)目。這些題目的設(shè)計遵循一個關(guān)鍵原則：無論是看圖片還是讀文字描述，聰明的AI模型都應(yīng)該能得出相同的答案，因?yàn)樗鼈兠鎸Φ谋举|(zhì)上是同一個問題。

當(dāng)研究團(tuán)隊用這套測試系統(tǒng)檢驗(yàn)21個當(dāng)前最先進(jìn)的視覺-語言模型時，結(jié)果令人深思。從GPT-5到Claude-4，從開源的Qwen2.5到專有的InternVL系列，幾乎所有模型都顯現(xiàn)出了明顯的"模態(tài)失衡"現(xiàn)象。簡單來說，這些AI在處理文字信息時通常比處理圖片信息表現(xiàn)更好，即便這些信息在本質(zhì)上是相同的。

更有趣的是，不同領(lǐng)域的模態(tài)失衡程度并不一致。在國際象棋和化學(xué)領(lǐng)域，模型的視覺理解能力有時甚至能與文字理解能力媲美，偶爾還能略勝一籌。但是在音樂理解方面，文字輸入幾乎總是產(chǎn)生比圖片輸入更好的結(jié)果。而在圖論任務(wù)中，這種差異變得更加明顯，文字表示的鄰接矩陣比圖形化的網(wǎng)絡(luò)圖能讓AI模型表現(xiàn)得更好。

研究團(tuán)隊深入分析了造成這種現(xiàn)象的原因，發(fā)現(xiàn)了兩個主要的"罪魁禍?zhǔn)?。第一個問題出現(xiàn)在文字理解環(huán)節(jié)，具體表現(xiàn)為"分詞錯誤"。當(dāng)AI模型試圖理解像SMILES化學(xué)式這樣的特殊符號串時，它們的分詞系統(tǒng)會將這些符號切割成毫無意義的片段。就像把一個完整的化學(xué)分子式"COC(=O)C(OC(C)(C)C)c1cc"錯誤地分解成"OC"、"cc"、"([" 等無關(guān)片段，這就好比把一個完整的電話號碼隨意分段，讓人根本無法理解原始信息。

第二個問題存在于視覺理解過程中，表現(xiàn)為"視覺幻覺"。當(dāng)AI模型分析圖形時，有時會"看到"實(shí)際上不存在的連接或元素。研究團(tuán)隊發(fā)現(xiàn)，這種問題在圖論任務(wù)中尤其明顯，當(dāng)圖形在轉(zhuǎn)換成小塊輸入給視覺系統(tǒng)時，如果分割點(diǎn)恰好經(jīng)過節(jié)點(diǎn)之間的連接線，模型可能會產(chǎn)生混亂，誤認(rèn)為存在實(shí)際上并不存在的連接路徑。

為了驗(yàn)證他們的發(fā)現(xiàn)不是由視覺呈現(xiàn)的細(xì)節(jié)差異造成的，研究團(tuán)隊進(jìn)行了穩(wěn)健性測試。他們對圖片進(jìn)行了各種變換，包括分辨率調(diào)整、黑白轉(zhuǎn)換和180度旋轉(zhuǎn)等，結(jié)果發(fā)現(xiàn)這些變化對模型性能的影響微乎其微，變化幅度僅在1-3個百分點(diǎn)之間。這證明了觀察到的模態(tài)失衡確實(shí)源于深層的理解機(jī)制差異，而非表面的視覺細(xì)節(jié)問題。

研究團(tuán)隊還發(fā)現(xiàn)了另一個有趣現(xiàn)象：不同模型之間的"跨模態(tài)一致性"相當(dāng)?shù)汀Q句話說，即便是面對語義相同的問題，不同的AI模型在處理視覺信息和文字信息時經(jīng)常給出不同的答案，這種不一致性遠(yuǎn)超隨機(jī)猜測的水平。這就像幾個人看同一張地圖和聽同一個路線描述后，卻對目的地有著完全不同的理解。

更深入的分析揭示了一個令人擔(dān)憂的現(xiàn)象：即便是那些在標(biāo)準(zhǔn)測試中表現(xiàn)優(yōu)秀的大型模型，在面對真正需要跨模態(tài)理解的任務(wù)時，它們的內(nèi)部表征（可以理解為大腦中的"概念地圖"）在不同模態(tài)間并沒有很好地對齊。通過可視化技術(shù)，研究人員發(fā)現(xiàn)，當(dāng)模型處理同一概念的視覺和文字表示時，它們在內(nèi)部"大腦空間"中的位置相距甚遠(yuǎn)，就像兩個本應(yīng)重合的概念被放在了完全不同的思維區(qū)域。

這項(xiàng)研究的意義遠(yuǎn)不止是發(fā)現(xiàn)了AI模型的一個技術(shù)缺陷。它揭示了當(dāng)前"多模態(tài)"人工智能的一個根本性挑戰(zhàn)：真正的智能應(yīng)該能夠無縫地在不同表示形式之間轉(zhuǎn)換和推理，就像人類專家無論是看到化學(xué)結(jié)構(gòu)圖還是讀到化學(xué)式都能立刻識別出同一個分子一樣。

研究團(tuán)隊的工作為未來的AI發(fā)展指明了方向。他們建議開發(fā)針對特定領(lǐng)域的專用分詞器，以更好地處理專業(yè)符號系統(tǒng)。同時，他們認(rèn)為需要改進(jìn)視覺處理機(jī)制，減少因圖像分割導(dǎo)致的信息丟失和錯誤解釋。更重要的是，未來的AI系統(tǒng)應(yīng)該具備更強(qiáng)的跨模態(tài)轉(zhuǎn)換能力，能夠在內(nèi)部將不同形式的相同信息映射到統(tǒng)一的概念空間中。

這項(xiàng)研究的另一個重要貢獻(xiàn)是為AI評估建立了新的標(biāo)準(zhǔn)。SEAM基準(zhǔn)測試系統(tǒng)現(xiàn)在已經(jīng)公開發(fā)布，包括完整的數(shù)據(jù)集、代碼和在線排行榜，為研究社區(qū)提供了一個客觀評估模態(tài)平衡能力的工具。這就像為汽車行業(yè)建立了新的安全測試標(biāo)準(zhǔn)，不僅要看車子跑得多快，還要看它在不同路況下的一致性表現(xiàn)。

從更廣闊的視角來看，這項(xiàng)研究提醒我們，真正的人工智能不應(yīng)該只是在單一任務(wù)上表現(xiàn)出色的專家，而應(yīng)該像人類一樣具備靈活的跨模態(tài)理解能力。當(dāng)我們向通用人工智能邁進(jìn)時，確保AI系統(tǒng)能夠以同樣的深度和一致性理解各種形式的信息表達(dá)，將是一個至關(guān)重要的里程碑。

說到底，這項(xiàng)研究揭示了一個簡單卻深刻的道理：同一件事情可以用很多種方式來表達(dá)，但真正的理解應(yīng)該超越表達(dá)方式的差異，抓住事物的本質(zhì)。雖然當(dāng)前的AI模型在這方面還有很大的改進(jìn)空間，但正是這樣的研究為我們指出了前進(jìn)的方向，讓我們離真正智能的機(jī)器又近了一步。

Q&A

Q1：SEAM基準(zhǔn)測試系統(tǒng)是什么？它如何檢驗(yàn)AI模型的跨模態(tài)能力？

A：SEAM是"跨模態(tài)語義等價基準(zhǔn)"的簡稱，由多倫多大學(xué)研究團(tuán)隊開發(fā)。它通過四個有標(biāo)準(zhǔn)化符號系統(tǒng)的領(lǐng)域（國際象棋、化學(xué)、音樂、圖論）來測試AI模型。每個領(lǐng)域都有視覺和文字兩種表達(dá)同一信息的方式，比如國際象棋棋盤圖片和FEN代碼、化學(xué)分子結(jié)構(gòu)圖和SMILES字符串。系統(tǒng)包含16個任務(wù)共3200道題目，檢驗(yàn)AI模型面對相同信息的不同表達(dá)形式時是否能給出一致答案。

Q2：為什么當(dāng)前的視覺-語言AI模型會出現(xiàn)模態(tài)失衡現(xiàn)象？

A：研究發(fā)現(xiàn)兩個主要原因：一是文字處理中的分詞錯誤，AI系統(tǒng)會將專業(yè)符號串錯誤分割成無意義片段，比如把完整的化學(xué)式分解成"OC"、"cc"等碎片；二是視覺處理中的"視覺幻覺"，AI在分析圖形時可能"看到"不存在的連接，特別是當(dāng)圖像被分割成小塊輸入時容易產(chǎn)生誤解。這些問題導(dǎo)致相同信息的不同表達(dá)形式產(chǎn)生不同的理解結(jié)果。

Q3：這項(xiàng)研究對未來AI發(fā)展有什么重要意義？

A：這項(xiàng)研究揭示了通向真正通用人工智能的關(guān)鍵挑戰(zhàn)——跨模態(tài)理解一致性。它為AI評估建立了新標(biāo)準(zhǔn)，不僅要看模型在單一任務(wù)上的表現(xiàn)，還要檢驗(yàn)其處理不同表達(dá)形式時的一致性。研究指出了改進(jìn)方向：開發(fā)專業(yè)領(lǐng)域的分詞器、改進(jìn)視覺處理機(jī)制、增強(qiáng)跨模態(tài)轉(zhuǎn)換能力。這對構(gòu)建真正能像人類一樣靈活理解各種信息表達(dá)的AI系統(tǒng)具有重要指導(dǎo)意義。

人工智能多模態(tài)理解基準(zhǔn)測試

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息，顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量，在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<style id="jr1n3"></style>

^{<sub id="jr1n3"></sub>}

<sub id="jr1n3"></sub>

<sup id="jr1n3"><rt id="jr1n3"></rt></sup>^{<sub id="jr1n3"><i id="jr1n3"></i></sub>}