av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 機器也要"察言觀色":上海人工智能實驗室推出視覺推理新挑戰(zhàn),揭開AI視覺理解的最后一塊面紗

機器也要"察言觀色":上海人工智能實驗室推出視覺推理新挑戰(zhàn),揭開AI視覺理解的最后一塊面紗

2025-07-16 09:59
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-16 09:59 ? 科技行者

這項由上海人工智能實驗室聯(lián)合中科大、西安交大、清華大學等多家機構(gòu)共同完成的研究發(fā)表于2025年4月,論文作者包括許偉燁、王嘉昊、王維云、陳喆等多位研究者。感興趣的讀者可以通過論文網(wǎng)站 https://visulogic-benchmark.github.io/VisuLogic 了解更多詳細信息。

人工智能在很多方面已經(jīng)超越了人類,比如下棋、翻譯、甚至寫詩,但在一個看似簡單的能力上卻屢屢碰壁——那就是像人類一樣"看圖說話"并進行邏輯推理。你可能會疑惑,現(xiàn)在的AI不是已經(jīng)能識別圖片,甚至能描述圖片內(nèi)容了嗎?確實如此,但這里的關(guān)鍵區(qū)別在于,AI能否真正"理解"圖片中的邏輯關(guān)系,而不僅僅是描述看到的內(nèi)容。

研究團隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:當前最先進的多模態(tài)大語言模型(就是那些既能處理文字又能處理圖片的AI)在面對需要純視覺推理的問題時,往往采用了一種"投機取巧"的方法。它們會先將圖片轉(zhuǎn)換成文字描述,然后基于這些文字進行推理,而不是直接從視覺信息中進行邏輯推演。這就好比一個人看到一道幾何題,不是直接觀察圖形找規(guī)律,而是先把圖形用文字詳細描述一遍,然后基于這些文字描述來解題。

問題在于,這種方法在某些情況下是行得通的,但在真正需要視覺邏輯推理的場景中就會暴露出致命缺陷。研究團隊通過一個巧妙的實驗證明了這一點:他們讓最先進的AI模型GPT-4o來描述一些需要視覺推理的圖片,然后讓純文本AI來基于這些描述解題。結(jié)果發(fā)現(xiàn),即使是最詳細的文字描述也會丟失關(guān)鍵的視覺信息,比如對稱性、旋轉(zhuǎn)關(guān)系、空間排列等,這些恰恰是視覺推理中最重要的元素。

為了徹底解決這個問題,研究團隊開發(fā)了一個名為VisuLogic的新基準測試。這個測試的設(shè)計理念非常獨特——它專門挑選那些很難用文字準確描述,但人眼一看就能發(fā)現(xiàn)規(guī)律的視覺推理題目。這些題目涵蓋了六個不同的類別,每一類都考驗AI的不同視覺推理能力。

在數(shù)量推理類別中,AI需要理解圖形元素數(shù)量的變化規(guī)律。比如,一系列圖形中黑點的數(shù)量按照某種規(guī)律遞增或遞減,AI需要預(yù)測下一個圖形應(yīng)該有多少個黑點。這看似簡單,但實際上需要AI能夠準確識別和計數(shù)圖形中的元素,并理解數(shù)字序列的邏輯關(guān)系。

空間推理類別更加復(fù)雜,它要求AI具備三維思維能力。想象你看到一個立方體的展開圖,你需要判斷這個展開圖能否折疊成特定的立方體。這類問題對人類來說相對容易,因為我們天生具備空間想象能力,但對AI來說卻是巨大的挑戰(zhàn),因為它需要在腦海中"旋轉(zhuǎn)"和"折疊"這些圖形。

位置推理類別考驗的是AI對圖形變換的理解。圖形可能經(jīng)歷平移、旋轉(zhuǎn)、翻轉(zhuǎn)等變換,AI需要識別這些變換的規(guī)律并預(yù)測后續(xù)的變化。這就像看魔方復(fù)原的過程,你需要理解每一步操作對整體結(jié)構(gòu)的影響。

屬性推理類別關(guān)注的是圖形的內(nèi)在特性,比如對稱性、開放性或封閉性等。一個圖形可能在形狀上完全不同,但在對稱性上具有相同的特征。AI需要能夠抽象出這些深層的屬性關(guān)系。

風格推理類別涉及圖形的表現(xiàn)形式,比如疊加、減法、輪廓變化等。同一個基本形狀可能以不同的風格呈現(xiàn),AI需要識別出這些風格變化的規(guī)律。

最后的其他類別包含了各種特殊符號和字母數(shù)字等元素,這些往往涉及更復(fù)雜的邏輯關(guān)系和文化背景知識。

整個VisuLogic基準包含了1000道經(jīng)過人工驗證的題目,每道題都有四個選項,隨機猜測的準確率約為25%。研究團隊還邀請了100名理工科研究生作為對照組,他們的平均準確率達到了51.4%。這個數(shù)字為AI模型的表現(xiàn)提供了一個重要的參考標準。

當研究團隊用VisuLogic測試當前最先進的AI模型時,結(jié)果令人震驚。包括GPT-4o、Gemini-2.0-Pro等在內(nèi)的頂級模型,準確率普遍在26-28%之間,僅比隨機猜測稍好一點,與人類表現(xiàn)相比差距巨大。這個結(jié)果清楚地表明,當前的AI在真正的視覺推理方面還存在嚴重不足。

更有趣的是,當研究團隊使用不同的提示策略時,發(fā)現(xiàn)了一些意外的結(jié)果。傳統(tǒng)上,給AI提供思維鏈(Chain-of-Thought)提示能夠顯著提升其推理能力,但在視覺推理任務(wù)中,這種方法的效果微乎其微。大多數(shù)模型的準確率提升不到1個百分點,這進一步證明了視覺推理與純文本推理的本質(zhì)區(qū)別。

然而,當研究團隊提供解題提示時,AI的表現(xiàn)有了明顯改善。比如GPT-4o的準確率從26.3%提升到了30.0%,Claude-3.7-Sonnet更是從24.8%提升到了33.5%。但即使有了提示,AI的表現(xiàn)仍然遠遜于人類。有趣的是,人類在有提示的情況下表現(xiàn)更加出色,準確率從51.4%提升到了83.6%,這說明提示策略對人類和AI都有幫助,但人類從中受益更多。

為了進一步提升AI的視覺推理能力,研究團隊嘗試了強化學習的方法。他們在4296道補充訓(xùn)練題上對兩個開源模型進行了強化學習訓(xùn)練。結(jié)果顯示,Qwen2.5-VL-7B模型的準確率從25.5%提升到了28.0%,而InternVL2.5-38B模型更是從25.5%大幅提升到了31.1%,成為了當前表現(xiàn)最好的模型。

這種改進雖然令人鼓舞,但也揭示了強化學習訓(xùn)練的巨大潛力。在訓(xùn)練過程中,研究團隊設(shè)計了一套基于規(guī)則的獎勵系統(tǒng),不僅要求模型給出正確答案,還要求模型的輸出格式規(guī)范,推理過程清晰。通過這種方式,AI學會了更加系統(tǒng)和深入的視覺分析方法。

研究團隊深入分析了不同類型題目的錯誤分布,發(fā)現(xiàn)了一些有趣的模式。對于純文本模型(通過圖片描述進行推理),空間推理是最大的難點,錯誤率最高。這是可以理解的,因為三維空間關(guān)系很難用文字準確描述。相比之下,這些模型在數(shù)量推理方面表現(xiàn)相對較好,因為數(shù)字關(guān)系更容易用語言表達。

對于多模態(tài)模型,風格推理成為了最大的挑戰(zhàn),錯誤率超過75%。這類問題涉及到圖形的細微變化和抽象特征,需要模型具備高度敏感的視覺感知能力。而人類的錯誤分布與AI截然不同,人類在位置推理方面表現(xiàn)最佳,錯誤率低于30%,這反映了人類天生的空間認知優(yōu)勢。

這項研究的意義遠不止于一個新的測試基準。它揭示了當前AI發(fā)展中的一個關(guān)鍵盲點:我們在追求語言理解和生成能力的同時,可能忽視了視覺推理這一同樣重要的智能組成部分。在現(xiàn)實應(yīng)用中,許多任務(wù)都需要結(jié)合視覺感知和邏輯推理,比如自動駕駛中的路況判斷、醫(yī)療影像分析、工業(yè)質(zhì)檢等。

研究團隊還發(fā)現(xiàn),模型規(guī)模的增大確實能帶來性能提升,但提升幅度相對有限。這暗示著僅僅通過擴大模型規(guī)??赡軣o法根本解決視覺推理問題,需要在架構(gòu)設(shè)計和訓(xùn)練方法上尋求突破。

從訓(xùn)練數(shù)據(jù)的角度來看,當前的多模態(tài)模型主要在圖文配對數(shù)據(jù)上進行訓(xùn)練,這些數(shù)據(jù)雖然有助于模型學習圖像和文本的對應(yīng)關(guān)系,但可能不足以培養(yǎng)深層的視覺推理能力。未來的研究可能需要專門設(shè)計包含視覺推理任務(wù)的訓(xùn)練數(shù)據(jù)。

強化學習在這項研究中展現(xiàn)出的潛力也值得關(guān)注。與傳統(tǒng)的監(jiān)督學習不同,強化學習允許模型通過試錯來學習,這可能更適合培養(yǎng)推理能力。研究團隊使用的RLOO算法在保持較低計算成本的同時,實現(xiàn)了顯著的性能提升。

展望未來,這項研究為AI視覺推理能力的發(fā)展指明了方向。研究團隊已經(jīng)開源了所有的代碼、數(shù)據(jù)和基線模型,為后續(xù)研究提供了寶貴的資源。他們希望VisuLogic能夠成為推動視覺推理研究的重要工具,就像ImageNet對計算機視覺發(fā)展的貢獻一樣。

說到底,這項研究提醒我們,真正的人工智能不應(yīng)該僅僅是一個高級的文字處理器,而應(yīng)該具備像人類一樣觀察世界、理解視覺信息并進行邏輯推理的能力。雖然當前的AI在這方面還有很大差距,但這項研究為縮小這一差距提供了清晰的路線圖和實用的工具。隨著更多研究者的參與和新方法的涌現(xiàn),我們有理由相信,AI的視覺推理能力將會逐步提升,最終達到甚至超越人類的水平。

歸根結(jié)底,VisuLogic不僅僅是一個測試基準,更是對AI發(fā)展方向的一次重要反思。它告訴我們,在追求AI通用性的道路上,視覺推理是一個不可忽視的重要環(huán)節(jié)。只有當AI真正掌握了這項能力,我們才能說它向真正的智能又邁進了一大步。

Q&A

Q1:VisuLogic是什么?它和普通的AI視覺測試有什么不同?

A:VisuLogic是專門測試AI視覺推理能力的基準測試,包含1000道題目。與普通視覺測試不同,它專門選擇那些很難用文字描述但人眼能輕易發(fā)現(xiàn)規(guī)律的題目,避免AI通過"文字描述→推理"的捷徑來解題,真正考驗AI的純視覺邏輯推理能力。

Q2:當前最先進的AI在視覺推理方面表現(xiàn)如何?

A:表現(xiàn)相當糟糕。包括GPT-4o、Gemini等頂級AI模型在VisuLogic上的準確率僅為26-28%,只比隨機猜測(25%)稍好,遠低于人類的51.4%。這說明當前AI在真正的視覺推理方面存在嚴重不足。

Q3:強化學習訓(xùn)練能提升AI的視覺推理能力嗎?

A:是的,效果明顯。研究團隊通過強化學習訓(xùn)練,將InternVL2.5-38B模型的準確率從25.5%提升到31.1%,成為當前表現(xiàn)最好的模型。這表明強化學習是提升AI視覺推理能力的有效途徑,但距離人類水平仍有差距。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-