av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 VGR:中科院和字節(jié)跳動的AI突破——讓機器真正"看懂"圖片再推理

VGR:中科院和字節(jié)跳動的AI突破——讓機器真正"看懂"圖片再推理

2025-06-20 14:18
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-20 14:18 ? 科技行者

這項由中國科學院人工智能學院的王嘉琮、康子健、王浩晨、姜海勇、肖俊等研究者與字節(jié)跳動的李佳雯、吳泊宏、王雅、冉嬌、梁笑、馮超等團隊共同完成的研究發(fā)表于2025年1月。有興趣深入了解的讀者可以通過論文主頁https://huggingface.co/BytedanceDouyinContent/VGR訪問完整信息。

傳統(tǒng)的人工智能就像一個只能通過文字理解世界的學生。當老師給它一張圖片并問問題時,這個AI學生往往會忽略圖片中的關(guān)鍵細節(jié),僅憑文字描述就匆忙給出答案。這就好比讓人只聽別人的描述來回答關(guān)于一幅畫的問題,自然容易出錯。

中科院和字節(jié)跳動的研究團隊發(fā)現(xiàn)了這個問題的根源?,F(xiàn)有的多模態(tài)AI模型雖然能"看到"圖片,但在推理過程中主要還是依賴語言,就像戴著有色眼鏡看世界一樣,容易產(chǎn)生偏見。特別是在需要仔細觀察圖片細節(jié)的任務(wù)中,比如分析復雜圖表、閱讀文檔或解答科學問題時,這種"語言偏見"會導致明顯的性能下降。

為了解決這個問題,研究團隊開發(fā)了VGR(Visual Grounded Reasoning,視覺錨定推理)系統(tǒng)。這個系統(tǒng)的核心思想很像一個善于觀察的偵探:當面對一個案件時,偵探不會僅憑第一印象就下結(jié)論,而是會仔細檢查現(xiàn)場的每一個關(guān)鍵線索,在需要時重新審視重要證據(jù),然后基于這些實際觀察到的證據(jù)進行推理。

VGR的工作原理可以用看醫(yī)生來類比。傳統(tǒng)AI就像一個只聽病人口述癥狀就開藥的醫(yī)生,而VGR則像一個會主動要求看X光片、化驗單等具體檢查結(jié)果的醫(yī)生。當VGR遇到需要詳細分析的問題時,它會主動"放大鏡頭",重點關(guān)注圖片中的關(guān)鍵區(qū)域,就像醫(yī)生會仔細觀察X光片上的可疑陰影一樣。

一、突破性的"選擇性回放"技術(shù)

VGR最獨特的地方在于它的"選擇性回放"機制。這就像給AI配備了一個可以隨時調(diào)取的圖片檔案庫。當AI在推理過程中需要查看某個特定區(qū)域時,它可以發(fā)出一個特殊信號,系統(tǒng)就會立即提供那個區(qū)域的高清圖像信息。

具體來說,這個過程類似于用手機看照片。當你想看照片中某個人的表情時,你會用手指放大那個區(qū)域。VGR也是如此,當它需要分析圖表中的某個數(shù)值或文檔中的某行文字時,會用類似"[坐標]"這樣的特殊標記來"框選"需要仔細查看的區(qū)域。

這種設(shè)計的巧妙之處在于效率。傳統(tǒng)方法需要處理整張高分辨率圖片的所有信息,就像要把整本百科全書都背下來才能回答一個問題。而VGR只在需要時才調(diào)取特定區(qū)域的詳細信息,就像按需查閱百科全書的特定章節(jié),大大提高了處理效率。

研究團隊采用了一種"先擴展再壓縮"的策略來平衡細節(jié)保存和計算效率。他們將傳統(tǒng)方法支持的圖片分塊數(shù)量從4個增加到16個,但同時使用壓縮技術(shù)減少了70%的計算量。這就像用更精密的相機拍攝了更多角度的照片,但通過智能存儲技術(shù)讓文件大小反而更小。

二、革命性的訓練數(shù)據(jù)構(gòu)建

要訓練這樣一個會"看圖推理"的AI,需要特殊的訓練數(shù)據(jù)。這就像教孩子學習時,不能只給他們文字練習題,還需要配有詳細圖解的習題冊。

研究團隊設(shè)計了一個三階段的數(shù)據(jù)構(gòu)建流程,就像釀酒的過程一樣,每個階段都在提純和改善質(zhì)量。

首先是"冷啟動"階段。團隊使用現(xiàn)有的先進AI模型Qwen2.5-VL-72B來生成初始訓練數(shù)據(jù)。這個過程就像讓一個有經(jīng)驗的老師先出一套示范題目。他們要求這個AI模型不僅要回答問題,還要明確指出圖片中支持其答案的關(guān)鍵區(qū)域,就像要求學生在考試時不僅寫答案,還要標注參考了教科書的哪些頁面。

但是,即使是優(yōu)秀的AI老師也會犯錯。因此,團隊設(shè)計了嚴格的"拒絕采樣"流程來篩選高質(zhì)量數(shù)據(jù)。這個過程就像編輯部審稿一樣,包含三道關(guān)卡:格式驗證確保答案能被正確解析,準確性驗證檢查答案是否正確,視覺定位驗證確認標注的圖片區(qū)域是否真的包含相關(guān)信息。

為了進一步提高數(shù)據(jù)生成效率,團隊訓練了專門的"標注模型"。這個模型就像培養(yǎng)了一個專門的助教,通過學習少量高質(zhì)量樣本,能夠快速生成更多符合要求的訓練數(shù)據(jù)。這個標注模型的通過率從最初的14%提升到了40%,生成速度也顯著提高。

三、精密的技術(shù)架構(gòu)設(shè)計

VGR的技術(shù)架構(gòu)就像一個精密的瑞士手表,每個組件都經(jīng)過精心設(shè)計和優(yōu)化。

在圖像處理方面,VGR采用了LLaVA的AnyRes方法來處理高分辨率圖像。這就像用拼圖的方式處理大照片:先把整張圖片分成若干小塊,每塊都保持足夠的清晰度,然后再智能地拼接和處理這些信息。

為了讓AI能準確"框選"需要查看的區(qū)域,研究團隊設(shè)計了專門的檢測損失函數(shù)。這就像訓練射箭選手一樣,不僅要求他們能射中靶心,還要確保每一箭的精準度都符合標準。這個函數(shù)結(jié)合了位置精確度和區(qū)域重疊度兩個指標,確保AI能準確定位到圖片中的關(guān)鍵信息。

系統(tǒng)還采用了巧妙的特征壓縮策略。對于整體預覽圖片,使用2×2的壓縮;對于需要細看的局部區(qū)域,同樣使用2×2壓縮以保持細節(jié);而對于輔助的高分辨率分塊,則使用4×4壓縮來節(jié)省計算資源。這就像攝影師會根據(jù)不同用途選擇不同的照片分辨率一樣。

四、令人矚目的實驗成果

VGR在多個測試基準上的表現(xiàn)就像一個優(yōu)秀學生在各科考試中都名列前茅。在MMStar基準測試中,VGR比基線模型LLaVA-NeXT提升了4.1分;在AI2D科學圖表理解任務(wù)中提升了7.1分;在ChartQA圖表問答任務(wù)中更是實現(xiàn)了12.9分的大幅提升。

更令人印象深刻的是,VGR在取得這些成績的同時,只使用了基線模型30%的圖像信息量。這就像一個學生用更少的復習時間卻考出了更好的成績,體現(xiàn)了方法的高效性。

為了驗證系統(tǒng)各個組件的重要性,研究團隊進行了詳細的消融實驗。他們發(fā)現(xiàn),視覺定位和推理過程必須同時存在才能發(fā)揮最佳效果,就像烹飪時需要同時掌握火候和調(diào)料一樣,缺一不可。

實驗還顯示,檢測損失函數(shù)對于準確定位至關(guān)重要。由于坐標信息是連續(xù)的數(shù)值,傳統(tǒng)的文本生成方法容易產(chǎn)生量化誤差,而專門的檢測損失能確保坐標預測的精確性。

特征回放機制的重要性也得到了驗證。僅僅標注重要區(qū)域而不提供這些區(qū)域的詳細視覺信息,性能提升非常有限。這證明了"真正看到細節(jié)"而不是"知道哪里重要"才是關(guān)鍵。

五、實際應用展示

在實際使用中,VGR展現(xiàn)出了令人印象深刻的能力。面對復雜的圖表分析任務(wù)時,VGR會自動識別需要重點關(guān)注的數(shù)據(jù)點,然后基于這些具體觀察進行推理。

比如在分析一個關(guān)于日本和英國經(jīng)濟貿(mào)易影響的柱狀圖時,VGR首先識別出需要比較的兩個國家的數(shù)據(jù)條,然后準確提取各自的數(shù)值(日本974百萬美元,英國669百萬美元),最后計算出差值305百萬美元。整個過程就像一個仔細的會計師在核對賬目一樣條理清晰。

在文檔理解任務(wù)中,VGR能夠準確定位表格中的特定信息。當被問及某個會議的調(diào)查員是誰時,VGR會先找到相關(guān)的表格行,然后精確定位到對應的單元格,最終給出準確答案。

這種能力在科學圖表理解方面尤為突出。面對生物結(jié)構(gòu)圖時,VGR能夠準確識別不同層次的標注,理解各部分的功能關(guān)系,然后基于這些具體觀察來回答問題。

六、創(chuàng)新意義與局限性

VGR的創(chuàng)新不僅在于技術(shù)實現(xiàn),更在于思路的轉(zhuǎn)變。它首次實現(xiàn)了多模態(tài)推理中的"按需視覺查詢",就像給AI裝上了可以隨時調(diào)焦的智能眼鏡。

這種方法的意義在于真正實現(xiàn)了視覺信息與語言推理的深度融合。傳統(tǒng)方法往往是"先看后想",而VGR實現(xiàn)了"邊看邊想",在推理過程中動態(tài)調(diào)取所需的視覺信息。

當然,VGR也有其局限性。目前它主要基于LLaVA架構(gòu),未來可能需要探索更強大的視覺編碼器和語言模型來進一步提升性能。研究團隊也提到,結(jié)合強化學習可能會帶來更大的突破。

另外,VGR目前主要在需要精細視覺理解的任務(wù)中表現(xiàn)突出,在一些更依賴常識推理的任務(wù)中優(yōu)勢可能不那么明顯。這就像專業(yè)的顯微鏡在觀察細胞結(jié)構(gòu)時效果卓越,但用來看風景可能就顯得大材小用了。

歸根結(jié)底,VGR代表了多模態(tài)AI發(fā)展的一個重要方向:從簡單的"看一眼就判斷"轉(zhuǎn)向"仔細觀察再推理"。這種轉(zhuǎn)變不僅提高了AI的準確性,也讓AI的推理過程更加透明和可解釋。當AI告訴我們它的答案時,我們也能看到它具體觀察了圖片的哪些部分,這種"可視化推理"為AI的可信度建設(shè)提供了新的可能。

隨著這項技術(shù)的進一步發(fā)展和優(yōu)化,我們有理由期待AI在圖像理解和多模態(tài)推理方面能夠達到更接近人類的水平。對于普通用戶來說,這意味著未來的AI助手將能夠更準確地幫助我們分析圖表、理解文檔、解答視覺相關(guān)的問題,讓AI真正成為我們可信賴的智能伙伴。有興趣的讀者可以通過項目主頁進一步了解這項突破性的研究成果。

Q&A

Q1:VGR是什么?它跟普通AI有什么不同? A:VGR是一種新的AI視覺推理系統(tǒng),最大不同在于它會在推理過程中主動"放大查看"圖片的關(guān)鍵區(qū)域,就像人類看圖時會重點關(guān)注某些細節(jié)一樣,而不是像傳統(tǒng)AI那樣只粗略看一眼就下結(jié)論。

Q2:VGR會不會讓AI變得更智能? A:是的,特別是在需要仔細觀察圖片細節(jié)的任務(wù)上。VGR讓AI的圖表分析能力提升了12.9分,同時只用了傳統(tǒng)方法30%的計算量,這意味著AI能更準確地理解復雜圖像。

Q3:普通人能用到VGR嗎?什么時候能普及? A:目前VGR還是研究階段的技術(shù),但未來很可能被整合到各種AI應用中。這意味著我們的AI助手將能更好地幫助分析圖表、理解文檔,讓人機交互更加智能和可靠。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-