av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 VGR:中科院和字節(jié)跳動的AI突破——讓機(jī)器真正"看懂"圖片再推理

VGR:中科院和字節(jié)跳動的AI突破——讓機(jī)器真正"看懂"圖片再推理

2025-06-20 14:18
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-20 14:18 ? 科技行者

這項(xiàng)由中國科學(xué)院人工智能學(xué)院的王嘉琮、康子健、王浩晨、姜海勇、肖俊等研究者與字節(jié)跳動的李佳雯、吳泊宏、王雅、冉嬌、梁笑、馮超等團(tuán)隊(duì)共同完成的研究發(fā)表于2025年1月。有興趣深入了解的讀者可以通過論文主頁https://huggingface.co/BytedanceDouyinContent/VGR訪問完整信息。

傳統(tǒng)的人工智能就像一個只能通過文字理解世界的學(xué)生。當(dāng)老師給它一張圖片并問問題時,這個AI學(xué)生往往會忽略圖片中的關(guān)鍵細(xì)節(jié),僅憑文字描述就匆忙給出答案。這就好比讓人只聽別人的描述來回答關(guān)于一幅畫的問題,自然容易出錯。

中科院和字節(jié)跳動的研究團(tuán)隊(duì)發(fā)現(xiàn)了這個問題的根源?,F(xiàn)有的多模態(tài)AI模型雖然能"看到"圖片,但在推理過程中主要還是依賴語言,就像戴著有色眼鏡看世界一樣,容易產(chǎn)生偏見。特別是在需要仔細(xì)觀察圖片細(xì)節(jié)的任務(wù)中,比如分析復(fù)雜圖表、閱讀文檔或解答科學(xué)問題時,這種"語言偏見"會導(dǎo)致明顯的性能下降。

為了解決這個問題,研究團(tuán)隊(duì)開發(fā)了VGR(Visual Grounded Reasoning,視覺錨定推理)系統(tǒng)。這個系統(tǒng)的核心思想很像一個善于觀察的偵探:當(dāng)面對一個案件時,偵探不會僅憑第一印象就下結(jié)論,而是會仔細(xì)檢查現(xiàn)場的每一個關(guān)鍵線索,在需要時重新審視重要證據(jù),然后基于這些實(shí)際觀察到的證據(jù)進(jìn)行推理。

VGR的工作原理可以用看醫(yī)生來類比。傳統(tǒng)AI就像一個只聽病人口述癥狀就開藥的醫(yī)生,而VGR則像一個會主動要求看X光片、化驗(yàn)單等具體檢查結(jié)果的醫(yī)生。當(dāng)VGR遇到需要詳細(xì)分析的問題時,它會主動"放大鏡頭",重點(diǎn)關(guān)注圖片中的關(guān)鍵區(qū)域,就像醫(yī)生會仔細(xì)觀察X光片上的可疑陰影一樣。

一、突破性的"選擇性回放"技術(shù)

VGR最獨(dú)特的地方在于它的"選擇性回放"機(jī)制。這就像給AI配備了一個可以隨時調(diào)取的圖片檔案庫。當(dāng)AI在推理過程中需要查看某個特定區(qū)域時,它可以發(fā)出一個特殊信號,系統(tǒng)就會立即提供那個區(qū)域的高清圖像信息。

具體來說,這個過程類似于用手機(jī)看照片。當(dāng)你想看照片中某個人的表情時,你會用手指放大那個區(qū)域。VGR也是如此,當(dāng)它需要分析圖表中的某個數(shù)值或文檔中的某行文字時,會用類似"[坐標(biāo)]"這樣的特殊標(biāo)記來"框選"需要仔細(xì)查看的區(qū)域。

這種設(shè)計的巧妙之處在于效率。傳統(tǒng)方法需要處理整張高分辨率圖片的所有信息,就像要把整本百科全書都背下來才能回答一個問題。而VGR只在需要時才調(diào)取特定區(qū)域的詳細(xì)信息,就像按需查閱百科全書的特定章節(jié),大大提高了處理效率。

研究團(tuán)隊(duì)采用了一種"先擴(kuò)展再壓縮"的策略來平衡細(xì)節(jié)保存和計算效率。他們將傳統(tǒng)方法支持的圖片分塊數(shù)量從4個增加到16個,但同時使用壓縮技術(shù)減少了70%的計算量。這就像用更精密的相機(jī)拍攝了更多角度的照片,但通過智能存儲技術(shù)讓文件大小反而更小。

二、革命性的訓(xùn)練數(shù)據(jù)構(gòu)建

要訓(xùn)練這樣一個會"看圖推理"的AI,需要特殊的訓(xùn)練數(shù)據(jù)。這就像教孩子學(xué)習(xí)時,不能只給他們文字練習(xí)題,還需要配有詳細(xì)圖解的習(xí)題冊。

研究團(tuán)隊(duì)設(shè)計了一個三階段的數(shù)據(jù)構(gòu)建流程,就像釀酒的過程一樣,每個階段都在提純和改善質(zhì)量。

首先是"冷啟動"階段。團(tuán)隊(duì)使用現(xiàn)有的先進(jìn)AI模型Qwen2.5-VL-72B來生成初始訓(xùn)練數(shù)據(jù)。這個過程就像讓一個有經(jīng)驗(yàn)的老師先出一套示范題目。他們要求這個AI模型不僅要回答問題,還要明確指出圖片中支持其答案的關(guān)鍵區(qū)域,就像要求學(xué)生在考試時不僅寫答案,還要標(biāo)注參考了教科書的哪些頁面。

但是,即使是優(yōu)秀的AI老師也會犯錯。因此,團(tuán)隊(duì)設(shè)計了嚴(yán)格的"拒絕采樣"流程來篩選高質(zhì)量數(shù)據(jù)。這個過程就像編輯部審稿一樣,包含三道關(guān)卡:格式驗(yàn)證確保答案能被正確解析,準(zhǔn)確性驗(yàn)證檢查答案是否正確,視覺定位驗(yàn)證確認(rèn)標(biāo)注的圖片區(qū)域是否真的包含相關(guān)信息。

為了進(jìn)一步提高數(shù)據(jù)生成效率,團(tuán)隊(duì)訓(xùn)練了專門的"標(biāo)注模型"。這個模型就像培養(yǎng)了一個專門的助教,通過學(xué)習(xí)少量高質(zhì)量樣本,能夠快速生成更多符合要求的訓(xùn)練數(shù)據(jù)。這個標(biāo)注模型的通過率從最初的14%提升到了40%,生成速度也顯著提高。

三、精密的技術(shù)架構(gòu)設(shè)計

VGR的技術(shù)架構(gòu)就像一個精密的瑞士手表,每個組件都經(jīng)過精心設(shè)計和優(yōu)化。

在圖像處理方面,VGR采用了LLaVA的AnyRes方法來處理高分辨率圖像。這就像用拼圖的方式處理大照片:先把整張圖片分成若干小塊,每塊都保持足夠的清晰度,然后再智能地拼接和處理這些信息。

為了讓AI能準(zhǔn)確"框選"需要查看的區(qū)域,研究團(tuán)隊(duì)設(shè)計了專門的檢測損失函數(shù)。這就像訓(xùn)練射箭選手一樣,不僅要求他們能射中靶心,還要確保每一箭的精準(zhǔn)度都符合標(biāo)準(zhǔn)。這個函數(shù)結(jié)合了位置精確度和區(qū)域重疊度兩個指標(biāo),確保AI能準(zhǔn)確定位到圖片中的關(guān)鍵信息。

系統(tǒng)還采用了巧妙的特征壓縮策略。對于整體預(yù)覽圖片,使用2×2的壓縮;對于需要細(xì)看的局部區(qū)域,同樣使用2×2壓縮以保持細(xì)節(jié);而對于輔助的高分辨率分塊,則使用4×4壓縮來節(jié)省計算資源。這就像攝影師會根據(jù)不同用途選擇不同的照片分辨率一樣。

四、令人矚目的實(shí)驗(yàn)成果

VGR在多個測試基準(zhǔn)上的表現(xiàn)就像一個優(yōu)秀學(xué)生在各科考試中都名列前茅。在MMStar基準(zhǔn)測試中,VGR比基線模型LLaVA-NeXT提升了4.1分;在AI2D科學(xué)圖表理解任務(wù)中提升了7.1分;在ChartQA圖表問答任務(wù)中更是實(shí)現(xiàn)了12.9分的大幅提升。

更令人印象深刻的是,VGR在取得這些成績的同時,只使用了基線模型30%的圖像信息量。這就像一個學(xué)生用更少的復(fù)習(xí)時間卻考出了更好的成績,體現(xiàn)了方法的高效性。

為了驗(yàn)證系統(tǒng)各個組件的重要性,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。他們發(fā)現(xiàn),視覺定位和推理過程必須同時存在才能發(fā)揮最佳效果,就像烹飪時需要同時掌握火候和調(diào)料一樣,缺一不可。

實(shí)驗(yàn)還顯示,檢測損失函數(shù)對于準(zhǔn)確定位至關(guān)重要。由于坐標(biāo)信息是連續(xù)的數(shù)值,傳統(tǒng)的文本生成方法容易產(chǎn)生量化誤差,而專門的檢測損失能確保坐標(biāo)預(yù)測的精確性。

特征回放機(jī)制的重要性也得到了驗(yàn)證。僅僅標(biāo)注重要區(qū)域而不提供這些區(qū)域的詳細(xì)視覺信息,性能提升非常有限。這證明了"真正看到細(xì)節(jié)"而不是"知道哪里重要"才是關(guān)鍵。

五、實(shí)際應(yīng)用展示

在實(shí)際使用中,VGR展現(xiàn)出了令人印象深刻的能力。面對復(fù)雜的圖表分析任務(wù)時,VGR會自動識別需要重點(diǎn)關(guān)注的數(shù)據(jù)點(diǎn),然后基于這些具體觀察進(jìn)行推理。

比如在分析一個關(guān)于日本和英國經(jīng)濟(jì)貿(mào)易影響的柱狀圖時,VGR首先識別出需要比較的兩個國家的數(shù)據(jù)條,然后準(zhǔn)確提取各自的數(shù)值(日本974百萬美元,英國669百萬美元),最后計算出差值305百萬美元。整個過程就像一個仔細(xì)的會計師在核對賬目一樣條理清晰。

在文檔理解任務(wù)中,VGR能夠準(zhǔn)確定位表格中的特定信息。當(dāng)被問及某個會議的調(diào)查員是誰時,VGR會先找到相關(guān)的表格行,然后精確定位到對應(yīng)的單元格,最終給出準(zhǔn)確答案。

這種能力在科學(xué)圖表理解方面尤為突出。面對生物結(jié)構(gòu)圖時,VGR能夠準(zhǔn)確識別不同層次的標(biāo)注,理解各部分的功能關(guān)系,然后基于這些具體觀察來回答問題。

六、創(chuàng)新意義與局限性

VGR的創(chuàng)新不僅在于技術(shù)實(shí)現(xiàn),更在于思路的轉(zhuǎn)變。它首次實(shí)現(xiàn)了多模態(tài)推理中的"按需視覺查詢",就像給AI裝上了可以隨時調(diào)焦的智能眼鏡。

這種方法的意義在于真正實(shí)現(xiàn)了視覺信息與語言推理的深度融合。傳統(tǒng)方法往往是"先看后想",而VGR實(shí)現(xiàn)了"邊看邊想",在推理過程中動態(tài)調(diào)取所需的視覺信息。

當(dāng)然,VGR也有其局限性。目前它主要基于LLaVA架構(gòu),未來可能需要探索更強(qiáng)大的視覺編碼器和語言模型來進(jìn)一步提升性能。研究團(tuán)隊(duì)也提到,結(jié)合強(qiáng)化學(xué)習(xí)可能會帶來更大的突破。

另外,VGR目前主要在需要精細(xì)視覺理解的任務(wù)中表現(xiàn)突出,在一些更依賴常識推理的任務(wù)中優(yōu)勢可能不那么明顯。這就像專業(yè)的顯微鏡在觀察細(xì)胞結(jié)構(gòu)時效果卓越,但用來看風(fēng)景可能就顯得大材小用了。

歸根結(jié)底,VGR代表了多模態(tài)AI發(fā)展的一個重要方向:從簡單的"看一眼就判斷"轉(zhuǎn)向"仔細(xì)觀察再推理"。這種轉(zhuǎn)變不僅提高了AI的準(zhǔn)確性,也讓AI的推理過程更加透明和可解釋。當(dāng)AI告訴我們它的答案時,我們也能看到它具體觀察了圖片的哪些部分,這種"可視化推理"為AI的可信度建設(shè)提供了新的可能。

隨著這項(xiàng)技術(shù)的進(jìn)一步發(fā)展和優(yōu)化,我們有理由期待AI在圖像理解和多模態(tài)推理方面能夠達(dá)到更接近人類的水平。對于普通用戶來說,這意味著未來的AI助手將能夠更準(zhǔn)確地幫助我們分析圖表、理解文檔、解答視覺相關(guān)的問題,讓AI真正成為我們可信賴的智能伙伴。有興趣的讀者可以通過項(xiàng)目主頁進(jìn)一步了解這項(xiàng)突破性的研究成果。

Q&A

Q1:VGR是什么?它跟普通AI有什么不同? A:VGR是一種新的AI視覺推理系統(tǒng),最大不同在于它會在推理過程中主動"放大查看"圖片的關(guān)鍵區(qū)域,就像人類看圖時會重點(diǎn)關(guān)注某些細(xì)節(jié)一樣,而不是像傳統(tǒng)AI那樣只粗略看一眼就下結(jié)論。

Q2:VGR會不會讓AI變得更智能? A:是的,特別是在需要仔細(xì)觀察圖片細(xì)節(jié)的任務(wù)上。VGR讓AI的圖表分析能力提升了12.9分,同時只用了傳統(tǒng)方法30%的計算量,這意味著AI能更準(zhǔn)確地理解復(fù)雜圖像。

Q3:普通人能用到VGR嗎?什么時候能普及? A:目前VGR還是研究階段的技術(shù),但未來很可能被整合到各種AI應(yīng)用中。這意味著我們的AI助手將能更好地幫助分析圖表、理解文檔,讓人機(jī)交互更加智能和可靠。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-