av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<del id="6p52o"><b id="6p52o"><form id="6p52o"></form></b></del>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

VGR：中科院和字節(jié)跳動的AI突破——讓機(jī)器真正"看懂"圖片再推理

人工智能視覺推理多模態(tài)學(xué)習(xí)

VGR：中科院和字節(jié)跳動的AI突破——讓機(jī)器真正"看懂"圖片再推理

作者：科技行者

2025-06-20 14:18

分享至：

中科院和字節(jié)跳動聯(lián)合開發(fā)了VGR視覺錨定推理系統(tǒng)，突破了傳統(tǒng)AI只能粗略"看圖"的局限。該系統(tǒng)能在推理過程中主動關(guān)注圖片關(guān)鍵區(qū)域，像人類一樣仔細(xì)觀察細(xì)節(jié)后再得出結(jié)論。實(shí)驗(yàn)顯示VGR在圖表理解等任務(wù)上性能大幅提升，同時計算效率更高，代表了多模態(tài)AI"可視化推理"的重要進(jìn)展。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-20 14:18 ? 科技行者

這項(xiàng)由中國科學(xué)院人工智能學(xué)院的王嘉琮、康子健、王浩晨、姜海勇、肖俊等研究者與字節(jié)跳動的李佳雯、吳泊宏、王雅、冉嬌、梁笑、馮超等團(tuán)隊(duì)共同完成的研究發(fā)表于2025年1月。有興趣深入了解的讀者可以通過論文主頁https://huggingface.co/BytedanceDouyinContent/VGR訪問完整信息。

傳統(tǒng)的人工智能就像一個只能通過文字理解世界的學(xué)生。當(dāng)老師給它一張圖片并問問題時，這個AI學(xué)生往往會忽略圖片中的關(guān)鍵細(xì)節(jié)，僅憑文字描述就匆忙給出答案。這就好比讓人只聽別人的描述來回答關(guān)于一幅畫的問題，自然容易出錯。

中科院和字節(jié)跳動的研究團(tuán)隊(duì)發(fā)現(xiàn)了這個問題的根源?，F(xiàn)有的多模態(tài)AI模型雖然能"看到"圖片，但在推理過程中主要還是依賴語言，就像戴著有色眼鏡看世界一樣，容易產(chǎn)生偏見。特別是在需要仔細(xì)觀察圖片細(xì)節(jié)的任務(wù)中，比如分析復(fù)雜圖表、閱讀文檔或解答科學(xué)問題時，這種"語言偏見"會導(dǎo)致明顯的性能下降。

為了解決這個問題，研究團(tuán)隊(duì)開發(fā)了VGR（Visual Grounded Reasoning，視覺錨定推理）系統(tǒng)。這個系統(tǒng)的核心思想很像一個善于觀察的偵探：當(dāng)面對一個案件時，偵探不會僅憑第一印象就下結(jié)論，而是會仔細(xì)檢查現(xiàn)場的每一個關(guān)鍵線索，在需要時重新審視重要證據(jù)，然后基于這些實(shí)際觀察到的證據(jù)進(jìn)行推理。

VGR的工作原理可以用看醫(yī)生來類比。傳統(tǒng)AI就像一個只聽病人口述癥狀就開藥的醫(yī)生，而VGR則像一個會主動要求看X光片、化驗(yàn)單等具體檢查結(jié)果的醫(yī)生。當(dāng)VGR遇到需要詳細(xì)分析的問題時，它會主動"放大鏡頭"，重點(diǎn)關(guān)注圖片中的關(guān)鍵區(qū)域，就像醫(yī)生會仔細(xì)觀察X光片上的可疑陰影一樣。

一、突破性的"選擇性回放"技術(shù)

VGR最獨(dú)特的地方在于它的"選擇性回放"機(jī)制。這就像給AI配備了一個可以隨時調(diào)取的圖片檔案庫。當(dāng)AI在推理過程中需要查看某個特定區(qū)域時，它可以發(fā)出一個特殊信號，系統(tǒng)就會立即提供那個區(qū)域的高清圖像信息。

具體來說，這個過程類似于用手機(jī)看照片。當(dāng)你想看照片中某個人的表情時，你會用手指放大那個區(qū)域。VGR也是如此，當(dāng)它需要分析圖表中的某個數(shù)值或文檔中的某行文字時，會用類似"[坐標(biāo)]"這樣的特殊標(biāo)記來"框選"需要仔細(xì)查看的區(qū)域。

這種設(shè)計的巧妙之處在于效率。傳統(tǒng)方法需要處理整張高分辨率圖片的所有信息，就像要把整本百科全書都背下來才能回答一個問題。而VGR只在需要時才調(diào)取特定區(qū)域的詳細(xì)信息，就像按需查閱百科全書的特定章節(jié)，大大提高了處理效率。

研究團(tuán)隊(duì)采用了一種"先擴(kuò)展再壓縮"的策略來平衡細(xì)節(jié)保存和計算效率。他們將傳統(tǒng)方法支持的圖片分塊數(shù)量從4個增加到16個，但同時使用壓縮技術(shù)減少了70%的計算量。這就像用更精密的相機(jī)拍攝了更多角度的照片，但通過智能存儲技術(shù)讓文件大小反而更小。

二、革命性的訓(xùn)練數(shù)據(jù)構(gòu)建

要訓(xùn)練這樣一個會"看圖推理"的AI，需要特殊的訓(xùn)練數(shù)據(jù)。這就像教孩子學(xué)習(xí)時，不能只給他們文字練習(xí)題，還需要配有詳細(xì)圖解的習(xí)題冊。

研究團(tuán)隊(duì)設(shè)計了一個三階段的數(shù)據(jù)構(gòu)建流程，就像釀酒的過程一樣，每個階段都在提純和改善質(zhì)量。

首先是"冷啟動"階段。團(tuán)隊(duì)使用現(xiàn)有的先進(jìn)AI模型Qwen2.5-VL-72B來生成初始訓(xùn)練數(shù)據(jù)。這個過程就像讓一個有經(jīng)驗(yàn)的老師先出一套示范題目。他們要求這個AI模型不僅要回答問題，還要明確指出圖片中支持其答案的關(guān)鍵區(qū)域，就像要求學(xué)生在考試時不僅寫答案，還要標(biāo)注參考了教科書的哪些頁面。

但是，即使是優(yōu)秀的AI老師也會犯錯。因此，團(tuán)隊(duì)設(shè)計了嚴(yán)格的"拒絕采樣"流程來篩選高質(zhì)量數(shù)據(jù)。這個過程就像編輯部審稿一樣，包含三道關(guān)卡：格式驗(yàn)證確保答案能被正確解析，準(zhǔn)確性驗(yàn)證檢查答案是否正確，視覺定位驗(yàn)證確認(rèn)標(biāo)注的圖片區(qū)域是否真的包含相關(guān)信息。

為了進(jìn)一步提高數(shù)據(jù)生成效率，團(tuán)隊(duì)訓(xùn)練了專門的"標(biāo)注模型"。這個模型就像培養(yǎng)了一個專門的助教，通過學(xué)習(xí)少量高質(zhì)量樣本，能夠快速生成更多符合要求的訓(xùn)練數(shù)據(jù)。這個標(biāo)注模型的通過率從最初的14%提升到了40%，生成速度也顯著提高。

三、精密的技術(shù)架構(gòu)設(shè)計

VGR的技術(shù)架構(gòu)就像一個精密的瑞士手表，每個組件都經(jīng)過精心設(shè)計和優(yōu)化。

在圖像處理方面，VGR采用了LLaVA的AnyRes方法來處理高分辨率圖像。這就像用拼圖的方式處理大照片：先把整張圖片分成若干小塊，每塊都保持足夠的清晰度，然后再智能地拼接和處理這些信息。

為了讓AI能準(zhǔn)確"框選"需要查看的區(qū)域，研究團(tuán)隊(duì)設(shè)計了專門的檢測損失函數(shù)。這就像訓(xùn)練射箭選手一樣，不僅要求他們能射中靶心，還要確保每一箭的精準(zhǔn)度都符合標(biāo)準(zhǔn)。這個函數(shù)結(jié)合了位置精確度和區(qū)域重疊度兩個指標(biāo)，確保AI能準(zhǔn)確定位到圖片中的關(guān)鍵信息。

系統(tǒng)還采用了巧妙的特征壓縮策略。對于整體預(yù)覽圖片，使用2×2的壓縮；對于需要細(xì)看的局部區(qū)域，同樣使用2×2壓縮以保持細(xì)節(jié)；而對于輔助的高分辨率分塊，則使用4×4壓縮來節(jié)省計算資源。這就像攝影師會根據(jù)不同用途選擇不同的照片分辨率一樣。

四、令人矚目的實(shí)驗(yàn)成果

VGR在多個測試基準(zhǔn)上的表現(xiàn)就像一個優(yōu)秀學(xué)生在各科考試中都名列前茅。在MMStar基準(zhǔn)測試中，VGR比基線模型LLaVA-NeXT提升了4.1分；在AI2D科學(xué)圖表理解任務(wù)中提升了7.1分；在ChartQA圖表問答任務(wù)中更是實(shí)現(xiàn)了12.9分的大幅提升。

更令人印象深刻的是，VGR在取得這些成績的同時，只使用了基線模型30%的圖像信息量。這就像一個學(xué)生用更少的復(fù)習(xí)時間卻考出了更好的成績，體現(xiàn)了方法的高效性。

為了驗(yàn)證系統(tǒng)各個組件的重要性，研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。他們發(fā)現(xiàn)，視覺定位和推理過程必須同時存在才能發(fā)揮最佳效果，就像烹飪時需要同時掌握火候和調(diào)料一樣，缺一不可。

實(shí)驗(yàn)還顯示，檢測損失函數(shù)對于準(zhǔn)確定位至關(guān)重要。由于坐標(biāo)信息是連續(xù)的數(shù)值，傳統(tǒng)的文本生成方法容易產(chǎn)生量化誤差，而專門的檢測損失能確保坐標(biāo)預(yù)測的精確性。

特征回放機(jī)制的重要性也得到了驗(yàn)證。僅僅標(biāo)注重要區(qū)域而不提供這些區(qū)域的詳細(xì)視覺信息，性能提升非常有限。這證明了"真正看到細(xì)節(jié)"而不是"知道哪里重要"才是關(guān)鍵。

五、實(shí)際應(yīng)用展示

在實(shí)際使用中，VGR展現(xiàn)出了令人印象深刻的能力。面對復(fù)雜的圖表分析任務(wù)時，VGR會自動識別需要重點(diǎn)關(guān)注的數(shù)據(jù)點(diǎn)，然后基于這些具體觀察進(jìn)行推理。

比如在分析一個關(guān)于日本和英國經(jīng)濟(jì)貿(mào)易影響的柱狀圖時，VGR首先識別出需要比較的兩個國家的數(shù)據(jù)條，然后準(zhǔn)確提取各自的數(shù)值（日本974百萬美元，英國669百萬美元），最后計算出差值305百萬美元。整個過程就像一個仔細(xì)的會計師在核對賬目一樣條理清晰。

在文檔理解任務(wù)中，VGR能夠準(zhǔn)確定位表格中的特定信息。當(dāng)被問及某個會議的調(diào)查員是誰時，VGR會先找到相關(guān)的表格行，然后精確定位到對應(yīng)的單元格，最終給出準(zhǔn)確答案。

這種能力在科學(xué)圖表理解方面尤為突出。面對生物結(jié)構(gòu)圖時，VGR能夠準(zhǔn)確識別不同層次的標(biāo)注，理解各部分的功能關(guān)系，然后基于這些具體觀察來回答問題。

六、創(chuàng)新意義與局限性

VGR的創(chuàng)新不僅在于技術(shù)實(shí)現(xiàn)，更在于思路的轉(zhuǎn)變。它首次實(shí)現(xiàn)了多模態(tài)推理中的"按需視覺查詢"，就像給AI裝上了可以隨時調(diào)焦的智能眼鏡。

這種方法的意義在于真正實(shí)現(xiàn)了視覺信息與語言推理的深度融合。傳統(tǒng)方法往往是"先看后想"，而VGR實(shí)現(xiàn)了"邊看邊想"，在推理過程中動態(tài)調(diào)取所需的視覺信息。

當(dāng)然，VGR也有其局限性。目前它主要基于LLaVA架構(gòu)，未來可能需要探索更強(qiáng)大的視覺編碼器和語言模型來進(jìn)一步提升性能。研究團(tuán)隊(duì)也提到，結(jié)合強(qiáng)化學(xué)習(xí)可能會帶來更大的突破。

另外，VGR目前主要在需要精細(xì)視覺理解的任務(wù)中表現(xiàn)突出，在一些更依賴常識推理的任務(wù)中優(yōu)勢可能不那么明顯。這就像專業(yè)的顯微鏡在觀察細(xì)胞結(jié)構(gòu)時效果卓越，但用來看風(fēng)景可能就顯得大材小用了。

歸根結(jié)底，VGR代表了多模態(tài)AI發(fā)展的一個重要方向：從簡單的"看一眼就判斷"轉(zhuǎn)向"仔細(xì)觀察再推理"。這種轉(zhuǎn)變不僅提高了AI的準(zhǔn)確性，也讓AI的推理過程更加透明和可解釋。當(dāng)AI告訴我們它的答案時，我們也能看到它具體觀察了圖片的哪些部分，這種"可視化推理"為AI的可信度建設(shè)提供了新的可能。

隨著這項(xiàng)技術(shù)的進(jìn)一步發(fā)展和優(yōu)化，我們有理由期待AI在圖像理解和多模態(tài)推理方面能夠達(dá)到更接近人類的水平。對于普通用戶來說，這意味著未來的AI助手將能夠更準(zhǔn)確地幫助我們分析圖表、理解文檔、解答視覺相關(guān)的問題，讓AI真正成為我們可信賴的智能伙伴。有興趣的讀者可以通過項(xiàng)目主頁進(jìn)一步了解這項(xiàng)突破性的研究成果。

Q&A

Q1：VGR是什么？它跟普通AI有什么不同？ A：VGR是一種新的AI視覺推理系統(tǒng)，最大不同在于它會在推理過程中主動"放大查看"圖片的關(guān)鍵區(qū)域，就像人類看圖時會重點(diǎn)關(guān)注某些細(xì)節(jié)一樣，而不是像傳統(tǒng)AI那樣只粗略看一眼就下結(jié)論。

Q2：VGR會不會讓AI變得更智能？ A：是的，特別是在需要仔細(xì)觀察圖片細(xì)節(jié)的任務(wù)上。VGR讓AI的圖表分析能力提升了12.9分，同時只用了傳統(tǒng)方法30%的計算量，這意味著AI能更準(zhǔn)確地理解復(fù)雜圖像。

Q3：普通人能用到VGR嗎？什么時候能普及？ A：目前VGR還是研究階段的技術(shù)，但未來很可能被整合到各種AI應(yīng)用中。這意味著我們的AI助手將能更好地幫助分析圖表、理解文檔，讓人機(jī)交互更加智能和可靠。

人工智能視覺推理多模態(tài)學(xué)習(xí)

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息，顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量，在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn