av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 北京科學(xué)院聯(lián)合字節(jié)跳動(dòng)重磅發(fā)布:讓AI真正"看懂圖片思考"的全新評測基準(zhǔn)和訓(xùn)練方法

北京科學(xué)院聯(lián)合字節(jié)跳動(dòng)重磅發(fā)布:讓AI真正"看懂圖片思考"的全新評測基準(zhǔn)和訓(xùn)練方法

2025-07-18 16:07
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-18 16:07 ? 科技行者

這項(xiàng)由中科院自動(dòng)化所模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室的王浩宸博士、李祥泰等研究人員,聯(lián)合字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)完成的開創(chuàng)性研究,發(fā)表于2025年7月的arXiv預(yù)印本平臺(tái)。有興趣深入了解的讀者可以通過https://github.com/Haochen-Wang409/TreeVGR訪問完整代碼和數(shù)據(jù)。

當(dāng)我們看一張復(fù)雜的圖片時(shí),眼睛會(huì)自然地在不同區(qū)域間游走,大腦會(huì)分析各種細(xì)節(jié),然后得出結(jié)論。這個(gè)看似簡單的過程,對人工智能來說卻是一個(gè)巨大的挑戰(zhàn)。目前最先進(jìn)的AI視覺模型,比如OpenAI的o3和谷歌的Gemini,雖然能回答關(guān)于圖片的問題,但它們的"思考過程"就像一個(gè)黑盒子——我們無法知道它們到底在看哪里,是如何得出答案的。

這就好比一個(gè)學(xué)生在考試時(shí)給出了正確答案,但老師無法看到他的解題步驟。是真的理解了題目,還是瞎猜碰運(yùn)氣?這種不透明性讓人工智能的可靠性大打折扣。特別是在需要精確定位小物體、分析復(fù)雜空間關(guān)系的任務(wù)中,現(xiàn)有的AI模型經(jīng)常出現(xiàn)"答案對了但理由錯(cuò)了"的情況。

正是為了解決這個(gè)根本性問題,研究團(tuán)隊(duì)開發(fā)了一套全新的評測體系TreeBench和訓(xùn)練方法TreeVGR。這套系統(tǒng)最大的創(chuàng)新在于,它不僅要求AI給出正確答案,還要求AI準(zhǔn)確指出它在圖片中關(guān)注的具體區(qū)域,讓整個(gè)"思考"過程變得完全透明和可追溯。

研究團(tuán)隊(duì)從一個(gè)非常實(shí)際的角度出發(fā):如果AI真的"看懂"了圖片,那它應(yīng)該能夠準(zhǔn)確定位圖片中的關(guān)鍵物體,并基于這些物體進(jìn)行邏輯推理。這就像人類在分析一張照片時(shí),會(huì)先找到相關(guān)的人物或物品,然后分析它們之間的關(guān)系?;谶@個(gè)思路,他們構(gòu)建了一個(gè)包含405個(gè)高難度視覺推理問題的測試集,每個(gè)問題都要求AI不僅要回答正確,還要準(zhǔn)確框出所有相關(guān)的目標(biāo)物體。

這些測試題目的設(shè)計(jì)極其巧妙。研究人員特意選擇了那些包含大量小物體的復(fù)雜真實(shí)場景,平均每個(gè)目標(biāo)物體只占整張圖片的3.05%。這就像在一張繁忙的街景照片中,要求AI準(zhǔn)確找出并分析一個(gè)小小的交通標(biāo)志。更有挑戰(zhàn)性的是,這些問題不僅要求基礎(chǔ)的視覺識(shí)別,還涉及復(fù)雜的空間推理,比如"從某個(gè)人的視角看,另一個(gè)物體在哪個(gè)方向"這樣的透視變換問題。

測試結(jié)果令人震驚。即使是目前最強(qiáng)大的AI模型,在這個(gè)看似簡單的測試中也表現(xiàn)得相當(dāng)吃力。OpenAI最新的o3模型只達(dá)到了54.87%的準(zhǔn)確率,其他模型的表現(xiàn)更是差強(qiáng)人意,沒有任何一個(gè)模型能夠突破60%的及格線。這個(gè)結(jié)果清楚地表明,現(xiàn)有的AI視覺模型在真正理解和分析復(fù)雜視覺場景方面,還有很大的提升空間。

**一、TreeBench:讓AI視覺推理能力"原形畢露"的測試體系**

要理解TreeBench的革命性意義,可以把它想象成一場特殊的"駕照考試"。普通的駕照考試只看你是否能把車開到目的地,而TreeBench這場考試不僅要看你能否到達(dá)目的地,還要記錄下你在整個(gè)過程中看向了哪些路標(biāo),注意了哪些交通信號(hào),每一個(gè)轉(zhuǎn)向決定是基于什么信息做出的。

這個(gè)測試體系建立在三個(gè)核心原則之上。第一個(gè)原則是"聚焦視覺感知",要求AI能夠在復(fù)雜繁忙的場景中準(zhǔn)確識(shí)別細(xì)小的目標(biāo)物體。這就像在一張人山人海的音樂會(huì)現(xiàn)場照片中,要求你準(zhǔn)確找出某個(gè)特定的觀眾。研究團(tuán)隊(duì)特意選擇了那些包含密集物體的高分辨率真實(shí)場景,讓AI面對最接近人類日常視覺體驗(yàn)的挑戰(zhàn)。

第二個(gè)原則是"可追溯證據(jù)",這是TreeBench最具創(chuàng)新性的特點(diǎn)。傳統(tǒng)的AI測試就像閉卷考試,只看最終答案是否正確。而TreeBench要求AI必須"展示作業(yè)過程"——不僅要給出答案,還要用精確的邊界框標(biāo)出它在推理過程中關(guān)注的每一個(gè)物體。這樣一來,研究人員就能清楚地看到AI的"思路"是否正確,即使答案碰巧對了,如果推理過程有問題也會(huì)被發(fā)現(xiàn)。

第三個(gè)原則是"視覺為主的二階推理能力",這要求AI不僅能識(shí)別物體,還能分析物體之間復(fù)雜的空間關(guān)系和物理交互。比如,AI需要判斷兩個(gè)物體是否接觸,一個(gè)物體是否被另一個(gè)物體遮擋,或者從某個(gè)特定視角看某個(gè)物體在哪個(gè)方向。這些任務(wù)遠(yuǎn)比簡單的物體識(shí)別要困難得多,需要AI具備類似人類的空間想象和邏輯推理能力。

TreeBench的題目設(shè)計(jì)可以分為兩大類別:感知類和推理類。感知類問題主要測試AI的基礎(chǔ)視覺識(shí)別能力,包括物體屬性識(shí)別、材質(zhì)判斷、物理狀態(tài)分析、復(fù)雜描述的物體檢索,以及圖像中文字信息的理解。這些問題雖然看起來基礎(chǔ),但在復(fù)雜場景中要做到精確定位并不容易。

推理類問題則更加具有挑戰(zhàn)性,它們測試AI的高階思維能力。比如透視變換問題,要求AI能夠從不同角度理解空間關(guān)系,這就像玩魔方時(shí)需要在腦海中想象從不同角度看到的圖案。排序問題要求AI分析線性排列的物體,判斷它們的相對位置關(guān)系。接觸遮擋問題讓AI分析物體之間的物理交互,判斷哪些物體相互接觸或遮擋??臻g包含問題考查AI對層次化空間關(guān)系的理解,比如判斷某個(gè)物體是否在另一個(gè)物體內(nèi)部。比較問題則要求AI對多個(gè)物體的屬性進(jìn)行對比分析。

為了確保測試的高質(zhì)量和高難度,研究團(tuán)隊(duì)采用了極其嚴(yán)格的標(biāo)注流程。他們首先從SA-1B數(shù)據(jù)集中精選了1000張包含密集物體的高分辨率圖像,然后動(dòng)員8位具有深厚技術(shù)背景的專家(包括6名博士候選人和2名資深研究科學(xué)家)進(jìn)行精心標(biāo)注。整個(gè)標(biāo)注過程包含三輪質(zhì)量控制,確保每個(gè)問題都具有足夠的挑戰(zhàn)性和準(zhǔn)確性。

最終的TreeBench包含405個(gè)精心設(shè)計(jì)的視覺推理問題,其中推理類問題占63%,體現(xiàn)了對高階思維能力的重視。每個(gè)問題都配有精確的邊界框標(biāo)注,標(biāo)明所有相關(guān)目標(biāo)物體的準(zhǔn)確位置。這些目標(biāo)物體平均只占圖像面積的3.05%,大大增加了定位的難度。

**二、AI模型的"期中考試":令人意外的成績單**

當(dāng)研究團(tuán)隊(duì)將TreeBench這份"考卷"交給目前最先進(jìn)的AI模型時(shí),結(jié)果讓所有人都大跌眼鏡。這就好比平時(shí)成績優(yōu)異的尖子生突然在一次特殊考試中集體"滑鐵盧",讓人不得不重新審視他們的真實(shí)水平。

OpenAI最新發(fā)布的o3模型,這個(gè)在其他各種AI基準(zhǔn)測試中表現(xiàn)出色的"學(xué)霸",在TreeBench上只獲得了54.87%的分?jǐn)?shù),勉強(qiáng)及格都算不上。要知道,o3在很多傳統(tǒng)的AI測試中都能達(dá)到90%以上的準(zhǔn)確率,這樣的成績落差實(shí)在令人震驚。谷歌的Gemini-2.5-Pro模型稍好一些,達(dá)到了54.1%,但依然遠(yuǎn)未達(dá)到人們的期望。

更讓人意外的是,即使是那些參數(shù)量巨大的開源模型也表現(xiàn)平平。比如InternVL3-78B這個(gè)擁有780億參數(shù)的巨型模型,在TreeBench上的得分只有46.4%。Qwen2.5-VL-72B模型雖然有720億參數(shù),得分也僅為42.2%。這些結(jié)果清楚地表明,模型規(guī)模的增大并不能自動(dòng)解決視覺推理中的根本問題。

當(dāng)研究人員深入分析這些"考試答卷"時(shí),發(fā)現(xiàn)了一個(gè)非常有趣的現(xiàn)象。那些專門設(shè)計(jì)用于視覺推理的模型,雖然總體分?jǐn)?shù)不一定最高,但在定位準(zhǔn)確性(用mIoU指標(biāo)衡量)方面卻表現(xiàn)更好。這就像兩個(gè)學(xué)生,一個(gè)回答問題很流利但經(jīng)常答非所問,另一個(gè)雖然回答慢一些但總是能準(zhǔn)確理解題意。

更深入的分析揭示了一個(gè)重要發(fā)現(xiàn):在感知類問題上,定位準(zhǔn)確性與最終答題正確率之間存在明顯的正相關(guān)關(guān)系。也就是說,如果AI能夠準(zhǔn)確找到問題中提到的物體,那么它回答正確的概率就會(huì)大大增加。這證明了"看得準(zhǔn)"確實(shí)是"答得對"的重要前提。

然而在推理類問題上,這種相關(guān)性就變得模糊了。即使AI能夠準(zhǔn)確定位到所有相關(guān)物體,它在復(fù)雜推理任務(wù)上的表現(xiàn)仍然不盡如人意。這說明了一個(gè)重要問題:當(dāng)前的AI模型在基礎(chǔ)視覺感知和高階推理能力之間存在明顯的脫節(jié)。它們可能看到了正確的物體,但不知道如何基于這些視覺信息進(jìn)行邏輯推理。

研究團(tuán)隊(duì)還進(jìn)行了一個(gè)有趣的對比實(shí)驗(yàn),將TreeBench的結(jié)果與其他知名AI測試基準(zhǔn)進(jìn)行比較。結(jié)果發(fā)現(xiàn),在TreeBench上表現(xiàn)好的模型,在其他測試中的排名可能完全不同。這種"成績倒掛"現(xiàn)象說明,TreeBench確實(shí)測試了一種此前被忽視的重要能力——基于精確視覺定位的復(fù)雜推理能力。

這些測試結(jié)果帶來了一個(gè)重要啟示:當(dāng)前的AI視覺模型雖然在很多任務(wù)上看起來表現(xiàn)出色,但它們的"理解"很可能是表面的。就像一個(gè)學(xué)生可能通過死記硬背在標(biāo)準(zhǔn)化考試中取得高分,但面對需要真正理解和分析的開放性問題時(shí)就暴露了基礎(chǔ)能力的不足。

**三、TreeVGR:教AI"手眼并用"思考的訓(xùn)練新方法**

面對AI模型在TreeBench上的整體低迷表現(xiàn),研究團(tuán)隊(duì)并沒有止步于發(fā)現(xiàn)問題,而是進(jìn)一步開發(fā)了一套全新的訓(xùn)練方法TreeVGR(可追溯證據(jù)增強(qiáng)視覺推理)。這個(gè)方法的核心思想可以用一個(gè)生動(dòng)的比喻來理解:傳統(tǒng)的AI訓(xùn)練就像教學(xué)生做數(shù)學(xué)題時(shí)只看答案對錯(cuò),而TreeVGR則要求學(xué)生不僅要給出正確答案,還要清楚地寫出每一步解題過程。

TreeVGR的訓(xùn)練過程分為兩個(gè)階段,就像學(xué)習(xí)一門復(fù)雜技能需要先打基礎(chǔ)再提高一樣。第一個(gè)階段叫做"冷啟動(dòng)初始化",這個(gè)名字聽起來很技術(shù)化,但實(shí)際上就是讓AI學(xué)會(huì)基本的"指認(rèn)物體"技能。在這個(gè)階段,研究團(tuán)隊(duì)給AI提供了35000個(gè)訓(xùn)練樣本,每個(gè)樣本都包含一張圖片、一個(gè)問題、詳細(xì)的推理過程和準(zhǔn)確的物體定位框。

這就像教一個(gè)孩子認(rèn)識(shí)動(dòng)物:不僅要告訴他"這是一只貓",還要用手指出貓?jiān)谡掌械木唧w位置,解釋為什么這是貓而不是狗。更有趣的是,研究團(tuán)隊(duì)還故意在訓(xùn)練數(shù)據(jù)中加入一些"錯(cuò)誤示例",然后教AI識(shí)別這些錯(cuò)誤。比如,他們會(huì)故意畫錯(cuò)邊界框,然后在訓(xùn)練數(shù)據(jù)中加上"等等,這個(gè)框畫錯(cuò)了"的提示,訓(xùn)練AI學(xué)會(huì)自我糾錯(cuò)。

第二個(gè)階段是"強(qiáng)化學(xué)習(xí)與可追溯證據(jù)",這是TreeVGR最核心的創(chuàng)新。在這個(gè)階段,AI不再只是被動(dòng)地學(xué)習(xí)標(biāo)準(zhǔn)答案,而是要在實(shí)踐中不斷試錯(cuò)和改進(jìn)。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的獎(jiǎng)勵(lì)機(jī)制,AI的"成績"不僅取決于答案是否正確,還要看它畫出的定位框是否準(zhǔn)確。

這個(gè)獎(jiǎng)勵(lì)機(jī)制包含三個(gè)部分,就像一個(gè)綜合性的評分標(biāo)準(zhǔn)。首先是答案準(zhǔn)確性獎(jiǎng)勵(lì),這是基礎(chǔ)分?jǐn)?shù),答對了就得分。其次是格式規(guī)范性獎(jiǎng)勵(lì),確保AI的回答符合要求的格式,就像作文不僅要內(nèi)容好,字跡也要工整。最關(guān)鍵的是第三個(gè)部分——雙重IoU獎(jiǎng)勵(lì),這是TreeVGR的核心創(chuàng)新。

這個(gè)雙重IoU獎(jiǎng)勵(lì)可以用靶子射擊來比喻。傳統(tǒng)的訓(xùn)練方法就像只看射中了幾環(huán),而雙重IoU獎(jiǎng)勵(lì)不僅要看精度(射中靶心的準(zhǔn)確性),還要看召回率(不能漏掉任何應(yīng)該射中的目標(biāo))。具體來說,如果圖片中有3個(gè)相關(guān)物體,AI必須準(zhǔn)確定位所有3個(gè)物體,同時(shí)不能畫出太多無關(guān)的框。這樣可以防止AI采用"廣撒網(wǎng)"的策略——畫一大堆框來碰運(yùn)氣。

為了訓(xùn)練這個(gè)新模型,研究團(tuán)隊(duì)從多個(gè)數(shù)據(jù)源精心收集了37000個(gè)訓(xùn)練樣本。這些樣本不僅包含常規(guī)的問答對,還包含了每個(gè)目標(biāo)物體的精確位置標(biāo)注。訓(xùn)練過程使用了先進(jìn)的強(qiáng)化學(xué)習(xí)算法,讓AI在不斷的試驗(yàn)中學(xué)會(huì)更好地平衡答案準(zhǔn)確性和定位精確性。

訓(xùn)練完成的TreeVGR模型在各項(xiàng)測試中都表現(xiàn)出色。在TreeBench上,它比基礎(chǔ)模型提高了13.4個(gè)百分點(diǎn),在其他知名測試如V*Bench上提高了16.8個(gè)百分點(diǎn),在MME-RealWorld測試中提高了12.6個(gè)百分點(diǎn)。更重要的是,它的定位準(zhǔn)確性(mIoU)達(dá)到了44.0%,遠(yuǎn)超其他同類模型。

這些改進(jìn)不僅僅是數(shù)字上的提升,更代表了AI"思考"方式的根本性改變。TreeVGR訓(xùn)練出的模型不再是一個(gè)黑盒子,而是一個(gè)透明的推理系統(tǒng)。當(dāng)它回答問題時(shí),你可以清楚地看到它關(guān)注了圖片中的哪些區(qū)域,它的每一個(gè)判斷都有明確的視覺證據(jù)支撐。

**四、方法背后的核心創(chuàng)新:讓AI學(xué)會(huì)"眼到手到心到"**

TreeVGR的成功并非偶然,它背后有著深刻的設(shè)計(jì)哲學(xué)。傳統(tǒng)的AI視覺訓(xùn)練可以比作教學(xué)生做閱讀理解:給出一篇文章和問題,學(xué)生只需要寫出答案,老師不關(guān)心學(xué)生是如何找到答案的。而TreeVGR則像是要求學(xué)生不僅要給出答案,還要用熒光筆標(biāo)出文章中的關(guān)鍵句子,解釋每一步的思考過程。

這種訓(xùn)練方式的核心在于強(qiáng)制AI建立視覺感知和邏輯推理之間的明確連接。在傳統(tǒng)模型中,這兩個(gè)過程往往是分離的:AI可能通過某種"直覺"給出正確答案,但這種直覺無法解釋,也無法確保在新情況下的可靠性。TreeVGR通過要求AI明確指出推理依據(jù),確保了整個(gè)思考過程的可追溯性和可解釋性。

研究團(tuán)隊(duì)在設(shè)計(jì)獎(jiǎng)勵(lì)機(jī)制時(shí)特別巧妙。他們發(fā)現(xiàn),如果只獎(jiǎng)勵(lì)定位的準(zhǔn)確性,AI會(huì)傾向于保守策略,只標(biāo)出最明顯的物體而忽略那些不太顯眼但同樣重要的目標(biāo)。如果只獎(jiǎng)勵(lì)覆蓋的全面性,AI又會(huì)傾向于"廣撒網(wǎng)",標(biāo)出大量無關(guān)的區(qū)域來確保不遺漏。雙重IoU獎(jiǎng)勵(lì)機(jī)制巧妙地平衡了這兩種傾向,迫使AI既要準(zhǔn)確又要全面。

在實(shí)際訓(xùn)練過程中,研究團(tuán)隊(duì)還觀察到了一些有趣的現(xiàn)象。比如,在訓(xùn)練初期,AI經(jīng)常會(huì)出現(xiàn)"定位準(zhǔn)確但推理錯(cuò)誤"或"推理正確但定位模糊"的情況。這就像一個(gè)學(xué)生要么能找到正確的信息但理解錯(cuò)誤,要么理解正確但找錯(cuò)了依據(jù)。通過持續(xù)的強(qiáng)化學(xué)習(xí),AI逐漸學(xué)會(huì)了將精確的視覺定位與正確的邏輯推理有機(jī)結(jié)合。

TreeVGR的另一個(gè)重要?jiǎng)?chuàng)新是它的數(shù)據(jù)構(gòu)造策略。研究團(tuán)隊(duì)不僅使用了高質(zhì)量的標(biāo)注數(shù)據(jù),還特意引入了一些具有挑戰(zhàn)性的"困難樣本"。這些樣本通常包含密集的小物體、復(fù)雜的空間關(guān)系或容易混淆的視覺元素。通過在這些困難樣本上進(jìn)行訓(xùn)練,AI學(xué)會(huì)了在復(fù)雜情況下保持推理的嚴(yán)謹(jǐn)性。

模型的訓(xùn)練效率也得到了顯著提升。傳統(tǒng)的強(qiáng)化學(xué)習(xí)訓(xùn)練往往需要大量的計(jì)算資源和時(shí)間,比如DeepEyes模型需要32張H100 GPU運(yùn)行48小時(shí)。而TreeVGR通過巧妙的兩階段設(shè)計(jì),將總訓(xùn)練時(shí)間大大縮短,同時(shí)保持了訓(xùn)練效果。這使得更多研究團(tuán)隊(duì)能夠復(fù)現(xiàn)和改進(jìn)這種方法。

**五、實(shí)驗(yàn)驗(yàn)證:從理論到實(shí)踐的全面檢驗(yàn)**

為了全面驗(yàn)證TreeVGR的有效性,研究團(tuán)隊(duì)進(jìn)行了一系列深入的實(shí)驗(yàn)分析,這些實(shí)驗(yàn)就像給新藥做臨床試驗(yàn)一樣嚴(yán)格和全面。他們不僅要證明新方法確實(shí)有效,還要理解它為什么有效,在什么條件下效果最好。

首先是大規(guī)模的橫向?qū)Ρ葘?shí)驗(yàn)。研究團(tuán)隊(duì)將TreeVGR與目前最先進(jìn)的各種AI模型進(jìn)行了正面比較,包括OpenAI的GPT-4o、谷歌的Gemini系列、以及多個(gè)開源的大型視覺語言模型。結(jié)果顯示,盡管TreeVGR的參數(shù)量只有70億(相比之下,一些對比模型有780億參數(shù)),但它在多個(gè)重要指標(biāo)上都表現(xiàn)出色。

在TreeBench這個(gè)最具挑戰(zhàn)性的測試中,TreeVGR達(dá)到了50.4%的準(zhǔn)確率,不僅超過了所有同等規(guī)模的模型,甚至與一些大10倍的模型相媲美。更重要的是,它的定位準(zhǔn)確性(mIoU)達(dá)到44.0%,這意味著AI在推理過程中確實(shí)能夠準(zhǔn)確找到相關(guān)的物體,而不是僅僅靠"瞎猜"獲得正確答案。

在其他知名測試基準(zhǔn)上,TreeVGR也展現(xiàn)出了出色的通用性。在V*Bench測試中,它比基礎(chǔ)模型提高了16.8個(gè)百分點(diǎn),達(dá)到了91.1%的準(zhǔn)確率。在HR-Bench這個(gè)專門測試高分辨率圖像理解能力的基準(zhǔn)中,TreeVGR也取得了顯著提升。這些結(jié)果表明,TreeVGR學(xué)到的"看圖說話"能力具有很好的泛化性,不僅僅局限于特定類型的問題。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),這就像解剖一臺(tái)精密機(jī)器,要看每個(gè)零件的作用。他們逐一移除TreeVGR的各個(gè)組成部分,觀察性能的變化。結(jié)果發(fā)現(xiàn),冷啟動(dòng)初始化階段雖然看起來簡單,但對最終性能貢獻(xiàn)很大。沒有這個(gè)階段,AI就像一個(gè)從未見過標(biāo)準(zhǔn)答案的學(xué)生,在強(qiáng)化學(xué)習(xí)階段會(huì)浪費(fèi)大量時(shí)間在低級(jí)錯(cuò)誤上。

雙重IoU獎(jiǎng)勵(lì)機(jī)制的重要性更是顯而易見。當(dāng)研究團(tuán)隊(duì)移除precision(精確性)部分時(shí),AI開始表現(xiàn)出"強(qiáng)迫癥"行為——為了確保不遺漏任何目標(biāo),它會(huì)畫出大量的邊界框,導(dǎo)致回答變得冗長無效。當(dāng)移除recall(召回率)部分時(shí),AI又變得過于保守,只敢標(biāo)出最明顯的物體,遺漏了很多重要的推理依據(jù)。

一個(gè)特別有趣的發(fā)現(xiàn)是,在不同類型的問題上,定位準(zhǔn)確性與推理正確性之間呈現(xiàn)出不同的關(guān)系模式。在感知類問題上,這種關(guān)系非常明確——定位越準(zhǔn)確,答案越可能正確。但在推理類問題上,關(guān)系就變得復(fù)雜得多。有時(shí)候即使AI準(zhǔn)確找到了所有相關(guān)物體,它在復(fù)雜推理步驟上仍然可能出錯(cuò)。這個(gè)發(fā)現(xiàn)為未來的研究指明了方向:需要在精確定位的基礎(chǔ)上,進(jìn)一步加強(qiáng)邏輯推理能力的訓(xùn)練。

研究團(tuán)隊(duì)還分析了TreeVGR在不同物體大小上的表現(xiàn)。TreeBench中的目標(biāo)物體平均只占圖像面積的3.05%,這對任何AI系統(tǒng)都是巨大挑戰(zhàn)。分析結(jié)果顯示,TreeVGR在小物體定位上的改進(jìn)尤其明顯,這證明了專門的訓(xùn)練確實(shí)能夠提高AI在復(fù)雜場景中的細(xì)節(jié)感知能力。

為了驗(yàn)證方法的通用性,研究團(tuán)隊(duì)還在完全不同的視覺任務(wù)上測試了TreeVGR。在文檔理解、圖表分析、甚至基礎(chǔ)的物體檢測任務(wù)上,TreeVGR都展現(xiàn)出了良好的性能。這表明,"可追溯推理"不僅僅是解決復(fù)雜視覺問答的特殊技巧,而是一種能夠普遍提升AI視覺理解能力的基礎(chǔ)方法。

**六、技術(shù)細(xì)節(jié)剖析:工程實(shí)現(xiàn)中的精巧設(shè)計(jì)**

雖然TreeVGR的核心理念相對簡單——讓AI同時(shí)學(xué)會(huì)準(zhǔn)確定位和正確推理——但在具體實(shí)現(xiàn)過程中,研究團(tuán)隊(duì)遇到了許多技術(shù)挑戰(zhàn),他們的解決方案展現(xiàn)出了高超的工程智慧。

首先是坐標(biāo)系統(tǒng)的統(tǒng)一問題。不同的AI模型使用不同的坐標(biāo)表示方法,就像有些地圖使用經(jīng)緯度,有些使用平面坐標(biāo)系一樣。TreeVGR需要處理來自不同源頭的訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)的邊界框標(biāo)注使用了不同的坐標(biāo)系統(tǒng)。研究團(tuán)隊(duì)開發(fā)了一套自動(dòng)轉(zhuǎn)換機(jī)制,能夠?qū)w一化坐標(biāo)(0到1之間的相對位置)準(zhǔn)確轉(zhuǎn)換為絕對像素坐標(biāo),確保訓(xùn)練數(shù)據(jù)的一致性。

數(shù)據(jù)質(zhì)量控制是另一個(gè)關(guān)鍵挑戰(zhàn)。機(jī)器學(xué)習(xí)有一個(gè)著名的原則:"垃圾進(jìn),垃圾出",訓(xùn)練數(shù)據(jù)的質(zhì)量直接決定了模型的上限。研究團(tuán)隊(duì)設(shè)計(jì)了多層過濾機(jī)制,首先使用現(xiàn)有的強(qiáng)AI模型對候選數(shù)據(jù)進(jìn)行預(yù)篩選,然后人工專家進(jìn)行精細(xì)標(biāo)注,最后通過交叉驗(yàn)證確保標(biāo)注的準(zhǔn)確性。這個(gè)過程就像制作高級(jí)手表,每個(gè)零件都要經(jīng)過多道工序的精密加工。

在強(qiáng)化學(xué)習(xí)的實(shí)現(xiàn)過程中,獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)尤其關(guān)鍵。傳統(tǒng)的強(qiáng)化學(xué)習(xí)往往使用簡單的0/1獎(jiǎng)勵(lì)(對就是1,錯(cuò)就是0),但TreeVGR需要更精細(xì)的獎(jiǎng)勵(lì)信號(hào)。研究團(tuán)隊(duì)設(shè)計(jì)的雙重IoU獎(jiǎng)勵(lì)不僅考慮了精確性和召回率,還引入了漸進(jìn)式獎(jiǎng)勵(lì)機(jī)制——接近正確答案的嘗試會(huì)獲得部分獎(jiǎng)勵(lì),這樣AI在學(xué)習(xí)過程中能夠獲得更豐富的反饋信號(hào)。

計(jì)算效率的優(yōu)化也體現(xiàn)了團(tuán)隊(duì)的工程功底。強(qiáng)化學(xué)習(xí)訓(xùn)練通常需要大量的計(jì)算資源,特別是需要一個(gè)專門的"獎(jiǎng)勵(lì)模型"來評判AI的表現(xiàn)。研究團(tuán)隊(duì)使用了分布式訓(xùn)練架構(gòu),8張GPU負(fù)責(zé)訓(xùn)練主模型,另外8張GPU運(yùn)行獎(jiǎng)勵(lì)模型,通過高效的通信機(jī)制確保訓(xùn)練過程的流暢性。

更令人印象深刻的是,TreeVGR采用了一種創(chuàng)新的訓(xùn)練策略,避免了傳統(tǒng)方法中的"圖像裁剪"步驟。以往的視覺推理方法往往需要先裁剪出感興趣的區(qū)域,然后在這些小圖片上進(jìn)行處理,這不僅增加了計(jì)算復(fù)雜度,還可能丟失重要的上下文信息。TreeVGR直接在完整圖像上進(jìn)行推理,通過文本描述的邊界框來表示關(guān)注區(qū)域,這種"純文本空間推理"方法既高效又精確。

在模型架構(gòu)的選擇上,研究團(tuán)隊(duì)也展現(xiàn)了實(shí)用主義的智慧。他們選擇了Qwen2.5-VL-7B作為基礎(chǔ)模型,這不是因?yàn)樗亲畲蟮哪P?,而是因?yàn)樗趨?shù)效率和性能之間達(dá)到了最佳平衡。通過精心設(shè)計(jì)的訓(xùn)練策略,這個(gè)相對"小巧"的模型在多項(xiàng)測試中都達(dá)到了與大10倍模型相媲美的性能。

訓(xùn)練過程的監(jiān)控和調(diào)優(yōu)也體現(xiàn)了團(tuán)隊(duì)的豐富經(jīng)驗(yàn)。他們發(fā)現(xiàn),在訓(xùn)練初期,模型往往會(huì)出現(xiàn)"定位漂移"現(xiàn)象——開始時(shí)能夠準(zhǔn)確定位目標(biāo),但隨著訓(xùn)練進(jìn)行,定位精度反而下降。通過引入學(xué)習(xí)率動(dòng)態(tài)調(diào)整和梯度裁剪技術(shù),他們成功解決了這個(gè)問題,確保模型在整個(gè)訓(xùn)練過程中都能穩(wěn)定改進(jìn)。

**七、實(shí)際應(yīng)用前景:從實(shí)驗(yàn)室到現(xiàn)實(shí)世界的橋梁**

TreeVGR的意義遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)研究的范疇,它為AI視覺理解技術(shù)的實(shí)際應(yīng)用開辟了新的可能性。就像GPS導(dǎo)航不僅要知道目的地,還要能夠解釋路線選擇的原因一樣,TreeVGR讓AI的視覺推理過程變得可解釋和可信賴,這為它在現(xiàn)實(shí)世界中的部署奠定了堅(jiān)實(shí)基礎(chǔ)。

在醫(yī)療影像分析領(lǐng)域,TreeVGR的可追溯性特征具有革命性意義。傳統(tǒng)的AI醫(yī)療診斷系統(tǒng)就像一個(gè)"神秘的專家",能夠給出診斷結(jié)果但無法解釋原因,這讓醫(yī)生很難信任和采用。而基于TreeVGR訓(xùn)練的系統(tǒng)不僅能夠識(shí)別病變,還能精確指出關(guān)注的影像區(qū)域,解釋診斷的依據(jù)。這就像有一個(gè)AI助手能夠在X光片上準(zhǔn)確指出"這里的陰影形狀異常,那里的紋理變化可疑",為醫(yī)生提供具體的分析線索。

在自動(dòng)駕駛領(lǐng)域,TreeVGR的透明推理能力同樣具有重要價(jià)值。當(dāng)前的自動(dòng)駕駛系統(tǒng)在遇到復(fù)雜路況時(shí),往往難以解釋其決策過程,這成為了技術(shù)普及的重要障礙。TreeVGR技術(shù)可以讓自動(dòng)駕駛系統(tǒng)在做出每個(gè)決策時(shí),都能清楚地說明它觀察到了哪些交通標(biāo)志、行人、車輛,以及這些觀察如何影響了駕駛決策。這種透明性不僅有助于技術(shù)調(diào)試,也能增強(qiáng)乘客的信任感。

在教育技術(shù)方面,TreeVGR開啟了"可視化學(xué)習(xí)分析"的新可能?;谶@種技術(shù)的教育AI可以在分析學(xué)生作業(yè)或考試答案時(shí),不僅指出錯(cuò)誤,還能準(zhǔn)確定位錯(cuò)誤的具體位置,解釋錯(cuò)誤的原因。比如在幾何題解答中,AI可以精確指出學(xué)生在圖形的哪個(gè)部分產(chǎn)生了誤解,在推理的哪個(gè)步驟出現(xiàn)了邏輯跳躍。

零售和電商行業(yè)也將從中受益?,F(xiàn)有的商品推薦系統(tǒng)往往是"黑盒操作",消費(fèi)者不知道為什么會(huì)收到特定的推薦?;赥reeVGR的系統(tǒng)可以在分析用戶上傳的圖片時(shí),明確指出它關(guān)注了哪些產(chǎn)品特征,比如顏色、款式、材質(zhì)等,然后基于這些具體特征提供個(gè)性化推薦。這種透明的推薦過程將大大提升用戶體驗(yàn)和信任度。

在內(nèi)容審核和監(jiān)管領(lǐng)域,TreeVGR的應(yīng)用前景同樣廣闊。當(dāng)前的內(nèi)容審核AI經(jīng)常出現(xiàn)誤判,部分原因就是缺乏可解釋性?;赥reeVGR的審核系統(tǒng)可以在標(biāo)記可疑內(nèi)容時(shí),準(zhǔn)確指出觸發(fā)警報(bào)的具體區(qū)域和理由,這不僅有助于提高審核準(zhǔn)確性,也為申訴和復(fù)核提供了明確依據(jù)。

更令人興奮的是,TreeVGR為人機(jī)協(xié)作開辟了新模式。在傳統(tǒng)的AI系統(tǒng)中,人類很難理解AI的"思考"過程,因此協(xié)作往往局限于簡單的指令執(zhí)行。而TreeVGR讓AI能夠與人類進(jìn)行"可視化對話"——AI可以指出它關(guān)注的區(qū)域,人類可以糾正或補(bǔ)充AI的觀察,形成真正意義上的智能協(xié)作。

從技術(shù)發(fā)展的角度看,TreeVGR也為構(gòu)建更加可靠的AI系統(tǒng)奠定了基礎(chǔ)。在關(guān)鍵應(yīng)用場景中,AI系統(tǒng)的可解釋性往往比純粹的性能更加重要。TreeVGR證明了在不犧牲性能的前提下實(shí)現(xiàn)AI透明化是完全可能的,這為監(jiān)管機(jī)構(gòu)制定AI應(yīng)用標(biāo)準(zhǔn)提供了技術(shù)參考。

當(dāng)然,TreeVGR的大規(guī)模應(yīng)用還面臨一些挑戰(zhàn)。首先是計(jì)算成本問題,雖然TreeVGR已經(jīng)比傳統(tǒng)方法更高效,但在處理大規(guī)模數(shù)據(jù)時(shí)仍需要相當(dāng)?shù)挠?jì)算資源。其次是標(biāo)注成本,高質(zhì)量的可追溯訓(xùn)練數(shù)據(jù)需要專業(yè)人員精心標(biāo)注,這在某些應(yīng)用場景中可能成為瓶頸。

盡管如此,TreeVGR所代表的"可追溯AI"發(fā)展方向已經(jīng)得到了廣泛認(rèn)可。隨著計(jì)算技術(shù)的進(jìn)步和標(biāo)注工具的改進(jìn),這些挑戰(zhàn)將逐步得到解決。更重要的是,TreeVGR已經(jīng)證明了讓AI"展示工作過程"不僅是可能的,而且是有益的,這為整個(gè)AI領(lǐng)域的發(fā)展指明了新方向。

說到底,這項(xiàng)由中科院自動(dòng)化所和字節(jié)跳動(dòng)聯(lián)合完成的研究,不僅在技術(shù)上取得了突破,更在理念上推動(dòng)了AI發(fā)展的新范式。它告訴我們,真正智能的AI不應(yīng)該是一個(gè)神秘的黑盒子,而應(yīng)該是一個(gè)能夠清楚解釋自己"思考"過程的透明系統(tǒng)。TreeBench揭示了當(dāng)前AI視覺模型的能力邊界,而TreeVGR則為突破這些邊界提供了切實(shí)可行的路徑。隨著這種可追溯推理技術(shù)的不斷發(fā)展和完善,我們有理由相信,未來的AI將不僅更加智能,也更加值得信賴。

研究團(tuán)隊(duì)在GitHub上開源了完整的代碼和數(shù)據(jù)集,這種開放的科研態(tài)度將推動(dòng)整個(gè)領(lǐng)域的快速發(fā)展。任何有興趣的研究者都可以基于這個(gè)基礎(chǔ)進(jìn)行進(jìn)一步的探索和改進(jìn)。這種科研開放性本身就體現(xiàn)了"可追溯"的精神——不僅研究結(jié)果要透明,研究過程同樣要開放給全社會(huì)檢驗(yàn)和完善。

Q&A

Q1:TreeBench和現(xiàn)有的AI測試有什么不同?為什么現(xiàn)有的先進(jìn)AI模型在上面表現(xiàn)這么差? A: TreeBench最大的特點(diǎn)是要求AI不僅要答對題目,還要準(zhǔn)確指出它在圖片中關(guān)注的具體區(qū)域,就像考試時(shí)不僅要寫答案還要寫解題過程?,F(xiàn)有AI模型表現(xiàn)差主要是因?yàn)樗鼈冸m然能"猜對"答案,但實(shí)際上并沒有真正"看懂"圖片,缺乏基于精確視覺定位的推理能力。

Q2:TreeVGR訓(xùn)練方法的核心創(chuàng)新是什么?普通人能理解嗎? A: TreeVGR的核心創(chuàng)新是"雙重IoU獎(jiǎng)勵(lì)機(jī)制",簡單說就是訓(xùn)練AI時(shí)不僅看答案對錯(cuò),還要看它有沒有準(zhǔn)確找到相關(guān)物體。就像教孩子認(rèn)字,不僅要他讀對,還要他用手指準(zhǔn)確指出每個(gè)字的位置。這樣訓(xùn)練出的AI既準(zhǔn)確又可靠。

Q3:這項(xiàng)研究對普通人的生活會(huì)產(chǎn)生什么影響?什么時(shí)候能用上? A: 這項(xiàng)技術(shù)將讓AI變得更可信賴和透明。未來的醫(yī)療診斷AI能解釋為什么這樣診斷,自動(dòng)駕駛能說明為什么這樣決策,購物推薦能告訴你為什么推薦這個(gè)商品。雖然完整應(yīng)用還需要時(shí)間,但研究團(tuán)隊(duì)已經(jīng)開源了代碼,技術(shù)成熟度在不斷提升。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-