在人工智能研究的浩瀚星空中,有一顆新星正在冉冉升起。這項(xiàng)由加州大學(xué)圣克魯茲分校的Yue Fan、Xuehai He、Diji Yang、Kaizhi Zheng和Xin Eric Wang,以及eBay的Ching-Chen Kuo、Yuting Zheng、Sravana Jyothi Narayanaraju和Xinze Guan共同完成的研究,于2025年5月21日發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.15879v1)。這項(xiàng)研究名為"GRIT: Teaching MLLMs to Think with Images"(GRIT:教會(huì)多模態(tài)大語(yǔ)言模型用圖像思考),為我們揭示了一種新的方法,讓AI系統(tǒng)能夠像人類一樣,在思考問(wèn)題時(shí)直接參考視覺(jué)信息。有興趣深入了解的讀者可以通過(guò)https://grounded-reasoning.github.io訪問(wèn)相關(guān)研究?jī)?nèi)容。
想象一下,當(dāng)你看到一張鳥(niǎo)巢的圖片,有人問(wèn)你:"巢里有多少個(gè)蛋?"作為人類,你會(huì)怎么做?你可能會(huì)看著圖片,指著每一個(gè)蛋,一個(gè)一個(gè)地?cái)?shù):"這里有一個(gè),這里有一個(gè)..."同時(shí),你的眼睛和大腦會(huì)自然地將注意力集中在圖片的特定區(qū)域上。這種"邊看邊思考"的能力對(duì)我們來(lái)說(shuō)再自然不過(guò),但對(duì)AI系統(tǒng)來(lái)說(shuō)卻是一項(xiàng)艱巨的挑戰(zhàn)。
目前的多模態(tài)大語(yǔ)言模型(MLLMs)雖然能同時(shí)處理文字和圖像,但它們?cè)谕评磉^(guò)程中往往只能生成純文本描述,而無(wú)法明確指出它們?cè)趫D像中關(guān)注的具體區(qū)域。這就像是一個(gè)學(xué)生在解答問(wèn)題時(shí),只給出答案和一些含糊的解釋,而沒(méi)有清晰地指出他是如何一步步推理的,也沒(méi)有明確標(biāo)出他在圖像中看到了什么。這種方式不僅缺乏透明度,也無(wú)法讓我們確認(rèn)AI是否真正"理解"了圖像內(nèi)容。
GRIT框架的出現(xiàn),正是為了解決這一問(wèn)題。它教會(huì)AI在思考時(shí)明確地指出它在看圖像的哪些部分,就像是在說(shuō):"我看到這個(gè)區(qū)域(指向圖像中的特定位置)有一個(gè)藍(lán)色的蛋,然后在這個(gè)區(qū)域(指向另一個(gè)位置)有一個(gè)綠色的蛋..."這種方式不僅讓AI的推理過(guò)程更加清晰,也讓我們能夠驗(yàn)證AI是否真正關(guān)注了正確的視覺(jué)信息。
更令人驚訝的是,GRIT方法只需要20個(gè)訓(xùn)練樣本就能使模型學(xué)會(huì)這種能力,這在數(shù)據(jù)饑渴的AI領(lǐng)域堪稱奇跡。這就像是只需要向孩子展示20個(gè)例子,他們就能掌握一種全新的思考方式一樣神奇。
一、GRIT:視覺(jué)推理的新范式
傳統(tǒng)的推理模型訓(xùn)練方法通常是讓模型在給出最終答案前,先生成一系列思考步驟,被稱為"思維鏈"(Chain-of-Thought)。這種方法在純語(yǔ)言領(lǐng)域取得了很大成功,比如DeepSeek-R1這樣的模型展示了出色的復(fù)雜任務(wù)處理能力。但當(dāng)這種方法擴(kuò)展到視覺(jué)語(yǔ)言領(lǐng)域時(shí),現(xiàn)有的開(kāi)源視覺(jué)推理模型往往只能生成純文本的推理內(nèi)容,缺乏對(duì)視覺(jué)信息的明確整合。
這就好比一個(gè)人在解釋一幅畫(huà)時(shí),只用文字描述而不指出他正在談?wù)摦?huà)面中的哪個(gè)部分。這種方式導(dǎo)致推理過(guò)程不夠清晰,也不夠扎實(shí)地建立在視覺(jué)輸入的細(xì)節(jié)上。要解決這個(gè)問(wèn)題,關(guān)鍵問(wèn)題是如何賦予模型"用圖像思考"的能力,讓它們能像人類一樣在思考過(guò)程中自然地引用視覺(jué)輸入。
然而,實(shí)現(xiàn)這一能力面臨重大技術(shù)挑戰(zhàn)。當(dāng)前的多模態(tài)大語(yǔ)言模型設(shè)計(jì)用來(lái)生成語(yǔ)言標(biāo)記,缺乏在推理鏈中直接生成圖像的固有機(jī)制。此外,處理和理解穿插多個(gè)視覺(jué)元素的推理序列也是一個(gè)重大障礙,因?yàn)樵S多多模態(tài)大語(yǔ)言模型難以在一個(gè)輸入中跨多個(gè)圖像維持上下文。除了這些技術(shù)挑戰(zhàn)外,數(shù)據(jù)也是一個(gè)主要障礙。在大多數(shù)情況下,對(duì)于復(fù)雜的多模態(tài)問(wèn)題,沒(méi)有唯一正確的推理路徑,而明確納入視覺(jué)證據(jù)的人工標(biāo)注數(shù)據(jù)極其稀缺。
GRIT方法引入了一種新穎的基于圖像和文本的推理范式,模型生成的自然語(yǔ)言推理鏈可以自由混合指向輸入圖像中相關(guān)區(qū)域的邊界框坐標(biāo)。這些邊界框用于指示模型在推理過(guò)程中正在查閱的特定視覺(jué)信息。
為了簡(jiǎn)化推理過(guò)程,在生成邊界框坐標(biāo)后,模型不會(huì)在提出的基于圖像的推理范式中接收額外的像素輸入;相反,模型根據(jù)其對(duì)原始輸入圖像的理解來(lái)理解和利用這些坐標(biāo)所指示的視覺(jué)信息。通過(guò)用生成的邊界框裁剪輸入圖像,得到的推理鏈可以被可視化為交錯(cuò)的文本和輸入圖像中突出顯示的區(qū)域。
想象一下,這就像是一位老師在解釋一幅復(fù)雜的畫(huà)作時(shí),不僅用語(yǔ)言描述,還會(huì)用手指指向畫(huà)面中的特定部分說(shuō):"看這里的構(gòu)圖..."、"注意這個(gè)角落的細(xì)節(jié)..."。這種方式讓聽(tīng)者更容易理解老師的解釋,也能確認(rèn)老師確實(shí)在關(guān)注正確的視覺(jué)元素。GRIT就是在教AI學(xué)會(huì)這種"邊看邊思考、邊指邊說(shuō)"的能力。
二、GRPO-GR:強(qiáng)化學(xué)習(xí)助力模型掌握新能力
要訓(xùn)練多模態(tài)大語(yǔ)言模型在基于圖像的推理范式中生成推理鏈,GRIT采用了GRPO-GR,一種基于GRPO算法構(gòu)建的強(qiáng)化學(xué)習(xí)方法。它配備了專門(mén)針對(duì)推理和視覺(jué)定位格式的新型獎(jiǎng)勵(lì),除了答案準(zhǔn)確性外,這種獎(jiǎng)勵(lì)機(jī)制重點(diǎn)關(guān)注的是輸出的格式而非內(nèi)容。
具體來(lái)說(shuō),這種格式獎(jiǎng)勵(lì)鼓勵(lì)推理輸出由思考標(biāo)記對(duì)(例如,和)和重新思考標(biāo)記對(duì)(例如,和)來(lái)構(gòu)建;它還獎(jiǎng)勵(lì)在生成序列中包含語(yǔ)法上有效的邊界框。因此,GRPO-GR中的獎(jiǎng)勵(lì)不限制推理步驟的具體文本內(nèi)容或基于圖像的區(qū)域的語(yǔ)義準(zhǔn)確性,從而消除了對(duì)帶有推理鏈注釋或明確邊界框標(biāo)簽的數(shù)據(jù)的需求。
這就像是教一個(gè)孩子學(xué)習(xí)解答數(shù)學(xué)題時(shí),我們不是告訴他每一步該怎么思考,而是鼓勵(lì)他寫(xiě)下自己的思考過(guò)程,并在適當(dāng)?shù)牡胤疆?huà)圖標(biāo)注。只要他的格式正確(先思考,然后整理思路,最后給出答案),我們就給予獎(jiǎng)勵(lì),而不去干涉他具體思考了什么。這種方式讓孩子能夠發(fā)展出自己的思考方式,而不是機(jī)械地模仿別人。
GRIT方法的一個(gè)顯著成果是它極其高效的數(shù)據(jù)利用率:它使多模態(tài)大語(yǔ)言模型只需使用從現(xiàn)有VQA數(shù)據(jù)集獲取的20個(gè)圖像-問(wèn)題-答案三元組,就能獲得基于圖像的推理能力。這些訓(xùn)練樣本來(lái)自視覺(jué)空間推理(VSR)和TallyQA數(shù)據(jù)集,前者側(cè)重于空間關(guān)系驗(yàn)證,后者側(cè)重于計(jì)數(shù)任務(wù)。
三、實(shí)驗(yàn)驗(yàn)證:GRIT的強(qiáng)大效果
研究團(tuán)隊(duì)使用GRIT方法訓(xùn)練了兩個(gè)最先進(jìn)的多模態(tài)大語(yǔ)言模型——Qwen 2.5-VL和InternVL 3,每個(gè)模型都只使用了20個(gè)來(lái)自VSR和TallyQA數(shù)據(jù)集的圖像-問(wèn)題-答案三元組。GRIT訓(xùn)練的一個(gè)重要成果是,訓(xùn)練后的模型保持了它們的廣泛通用性,不僅能有效處理視覺(jué)問(wèn)答任務(wù),還能處理以視覺(jué)定位為主的指代表達(dá)理解任務(wù)。
在實(shí)驗(yàn)中,研究團(tuán)隊(duì)使用了從各種基準(zhǔn)測(cè)試中收集的測(cè)試數(shù)據(jù),包括視覺(jué)問(wèn)答和指代表達(dá)理解兩種任務(wù)。通過(guò)這些實(shí)驗(yàn),他們揭示了幾個(gè)關(guān)鍵觀察結(jié)果:
首先,訓(xùn)練后的模型有效地統(tǒng)一了視覺(jué)定位和推理能力——這些能力原本在基礎(chǔ)多模態(tài)大語(yǔ)言模型中是固有但分離的。通過(guò)定性和定量分析,研究團(tuán)隊(duì)發(fā)現(xiàn)模型生成的推理鏈中,引用的圖像區(qū)域和伴隨的文本之間存在高度相關(guān)性。
其次,邊界框的生成促使后續(xù)模型推理更有效地關(guān)注輸入視覺(jué)信息。研究團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)證明,模型在生成了邊界框后,其對(duì)圖像內(nèi)容的注意力會(huì)顯著提高,這有助于保持推理過(guò)程的視覺(jué)一致性。
最后,隨著訓(xùn)練數(shù)據(jù)的增加,使用GRIT訓(xùn)練的模型表現(xiàn)有所提高,但這也揭示了提高泛化能力的挑戰(zhàn)。研究團(tuán)隊(duì)觀察到,模型在同源數(shù)據(jù)(VSR和TallyQA)上的表現(xiàn)提升比在異源數(shù)據(jù)(如GQA和MathVista-mini)上更顯著,這表明增加訓(xùn)練數(shù)據(jù)的多樣性比簡(jiǎn)單地?cái)U(kuò)大數(shù)據(jù)量更為關(guān)鍵。
在具體的評(píng)估指標(biāo)上,GRIT訓(xùn)練的模型在GPT評(píng)判的答案準(zhǔn)確率和視覺(jué)定位IoU(交并比)兩方面都優(yōu)于基線模型。即使只用20個(gè)訓(xùn)練樣本,GRIT訓(xùn)練的模型不僅在VSR和TallyQA(訓(xùn)練中看到的兩個(gè)數(shù)據(jù)集)上的GPT評(píng)判答案準(zhǔn)確率有所提高,還能有效地泛化到其他域外數(shù)據(jù),表明其具備強(qiáng)大的推理能力。
在視覺(jué)定位IoU指標(biāo)上,盡管GRIT訓(xùn)練的模型并未直接針對(duì)此指標(biāo)進(jìn)行優(yōu)化,但它們?cè)诙ㄎ粏?wèn)題相關(guān)的圖像區(qū)域方面的表現(xiàn)優(yōu)于基線模型。值得注意的是,在OVDEval測(cè)試數(shù)據(jù)上,GRIT訓(xùn)練的模型比零樣本多模態(tài)大語(yǔ)言模型取得了更準(zhǔn)確的檢測(cè)結(jié)果,突顯了它們?cè)谝曈X(jué)定位能力方面的新興改進(jìn)。
四、深入理解:邊界框與自然語(yǔ)言如何協(xié)同工作
GRIT訓(xùn)練的模型能夠生成各種各樣的基于圖像的推理內(nèi)容。由于GRIT方法的獎(jiǎng)勵(lì)設(shè)計(jì)不對(duì)推理鏈的內(nèi)容施加嚴(yán)格限制,模型學(xué)會(huì)了靈活的推理策略,能夠無(wú)縫適應(yīng)各種查詢。
具體來(lái)說(shuō),GRIT訓(xùn)練的模型有時(shí)會(huì)直接提供答案,然后在后續(xù)推理中反映這個(gè)答案;而在其他情況下,它們會(huì)首先執(zhí)行視覺(jué)定位動(dòng)作來(lái)識(shí)別視覺(jué)證據(jù),然后在后續(xù)推理中分析所選的圖像區(qū)域。更重要的是,這些模型能夠動(dòng)態(tài)確定是否需要視覺(jué)定位,從而顯著減少誤定位的情況。例如,對(duì)于輸入圖像中不存在的實(shí)體的查詢,模型不會(huì)生成錯(cuò)誤的視覺(jué)定位,展示了強(qiáng)大的多模態(tài)推理能力。
為了系統(tǒng)評(píng)估GRIT訓(xùn)練模型的基于圖像的推理鏈中圖像區(qū)域和自然語(yǔ)言內(nèi)容之間的連貫性,研究團(tuán)隊(duì)引入了視覺(jué)-語(yǔ)言推理跨模態(tài)相關(guān)性指標(biāo)。這一指標(biāo)利用GPT-4o的強(qiáng)大集合標(biāo)記能力,通過(guò)比較模型生成的邊界框和隨機(jī)采樣的邊界框與文本推理的相關(guān)性,來(lái)評(píng)估語(yǔ)義連貫性。
實(shí)驗(yàn)結(jié)果表明,使用GRIT框架訓(xùn)練的模型在這一指標(biāo)上優(yōu)于基線模型,顯示出與文本推理高度相關(guān)的圖像區(qū)域選擇,盡管與人工編寫(xiě)的推理鏈相比仍有差距,表明未來(lái)改進(jìn)的空間。
此外,GRIT訓(xùn)練的模型在生成視覺(jué)整合的思考過(guò)程時(shí),會(huì)交錯(cuò)推理和視覺(jué)定位動(dòng)作。為了進(jìn)一步理解生成的邊界框如何影響后續(xù)推理,研究團(tuán)隊(duì)檢查了推理過(guò)程中對(duì)輸入視覺(jué)標(biāo)記的注意力分?jǐn)?shù)。
通過(guò)比較原始重新思考段落和移除邊界框后的重新思考內(nèi)容生成時(shí)的視覺(jué)注意力,研究團(tuán)隊(duì)發(fā)現(xiàn),原始重新思考段落中對(duì)每個(gè)視覺(jué)標(biāo)記的平均注意力分?jǐn)?shù)明顯高于無(wú)邊界框的重新思考段落。這表明,原始推理中邊界框的存在導(dǎo)致了后續(xù)推理鏈中對(duì)視覺(jué)的注意力增加,這可能有利于推理過(guò)程的圖像一致性。
五、數(shù)據(jù)規(guī)模效應(yīng):質(zhì)量與數(shù)量的平衡
為了了解GRIT的性能如何隨著訓(xùn)練數(shù)據(jù)的增加而擴(kuò)展,研究團(tuán)隊(duì)訓(xùn)練了Qwen2.5-VL 2B模型的變體,分別使用20、500和7,000個(gè)圖像-問(wèn)題-答案三元組。這些樣本取自VSR和TallyQA數(shù)據(jù)集,保持相同的數(shù)據(jù)源混合。
研究團(tuán)隊(duì)在第4.1節(jié)中介紹的測(cè)試數(shù)據(jù)集上評(píng)估了這些訓(xùn)練變體,使用GPT評(píng)判的答案準(zhǔn)確率分?jǐn)?shù)。結(jié)果顯示,隨著用于GRIT的訓(xùn)練數(shù)據(jù)量的增加,答案準(zhǔn)確率通常會(huì)提高。
然而,研究團(tuán)隊(duì)發(fā)現(xiàn),與在領(lǐng)域內(nèi)測(cè)試數(shù)據(jù)(來(lái)自與訓(xùn)練相同的數(shù)據(jù)集,如VSR和TallyQA)上觀察到的增長(zhǎng)相比,域外測(cè)試數(shù)據(jù)(GQA和MathVista-mini)的答案準(zhǔn)確率改進(jìn)更為微妙,這凸顯了泛化的常見(jiàn)挑戰(zhàn)。
此外,他們觀察到模型性能增長(zhǎng)有所減少,表明持續(xù)改進(jìn)可能需要指數(shù)級(jí)更多的數(shù)據(jù)。研究團(tuán)隊(duì)根據(jù)最近的研究解釋了這一觀察結(jié)果,這些研究表明,使用可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)主要是將現(xiàn)有推理模式偏向獎(jiǎng)勵(lì)結(jié)果,而不是從根本上改變它們,并且性能也受預(yù)訓(xùn)練的強(qiáng)烈影響。
這意味著要顯著提高GRIT訓(xùn)練模型的域外性能,增加訓(xùn)練數(shù)據(jù)的多樣性比簡(jiǎn)單地?cái)U(kuò)大數(shù)據(jù)量更為關(guān)鍵,這強(qiáng)調(diào)了未來(lái)研究的一個(gè)關(guān)鍵方向。
總結(jié)來(lái)說(shuō),GRIT框架的提出為多模態(tài)大語(yǔ)言模型的視覺(jué)推理能力帶來(lái)了質(zhì)的飛躍。它不僅讓模型能夠在推理過(guò)程中明確指出它關(guān)注的圖像區(qū)域,還能讓這些區(qū)域與推理內(nèi)容緊密相關(guān),從而提高了推理的透明度和可驗(yàn)證性。更重要的是,GRIT只需要極少量的訓(xùn)練數(shù)據(jù)就能使模型習(xí)得這種能力,這對(duì)于資源有限的研究團(tuán)隊(duì)來(lái)說(shuō)是一個(gè)極大的優(yōu)勢(shì)。
雖然目前的研究主要集中在較小的多模態(tài)大語(yǔ)言模型上,驗(yàn)證GRIT方法和效率,而不是探索通過(guò)完整規(guī)模的擴(kuò)展實(shí)現(xiàn)峰值性能,但研究團(tuán)隊(duì)已經(jīng)確定了進(jìn)一步提高GRIT訓(xùn)練模型泛化能力的關(guān)鍵方向是數(shù)據(jù)多樣性和模型預(yù)訓(xùn)練。盡管如此,GRIT在使用最少數(shù)據(jù)灌輸復(fù)雜基于圖像的推理方面的有效性突顯了其巨大潛力。
對(duì)于我們普通人來(lái)說(shuō),這項(xiàng)研究意味著未來(lái)的AI助手將能夠更清晰地解釋它們看到了什么,以及它們是如何基于視覺(jué)信息得出結(jié)論的。這不僅會(huì)增強(qiáng)人機(jī)交互的透明度,還會(huì)讓我們更容易理解和信任AI系統(tǒng)的決策過(guò)程。就像一個(gè)好的導(dǎo)游不僅會(huì)告訴你"這是一座歷史悠久的建筑",還會(huì)指出"看這里的石雕,它展示了當(dāng)時(shí)的工藝水平",未來(lái)的AI也將能夠提供這種清晰、有根據(jù)的解釋。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。