2025年5月,上海交通大學(xué)Ethan Chern、Zhulin Hu、Steffi Chern等研究者與復(fù)旦大學(xué)的Jiadi Su、Yan Ma以及上海交通大學(xué)的Zhijie Deng和Pengfei Liu共同發(fā)表了一篇突破性論文《Thinking with Generated Images》(用生成圖像思考)。這篇發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.22525v1)的研究,為大型多模態(tài)模型(LMMs)帶來(lái)了一種全新的思維方式。研究團(tuán)隊(duì)的開(kāi)源代碼已在GitHub(https://github.com/GAIR-NLP/thinking-with-generated-images)上公開(kāi)供學(xué)術(shù)界和開(kāi)發(fā)者使用。
一、為什么AI需要"用圖像思考"?
想象一下,當(dāng)你嘗試解決一個(gè)復(fù)雜問(wèn)題時(shí),你的思維過(guò)程是怎樣的?是不是經(jīng)常會(huì)在腦海中勾勒出圖像,甚至畫(huà)草圖來(lái)幫助自己理解?人類(lèi)的認(rèn)知過(guò)程本質(zhì)上是多模態(tài)的。生物化學(xué)家通過(guò)探索蛋白質(zhì)結(jié)構(gòu)來(lái)發(fā)現(xiàn)新的治療方法;法醫(yī)分析師通過(guò)驗(yàn)證犯罪現(xiàn)場(chǎng)重建來(lái)建立證據(jù)聯(lián)系;建筑師通過(guò)修改空間和光線(xiàn)模式來(lái)優(yōu)化建筑設(shè)計(jì)。視覺(jué)思考能夠創(chuàng)造獨(dú)特的組合和概念間的新聯(lián)系,幫助我們發(fā)現(xiàn)純文本推理無(wú)法發(fā)現(xiàn)的可能性。
然而,當(dāng)前的AI系統(tǒng)存在明顯局限。即使是最先進(jìn)的大型多模態(tài)模型(LMMs)也只能"看到"圖像——它們?cè)谇跋騻鬟f過(guò)程中只處理一次圖像,而不能更深入地"用圖像思考"。想象一下,如果你只能看一眼圖紙就必須設(shè)計(jì)出整個(gè)建筑,或者只能瞥一眼案發(fā)現(xiàn)場(chǎng)就要還原完整犯罪過(guò)程,這顯然是不合理的。
正如孫子兵法所言:"詳細(xì)的思考導(dǎo)向勝利;不充分的思考導(dǎo)向失敗。"這一古老智慧同樣適用于A(yíng)I系統(tǒng)。雖然大型語(yǔ)言模型(LLMs)在被提示寫(xiě)思維鏈(Chain-of-Thought,CoT)時(shí)可以遍歷中間狀態(tài),隨著推理計(jì)算增加而提高性能(即測(cè)試時(shí)擴(kuò)展),但這種純文本的思維鏈過(guò)程只能捕捉認(rèn)知搜索的一部分視角。
為解決這一問(wèn)題,研究團(tuán)隊(duì)提出了"用生成圖像思考"(Thinking with Generated Images)的創(chuàng)新范式。與以往僅依賴(lài)用戶(hù)提供的圖像或?qū)@些圖像進(jìn)行簡(jiǎn)單操作的方法不同,這種新范式使AI模型能夠主動(dòng)生成自己的視覺(jué)步驟或子目標(biāo)來(lái)解決問(wèn)題。這就像給AI提供了"視覺(jué)想象力",使其能夠通過(guò)生成中間視覺(jué)思維步驟,在文本和視覺(jué)模態(tài)之間自然思考。
二、"用生成圖像思考"如何工作?
研究團(tuán)隊(duì)通過(guò)引入"原生長(zhǎng)多模態(tài)思維過(guò)程"(native long-multimodal thought process)實(shí)現(xiàn)了"用生成圖像思考"。這一過(guò)程使統(tǒng)一的大型多模態(tài)模型能夠無(wú)縫生成中間視覺(jué)思維,建立視覺(jué)子目標(biāo),并在單一連貫的推理過(guò)程中迭代地批評(píng)自己的視覺(jué)假設(shè)。
簡(jiǎn)單來(lái)說(shuō),這就像給AI模型配備了一個(gè)內(nèi)部"畫(huà)板",讓它能夠隨時(shí)繪制草圖來(lái)幫助自己思考,然后對(duì)這些草圖進(jìn)行評(píng)價(jià)和改進(jìn),直到找到滿(mǎn)意的解決方案。這種方法自然地在模態(tài)間執(zhí)行測(cè)試時(shí)擴(kuò)展,使模型的思維能力隨著推理深度的增加而提升。
研究團(tuán)隊(duì)展示了兩種互補(bǔ)機(jī)制來(lái)實(shí)現(xiàn)這一目標(biāo):
首先是"帶中間視覺(jué)子目標(biāo)的視覺(jué)生成"。想象一個(gè)廚師在準(zhǔn)備復(fù)雜菜肴時(shí),會(huì)先分別準(zhǔn)備各種配料,然后將它們組合在一起。同樣,AI模型會(huì)將復(fù)雜的視覺(jué)任務(wù)分解為可管理的組件,生成這些組件,然后逐步整合它們。例如,當(dāng)被要求生成一張"沙發(fā)和酒杯的照片"時(shí),模型會(huì)先單獨(dú)生成沙發(fā),再生成酒杯,最后將兩者合理地組合在一張圖像中。
其次是"帶自我批評(píng)的視覺(jué)生成"。這就像一位藝術(shù)家先勾勒出草圖,然后批評(píng)性地分析其不足之處,最后基于這些反思創(chuàng)作出精細(xì)的作品。AI模型會(huì)生成初始視覺(jué)假設(shè),通過(guò)文本推理分析其缺點(diǎn),然后基于自己的批評(píng)生成改進(jìn)的輸出。例如,當(dāng)模型生成了一個(gè)海灘場(chǎng)景后,它會(huì)分析圖像中的問(wèn)題(如"缺乏色彩鮮艷的沙灘傘"),然后生成一個(gè)修正這些問(wèn)題的新版本。
這兩種機(jī)制不僅提高了模型處理復(fù)雜視覺(jué)任務(wù)的能力,還開(kāi)啟了AI系統(tǒng)與人類(lèi)創(chuàng)造性思維過(guò)程更為接近的可能性。
三、技術(shù)實(shí)現(xiàn):如何讓AI學(xué)會(huì)用圖像思考?
實(shí)現(xiàn)"用生成圖像思考"的關(guān)鍵挑戰(zhàn)在于,如何構(gòu)建一個(gè)能夠自然地在多種模態(tài)間思考的統(tǒng)一模型系統(tǒng)。研究團(tuán)隊(duì)選擇了基于自回歸式下一個(gè)token預(yù)測(cè)的大型語(yǔ)言模型(LLMs)作為基礎(chǔ)架構(gòu)。
他們使用了Anole(Chern等人,2024)作為基礎(chǔ)模型,這是一種統(tǒng)一的自回歸下一個(gè)token預(yù)測(cè)大型多模態(tài)模型,能夠直接預(yù)測(cè)下一個(gè)多模態(tài)(文本或圖像)token。Anole模型相比其他LMMs具有幾個(gè)關(guān)鍵優(yōu)勢(shì):首先,它在交錯(cuò)的文本-圖像token上進(jìn)行預(yù)訓(xùn)練和后訓(xùn)練,使其具備生成交錯(cuò)多模態(tài)token的內(nèi)在能力;其次,Anole的圖像表示相對(duì)高效,每個(gè)圖像僅用1024個(gè)token編碼,使原生長(zhǎng)多模態(tài)思維過(guò)程在合理的推理計(jì)算預(yù)算內(nèi)變得可行;最后,Anole的建模策略與最先進(jìn)的LLMs非常相似,能夠利用現(xiàn)有的LLMs訓(xùn)練和推理基礎(chǔ)設(shè)施。
研究團(tuán)隊(duì)精心策劃了監(jiān)督微調(diào)(SFT)數(shù)據(jù)集,包含多樣化的視覺(jué)(圖像)生成提示,以確保高質(zhì)量的對(duì)齊。為了使LMMs能夠執(zhí)行原生長(zhǎng)多模態(tài)思維過(guò)程,他們精心設(shè)計(jì)和構(gòu)建了解決方案多模態(tài)推理鏈,以引導(dǎo)LMMs的能力自發(fā)地(1)批評(píng)自己生成的視覺(jué)步驟和(2)生成中間視覺(jué)子目標(biāo)。
在訓(xùn)練方面,研究團(tuán)隊(duì)設(shè)計(jì)了結(jié)合交叉熵?fù)p失和重建損失的損失函數(shù),以提高生成圖像的視覺(jué)質(zhì)量。訓(xùn)練分為兩個(gè)階段:首先在JourneyDB數(shù)據(jù)集上對(duì)Anole-7b進(jìn)行持續(xù)訓(xùn)練,增強(qiáng)模型的基本視覺(jué)生成能力;然后使用構(gòu)建的合成數(shù)據(jù)集進(jìn)行微調(diào),產(chǎn)生了兩個(gè)模型:TwGI-Anole-7b-Obj.(使用中間視覺(jué)子目標(biāo)數(shù)據(jù)集)和TwGI-Anole-7b-Crit.(使用自我批評(píng)視覺(jué)假設(shè)數(shù)據(jù)集)。
四、實(shí)驗(yàn)結(jié)果:AI的視覺(jué)思維能力有多強(qiáng)?
研究團(tuán)隊(duì)在GenEval和DPGBench這兩個(gè)標(biāo)準(zhǔn)圖像生成基準(zhǔn)上評(píng)估了他們的方法。結(jié)果令人印象深刻——"用生成圖像思考"的方法在處理復(fù)雜多物體場(chǎng)景時(shí)取得了顯著改進(jìn),相對(duì)基線(xiàn)方法提高了高達(dá)50%(從38%到57%)的性能。
具體來(lái)看,在GenEval基準(zhǔn)測(cè)試中,TwGI-Anole-7b-Obj.模型在"兩個(gè)物體"類(lèi)別中顯著優(yōu)于基線(xiàn)Anole-7b模型(0.57對(duì)比0.38),表明其處理涉及多個(gè)實(shí)體的復(fù)雜提示的能力有所提高。它在位置和顏色屬性對(duì)齊方面也顯示出顯著改進(jìn),表明其進(jìn)行精確空間和視覺(jué)組合推理的能力更強(qiáng)。
同樣,在DPGBench上,TwGI-Anole-7b-Obj.在"實(shí)體"、"屬性"和"關(guān)系"類(lèi)別中取得了實(shí)質(zhì)性的改進(jìn),反映了其對(duì)細(xì)粒度視覺(jué)語(yǔ)義的增強(qiáng)理解。這些改進(jìn)驗(yàn)證了研究團(tuán)隊(duì)的假設(shè):將視覺(jué)任務(wù)分解為中間子目標(biāo)使LMMs能夠更系統(tǒng)地推理并生成更高質(zhì)量的輸出。
更令人驚訝的是,通過(guò)"帶自我批評(píng)的視覺(jué)生成",模型能夠糾正和改進(jìn)自己的視覺(jué)假設(shè)。例如,TwGI-Anole-7b-Crit.模型在自我批評(píng)步驟后實(shí)現(xiàn)了顯著的性能提升,將整體GenEval分?jǐn)?shù)從0.45提高到0.48,DPGBench分?jǐn)?shù)從62.83提高到67.14。這表明,通過(guò)文本推理鏈基于視覺(jué)反饋內(nèi)省地分析生成的圖像的能力,使模型能夠識(shí)別不匹配、幻覺(jué)或缺失元素,并隨后糾正它們。
這種視覺(jué)反饋循環(huán)反映了一種模態(tài)間協(xié)同作用,其中視覺(jué)和文本模態(tài)相互迭代引導(dǎo),就像人類(lèi)在解決復(fù)雜問(wèn)題時(shí)的思維過(guò)程一樣。
五、未來(lái)展望與局限性
雖然"用生成圖像思考"展示了令人興奮的潛力,但研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前方法的局限性。首先,當(dāng)前實(shí)現(xiàn)是基于A(yíng)nole-7b模型的,而統(tǒng)一LMMs領(lǐng)域(特別是在開(kāi)源領(lǐng)域)仍處于發(fā)展階段。隨著更強(qiáng)大的統(tǒng)一LMMs的出現(xiàn),研究團(tuán)隊(duì)預(yù)計(jì)"用生成圖像思考"范式將釋放更強(qiáng)大甚至是涌現(xiàn)的能力。
其次,雖然本研究專(zhuān)注于自回歸下一個(gè)token預(yù)測(cè)的LMMs,但核心理念可能適用于基于擴(kuò)散的LMMs或混合自回歸/擴(kuò)散的LMMs。這些架構(gòu)上的探索留待未來(lái)研究。
研究團(tuán)隊(duì)還提出了幾個(gè)有前景的未來(lái)研究方向:
1. 更好的基準(zhǔn)測(cè)試:"用生成圖像思考"。當(dāng)前的視覺(jué)生成基準(zhǔn)測(cè)試專(zhuān)注于標(biāo)準(zhǔn)圖像生成任務(wù),但隨著LMMs固有能力的增強(qiáng)和涌現(xiàn)能力的出現(xiàn),像圖1和圖2中所示的真實(shí)世界任務(wù)將變得越來(lái)越可行。需要更現(xiàn)實(shí)的基準(zhǔn)來(lái)評(píng)估這些模型。
2. 統(tǒng)一LMMs的測(cè)試時(shí)和后訓(xùn)練擴(kuò)展:本研究代表了統(tǒng)一LMMs測(cè)試時(shí)擴(kuò)展的第一步。隨著更強(qiáng)大的統(tǒng)一LMMs的出現(xiàn),測(cè)試時(shí)擴(kuò)展和后訓(xùn)練擴(kuò)展將變得更加可行、有效,值得進(jìn)一步探索。
3. LMMs的高效視覺(jué)表示:高效的視覺(jué)表示對(duì)于在視覺(jué)模態(tài)中實(shí)現(xiàn)可擴(kuò)展的測(cè)試時(shí)和后訓(xùn)練擴(kuò)展至關(guān)重要。最近的研究表明,圖像可以用少至32甚至16個(gè)token/patch有效表示,這一研究方向在未來(lái)有巨大潛力。
六、"用生成圖像思考"的現(xiàn)實(shí)應(yīng)用前景
"用生成圖像思考"范式為AI系統(tǒng)在各種真實(shí)世界應(yīng)用中開(kāi)啟了變革性的可能性。從生物化學(xué)家探索新型蛋白質(zhì)結(jié)構(gòu),建筑師迭代空間設(shè)計(jì),到法醫(yī)分析師重建犯罪現(xiàn)場(chǎng),以及籃球運(yùn)動(dòng)員設(shè)想戰(zhàn)術(shù)打法,這種方法使AI模型能夠參與一種視覺(jué)想象和迭代改進(jìn)的過(guò)程,這種過(guò)程體現(xiàn)了人類(lèi)創(chuàng)造性、分析性和戰(zhàn)略性思維的特點(diǎn)。
例如,在醫(yī)學(xué)研究領(lǐng)域,科學(xué)家可以利用這種能力來(lái)探索新的分子結(jié)構(gòu),通過(guò)讓AI不斷生成和改進(jìn)可能的分子構(gòu)型,幫助發(fā)現(xiàn)新的藥物治療方法。在建筑設(shè)計(jì)中,專(zhuān)業(yè)人士可以與AI協(xié)作,通過(guò)視覺(jué)迭代優(yōu)化建筑空間的光線(xiàn)、功能和美學(xué)特性。在刑事偵查中,這種技術(shù)可以幫助重建事件序列,基于有限的證據(jù)生成可能的場(chǎng)景,并通過(guò)批判性思考識(shí)別最合理的解釋。
最令人興奮的是,隨著統(tǒng)一LMMs能力的不斷增強(qiáng),我們可以預(yù)見(jiàn)未來(lái)的AI模型將能夠像人類(lèi)一樣自然地探索蛋白質(zhì)結(jié)構(gòu)或修改建筑設(shè)計(jì)——就像寫(xiě)一首詩(shī)那樣直觀(guān)和流暢。這種能力將徹底改變專(zhuān)業(yè)人士與AI系統(tǒng)的交互方式,使創(chuàng)造性和分析性任務(wù)變得更加高效和創(chuàng)新。
七、結(jié)語(yǔ):多模態(tài)思維的新時(shí)代
"用生成圖像思考"的研究為我們展示了AI系統(tǒng)如何逐漸接近人類(lèi)的多模態(tài)認(rèn)知能力。通過(guò)使AI能夠在文本和視覺(jué)之間自然地思考,這項(xiàng)工作不僅提高了模型處理復(fù)雜視覺(jué)生成任務(wù)的能力,還為未來(lái)AI系統(tǒng)如何解決需要視覺(jué)推理和創(chuàng)造力的問(wèn)題提供了一個(gè)框架。
正如人類(lèi)在面對(duì)復(fù)雜問(wèn)題時(shí)自然地利用多種思維模式一樣,這項(xiàng)研究表明,AI系統(tǒng)也能受益于整合多種模態(tài)的思維能力。雖然當(dāng)前的實(shí)現(xiàn)主要專(zhuān)注于文本和視覺(jué)模態(tài),但核心理念可以擴(kuò)展到更多樣化的模態(tài),如音頻、觸覺(jué)或三維空間表示。
隨著統(tǒng)一LMMs技術(shù)的不斷發(fā)展和成熟,我們可以期待未來(lái)的AI系統(tǒng)將能夠更加流暢地在多種模態(tài)間思考,從而解決當(dāng)前AI仍然難以應(yīng)對(duì)的復(fù)雜任務(wù),如直觀(guān)物理理解、長(zhǎng)期規(guī)劃和創(chuàng)造性設(shè)計(jì)。這項(xiàng)研究不僅為多模態(tài)認(rèn)知和復(fù)雜視覺(jué)推理任務(wù)的未來(lái)研究奠定了基礎(chǔ),也為人工智能與人類(lèi)思維方式更加接近的未來(lái)描繪了令人興奮的藍(lán)圖。
如果你對(duì)這項(xiàng)研究感興趣,可以通過(guò)GitHub(https://github.com/GAIR-NLP/thinking-with-generated-images)訪(fǎng)問(wèn)研究團(tuán)隊(duì)的開(kāi)源代碼,或查閱原始論文以了解更多技術(shù)細(xì)節(jié)。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。