在人工智能快速發(fā)展的今天,視覺語言模型(VLMs)展現(xiàn)出了令人印象深刻的能力,無論是生成圖像描述、回答關(guān)于圖像的復(fù)雜問題,還是根據(jù)文字描述創(chuàng)建圖像。然而,這些模型在需要結(jié)構(gòu)化邏輯推理的視覺任務(wù)上仍顯示出明顯的不足。這一局限性嚴(yán)重制約了它們在圖表理解和多模態(tài)決策等應(yīng)用場景中的效能。為了解決這個(gè)問題,華盛頓大學(xué)和西華盛頓大學(xué)的研究團(tuán)隊(duì)合作開發(fā)了一個(gè)名為"VisualSphinx"的大規(guī)模合成視覺邏輯訓(xùn)練數(shù)據(jù)集,該研究發(fā)表于2025年5月的arXiv預(yù)印本平臺(arXiv:2505.23977v1)。
視覺語言模型的推理能力提升一直是一個(gè)挑戰(zhàn)。雖然強(qiáng)化學(xué)習(xí)(RL)已被證明能有效提升大語言模型的推理能力,但在視覺語言模型領(lǐng)域,由于缺乏大規(guī)模的帶有驗(yàn)證過的標(biāo)準(zhǔn)答案的訓(xùn)練數(shù)據(jù)集,這種方法難以應(yīng)用?,F(xiàn)有的為視覺語言模型設(shè)計(jì)的數(shù)據(jù)集,如Geo3K,通常規(guī)模較小,需要人工整理,且缺乏與標(biāo)準(zhǔn)答案對齊的結(jié)構(gòu)化標(biāo)注。
為了彌補(bǔ)這一空白,VisualSphinx項(xiàng)目創(chuàng)建了一個(gè)包含超過66萬個(gè)自動生成的邏輯視覺謎題的數(shù)據(jù)集。每個(gè)邏輯謎題都基于可解釋的規(guī)則,并配有正確答案和合理的干擾項(xiàng)。這個(gè)數(shù)據(jù)集的生成成本不到1000美元,展示了令人驚嘆的可擴(kuò)展性和成本效益。
VisualSphinx的數(shù)據(jù)生成管道包括四個(gè)關(guān)鍵步驟。首先是種子問題收集與規(guī)則提取,研究團(tuán)隊(duì)從中國公務(wù)員考試中收集了4000個(gè)視覺邏輯問題及其解釋,并使用大語言模型將這些問題轉(zhuǎn)換為結(jié)構(gòu)化的規(guī)則描述。想象一下,這就像是把一本充滿謎題的書轉(zhuǎn)化為一套清晰的游戲規(guī)則手冊。
第二步是通過規(guī)則層面的遺傳算法進(jìn)行規(guī)則擴(kuò)展。這個(gè)過程有點(diǎn)像植物育種——從現(xiàn)有的規(guī)則"種子"出發(fā),通過交叉和變異操作,培育出更多樣化的規(guī)則"植株"。具體來說,每類種子規(guī)則形成一個(gè)子種群,在各自的"島嶼"上通過基因操作獨(dú)立進(jìn)化:變異操作會重寫、添加或刪除單獨(dú)的規(guī)則要點(diǎn),而交叉操作則會交織來自兩個(gè)父規(guī)則的要點(diǎn)。每三代,約10%的規(guī)則會在島嶼間"遷移"以維持多樣性。經(jīng)過十代進(jìn)化,團(tuán)隊(duì)獲得了6萬多個(gè)候選規(guī)則,并通過去重和評分機(jī)制篩選出了4萬多個(gè)高質(zhì)量規(guī)則。
第三步是基于程序的規(guī)則到圖像合成。對于保留下來的4萬多個(gè)規(guī)則,研究人員使用大語言模型生成兩個(gè)Python腳本:一個(gè)渲染符合規(guī)則的五張連續(xù)圖像,另一個(gè)生成三張看似合理但違反規(guī)則的干擾圖像。這就像是讓AI同時(shí)扮演出題者和答題者的角色——既創(chuàng)建符合規(guī)則的示例,又制造看似合理但實(shí)際違規(guī)的陷阱選項(xiàng)。為了增強(qiáng)視覺多樣性,每個(gè)規(guī)則都采用三種不同的渲染風(fēng)格,將數(shù)據(jù)集擴(kuò)展到約12萬個(gè)圖像組。之后,通過感知哈希和結(jié)構(gòu)相似度指數(shù)等技術(shù)進(jìn)行嚴(yán)格的去重和驗(yàn)證,最終獲得了11萬個(gè)高質(zhì)量圖像組。
第四步是謎題組裝。研究團(tuán)隊(duì)采用了三種互補(bǔ)策略來組裝謎題:默認(rèn)組裝方式是用前四張符合規(guī)則的圖像作為問題干,第五張符合規(guī)則的圖像作為正確答案,三張違反規(guī)則的圖像作為干擾選項(xiàng);為了增加多樣性并減輕位置偏差,團(tuán)隊(duì)還引入了答案位置隨機(jī)變化的變體;為了增加難度并促進(jìn)強(qiáng)大的視覺推理能力,研究者還創(chuàng)建了包含10個(gè)選項(xiàng)的擴(kuò)展干擾集變體。最終,這些策略共同構(gòu)成了超過66萬個(gè)視覺邏輯謎題的VisualSphinx數(shù)據(jù)集。
研究人員對VisualSphinx數(shù)據(jù)集進(jìn)行了全面分析,評估了三個(gè)關(guān)鍵屬性:可讀性、邏輯連貫性和通過率??勺x性評估了謎題的視覺清晰度和布局,結(jié)果顯示93.1%的謎題獲得了4分或以上(滿分5分)。邏輯連貫性衡量了謎題與其底層規(guī)則之間的一致性,89.8%的謎題在這一指標(biāo)上獲得了高分。通過率則通過訓(xùn)練一個(gè)基于QWEN2.5-VL-7B的注釋模型進(jìn)行評估,結(jié)果顯示數(shù)據(jù)集中的謎題難度分布均勻,為訓(xùn)練提供了多樣化的挑戰(zhàn)水平。
在實(shí)驗(yàn)驗(yàn)證環(huán)節(jié),研究團(tuán)隊(duì)從VisualSphinx中抽取了1萬個(gè)具有挑戰(zhàn)性但可解的樣本,選擇那些通過率在0.375到0.875之間、可讀性和邏輯連貫性綜合得分達(dá)到8分或以上的謎題。他們使用GRPO方法在QWEN2.5-VL-7B模型上進(jìn)行了256步訓(xùn)練,每批次大小為128,每個(gè)樣本生成8個(gè)響應(yīng)。結(jié)果表明,經(jīng)過VisualSphinx訓(xùn)練的模型在視覺邏輯謎題解決能力上有顯著提升,整體準(zhǔn)確率從29.30%提高到了55.94%,遠(yuǎn)超大多數(shù)封閉源模型,甚至比GPT-4.1表現(xiàn)更好。
更令人驚喜的是,這種能力提升還能遷移到其他推理任務(wù)上。在MathVista-testmini基準(zhǔn)測試中,經(jīng)過VisualSphinx訓(xùn)練的模型平均準(zhǔn)確率從59.4%提高到了64.0%,在代數(shù)推理、算術(shù)推理和幾何推理等多個(gè)子類別上都有明顯進(jìn)步,特別是在邏輯推理(LOG)方面取得了顯著提升。
雖然VisualSphinx展現(xiàn)出了令人印象深刻的成功,但研究團(tuán)隊(duì)也坦誠地指出了一些限制。首先,盡管實(shí)驗(yàn)結(jié)果顯示了明顯的性能提升,但驅(qū)動這些改進(jìn)的底層機(jī)制仍有待探索。其次,VisualSphinx目前僅限于從種子問題提取的預(yù)定義推理類別,如歸納、演繹、空間和結(jié)構(gòu)邏輯,這些類別雖然涵蓋了廣泛的視覺推理任務(wù),但可能無法完全捕捉現(xiàn)實(shí)世界多模態(tài)推理場景的復(fù)雜性。
總的來說,VisualSphinx項(xiàng)目成功創(chuàng)建了一個(gè)首創(chuàng)的大規(guī)模合成視覺邏輯訓(xùn)練數(shù)據(jù)集,為提升視覺語言模型的邏輯推理能力提供了寶貴資源。這一開創(chuàng)性工作不僅彌補(bǔ)了現(xiàn)有訓(xùn)練數(shù)據(jù)集的缺口,還證明了這種方法在提升視覺語言模型多模態(tài)推理能力方面的有效性,為未來研究開辟了新方向。
如果我們把這項(xiàng)研究比作一場智力游戲的革新,VisualSphinx就像是為AI創(chuàng)造的一本包含66萬個(gè)視覺謎題的大型益智書,通過這本書的訓(xùn)練,AI模型不僅學(xué)會了解決書中的謎題,還提高了應(yīng)對其他類型智力挑戰(zhàn)的能力。這種能力的提升和遷移,正如一個(gè)人通過解決一類問題而提高了整體思維能力,能夠更好地面對生活中各種各樣的挑戰(zhàn)。
對于未來的工作,研究團(tuán)隊(duì)提出可以將VisualSphinx擴(kuò)展到更復(fù)雜的推理范式,如時(shí)間性或交互性任務(wù),并深入研究其有效性的理論基礎(chǔ)。這就像是在現(xiàn)有的益智書基礎(chǔ)上,進(jìn)一步編寫涉及動態(tài)變化和互動環(huán)節(jié)的高級版本,同時(shí)更深入地理解為什么這些訓(xùn)練能如此有效地提升AI的思考能力。
有興趣深入了解VisualSphinx項(xiàng)目的讀者可以通過https://visualsphinx.github.io或https://hf.co/VisualSphinx訪問更多信息,該項(xiàng)目采用CC-BY-NC 4.0許可證開放使用。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。