在人工智能領(lǐng)域,特別是視覺感知技術(shù)方面,來(lái)自中國(guó)香港中文大學(xué)、智譜科技和香港科技大學(xué)的研究團(tuán)隊(duì)于2025年5月發(fā)布了一項(xiàng)突破性研究成果。由劉宇奇、曲天源、鐘志勝、彭博浩、劉樹、余北和賈佳亞共同完成的論文《VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning》(VisionReasoner:基于強(qiáng)化學(xué)習(xí)的統(tǒng)一視覺感知與推理)在arXiv(arXiv:2505.12081v1)上發(fā)表,向大家展示了一種能夠統(tǒng)一處理多種視覺任務(wù)的全新框架。有興趣深入了解的讀者可以通過(guò)GitHub(https://github.com/dvlab-research/VisionReasoner)查看更多詳情。
一、研究背景:為何需要統(tǒng)一的視覺感知系統(tǒng)?
想象一下,我們平時(shí)使用的導(dǎo)航軟件、安防監(jiān)控、醫(yī)療診斷系統(tǒng)等,它們都需要"看懂"圖像中的內(nèi)容。但傳統(tǒng)做法像是請(qǐng)了一群專家,每人只負(fù)責(zé)一項(xiàng)任務(wù):一個(gè)人專門識(shí)別物體位置,另一個(gè)人專門分割物體輪廓,還有一個(gè)人專門數(shù)數(shù)圖中有多少個(gè)特定物體。這種做法就好比醫(yī)院里每個(gè)檢查項(xiàng)目都需要不同的醫(yī)生,既費(fèi)資源又不高效。
近年來(lái),大型視覺-語(yǔ)言模型(LVLMs)如LLaVA、Qwen-VL、Gemini等在視覺對(duì)話方面取得了顯著進(jìn)步,展現(xiàn)出處理多樣化視覺任務(wù)的潛力。然而,這些模型在處理特定視覺任務(wù)時(shí),通常需要針對(duì)每種任務(wù)單獨(dú)設(shè)計(jì)模塊或技術(shù),就像為每種病癥配備專門的儀器和醫(yī)生。
研究團(tuán)隊(duì)觀察到,許多看似不同的視覺任務(wù)實(shí)際上可以歸納為三種基礎(chǔ)類型:檢測(cè)(定位物體)、分割(精確描繪物體邊界)和計(jì)數(shù)(統(tǒng)計(jì)物體數(shù)量)。這三種任務(wù)類型實(shí)際上都可以理解為"多物體認(rèn)知問(wèn)題",它們共享相似的認(rèn)知結(jié)構(gòu),這為創(chuàng)建一個(gè)統(tǒng)一的處理框架提供了可能性。
二、VisionReasoner:一個(gè)能同時(shí)勝任多種視覺任務(wù)的"全科醫(yī)生"
研究團(tuán)隊(duì)提出的VisionReasoner就像一位全科醫(yī)生,能夠通過(guò)統(tǒng)一的方法同時(shí)處理多種視覺任務(wù),而無(wú)需為每種任務(wù)設(shè)計(jì)專門的解決方案。
VisionReasoner的核心創(chuàng)新在于將視覺感知與推理能力結(jié)合起來(lái)。想象一下,當(dāng)你問(wèn)一個(gè)人"圖像中有幾輛紅色汽車?"時(shí),這個(gè)人不會(huì)直接給出一個(gè)數(shù)字,而是會(huì)先思考:"我需要找出所有汽車,然后判斷哪些是紅色的,最后數(shù)一數(shù)有多少輛。"VisionReasoner正是模擬了這種人類思考過(guò)程。
具體來(lái)說(shuō),VisionReasoner包含兩個(gè)主要模塊: 1. 推理模塊(Reasoning Module):接收?qǐng)D像和文本查詢,通過(guò)結(jié)構(gòu)化思考過(guò)程分析圖像內(nèi)容并定位目標(biāo)物體。 2. 分割模塊(Segmentation Module):當(dāng)需要時(shí),使用推理模塊提供的位置信息生成精確的物體分割掩碼。
這種設(shè)計(jì)使VisionReasoner能夠處理多種視覺任務(wù)。比如對(duì)于"這幅圖中有幾架飛機(jī)?"的問(wèn)題,模型會(huì)先思考如何識(shí)別飛機(jī),然后定位所有飛機(jī),最后給出數(shù)量。而對(duì)于"請(qǐng)分割能給人遮陽(yáng)的物體"的任務(wù),模型會(huì)先思考哪些物體能遮陽(yáng)(如帳篷、遮陽(yáng)傘等),然后定位并分割這些物體。
三、強(qiáng)化學(xué)習(xí):教會(huì)AI像人類一樣思考
VisionReasoner的另一個(gè)關(guān)鍵創(chuàng)新在于采用強(qiáng)化學(xué)習(xí)(Reinforcement Learning)來(lái)訓(xùn)練模型。這就像教孩子做事一樣,不僅告訴他"做得對(duì)"或"做得不對(duì)",還告訴他"為什么對(duì)"或"為什么不對(duì)",從而幫助他建立更深入的理解。
研究團(tuán)隊(duì)設(shè)計(jì)了一套精細(xì)的獎(jiǎng)勵(lì)機(jī)制,包括兩大類: 1. 格式獎(jiǎng)勵(lì)(Format Rewards): - 思考獎(jiǎng)勵(lì)(Thinking Reward):鼓勵(lì)模型生成結(jié)構(gòu)化的推理過(guò)程,就像要求學(xué)生展示解題步驟而不僅僅是最終答案。 - 非重復(fù)獎(jiǎng)勵(lì)(Non-repeat Reward):防止推理過(guò)程中出現(xiàn)重復(fù)或冗余的思考模式,保持思維的高效性。
2. 準(zhǔn)確性獎(jiǎng)勵(lì)(Accuracy Rewards): - 多物體IoU獎(jiǎng)勵(lì)(Bboxes IoU Reward):評(píng)估模型預(yù)測(cè)的物體邊界框與真實(shí)邊界框的重疊程度。 - L1距離獎(jiǎng)勵(lì)(Bboxes L1 Reward和Points L1 Reward):評(píng)估模型預(yù)測(cè)的物體位置與真實(shí)位置之間的距離。
比如,當(dāng)模型正確定位了一輛汽車,且定位結(jié)果與真實(shí)位置非常接近時(shí),它會(huì)得到高分;如果定位不準(zhǔn)確或沒有找到所有應(yīng)該找到的物體,則得分較低。這種方式讓模型不斷調(diào)整和優(yōu)化自己的推理過(guò)程,最終學(xué)會(huì)更準(zhǔn)確地分析和理解圖像。
四、多物體認(rèn)知:處理復(fù)雜場(chǎng)景的能力
在現(xiàn)實(shí)世界的圖像中,我們常常需要同時(shí)關(guān)注多個(gè)物體。例如,當(dāng)被問(wèn)到"圖中有幾個(gè)人在使用手機(jī)?"時(shí),我們需要同時(shí)識(shí)別出所有人和所有手機(jī),然后判斷哪些人正在使用手機(jī),最后進(jìn)行計(jì)數(shù)。這就是"多物體認(rèn)知"問(wèn)題。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開發(fā)了兩個(gè)創(chuàng)新方法: 1. 多物體數(shù)據(jù)準(zhǔn)備:從現(xiàn)有數(shù)據(jù)集中提取物體的邊界框和中心點(diǎn),并將多個(gè)物體的信息組合在一起,以訓(xùn)練模型處理包含多個(gè)物體的場(chǎng)景。 2. 多物體匹配:使用匈牙利算法(Hungarian algorithm)和批量計(jì)算(batch computation)來(lái)高效地解決"多對(duì)多匹配問(wèn)題",即如何將模型預(yù)測(cè)的多個(gè)物體與真實(shí)標(biāo)注的多個(gè)物體進(jìn)行最佳匹配。
這種方法就像教會(huì)電腦玩"連連看"游戲——需要找出哪些預(yù)測(cè)結(jié)果與哪些真實(shí)物體最匹配。通過(guò)這種高效的匹配機(jī)制,VisionReasoner能夠同時(shí)處理場(chǎng)景中的多個(gè)物體,大大提升了在復(fù)雜場(chǎng)景中的性能。研究表明,這種優(yōu)化后的匹配算法比傳統(tǒng)方法快了驚人的6×10^35倍!
五、實(shí)驗(yàn)結(jié)果:一個(gè)模型勝過(guò)多個(gè)專家
為了全面評(píng)估VisionReasoner的性能,研究團(tuán)隊(duì)在三大類視覺任務(wù)的10個(gè)不同數(shù)據(jù)集上進(jìn)行了測(cè)試,包括: - 檢測(cè)任務(wù):COCO、RefCOCO、RefCOCO+、RefCOCOg - 分割任務(wù):RefCOCO、RefCOCO+、RefCOCOg、ReasonSeg - 計(jì)數(shù)任務(wù):Pixmo-Count、CountBench
實(shí)驗(yàn)結(jié)果令人印象深刻。VisionReasoner-7B模型(基于7B參數(shù)的大模型)盡管只使用了7,000個(gè)訓(xùn)練樣本,卻在所有任務(wù)上都展現(xiàn)出了強(qiáng)大的性能。與最先進(jìn)的Qwen2.5VL相比,VisionReasoner在各項(xiàng)任務(wù)上均取得了顯著提升: - 在COCO檢測(cè)任務(wù)上相對(duì)提升了29.1% - 在ReasonSeg分割任務(wù)上相對(duì)提升了22.1% - 在CountBench計(jì)數(shù)任務(wù)上相對(duì)提升了15.3%
更令人驚訝的是,VisionReasoner不僅在視覺任務(wù)上表現(xiàn)優(yōu)異,在視覺問(wèn)答(VQA)任務(wù)上也保持了與最先進(jìn)模型相當(dāng)?shù)乃?,這證明了它的多功能性和通用性。
六、VisionReasoner的"思考"過(guò)程
VisionReasoner最吸引人的特點(diǎn)之一是它能夠生成人類可理解的推理過(guò)程。當(dāng)被問(wèn)到"圖中哪個(gè)建筑是最值得拍照的地標(biāo)?"時(shí),模型會(huì)首先思考:
"在圖像中,自由女神像是左側(cè)的一個(gè)顯著特征,它是自由和自由的著名象征...被認(rèn)為是自由女神像。自由女神像也是一個(gè)常見的旅游景點(diǎn),經(jīng)常出現(xiàn)在紐約市的照片中。"
這種清晰的推理過(guò)程不僅提高了模型的準(zhǔn)確性,還增強(qiáng)了結(jié)果的可解釋性,讓用戶更容易理解和信任模型的決策。
有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)模型的推理長(zhǎng)度會(huì)根據(jù)任務(wù)的復(fù)雜性動(dòng)態(tài)調(diào)整。對(duì)于簡(jiǎn)單的類別名稱(如COCO數(shù)據(jù)集中的"汽車"、"人"等),推理過(guò)程相對(duì)簡(jiǎn)短,平均只有62個(gè)單詞。而對(duì)于需要復(fù)雜推理的任務(wù)(如ReasonSeg數(shù)據(jù)集中的"可以遮陽(yáng)的物體"),推理過(guò)程會(huì)更加詳細(xì),平均達(dá)到71個(gè)單詞。這種適應(yīng)性的推理能力進(jìn)一步證明了VisionReasoner的智能水平。
七、研究?jī)r(jià)值與未來(lái)展望
VisionReasoner的研究意義遠(yuǎn)不止于技術(shù)創(chuàng)新,它為未來(lái)AI系統(tǒng)的發(fā)展提供了新的思路:
1. 統(tǒng)一框架的效率:一個(gè)模型可以同時(shí)處理多種視覺任務(wù),大大降低了系統(tǒng)復(fù)雜性和資源消耗。這就像一個(gè)全科醫(yī)生可以處理多種常見病癥,而不需要患者去找多個(gè)??漆t(yī)生。
2. 推理能力的重要性:通過(guò)結(jié)構(gòu)化的推理過(guò)程,AI系統(tǒng)能夠更好地理解和分析復(fù)雜場(chǎng)景,提高結(jié)果的準(zhǔn)確性和可靠性。這種能力對(duì)于安全關(guān)鍵應(yīng)用(如自動(dòng)駕駛、醫(yī)療診斷)尤為重要。
3. 強(qiáng)化學(xué)習(xí)的潛力:研究表明,強(qiáng)化學(xué)習(xí)在提升AI系統(tǒng)的推理能力方面具有巨大潛力。這種方法不僅適用于視覺任務(wù),也可能應(yīng)用于其他AI領(lǐng)域。
未來(lái),研究團(tuán)隊(duì)計(jì)劃進(jìn)一步擴(kuò)展VisionReasoner的能力,包括處理更多類型的視覺任務(wù)、增強(qiáng)對(duì)復(fù)雜自然語(yǔ)言指令的理解能力,以及提高在實(shí)際應(yīng)用場(chǎng)景中的魯棒性。
值得一提的是,這項(xiàng)研究還為我們提供了一個(gè)重要啟示:AI系統(tǒng)的設(shè)計(jì)應(yīng)當(dāng)更加接近人類的認(rèn)知過(guò)程。通過(guò)模擬人類的思考方式(先分析問(wèn)題,然后制定解決方案),AI系統(tǒng)可以變得更加智能和可靠。
八、總結(jié)與思考
歸根結(jié)底,VisionReasoner代表了視覺AI領(lǐng)域的一個(gè)重要里程碑。它不再是一個(gè)只會(huì)機(jī)械執(zhí)行特定任務(wù)的系統(tǒng),而是一個(gè)能夠思考、推理并解決多種視覺問(wèn)題的綜合平臺(tái)。
這項(xiàng)研究告訴我們,未來(lái)的AI系統(tǒng)將越來(lái)越像人類一樣思考和學(xué)習(xí),而不僅僅是執(zhí)行預(yù)定義的任務(wù)。通過(guò)結(jié)合推理能力和多任務(wù)學(xué)習(xí),AI系統(tǒng)可以變得更加通用、高效和可靠。
對(duì)于普通人來(lái)說(shuō),這意味著未來(lái)的智能設(shè)備(如智能手機(jī)、家用機(jī)器人、自動(dòng)駕駛汽車)將能夠更好地理解我們的視覺世界,并根據(jù)我們的需求執(zhí)行各種任務(wù),無(wú)論是識(shí)別物體、分析場(chǎng)景還是計(jì)數(shù)特定項(xiàng)目。
如果你對(duì)這項(xiàng)研究感興趣,可以通過(guò)前文提到的GitHub鏈接了解更多詳情,或者直接查閱發(fā)表在arXiv上的原始論文。隨著AI技術(shù)的不斷發(fā)展,像VisionReasoner這樣的統(tǒng)一視覺系統(tǒng)將在我們的日常生活中扮演越來(lái)越重要的角色。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。