隨著大型語(yǔ)言模型(LLMs)的快速發(fā)展,對(duì)這些模型進(jìn)行后期訓(xùn)練已成為提升其性能的關(guān)鍵步驟。2025年6月,來(lái)自比利時(shí)魯汶大學(xué)(KU Leuven)、中國(guó)科學(xué)技術(shù)大學(xué)、上海Memory Tensor公司以及北京三星研發(fā)中心的聯(lián)合研究團(tuán)隊(duì)發(fā)布了一項(xiàng)重要研究——《Jigsaw-R1: 基于拼圖的視覺(jué)強(qiáng)化學(xué)習(xí)研究》。這篇發(fā)表在arXiv預(yù)印本平臺(tái)的論文(arXiv:2505.23590v2)探討了如何將規(guī)則型強(qiáng)化學(xué)習(xí)(Rule-based Reinforcement Learning,簡(jiǎn)稱RL)應(yīng)用到多模態(tài)大型語(yǔ)言模型(MLLMs)中,特別是在視覺(jué)任務(wù)領(lǐng)域。
想象一下,當(dāng)你面對(duì)一幅被打亂的拼圖時(shí),你會(huì)如何重組它?你可能會(huì)觀察每塊拼圖的圖案和邊緣,然后逐步嘗試把它們拼在一起,形成一幅完整的圖像。這個(gè)看似簡(jiǎn)單的任務(wù)實(shí)際上涉及復(fù)雜的視覺(jué)理解和空間推理能力。研究團(tuán)隊(duì)正是利用這個(gè)我們從小就熟悉的游戲,來(lái)研究和提升人工智能模型的視覺(jué)理解能力。
為什么要選擇拼圖作為研究對(duì)象呢?傳統(tǒng)的規(guī)則型強(qiáng)化學(xué)習(xí)在純文本環(huán)境中已經(jīng)取得了顯著成功,特別是DeepSeek-R1模型展示了強(qiáng)大的推理能力和泛化能力。然而,當(dāng)我們將這種方法應(yīng)用到多模態(tài)環(huán)境(即同時(shí)處理文本和圖像)時(shí),情況變得更加復(fù)雜。研究團(tuán)隊(duì)認(rèn)為,拼圖游戲是一個(gè)理想的測(cè)試平臺(tái),原因有三:首先,拼圖有明確的正確答案,無(wú)需人工標(biāo)注;其次,通過(guò)調(diào)整拼圖塊的數(shù)量,可以輕松控制任務(wù)難度;最后,解決拼圖需要模型具備逐步推理和視覺(jué)感知能力,與人類解決問(wèn)題的方式相似。
通過(guò)這項(xiàng)研究,團(tuán)隊(duì)希望回答幾個(gè)關(guān)鍵問(wèn)題:當(dāng)前的多模態(tài)大型語(yǔ)言模型在解決拼圖任務(wù)時(shí)表現(xiàn)如何?這些模型能否通過(guò)解決拼圖任務(wù)學(xué)習(xí)到可泛化到其他視覺(jué)任務(wù)的能力?明確的思考過(guò)程對(duì)于視覺(jué)任務(wù)是否必要?復(fù)雜推理模式是突然出現(xiàn)還是本就存在于模型中?強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)在泛化能力上有何區(qū)別?
接下來(lái),讓我們一起深入了解這項(xiàng)研究的詳細(xì)內(nèi)容,看看研究團(tuán)隊(duì)如何通過(guò)拼圖游戲這個(gè)簡(jiǎn)單而又深?yuàn)W的任務(wù),揭示多模態(tài)大型語(yǔ)言模型的學(xué)習(xí)與推理能力。
一、研究背景:拼圖游戲與強(qiáng)化學(xué)習(xí)的奇妙結(jié)合
拼圖游戲與學(xué)習(xí)的聯(lián)系由來(lái)已久。早在1760年,英國(guó)地圖制作者約翰·斯皮爾斯伯里(John Spilsbury)創(chuàng)造了第一個(gè)"解剖地圖"——一種早期的拼圖,專門用于教授地理知識(shí)。這個(gè)傳統(tǒng)游戲不僅僅是娛樂(lè),還是一種有效的學(xué)習(xí)工具。在現(xiàn)代計(jì)算機(jī)視覺(jué)領(lǐng)域,拼圖游戲被重新定義為"預(yù)訓(xùn)練任務(wù)"——一種幫助神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)豐富特征表示的方法。
想象一下,如果你想教一個(gè)孩子識(shí)別復(fù)雜的圖案,你可能會(huì)先讓他們玩拼圖游戲,通過(guò)重組零散的片段來(lái)理解整體圖像。類似地,研究人員讓神經(jīng)網(wǎng)絡(luò)"玩拼圖"——學(xué)習(xí)如何從打亂的圖像碎片重建原始圖像,這有助于網(wǎng)絡(luò)在沒(méi)有明確標(biāo)簽的情況下學(xué)習(xí)理解圖像結(jié)構(gòu)。
與此同時(shí),強(qiáng)化學(xué)習(xí)領(lǐng)域也取得了重要進(jìn)展。DeepSeek-R1模型采用了一種簡(jiǎn)單而有效的規(guī)則型強(qiáng)化學(xué)習(xí)方法,避免了"獎(jiǎng)勵(lì)黑客"問(wèn)題(即模型找到取巧方式獲得高獎(jiǎng)勵(lì)但不真正解決問(wèn)題),并且無(wú)需傳統(tǒng)的支架技術(shù)(如過(guò)程獎(jiǎng)勵(lì)模型或蒙特卡洛樹搜索)。這種方法在數(shù)學(xué)、編程、常識(shí)推理和邏輯謎題等多個(gè)領(lǐng)域展現(xiàn)了強(qiáng)大的泛化能力。
DeepSeek-R1的一個(gè)令人驚訝的發(fā)現(xiàn)是"頓悟時(shí)刻"(aha moment)——模型在訓(xùn)練過(guò)程中突然展現(xiàn)出復(fù)雜的推理模式,完成長(zhǎng)度增加,類似人類解決問(wèn)題時(shí)的"靈光一現(xiàn)"。然而,這種現(xiàn)象在視覺(jué)感知為主的任務(wù)中是否也會(huì)出現(xiàn),尚未可知。
視覺(jué)任務(wù)與純文本任務(wù)有一個(gè)關(guān)鍵區(qū)別:視覺(jué)任務(wù)通常可以通過(guò)直接的視覺(jué)理解得出簡(jiǎn)潔答案,而不需要像數(shù)學(xué)或編程那樣的詳細(xì)推理步驟。事實(shí)上,在某些視覺(jué)任務(wù)中,冗長(zhǎng)的思考過(guò)程可能反而不利于模型表現(xiàn)。
這就是為什么研究團(tuán)隊(duì)選擇拼圖游戲作為研究平臺(tái)——它同時(shí)需要視覺(jué)理解和結(jié)構(gòu)化推理,為研究規(guī)則型視覺(jué)強(qiáng)化學(xué)習(xí)提供了理想環(huán)境。通過(guò)這個(gè)框架,團(tuán)隊(duì)希望探索多模態(tài)大型語(yǔ)言模型如何學(xué)習(xí)解決視覺(jué)問(wèn)題,以及這種學(xué)習(xí)過(guò)程與純文本領(lǐng)域有何異同。
二、研究設(shè)計(jì):如何讓AI玩拼圖
研究團(tuán)隊(duì)精心設(shè)計(jì)了一套方法,讓多模態(tài)大型語(yǔ)言模型能夠理解并解決拼圖任務(wù)。這個(gè)過(guò)程就像設(shè)計(jì)一款專為AI準(zhǔn)備的拼圖游戲,包括游戲規(guī)則、難度設(shè)置和評(píng)分標(biāo)準(zhǔn)。
首先,拼圖圖像的創(chuàng)建過(guò)程很直觀:從一張輸入圖像開始,將其分割成m×n網(wǎng)格的小塊。通過(guò)改變m和n的值,可以輕松調(diào)整任務(wù)難度——就像給孩子提供4塊拼圖相對(duì)簡(jiǎn)單,而100塊拼圖則具有挑戰(zhàn)性。為了讓網(wǎng)格布局更加明顯,有時(shí)會(huì)在拼圖塊之間添加蒙版區(qū)域。如果圖像的高度不能被m整除,或?qū)挾炔荒鼙籲整除,系統(tǒng)會(huì)從底部或右邊緣裁剪圖像,確保尺寸完全符合要求。然后,這些拼圖塊被隨機(jī)打亂,創(chuàng)建拼圖圖像。為了唯一標(biāo)識(shí)每塊拼圖在網(wǎng)格中的位置,系統(tǒng)按行優(yōu)先順序分配位置索引,從左上角的1到右下角的mn。
基于這些打亂的圖像,研究團(tuán)隊(duì)設(shè)計(jì)了不同類型的問(wèn)題,用于評(píng)估模型的能力:
"完整"拼圖任務(wù)要求模型識(shí)別每個(gè)打亂拼圖塊的原始位置索引,從而重建原始圖像。答案是一個(gè)包含mn個(gè)數(shù)字的列表,按m×n網(wǎng)格排列,每個(gè)數(shù)字對(duì)應(yīng)一個(gè)打亂的拼圖塊,并指示其原始位置索引。這個(gè)任務(wù)的復(fù)雜度是mn階乘,因?yàn)檫@是所有可能排列的數(shù)量。
想象一下,如果有一個(gè)2×2的拼圖(4塊),那么模型需要找出每塊拼圖的正確位置。例如,如果位置2的拼圖塊應(yīng)該在位置4,答案的第2個(gè)位置就會(huì)是數(shù)字4。
"配對(duì)"拼圖任務(wù)則隨機(jī)選擇兩個(gè)拼圖塊,要求模型確定它們?cè)谠紙D像中的相對(duì)位置。如果圖像被分成單行(m=1)或單列(n=1),則只有兩種可能的相對(duì)位置(例如左/右或上/下)。否則,有八種不同的相對(duì)方向(如左上、正上方、右側(cè)、右下等)。這個(gè)任務(wù)被設(shè)計(jì)為多項(xiàng)選擇題,要求模型輸出對(duì)應(yīng)正確相對(duì)位置的單個(gè)字母。
除了任務(wù)類型,研究團(tuán)隊(duì)還探索了兩種提示模型的方式:
"思考型"指令要求模型先輸出思考過(guò)程(包含在和標(biāo)簽之間),然后提供最終答案(包含在和標(biāo)簽之間)。這類似于DeepSeek-R1使用的格式,已被證明可以改善模型在各種下游任務(wù)上的泛化能力,并有助于提高安全性和透明度。
"非思考型"指令則提示模型直接輸出最終答案,不需要詳述中間推理過(guò)程??紤]到某些高度依賴視覺(jué)感知的任務(wù)可能不需要詳細(xì)的逐步推理,這種方式可能更為高效。
在獎(jiǎng)勵(lì)系統(tǒng)設(shè)計(jì)上,團(tuán)隊(duì)采用了兩個(gè)組成部分:準(zhǔn)確性獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)。準(zhǔn)確性獎(jiǎng)勵(lì)評(píng)估回答的正確性——對(duì)于完整拼圖,獎(jiǎng)勵(lì)是正確識(shí)別的位置索引比例(0到1之間的分?jǐn)?shù));對(duì)于配對(duì)拼圖,獎(jiǎng)勵(lì)是二元的(正確選擇得1分,否則得0分)。格式獎(jiǎng)勵(lì)則確保輸出符合規(guī)定格式,包括標(biāo)簽使用和答案結(jié)構(gòu),符合要求得0.5分,否則得0分??偑?jiǎng)勵(lì)是這兩部分的總和。
這套精心設(shè)計(jì)的任務(wù)框架,為研究團(tuán)隊(duì)提供了一個(gè)可控、可量化的環(huán)境,用于探索多模態(tài)大型語(yǔ)言模型在視覺(jué)推理任務(wù)中的表現(xiàn)和學(xué)習(xí)能力。
三、實(shí)驗(yàn)設(shè)置:拼圖挑戰(zhàn)賽的參賽選手與規(guī)則
為了全面評(píng)估多模態(tài)大型語(yǔ)言模型在拼圖任務(wù)上的表現(xiàn),研究團(tuán)隊(duì)使用了多個(gè)數(shù)據(jù)集和模型,就像舉辦了一場(chǎng)拼圖挑戰(zhàn)賽,邀請(qǐng)各種AI模型參與競(jìng)賽。
在數(shù)據(jù)集方面,COCO數(shù)據(jù)集(通用物體上下文數(shù)據(jù)集)成為了拼圖任務(wù)訓(xùn)練和評(píng)估的基礎(chǔ)。研究人員僅使用其中的圖像,并隨機(jī)生成真實(shí)排列。訓(xùn)練使用train2014分割,測(cè)試則從test2014分割中隨機(jī)選擇1,000張圖像。
為了測(cè)試模型學(xué)到的能力能否泛化到其他視覺(jué)任務(wù),團(tuán)隊(duì)還使用了幾個(gè)額外的數(shù)據(jù)集:CV-Bench將標(biāo)準(zhǔn)視覺(jué)數(shù)據(jù)集(如COCO)重新調(diào)整為多模態(tài)環(huán)境,提供2,638個(gè)測(cè)試樣例,涵蓋空間關(guān)系、物體計(jì)數(shù)、深度順序和相對(duì)距離四種任務(wù);MMVP類似于CV-Bench,將ImageNet等經(jīng)典視覺(jué)數(shù)據(jù)集改編為300個(gè)多模態(tài)問(wèn)題,評(píng)估模型在九種基本視覺(jué)模式上的表現(xiàn);SAT數(shù)據(jù)集包含室內(nèi)場(chǎng)景,研究團(tuán)隊(duì)專門使用其靜態(tài)分割,將原始問(wèn)題分類為CV-Bench中定義的四種任務(wù)類型;Super-CLEVR數(shù)據(jù)集則包含各種車輛模型,如汽車和摩托車,被改編為計(jì)數(shù)問(wèn)題。
在模型選擇上,團(tuán)隊(duì)評(píng)估了專有模型和開源模型兩大類:
專有模型包括GPT-4.1、GPT-4.1-mini和Claude 3.5 Haiku,這些是由大型AI公司開發(fā)的先進(jìn)模型。
開源模型包括Qwen2-VL-2B-Base以及幾個(gè)經(jīng)過(guò)指令調(diào)整的模型:Qwen2.5-VL-72B/7B/3B、Qwen2-VL-2B和InternVL2.5-2B。這些模型代表了當(dāng)前開源社區(qū)中的主流多模態(tài)大型語(yǔ)言模型。
在實(shí)現(xiàn)細(xì)節(jié)上,團(tuán)隊(duì)使用GRPO(一種強(qiáng)化學(xué)習(xí)算法)進(jìn)行訓(xùn)練。思考型模型的訓(xùn)練步數(shù)為1,000,非思考型為2,000。每個(gè)訓(xùn)練步驟處理64個(gè)唯一提示,每個(gè)提示采樣8次計(jì)算優(yōu)勢(shì)。采樣溫度設(shè)為1,使用top-k采樣(k=50)。學(xué)習(xí)率從1e-6開始,線性衰減至0。
這些實(shí)驗(yàn)設(shè)置構(gòu)成了一個(gè)全面的評(píng)估框架,使研究團(tuán)隊(duì)能夠深入了解多模態(tài)大型語(yǔ)言模型在拼圖任務(wù)上的表現(xiàn),以及通過(guò)拼圖學(xué)習(xí)到的能力如何泛化到其他視覺(jué)任務(wù)。
四、研究發(fā)現(xiàn):拼圖游戲揭示的AI學(xué)習(xí)奧秘
通過(guò)一系列精心設(shè)計(jì)的實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn)了多模態(tài)大型語(yǔ)言模型在拼圖任務(wù)和視覺(jué)推理方面的一些令人驚訝的特性。這些發(fā)現(xiàn)就像探索者揭開了AI學(xué)習(xí)過(guò)程中的神秘面紗,讓我們得以一窺這些模型如何理解和解決視覺(jué)問(wèn)題。
### 多模態(tài)大型語(yǔ)言模型在拼圖任務(wù)上的表現(xiàn)
首先,研究團(tuán)隊(duì)發(fā)現(xiàn),未經(jīng)任務(wù)特定訓(xùn)練的多模態(tài)大型語(yǔ)言模型在最簡(jiǎn)單的拼圖任務(wù)(即2×1拼圖)上表現(xiàn)不佳,準(zhǔn)確率僅相當(dāng)于隨機(jī)猜測(cè)。這就像讓一個(gè)從未見過(guò)拼圖的人突然嘗試解決一個(gè)拼圖游戲,自然會(huì)感到困惑。即使是GPT-4.1這樣強(qiáng)大的專有模型也無(wú)法有效解決這些基本拼圖任務(wù),在2×1配對(duì)拼圖上的準(zhǔn)確率僅為54.1%,與隨機(jī)猜測(cè)(50%)相差無(wú)幾。
然而,經(jīng)過(guò)微調(diào)后,這些模型展示了令人印象深刻的學(xué)習(xí)能力。例如,Qwen2.5-VL-3B在非思考型配對(duì)任務(wù)上的準(zhǔn)確率從52.2%飆升至98.8%。更令人驚訝的是,這些模型能夠?qū)W(xué)到的能力泛化到訓(xùn)練期間未曾見過(guò)的更復(fù)雜配置上。具體來(lái)說(shuō),僅在2×1拼圖上訓(xùn)練的模型能夠有效解決3×1拼圖,盡管準(zhǔn)確率有所下降(從98.8%降至66.0%),但仍遠(yuǎn)高于隨機(jī)猜測(cè)的50%。
這就像一個(gè)孩子學(xué)會(huì)了解決簡(jiǎn)單的兩片拼圖后,面對(duì)三片拼圖時(shí)也能應(yīng)用相同的原理,雖然難度增加了,但基本技能是可遷移的。
### 拼圖任務(wù)泛化到其他視覺(jué)任務(wù)的能力
研究的第二個(gè)重要發(fā)現(xiàn)是,通過(guò)解決拼圖任務(wù)訓(xùn)練的模型能夠?qū)⑦@種能力泛化到其他視覺(jué)任務(wù)上。例如,經(jīng)過(guò)拼圖訓(xùn)練的Qwen2.5-VL-3B在CV-Bench上的表現(xiàn)從70.35%提高到73.57%,在MMVP上從66.00%提高到70.00%。
然而,這種泛化能力受到多種因素的影響:
拼圖大?。焊蟆⒏咛魬?zhàn)性的拼圖訓(xùn)練往往導(dǎo)致更好的泛化能力。比如,在非思考型設(shè)置下,使用3×1拼圖訓(xùn)練的模型在下游任務(wù)上表現(xiàn)比使用2×1拼圖訓(xùn)練的模型更好(平均準(zhǔn)確率74.95%對(duì)比73.18%)。更進(jìn)一步,采用課程學(xué)習(xí)方法混合不同大小的拼圖(如3×1→4×1)比僅使用單一大小更有效,平均準(zhǔn)確率達(dá)到75.29%。
問(wèn)題類型:配對(duì)拼圖任務(wù)比完整拼圖任務(wù)在下游任務(wù)泛化上表現(xiàn)更好。例如,配對(duì)拼圖訓(xùn)練在CV-Bench上達(dá)到73.57%的準(zhǔn)確率,而完整拼圖訓(xùn)練僅達(dá)到71.76%。研究團(tuán)隊(duì)認(rèn)為,這是因?yàn)榕鋵?duì)拼圖任務(wù)與下游任務(wù)更為相似,都需要模型回答多項(xiàng)選擇題并推理視覺(jué)元素之間的空間關(guān)系。
訓(xùn)練數(shù)據(jù)集:訓(xùn)練數(shù)據(jù)集與目標(biāo)領(lǐng)域的一致性也影響泛化能力。直接在SAT數(shù)據(jù)集上訓(xùn)練可以提高SAT任務(wù)的表現(xiàn)(從65.65%提高到67.00%)。由于拼圖任務(wù)不需要標(biāo)簽,甚至可以在SAT的測(cè)試集上訓(xùn)練以進(jìn)一步提高性能。
這些發(fā)現(xiàn)表明,拼圖任務(wù)不僅是一個(gè)有趣的玩具問(wèn)題,還是培養(yǎng)AI模型視覺(jué)推理能力的有效訓(xùn)練場(chǎng)。通過(guò)精心設(shè)計(jì)的拼圖訓(xùn)練,可以顯著提高模型在各種視覺(jué)任務(wù)上的表現(xiàn)。
### 思考還是不思考:AI解決視覺(jué)問(wèn)題的策略
研究的第三個(gè)關(guān)鍵發(fā)現(xiàn)涉及模型的推理方式。研究團(tuán)隊(duì)發(fā)現(xiàn),無(wú)論是否包含明確的推理過(guò)程,多模態(tài)大型語(yǔ)言模型都能有效學(xué)習(xí)解決拼圖任務(wù)并將這種能力泛化到下游任務(wù)。
然而,開源多模態(tài)大型語(yǔ)言模型通常在直接回答(非思考型)時(shí)表現(xiàn)更好。例如,在拼圖任務(wù)上,非思考型的Qwen2.5-VL-3B平均準(zhǔn)確率為58.70%,而思考型只有55.22%。在下游任務(wù)上,非思考型達(dá)到73.18%,而思考型僅為60.86%。
相比之下,專有模型(如GPT-4.1和Claude 3.5 Haiku)在包含明確推理過(guò)程時(shí)往往表現(xiàn)更好,盡管差異較小。這并不意味著專有模型本質(zhì)上更強(qiáng)——例如,Claude 3.5 Haiku在下游任務(wù)上的表現(xiàn)與Qwen2.5-VL-3B相當(dāng)。
有趣的是,即使經(jīng)過(guò)訓(xùn)練使用逐步推理,模型也可能忽略思考過(guò)程。研究團(tuán)隊(duì)觀察到,InternVL2.5-2B在訓(xùn)練過(guò)程中完成長(zhǎng)度顯著減少,因?yàn)槟P驮絹?lái)越傾向于繞過(guò)逐步推理,通常只在思考過(guò)程中包含最終答案。
Qwen模型確實(shí)展示了明確的推理步驟,但這些步驟可能與最終答案不一致。研究團(tuán)隊(duì)使用GPT-4.1評(píng)估Qwen2.5-VL-3B的推理過(guò)程與最終答案的一致性,發(fā)現(xiàn)盡管模型的最終答案隨著訓(xùn)練變得更準(zhǔn)確,但其推理鏈卻變得越來(lái)越不一致。
這就像一個(gè)學(xué)生可以正確回答問(wèn)題,但當(dāng)被要求解釋推理過(guò)程時(shí),提供的解釋與答案不匹配。這一現(xiàn)象提示我們,模型可能學(xué)會(huì)了直接從視覺(jué)輸入中提取答案,而不是真正依賴明確的推理步驟。
### "頓悟時(shí)刻"的真相:復(fù)雜推理模式的演變
研究的第四個(gè)發(fā)現(xiàn)挑戰(zhàn)了之前在純文本領(lǐng)域觀察到的"頓悟時(shí)刻"現(xiàn)象。在拼圖任務(wù)研究中,團(tuán)隊(duì)發(fā)現(xiàn)復(fù)雜的推理模式(如驗(yàn)證、回溯、設(shè)定子目標(biāo)和反向鏈接)早已存在于多模態(tài)大型語(yǔ)言模型中,而不是在訓(xùn)練過(guò)程中突然出現(xiàn)的。
通過(guò)追蹤指示回溯和反向鏈接的關(guān)鍵詞頻率,研究團(tuán)隊(duì)發(fā)現(xiàn)這些詞的出現(xiàn)率在訓(xùn)練過(guò)程中穩(wěn)步顯著增加。這表明,這些復(fù)雜的推理能力是模型原本就具備的,通過(guò)適當(dāng)?shù)娜蝿?wù)激活和強(qiáng)化,而不是從零開始學(xué)習(xí)的。
此外,這些復(fù)雜推理模式與任務(wù)難度密切相關(guān)。當(dāng)模型在更具挑戰(zhàn)性(即更大)的拼圖上訓(xùn)練時(shí),這些關(guān)鍵詞的頻率更高。例如,在2×2拼圖上訓(xùn)練的模型關(guān)鍵詞頻率明顯高于在2×1拼圖上訓(xùn)練的模型。
這就像一個(gè)解謎高手面對(duì)簡(jiǎn)單謎題時(shí)可能直接看出答案,而面對(duì)復(fù)雜謎題時(shí)會(huì)調(diào)動(dòng)更多的問(wèn)題解決策略和推理能力。同樣,AI模型也會(huì)根據(jù)任務(wù)難度調(diào)整其推理深度和復(fù)雜性。
### 監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的對(duì)比
研究的最后一個(gè)關(guān)鍵發(fā)現(xiàn)涉及訓(xùn)練方法的比較。研究團(tuán)隊(duì)發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)(RL)在泛化能力上表現(xiàn)優(yōu)于監(jiān)督微調(diào)(SFT)。
例如,在思考型設(shè)置下,RL訓(xùn)練使Qwen2.5-VL-3B在下游任務(wù)上的平均準(zhǔn)確率達(dá)到60.86%,而SFT僅達(dá)到57.81%。在非思考型設(shè)置下,差距更大:RL達(dá)到73.18%,而SFT僅為69.48%。
更重要的是,團(tuán)隊(duì)發(fā)現(xiàn),在強(qiáng)化學(xué)習(xí)之前使用監(jiān)督微調(diào)作為"冷啟動(dòng)"階段可能會(huì)阻礙后續(xù)的強(qiáng)化學(xué)習(xí)優(yōu)化。例如,在思考型設(shè)置下,直接使用RL達(dá)到60.86%的準(zhǔn)確率,而SFT+RL組合僅達(dá)到58.91%;在非思考型設(shè)置下,RL達(dá)到73.18%,而SFT+RL僅為69.92%。
這一發(fā)現(xiàn)挑戰(zhàn)了常見的訓(xùn)練范式,即先使用監(jiān)督學(xué)習(xí),然后再進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào)。在拼圖任務(wù)的背景下,直接應(yīng)用強(qiáng)化學(xué)習(xí)似乎是一種更有效的方法。
這些研究發(fā)現(xiàn)共同描繪了多模態(tài)大型語(yǔ)言模型如何學(xué)習(xí)和解決視覺(jué)推理任務(wù)的全景圖。它們不僅幫助我們理解這些模型的能力和局限性,還為未來(lái)的研究和應(yīng)用指明了方向。
五、結(jié)論與未來(lái)展望:拼圖游戲之外的世界
通過(guò)這項(xiàng)使用拼圖游戲作為實(shí)驗(yàn)框架的研究,團(tuán)隊(duì)揭示了多模態(tài)大型語(yǔ)言模型在規(guī)則型視覺(jué)強(qiáng)化學(xué)習(xí)中的幾個(gè)關(guān)鍵特性。就像拼圖游戲本身一樣,這項(xiàng)研究拼湊出了AI視覺(jué)理解和推理能力的一幅更完整圖景。
歸納起來(lái),研究的核心發(fā)現(xiàn)包括:
第一,當(dāng)前的多模態(tài)大型語(yǔ)言模型在沒(méi)有特定訓(xùn)練的情況下,甚至無(wú)法解決最簡(jiǎn)單的拼圖任務(wù),表現(xiàn)與隨機(jī)猜測(cè)相當(dāng)。然而,經(jīng)過(guò)微調(diào)后,這些模型能夠近乎完美地解決這些拼圖,并將學(xué)到的能力泛化到更復(fù)雜的拼圖配置上。這表明,雖然基礎(chǔ)模型可能缺乏某些視覺(jué)推理能力,但它們具有學(xué)習(xí)這些能力的潛力。
第二,通過(guò)拼圖任務(wù)訓(xùn)練的模型能夠?qū)W(xué)到的能力泛化到其他視覺(jué)任務(wù)上,但泛化效果取決于具體的任務(wù)配置,包括拼圖大小、問(wèn)題類型和訓(xùn)練數(shù)據(jù)集。這說(shuō)明拼圖任務(wù)不僅是一個(gè)有趣的測(cè)試平臺(tái),還是培養(yǎng)通用視覺(jué)推理能力的有效訓(xùn)練工具。
第三,多模態(tài)大型語(yǔ)言模型可以有效學(xué)習(xí)解決視覺(jué)任務(wù),無(wú)論是否包含明確的推理過(guò)程。然而,開源模型通常在直接回答時(shí)表現(xiàn)更好,而專有模型則傾向于在包含推理過(guò)程時(shí)表現(xiàn)更佳。更重要的是,即使經(jīng)過(guò)訓(xùn)練使用逐步推理,模型也可能在得出最終答案時(shí)忽略思考過(guò)程,這表明視覺(jué)任務(wù)可能不像數(shù)學(xué)或編程那樣需要詳細(xì)的推理步驟。
第四,復(fù)雜的推理模式(如驗(yàn)證、回溯、設(shè)定子目標(biāo)和反向鏈接)似乎是預(yù)先存在于模型中的,而不是在訓(xùn)練過(guò)程中突然出現(xiàn)的。這些模式會(huì)隨著訓(xùn)練和任務(wù)難度的增加而更頻繁地出現(xiàn),表明它們是模型已具備但尚未充分激活的能力。
最后,強(qiáng)化學(xué)習(xí)在泛化能力上表現(xiàn)優(yōu)于監(jiān)督微調(diào),而在強(qiáng)化學(xué)習(xí)之前使用監(jiān)督微調(diào)作為冷啟動(dòng)階段可能會(huì)阻礙后續(xù)的強(qiáng)化學(xué)習(xí)優(yōu)化。這一發(fā)現(xiàn)挑戰(zhàn)了常見的訓(xùn)練范式,提示我們?cè)谀承┣闆r下,直接應(yīng)用強(qiáng)化學(xué)習(xí)可能更為有效。
盡管這些觀察是基于拼圖任務(wù)的,可能在其他視覺(jué)任務(wù)中有所不同,但它們?yōu)槲覀兝斫庖?guī)則型視覺(jué)強(qiáng)化學(xué)習(xí)及其在多模態(tài)學(xué)習(xí)中的潛力提供了寶貴的見解。正如拼圖游戲中每一塊拼圖都是完整圖像的重要組成部分,這項(xiàng)研究也是我們集體理解AI視覺(jué)推理能力這一大拼圖的重要一塊。
研究團(tuán)隊(duì)也承認(rèn)本研究的一些局限性,并指出了幾個(gè)有前景的未來(lái)研究方向:
首先,最近由OpenAI推出的o3和o4-mini等視覺(jué)推理模型在利用圖像增強(qiáng)感知方面顯示出顯著潛力。初步實(shí)驗(yàn)表明,OpenAI的o3模型能夠有效解決2×2拼圖,表現(xiàn)遠(yuǎn)超本研究考慮的其他模型,但在面對(duì)更復(fù)雜的拼圖(如3×3)時(shí)仍面臨挑戰(zhàn)。這一方向值得進(jìn)一步探索。
其次,研究可以擴(kuò)展到能夠理解和生成多模態(tài)內(nèi)容的模型。讓這些模型生成自己的輸入可能減少對(duì)外部數(shù)據(jù)集的依賴,創(chuàng)建一個(gè)自主環(huán)境,使模型從經(jīng)驗(yàn)中學(xué)習(xí)。
此外,鑒于拼圖任務(wù)自然提供可用的標(biāo)注,它們特別適合測(cè)試時(shí)訓(xùn)練。探索使用拼圖作為測(cè)試時(shí)訓(xùn)練技術(shù)的方法是另一個(gè)有前途的研究方向。
最后,雖然本研究主要關(guān)注拼圖作為預(yù)訓(xùn)練任務(wù),但還有許多其他值得探索的替代方案,包括文本、視頻、音頻、點(diǎn)云和表格數(shù)據(jù)領(lǐng)域的預(yù)訓(xùn)練任務(wù)。此外,未來(lái)的研究還可以探索PPO、DPO和Reinforce++等其他強(qiáng)化學(xué)習(xí)算法,以及DAPO、Dr. GRPO、GPG和NoisyRollout等GRPO的最新進(jìn)展和變體。
總的來(lái)說(shuō),這項(xiàng)研究不僅揭示了多模態(tài)大型語(yǔ)言模型在視覺(jué)推理任務(wù)上的能力和局限性,還為未來(lái)的研究提供了豐富的方向和靈感。就像拼圖游戲最終拼出一幅完整的圖像,這些研究共同推動(dòng)我們朝著創(chuàng)建更強(qiáng)大、更通用的AI系統(tǒng)邁進(jìn)。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。