這項(xiàng)由香港科技大學(xué)的張景涵、何俊賢教授,聯(lián)合香港城市大學(xué)的陳詩淇、新加坡國立大學(xué)的朱同耀、熊淼,以及西北大學(xué)的李曼玲等研究者共同完成的突破性研究,于2025年5月發(fā)表在第41屆機(jī)器學(xué)習(xí)國際會(huì)議(ICML 2025)上。有興趣深入了解的讀者可以通過論文代碼庫 https://github.com/shiqichen17/VLM_Merging 訪問完整研究內(nèi)容。
這項(xiàng)研究解決了一個(gè)困擾AI領(lǐng)域已久的問題:為什么那些能"看懂"圖片又能"理解"文字的AI模型,在處理數(shù)學(xué)推理題時(shí)表現(xiàn)卻差強(qiáng)人意?就像一個(gè)學(xué)生雖然能看懂題目中的圖表,也認(rèn)識所有的文字,但就是不會(huì)做數(shù)學(xué)題一樣。研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)巧妙的解決方案——通過"模型融合"技術(shù),把專門擅長數(shù)學(xué)推理的語言模型的"數(shù)學(xué)天賦"移植到視覺語言模型中,讓它們既保持原有的"視覺理解"能力,又獲得強(qiáng)大的"數(shù)學(xué)推理"能力。
這個(gè)發(fā)現(xiàn)的意義不僅在于技術(shù)突破,更在于它為我們理解AI的內(nèi)在工作機(jī)制打開了一扇新窗戶。研究團(tuán)隊(duì)通過深入分析發(fā)現(xiàn),AI模型就像人的大腦一樣,不同的"技能"存儲在不同的"區(qū)域"——視覺感知能力主要集中在神經(jīng)網(wǎng)絡(luò)的前層,而數(shù)學(xué)推理能力則藏在中后層。這一發(fā)現(xiàn)不僅幫助我們更好地理解AI的工作原理,也為未來設(shè)計(jì)更強(qiáng)大的AI系統(tǒng)提供了重要指導(dǎo)。
一、AI的"偏科"難題:看得懂卻算不對
當(dāng)前的視覺語言模型就像一個(gè)聰明但"偏科"的學(xué)生。它們在處理日常的視覺問答任務(wù)時(shí)表現(xiàn)出色,能夠準(zhǔn)確識別圖片中的物體、理解場景內(nèi)容,甚至回答關(guān)于圖片的復(fù)雜問題。然而,一旦遇到需要數(shù)學(xué)推理的視覺問題,比如分析圖表中的數(shù)據(jù)趨勢、計(jì)算幾何圖形的面積,或者解決包含圖像的數(shù)學(xué)應(yīng)用題,這些模型就開始"掉鏈子"了。
這種現(xiàn)象的根本原因在于訓(xùn)練數(shù)據(jù)的稀缺性。相比于純文本的數(shù)學(xué)推理數(shù)據(jù),包含視覺元素的數(shù)學(xué)推理數(shù)據(jù)極其有限。這就像讓一個(gè)只在室內(nèi)練習(xí)過的籃球運(yùn)動(dòng)員突然到戶外比賽,環(huán)境的變化讓原本熟練的技能變得生疏。更進(jìn)一步說,即使有足夠的多模態(tài)數(shù)學(xué)數(shù)據(jù),從零開始訓(xùn)練一個(gè)既能"看"又能"算"的模型,所需的計(jì)算資源和時(shí)間成本也是天文數(shù)字。
與此形成鮮明對比的是,純文本的大語言模型在數(shù)學(xué)推理方面已經(jīng)取得了令人矚目的進(jìn)展。這些模型能夠處理復(fù)雜的數(shù)學(xué)證明、解決多步驟的代數(shù)問題,甚至進(jìn)行高級的邏輯推理。這種反差讓研究者們開始思考:能否找到一種方法,把語言模型的數(shù)學(xué)推理能力"轉(zhuǎn)移"到視覺語言模型中,而不需要從頭開始訓(xùn)練?
二、模型融合:AI界的"技能移植手術(shù)"
研究團(tuán)隊(duì)提出的解決方案可以比作一種精妙的"技能移植手術(shù)"。在醫(yī)學(xué)中,器官移植需要仔細(xì)匹配供體和受體,確保移植后的器官能夠正常工作。在AI模型中,這個(gè)過程同樣需要精確的"手術(shù)"技巧。
模型融合的核心思想建立在一個(gè)重要假設(shè)之上:如果兩個(gè)模型都是從同一個(gè)"基礎(chǔ)模型"出發(fā),通過不同的訓(xùn)練任務(wù)發(fā)展出各自的專長,那么它們在參數(shù)空間中應(yīng)該存在某種可連接性。這就像兩個(gè)從同一所大學(xué)畢業(yè)的學(xué)生,一個(gè)成為了畫家,另一個(gè)成為了數(shù)學(xué)家,雖然專業(yè)不同,但他們的基礎(chǔ)知識結(jié)構(gòu)有相通之處。
具體的操作過程可以這樣理解:研究團(tuán)隊(duì)首先提取每個(gè)模型相對于基礎(chǔ)模型的"差異向量",這個(gè)向量記錄了模型在特定訓(xùn)練過程中學(xué)到的所有變化。接下來,他們使用加權(quán)平均的方法,將視覺語言模型的"視覺理解能力"和數(shù)學(xué)專業(yè)模型的"推理能力"按照一定比例混合。這個(gè)過程不需要任何額外的訓(xùn)練,就像調(diào)制雞尾酒一樣,通過精確的配比創(chuàng)造出全新的"口味"。
權(quán)重參數(shù)的選擇至關(guān)重要。研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)給視覺語言模型分配90%的權(quán)重,給數(shù)學(xué)推理模型分配10%的權(quán)重時(shí),能夠達(dá)到最佳的平衡效果。這個(gè)比例既保持了原有的視覺理解能力,又成功注入了數(shù)學(xué)推理能力。
三、實(shí)驗(yàn)驗(yàn)證:從理論到實(shí)踐的華麗轉(zhuǎn)身
為了驗(yàn)證這種"技能移植"方法的有效性,研究團(tuán)隊(duì)設(shè)計(jì)了一系列全面的實(shí)驗(yàn)。他們選擇了三個(gè)代表性的視覺語言模型作為"患者":LLaVA-Next、Idefics2和InternVL2,這些模型的規(guī)模從8B到76B參數(shù)不等,代表了當(dāng)前技術(shù)的不同層次。
作為"供體"的數(shù)學(xué)推理模型同樣經(jīng)過精心挑選,包括Dart-Math、MetaMath、MAmmoTH等專門針對數(shù)學(xué)問題訓(xùn)練的語言模型。這些模型就像不同??频尼t(yī)生,各自在特定的數(shù)學(xué)領(lǐng)域有著深度的專業(yè)知識。
實(shí)驗(yàn)結(jié)果令人振奮。以LLaVA模型為例,在與Dart數(shù)學(xué)模型融合后,它在MathVista數(shù)學(xué)相關(guān)子集上的表現(xiàn)提升了3.6個(gè)百分點(diǎn),在MathVerse的純視覺模式下也獲得了1.4個(gè)百分點(diǎn)的提升。更令人驚喜的是,即使在題目完全以圖像形式呈現(xiàn)的情況下,融合后的模型依然能夠展現(xiàn)出更強(qiáng)的推理能力。
這種改進(jìn)并非偶然現(xiàn)象。研究團(tuán)隊(duì)在多個(gè)不同的基準(zhǔn)測試中都觀察到了一致的性能提升,證明了方法的普適性和穩(wěn)定性。特別值得注意的是,對于那些主要依賴視覺感知的任務(wù),融合過程幾乎沒有造成性能損失,說明"手術(shù)"過程非常精準(zhǔn),沒有"誤傷"到原有的能力。
四、深入內(nèi)部:AI大腦的"功能分區(qū)"地圖
這項(xiàng)研究最令人興奮的發(fā)現(xiàn)之一,是首次揭示了視覺語言模型內(nèi)部的"功能分區(qū)"。就像人類大腦中不同區(qū)域負(fù)責(zé)不同功能一樣,AI模型的不同層次也承擔(dān)著截然不同的任務(wù)。
通過一系列巧妙的"敲除實(shí)驗(yàn)",研究團(tuán)隊(duì)繪制出了AI模型的功能地圖。他們發(fā)現(xiàn),模型的前幾層主要負(fù)責(zé)視覺感知和基礎(chǔ)的世界知識處理,這些層次就像大腦的視覺皮層,專門處理來自"眼睛"的信息。當(dāng)這些層次被干擾時(shí),模型在識別圖像內(nèi)容和回答基礎(chǔ)視覺問題方面會(huì)出現(xiàn)明顯困難。
相比之下,模型的中后層則承擔(dān)著更加抽象和復(fù)雜的推理任務(wù)。數(shù)學(xué)推理能力主要集中在這些深層網(wǎng)絡(luò)中,它們負(fù)責(zé)進(jìn)行多步驟的邏輯推導(dǎo)、數(shù)值計(jì)算和抽象概念的操作。這種分工模式與人類認(rèn)知過程有著驚人的相似性——我們也是先通過感官收集信息,然后在大腦的高級區(qū)域進(jìn)行復(fù)雜的推理和判斷。
模型融合過程的分析揭示了另一個(gè)有趣現(xiàn)象:融合后的模型在幾乎所有層次都獲得了增強(qiáng)的數(shù)學(xué)推理能力,而視覺感知能力的分布基本保持不變。這說明數(shù)學(xué)推理能力的注入是全方位的,就像給整個(gè)神經(jīng)網(wǎng)絡(luò)都安裝了"數(shù)學(xué)思維模塊",而不僅僅是在特定層次進(jìn)行局部改進(jìn)。
五、推理能力的量化證據(jù):從簡短回答到深度思考
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)意想不到的現(xiàn)象:融合后的模型在回答數(shù)學(xué)問題時(shí),答案長度顯著增加,這直接反映了推理能力的提升。這種變化不是簡單的"話變多了",而是模型開始展現(xiàn)出類似人類的"思考過程"。
在幾何推理、代數(shù)計(jì)算等需要多步驟思考的任務(wù)中,融合后的模型能夠生成詳細(xì)的解題步驟,就像一個(gè)細(xì)心的數(shù)學(xué)老師在黑板上一步步展示解題過程。答案長度的增加與準(zhǔn)確率的提升呈現(xiàn)出明顯的正相關(guān)關(guān)系,證明了更長的推理鏈條確實(shí)帶來了更好的解題效果。
這種現(xiàn)象在推理密集型任務(wù)中尤為明顯。對于幾何問題求解、代數(shù)推理等任務(wù),融合后模型的平均回答長度超過了原始長度的250%。而對于主要依賴視覺理解的任務(wù),如圖片問答,答案長度變化很小,甚至略有減少。這種差異化的表現(xiàn)進(jìn)一步證實(shí)了融合過程的精準(zhǔn)性——它只在需要的地方增強(qiáng)了能力,而沒有在不必要的地方增加冗余。
六、局限性與未來方向:技術(shù)進(jìn)步的下一站
盡管取得了令人矚目的成果,研究團(tuán)隊(duì)也誠實(shí)地承認(rèn)了當(dāng)前方法的局限性。最主要的限制是,這種"技能移植"主要對文本推理任務(wù)有效,對于那些嚴(yán)重依賴視覺感知的復(fù)雜推理任務(wù),改進(jìn)效果相對有限。
這個(gè)現(xiàn)象其實(shí)很好理解:當(dāng)一個(gè)數(shù)學(xué)問題的關(guān)鍵信息都嵌入在復(fù)雜的圖像中時(shí),即使擁有再強(qiáng)的數(shù)學(xué)推理能力,如果無法準(zhǔn)確"看懂"圖像內(nèi)容,也難以得出正確答案。這就像一個(gè)數(shù)學(xué)天才面對一張模糊不清的題目圖片,再強(qiáng)的推理能力也無用武之地。
另一個(gè)有趣的發(fā)現(xiàn)是,融合不同類型的推理模型會(huì)產(chǎn)生不同的效果。專門針對數(shù)學(xué)訓(xùn)練的模型融合效果最好,而通用推理模型的融合效果相對一般。這提示我們,未來可能需要開發(fā)更加專業(yè)化、針對性更強(qiáng)的"供體模型",以實(shí)現(xiàn)更精準(zhǔn)的能力轉(zhuǎn)移。
研究團(tuán)隊(duì)還探索了跨域推理能力的轉(zhuǎn)移可能性。他們嘗試將邏輯推理模型與視覺語言模型融合,結(jié)果發(fā)現(xiàn)這種跨域的"技能移植"同樣可行,暗示了這種方法具有更廣闊的應(yīng)用前景。未來,我們或許能夠看到融合了多種專業(yè)能力的"全能型"AI模型。
七、技術(shù)細(xì)節(jié):融合方法的深度對比
在技術(shù)實(shí)現(xiàn)層面,研究團(tuán)隊(duì)對比了多種不同的融合策略。除了主要使用的線性融合方法外,他們還測試了TIES融合等更復(fù)雜的技術(shù)。結(jié)果顯示,雖然某些復(fù)雜方法在特定任務(wù)上可能表現(xiàn)更好,但簡單的線性融合在整體性能和實(shí)現(xiàn)復(fù)雜度之間達(dá)到了最佳平衡。
這個(gè)發(fā)現(xiàn)具有重要的實(shí)踐意義。在實(shí)際應(yīng)用中,簡單可靠的方法往往比復(fù)雜精巧的方案更有價(jià)值。線性融合不僅計(jì)算效率高,而且參數(shù)調(diào)節(jié)相對簡單,降低了技術(shù)應(yīng)用的門檻。
研究團(tuán)隊(duì)還發(fā)現(xiàn),融合權(quán)重的選擇需要根據(jù)具體的基礎(chǔ)模型進(jìn)行微調(diào)。對于不同規(guī)模、不同架構(gòu)的模型,最優(yōu)的融合比例可能有所差異。但總體而言,給視覺語言模型分配80-90%的權(quán)重通常能夠獲得較好的效果。
八、實(shí)際應(yīng)用:從實(shí)驗(yàn)室到現(xiàn)實(shí)世界
這項(xiàng)研究的意義遠(yuǎn)不止于學(xué)術(shù)層面的突破。在教育領(lǐng)域,融合后的模型可以成為更強(qiáng)大的AI家教,能夠理解包含圖表、幾何圖形的復(fù)雜數(shù)學(xué)題,并提供詳細(xì)的解題步驟。學(xué)生可以拍照上傳題目,獲得不僅僅是答案,更是完整的思考過程。
在科研和工程領(lǐng)域,這種技術(shù)可以幫助分析包含視覺元素的科學(xué)數(shù)據(jù),如從實(shí)驗(yàn)圖片中提取數(shù)值信息并進(jìn)行統(tǒng)計(jì)分析,或者從工程圖紙中理解設(shè)計(jì)參數(shù)并進(jìn)行計(jì)算驗(yàn)證。金融分析師可以利用這種技術(shù)分析包含圖表的財(cái)務(wù)報(bào)告,自動(dòng)提取關(guān)鍵數(shù)據(jù)并進(jìn)行趨勢分析。
更進(jìn)一步,這種"技能移植"的思想可能催生全新的AI開發(fā)模式。未來的AI系統(tǒng)可能不再需要從零開始訓(xùn)練,而是通過融合不同專業(yè)模型的方式,快速獲得多樣化的能力。這將大大降低AI開發(fā)的成本和時(shí)間,讓更多組織和個(gè)人能夠構(gòu)建符合自己需求的專業(yè)AI系統(tǒng)。
研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)證明,這種方法不僅在8B參數(shù)的中等規(guī)模模型上有效,在76B參數(shù)的大型模型上同樣表現(xiàn)出色。這種規(guī)模無關(guān)性為技術(shù)的廣泛應(yīng)用奠定了基礎(chǔ),無論是資源受限的邊緣設(shè)備還是云端的大型服務(wù)器,都可以從這種技術(shù)中受益。
說到底,這項(xiàng)研究為我們展示了AI發(fā)展的一個(gè)新方向:不是簡單地追求更大的模型和更多的數(shù)據(jù),而是通過巧妙的技術(shù)手段,讓現(xiàn)有的AI系統(tǒng)發(fā)揮出更大的潛力。就像一個(gè)優(yōu)秀的教練能夠發(fā)掘運(yùn)動(dòng)員的潛在能力一樣,模型融合技術(shù)讓我們能夠挖掘AI模型的隱藏才能。
這種方法的成功也提醒我們,AI的進(jìn)步不一定要走"大力出奇跡"的路線。有時(shí)候,聰明的組合和精巧的設(shè)計(jì)比單純的規(guī)模擴(kuò)張更有價(jià)值。正如這項(xiàng)研究所展示的,通過理解AI的內(nèi)在機(jī)制,我們可以用更少的資源獲得更好的效果。
更重要的是,這項(xiàng)研究為理解AI的工作原理提供了新的視角。通過揭示不同能力在模型中的分布規(guī)律,我們對人工智能有了更深入的認(rèn)識。這種認(rèn)識不僅有助于改進(jìn)現(xiàn)有技術(shù),也為設(shè)計(jì)下一代AI架構(gòu)提供了重要啟發(fā)。
歸根結(jié)底,這項(xiàng)由香港科技大學(xué)、香港城市大學(xué)、新加坡國立大學(xué)和西北大學(xué)聯(lián)合完成的研究,不僅解決了視覺語言模型數(shù)學(xué)推理能力不足的實(shí)際問題,更為整個(gè)AI領(lǐng)域提供了一種全新的思考方式。它告訴我們,AI的未來可能不在于構(gòu)建更大的模型,而在于更聰明地組合和利用現(xiàn)有的模型能力。
Q&A
Q1:模型融合是什么?它能解決什么問題? A:模型融合是一種將不同AI模型的能力進(jìn)行組合的技術(shù),就像把數(shù)學(xué)天才的推理能力移植給視覺專家一樣。它能解決當(dāng)前視覺AI模型雖然能"看懂"圖片卻不會(huì)做數(shù)學(xué)題的問題,讓AI既能理解視覺內(nèi)容又能進(jìn)行復(fù)雜的數(shù)學(xué)推理。
Q2:這種技術(shù)會(huì)不會(huì)影響AI模型原有的視覺能力? A:研究顯示影響非常小。融合過程非常精準(zhǔn),主要在模型的中后層增強(qiáng)數(shù)學(xué)推理能力,而視覺感知能力主要集中在前層,兩者分工明確。實(shí)驗(yàn)中視覺相關(guān)任務(wù)的性能基本保持不變,有些甚至略有提升。
Q3:普通人能用上這種技術(shù)嗎?有什么實(shí)際用途? A:目前這還是研究階段的技術(shù),但應(yīng)用前景很廣闊。未來可能出現(xiàn)在AI家教軟件中,幫學(xué)生解答包含圖表的數(shù)學(xué)題;在工程軟件中分析技術(shù)圖紙;在金融應(yīng)用中自動(dòng)分析包含圖表的財(cái)務(wù)報(bào)告等。研究團(tuán)隊(duì)已在GitHub開源相關(guān)代碼。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。