這項(xiàng)由上海AI實(shí)驗(yàn)室的李騰、邵文奇等研究人員與香港科技大學(xué)、上海交通大學(xué)聯(lián)合開(kāi)展的研究發(fā)表于2025年6月,完整論文可通過(guò)arXiv:2506.17202v1訪問(wèn)。對(duì)于想要深入了解統(tǒng)一多模態(tài)AI架構(gòu)設(shè)計(jì)的讀者來(lái)說(shuō),這項(xiàng)研究提供了極具價(jià)值的見(jiàn)解。
在人工智能快速發(fā)展的今天,我們經(jīng)常聽(tīng)到AI既能"看懂"圖片又能"畫(huà)出"圖片的驚人能力。然而,就像一個(gè)人很難同時(shí)專注于閱讀理解和繪畫(huà)創(chuàng)作一樣,讓AI同時(shí)擅長(zhǎng)理解圖像和生成圖像也面臨著類似的挑戰(zhàn)。這項(xiàng)研究就像是給AI的"大腦"做了一次詳細(xì)的掃描,發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:當(dāng)AI試圖同時(shí)學(xué)會(huì)看圖和畫(huà)圖時(shí),它的"大腦"會(huì)出現(xiàn)某種沖突。
研究團(tuán)隊(duì)通過(guò)深入分析發(fā)現(xiàn),理解圖像和生成圖像這兩項(xiàng)任務(wù)就像兩種完全不同的思維方式。當(dāng)AI在理解圖像時(shí),它需要從表面特征逐漸深入到語(yǔ)義理解,就像我們看到一張照片時(shí),先注意到顏色和形狀,然后識(shí)別出這是一只貓,最后理解這只貓正在玩耍。在這個(gè)過(guò)程中,視覺(jué)信息和語(yǔ)言理解之間的聯(lián)系會(huì)隨著處理深度的增加而變得越來(lái)越緊密。
然而,生成圖像的過(guò)程卻截然不同。當(dāng)AI要畫(huà)一幅圖時(shí),它需要先理解要畫(huà)什么,然后逐步細(xì)化細(xì)節(jié)。這個(gè)過(guò)程就像藝術(shù)家創(chuàng)作一樣,先有整體構(gòu)思,然后添加具體的紋理、顏色和細(xì)節(jié)。在這種情況下,視覺(jué)和語(yǔ)言之間的聯(lián)系在早期很強(qiáng),但隨著生成過(guò)程的深入,AI需要更多地專注于視覺(jué)細(xì)節(jié)的重建,語(yǔ)言的指導(dǎo)作用反而會(huì)減弱。
這種根本性的差異就像讓同一個(gè)人在同一時(shí)間既要專心聽(tīng)講座又要專心畫(huà)畫(huà)一樣困難。傳統(tǒng)的統(tǒng)一模型試圖用完全相同的"大腦結(jié)構(gòu)"來(lái)處理這兩種截然不同的任務(wù),結(jié)果往往是兩頭不討好——既不能很好地理解圖像,也不能很好地生成圖像。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了一個(gè)巧妙的解決方案,他們稱之為UniFork。這個(gè)名字很形象,就像叉子一樣,有一個(gè)共同的把手,然后分出幾個(gè)分支。UniFork的設(shè)計(jì)理念是讓AI的"大腦"采用一種"共享然后分工"的架構(gòu)。
在UniFork中,AI的前半部分"大腦"(淺層網(wǎng)絡(luò))是完全共享的,就像人類大腦中負(fù)責(zé)基礎(chǔ)視覺(jué)處理的區(qū)域一樣,這部分負(fù)責(zé)處理圖像和語(yǔ)言之間的基本對(duì)應(yīng)關(guān)系。這種共享設(shè)計(jì)讓AI能夠?qū)W習(xí)到圖像和語(yǔ)言之間的通用知識(shí),比如"紅色"這個(gè)詞對(duì)應(yīng)什么顏色,"貓"這個(gè)概念對(duì)應(yīng)什么樣的視覺(jué)特征。
然后,在"大腦"的后半部分(深層網(wǎng)絡(luò)),UniFork分出了兩個(gè)專門的分支。一個(gè)分支專門負(fù)責(zé)圖像理解,它會(huì)強(qiáng)化語(yǔ)義信息的提取,就像專門訓(xùn)練的藝術(shù)評(píng)論家一樣,能夠深度分析圖像的含義。另一個(gè)分支專門負(fù)責(zé)圖像生成,它專注于重建空間細(xì)節(jié),就像專門的畫(huà)師一樣,擅長(zhǎng)處理顏色、紋理和形狀的精確描繪。
這種設(shè)計(jì)的巧妙之處在于它既保持了統(tǒng)一學(xué)習(xí)的優(yōu)勢(shì),又避免了任務(wù)沖突的問(wèn)題。共享的前半部分確保了兩個(gè)任務(wù)能夠互相借鑒和學(xué)習(xí),而分離的后半部分則讓每個(gè)任務(wù)都能按照自己的最佳方式進(jìn)行處理。
研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)三階段的訓(xùn)練過(guò)程,就像培養(yǎng)一個(gè)全才的過(guò)程一樣。第一階段是"視覺(jué)對(duì)齊預(yù)訓(xùn)練",就像教孩子認(rèn)識(shí)基本的圖形和顏色一樣,讓AI學(xué)會(huì)圖像和語(yǔ)言之間的基本對(duì)應(yīng)關(guān)系。他們首先使用ImageNet數(shù)據(jù)集,將圖像類別轉(zhuǎn)換成自然語(yǔ)言描述,然后擴(kuò)展到包含3000萬(wàn)個(gè)樣本的大規(guī)模數(shù)據(jù)集進(jìn)行訓(xùn)練。
第二階段是"聯(lián)合優(yōu)化",這時(shí)AI開(kāi)始同時(shí)學(xué)習(xí)理解和生成任務(wù)。研究團(tuán)隊(duì)使用了來(lái)自JourneyDB、SAM等數(shù)據(jù)集的4900萬(wàn)個(gè)圖像-文本對(duì)進(jìn)行訓(xùn)練,讓AI在理解和生成之間找到平衡。這個(gè)階段就像讓學(xué)生同時(shí)練習(xí)閱讀理解和寫(xiě)作,雖然任務(wù)不同,但能夠相互促進(jìn)。
第三階段是"任務(wù)特定微調(diào)",這是UniFork架構(gòu)的一個(gè)獨(dú)特優(yōu)勢(shì)。由于有了專門的分支,研究團(tuán)隊(duì)可以分別對(duì)理解和生成任務(wù)進(jìn)行針對(duì)性的優(yōu)化,而不會(huì)相互干擾。這就像讓專業(yè)的閱讀老師和繪畫(huà)老師分別指導(dǎo)學(xué)生的不同技能一樣。
為了驗(yàn)證他們的發(fā)現(xiàn),研究團(tuán)隊(duì)進(jìn)行了大量的實(shí)驗(yàn)分析。他們使用了一種叫做"互相k近鄰"的技術(shù)來(lái)測(cè)量視覺(jué)特征和語(yǔ)言特征之間的對(duì)齊程度,就像測(cè)量?jī)蓚€(gè)朋友之間的默契程度一樣。通過(guò)對(duì)比LlamaGen(專門生成圖像的AI)和LLaVA-1.5(專門理解圖像的AI),他們發(fā)現(xiàn)了截然不同的對(duì)齊模式。
在圖像生成任務(wù)中,對(duì)齊分?jǐn)?shù)呈現(xiàn)出先上升后下降的趨勢(shì),就像爬山一樣,先到達(dá)山頂(語(yǔ)義理解),然后下降到谷底(專注細(xì)節(jié)生成)。而在圖像理解任務(wù)中,對(duì)齊分?jǐn)?shù)則是單調(diào)遞增的,就像樓梯一樣,越往上語(yǔ)義理解越深入。
更有趣的是,當(dāng)他們分析Emu3這樣的統(tǒng)一模型時(shí),發(fā)現(xiàn)兩個(gè)任務(wù)的對(duì)齊曲線幾乎重疊,都呈現(xiàn)出先上升后下降的模式。這表明理解任務(wù)被迫適應(yīng)了生成任務(wù)的模式,就像一個(gè)天生適合跳舞的人被迫按照唱歌的方式來(lái)訓(xùn)練身體一樣。
但是,當(dāng)研究團(tuán)隊(duì)分析從Emu3微調(diào)出來(lái)的專門模型Emu3-Chat和Emu3-Gen時(shí),發(fā)現(xiàn)它們又恢復(fù)了各自任務(wù)的典型模式。這進(jìn)一步證實(shí)了他們的假設(shè):統(tǒng)一模型確實(shí)存在表征沖突的問(wèn)題。
在性能評(píng)估方面,UniFork展現(xiàn)出了令人印象深刻的結(jié)果。在圖像理解任務(wù)上,盡管只使用了0.5B的激活參數(shù),UniFork在多個(gè)基準(zhǔn)測(cè)試中都表現(xiàn)出色。比如在MME-P測(cè)試中得分1208,在POPE測(cè)試中達(dá)到85.8%的準(zhǔn)確率,在VQAv2測(cè)試中達(dá)到70.0%的準(zhǔn)確率。這些成績(jī)不僅超越了同等規(guī)模的統(tǒng)一模型,甚至能夠與一些更大規(guī)模的專門理解模型相媲美。
在圖像生成任務(wù)上,UniFork在GenEval基準(zhǔn)測(cè)試中達(dá)到了46%的總體準(zhǔn)確率,相比小規(guī)模版本提升了39%。在MJHQ-30K測(cè)試中,F(xiàn)ID分?jǐn)?shù)達(dá)到10.6,比小規(guī)模版本改善了35%。這些結(jié)果表明,通過(guò)合理的架構(gòu)設(shè)計(jì),即使使用相對(duì)較少的參數(shù),也能獲得很好的性能。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)來(lái)驗(yàn)證UniFork架構(gòu)的有效性。他們對(duì)比了四種不同的模型配置:專門的生成模型、專門的理解模型、完全共享的統(tǒng)一模型,以及UniFork模型。結(jié)果顯示,UniFork在兩個(gè)任務(wù)上都一致性地超越了完全共享的模型,并且達(dá)到了與專門模型相當(dāng)甚至更好的性能。
這項(xiàng)研究的意義不僅僅在于提出了一個(gè)新的架構(gòu),更重要的是它揭示了多模態(tài)AI設(shè)計(jì)中的一個(gè)根本性問(wèn)題。就像我們現(xiàn)在理解為什么人類大腦中有專門的視覺(jué)皮層和語(yǔ)言區(qū)域一樣,這項(xiàng)研究幫助我們理解了為什么AI也需要某種形式的"功能分工"。
從實(shí)際應(yīng)用的角度來(lái)看,這項(xiàng)研究為未來(lái)的多模態(tài)AI開(kāi)發(fā)提供了重要的指導(dǎo)原則。它告訴我們,雖然統(tǒng)一模型是一個(gè)美好的理想,但簡(jiǎn)單的參數(shù)共享可能不是最佳策略。相反,我們需要更加細(xì)致地考慮不同任務(wù)的特點(diǎn),在共享學(xué)習(xí)和專門化之間找到合適的平衡點(diǎn)。
UniFork的成功也為擴(kuò)展到其他模態(tài)提供了可能性。研究團(tuán)隊(duì)指出,這種"共享然后分叉"的設(shè)計(jì)原則可能同樣適用于音頻、視頻或3D數(shù)據(jù)的處理。這意味著未來(lái)我們可能會(huì)看到更加復(fù)雜但更有效的多模態(tài)AI系統(tǒng),它們能夠在保持統(tǒng)一性的同時(shí),為每種特定任務(wù)提供最優(yōu)的處理方式。
當(dāng)然,這項(xiàng)研究也有其局限性。研究團(tuán)隊(duì)坦誠(chéng)地指出,當(dāng)前的性能仍然受到視覺(jué)分詞器質(zhì)量、模型規(guī)模和訓(xùn)練數(shù)據(jù)質(zhì)量的限制。特別是在圖像生成方面,使用的分詞器是在256分辨率下訓(xùn)練的,而模型運(yùn)行在384分辨率下,這種分辨率不匹配可能會(huì)影響生成質(zhì)量。
此外,雖然UniFork有效地平衡了共享學(xué)習(xí)和任務(wù)特化,但共享參數(shù)和特定參數(shù)之間的最優(yōu)比例仍然是一個(gè)開(kāi)放的研究問(wèn)題。這個(gè)比例可能取決于任務(wù)復(fù)雜度、數(shù)據(jù)分布和整體模型參數(shù)等多個(gè)因素,需要進(jìn)一步的研究來(lái)確定最佳的設(shè)計(jì)策略。
說(shuō)到底,這項(xiàng)研究就像是給多模態(tài)AI領(lǐng)域提供了一面鏡子,讓我們看清了統(tǒng)一模型設(shè)計(jì)中的根本挑戰(zhàn)。它不僅提出了一個(gè)有效的解決方案,更重要的是為我們提供了一種新的思考方式:在追求AI系統(tǒng)統(tǒng)一性的同時(shí),我們也需要尊重不同任務(wù)的內(nèi)在特性。
歸根結(jié)底,UniFork的成功證明了一個(gè)重要的原則:最好的統(tǒng)一不是簡(jiǎn)單的"一刀切",而是在理解差異的基礎(chǔ)上實(shí)現(xiàn)的智能整合。這種思路不僅適用于AI系統(tǒng)的設(shè)計(jì),也為我們思考如何在其他復(fù)雜系統(tǒng)中平衡統(tǒng)一性和專門化提供了啟示。對(duì)于想要了解這一創(chuàng)新架構(gòu)更多技術(shù)細(xì)節(jié)的讀者,完整的研究論文和代碼都可以通過(guò)https://github.com/tliby/UniFork獲取。
Q&A
Q1:UniFork和傳統(tǒng)的統(tǒng)一多模態(tài)模型有什么區(qū)別? A:傳統(tǒng)統(tǒng)一模型讓所有任務(wù)完全共享相同的網(wǎng)絡(luò)結(jié)構(gòu),就像讓同一個(gè)人同時(shí)用完全相同的方式處理不同的事情。而UniFork采用"Y型"架構(gòu),前半部分共享學(xué)習(xí)通用知識(shí),后半部分分別為理解和生成任務(wù)設(shè)計(jì)專門分支,避免了任務(wù)沖突問(wèn)題。
Q2:為什么圖像理解和生成會(huì)產(chǎn)生沖突? A:研究發(fā)現(xiàn)這兩個(gè)任務(wù)的"思維模式"完全不同。理解任務(wù)需要越來(lái)越強(qiáng)的語(yǔ)義關(guān)聯(lián),而生成任務(wù)在早期需要語(yǔ)義指導(dǎo),后期則要專注視覺(jué)細(xì)節(jié)重建,語(yǔ)義關(guān)聯(lián)反而要減弱。用同一套參數(shù)處理會(huì)導(dǎo)致相互妥協(xié),影響各自性能。
Q3:UniFork的性能表現(xiàn)如何?能達(dá)到專業(yè)模型的水平嗎? A:UniFork在保持統(tǒng)一性的同時(shí),在多個(gè)測(cè)試中都達(dá)到或超越了專門模型的性能。比如在圖像理解的VQAv2測(cè)試中達(dá)到70%準(zhǔn)確率,圖像生成的GenEval測(cè)試中達(dá)到46%準(zhǔn)確率,證明了這種架構(gòu)設(shè)計(jì)的有效性。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。