在2025年5月,法國國家信息與自動(dòng)化研究所(INRIA)、巴黎高等師范學(xué)院和法國國家科學(xué)研究中心(CNRS)的研究團(tuán)隊(duì) Zeeshan Khan、Shizhe Chen 和 Cordelia Schmid 聯(lián)合發(fā)布了一項(xiàng)令人矚目的研究成果:ComposeAnything。這項(xiàng)發(fā)表于arXiv預(yù)印本平臺(tái)(arXiv:2505.24086v1)的研究為人工智能圖像生成領(lǐng)域帶來了重大突破,解決了當(dāng)前AI繪畫中一個(gè)讓人頭疼的問題——復(fù)雜物體組合的精準(zhǔn)生成。
想象一下,你對(duì)AI說:"請(qǐng)畫三只熊、兩個(gè)女孩、三只雞、一把椅子和兩個(gè)杯子",或者"畫一個(gè)被鳥擋住的女孩"。對(duì)于人類來說,理解這些指令并不困難,但對(duì)于現(xiàn)有的AI繪畫模型來說,這些復(fù)雜的空間關(guān)系和多物體組合卻是一道難以逾越的鴻溝?,F(xiàn)有模型經(jīng)常會(huì)"搞混"物體數(shù)量、位置關(guān)系,甚至將物體混合在一起,生成不符合要求的圖像。
ComposeAnything就像是給AI圖像生成模型裝上了一副特殊的"空間感知眼鏡",使其能夠更好地理解和呈現(xiàn)物體之間的復(fù)雜關(guān)系。這個(gè)框架不需要重新訓(xùn)練現(xiàn)有的文本到圖像(Text-to-Image,簡(jiǎn)稱T2I)模型,而是巧妙地利用了大型語言模型(LLM)和擴(kuò)散模型的優(yōu)勢(shì),在推理階段引入了復(fù)合物體先驗(yàn)(Composite Object Prior)的概念,使得生成過程更加可控和精準(zhǔn)。
這項(xiàng)技術(shù)的工作原理如同一位經(jīng)驗(yàn)豐富的電影導(dǎo)演在拍攝前先做分鏡頭腳本。首先,大型語言模型會(huì)像編劇一樣仔細(xì)分析文本指令,生成一個(gè)詳細(xì)的"2.5D語義布局",包括每個(gè)物體的說明、位置和深度信息。然后,系統(tǒng)會(huì)根據(jù)這個(gè)布局"草稿"生成一個(gè)粗略的場(chǎng)景合成圖,作為最終圖像生成的"先驗(yàn)指導(dǎo)"。這個(gè)過程就像是先畫出電影場(chǎng)景的草圖,然后再由專業(yè)團(tuán)隊(duì)完成精細(xì)的拍攝和后期制作。
研究團(tuán)隊(duì)在兩個(gè)挑戰(zhàn)性測(cè)試基準(zhǔn)(T2I-CompBench和NSR-1K)上的實(shí)驗(yàn)表明,ComposeAnything遠(yuǎn)超現(xiàn)有方法,特別是在處理2D/3D空間關(guān)系、高物體數(shù)量和超現(xiàn)實(shí)組合方面。人類評(píng)估也證實(shí),這種方法能夠生成高質(zhì)量圖像,同時(shí)忠實(shí)反映輸入文本的要求。
接下來,讓我們深入了解這項(xiàng)創(chuàng)新技術(shù)的工作原理、主要組成部分以及它如何改變AI圖像生成的未來。
一、為什么現(xiàn)有AI繪畫模型難以處理復(fù)雜組合?
在深入了解ComposeAnything之前,我們需要先理解為什么現(xiàn)有的AI繪畫模型在處理復(fù)雜場(chǎng)景時(shí)會(huì)"力不從心"。
想象你正在用遙控器指揮一位蒙著眼睛的畫家作畫。你只能通過語言描述你想要的畫面,而畫家必須在沒有視覺參考的情況下完成創(chuàng)作。這基本上就是當(dāng)前文本到圖像(T2I)模型的工作方式——它們只能根據(jù)文本描述"想象"出一幅畫。
雖然像Stable Diffusion 3(SD3)、FLUX等最新模型在生成單個(gè)概念(如"一只貓"或"一朵花")時(shí)表現(xiàn)出色,但當(dāng)面對(duì)多個(gè)物體的復(fù)雜組合時(shí),它們往往會(huì)"暈頭轉(zhuǎn)向"。就像那位蒙眼畫家,當(dāng)你要求他畫"三只熊、兩個(gè)女孩、三只雞、一把椅子和兩個(gè)杯子"時(shí),他很可能會(huì)混淆物體數(shù)量、位置,甚至將不同物體的特征混合在一起。
這主要是因?yàn)檫@些模型在訓(xùn)練過程中很少接觸到如此復(fù)雜的組合場(chǎng)景,它們對(duì)3D空間關(guān)系的理解也十分有限。就像一個(gè)從未看過魔術(shù)表演的人很難描述魔術(shù)師是如何將助手"切成兩半"的細(xì)節(jié)一樣,AI模型也難以理解和呈現(xiàn)它從未"見過"的復(fù)雜空間關(guān)系。
為了解決這個(gè)問題,研究人員提出了各種布局控制方法。其中訓(xùn)練型方法(如CreatiLayout)通過額外訓(xùn)練來增強(qiáng)模型的布局控制能力,但往往會(huì)因?yàn)檫^于嚴(yán)格的布局約束而犧牲圖像質(zhì)量和連貫性。而免訓(xùn)練方法(如RPG)則嘗試在推理階段引入布局控制,但控制能力較弱,難以處理復(fù)雜指令。
更重要的是,現(xiàn)有方法主要依賴于粗糙的2D布局,既不包含3D空間關(guān)系信息,也無法視覺化表達(dá)物體的外觀,這極大限制了它們指導(dǎo)T2I生成的有效性。
二、ComposeAnything:如何讓AI理解空間關(guān)系的"魔法"
ComposeAnything的神奇之處在于它巧妙地結(jié)合了大型語言模型的推理能力和擴(kuò)散模型的圖像生成能力,創(chuàng)造了一個(gè)無需額外訓(xùn)練就能增強(qiáng)圖像生成質(zhì)量的框架。這個(gè)框架包含三個(gè)關(guān)鍵組件:LLM規(guī)劃、復(fù)合物體先驗(yàn)和先驗(yàn)引導(dǎo)擴(kuò)散。
首先,讓我們通過一個(gè)簡(jiǎn)單的例子來理解這個(gè)過程:假設(shè)我們要生成"一個(gè)女孩站在一只雞后面"的圖像。
**1. LLM規(guī)劃:智能"導(dǎo)演"的分鏡頭腳本**
ComposeAnything首先調(diào)用GPT-4.1這樣的大型語言模型,通過鏈?zhǔn)剿伎纪评恚╟hain-of-thought reasoning)將文本指令分解為結(jié)構(gòu)化的2.5D語義布局。這就像電影導(dǎo)演在拍攝前繪制詳細(xì)的分鏡頭腳本,規(guī)劃每個(gè)角色的位置、動(dòng)作和場(chǎng)景安排。
在我們的例子中,LLM會(huì)分析"一個(gè)女孩站在一只雞后面"這個(gè)指令,并提供以下信息:
- 物體描述:詳細(xì)描述每個(gè)物體的大小、朝向和外觀,如"穿藍(lán)色T恤、面向左側(cè)站立的小女孩"和"站在地面上的雞" - 邊界框:為每個(gè)物體指定2D空間位置,如女孩的框?yàn)閇550, 200, 780, 700],雞的框?yàn)閇300, 550, 600, 1000] - 深度值:反映每個(gè)物體的相對(duì)深度順序,如雞的深度為1(更靠近觀察者),女孩的深度為2(更遠(yuǎn)) - 背景描述:描述整個(gè)場(chǎng)景的背景 - 綜合描述:對(duì)整個(gè)圖像的簡(jiǎn)潔摘要
這種詳細(xì)的規(guī)劃為下一步的圖像生成提供了清晰的"藍(lán)圖",就像建筑師的設(shè)計(jì)圖紙指導(dǎo)建筑施工一樣。
**2. 復(fù)合物體先驗(yàn):從"草圖"到"模型"**
有了詳細(xì)的布局規(guī)劃后,ComposeAnything接下來會(huì)為每個(gè)物體生成獨(dú)立的圖像。這一步使用現(xiàn)有的T2I模型(如SD3-M)根據(jù)每個(gè)物體的描述生成單獨(dú)的圖像,然后通過Hyperseg模型提取物體及其分割掩碼。
這些獨(dú)立生成的物體隨后會(huì)按照邊界框和深度信息進(jìn)行縮放和組合,創(chuàng)建一個(gè)粗略的復(fù)合場(chǎng)景。在我們的例子中,系統(tǒng)會(huì)生成女孩和雞的獨(dú)立圖像,然后將它們按照規(guī)劃的位置組合起來,雞在前(更靠近觀察者),女孩在后。
這個(gè)復(fù)合場(chǎng)景就像電影制作中的實(shí)物模型或概念藝術(shù),為最終的圖像生成提供了強(qiáng)有力的視覺參考。與傳統(tǒng)擴(kuò)散模型使用的隨機(jī)噪聲初始化相比,這種復(fù)合物體先驗(yàn)包含了豐富的語義信息和空間關(guān)系,能夠更好地引導(dǎo)后續(xù)的圖像生成過程。
**3. 先驗(yàn)引導(dǎo)擴(kuò)散:從"模型"到"精細(xì)作品"**
有了復(fù)合物體先驗(yàn)后,ComposeAnything不是簡(jiǎn)單地從隨機(jī)噪聲開始生成圖像,而是將這個(gè)先驗(yàn)轉(zhuǎn)換為潛在空間的噪聲,并用它來引導(dǎo)擴(kuò)散過程。這一步包含兩個(gè)關(guān)鍵機(jī)制:
- 物體先驗(yàn)強(qiáng)化:在早期擴(kuò)散步驟中,系統(tǒng)會(huì)反復(fù)恢復(fù)前景物體先驗(yàn),同時(shí)允許背景自然生成,確保物體的語義完整性和空間結(jié)構(gòu)得到保留。就像電影后期制作中保留主要角色的表演,同時(shí)完善背景場(chǎng)景一樣。
- 空間控制去噪:通過掩碼引導(dǎo)的注意力機(jī)制,系統(tǒng)強(qiáng)化了復(fù)合先驗(yàn)的空間安排,特別是在早期擴(kuò)散步驟中確定整體結(jié)構(gòu)時(shí)。這就像電影導(dǎo)演確保每個(gè)演員都站在正確的位置上,同時(shí)保持整個(gè)場(chǎng)景的和諧與連貫。
在初始步驟之后,系統(tǒng)會(huì)切換到標(biāo)準(zhǔn)擴(kuò)散,讓模型自由完善圖像的質(zhì)量和連貫性,實(shí)現(xiàn)既忠實(shí)于原始指令又具有高視覺質(zhì)量的圖像生成。
通過這三個(gè)步驟的協(xié)同工作,ComposeAnything能夠處理極其復(fù)雜的空間關(guān)系和多物體組合,生成既符合指令又視覺精美的圖像。
三、實(shí)驗(yàn)結(jié)果:ComposeAnything的驚人表現(xiàn)
研究團(tuán)隊(duì)在T2I-CompBench和NSR-1K這兩個(gè)挑戰(zhàn)性測(cè)試基準(zhǔn)上評(píng)估了ComposeAnything的性能。這些基準(zhǔn)包含了豐富的空間關(guān)系、物體計(jì)數(shù)和復(fù)雜組合的測(cè)試案例,能夠全面檢驗(yàn)?zāi)P偷慕M合生成能力。
在T2I-CompBench的四個(gè)類別(2D空間、物體計(jì)數(shù)、3D空間和復(fù)雜組合)上,ComposeAnything的表現(xiàn)遠(yuǎn)超所有現(xiàn)有方法。與基礎(chǔ)模型SD3-M相比,它在2D空間類別上提升了16.9個(gè)百分點(diǎn),在物體計(jì)數(shù)上提升了7.9個(gè)百分點(diǎn),在3D空間關(guān)系上提升了驚人的27.7個(gè)百分點(diǎn),在復(fù)雜組合上也有0.9個(gè)百分點(diǎn)的提升。
在NSR-1K基準(zhǔn)上,ComposeAnything同樣取得了顯著優(yōu)勢(shì),在空間關(guān)系和物體計(jì)數(shù)類別上分別比SD3-M提高了19.0和14.7個(gè)百分點(diǎn)。
這些數(shù)字可能看起來有些抽象,讓我們通過一些具體例子來直觀感受ComposeAnything的強(qiáng)大能力:
**復(fù)雜物體計(jì)數(shù)與組合**:"兩只長頸鹿、兩個(gè)面包、三個(gè)雞蛋、四個(gè)草莓和三個(gè)微波爐" - SD3-M和FLUX等模型在面對(duì)這種復(fù)雜指令時(shí)往往會(huì)混淆物體數(shù)量,甚至將物體"卡通化"以犧牲真實(shí)感 - ComposeAnything則能準(zhǔn)確生成正確數(shù)量的各類物體,同時(shí)保持真實(shí)感和圖像質(zhì)量
**超現(xiàn)實(shí)空間關(guān)系**:"一個(gè)氣球在雞的底部" - 傳統(tǒng)模型難以理解這種非常規(guī)空間關(guān)系,往往會(huì)生成氣球飄在雞上方的常規(guī)場(chǎng)景 - ComposeAnything能夠準(zhǔn)確理解并呈現(xiàn)出雞站在氣球上的超現(xiàn)實(shí)場(chǎng)景
**復(fù)雜3D關(guān)系**:"一只雞被時(shí)鐘擋住" - 現(xiàn)有模型在處理"被...擋住"這類3D關(guān)系時(shí)往往會(huì)失敗,生成并排或混合的物體 - ComposeAnything能夠正確呈現(xiàn)時(shí)鐘前面有一只雞的場(chǎng)景,準(zhǔn)確反映3D空間關(guān)系
人類評(píng)估結(jié)果進(jìn)一步證實(shí)了ComposeAnything的優(yōu)勢(shì)。研究團(tuán)隊(duì)隨機(jī)選取了T2I-CompBench中的30個(gè)提示詞,讓人類評(píng)估者比較ComposeAnything與RPG和CreatiLayout生成的圖像。在2D空間、3D空間和物體計(jì)數(shù)三個(gè)類別上,ComposeAnything都以顯著優(yōu)勢(shì)勝出,證明它在提示詞一致性和圖像質(zhì)量方面的卓越表現(xiàn)。
四、技術(shù)深度解析:ComposeAnything如何工作?
現(xiàn)在,讓我們更深入地了解ComposeAnything的技術(shù)細(xì)節(jié),看看它是如何實(shí)現(xiàn)這些驚人成果的。
**LLM規(guī)劃的精妙之處**
ComposeAnything使用GPT-4.1作為"智能規(guī)劃師",通過精心設(shè)計(jì)的提示詞引導(dǎo)LLM進(jìn)行鏈?zhǔn)剿伎纪评?。這個(gè)過程包括幾個(gè)關(guān)鍵步驟:
1. 首先,LLM會(huì)分析輸入文本,識(shí)別可分離的物體元素和它們的屬性,如數(shù)量、顏色、大小等 2. 然后,它會(huì)考慮物體之間的2D和3D空間關(guān)系,確定每個(gè)物體的相對(duì)位置和深度 3. 對(duì)于糾纏在一起難以分離的物體(如"戴戒指的女人"),LLM會(huì)將它們視為單一物體處理 4. 最后,LLM會(huì)為每個(gè)物體生成獨(dú)立的描述、邊界框和深度值,以及整個(gè)場(chǎng)景的綜合描述
這種基于LLM的規(guī)劃方法比簡(jiǎn)單的規(guī)則或模板更靈活,能夠處理各種復(fù)雜的語言描述和隱含關(guān)系。
**復(fù)合物體先驗(yàn)的創(chuàng)新**
ComposeAnything的一個(gè)關(guān)鍵創(chuàng)新是將布局規(guī)劃轉(zhuǎn)化為視覺化的復(fù)合物體先驗(yàn)。這一步包括:
1. 使用SD3-M等T2I模型根據(jù)每個(gè)物體的獨(dú)立描述生成單獨(dú)的物體圖像 2. 使用Hyperseg模型為每個(gè)物體提取準(zhǔn)確的分割掩碼 3. 根據(jù)布局規(guī)劃中的邊界框?qū)ξ矬w進(jìn)行縮放和定位 4. 按照深度值從后到前組合物體,確保正確的遮擋關(guān)系 5. 將組合后的場(chǎng)景編碼為潛在空間的噪聲,用于指導(dǎo)擴(kuò)散過程
這種方法的優(yōu)勢(shì)在于它提供了一個(gè)強(qiáng)大的視覺化先驗(yàn),包含了物體的外觀、數(shù)量、大小和2.5D空間關(guān)系信息,遠(yuǎn)比簡(jiǎn)單的邊界框或文本條件更有信息量。
**先驗(yàn)引導(dǎo)擴(kuò)散的雙重機(jī)制**
ComposeAnything的先驗(yàn)引導(dǎo)擴(kuò)散過程包含兩個(gè)相互補(bǔ)充的機(jī)制:
1. **物體先驗(yàn)強(qiáng)化**:在從時(shí)間步T到tp的去噪過程中,系統(tǒng)會(huì)在每一步后恢復(fù)前景區(qū)域的原始物體先驗(yàn),同時(shí)保留去噪后的背景。這確保了前景物體的語義完整性和空間結(jié)構(gòu)在早期去噪步驟中得到保留,同時(shí)允許背景在前景物體的存在下自然生成。
2. **空間控制去噪**:ComposeAnything利用SD3中的多模態(tài)擴(kuò)散變換器架構(gòu),實(shí)現(xiàn)了區(qū)域級(jí)的空間控制。它將圖像潛在變量分割為基礎(chǔ)潛在變量和物體-背景潛在變量,后者進(jìn)一步分割為各個(gè)物體和背景區(qū)域。每個(gè)區(qū)域與其對(duì)應(yīng)的文本嵌入連接并通過聯(lián)合自注意力處理,實(shí)現(xiàn)精確的區(qū)域級(jí)控制,同時(shí)保持全局視覺一致性。
這兩種機(jī)制的結(jié)合使ComposeAnything能夠在保持物體完整性和空間關(guān)系的同時(shí),生成連貫自然的背景和高質(zhì)量圖像。
**超參數(shù)的平衡藝術(shù)**
ComposeAnything的性能受兩個(gè)關(guān)鍵超參數(shù)的影響:
1. **tp**:決定在前向擴(kuò)散中對(duì)先驗(yàn)圖像采樣和應(yīng)用噪聲的時(shí)間步。較低的tp值意味著更強(qiáng)的先驗(yàn)強(qiáng)度,增加忠實(shí)度但減少生成靈活性。
2. **Nsc**:決定空間控制去噪的步數(shù)。較高的值強(qiáng)化空間控制,但可能導(dǎo)致圖像質(zhì)量下降。
研究團(tuán)隊(duì)通過實(shí)驗(yàn)發(fā)現(xiàn),設(shè)置tp為對(duì)應(yīng)91.3%噪聲水平(在Flow匹配計(jì)劃中)和Nsc=3步,能夠在忠實(shí)度和圖像質(zhì)量之間取得最佳平衡。
五、ComposeAnything的優(yōu)勢(shì)與局限
通過深入分析,我們可以總結(jié)出ComposeAnything的幾個(gè)顯著優(yōu)勢(shì):
1. **免訓(xùn)練框架**:ComposeAnything不需要重新訓(xùn)練現(xiàn)有的T2I模型,可以直接應(yīng)用于任何擴(kuò)散型T2I模型,大大降低了應(yīng)用門檻。
2. **強(qiáng)大的組合能力**:它能夠處理復(fù)雜的空間關(guān)系、高物體數(shù)量和超現(xiàn)實(shí)組合,遠(yuǎn)超現(xiàn)有方法的表現(xiàn)。
3. **可解釋性**:通過生成明確的2.5D語義布局和復(fù)合物體先驗(yàn),ComposeAnything的生成過程變得更加透明和可解釋。
4. **平衡的質(zhì)量與控制**:它在保持強(qiáng)空間控制的同時(shí),通過靈活的生成過程保證了圖像質(zhì)量和連貫性。
5. **適應(yīng)性強(qiáng)**:該框架適用于各種復(fù)雜場(chǎng)景,包括常規(guī)空間關(guān)系、超現(xiàn)實(shí)組合和高物體數(shù)量的場(chǎng)景。
然而,ComposeAnything也存在一些局限:
1. **對(duì)LLM規(guī)劃的依賴**:系統(tǒng)性能很大程度上依賴于LLM規(guī)劃的質(zhì)量。如果LLM生成的布局不準(zhǔn)確,最終圖像質(zhì)量可能會(huì)受到影響。
2. **3D知識(shí)的局限**:雖然ComposeAnything比現(xiàn)有方法更好地處理3D關(guān)系,但它在擴(kuò)散模型中缺乏完整的3D知識(shí),在極其復(fù)雜的3D場(chǎng)景中可能會(huì)失敗。
3. **計(jì)算開銷**:生成復(fù)合物體先驗(yàn)和執(zhí)行先驗(yàn)引導(dǎo)擴(kuò)散需要額外的計(jì)算資源,可能增加生成時(shí)間。
六、未來展望:ComposeAnything開啟的可能性
ComposeAnything不僅解決了當(dāng)前T2I模型在復(fù)雜組合生成方面的挑戰(zhàn),還為未來研究開辟了新方向:
1. **增強(qiáng)的多模態(tài)理解**:通過結(jié)合LLM的推理能力和擴(kuò)散模型的生成能力,ComposeAnything展示了多模態(tài)協(xié)同的巨大潛力。未來研究可以進(jìn)一步探索這種協(xié)同,開發(fā)出對(duì)語言指令理解更深入的生成系統(tǒng)。
2. **更精細(xì)的3D控制**:雖然ComposeAnything引入了2.5D語義布局,但未來可以探索更完整的3D場(chǎng)景表示和控制方法,可能通過引入專門的3D理解模型來增強(qiáng)空間關(guān)系的表達(dá)。
3. **更高效的先驗(yàn)生成**:當(dāng)前的復(fù)合物體先驗(yàn)生成過程需要為每個(gè)物體單獨(dú)生成圖像。未來可以研究更高效的先驗(yàn)生成方法,可能通過單次生成或模型蒸餾來減少計(jì)算開銷。
4. **更廣泛的應(yīng)用場(chǎng)景**:ComposeAnything的框架可以擴(kuò)展到視頻生成、3D內(nèi)容創(chuàng)建等更廣泛的應(yīng)用場(chǎng)景,為創(chuàng)意內(nèi)容生成提供更強(qiáng)大的工具。
ComposeAnything的出現(xiàn)標(biāo)志著AI圖像生成向著更高級(jí)的語義理解和空間感知能力邁進(jìn)了一大步。它不僅提高了生成圖像的質(zhì)量和忠實(shí)度,還增強(qiáng)了AI系統(tǒng)對(duì)復(fù)雜人類指令的理解能力,為未來人機(jī)交互和內(nèi)容創(chuàng)作開辟了新的可能性。
當(dāng)我們展望未來,可以想象這項(xiàng)技術(shù)將如何改變創(chuàng)意工作者的工作方式——設(shè)計(jì)師可以通過自然語言描述復(fù)雜場(chǎng)景,AI助手能夠準(zhǔn)確理解并生成符合要求的圖像;電影制作人可以快速生成分鏡頭草圖;教育工作者可以創(chuàng)建復(fù)雜的教學(xué)插圖。這些應(yīng)用不僅提高了工作效率,還將創(chuàng)意表達(dá)的門檻降低,讓更多人能夠?qū)⒛X海中的想象轉(zhuǎn)化為視覺作品。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。