這項(xiàng)由中國(guó)科學(xué)技術(shù)大學(xué)聯(lián)合HiDream.ai公司完成的突破性研究發(fā)表于2025年8月,論文標(biāo)題為《Visual Autoregressive Modeling for Instruction-Guided Image Editing》。感興趣的讀者可以通過(guò)arXiv:2508.15772訪問(wèn)完整論文。研究團(tuán)隊(duì)包括中科大的毛清洋、程明月、劉淇等研究者,以及HiDream.ai公司的蔡琦、李業(yè)豪、潘穎維、姚婷、梅濤等專(zhuān)家。
當(dāng)你對(duì)著一張照片說(shuō)"把這個(gè)人的帽子換成皇冠",或者"給蛋糕上寫(xiě)生日快樂(lè)"時(shí),AI能準(zhǔn)確理解并完成這些復(fù)雜的圖片編輯任務(wù)嗎?這聽(tīng)起來(lái)像是科幻電影中的場(chǎng)景,但現(xiàn)在已經(jīng)成為現(xiàn)實(shí)。不過(guò),即使是最先進(jìn)的AI圖片編輯工具,仍然面臨著兩個(gè)令人頭疼的問(wèn)題:要么編輯得不夠精確,要么速度太慢。
設(shè)想這樣一個(gè)場(chǎng)景:你想讓AI把照片中的棒球換成皇冠。傳統(tǒng)的AI編輯工具就像一個(gè)過(guò)于熱心但經(jīng)驗(yàn)不足的修圖師,它不僅會(huì)把棒球換成皇冠,還可能順便把背景的顏色也改了,或者把旁邊本該保持不變的桿子也給刪掉了。這種現(xiàn)象被研究者稱(chēng)為"編輯溢出",就像用水彩畫(huà)時(shí)顏料不小心滲透到不該著色的地方一樣。
這個(gè)問(wèn)題的根源在于目前主流的AI編輯技術(shù)采用了一種叫做"擴(kuò)散模型"的方法。擴(kuò)散模型的工作原理就像在一張充滿噪點(diǎn)的畫(huà)布上逐步還原圖像,每一步都要考慮整張圖片的信息。雖然這種方法能產(chǎn)生高質(zhì)量的圖像,但正是這種"全局處理"的特性讓它很難做到精準(zhǔn)編輯。就好比你想只修改房間里的一面墻,但裝修師傅卻堅(jiān)持要重新粉刷整個(gè)房間一樣。
而且,擴(kuò)散模型的速度問(wèn)題也很突出。由于需要進(jìn)行多次迭代處理,編輯一張512×512像素的圖片往往需要好幾秒鐘,這對(duì)于需要實(shí)時(shí)編輯或大批量處理的應(yīng)用場(chǎng)景來(lái)說(shuō)顯然不夠理想。
中國(guó)科學(xué)技術(shù)大學(xué)的研究團(tuán)隊(duì)敏銳地察覺(jué)到了這些問(wèn)題,并提出了一個(gè)全新的解決方案:VAREdit。這個(gè)名字來(lái)源于"Visual Autoregressive",也就是"視覺(jué)自回歸"的意思。雖然聽(tīng)起來(lái)很專(zhuān)業(yè),但其核心思想其實(shí)很容易理解。
自回歸模型的工作方式就像我們寫(xiě)作文一樣,是一個(gè)字一個(gè)字、一句一句往下寫(xiě)的過(guò)程。每寫(xiě)一個(gè)字,都會(huì)參考前面已經(jīng)寫(xiě)好的內(nèi)容,然后決定下一個(gè)字該寫(xiě)什么。這種"順序生成"的方式天然地避免了擴(kuò)散模型那種"全局糾纏"的問(wèn)題。
但是,傳統(tǒng)的自回歸模型在處理圖像時(shí)會(huì)遇到一個(gè)棘手的問(wèn)題:圖像不像文字那樣有明確的閱讀順序。如果簡(jiǎn)單地把圖像按從左到右、從上到下的順序來(lái)處理,就會(huì)丟失很多重要的空間關(guān)系信息,導(dǎo)致生成的圖像質(zhì)量下降。
VAREdit采用了一種巧妙的多尺度預(yù)測(cè)策略來(lái)解決這個(gè)問(wèn)題。這就好比畫(huà)家作畫(huà)的過(guò)程:先畫(huà)出整體的輪廓和大的色塊,然后逐步添加細(xì)節(jié)。VAREdit首先生成圖像的粗略版本,然后一層層地增加細(xì)節(jié),最終得到完整的高清圖像。這種從粗到細(xì)的處理方式既保持了自回歸模型的優(yōu)勢(shì),又很好地處理了圖像的空間信息。
在VAREdit的世界里,每張圖片都被分解為多個(gè)不同精細(xì)程度的"版本",就像俄羅斯套娃一樣,最外層是最粗糙的輪廓,最內(nèi)層是最精細(xì)的細(xì)節(jié)。當(dāng)需要編輯圖片時(shí),VAREdit會(huì)根據(jù)編輯指令,從最粗糙的版本開(kāi)始,一層層地預(yù)測(cè)應(yīng)該如何修改,直到生成完整的編輯結(jié)果。
這種方法的美妙之處在于它的"組合性":想保持不變的區(qū)域可以直接復(fù)制原圖的對(duì)應(yīng)部分,而需要修改的區(qū)域則會(huì)根據(jù)指令生成新的內(nèi)容。這就像積木搭建一樣,你可以保留原有的部分結(jié)構(gòu),只替換需要改變的積木塊,從而實(shí)現(xiàn)精準(zhǔn)編輯。
研究團(tuán)隊(duì)在設(shè)計(jì)VAREdit時(shí)遇到了一個(gè)關(guān)鍵的技術(shù)挑戰(zhàn):如何讓系統(tǒng)有效地參考原始圖像的信息?最直觀的方法是讓系統(tǒng)同時(shí)查看原圖的所有精細(xì)程度版本,但這樣做會(huì)大大增加計(jì)算量,就像讓一個(gè)廚師同時(shí)參考十幾本不同的菜譜來(lái)做一道菜一樣,效率很低。
另一個(gè)極端是只讓系統(tǒng)參考最精細(xì)的原圖版本,這樣計(jì)算效率很高,但會(huì)產(chǎn)生"尺度不匹配"的問(wèn)題。當(dāng)系統(tǒng)需要生成粗糙版本的編輯結(jié)果時(shí),參考過(guò)于精細(xì)的原圖信息就像用顯微鏡觀察整片森林一樣,反而看不清全貌。
為了解決這個(gè)矛盾,研究團(tuán)隊(duì)進(jìn)行了深入的分析,發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:在神經(jīng)網(wǎng)絡(luò)的處理過(guò)程中,只有第一層真正需要"尺度匹配"的信息,而后續(xù)層次主要處理局部細(xì)節(jié),用最精細(xì)的信息就足夠了。
基于這個(gè)發(fā)現(xiàn),他們?cè)O(shè)計(jì)了一個(gè)叫做"尺度對(duì)齊參考"(SAR)的巧妙機(jī)制。這個(gè)機(jī)制就像一個(gè)智能的信息分發(fā)系統(tǒng):在處理的第一階段,它會(huì)根據(jù)當(dāng)前需要生成的精細(xì)程度,動(dòng)態(tài)地為系統(tǒng)提供匹配的原圖參考信息;而在后續(xù)階段,則統(tǒng)一使用最精細(xì)的原圖信息進(jìn)行局部細(xì)節(jié)處理。
這種設(shè)計(jì)既保證了編輯的精準(zhǔn)度,又維持了高效的計(jì)算速度,可謂一舉兩得。就像一個(gè)經(jīng)驗(yàn)豐富的導(dǎo)演,知道在什么時(shí)候應(yīng)該看全景,什么時(shí)候應(yīng)該關(guān)注特寫(xiě),從而拍出既有整體感又有細(xì)節(jié)表現(xiàn)力的完美鏡頭。
一、革命性的多尺度預(yù)測(cè)機(jī)制
VAREdit的核心創(chuàng)新在于其獨(dú)特的多尺度預(yù)測(cè)機(jī)制,這就像是給AI裝上了一副"漸進(jìn)式眼鏡",讓它能夠從整體到局部、從粗糙到精細(xì)地理解和編輯圖像。
傳統(tǒng)的圖像編輯AI就像一個(gè)只會(huì)平面思考的畫(huà)家,它把整張圖片當(dāng)作一個(gè)平面來(lái)處理,無(wú)法很好地把握?qǐng)D像的層次結(jié)構(gòu)。而VAREdit則像一個(gè)經(jīng)驗(yàn)豐富的藝術(shù)家,深刻理解從構(gòu)圖到細(xì)節(jié)的各個(gè)創(chuàng)作層次。
在VAREdit的工作流程中,每張圖片都會(huì)被轉(zhuǎn)換成一系列不同分辨率的"殘差圖"。這些殘差圖就像是建筑圖紙中的不同視圖:最粗糙的版本展示了建筑的整體輪廓和主要結(jié)構(gòu),而逐漸精細(xì)的版本則添加了越來(lái)越多的建筑細(xì)節(jié),直到最終的版本包含了所有的裝飾和精細(xì)構(gòu)造。
這種分層表示的巧妙之處在于,每一層都只包含該精細(xì)程度下的"新增信息",而不是簡(jiǎn)單地重復(fù)之前層次的內(nèi)容。就好比繪制一幅油畫(huà)時(shí),第一層是基本的色調(diào)和構(gòu)圖,第二層添加主要物體的輪廓,第三層加入陰影和光線效果,最后一層才是細(xì)致的紋理和高光。每一層都在前一層的基礎(chǔ)上增加新的視覺(jué)元素。
當(dāng)VAREdit接到一個(gè)編輯指令時(shí),比如"把這只棕色的熊換成黑色",它不會(huì)像傳統(tǒng)方法那樣一次性處理整個(gè)編輯任務(wù)。相反,它會(huì)從最粗糙的層次開(kāi)始工作。在第一層,它識(shí)別出熊的大致位置和形狀,確定需要修改的區(qū)域范圍。在第二層,它開(kāi)始調(diào)整熊的基本顏色分布。到了第三層,它處理顏色過(guò)渡和邊緣效果。最終在最精細(xì)的層次上,它完善所有的毛發(fā)紋理和細(xì)微的色彩變化。
這種逐層處理的方式帶來(lái)了幾個(gè)顯著優(yōu)勢(shì)。首先是編輯的精確性大大提高,因?yàn)橄到y(tǒng)在每個(gè)層次上都有清晰的任務(wù)重點(diǎn),不會(huì)產(chǎn)生不必要的干擾。其次是計(jì)算效率的提升,因?yàn)榇植趯哟蔚挠?jì)算量很小,而細(xì)節(jié)層次又是在之前工作的基礎(chǔ)上進(jìn)行的,避免了重復(fù)計(jì)算。
更重要的是,這種方法天然地支持"組合式編輯"。當(dāng)系統(tǒng)處理某個(gè)層次時(shí),它可以選擇保留原圖該層次的信息(對(duì)于不需要編輯的區(qū)域),或者生成新的信息(對(duì)于需要編輯的區(qū)域)。這就像拼圖游戲一樣,你可以保留正確的拼圖塊,只替換需要改變的部分。
研究團(tuán)隊(duì)在實(shí)際測(cè)試中發(fā)現(xiàn),這種多尺度方法在處理復(fù)雜編輯任務(wù)時(shí)表現(xiàn)得尤其出色。比如在處理"在蛋糕上寫(xiě)生日快樂(lè)"這樣的任務(wù)時(shí),粗糙層次負(fù)責(zé)確定文字的整體位置和大小,中等精細(xì)層次處理文字的字體風(fēng)格和顏色,而最精細(xì)層次則確保文字邊緣的平滑度和與蛋糕表面的自然融合。
這種分工明確的處理方式不僅提高了編輯質(zhì)量,還大大減少了常見(jiàn)的編輯錯(cuò)誤。傳統(tǒng)方法經(jīng)常會(huì)出現(xiàn)文字扭曲、邊緣模糊或者色彩不協(xié)調(diào)等問(wèn)題,而VAREdit的多尺度機(jī)制能夠在每個(gè)層次上都進(jìn)行專(zhuān)門(mén)的優(yōu)化,從而避免這些問(wèn)題。
二、尺度對(duì)齊參考模塊的技術(shù)突破
在VAREdit的開(kāi)發(fā)過(guò)程中,研究團(tuán)隊(duì)遇到了一個(gè)看似矛盾的技術(shù)難題。一方面,為了確保編輯的準(zhǔn)確性,AI系統(tǒng)需要充分了解原始圖像的信息;另一方面,為了保持高效的處理速度,又不能讓系統(tǒng)被過(guò)多的信息所拖累。這就像要求一個(gè)翻譯在既要深入理解原文各個(gè)層面的含義,又要快速產(chǎn)出譯文,這兩個(gè)要求之間存在天然的張力。
最直接的解決方案是讓系統(tǒng)同時(shí)參考原圖的所有精細(xì)層次,這樣可以確保信息的完整性,但計(jì)算成本會(huì)呈指數(shù)級(jí)增長(zhǎng)。另一個(gè)極端是只讓系統(tǒng)參考最精細(xì)的原圖版本,雖然計(jì)算效率很高,但會(huì)導(dǎo)致嚴(yán)重的"信息不對(duì)稱(chēng)"問(wèn)題。
為了深入理解這個(gè)問(wèn)題,研究團(tuán)隊(duì)進(jìn)行了一系列精巧的實(shí)驗(yàn)分析。他們訓(xùn)練了一個(gè)能夠訪問(wèn)原圖所有精細(xì)層次的完整版本VAREdit,然后仔細(xì)觀察系統(tǒng)在處理過(guò)程中是如何分配注意力的。
這些分析揭示了一個(gè)fascinating的現(xiàn)象:在神經(jīng)網(wǎng)絡(luò)的處理流程中,不同層次對(duì)信息的需求截然不同。第一個(gè)處理層就像一個(gè)城市規(guī)劃師,它需要從高空俯視整個(gè)區(qū)域,了解大致的地形地貌、主要建筑群的分布,以及道路網(wǎng)絡(luò)的整體布局。這個(gè)層次的工作重點(diǎn)是建立全局的空間關(guān)系和確定主要編輯區(qū)域。
而后續(xù)的處理層則更像建筑工人和裝修師傅,他們關(guān)注的是具體的施工細(xì)節(jié):磚瓦如何鋪設(shè)、油漆如何調(diào)色、線條如何勾勒。對(duì)于這些局部作業(yè)來(lái)說(shuō),最精細(xì)的原圖信息就已經(jīng)足夠,過(guò)多的全局信息反而可能造成干擾。
基于這個(gè)重要發(fā)現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了尺度對(duì)齊參考(SAR)模塊。這個(gè)模塊的工作原理非常巧妙:當(dāng)系統(tǒng)需要生成某個(gè)特定精細(xì)度的編輯結(jié)果時(shí),SAR會(huì)動(dòng)態(tài)地從最精細(xì)的原圖中"提取"出匹配該精細(xì)度的參考信息。
這個(gè)過(guò)程就像一個(gè)智能的照片沖洗系統(tǒng)。當(dāng)你需要不同尺寸的照片時(shí),系統(tǒng)不會(huì)儲(chǔ)存多個(gè)不同尺寸的原始照片文件,而是保留一個(gè)高分辨率的母版,然后根據(jù)需要?jiǎng)討B(tài)地生成相應(yīng)尺寸的版本。SAR模塊采用了類(lèi)似的思路,通過(guò)智能的下采樣技術(shù),從精細(xì)的原圖中實(shí)時(shí)生成各個(gè)層次需要的參考信息。
更關(guān)鍵的是,SAR模塊只在第一個(gè)處理層發(fā)揮作用。在這個(gè)階段,它為系統(tǒng)提供了與當(dāng)前處理層次完美匹配的參考信息,幫助系統(tǒng)建立正確的全局理解。而在后續(xù)所有處理層中,系統(tǒng)統(tǒng)一使用最精細(xì)的原圖信息,專(zhuān)注于局部細(xì)節(jié)的處理。
這種設(shè)計(jì)的巧妙之處在于它實(shí)現(xiàn)了"魚(yú)和熊掌兼得":既保證了第一層的全局理解準(zhǔn)確性,又維持了整體系統(tǒng)的計(jì)算效率。就像一個(gè)高明的管理者,他知道在什么時(shí)候需要提供什么樣的信息,避免信息過(guò)載的同時(shí)確保決策質(zhì)量。
在實(shí)際應(yīng)用中,SAR模塊的效果非常顯著。研究團(tuán)隊(duì)發(fā)現(xiàn),配備了SAR模塊的VAREdit在處理復(fù)雜編輯任務(wù)時(shí),編輯準(zhǔn)確度比簡(jiǎn)單的精細(xì)層次參考方法提高了約8%,同時(shí)比完整多層次參考方法快了60%以上。這種性能提升在處理需要精確保留原始內(nèi)容的編輯任務(wù)時(shí)尤其明顯。
比如在處理"移除杯子里的兔子"這樣的任務(wù)時(shí),SAR模塊幫助系統(tǒng)在第一層準(zhǔn)確定位兔子的位置和杯子的邊界,確保移除操作不會(huì)影響到杯子本身或周?chē)谋尘啊6诤罄m(xù)層次中,系統(tǒng)利用精細(xì)的原圖信息來(lái)完美重建杯子內(nèi)部應(yīng)該顯示的背景內(nèi)容,確保編輯結(jié)果看起來(lái)自然真實(shí)。
三、實(shí)驗(yàn)驗(yàn)證與性能突破
為了驗(yàn)證VAREdit的實(shí)際效果,研究團(tuán)隊(duì)進(jìn)行了一系列全面而嚴(yán)格的測(cè)試。他們選擇了兩個(gè)在學(xué)術(shù)界廣泛認(rèn)可的基準(zhǔn)數(shù)據(jù)集:EMU-Edit和PIE-Bench,這些數(shù)據(jù)集就像是圖像編輯領(lǐng)域的"高考試卷",包含了各種類(lèi)型和難度的編輯任務(wù)。
EMU-Edit數(shù)據(jù)集包含3589個(gè)測(cè)試樣本,覆蓋8種不同類(lèi)型的編輯任務(wù),從簡(jiǎn)單的顏色修改到復(fù)雜的物體替換,從局部的細(xì)節(jié)調(diào)整到整體的風(fēng)格變換。PIE-Bench數(shù)據(jù)集則包含700個(gè)樣本,涵蓋10種編輯類(lèi)型,特別注重測(cè)試AI對(duì)編輯指令的理解準(zhǔn)確度和執(zhí)行精度。
在傳統(tǒng)的評(píng)估方法中,研究者主要依賴(lài)CLIP這樣的技術(shù)指標(biāo)來(lái)衡量編輯質(zhì)量。CLIP就像一個(gè)簡(jiǎn)單的視覺(jué)理解系統(tǒng),它能夠判斷編輯后的圖像是否與指令描述相匹配,以及編輯前后圖像的相似性。但這種評(píng)估方法存在明顯的局限性,就像只通過(guò)考試成績(jī)來(lái)評(píng)判學(xué)生的能力一樣,往往無(wú)法全面反映真實(shí)的編輯質(zhì)量。
為了更準(zhǔn)確地評(píng)估編輯效果,研究團(tuán)隊(duì)引入了基于GPT-4o的評(píng)估系統(tǒng)。這個(gè)系統(tǒng)就像請(qǐng)來(lái)了一位經(jīng)驗(yàn)豐富的專(zhuān)業(yè)評(píng)委,不僅能夠判斷編輯是否成功完成了指令要求,還能評(píng)估編輯過(guò)程中是否產(chǎn)生了不必要的副作用。
具體來(lái)說(shuō),這個(gè)評(píng)估系統(tǒng)會(huì)給出兩個(gè)分?jǐn)?shù):GPT-成功分?jǐn)?shù)衡量編輯指令的執(zhí)行程度,滿分10分;GPT-過(guò)度編輯分?jǐn)?shù)評(píng)估編輯是否影響了本應(yīng)保持不變的區(qū)域,同樣滿分10分。然后,系統(tǒng)計(jì)算這兩個(gè)分?jǐn)?shù)的調(diào)和平均值作為GPT-平衡分?jǐn)?shù),這就像體操比賽中的綜合得分,既考慮技術(shù)難度的完成情況,也重視動(dòng)作的整體協(xié)調(diào)性。
測(cè)試結(jié)果令人印象深刻。VAREdit-8.4B模型(擁有84億個(gè)參數(shù))在EMU-Edit數(shù)據(jù)集上獲得了6.77的GPT-平衡分?jǐn)?shù),在PIE-Bench上獲得了7.30分。相比之下,目前最強(qiáng)的競(jìng)爭(zhēng)對(duì)手ICEdit在EMU-Edit上只獲得了4.78分,UltraEdit在PIE-Bench上獲得了5.58分。這意味著VAREdit的綜合編輯質(zhì)量比最強(qiáng)競(jìng)爭(zhēng)對(duì)手提高了30%以上。
更令人驚喜的是VAREdit在處理速度方面的表現(xiàn)。VAREdit-8.4B能夠在1.2秒內(nèi)完成一張512×512像素圖片的編輯,這比同等規(guī)模的UltraEdit模型快了2.2倍,比更大規(guī)模的ICEdit模型快了7倍。而VAREdit-2.2B模型更是能在0.7秒內(nèi)完成編輯,在保證質(zhì)量的同時(shí)實(shí)現(xiàn)了接近實(shí)時(shí)的處理速度。
研究團(tuán)隊(duì)還對(duì)不同類(lèi)型的編輯任務(wù)進(jìn)行了細(xì)致的分析。結(jié)果顯示,VAREdit在幾乎所有編輯類(lèi)型上都表現(xiàn)出色,特別是在物體添加、移除、顏色修改和材質(zhì)變換等常見(jiàn)任務(wù)上優(yōu)勢(shì)明顯。
在物體添加任務(wù)中,比如"給女人的頭發(fā)加花朵",傳統(tǒng)方法經(jīng)常會(huì)出現(xiàn)花朵位置不自然、顏色不協(xié)調(diào)或者影響到頭發(fā)原有形狀的問(wèn)題。而VAREdit能夠準(zhǔn)確理解頭發(fā)的結(jié)構(gòu),在合適的位置添加協(xié)調(diào)的花朵裝飾,同時(shí)完美保持頭發(fā)的自然狀態(tài)。
在物體移除任務(wù)中,比如"移除杯子里的兔子",很多現(xiàn)有方法要么無(wú)法徹底移除兔子,留下明顯的痕跡,要么在移除過(guò)程中破壞了杯子的形狀或背景的連續(xù)性。VAREdit則能夠做到干凈利落的移除,并智能地重建杯子內(nèi)部應(yīng)該顯示的背景內(nèi)容。
在顏色和材質(zhì)修改任務(wù)中,VAREdit展現(xiàn)出了特別精準(zhǔn)的控制能力。比如在"把棕色熊改成黑色"的任務(wù)中,系統(tǒng)不僅能夠準(zhǔn)確識(shí)別熊的邊界,避免顏色變化影響到周?chē)h(huán)境,還能保持熊毛發(fā)的自然紋理和光影效果,讓顏色變化看起來(lái)完全真實(shí)。
特別值得一提的是,VAREdit在處理復(fù)雜的文本編輯任務(wù)時(shí)也表現(xiàn)出色。在"在蛋糕上寫(xiě)生日快樂(lè)"這樣的任務(wù)中,系統(tǒng)不僅要處理文字的形狀和顏色,還要考慮文字與蛋糕表面的透視關(guān)系、光影效果和材質(zhì)融合。VAREdit-8.4B在這類(lèi)任務(wù)上的表現(xiàn)比2.2B版本提升了215%以上,充分展示了模型規(guī)模擴(kuò)展帶來(lái)的能力提升。
四、技術(shù)架構(gòu)的深度解析
VAREdit的技術(shù)架構(gòu)就像一座精心設(shè)計(jì)的現(xiàn)代化工廠,每個(gè)組件都有明確的分工,整體協(xié)調(diào)運(yùn)轉(zhuǎn)以實(shí)現(xiàn)高效的圖像編輯生產(chǎn)流程。
整個(gè)系統(tǒng)的起點(diǎn)是多尺度視覺(jué)編碼器,這個(gè)組件就像一個(gè)經(jīng)驗(yàn)豐富的攝影師,能夠從不同的角度和距離觀察同一張照片。它接收原始圖片和編輯指令,然后將圖片分解成多個(gè)不同精細(xì)程度的表示。這個(gè)過(guò)程采用了一種叫做"向量量化"的技術(shù),簡(jiǎn)單來(lái)說(shuō)就是用一組預(yù)先定義的"視覺(jué)詞匯"來(lái)描述圖像的各個(gè)部分。
就像我們用文字描述一幅畫(huà)時(shí)會(huì)說(shuō)"左上角有一棵綠色的大樹(shù),右下角是藍(lán)色的小湖",視覺(jué)編碼器也用它的"視覺(jué)詞匯"來(lái)描述圖像:"位置A是紋理類(lèi)型X,位置B是顏色類(lèi)型Y"。這種描述方式的好處是標(biāo)準(zhǔn)化和高效,就像用統(tǒng)一的零件來(lái)組裝不同的機(jī)器一樣。
編碼后的多尺度表示被送入VAREdit的核心組件:VAR Transformer。這個(gè)組件是整個(gè)系統(tǒng)的"大腦",負(fù)責(zé)理解編輯指令并決定如何修改圖像。VAR Transformer基于注意力機(jī)制工作,這種機(jī)制就像一個(gè)能夠同時(shí)關(guān)注多個(gè)信息源的超級(jí)大腦。
在處理編輯任務(wù)時(shí),VAR Transformer需要同時(shí)考慮三類(lèi)信息:編輯指令(告訴它要做什么)、原始圖像信息(告訴它現(xiàn)在是什么樣的)、以及已經(jīng)生成的部分編輯結(jié)果(告訴它已經(jīng)做了什么)。這就像一個(gè)廚師在烹飪時(shí)要同時(shí)參考菜譜、觀察食材狀態(tài)、以及檢查已經(jīng)完成的烹飪步驟。
VAR Transformer的工作流程遵循嚴(yán)格的順序:從最粗糙的尺度開(kāi)始,逐步處理到最精細(xì)的尺度。在每個(gè)尺度上,它都會(huì)生成一個(gè)"殘差圖",這個(gè)殘差圖包含了該尺度下需要修改的信息。這就像建筑師設(shè)計(jì)建筑時(shí),先確定整體布局,然后逐步細(xì)化到房間設(shè)計(jì)、再到裝修細(xì)節(jié)。
尺度對(duì)齊參考(SAR)模塊在這個(gè)過(guò)程中發(fā)揮著關(guān)鍵作用。當(dāng)VAR Transformer處理某個(gè)特定尺度時(shí),SAR模塊會(huì)從原始圖像中提取匹配該尺度的參考信息。這個(gè)過(guò)程采用了智能的下采樣技術(shù),能夠在保持關(guān)鍵信息的同時(shí)降低分辨率。
比如當(dāng)系統(tǒng)處理粗糙尺度時(shí),SAR模塊會(huì)提供一個(gè)低分辨率但保持主要結(jié)構(gòu)的參考圖像,幫助系統(tǒng)理解整體布局。而當(dāng)處理精細(xì)尺度時(shí),系統(tǒng)則直接使用高分辨率的原圖信息來(lái)確保細(xì)節(jié)的準(zhǔn)確性。
文本指令的處理由專(zhuān)門(mén)的文本編碼器負(fù)責(zé),這個(gè)組件能夠理解自然語(yǔ)言指令并將其轉(zhuǎn)換為系統(tǒng)能夠理解的數(shù)字表示。文本編碼器不僅要理解指令的字面意思,還要推斷出隱含的編輯意圖。比如對(duì)于"讓小丑笑起來(lái)"這樣的指令,系統(tǒng)需要理解這不僅僅是改變嘴巴的形狀,還可能涉及眼睛、臉頰等其他面部特征的協(xié)調(diào)變化。
系統(tǒng)的輸出階段由多尺度解碼器處理,這個(gè)組件就像一個(gè)高級(jí)的3D打印機(jī),能夠?qū)⒊橄蟮臄?shù)字表示重新轉(zhuǎn)換為具體的圖像。解碼器接收所有尺度的殘差圖,將它們逐層疊加,最終合成完整的編輯結(jié)果。
整個(gè)架構(gòu)的一個(gè)重要特點(diǎn)是其高度的模塊化設(shè)計(jì)。每個(gè)組件都有明確的職責(zé)邊界,這不僅便于系統(tǒng)的開(kāi)發(fā)和維護(hù),還使得整個(gè)系統(tǒng)具有很好的可擴(kuò)展性。研究團(tuán)隊(duì)正是基于這種模塊化設(shè)計(jì),成功開(kāi)發(fā)出了2.2B和8.4B兩個(gè)不同規(guī)模的版本,以滿足不同應(yīng)用場(chǎng)景的需求。
五、訓(xùn)練過(guò)程與數(shù)據(jù)處理
VAREdit的訓(xùn)練過(guò)程就像培養(yǎng)一位世界級(jí)的藝術(shù)修復(fù)師,需要大量的實(shí)踐樣本和精心設(shè)計(jì)的學(xué)習(xí)課程。研究團(tuán)隊(duì)為此收集了一個(gè)規(guī)模龐大的訓(xùn)練數(shù)據(jù)集,包含392萬(wàn)對(duì)編輯樣本,這些樣本來(lái)自SEED-Data-Edit和ImgEdit兩個(gè)高質(zhì)量數(shù)據(jù)集。
數(shù)據(jù)集的構(gòu)建過(guò)程本身就是一個(gè)精細(xì)的工程項(xiàng)目。研究團(tuán)隊(duì)首先從原始數(shù)據(jù)集中提取所有的單輪編輯樣本,然后將多輪對(duì)話形式的編輯任務(wù)分解為獨(dú)立的編輯對(duì)。這就像將一本復(fù)雜的教科書(shū)重新整理為一系列獨(dú)立但相關(guān)的課程模塊,讓學(xué)習(xí)過(guò)程更加清晰有序。
但原始數(shù)據(jù)中不可避免地存在一些質(zhì)量問(wèn)題:有些圖像模糊不清,有些編輯指令與實(shí)際結(jié)果不匹配,還有些樣本存在明顯的視覺(jué)缺陷。為了確保訓(xùn)練質(zhì)量,研究團(tuán)隊(duì)引入了一個(gè)智能的質(zhì)量篩選系統(tǒng),使用先進(jìn)的視覺(jué)語(yǔ)言模型Kimi-VL來(lái)評(píng)判每個(gè)樣本的質(zhì)量。
這個(gè)篩選過(guò)程就像有一位嚴(yán)格的老師在檢查作業(yè),對(duì)每個(gè)編輯樣本都會(huì)問(wèn)幾個(gè)關(guān)鍵問(wèn)題:編輯后的圖像是否準(zhǔn)確執(zhí)行了指令要求?圖像質(zhì)量是否清晰沒(méi)有明顯缺陷?編輯是否產(chǎn)生了不必要的副作用?只有通過(guò)全部檢查的樣本才會(huì)被納入最終的訓(xùn)練數(shù)據(jù)集。
通過(guò)這種嚴(yán)格的質(zhì)量控制,研究團(tuán)隊(duì)從原始數(shù)據(jù)中篩選出了高質(zhì)量的訓(xùn)練樣本,剔除了約100萬(wàn)個(gè)低質(zhì)量樣本。雖然這個(gè)過(guò)程很費(fèi)時(shí)費(fèi)力,但確保了訓(xùn)練數(shù)據(jù)的高標(biāo)準(zhǔn),為模型的優(yōu)異性能奠定了基礎(chǔ)。
VAREdit的訓(xùn)練采用了分階段的策略,這就像學(xué)習(xí)樂(lè)器時(shí)先練基本功再學(xué)復(fù)雜曲目的道理。對(duì)于2.2B參數(shù)的模型,訓(xùn)練分為兩個(gè)階段:第一階段在256×256分辨率下進(jìn)行8000次迭代,讓模型掌握基本的編輯概念和技巧;第二階段在512×512分辨率下進(jìn)行7000次迭代,進(jìn)一步提升處理高分辨率圖像的能力。
而8.4B參數(shù)的更大模型則直接在512×512分辨率下訓(xùn)練26000次迭代,充分發(fā)揮其更強(qiáng)的學(xué)習(xí)能力。這種差異化的訓(xùn)練策略體現(xiàn)了"因材施教"的思想:不同規(guī)模的模型有不同的學(xué)習(xí)能力和適用場(chǎng)景,需要相應(yīng)的訓(xùn)練方案。
訓(xùn)練過(guò)程中的一個(gè)關(guān)鍵創(chuàng)新是2D旋轉(zhuǎn)位置編碼(2D-RoPE)的應(yīng)用。這種編碼方式就像給圖像中的每個(gè)位置都分配了一個(gè)獨(dú)特的"地址",幫助模型理解空間關(guān)系。特別重要的是,系統(tǒng)為原始圖像和目標(biāo)圖像的位置編碼設(shè)置了不同的起始點(diǎn),這樣就能清楚地區(qū)分哪些內(nèi)容來(lái)自原圖,哪些是需要生成的新內(nèi)容。
在訓(xùn)練參數(shù)的設(shè)置上,研究團(tuán)隊(duì)采用了經(jīng)過(guò)精心調(diào)試的配置。學(xué)習(xí)率從6e-5開(kāi)始,隨著訓(xùn)練的進(jìn)行逐步調(diào)整;批次大小根據(jù)模型規(guī)模和分辨率進(jìn)行優(yōu)化,確保在計(jì)算資源和訓(xùn)練效果之間達(dá)到最佳平衡。這些看似技術(shù)性的細(xì)節(jié)實(shí)際上對(duì)最終效果有著重要影響,就像烹飪時(shí)火候和調(diào)料的精確控制對(duì)菜品質(zhì)量的重要性一樣。
研究團(tuán)隊(duì)還采用了分類(lèi)器無(wú)關(guān)引導(dǎo)(CFG)技術(shù)來(lái)提升生成質(zhì)量,這種技術(shù)就像給藝術(shù)家提供更精確的指導(dǎo),幫助模型更好地理解和執(zhí)行編輯指令。同時(shí),通過(guò)調(diào)節(jié)logits溫度參數(shù)來(lái)控制生成結(jié)果的多樣性和穩(wěn)定性,在創(chuàng)造性和可控性之間找到合適的平衡點(diǎn)。
六、應(yīng)用前景與實(shí)際意義
VAREdit的技術(shù)突破為圖像編輯領(lǐng)域帶來(lái)了革命性的變化,其影響遠(yuǎn)不止于學(xué)術(shù)研究的范圍,而是會(huì)深刻改變我們?nèi)粘I钪刑幚砗途庉媹D像的方式。
在內(nèi)容創(chuàng)作領(lǐng)域,VAREdit為設(shè)計(jì)師和創(chuàng)意工作者提供了一個(gè)強(qiáng)大的新工具。以往需要花費(fèi)數(shù)小時(shí)在Photoshop中精細(xì)操作的編輯任務(wù),現(xiàn)在只需要簡(jiǎn)單描述就能在秒級(jí)時(shí)間內(nèi)完成。這就像從手工制作轉(zhuǎn)向了自動(dòng)化生產(chǎn),不僅大大提高了工作效率,還讓更多沒(méi)有專(zhuān)業(yè)技能的人能夠創(chuàng)作出高質(zhì)量的視覺(jué)內(nèi)容。
對(duì)于社交媒體和數(shù)字營(yíng)銷(xiāo)行業(yè),VAREdit的快速編輯能力意味著內(nèi)容制作可以更加靈活和響應(yīng)式。品牌可以根據(jù)實(shí)時(shí)的市場(chǎng)反饋快速調(diào)整廣告素材,社交媒體運(yùn)營(yíng)者可以迅速為熱門(mén)話題制作相關(guān)的視覺(jué)內(nèi)容。這種敏捷性在當(dāng)今快節(jié)奏的數(shù)字環(huán)境中具有巨大的商業(yè)價(jià)值。
在電子商務(wù)領(lǐng)域,VAREdit的應(yīng)用潛力同樣巨大。商家可以輕松地為產(chǎn)品創(chuàng)建多種變體圖片,比如不同顏色、不同搭配的服裝展示,或者在不同場(chǎng)景中的產(chǎn)品應(yīng)用效果。消費(fèi)者甚至可能在未來(lái)通過(guò)簡(jiǎn)單的文字描述來(lái)預(yù)覽產(chǎn)品的個(gè)性化定制效果,這將大大提升購(gòu)物體驗(yàn)。
教育行業(yè)也將從這項(xiàng)技術(shù)中獲益。教師可以快速制作個(gè)性化的教學(xué)素材,將抽象的概念通過(guò)直觀的圖像修改來(lái)展示。比如在歷史課上展示同一地點(diǎn)在不同時(shí)代的樣貌變化,或者在科學(xué)課上演示實(shí)驗(yàn)結(jié)果的不同可能性。這種互動(dòng)性和直觀性將大大提升教學(xué)效果。
在娛樂(lè)和游戲行業(yè),VAREdit為內(nèi)容創(chuàng)作提供了新的可能性。游戲開(kāi)發(fā)者可以快速生成角色的不同裝備搭配,電影制作者可以在前期制作中快速?lài)L試不同的視覺(jué)效果方案。這種快速迭代能力將顯著縮短創(chuàng)意開(kāi)發(fā)的周期。
更重要的是,VAREdit的技術(shù)原理為整個(gè)AI圖像處理領(lǐng)域指明了新的發(fā)展方向。其多尺度自回歸的方法論不僅適用于圖像編輯,還可能被擴(kuò)展到視頻處理、3D模型生成等更廣泛的應(yīng)用場(chǎng)景。這種技術(shù)路徑的創(chuàng)新價(jià)值可能會(huì)啟發(fā)更多的研究突破。
從技術(shù)發(fā)展的角度來(lái)看,VAREdit代表了AI從"生成"向"精確控制"的重要進(jìn)步。以往的AI主要擅長(zhǎng)從無(wú)到有地創(chuàng)造內(nèi)容,而VAREdit展示了AI在精確修改現(xiàn)有內(nèi)容方面的強(qiáng)大能力。這種能力的提升對(duì)于AI在專(zhuān)業(yè)領(lǐng)域的應(yīng)用具有重要意義。
不過(guò),這項(xiàng)技術(shù)也帶來(lái)了一些需要關(guān)注的問(wèn)題。隨著圖像編輯技術(shù)變得越來(lái)越容易使用和難以察覺(jué),如何防范惡意使用、保護(hù)圖像的真實(shí)性和完整性成為重要課題。研究團(tuán)隊(duì)也意識(shí)到了這些責(zé)任,強(qiáng)調(diào)技術(shù)應(yīng)該被用于積極正面的用途。
從長(zhǎng)遠(yuǎn)來(lái)看,VAREdit這樣的技術(shù)將推動(dòng)整個(gè)視覺(jué)內(nèi)容產(chǎn)業(yè)的變革。當(dāng)高質(zhì)量的圖像編輯變得像文字編輯一樣簡(jiǎn)單和快速時(shí),視覺(jué)創(chuàng)作的門(mén)檻將大大降低,這可能會(huì)催生全新的內(nèi)容形式和商業(yè)模式。
七、未來(lái)發(fā)展與技術(shù)展望
VAREdit雖然已經(jīng)取得了令人矚目的成果,但研究團(tuán)隊(duì)清楚地認(rèn)識(shí)到這只是一個(gè)開(kāi)始。就像任何突破性技術(shù)一樣,VAREdit還有巨大的改進(jìn)和發(fā)展空間,未來(lái)的研究方向充滿了激動(dòng)人心的可能性。
首先是模型規(guī)模的進(jìn)一步擴(kuò)展。當(dāng)前的VAREdit-8.4B已經(jīng)展現(xiàn)出了顯著的性能優(yōu)勢(shì),研究團(tuán)隊(duì)發(fā)現(xiàn)模型規(guī)模的增長(zhǎng)與編輯能力的提升之間存在著穩(wěn)定的正相關(guān)關(guān)系。這意味著訓(xùn)練更大規(guī)模的模型,比如100億甚至千億參數(shù)的版本,很可能會(huì)帶來(lái)更加驚人的編輯質(zhì)量和更廣泛的應(yīng)用能力。
多模態(tài)能力的整合是另一個(gè)重要的發(fā)展方向。目前的VAREdit主要處理靜態(tài)圖像,但研究團(tuán)隊(duì)正在探索將這種技術(shù)擴(kuò)展到視頻編輯領(lǐng)域。視頻編輯相比圖像編輯面臨著額外的挑戰(zhàn):除了空間信息,還需要處理時(shí)間維度的連貫性。但VAREdit的多尺度處理框架天然地適合這種擴(kuò)展,可以在時(shí)間和空間兩個(gè)維度上都采用從粗到細(xì)的處理策略。
實(shí)時(shí)交互能力的提升也是研究重點(diǎn)之一。雖然VAREdit已經(jīng)實(shí)現(xiàn)了秒級(jí)的處理速度,但為了真正實(shí)現(xiàn)實(shí)時(shí)的交互式編輯體驗(yàn),還需要進(jìn)一步的優(yōu)化。研究團(tuán)隊(duì)正在探索模型壓縮、硬件加速等技術(shù),目標(biāo)是在保持編輯質(zhì)量的前提下實(shí)現(xiàn)毫秒級(jí)的響應(yīng)速度。
更智能的指令理解是技術(shù)發(fā)展的另一個(gè)關(guān)鍵方向。當(dāng)前的VAREdit雖然能夠處理復(fù)雜的編輯指令,但在理解模糊或者隱含指令方面還有提升空間。比如當(dāng)用戶說(shuō)"讓這張照片看起來(lái)更有夏天的感覺(jué)"時(shí),系統(tǒng)需要理解這可能涉及色溫調(diào)整、光線增強(qiáng)、甚至添加一些季節(jié)性元素等多個(gè)方面的修改。
研究團(tuán)隊(duì)還在探索更加個(gè)性化的編輯風(fēng)格學(xué)習(xí)。每個(gè)用戶都有自己獨(dú)特的審美偏好和編輯習(xí)慣,未來(lái)的VAREdit可能能夠?qū)W習(xí)用戶的個(gè)人風(fēng)格,在執(zhí)行編輯指令時(shí)自動(dòng)應(yīng)用用戶偏好的處理方式。這就像擁有一個(gè)真正了解你審美的專(zhuān)屬設(shè)計(jì)師。
從技術(shù)架構(gòu)的角度,研究團(tuán)隊(duì)正在探索更加高效的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練方法。比如采用更先進(jìn)的注意力機(jī)制、引入更有效的知識(shí)蒸餾技術(shù)、以及開(kāi)發(fā)專(zhuān)門(mén)針對(duì)編輯任務(wù)優(yōu)化的損失函數(shù)等。這些技術(shù)改進(jìn)雖然看起來(lái)微觀,但可能帶來(lái)顯著的性能提升。
跨領(lǐng)域的應(yīng)用拓展也充滿潛力。VAREdit的核心思想不僅適用于自然圖像,還可能被應(yīng)用到醫(yī)學(xué)影像、衛(wèi)星圖片、科學(xué)可視化等專(zhuān)業(yè)領(lǐng)域。每個(gè)領(lǐng)域都有其特殊的需求和挑戰(zhàn),但多尺度自回歸的基本框架具有很好的適應(yīng)性。
在數(shù)據(jù)方面,研究團(tuán)隊(duì)正在構(gòu)建更大規(guī)模、更高質(zhì)量的訓(xùn)練數(shù)據(jù)集。他們不僅關(guān)注數(shù)據(jù)的數(shù)量增長(zhǎng),更重視數(shù)據(jù)的多樣性和代表性。未來(lái)的訓(xùn)練數(shù)據(jù)可能會(huì)包含更多不同文化背景、不同藝術(shù)風(fēng)格、不同應(yīng)用場(chǎng)景的編輯樣本,使模型具備更強(qiáng)的泛化能力。
另一個(gè)重要的發(fā)展方向是可解釋性的提升。雖然VAREdit已經(jīng)能夠產(chǎn)生高質(zhì)量的編輯結(jié)果,但用戶往往希望理解系統(tǒng)是如何做出編輯決策的。研究團(tuán)隊(duì)正在開(kāi)發(fā)可視化工具,能夠展示模型在處理過(guò)程中的注意力分布和決策邏輯,讓編輯過(guò)程變得更加透明和可控。
從應(yīng)用生態(tài)的角度,VAREdit的開(kāi)源發(fā)布將會(huì)促進(jìn)整個(gè)社區(qū)的創(chuàng)新發(fā)展。研究團(tuán)隊(duì)計(jì)劃提供完整的代碼、預(yù)訓(xùn)練模型和詳細(xì)的文檔,讓全世界的研究者和開(kāi)發(fā)者都能基于這個(gè)基礎(chǔ)進(jìn)行進(jìn)一步的創(chuàng)新。這種開(kāi)放合作的模式往往能夠產(chǎn)生意想不到的應(yīng)用突破。
研究團(tuán)隊(duì)也在關(guān)注技術(shù)的社會(huì)影響和倫理問(wèn)題。隨著圖像編輯技術(shù)變得越來(lái)越強(qiáng)大和易用,如何建立相應(yīng)的技術(shù)標(biāo)準(zhǔn)、使用規(guī)范和監(jiān)管機(jī)制變得越來(lái)越重要。他們正在與相關(guān)機(jī)構(gòu)合作,探索技術(shù)應(yīng)用的最佳實(shí)踐,確保這項(xiàng)強(qiáng)大的技術(shù)能夠被負(fù)責(zé)任地使用。
說(shuō)到底,VAREdit代表的不僅僅是一項(xiàng)技術(shù)突破,更是人工智能發(fā)展的一個(gè)重要里程碑。它展示了AI從簡(jiǎn)單的模式識(shí)別向精確的內(nèi)容操控的進(jìn)化,這種能力的提升預(yù)示著AI將在更多創(chuàng)造性和專(zhuān)業(yè)性的任務(wù)中發(fā)揮重要作用。
這項(xiàng)由中國(guó)科學(xué)技術(shù)大學(xué)和HiDream.ai公司合作完成的研究,不僅在技術(shù)上實(shí)現(xiàn)了重要突破,更為整個(gè)AI圖像處理領(lǐng)域指明了新的發(fā)展方向。隨著技術(shù)的不斷完善和應(yīng)用的不斷擴(kuò)展,我們有理由相信VAREdit及其衍生技術(shù)將會(huì)深刻改變我們創(chuàng)作、編輯和理解視覺(jué)內(nèi)容的方式,為數(shù)字時(shí)代的創(chuàng)意表達(dá)開(kāi)啟全新的可能性。
對(duì)于那些希望深入了解這項(xiàng)技術(shù)細(xì)節(jié)的讀者,完整的研究論文已經(jīng)在arXiv平臺(tái)上公開(kāi)發(fā)布,論文編號(hào)為arXiv:2508.15772。研究團(tuán)隊(duì)承諾將在GitHub上開(kāi)源相關(guān)代碼和預(yù)訓(xùn)練模型,網(wǎng)址為https://github.com/HiDream-ai/VAREdit,這將為全球的研究者和開(kāi)發(fā)者提供寶貴的學(xué)習(xí)和創(chuàng)新資源。
Q&A
Q1:VAREdit和現(xiàn)在常用的圖片編輯AI工具有什么區(qū)別?
A:VAREdit最大的不同在于它采用了多尺度自回歸的工作方式,就像畫(huà)家先畫(huà)輪廓再添細(xì)節(jié),而不是像傳統(tǒng)擴(kuò)散模型那樣對(duì)整張圖片進(jìn)行反復(fù)處理。這讓VAREdit能夠做到更精準(zhǔn)的編輯,避免不必要的修改,同時(shí)速度也快得多。比如把512×512的圖片編輯時(shí)間從幾秒縮短到1.2秒,質(zhì)量還提升了30%以上。
Q2:VAREdit能處理哪些類(lèi)型的圖片編輯任務(wù)?
A:VAREdit幾乎能處理所有常見(jiàn)的圖片編輯需求,包括物體添加(給女人頭發(fā)加花朵)、物體移除(刪掉杯子里的兔子)、顏色修改(把棕熊改成黑色)、材質(zhì)變換(把馬變成木質(zhì)的)、文字添加(在蛋糕上寫(xiě)生日快樂(lè))以及復(fù)雜的風(fēng)格變換等。它特別擅長(zhǎng)需要精確控制的編輯任務(wù),能確保只修改需要改變的部分。
Q3:普通用戶什么時(shí)候能用上VAREdit技術(shù)?
A:研究團(tuán)隊(duì)已經(jīng)承諾在GitHub上開(kāi)源VAREdit的代碼和預(yù)訓(xùn)練模型(網(wǎng)址:https://github.com/HiDream-ai/VAREdit),技術(shù)開(kāi)發(fā)者現(xiàn)在就可以使用。對(duì)于普通消費(fèi)者,這項(xiàng)技術(shù)很可能會(huì)被集成到各種圖片編輯軟件和在線工具中,預(yù)計(jì)在未來(lái)1-2年內(nèi)就能在商業(yè)產(chǎn)品中見(jiàn)到基于VAREdit的應(yīng)用。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。