這項(xiàng)由清華大學(xué)和AIRI(人工智能研究院)等機(jī)構(gòu)聯(lián)合完成的研究發(fā)表于2025年6月,論文題為《Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models》。研究團(tuán)隊(duì)包括清華大學(xué)和AIRI的Ilia Beletskii、AIRI和Sber公司的Andrey Kuznetsov,以及清華大學(xué)和AIRI的Aibek Alanov。感興趣的讀者可以通過arXiv:2506.19103訪問完整論文,代碼已在GitHub開源:github.com/ControlGenAI/Inverse-and-Edit。
當(dāng)你拿著一張照片想要修改某個細(xì)節(jié)時,比如把照片中的貓咪變成小狗,或者改變?nèi)宋锏谋砬?,傳統(tǒng)的圖像編輯軟件需要你具備相當(dāng)?shù)募夹g(shù)功底。而現(xiàn)在,人工智能讓這一切變得簡單多了——你只需要用文字描述想要的效果,AI就能幫你完成修改。不過,現(xiàn)有的AI圖像編輯工具面臨一個兩難選擇:要么編輯效果很好但速度慢得讓人抓狂,要么速度很快但效果差強(qiáng)人意。
這就像修車一樣,你可以選擇去高檔修理廠,師傅手藝精湛但要等上好幾天;或者去快修店,幾小時就能取車但質(zhì)量可能不盡如人意。研究團(tuán)隊(duì)發(fā)現(xiàn),問題的根源在于現(xiàn)有快速方法的"記憶力"不夠好——它們在理解原始圖像方面存在缺陷,就像一個健忘的畫家,記不清原畫的細(xì)節(jié),自然畫不出滿意的修改版本。
為了解決這個難題,研究團(tuán)隊(duì)開發(fā)了一種全新的圖像編輯方法,核心思想是讓AI系統(tǒng)擁有更好的"記憶力"。他們的方法就像訓(xùn)練一個畫家,讓他先仔細(xì)觀察原畫,然后閉著眼睛憑記憶重畫一遍,如果重畫的版本與原畫差別太大,就繼續(xù)練習(xí)直到能完美復(fù)現(xiàn)。這個過程被稱為"循環(huán)一致性優(yōu)化",確保AI系統(tǒng)能夠準(zhǔn)確理解和記住原始圖像的每一個細(xì)節(jié)。
**一、為什么圖像編輯這么難**
要理解這項(xiàng)研究的價值,我們首先需要了解AI圖像編輯的基本原理。目前主流的AI圖像編輯技術(shù)基于擴(kuò)散模型,這種模型的工作方式有點(diǎn)像考古學(xué)家修復(fù)文物。當(dāng)考古學(xué)家發(fā)現(xiàn)一件破損的古代花瓶時,他們需要先仔細(xì)分析殘片,推測花瓶的原始模樣,然后根據(jù)新的設(shè)計(jì)要求進(jìn)行修復(fù)。
AI圖像編輯的過程也類似:系統(tǒng)首先將原始圖像"打散"成噪聲(相當(dāng)于把花瓶打碎),然后根據(jù)新的文字描述(比如"把貓變成狗")重新"拼裝"出修改后的圖像。這個過程分為兩個關(guān)鍵步驟:反向過程(inversion)和編輯過程(editing)。
反向過程就像考古學(xué)家分析文物殘片,AI需要理解原始圖像包含的所有信息。這一步至關(guān)重要,因?yàn)槿绻鸄I對原始圖像的理解不夠準(zhǔn)確,后續(xù)的編輯就會出現(xiàn)問題。傳統(tǒng)的高質(zhì)量方法需要進(jìn)行大約50-100次迭代計(jì)算,就像考古學(xué)家需要反復(fù)研究殘片才能確定文物的原貌。這種方法效果很好,但耗時很長。
為了提高速度,研究人員開發(fā)了各種快速方法,將迭代次數(shù)減少到4-8次。這就像讓考古學(xué)家只用很短時間就要確定文物原貌,雖然速度快了,但準(zhǔn)確性往往不夠。研究團(tuán)隊(duì)發(fā)現(xiàn),這些快速方法在反向過程中會丟失很多細(xì)節(jié)信息,導(dǎo)致最終的編輯效果不理想。
更具體地說,現(xiàn)有的快速方法面臨一個根本性矛盾:速度和質(zhì)量很難兼得。就像快餐和精品料理的區(qū)別,快餐制作迅速但味道一般,精品料理美味可口但制作時間長。在圖像編輯領(lǐng)域,這個矛盾體現(xiàn)在一致性模型的應(yīng)用上。一致性模型是一種新型的快速生成技術(shù),理論上可以大幅提高處理速度,但在實(shí)際應(yīng)用中,它們在圖像重建方面的表現(xiàn)往往不盡如人意。
**二、循環(huán)一致性的巧妙設(shè)計(jì)**
面對這個挑戰(zhàn),研究團(tuán)隊(duì)提出了一個巧妙的解決方案:循環(huán)一致性優(yōu)化。這個想法的靈感來自于人類學(xué)習(xí)的過程。當(dāng)我們學(xué)習(xí)畫畫時,老師經(jīng)常讓我們臨摹名畫,然后將臨摹作品與原作對比,找出差異并不斷改進(jìn)。研究團(tuán)隊(duì)將這個思路應(yīng)用到AI系統(tǒng)中,讓AI通過反復(fù)練習(xí)來提高對原始圖像的理解能力。
具體來說,他們設(shè)計(jì)了一個"完整回路"的訓(xùn)練過程。AI系統(tǒng)首先接收一張?jiān)紙D像,通過反向過程提取圖像的特征表示,然后再通過生成過程重建圖像。如果重建的圖像與原始圖像存在差異,系統(tǒng)就會調(diào)整參數(shù),直到能夠完美重建原始圖像。這個過程就像訓(xùn)練一個速記員,讓他聽一段話然后復(fù)述,如果復(fù)述有誤就繼續(xù)練習(xí),直到能夠一字不差地重復(fù)原話。
這種方法的核心創(chuàng)新在于引入了感知損失函數(shù)(perceptual loss)。傳統(tǒng)的方法通常使用像素級別的比較,就像逐個字母地比較兩篇文章是否相同。但感知損失函數(shù)更關(guān)注人眼的感知效果,就像比較兩篇文章的意思是否相同,而不是字字對應(yīng)。研究團(tuán)隊(duì)使用了基于VGG網(wǎng)絡(luò)的LPIPS(Learned Perceptual Image Patch Similarity)指標(biāo),這種指標(biāo)能夠更好地捕捉圖像的結(jié)構(gòu)和語義信息。
更重要的是,他們采用了"凍結(jié)生成模型,優(yōu)化理解模型"的策略。在整個訓(xùn)練過程中,負(fù)責(zé)生成圖像的模型保持不變,只優(yōu)化負(fù)責(zé)理解原始圖像的前向模型。這就像在一個翻譯團(tuán)隊(duì)中,保持譯者的水平不變,專門訓(xùn)練負(fù)責(zé)理解原文的分析師。這樣做的好處是既能提高理解能力,又不會破壞已有的生成質(zhì)量。
研究團(tuán)隊(duì)還發(fā)現(xiàn),快速方法的一個關(guān)鍵優(yōu)勢是可以進(jìn)行端到端的優(yōu)化。傳統(tǒng)的高質(zhì)量方法由于計(jì)算量巨大,無法對整個編輯流程進(jìn)行優(yōu)化,就像制作一部電影,如果每個鏡頭都要花費(fèi)數(shù)月時間,就無法對整部電影進(jìn)行統(tǒng)一調(diào)整。而快速方法由于計(jì)算量較小,可以對從理解到生成的整個過程進(jìn)行優(yōu)化,這為循環(huán)一致性訓(xùn)練提供了技術(shù)可能性。
**三、智能引導(dǎo)機(jī)制的加持**
雖然循環(huán)一致性優(yōu)化已經(jīng)大大提高了圖像編輯的質(zhì)量,但研究團(tuán)隊(duì)發(fā)現(xiàn),在某些具有挑戰(zhàn)性的編輯任務(wù)中,僅僅依靠改進(jìn)的圖像理解能力還不夠。比如當(dāng)目標(biāo)描述與原始圖像差異很大時(例如將"憤怒的表情"改為"微笑的表情"),AI可能會過度受到新描述的影響而丟失原始圖像的重要特征。
為了解決這個問題,研究團(tuán)隊(duì)開發(fā)了一套智能引導(dǎo)機(jī)制,這套機(jī)制的工作原理類似于GPS導(dǎo)航系統(tǒng)。當(dāng)你開車前往目的地時,GPS不僅要知道終點(diǎn)在哪里,還要時刻關(guān)注你當(dāng)前的位置,確保你不會偏離正確路線。在圖像編輯中,引導(dǎo)機(jī)制的作用就是在生成新圖像的過程中,時刻參考原始圖像的信息,確保編輯結(jié)果既符合新的描述,又保持原始圖像的重要特征。
這套引導(dǎo)機(jī)制包含兩個核心組件:自注意力引導(dǎo)器和特征引導(dǎo)器。自注意力引導(dǎo)器的作用類似于一個布局設(shè)計(jì)師,它關(guān)注圖像的整體結(jié)構(gòu)和布局。在編輯過程中,它會比較當(dāng)前生成的圖像與原始圖像在整體布局上的差異,如果發(fā)現(xiàn)偏差就會進(jìn)行調(diào)整。比如在將照片中的貓改為狗時,自注意力引導(dǎo)器會確保新的狗出現(xiàn)在原來貓的位置,而不是跑到畫面的其他地方。
特征引導(dǎo)器則更像一個細(xì)節(jié)雕刻師,它專注于圖像的局部細(xì)節(jié)和紋理。它會比較原始圖像和編輯過程中的圖像在視覺特征上的差異,確保重要的細(xì)節(jié)信息得到保留。繼續(xù)以貓變狗的例子,特征引導(dǎo)器會確保背景的紋理、光線條件等細(xì)節(jié)保持不變,只改變動物本身的特征。
研究團(tuán)隊(duì)還解決了一個重要的技術(shù)問題:如何平衡引導(dǎo)強(qiáng)度。如果引導(dǎo)過強(qiáng),編輯效果會很微弱,就像GPS過于保守,總是建議你走原來的路線;如果引導(dǎo)過弱,又可能丟失原始圖像的重要信息,就像GPS完全不管你現(xiàn)在在哪里,只管指向目的地方向。研究團(tuán)隊(duì)開發(fā)了一套動態(tài)調(diào)節(jié)機(jī)制,能夠根據(jù)當(dāng)前的編輯進(jìn)度和圖像內(nèi)容自動調(diào)整引導(dǎo)強(qiáng)度。
這套引導(dǎo)機(jī)制的另一個創(chuàng)新之處在于它采用了梯度引導(dǎo)的方式。傳統(tǒng)的方法通常是在生成過程的最后階段進(jìn)行調(diào)整,就像在房子建好后再進(jìn)行裝修。而梯度引導(dǎo)則是在生成過程的每一步都進(jìn)行微調(diào),就像在建房子的過程中隨時調(diào)整,確保每一步都朝著正確的方向進(jìn)行。
**四、實(shí)驗(yàn)驗(yàn)證:數(shù)字說話的時刻**
理論再完美,也需要實(shí)驗(yàn)驗(yàn)證。研究團(tuán)隊(duì)設(shè)計(jì)了一系列全面的實(shí)驗(yàn),在多個標(biāo)準(zhǔn)數(shù)據(jù)集上測試他們的方法。這些實(shí)驗(yàn)就像一場綜合性的考試,從不同角度檢驗(yàn)AI系統(tǒng)的能力。
在圖像重建任務(wù)中,研究團(tuán)隊(duì)使用了超過2700張高分辨率圖像進(jìn)行測試。結(jié)果顯示,他們的方法在保持4步快速處理的同時,圖像重建質(zhì)量顯著超越了現(xiàn)有的快速方法。具體來說,在LPIPS指標(biāo)上,他們的方法達(dá)到了0.309,而對比方法中最好的也只有0.372,這意味著重建圖像與原始圖像的感知差異減少了約17%。這個改進(jìn)幅度看似不大,但在圖像處理領(lǐng)域已經(jīng)是相當(dāng)顯著的提升。
更重要的是,他們的方法在速度上保持了明顯優(yōu)勢。與需要50步處理的傳統(tǒng)高質(zhì)量方法相比,他們的4步方法在保持相近質(zhì)量的同時,速度提升了10倍以上。這就像制作一道菜,傳統(tǒng)方法需要5小時,而他們的方法只需要30分鐘,但味道幾乎沒有差別。
在圖像編輯任務(wù)中,研究團(tuán)隊(duì)在PIE-Bench等標(biāo)準(zhǔn)測試集上進(jìn)行了全面評估。PIE-Bench包含420張圖像和多種編輯類型,從簡單的顏色修改到復(fù)雜的對象替換都有涵蓋。實(shí)驗(yàn)結(jié)果表明,他們的方法在保持內(nèi)容一致性的同時,實(shí)現(xiàn)了高質(zhì)量的編輯效果。
特別值得一提的是DINOv2相似度指標(biāo)的表現(xiàn)。這個指標(biāo)衡量編輯前后圖像在語義上的相似性,研究團(tuán)隊(duì)的方法達(dá)到了0.747的得分,顯著超越了其他快速方法。這意味著編輯后的圖像能夠更好地保持原始圖像的核心特征和語義信息。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),分別測試循環(huán)一致性優(yōu)化和引導(dǎo)機(jī)制的獨(dú)立貢獻(xiàn)。結(jié)果顯示,僅使用循環(huán)一致性優(yōu)化就能顯著提升圖像重建質(zhì)量,而加入引導(dǎo)機(jī)制后,編輯質(zhì)量得到進(jìn)一步提升。這證明了兩個創(chuàng)新點(diǎn)的有效性和互補(bǔ)性。
在與全步驟擴(kuò)散模型的比較中,研究團(tuán)隊(duì)的方法在某些指標(biāo)上甚至超越了這些計(jì)算量大10倍的傳統(tǒng)方法。雖然在個別指標(biāo)上仍有差距,但考慮到速度優(yōu)勢,這樣的性能表現(xiàn)已經(jīng)非常出色。
**五、實(shí)際應(yīng)用中的表現(xiàn)**
除了數(shù)值指標(biāo),研究團(tuán)隊(duì)還展示了大量視覺效果對比。從這些結(jié)果可以看出,他們的方法在各種編輯任務(wù)中都表現(xiàn)出色。無論是將"咖啡杯上的郁金香圖案"改為"獅子圖案",還是將"憤怒的表情"改為"微笑",編輯結(jié)果都保持了很高的視覺質(zhì)量和內(nèi)容一致性。
特別有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)他們的方法不需要依賴額外的文本混合技巧。許多現(xiàn)有方法需要仔細(xì)調(diào)整源文本和目標(biāo)文本的權(quán)重,就像調(diào)制雞尾酒需要精確控制各種原料的比例。而他們的方法可以直接使用目標(biāo)文本進(jìn)行編輯,大大簡化了使用過程。
在處理復(fù)雜場景時,比如包含多個對象的圖像,他們的方法也展現(xiàn)出良好的性能。系統(tǒng)能夠準(zhǔn)確識別需要編輯的部分,同時保持其他區(qū)域不變。這種精確性對于實(shí)際應(yīng)用非常重要,因?yàn)橛脩敉ǔV幌胄薷膱D像的特定部分。
研究團(tuán)隊(duì)還測試了方法在不同圖像風(fēng)格上的表現(xiàn),包括自然照片、藝術(shù)作品等。結(jié)果表明,無論輸入圖像是什么風(fēng)格,該方法都能保持穩(wěn)定的性能,這說明它具有良好的通用性。
**六、技術(shù)細(xì)節(jié)與優(yōu)化策略**
在技術(shù)實(shí)現(xiàn)方面,研究團(tuán)隊(duì)采用了多項(xiàng)精心設(shè)計(jì)的優(yōu)化策略。他們使用了基于LoRA(Low-Rank Adaptation)的參數(shù)高效訓(xùn)練方法,這種方法只需要調(diào)整模型的一小部分參數(shù),就能實(shí)現(xiàn)顯著的性能提升。這就像修理一輛汽車,不需要更換整個發(fā)動機(jī),只需要調(diào)整幾個關(guān)鍵部件就能大幅提升性能。
在損失函數(shù)設(shè)計(jì)上,他們將圖像分割成多個224×224的小塊分別計(jì)算LPIPS損失,然后取平均值。這種分塊處理的方式能夠更好地捕捉局部細(xì)節(jié),同時避免了整圖計(jì)算可能帶來的信息丟失。
訓(xùn)練過程中,他們采用了動態(tài)的分類器自由引導(dǎo)策略。與傳統(tǒng)方法在所有步驟使用固定引導(dǎo)強(qiáng)度不同,他們根據(jù)生成步驟動態(tài)調(diào)整引導(dǎo)強(qiáng)度:第一步為0,第二步為7,第三步為11,第四步為19。這種策略既能保證結(jié)構(gòu)編輯的有效性,又能避免圖像過飽和的問題。
在引導(dǎo)機(jī)制的實(shí)現(xiàn)上,他們使用了兩種互補(bǔ)的能量函數(shù)。自注意力引導(dǎo)函數(shù)通過比較自注意力圖的差異來保持布局一致性,而特征引導(dǎo)函數(shù)則通過比較ResNet上采樣塊的特征來保持細(xì)節(jié)一致性。這兩種函數(shù)的結(jié)合使用能夠在全局和局部兩個層面同時確保編輯質(zhì)量。
**七、方法的局限性與未來發(fā)展**
盡管取得了顯著進(jìn)展,研究團(tuán)隊(duì)也誠實(shí)地指出了方法的一些局限性。首先,由于LPIPS損失函數(shù)是在像素空間訓(xùn)練的,他們的方法需要通過VAE解碼器進(jìn)行反向傳播,這增加了一定的計(jì)算開銷。雖然總體上仍比傳統(tǒng)方法快得多,但這確實(shí)是一個需要改進(jìn)的地方。
其次,該方法需要同時加載兩個一致性模型(前向和后向),雖然使用了LoRA適配器來減少內(nèi)存占用,但對硬件資源的要求仍然不算低。這可能會限制該方法在資源受限設(shè)備上的應(yīng)用。
另外,由于使用了引導(dǎo)蒸餾的擴(kuò)散模型,該方法在某些情況下可能產(chǎn)生過飽和的圖像,顏色過于鮮艷。這是引導(dǎo)蒸餾技術(shù)的一個常見問題,需要在未來的工作中進(jìn)一步解決。
不過,這些局限性并不掩蓋該方法的創(chuàng)新價值。研究團(tuán)隊(duì)的工作為快速高質(zhì)量圖像編輯開辟了新的技術(shù)路徑,證明了循環(huán)一致性優(yōu)化在提升快速生成模型性能方面的巨大潛力。
**八、對圖像編輯領(lǐng)域的深遠(yuǎn)影響**
這項(xiàng)研究的意義遠(yuǎn)超技術(shù)本身的改進(jìn)。它為圖像編輯工具的普及和商業(yè)化應(yīng)用打開了新的可能性。當(dāng)圖像編輯既快速又高質(zhì)量時,普通用戶就能更容易地使用這類工具,這可能會推動創(chuàng)意產(chǎn)業(yè)的發(fā)展。
從技術(shù)發(fā)展的角度看,這項(xiàng)工作證明了端到端優(yōu)化在快速生成模型中的重要作用。傳統(tǒng)的高質(zhì)量方法由于計(jì)算復(fù)雜度太高,很難進(jìn)行全流程優(yōu)化,而快速方法為這種優(yōu)化提供了可能。這個思路可能會啟發(fā)更多研究者在其他快速生成任務(wù)中采用類似的優(yōu)化策略。
循環(huán)一致性的概念也具有更廣泛的應(yīng)用前景。這種"學(xué)習(xí)完美重建"的思路不僅適用于圖像編輯,還可能在視頻生成、音頻處理等其他生成任務(wù)中發(fā)揮作用。任何需要在保持原始信息的基礎(chǔ)上進(jìn)行修改的任務(wù),都可能受益于這種方法。
此外,該研究還展示了如何在保持生成質(zhì)量的前提下大幅提升處理速度。這種"質(zhì)量與效率并重"的研究思路對整個AI領(lǐng)域都有啟發(fā)意義。在當(dāng)前AI模型越來越大、計(jì)算成本越來越高的背景下,如何在保持性能的同時提高效率是一個普遍面臨的挑戰(zhàn)。
說到底,這項(xiàng)研究最讓人興奮的地方在于它找到了一個巧妙的平衡點(diǎn)。就像制作一道美味的快餐,既保持了精品料理的品質(zhì),又實(shí)現(xiàn)了快餐的速度。通過循環(huán)一致性優(yōu)化和智能引導(dǎo)機(jī)制的結(jié)合,研究團(tuán)隊(duì)成功地將圖像編輯的門檻大大降低,讓更多人能夠享受到AI技術(shù)帶來的便利。
當(dāng)然,技術(shù)的發(fā)展永無止境。雖然這項(xiàng)研究已經(jīng)取得了顯著進(jìn)展,但圖像編輯領(lǐng)域仍有很多值得探索的方向。比如如何進(jìn)一步減少計(jì)算資源需求,如何處理更加復(fù)雜的編輯任務(wù),如何提高對不同圖像風(fēng)格的適應(yīng)性等。但毫無疑問,這項(xiàng)研究為這些未來的探索奠定了堅(jiān)實(shí)的基礎(chǔ)。
對于有興趣深入了解技術(shù)細(xì)節(jié)的讀者,完整的研究論文和開源代碼提供了寶貴的學(xué)習(xí)資源。而對于普通用戶來說,這項(xiàng)研究預(yù)示著更加便捷、高效的圖像編輯工具即將到來,創(chuàng)意表達(dá)將變得更加輕松和自由。
Q&A
Q1:這個循環(huán)一致性方法到底是怎么工作的? A:簡單說就是讓AI反復(fù)練習(xí)"看圖-記憶-重畫"的過程。AI先仔細(xì)觀察原圖,提取特征信息,然后嘗試重新畫出這張圖。如果重畫的結(jié)果與原圖有差異,就調(diào)整參數(shù)繼續(xù)練習(xí),直到能完美復(fù)現(xiàn)原圖。這樣訓(xùn)練出來的AI在理解圖像方面更準(zhǔn)確,編輯效果自然更好。
Q2:為什么這個方法比其他快速編輯方法更好? A:關(guān)鍵在于它解決了快速方法的"健忘"問題。以前的快速方法為了提高速度,往往會丟失原圖的細(xì)節(jié)信息,就像一個記性不好的畫家改畫時容易畫走樣。而這個方法通過循環(huán)一致性訓(xùn)練,讓AI擁有更好的"記憶力",既保持了速度優(yōu)勢又大幅提升了質(zhì)量。
Q3:普通用戶什么時候能用上這種技術(shù)? A:研究團(tuán)隊(duì)已經(jīng)在GitHub開源了代碼,技術(shù)愛好者現(xiàn)在就可以嘗試。對于普通用戶,這種技術(shù)很可能會很快集成到各種圖像編輯軟件和在線工具中??紤]到它只需要4步就能完成高質(zhì)量編輯,非常適合實(shí)時應(yīng)用,預(yù)計(jì)在不久的將來就能在各種創(chuàng)意軟件中見到類似功能。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。