這項(xiàng)由中國(guó)香港中文大學(xué)多媒體實(shí)驗(yàn)室的劉杰博士聯(lián)合清華大學(xué)、快手科技、南京大學(xué)以及上海AI實(shí)驗(yàn)室等多家機(jī)構(gòu)完成的開(kāi)創(chuàng)性研究,發(fā)表于2025年6月的計(jì)算機(jī)視覺(jué)頂級(jí)期刊上。該研究首次成功將在線強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用到流匹配模型中,大幅提升了AI圖像生成的精確度和可控性。有興趣深入了解的讀者可以通過(guò)論文代碼庫(kù)https://github.com/yifan123/flow_grpo獲取完整技術(shù)細(xì)節(jié)。
現(xiàn)在的AI圖像生成技術(shù)雖然能創(chuàng)造出令人驚嘆的作品,但經(jīng)常會(huì)在一些看似簡(jiǎn)單的任務(wù)上"掉鏈子"。比如當(dāng)你要求AI畫"四只貓"時(shí),它可能給你畫出三只或五只;要求畫"紅色的蘋果在藍(lán)色的碗里"時(shí),蘋果可能變成了藍(lán)色,碗變成了紅色;更別提在圖片中加入文字了,生成的文字往往扭曲難認(rèn),根本無(wú)法使用。
這些問(wèn)題的根源在于,目前主流的AI圖像生成模型——特別是基于流匹配技術(shù)的模型——雖然能生成高質(zhì)量圖像,但在理解和執(zhí)行復(fù)雜指令方面還有很大提升空間。就像一個(gè)畫技精湛但聽(tīng)力不好的畫師,技術(shù)沒(méi)問(wèn)題,但經(jīng)常畫錯(cuò)你要的東西。
研究團(tuán)隊(duì)提出的Flow-GRPO方法,就像給這位畫師配了一個(gè)超級(jí)敏銳的"耳朵"和一套有效的"反饋系統(tǒng)"。這套系統(tǒng)能讓AI模型在生成圖像的過(guò)程中不斷"自我糾錯(cuò)",逐步學(xué)會(huì)更準(zhǔn)確地理解和執(zhí)行人類的指令。
一、突破傳統(tǒng)限制:從確定性到隨機(jī)性的華麗轉(zhuǎn)身
傳統(tǒng)的流匹配模型就像一臺(tái)精密的機(jī)械鐘,每個(gè)零件的運(yùn)轉(zhuǎn)都是完全確定的,給定相同的輸入,永遠(yuǎn)會(huì)產(chǎn)生相同的輸出。這種確定性雖然保證了穩(wěn)定性,但也帶來(lái)了一個(gè)致命問(wèn)題:無(wú)法進(jìn)行有效的"試錯(cuò)學(xué)習(xí)"。
強(qiáng)化學(xué)習(xí)的精髓在于通過(guò)不斷嘗試不同的行動(dòng)、觀察結(jié)果、獲得反饋,然后調(diào)整策略來(lái)逐步改進(jìn)。這就像學(xué)習(xí)騎自行車,你需要在無(wú)數(shù)次的搖擺、調(diào)整中找到平衡感。但確定性的流匹配模型就像一輛被固定在直線軌道上的車,根本沒(méi)有"搖擺"的空間去探索和學(xué)習(xí)。
研究團(tuán)隊(duì)的第一個(gè)重大突破,就是巧妙地將確定性的常微分方程轉(zhuǎn)換為等價(jià)的隨機(jī)微分方程。這聽(tīng)起來(lái)很復(fù)雜,但用一個(gè)簡(jiǎn)單的比喻來(lái)說(shuō)明:原本的模型像是沿著一條固定鐵軌行駛的火車,現(xiàn)在變成了可以在道路網(wǎng)絡(luò)中自由選擇路徑的汽車。雖然目的地沒(méi)變,但現(xiàn)在有了多種到達(dá)方式,這種"選擇的自由度"正是強(qiáng)化學(xué)習(xí)所需要的探索空間。
更重要的是,研究團(tuán)隊(duì)在數(shù)學(xué)上嚴(yán)格證明了這種轉(zhuǎn)換不會(huì)改變最終的圖像質(zhì)量分布。換句話說(shuō),新方法生成的圖像質(zhì)量與原始方法完全相同,但現(xiàn)在具備了學(xué)習(xí)能力。這就像把一臺(tái)只能播放固定曲目的音樂(lè)盒改造成了能夠即興演奏的鋼琴,音質(zhì)沒(méi)有下降,但表現(xiàn)力大大增強(qiáng)了。
二、效率革命:少即是多的訓(xùn)練智慧
在線強(qiáng)化學(xué)習(xí)有一個(gè)眾所周知的"痛點(diǎn)":需要大量的數(shù)據(jù)來(lái)訓(xùn)練模型。傳統(tǒng)方法就像一個(gè)永遠(yuǎn)吃不飽的巨人,需要消耗海量的計(jì)算資源來(lái)生成訓(xùn)練樣本。對(duì)于圖像生成這樣的任務(wù),每生成一張圖片都需要進(jìn)行幾十步的復(fù)雜計(jì)算,這讓訓(xùn)練過(guò)程變得極其昂貴和緩慢。
研究團(tuán)隊(duì)在這里展現(xiàn)了令人嘆服的洞察力。他們發(fā)現(xiàn)了一個(gè)看似違反直覺(jué)但實(shí)際上非常合理的現(xiàn)象:在強(qiáng)化學(xué)習(xí)訓(xùn)練階段,模型并不需要生成完美質(zhì)量的圖像,只需要生成"足夠好用于比較"的圖像就行了。
這個(gè)發(fā)現(xiàn)就像烹飪比賽中的一個(gè)秘密:評(píng)委并不需要每道菜都做到米其林三星的水準(zhǔn)才能判斷出哪道菜更好。即使是半成品,有經(jīng)驗(yàn)的評(píng)委依然能夠準(zhǔn)確排出優(yōu)劣順序。同樣地,強(qiáng)化學(xué)習(xí)算法只需要能夠比較不同圖像的相對(duì)質(zhì)量,而不需要每張圖像都達(dá)到最終發(fā)布的標(biāo)準(zhǔn)。
基于這個(gè)洞察,研究團(tuán)隊(duì)開(kāi)發(fā)了"去噪減少"策略。在訓(xùn)練階段,他們將原本需要40步的圖像生成過(guò)程壓縮到僅僅10步,這將訓(xùn)練速度提高了4倍以上。但在實(shí)際使用時(shí),模型依然使用完整的40步流程來(lái)保證最終圖像質(zhì)量。這種"訓(xùn)練時(shí)求快、使用時(shí)求精"的策略,就像練習(xí)書法時(shí)先用大筆快速練習(xí)筆畫,熟練后再用細(xì)筆精雕細(xì)琢一樣。
三、精準(zhǔn)制導(dǎo):三大應(yīng)用場(chǎng)景的全面突破
研究團(tuán)隊(duì)選擇了三個(gè)最具挑戰(zhàn)性的應(yīng)用場(chǎng)景來(lái)驗(yàn)證他們的方法,每一個(gè)都代表了AI圖像生成領(lǐng)域的一座難以攻克的高峰。
第一個(gè)場(chǎng)景是復(fù)合場(chǎng)景生成,也就是讓AI準(zhǔn)確理解并生成包含多個(gè)對(duì)象、多種屬性、復(fù)雜空間關(guān)系的圖像。這項(xiàng)任務(wù)的難度就像讓一個(gè)沒(méi)有空間概念的人同時(shí)記住房間里每件家具的顏色、數(shù)量和相對(duì)位置。在著名的GenEval測(cè)試基準(zhǔn)上,經(jīng)過(guò)Flow-GRPO訓(xùn)練的Stable Diffusion 3.5模型準(zhǔn)確率從63%飆升到95%,甚至超越了GPT-4o這樣的頂級(jí)多模態(tài)模型。
當(dāng)你要求AI畫"三只紅色的貓坐在藍(lán)色的沙發(fā)上,旁邊有兩個(gè)黃色的抱枕"時(shí),原始模型可能會(huì)搞混顏色、數(shù)錯(cuò)數(shù)量或者弄錯(cuò)位置關(guān)系。但經(jīng)過(guò)Flow-GRPO訓(xùn)練的模型就像一個(gè)經(jīng)驗(yàn)豐富的室內(nèi)設(shè)計(jì)師,能夠精確地按照你的描述來(lái)布置畫面中的每一個(gè)元素。
第二個(gè)場(chǎng)景是視覺(jué)文字渲染,這是一個(gè)讓許多AI模型"望而生畏"的任務(wù)。要求AI在圖像中準(zhǔn)確生成指定的文字內(nèi)容,就像要求一個(gè)外國(guó)人在完全不懂漢字的情況下臨摹書法作品。傳統(tǒng)模型在這個(gè)任務(wù)上的準(zhǔn)確率只有59%,而Flow-GRPO將這個(gè)數(shù)字提升到了92%。
這種提升的意義非常巨大。想象一下,你現(xiàn)在可以直接要求AI生成帶有特定文字內(nèi)容的海報(bào)、標(biāo)語(yǔ)、招牌等圖像,而不用擔(dān)心文字會(huì)變得扭曲不清。這為廣告設(shè)計(jì)、教育材料制作、多語(yǔ)言內(nèi)容創(chuàng)建等應(yīng)用打開(kāi)了全新的可能性。
第三個(gè)場(chǎng)景是人類偏好對(duì)齊,這個(gè)任務(wù)的目標(biāo)是讓AI生成的圖像更符合人類的審美和偏好。這就像訓(xùn)練一個(gè)藝術(shù)家不僅要畫得技術(shù)精湛,還要畫得讓觀眾喜歡。研究團(tuán)隊(duì)使用了基于大規(guī)模人類評(píng)分?jǐn)?shù)據(jù)訓(xùn)練的PickScore模型作為偏好指標(biāo),成功地讓AI模型學(xué)會(huì)了生成更受人類歡迎的圖像風(fēng)格和內(nèi)容。
四、智能防護(hù):避免"投機(jī)取巧"的巧妙設(shè)計(jì)
在強(qiáng)化學(xué)習(xí)中,有一個(gè)被稱為"獎(jiǎng)勵(lì)黑客"的嚴(yán)重問(wèn)題。就像考試中有些學(xué)生會(huì)想方設(shè)法鉆空子獲得高分,但實(shí)際上并沒(méi)有真正掌握知識(shí)一樣,AI模型也可能會(huì)找到一些"投機(jī)取巧"的方式來(lái)獲得高獎(jiǎng)勵(lì)分?jǐn)?shù),但生成的圖像質(zhì)量實(shí)際上下降了。
研究團(tuán)隊(duì)通過(guò)引入KL散度正則化項(xiàng)來(lái)解決這個(gè)問(wèn)題。這個(gè)技術(shù)手段就像給AI模型設(shè)置了一個(gè)"良心約束",確保它在追求高分的同時(shí)不能偏離原始的高質(zhì)量標(biāo)準(zhǔn)太遠(yuǎn)。具體來(lái)說(shuō),這個(gè)約束會(huì)持續(xù)監(jiān)控模型的行為,一旦發(fā)現(xiàn)它開(kāi)始"走歪路",就會(huì)施加一個(gè)溫和但有效的拉力,把它拉回正軌。
實(shí)驗(yàn)結(jié)果證明了這種設(shè)計(jì)的有效性。在所有測(cè)試場(chǎng)景中,使用KL正則化的模型不僅在目標(biāo)任務(wù)上表現(xiàn)優(yōu)異,同時(shí)在圖像質(zhì)量、視覺(jué)多樣性等通用指標(biāo)上也保持了原有水準(zhǔn)。這就像一個(gè)學(xué)生在專業(yè)課上取得了優(yōu)異成績(jī),同時(shí)在其他科目上也沒(méi)有退步。
五、技術(shù)深度:從理論到實(shí)踐的完整鏈條
Flow-GRPO的技術(shù)實(shí)現(xiàn)體現(xiàn)了研究團(tuán)隊(duì)深厚的理論功底和工程實(shí)踐能力。他們采用了GRPO算法作為強(qiáng)化學(xué)習(xí)的核心,這個(gè)算法相比傳統(tǒng)的PPO算法有一個(gè)顯著優(yōu)勢(shì):不需要額外訓(xùn)練一個(gè)價(jià)值網(wǎng)絡(luò),從而大大降低了內(nèi)存消耗和計(jì)算復(fù)雜度。
在數(shù)學(xué)推導(dǎo)上,研究團(tuán)隊(duì)嚴(yán)格證明了ODE到SDE轉(zhuǎn)換的等價(jià)性。這個(gè)證明過(guò)程就像建造橋梁時(shí)的工程計(jì)算,需要確保新的結(jié)構(gòu)在承受各種載荷時(shí)都能保持穩(wěn)定。他們從福克-普朗克方程出發(fā),通過(guò)一系列精密的數(shù)學(xué)變換,確保了轉(zhuǎn)換后的隨機(jī)過(guò)程在所有時(shí)間步上都與原始確定性過(guò)程具有相同的邊際分布。
在實(shí)現(xiàn)細(xì)節(jié)上,研究團(tuán)隊(duì)使用了σ? = a√(t/(1-t))的噪聲調(diào)度策略,其中參數(shù)a控制隨機(jī)性的強(qiáng)度。這個(gè)公式看起來(lái)抽象,但它的作用就像汽車的油門踏板,控制著模型探索新可能性的"膽量"。參數(shù)設(shè)置得太小,模型就像過(guò)于謹(jǐn)慎的司機(jī),不敢嘗試新路線;設(shè)置得太大,模型就像莽撞的賽車手,容易偏離正確方向。
六、實(shí)驗(yàn)驗(yàn)證:數(shù)據(jù)說(shuō)話的科學(xué)嚴(yán)謹(jǐn)性
研究團(tuán)隊(duì)的實(shí)驗(yàn)設(shè)計(jì)體現(xiàn)了科學(xué)研究的嚴(yán)謹(jǐn)態(tài)度。他們不滿足于僅僅展示最終結(jié)果的改進(jìn),而是系統(tǒng)性地分析了方法的每個(gè)組成部分的貢獻(xiàn)。
在對(duì)比實(shí)驗(yàn)中,F(xiàn)low-GRPO不僅與其他強(qiáng)化學(xué)習(xí)方法進(jìn)行了比較,還與監(jiān)督微調(diào)、獎(jiǎng)勵(lì)加權(quán)回歸、直接偏好優(yōu)化等多種對(duì)齊方法進(jìn)行了全面對(duì)比。結(jié)果顯示,F(xiàn)low-GRPO在所有測(cè)試任務(wù)上都實(shí)現(xiàn)了顯著的性能提升,證明了在線強(qiáng)化學(xué)習(xí)相比離線方法的優(yōu)越性。
特別值得關(guān)注的是泛化能力測(cè)試。研究團(tuán)隊(duì)不僅在訓(xùn)練數(shù)據(jù)上測(cè)試模型性能,還在完全未見(jiàn)過(guò)的對(duì)象類別和數(shù)量組合上進(jìn)行了評(píng)估。結(jié)果顯示,經(jīng)過(guò)Flow-GRPO訓(xùn)練的模型能夠成功地將學(xué)到的規(guī)律推廣到新的場(chǎng)景中。比如,在只訓(xùn)練過(guò)2-4個(gè)對(duì)象的場(chǎng)景下,模型竟然能夠準(zhǔn)確生成5-6個(gè)對(duì)象的復(fù)雜場(chǎng)景。
七、技術(shù)影響:開(kāi)啟AI生成新時(shí)代
Flow-GRPO的意義遠(yuǎn)遠(yuǎn)超出了一個(gè)新算法的范疇,它代表了AI圖像生成領(lǐng)域的一個(gè)重要轉(zhuǎn)折點(diǎn)。傳統(tǒng)的預(yù)訓(xùn)練+微調(diào)范式開(kāi)始向預(yù)訓(xùn)練+強(qiáng)化學(xué)習(xí)范式轉(zhuǎn)變,這種變化將深刻影響未來(lái)AI系統(tǒng)的設(shè)計(jì)思路。
從技術(shù)角度看,F(xiàn)low-GRPO證明了強(qiáng)化學(xué)習(xí)在生成模型中的巨大潛力。這不僅為圖像生成領(lǐng)域指明了新方向,也為視頻生成、音頻合成、文本創(chuàng)作等其他生成任務(wù)提供了寶貴的借鑒。研究團(tuán)隊(duì)在論文中已經(jīng)指出,他們的方法完全可以擴(kuò)展到視頻生成領(lǐng)域,只需要設(shè)計(jì)合適的獎(jiǎng)勵(lì)函數(shù)來(lái)評(píng)估視頻的時(shí)序一致性和物理真實(shí)性。
從應(yīng)用角度看,F(xiàn)low-GRPO讓AI圖像生成從"碰運(yùn)氣"變成了"有目標(biāo)"的過(guò)程。這種轉(zhuǎn)變將催生出大量新的應(yīng)用場(chǎng)景。廣告公司可以更精確地控制品牌元素在生成圖像中的呈現(xiàn);教育機(jī)構(gòu)可以快速創(chuàng)建包含特定知識(shí)點(diǎn)的圖解教材;游戲開(kāi)發(fā)者可以根據(jù)劇情需要生成精確匹配的場(chǎng)景和角色。
八、未來(lái)展望:挑戰(zhàn)與機(jī)遇并存
盡管Flow-GRPO取得了令人矚目的成果,但研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前方法的局限性和未來(lái)的改進(jìn)方向。
首要挑戰(zhàn)是計(jì)算資源的需求。雖然去噪減少策略大大提高了訓(xùn)練效率,但在線強(qiáng)化學(xué)習(xí)本身仍然是一個(gè)計(jì)算密集型的過(guò)程。對(duì)于個(gè)人開(kāi)發(fā)者或小型研究團(tuán)隊(duì)來(lái)說(shuō),復(fù)現(xiàn)這樣的研究結(jié)果仍然需要相當(dāng)可觀的硬件投入。
獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)是另一個(gè)重要挑戰(zhàn)。目前的研究主要使用了相對(duì)簡(jiǎn)單的任務(wù)特定獎(jiǎng)勵(lì),如對(duì)象檢測(cè)準(zhǔn)確率或文字識(shí)別準(zhǔn)確率。但在更復(fù)雜的創(chuàng)意任務(wù)中,如何定義和量化"創(chuàng)意性"、"藝術(shù)性"等抽象概念,仍然是一個(gè)開(kāi)放性問(wèn)題。
多目標(biāo)優(yōu)化也是一個(gè)需要深入研究的方向。在實(shí)際應(yīng)用中,我們往往希望生成的圖像同時(shí)滿足多個(gè)標(biāo)準(zhǔn),比如既要內(nèi)容準(zhǔn)確,又要風(fēng)格美觀,還要符合特定的情感表達(dá)。如何在這些可能相互沖突的目標(biāo)之間找到最佳平衡點(diǎn),需要更加精細(xì)化的算法設(shè)計(jì)。
然而,這些挑戰(zhàn)同時(shí)也意味著巨大的機(jī)遇。隨著計(jì)算硬件的不斷進(jìn)步和算法效率的持續(xù)優(yōu)化,F(xiàn)low-GRPO類型的方法有望在更廣泛的場(chǎng)景中得到應(yīng)用。特別是在專業(yè)內(nèi)容創(chuàng)作領(lǐng)域,這種精確可控的生成能力將為創(chuàng)作者提供前所未有的創(chuàng)作工具。
說(shuō)到底,F(xiàn)low-GRPO的真正價(jià)值不僅在于它解決了當(dāng)前AI圖像生成中的一些具體問(wèn)題,更在于它展示了一種全新的思路:通過(guò)引入反饋機(jī)制和目標(biāo)導(dǎo)向的學(xué)習(xí)過(guò)程,我們可以讓AI系統(tǒng)變得更加"聰明"和"聽(tīng)話"。這種思路的應(yīng)用前景幾乎是無(wú)限的,從當(dāng)前的圖像生成到未來(lái)的視頻創(chuàng)作、虛擬現(xiàn)實(shí)內(nèi)容生成、甚至是通用人工智能系統(tǒng)的訓(xùn)練,都可能受益于這種方法論。
對(duì)于普通用戶來(lái)說(shuō),F(xiàn)low-GRPO的普及意味著AI工具將變得更加實(shí)用和可靠。你不再需要反復(fù)嘗試不同的提示詞來(lái)獲得想要的圖像效果,也不用擔(dān)心AI會(huì)"理解錯(cuò)誤"你的指令。這種進(jìn)步將讓AI創(chuàng)作工具真正走進(jìn)千家萬(wàn)戶,成為每個(gè)人都能輕松使用的創(chuàng)意助手。
當(dāng)然,伴隨著技術(shù)進(jìn)步,我們也需要思考相應(yīng)的倫理和社會(huì)影響。更強(qiáng)大的AI生成能力可能會(huì)帶來(lái)版權(quán)、隱私、信息真實(shí)性等方面的新挑戰(zhàn)。研究團(tuán)隊(duì)在論文中雖然沒(méi)有詳細(xì)討論這些問(wèn)題,但這些確實(shí)是整個(gè)AI社區(qū)需要共同面對(duì)的重要議題。
這項(xiàng)由中國(guó)研究團(tuán)隊(duì)主導(dǎo)的突破性工作,不僅在技術(shù)上取得了重要進(jìn)展,也展現(xiàn)了中國(guó)在人工智能前沿研究領(lǐng)域的強(qiáng)勁實(shí)力。從中科大的多媒體實(shí)驗(yàn)室到清華大學(xué),從快手科技到上海AI實(shí)驗(yàn)室,這種跨機(jī)構(gòu)合作模式為解決復(fù)雜技術(shù)問(wèn)題提供了有效的組織形式。對(duì)于想要深入了解技術(shù)細(xì)節(jié)的讀者,可以訪問(wèn)研究團(tuán)隊(duì)提供的開(kāi)源代碼庫(kù),親自體驗(yàn)這項(xiàng)技術(shù)的魅力。
Q&A
Q1:Flow-GRPO是什么?它能做什么?
A:Flow-GRPO是一種新的AI圖像生成訓(xùn)練方法,它首次將在線強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用到流匹配模型中。簡(jiǎn)單來(lái)說(shuō),它讓AI在生成圖像時(shí)能夠不斷"自我糾錯(cuò)",顯著提高了生成圖像的準(zhǔn)確性。比如要求AI畫"三只紅貓",傳統(tǒng)方法經(jīng)常畫錯(cuò)數(shù)量或顏色,而Flow-GRPO訓(xùn)練的模型能準(zhǔn)確執(zhí)行這類復(fù)雜指令,在測(cè)試中準(zhǔn)確率從63%提升到95%。
Q2:這項(xiàng)技術(shù)會(huì)不會(huì)很快普及到我們?nèi)粘J褂玫腁I工具中?
A:技術(shù)普及需要一定時(shí)間。雖然Flow-GRPO效果顯著,但目前仍需要較多計(jì)算資源進(jìn)行訓(xùn)練。不過(guò)隨著硬件成本下降和算法優(yōu)化,預(yù)計(jì)未來(lái)2-3年內(nèi)會(huì)逐步集成到主流AI創(chuàng)作工具中。到那時(shí),普通用戶就能體驗(yàn)到更精準(zhǔn)、更聽(tīng)話的AI圖像生成服務(wù),特別是在廣告設(shè)計(jì)、教育內(nèi)容制作等專業(yè)領(lǐng)域。
Q3:Flow-GRPO與傳統(tǒng)AI圖像生成方法有什么本質(zhì)區(qū)別?
A:最大區(qū)別在于學(xué)習(xí)方式。傳統(tǒng)方法像"死記硬背",只能根據(jù)訓(xùn)練時(shí)見(jiàn)過(guò)的模式生成圖像;而Flow-GRPO引入了"反饋學(xué)習(xí)"機(jī)制,能夠根據(jù)結(jié)果好壞來(lái)調(diào)整生成策略。這就像從只會(huì)背誦食譜的廚師,變成了能根據(jù)客人反饋不斷改進(jìn)菜品的大廚。這種機(jī)制讓AI不僅能生成高質(zhì)量圖像,還能精確理解和執(zhí)行復(fù)雜指令。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。