這項(xiàng)由中國科學(xué)技術(shù)大學(xué)的陳楠、黃夢(mèng)齊、毛振東以及香港科技大學(xué)的孟伊豪共同完成的研究發(fā)表于2025年7月2日,論文編號(hào)為arXiv:2507.01945v1。有興趣深入了解的讀者可以通過arXiv平臺(tái)訪問完整論文和相關(guān)代碼。
在動(dòng)畫制作的世界里,有一個(gè)讓制作團(tuán)隊(duì)頭疼不已的難題:如何讓長篇?jiǎng)赢嬛械慕巧冀K保持一致的顏色。當(dāng)你看動(dòng)畫片時(shí),可能從未注意到這個(gè)問題,但對(duì)制作團(tuán)隊(duì)來說,這卻是一項(xiàng)極其耗時(shí)耗力的工作。以往,動(dòng)畫師需要手工為每一幀畫面上色,確保主角的藍(lán)色衣服在第一集和第十集中看起來完全一樣,這種工作往往需要數(shù)百個(gè)小時(shí)才能完成一部10到30秒的短片。
現(xiàn)有的AI上色技術(shù)雖然能夠處理短片段,但面對(duì)長動(dòng)畫時(shí)就像一個(gè)健忘的畫家,總是忘記之前用過的顏色。比如一個(gè)角色的黃色帽子可能在動(dòng)畫進(jìn)行到一半時(shí)突然變成紅色,或者背景的綠色樹葉莫名其妙地變成了紫色。這種"失憶"現(xiàn)象的根本原因在于現(xiàn)有方法只關(guān)注相鄰畫面之間的顏色連貫性,卻忽略了整個(gè)動(dòng)畫的全局色彩一致性。
研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新的解決方案,他們稱之為"動(dòng)態(tài)全局-局部記憶"機(jī)制。這就像給AI配備了一個(gè)既能記住整體又能關(guān)注細(xì)節(jié)的智能大腦。在這個(gè)比喻中,全局記憶就像一個(gè)資深的美術(shù)指導(dǎo),始終記得每個(gè)角色的標(biāo)準(zhǔn)配色方案,而局部記憶則像一個(gè)細(xì)心的畫師,專注于讓相鄰畫面之間的過渡看起來自然流暢。
具體來說,他們開發(fā)的LongAnimation系統(tǒng)主要包含三個(gè)核心組件。第一個(gè)是SketchDiT,這相當(dāng)于一個(gè)智能的特征提取器,能夠同時(shí)理解參考圖像、線稿草圖和文字描述,為后續(xù)的色彩記憶機(jī)制提供基礎(chǔ)。第二個(gè)是動(dòng)態(tài)全局-局部記憶模塊,這是整個(gè)系統(tǒng)的核心創(chuàng)新,它能夠從歷史動(dòng)畫片段中動(dòng)態(tài)提取與當(dāng)前生成內(nèi)容相關(guān)的色彩一致性特征。第三個(gè)是色彩一致性獎(jiǎng)勵(lì)機(jī)制,用于進(jìn)一步優(yōu)化色彩的準(zhǔn)確性。
動(dòng)態(tài)全局-局部記憶模塊的工作原理頗為巧妙。它采用了一個(gè)長視頻理解模型來壓縮和分析歷史生成的動(dòng)畫片段,就像一個(gè)經(jīng)驗(yàn)豐富的動(dòng)畫師能夠從之前的工作中快速找到相關(guān)的色彩信息。這個(gè)模塊不是簡(jiǎn)單地復(fù)制之前的顏色,而是智能地提取那些與當(dāng)前生成內(nèi)容最相關(guān)的色彩特征,然后將這些全局信息與當(dāng)前的局部特征相結(jié)合,確保既保持長期的色彩一致性,又不失去畫面的自然流暢性。
在實(shí)際應(yīng)用中,這套系統(tǒng)展現(xiàn)出了令人印象深刻的性能。實(shí)驗(yàn)結(jié)果顯示,LongAnimation在短期動(dòng)畫(14幀)的色彩相似度指標(biāo)上比現(xiàn)有最佳方法提升了57.1%,在長期動(dòng)畫(平均500幀)上的提升更是達(dá)到了58.0%。視頻質(zhì)量方面的提升也同樣顯著,短期和長期動(dòng)畫的視頻質(zhì)量分別提升了35.1%和49.1%。這意味著生成的動(dòng)畫不僅色彩更加一致,整體視覺效果也更加出色。
更值得注意的是,這套系統(tǒng)能夠穩(wěn)定地為平均長度達(dá)500幀的動(dòng)畫進(jìn)行上色,這個(gè)長度是以往方法能夠處理的至少5倍。這種能力的提升對(duì)動(dòng)畫行業(yè)具有重要意義,因?yàn)楝F(xiàn)實(shí)中的動(dòng)畫片段往往長達(dá)10到30秒,對(duì)應(yīng)300到1000幀的畫面,而傳統(tǒng)方法很難維持如此長時(shí)間的色彩一致性。
研究團(tuán)隊(duì)還引入了一個(gè)巧妙的推理時(shí)色彩融合技術(shù)。他們發(fā)現(xiàn),如果在整個(gè)去噪過程中都進(jìn)行畫面融合,會(huì)干擾圖像的亮度等視覺細(xì)節(jié),特別是在較暗的動(dòng)畫場(chǎng)景中這種問題更為明顯。因此,他們選擇只在去噪過程的后期階段進(jìn)行融合,這樣既能保證相鄰片段之間的平滑過渡,又不會(huì)影響其他視覺特征。
在技術(shù)實(shí)現(xiàn)方面,LongAnimation基于CogVideoX這一先進(jìn)的視頻生成模型,采用了DiT(Diffusion Transformer)架構(gòu)。他們?cè)赟akuga-42M數(shù)據(jù)集上進(jìn)行訓(xùn)練,這個(gè)數(shù)據(jù)集包含了大量高質(zhì)量的動(dòng)畫片段。整個(gè)訓(xùn)練過程分為三個(gè)階段:首先訓(xùn)練SketchDiT模塊30,000步,然后訓(xùn)練全局-局部記憶模塊10,000步,最后使用色彩一致性獎(jiǎng)勵(lì)進(jìn)行10,000步的精調(diào)。
實(shí)驗(yàn)評(píng)估采用了多個(gè)維度的指標(biāo),包括視頻質(zhì)量指標(biāo)(FID和FVD)以及幀級(jí)色彩相似度指標(biāo)(PSNR、LPIPS和SSIM)。研究團(tuán)隊(duì)將他們的方法與現(xiàn)有的幾個(gè)主要方法進(jìn)行了對(duì)比,包括ToonCrafter、LVCD和AniDoc等,結(jié)果顯示LongAnimation在所有指標(biāo)上都取得了最佳性能。
特別有趣的是,研究團(tuán)隊(duì)還進(jìn)行了頻域分析,發(fā)現(xiàn)他們的方法在保持低頻信息(主要對(duì)應(yīng)色彩特征)方面表現(xiàn)最好,在500幀的長動(dòng)畫中,低頻信息的衰減率比次優(yōu)方法降低了8.2%。這從技術(shù)角度證實(shí)了該方法在長期色彩一致性保持方面的優(yōu)越性。
除了核心的上色功能,LongAnimation還具備文本引導(dǎo)的背景生成能力。通過在SketchDiT中引入文本控制條件,系統(tǒng)能夠根據(jù)文本描述生成相應(yīng)的背景內(nèi)容,這是以往方法無法實(shí)現(xiàn)的功能。比如,用戶可以輸入"在森林中"或"在海邊"這樣的描述,系統(tǒng)就能生成相應(yīng)的背景環(huán)境,同時(shí)保持角色色彩的一致性。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)來驗(yàn)證各個(gè)組件的有效性。結(jié)果顯示,相比僅使用SketchDiT的基礎(chǔ)版本,引入動(dòng)態(tài)全局-局部記憶機(jī)制后,幀相似度指標(biāo)提升了11.6%,視頻質(zhì)量提升了18.6%。色彩一致性獎(jiǎng)勵(lì)機(jī)制的加入進(jìn)一步帶來了10.5%的幀相似度提升和8.0%的視頻質(zhì)量提升。
在推理時(shí)間的色彩融合實(shí)驗(yàn)中,研究團(tuán)隊(duì)發(fā)現(xiàn)融合時(shí)機(jī)的選擇至關(guān)重要。如果從去噪過程的早期階段就開始融合,會(huì)導(dǎo)致視頻質(zhì)量下降,但如果在去噪的后期階段進(jìn)行融合,則能在保證融合幀一致性的同時(shí)維持其他幀的亮度等特征。這個(gè)發(fā)現(xiàn)對(duì)于實(shí)際應(yīng)用具有重要指導(dǎo)意義。
這項(xiàng)研究的意義不僅在于技術(shù)層面的突破,更在于它為動(dòng)畫產(chǎn)業(yè)帶來的實(shí)際價(jià)值。傳統(tǒng)的動(dòng)畫上色工作極其耗時(shí),一個(gè)熟練的動(dòng)畫師可能需要數(shù)天時(shí)間才能完成幾秒鐘動(dòng)畫的上色工作。而LongAnimation的出現(xiàn)有望大大縮短這個(gè)過程,讓動(dòng)畫制作團(tuán)隊(duì)能夠?qū)⒏嗑ν度氲絼?chuàng)意和故事本身,而不是重復(fù)性的技術(shù)工作。
從技術(shù)發(fā)展的角度來看,這項(xiàng)研究代表了AI在創(chuàng)意產(chǎn)業(yè)應(yīng)用方面的重要進(jìn)展。它不僅解決了一個(gè)具體的技術(shù)難題,更展示了如何將長視頻理解、動(dòng)態(tài)記憶機(jī)制和擴(kuò)散模型等前沿技術(shù)有機(jī)結(jié)合,形成一個(gè)完整的解決方案。這種跨領(lǐng)域技術(shù)融合的思路對(duì)其他相關(guān)研究也具有啟發(fā)意義。
當(dāng)然,這項(xiàng)技術(shù)目前還有一些局限性。比如,它主要針對(duì)的是線稿動(dòng)畫的上色任務(wù),對(duì)于其他類型的動(dòng)畫制作支持還有待擴(kuò)展。此外,雖然在實(shí)驗(yàn)數(shù)據(jù)集上表現(xiàn)出色,但在實(shí)際商業(yè)應(yīng)用中的穩(wěn)定性和可靠性還需要進(jìn)一步驗(yàn)證。
展望未來,這種動(dòng)態(tài)記憶機(jī)制可能會(huì)被應(yīng)用到更廣泛的視頻生成任務(wù)中,不僅限于動(dòng)畫上色。比如,它可能被用于視頻風(fēng)格轉(zhuǎn)換、角色一致性維護(hù),甚至是更復(fù)雜的視頻編輯任務(wù)。隨著技術(shù)的不斷完善,我們有理由相信,AI將在創(chuàng)意產(chǎn)業(yè)中發(fā)揮越來越重要的作用,成為創(chuàng)作者們的得力助手。
說到底,LongAnimation代表的不僅僅是一項(xiàng)技術(shù)創(chuàng)新,更是對(duì)創(chuàng)意工作流程的重新思考。它告訴我們,通過巧妙的技術(shù)設(shè)計(jì),AI不僅能夠承擔(dān)重復(fù)性的技術(shù)工作,還能在保證質(zhì)量的前提下大大提高效率。這種人機(jī)協(xié)作的模式可能是創(chuàng)意產(chǎn)業(yè)未來發(fā)展的重要方向。對(duì)于動(dòng)畫愛好者來說,這項(xiàng)技術(shù)的成熟可能意味著我們將看到更多高質(zhì)量的動(dòng)畫作品,而對(duì)于從業(yè)者來說,它則可能徹底改變傳統(tǒng)的工作方式,讓創(chuàng)意表達(dá)變得更加自由和高效。
Q&A
Q1:LongAnimation能處理多長的動(dòng)畫?它比傳統(tǒng)方法強(qiáng)在哪里? A:LongAnimation能穩(wěn)定處理平均500幀的動(dòng)畫(約16-20秒),是傳統(tǒng)方法處理能力的至少5倍。它的主要優(yōu)勢(shì)在于具備"全局記憶"能力,就像一個(gè)不會(huì)忘記角色原本顏色的畫師,能確保動(dòng)畫從頭到尾顏色保持一致,而傳統(tǒng)方法只能保證相鄰片段的顏色連貫性。
Q2:這項(xiàng)技術(shù)會(huì)不會(huì)取代動(dòng)畫師的工作? A:不會(huì)完全取代,更像是給動(dòng)畫師配備了一個(gè)智能助手。LongAnimation主要處理重復(fù)性的上色工作,讓動(dòng)畫師能將更多精力投入到創(chuàng)意構(gòu)思、角色設(shè)計(jì)和故事表達(dá)上。它解決的是技術(shù)性的色彩一致性問題,而動(dòng)畫的靈魂仍然需要人類的創(chuàng)意和情感投入。
Q3:普通用戶能使用這項(xiàng)技術(shù)嗎?使用門檻高不高? A:目前LongAnimation還主要是研究階段的技術(shù),代碼已在GitHub開源供研究使用。對(duì)于普通用戶來說,需要一定的技術(shù)背景才能部署使用。不過隨著技術(shù)成熟,未來很可能會(huì)有更友好的商業(yè)化產(chǎn)品出現(xiàn),讓普通創(chuàng)作者也能輕松使用這種AI上色技術(shù)。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。