這項(xiàng)由高通AI研究院的阮光平博士領(lǐng)導(dǎo)的研究團(tuán)隊(duì)開發(fā)的技術(shù)發(fā)表于2025年7月,研究團(tuán)隊(duì)包括來自高通AI研究院和MovianAI的多位專家,有興趣深入了解的讀者可以通過論文編號(hào)arXiv:2507.13984v1獲取完整研究?jī)?nèi)容。
當(dāng)你看到一幅美麗的畫作時(shí),是否曾想過能夠把畫中的內(nèi)容和繪畫風(fēng)格完全分開?比如,將一只可愛的小狗從油畫風(fēng)格中"提取"出來,然后讓它出現(xiàn)在動(dòng)漫風(fēng)格的畫面里,或者將油畫的質(zhì)感應(yīng)用到其他任何物體上?這聽起來像魔法,但現(xiàn)在計(jì)算機(jī)科學(xué)家們真的做到了。
高通AI研究院的科學(xué)家們開發(fā)出了一種名為CSD-VAR的新技術(shù),就像一個(gè)神奇的"內(nèi)容-風(fēng)格分離器"。這個(gè)技術(shù)的核心思想是,任何一幅畫都可以被想象成由兩個(gè)獨(dú)立的"配方"組成:一個(gè)是"內(nèi)容配方"(告訴我們畫的是什么),另一個(gè)是"風(fēng)格配方"(告訴我們?cè)趺串嫷模?。就好比做菜時(shí),食材本身是內(nèi)容,而烹飪方法是風(fēng)格一樣。
這項(xiàng)研究的獨(dú)特之處在于,它是首個(gè)專門針對(duì)視覺自回歸模型(VAR)進(jìn)行內(nèi)容風(fēng)格分離的技術(shù)。傳統(tǒng)的方法主要針對(duì)擴(kuò)散模型設(shè)計(jì),就像專門為燃油車設(shè)計(jì)的零件無法直接用在電動(dòng)車上一樣。而VAR是一種新興的圖像生成技術(shù),它的工作方式類似于我們看顯微鏡的過程:先看到一個(gè)模糊的整體輪廓,然后逐步放大,看到越來越清晰的細(xì)節(jié)。研究團(tuán)隊(duì)發(fā)現(xiàn),在這個(gè)"從模糊到清晰"的過程中,風(fēng)格信息主要藏在最初的模糊階段和最后的精細(xì)階段,而內(nèi)容信息則主要集中在中間的幾個(gè)階段。
為了更好地理解這個(gè)發(fā)現(xiàn),我們可以想象拍攝一張照片的過程。當(dāng)你剛開始調(diào)焦時(shí),畫面非常模糊,但你已經(jīng)能感受到整體的色調(diào)和氛圍(這就是風(fēng)格)。隨著焦距調(diào)整,物體的輪廓逐漸清晰(這是內(nèi)容的主要部分)。最后,當(dāng)焦點(diǎn)完全對(duì)準(zhǔn)時(shí),你能看到物體表面的紋理和材質(zhì)細(xì)節(jié)(這又回到了風(fēng)格的范疇)。
基于這個(gè)洞察,研究團(tuán)隊(duì)開發(fā)了三個(gè)關(guān)鍵創(chuàng)新。第一個(gè)創(chuàng)新是"尺度感知交替優(yōu)化策略"。這個(gè)策略就像訓(xùn)練兩個(gè)專門的廚師:一個(gè)專門負(fù)責(zé)選擇食材(內(nèi)容),另一個(gè)專門負(fù)責(zé)調(diào)味(風(fēng)格)。他們輪流進(jìn)行訓(xùn)練,確保各司其職,不會(huì)互相干擾。在模糊階段,主要訓(xùn)練負(fù)責(zé)風(fēng)格的"廚師",在清晰階段,主要訓(xùn)練負(fù)責(zé)內(nèi)容的"廚師"。這種交替訓(xùn)練的方式避免了兩者混淆,讓分離效果更加干凈。
第二個(gè)創(chuàng)新是基于奇異值分解(SVD)的風(fēng)格嵌入修正方法。聽起來很復(fù)雜,但其實(shí)就像給圖片做"除雜"處理。當(dāng)系統(tǒng)學(xué)習(xí)一個(gè)風(fēng)格時(shí),難免會(huì)意外地學(xué)到一些內(nèi)容信息,就像拍照時(shí)不小心把不想要的東西也拍進(jìn)去了一樣。這個(gè)修正方法就像一個(gè)精密的橡皮擦,能夠識(shí)別并清除掉風(fēng)格表示中混入的內(nèi)容信息。具體來說,系統(tǒng)會(huì)先分析大量相似內(nèi)容的樣本,找出它們的共同特征,然后將這些特征從風(fēng)格表示中"減去",確保風(fēng)格的純凈性。
第三個(gè)創(chuàng)新是增強(qiáng)式鍵值記憶機(jī)制。由于單純的文字描述有時(shí)無法完全捕捉復(fù)雜的內(nèi)容或風(fēng)格特征,研究團(tuán)隊(duì)為系統(tǒng)增加了額外的"記憶儲(chǔ)存空間"。這就像給學(xué)生配備了參考書,當(dāng)課本內(nèi)容不夠用時(shí),可以查閱更詳細(xì)的資料。這些額外的記憶不僅提高了內(nèi)容風(fēng)格的分離質(zhì)量,還能更好地保持物體的身份特征。
為了驗(yàn)證這個(gè)技術(shù)的效果,研究團(tuán)隊(duì)還創(chuàng)建了一個(gè)名為CSD-100的專門數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包含100張精心挑選的圖片,涵蓋了各種不同的內(nèi)容類型(從動(dòng)物到交通工具)和風(fēng)格類型(從水彩畫到像素藝術(shù))。就像建造一個(gè)測(cè)試場(chǎng)地來驗(yàn)證新車的性能一樣,這個(gè)數(shù)據(jù)集為評(píng)估內(nèi)容風(fēng)格分離技術(shù)提供了標(biāo)準(zhǔn)化的測(cè)試環(huán)境。
數(shù)據(jù)集的構(gòu)建過程非常嚴(yán)謹(jǐn)。研究團(tuán)隊(duì)首先從現(xiàn)有的風(fēng)格轉(zhuǎn)換數(shù)據(jù)集中收集了大約400個(gè)內(nèi)容概念和100個(gè)風(fēng)格概念,然后使用先進(jìn)的文本到圖像生成模型創(chuàng)建了18000張圖片。接下來,他們通過人工篩選,選出了每種風(fēng)格最具代表性的圖片,最終得到1000張高質(zhì)量圖片。為了進(jìn)一步提升質(zhì)量,團(tuán)隊(duì)還使用了ChatGPT來輔助最終的篩選,確保選出的100張圖片能夠最好地展現(xiàn)各種內(nèi)容風(fēng)格組合。
實(shí)驗(yàn)結(jié)果證明了CSD-VAR技術(shù)的卓越表現(xiàn)。在與現(xiàn)有方法的對(duì)比中,這項(xiàng)技術(shù)在內(nèi)容保持、風(fēng)格轉(zhuǎn)換和文本對(duì)齊等各個(gè)方面都取得了最佳效果。特別值得注意的是,傳統(tǒng)方法經(jīng)常遇到"內(nèi)容泄漏"問題,即在提取風(fēng)格時(shí)會(huì)意外地包含一些內(nèi)容信息,導(dǎo)致生成的圖片中出現(xiàn)不想要的物體。而CSD-VAR技術(shù)通過其創(chuàng)新的設(shè)計(jì)有效解決了這個(gè)問題。
在實(shí)際應(yīng)用中,這個(gè)技術(shù)展現(xiàn)出了令人印象深刻的靈活性。當(dāng)給定一張輸入圖片后,系統(tǒng)能夠生成兩套獨(dú)立的"密碼本":一個(gè)用于重現(xiàn)圖片的內(nèi)容,另一個(gè)用于重現(xiàn)圖片的風(fēng)格。利用這些密碼本,用戶可以實(shí)現(xiàn)各種創(chuàng)意操作。比如,將一只貓的"內(nèi)容密碼"與水彩畫的"風(fēng)格密碼"結(jié)合,就能生成一幅水彩風(fēng)格的貓咪畫作?;蛘邔⒛硞€(gè)特定繪畫風(fēng)格應(yīng)用到完全不同的物體上,比如用梵高的畫風(fēng)來繪制現(xiàn)代汽車。
研究團(tuán)隊(duì)還進(jìn)行了深入的分析和消融實(shí)驗(yàn),驗(yàn)證了每個(gè)組件的重要性。當(dāng)移除尺度感知交替優(yōu)化策略時(shí),系統(tǒng)的內(nèi)容風(fēng)格分離能力顯著下降。當(dāng)去掉SVD修正方法時(shí),生成的圖片中會(huì)出現(xiàn)明顯的內(nèi)容泄漏現(xiàn)象。而當(dāng)移除增強(qiáng)式鍵值記憶時(shí),系統(tǒng)對(duì)復(fù)雜內(nèi)容和風(fēng)格的捕捉能力會(huì)受到影響。這些實(shí)驗(yàn)證實(shí)了整個(gè)技術(shù)架構(gòu)的合理性和必要性。
用戶研究也進(jìn)一步證實(shí)了技術(shù)的優(yōu)越性。100名參與者在圖像質(zhì)量、文本遵循度、內(nèi)容對(duì)齊度、風(fēng)格對(duì)齊度和整體質(zhì)量等五個(gè)維度上,都更偏向于選擇CSD-VAR生成的結(jié)果。這種一致的偏好表明,該技術(shù)不僅在客觀指標(biāo)上表現(xiàn)優(yōu)異,在主觀感受上也獲得了用戶的認(rèn)可。
這項(xiàng)技術(shù)的潛在應(yīng)用前景非常廣闊。對(duì)于數(shù)字藝術(shù)創(chuàng)作者來說,它可以大大加速創(chuàng)作流程,讓藝術(shù)家能夠快速嘗試不同的風(fēng)格組合。對(duì)于教育領(lǐng)域,教師可以用它來創(chuàng)建各種風(fēng)格的教學(xué)素材,讓抽象概念變得更加生動(dòng)。在娛樂產(chǎn)業(yè)中,游戲開發(fā)者和動(dòng)畫制作者可以利用這個(gè)技術(shù)快速生成具有統(tǒng)一風(fēng)格的大量素材。甚至在個(gè)人應(yīng)用層面,普通用戶也可以用它來創(chuàng)作個(gè)性化的藝術(shù)作品或者重新演繹經(jīng)典圖片。
當(dāng)然,任何新技術(shù)都有其局限性。研究團(tuán)隊(duì)誠(chéng)實(shí)地指出,當(dāng)前的方法在處理包含復(fù)雜細(xì)節(jié)的圖片時(shí)仍有改進(jìn)空間,這表明在精細(xì)化表示學(xué)習(xí)方面還需要進(jìn)一步研究。另外,雖然CSD-100數(shù)據(jù)集為評(píng)估提供了良好的基準(zhǔn),但其規(guī)模相對(duì)較小,未來需要擴(kuò)展到更大的規(guī)模以支持更全面的評(píng)估和訓(xùn)練。
從技術(shù)發(fā)展的角度來看,這項(xiàng)研究代表了計(jì)算機(jī)視覺和人工智能領(lǐng)域的一個(gè)重要進(jìn)步。它不僅提供了一種全新的內(nèi)容風(fēng)格分離方法,更重要的是為視覺自回歸模型在個(gè)性化生成任務(wù)中的應(yīng)用開辟了新的道路。隨著這類技術(shù)的不斷成熟,我們可以期待在不久的將來,AI將能夠更好地理解和操作圖像的不同層面,為人類的創(chuàng)意表達(dá)提供更強(qiáng)大的工具。
這項(xiàng)研究的意義不僅僅在于技術(shù)層面的突破,它還為我們理解視覺感知和藝術(shù)創(chuàng)作的本質(zhì)提供了新的視角。通過將圖像分解為內(nèi)容和風(fēng)格兩個(gè)獨(dú)立維度,我們對(duì)于"什么是藝術(shù)風(fēng)格"、"如何定義視覺內(nèi)容"等基本問題有了更深入的認(rèn)識(shí)。這種認(rèn)識(shí)不僅有助于開發(fā)更好的AI系統(tǒng),也可能啟發(fā)藝術(shù)家和設(shè)計(jì)師以全新的方式思考他們的創(chuàng)作過程。
說到底,CSD-VAR技術(shù)就像給了我們一副特殊的眼鏡,讓我們能夠看到圖像的"骨架"和"皮膚"是如何分別構(gòu)成的。這不僅是一個(gè)技術(shù)成就,更是人類理解視覺世界的一次重要進(jìn)步。隨著這類技術(shù)的不斷發(fā)展和普及,我們正在走向一個(gè)人人都可以成為藝術(shù)家的時(shí)代,在這個(gè)時(shí)代里,創(chuàng)意的表達(dá)將不再受到技術(shù)技能的限制,而是完全取決于想象力的邊界。
有興趣深入了解這項(xiàng)技術(shù)細(xì)節(jié)的讀者,可以通過論文編號(hào)arXiv:2507.13984v1查閱完整的研究報(bào)告,其中包含了詳細(xì)的技術(shù)實(shí)現(xiàn)方案和實(shí)驗(yàn)數(shù)據(jù)。
Q&A
Q1:CSD-VAR技術(shù)是什么?它能做什么?
A:CSD-VAR是一種能夠?qū)D片的內(nèi)容和風(fēng)格完全分離的AI技術(shù)。它可以從一張圖片中提取出"什么東西"(內(nèi)容)和"怎么畫的"(風(fēng)格),然后讓用戶自由組合。比如提取一只貓的形狀,配上油畫的風(fēng)格,或者將某種特定繪畫風(fēng)格應(yīng)用到任何其他物體上。
Q2:這項(xiàng)技術(shù)會(huì)不會(huì)讓普通人也能創(chuàng)作藝術(shù)作品?
A:是的,這項(xiàng)技術(shù)大大降低了藝術(shù)創(chuàng)作的門檻。普通人不需要掌握復(fù)雜的繪畫技巧,只需要提供一張參考圖片,就能生成各種風(fēng)格的藝術(shù)作品。不過,真正的藝術(shù)創(chuàng)作仍需要?jiǎng)?chuàng)意和美學(xué)眼光,技術(shù)只是提供了更強(qiáng)大的表達(dá)工具。
Q3:CSD-VAR與現(xiàn)有的AI繪畫工具有什么不同?
A:最大的不同是CSD-VAR能夠精確分離內(nèi)容和風(fēng)格,避免了傳統(tǒng)方法中常見的"內(nèi)容泄漏"問題。而且它專門針對(duì)視覺自回歸模型設(shè)計(jì),在處理復(fù)雜圖像時(shí)表現(xiàn)更穩(wěn)定。此外,它創(chuàng)建了專門的CSD-100數(shù)據(jù)集來評(píng)估分離效果,提供了更科學(xué)的評(píng)估標(biāo)準(zhǔn)。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。