av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 ViStoryBench:一場可視化故事世界的大冒險——StepFun團隊打造全面評估標準,幫你判斷AI是否真懂講故事

ViStoryBench:一場可視化故事世界的大冒險——StepFun團隊打造全面評估標準,幫你判斷AI是否真懂講故事

2025-07-07 17:38
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-07 17:38 ? 科技行者

在當今人工智能蓬勃發(fā)展的時代,一個令人著迷的研究領(lǐng)域正悄然興起——故事可視化。這項由上??萍即髮W、StepFun、AIGC Research和西湖大學AGI實驗室聯(lián)合推出的研究成果于2025年5月發(fā)表,主要由Cailin Zhuang、Ailin Huang、Wei Cheng等多位研究者共同完成,由Zhewei Huang、Gang Yu和Chi Zhang擔任通訊作者。

想象一下,你給AI講了一個關(guān)于小兔子不肯睡覺的故事,還給它看了小兔子和大兔子的照片。神奇的是,AI能根據(jù)你的故事和這些參考圖片,生成一系列連貫的畫面,展現(xiàn)小兔子抓著大兔子耳朵不放的可愛場景。這就是故事可視化的魅力所在——將文字敘述轉(zhuǎn)化為視覺連貫的圖像序列,讓故事更加生動、形象。

然而,評價故事可視化的質(zhì)量并不像評價單張圖片那樣簡單。這就好比評價一部電影不能只看某個鏡頭是否精彩,還要看整個故事是否連貫、角色是否一致、情節(jié)是否合理。正是看到了這一挑戰(zhàn),研究團隊推出了名為"ViStoryBench"的評估基準,專門用于全面評估故事可視化模型的性能。

這個評估基準就像是一個嚴格而公正的評委,它不僅看重生成圖像的美觀度和多樣性,還特別關(guān)注角色的一致性——畢竟,如果故事中的小公主突然變成了小王子,那可就糟糕了。ViStoryBench收集了各種類型的故事和藝術(shù)風格,包括喜劇、恐怖、動漫和3D渲染等,確保評估的全面性。此外,它還囊括了單一主角和多主角的故事,測試模型保持角色一致性的能力,以及處理復雜情節(jié)和世界觀構(gòu)建的能力。

研究團隊不僅提供了多維度的評估指標,還對市場上超過20種方法進行了廣泛測試,包括18種主要方法及其變體。他們分析了用戶研究與自動評估指標之間的一致性,揭示了不同模型的特點和局限。

如果你對故事可視化感興趣,這個研究可以幫助你更好地理解這一領(lǐng)域的發(fā)展現(xiàn)狀和挑戰(zhàn)。接下來,讓我們一起深入探索ViStoryBench的世界,看看它如何評判AI講故事的能力。

一、故事可視化:讓AI變身故事畫家

在我們開始探索ViStoryBench之前,先來了解一下什么是故事可視化。想象你是一位童話作家,寫了一個關(guān)于小紅帽的故事?,F(xiàn)在,你希望為這個故事配上插圖,但你并不擅長繪畫。這時,故事可視化技術(shù)就派上用場了——你只需要提供故事文本和對小紅帽、大灰狼等角色的描述和參考圖片,AI就能為你生成一系列連貫的插圖,展現(xiàn)故事的發(fā)展過程。

近年來,隨著生成模型的進步,故事可視化技術(shù)取得了顯著發(fā)展。研究者們開發(fā)了各種方法來提高圖像序列的視覺一致性和跨模態(tài)序列的連貫性。比如UNO結(jié)合了漸進式跨模態(tài)對齊和旋轉(zhuǎn)位置編碼,實現(xiàn)了高一致性的多主體圖像合成;SeedStory利用多模態(tài)大語言模型和SDXL進行故事續(xù)寫;StoryGen采用自回歸條件對歷史圖像/文本進行建模。還有一些無需訓練的方法,如StoryDiffusion(一致的自注意力)和Story-Adapter(迭代細化)改進了長程連貫性。TheaterGen則使用大語言模型進行角色狀態(tài)跟蹤。

除了圖像生成,一些研究還延伸到了視頻生成和3D領(lǐng)域。例如,MovieAgent使用多智能體推理同步生成敘事、音頻和字幕;AnimDirector通過大語言模型將提示擴展為故事序列;MM-StoryAgent整合角色庫實現(xiàn)多場景視頻生成;DreamRunner通過檢索增強的動作適應創(chuàng)建長形式、多動作、多場景故事視頻。

商業(yè)平臺如Morphic Studio、MOKI和豆包也開始加速故事可視化從研究到實際應用的轉(zhuǎn)變。不過,當前研究仍面臨多圖像連貫性維護、長程依賴建模、精細控制能力和與復雜文本提示對齊等挑戰(zhàn)。

二、ViStoryBench:全方位評估故事可視化的"裁判"

想象一下,如果你是一位評審員,需要評判不同廚師制作的一道復雜菜肴。你不僅要看成品的外觀和色彩,還要品嘗味道、評價食材的新鮮度、考量制作過程的復雜性等多個方面。同樣,評估故事可視化系統(tǒng)也需要一個全面的標準,這就是ViStoryBench的意義所在。

ViStoryBench實際上是一個包含多種工具和數(shù)據(jù)的綜合評估系統(tǒng)。它首先明確定義了故事可視化任務:給定一個故事腳本,以及n個角色的外觀描述T1, T2, ..., Tn和對應的圖像S1, S2, ..., Sn,再加上m個鏡頭描述(包含場景描述、情節(jié)對應、鏡頭構(gòu)圖設計、出場角色和靜態(tài)鏡頭描述),系統(tǒng)需要生成一系列圖像I1...Im,忠實地表現(xiàn)這些鏡頭描述,并與提供的角色信息保持一致。

為了構(gòu)建這個評估基準,研究團隊收集了80個故事片段,涵蓋從電影和電視劇劇本到文學杰作、世界各地傳說、小說和圖畫書等多種來源。對于過長的故事,他們使用大語言模型輔助人類進行總結(jié),使每個故事都保持在數(shù)百字的長度。然后,他們將故事轉(zhuǎn)換為包含角色描述和分鏡頭腳本的劇本。

角色參考圖像方面,研究團隊為每個角色手動收集了與描述一致的圖像。他們確保同一故事中的角色圖像風格保持一致。在總共344個角色中,一小部分角色的參考圖像是使用SDXL生成的??傮w來說,數(shù)據(jù)集包含344個角色和509張角色參考圖像。

評估指標是ViStoryBench的核心部分,包括以下幾個方面:

首先是跨相似性和自相似性評估。這就像檢查一個人的多張照片,既要確認照片中的人確實是本人(跨相似性,與參考圖像的相似度),又要確保不同照片中的人看起來一致(自相似性,生成圖像之間的一致性)。研究團隊使用了多種技術(shù)工具,如Grounding DINO(一種開放集目標檢測器)和ArcFace或CLIP進行特征提取,計算生成圖像中角色與參考圖像的相似度,以及生成圖像序列中角色的一致性。

其次是提示一致性評估。這就像檢查一個故事的插圖是否忠實反映了文字描述。研究團隊使用GPT-4.1來評估生成圖像與分鏡頭描述的一致性,包括角色交互動作、拍攝方法、靜態(tài)鏡頭描述和單個角色動作四個方面。此外,他們還專門計算了出場角色數(shù)量匹配得分,因為許多模型在生成正確的角色集合方面存在困難。

第三是復制粘貼檢測。一些生成模型可能會簡單地復制粘貼參考圖像中的角色,而不是創(chuàng)造性地生成與情境相符的角色圖像。研究團隊設計了一個"復制粘貼程度"指標來衡量這種現(xiàn)象。

最后是圖像質(zhì)量評估。研究團隊計算了所有生成結(jié)果的美學質(zhì)量得分和多樣性得分(使用Inception Score)。

除了自動評估指標,研究團隊還進行了用戶研究,邀請參與者從環(huán)境一致性、角色識別一致性和主觀美學三個維度評估生成結(jié)果。這就像讓普通觀眾評價一部電影,看它在視覺效果、角色塑造和整體藝術(shù)性上的表現(xiàn)如何。

三、實驗設置:公平比較不同方法的"競技場"

為了確保評估的全面性和公正性,研究團隊設計了一個周密的實驗環(huán)境,就像一個公平的競技場,讓不同的故事可視化方法在相同條件下展示各自的能力。

ViStoryBench分為兩個版本:完整版和精簡版(ViStoryBench-lite)。精簡版是完整版的四分之一子集,通過手動策劃,確保文本風格和角色參考圖像風格的分布與原版相似。具體來說,精簡版包含20個故事,角色參考包括36個動畫角色、41個真實人物和4個非人類實體。各類角色的比例與完整集合相似。

在主要實驗中,研究團隊評估了多種圖像和視頻生成方法。他們開發(fā)了一個簡單的復制粘貼基線方法,即自動將每個鏡頭的出場角色參考圖像粘貼到1080p畫布上。對于圖像生成,他們評估了StoryDiffusion、Story-Adapter、StoryGen、UNO、TheaterGen和SEED-Story等方法。對于視頻生成,他們測試了Vlogger、MovieAgent、Anim-Director和MM-StoryAgent等方法。

在故事生成領(lǐng)域,許多封閉源代碼的商業(yè)軟件能提供相當不錯的結(jié)果。但由于資源和其他原因限制,研究團隊只能在ViStoryBench-lite基準上報告這些軟件的結(jié)果。他們也包括了一些開源方法作為基線。所報告的結(jié)果來自這些軟件在2025年5月的版本,未來的結(jié)果可能會有所不同。

由于不同方法或軟件在問題定義上存在差異,研究團隊討論了詳細的適應過程。對于那些不生成圖像作為中間結(jié)果的視頻生成方法,他們選擇了每個鏡頭相關(guān)視頻的第一幀。大多數(shù)方法或軟件被要求生成1080p分辨率的結(jié)果,盡管也有例外,如Gemini,其圖像大小不完全可控。

此外,研究團隊提供了一個持續(xù)維護的排行榜網(wǎng)頁,鼓勵社區(qū)內(nèi)強有力的競爭。表中的最終排名是通過平均每個指標的排名索引確定的,確保對所有指標的平衡考慮。一些商業(yè)軟件測試的結(jié)果標有星號。由于內(nèi)容政策限制,某些故事無法正常生成結(jié)果。因此,他們只考慮了成功生成結(jié)果的數(shù)據(jù)的平均值,這引入了一些差異。

為了評估生成圖像的一致性和美學質(zhì)量,研究團隊還進行了用戶研究,參與者從三個維度評估了結(jié)果:環(huán)境一致性(關(guān)注相同環(huán)境描述下的場景是否視覺上連貫)、角色識別一致性(評估主要角色在整個故事中的可識別性和連貫性)以及主觀美學(評估可視化的整體藝術(shù)吸引力、細節(jié)豐富度和講故事效果)。

四、評估結(jié)果:誰是故事可視化的"冠軍"?

經(jīng)過全面評估,不同的故事可視化方法展現(xiàn)出各自的優(yōu)勢和局限。就像體育比賽中的選手各有所長,有些在速度上領(lǐng)先,有些在技巧上出眾,有些則在耐力上表現(xiàn)突出。

首先,研究團隊發(fā)現(xiàn),在故事可視化任務中,全面的評估指標極其重要。舉個例子,簡單的復制粘貼基線在許多指標上取得了最佳結(jié)果,但其對齊得分明顯較低。雖然Inception Score通常可以衡量圖像生成的質(zhì)量和多樣性,但僅通過檢查Inception Score指標很難比較不同模型。當只使用文本作為輸入時,StoryDiffusion和Story-Adapter在Inception Score和美學質(zhì)量方面表現(xiàn)出色。然而,僅依靠文本輸入顯然無法生成與角色參考圖像的特征和風格相似的結(jié)果。

近期發(fā)布的UNO在開源方法中取得了全面領(lǐng)先的位置。它在用戶評價的所有三個類別中都獲得了良好的好評度。它在每個量化指標中都取得了相對領(lǐng)先的地位。

商業(yè)軟件展現(xiàn)出優(yōu)秀的綜合能力。其中,豆包和GPT-4o在提示一致性能力(對齊得分)方面表現(xiàn)突出。這可能歸因于它們集成了擁有大量參數(shù)的大語言模型。此外,GPT-4o在選擇出場角色集合方面表現(xiàn)出最高的準確性。AIbrm非常擅長利用角色參考圖像,將描繪的角色特征納入其生成結(jié)果中。在這方面,表現(xiàn)最好的開源項目是UNO,但AIbrm明顯優(yōu)于它。

使用自動評估指標,可以很容易地理解模型的改進空間或找到好的/差的例子。例如,早期工作StoryGen在生成圖像的多樣性和質(zhì)量方面面臨問題。由擴散模型引入的圖像先驗提升了后續(xù)方法在Inception Score和美學質(zhì)量方面的表現(xiàn)。AIbrm是一個針對故事可視化場景定制的應用,與通用應用如GPT-4o相比,它提供了更準確的角色特征生成。然而,AIbrm理解文本指令的能力仍需改進。通過自動評估指標,研究團隊可以輕松識別一些好的/差的生成結(jié)果。

研究團隊的量化指標與定性觀察表現(xiàn)出一致性。對于Story-Adapter,自動評估指標和人類評估之間的評分一致性特別明顯:在文本模式下(其原生設置),整體質(zhì)量評分(scale=5)系統(tǒng)地超過了基線(scale=0),這與理論預期一致;當使用圖像參考時,scale=0在CIDS和CSD的跨相似性上比scale=5取得更高分數(shù),但在自相似性上表現(xiàn)較差。

五、ViStoryBench如何構(gòu)建:打造全面評估體系的幕后故事

ViStoryBench的構(gòu)建過程就像精心設計一場綜合測試,需要考慮各種不同的場景和挑戰(zhàn)。研究團隊首先明確了故事可視化任務的定義,然后圍繞這一定義收集和整理了豐富多樣的數(shù)據(jù)。

在故事和劇本方面,研究團隊追求多樣性。他們手動收集了80個故事片段,涵蓋電影和電視劇劇本、文學杰作、世界各地的傳說、小說和圖畫書等多種來源。對于過長的故事,他們讓大語言模型輔助人類進行總結(jié),使每個故事都保持在數(shù)百字的長度。然后,他們將故事轉(zhuǎn)換為包含角色描述和分鏡頭腳本的劇本,在這個過程中也使用了大語言模型的幫助。

這些故事包括13個民間故事、10個愛情故事、4個懸疑犯罪故事、3個恐怖故事、6個歷史故事、10個奇幻故事、7個科幻故事、3個戰(zhàn)爭故事、10個關(guān)于社會生活的故事、3個冒險生存故事和11個童話故事。整個數(shù)據(jù)集包含1317個鏡頭,每個故事包含4到30個鏡頭,平均每個故事16.5個鏡頭。為了評估更廣泛的方法,數(shù)據(jù)集中所有與測試相關(guān)的文本都提供了英文和中文版本。對于僅支持中文或在中文輸入下表現(xiàn)明顯更好的方法,研究團隊使用中文作為輸入,而對于其他方法則使用英文作為輸入。

每個單獨的鏡頭包括以下描述:場景描述、情節(jié)對應、出場角色、靜態(tài)鏡頭描述和鏡頭構(gòu)圖設計。

在角色參考圖像方面,對于大多數(shù)知名故事,角色參考圖像來自相關(guān)的視覺作品。對于其余的故事,研究團隊要么從具有類似設置的電影或電視劇中檢索截圖(16個故事),要么讓SDXL生成動畫角色圖像(7個故事)。數(shù)據(jù)集包含總共344個角色,其中包括190個真實人類、135個虛擬人類和19個非人類。其中,有210個男性、108個女性和26個無性別或非二元性別的角色。每個角色有1到10張圖像,其中89個角色有多于一張圖像。整個數(shù)據(jù)集由509張參考圖像組成。

研究團隊將所有80個故事根據(jù)主要角色的圖像類別分為兩類:真實故事和非真實故事。其中有39個真實故事和41個非真實故事。這種分類用于隨后評估不同工作之間結(jié)果的差異。

在評估指標的計算過程中,研究團隊簡要介紹了使用的模型和工具。Grounding DINO是一個開放集對象檢測器,可以根據(jù)文本描述檢測圖像中的對象。研究團隊利用Grounding DINO裁剪出與特定描述匹配的角色邊界框。對于裁剪出的角色圖像,如果內(nèi)容是真實角色,他們使用ArcFace進行特征提??;否則,使用CLIP進行特征提取。這兩種特征提取方法都為每個角色生成一個512維的特征向量。在提取整個圖像的風格特征時,他們使用CSD提供的模型,這是一個在大型風格圖像數(shù)據(jù)集上微調(diào)的CLIP模型。

此外,研究團隊利用Inception Score(IS)和Aesthetic Predictor V2.5來評估多樣性和美學質(zhì)量。IS根據(jù)清晰度和多樣性評估一批生成的圖像。Aesthetic Predictor V2.5是一個基于SigLIP的預測器,在1到10的量表上評估圖像的美學。它傾向于給模糊、嘈雜或被認為不太具有視覺吸引力的圖像較低的分數(shù)。得分為5.5或更高的圖像被認為具有出色的質(zhì)量。

六、研究局限性與社會影響:故事可視化的"雙刃劍"

盡管ViStoryBench提供了全面的評估框架,但研究團隊也坦誠認識到了它的一些局限性和潛在的社會影響。

首先,數(shù)據(jù)集中的一些圖像來自流行電影、電視劇、動畫等。因此,某些指標可能會過擬合到這些特定數(shù)據(jù),潛在導致這些指標的操縱或"黑客攻擊"。其次,數(shù)據(jù)集包括中文和英文版本。雖然研究團隊為每種方法或軟件選擇了適當?shù)恼Z言,但由于指令語言的差異,生成結(jié)果的質(zhì)量可能會有所不同。研究團隊沒有考慮語言差異導致的生成質(zhì)量差異。第三,由于缺乏準確的面板分割方法,該工作無法評估涉及在單個圖像中生成多個面板的漫畫生成/漫畫生成任務的結(jié)果。此外,研究中沒有討論每種方法的推理速度。對于故事視頻生成方法,仍有一些視頻相關(guān)的問題需要關(guān)注,如幀一致性或質(zhì)量。研究團隊沒有專門為這方面設計測試。

從社會影響角度看,研究團隊希望故事可視化模型能成為更強大的教育和創(chuàng)意工具,并有助于文化遺產(chǎn)的保存和推廣。在收集故事時,他們努力選擇來自各種文化和地區(qū)的敘事。盡管有這些努力,生成模型仍面臨克服刻板印象和數(shù)據(jù)偏見的挑戰(zhàn)。至關(guān)重要的是,生成模型不應被用作創(chuàng)建虛假內(nèi)容的工具,這需要政策制定者和技術(shù)專家之間的合作。

七、結(jié)論:開啟故事可視化評估的新篇章

ViStoryBench就像是為故事可視化領(lǐng)域打造的一把"尺子",它不僅能測量不同方法的表現(xiàn),還能指明未來研究的方向。通過提供多樣化的故事類型、角色參考和全面的評估指標,ViStoryBench使研究者能夠嚴格評估和比較各種故事可視化模型。

這個基準測試的獨特之處在于它的全面性和多維度評估。它不僅關(guān)注生成圖像的質(zhì)量和多樣性,還特別重視角色一致性、提示遵循度和視覺連貫性等關(guān)鍵方面。這就像評價一部電影不僅看特效華麗程度,還要看故事是否連貫、角色是否立體、情節(jié)是否合理。

通過對多種方法的測試,研究團隊發(fā)現(xiàn)了一些有趣的模式。例如,商業(yè)軟件通常在提示遵循方面表現(xiàn)出色,可能是因為它們集成了參數(shù)量龐大的大語言模型。而最新的開源方法UNO則展現(xiàn)出全面領(lǐng)先的能力,在多個指標上表現(xiàn)突出。這些發(fā)現(xiàn)不僅幫助我們了解當前技術(shù)的現(xiàn)狀,也為未來的研究提供了方向。

更重要的是,ViStoryBench的開放性使得研究社區(qū)能夠持續(xù)評估和改進故事可視化技術(shù)。研究團隊發(fā)布了整個基準測試、數(shù)據(jù)構(gòu)建流程中使用的提示詳情、每個模型的自動和手動評估結(jié)果,以及復現(xiàn)自動評估結(jié)果所需的代碼。這種開放態(tài)度將促進該領(lǐng)域的協(xié)作和創(chuàng)新。

展望未來,故事可視化技術(shù)有望在娛樂、教育和文化遺產(chǎn)保護等領(lǐng)域發(fā)揮重要作用。通過更準確、一致地將文字故事轉(zhuǎn)化為視覺內(nèi)容,AI將幫助人類更生動地講述和傳播故事,促進跨文化交流和理解。

ViStoryBench的出現(xiàn),就像是為這個領(lǐng)域提供了一個共同的語言和標準,使研究者能夠更清晰地交流和比較他們的工作。它不僅推動了技術(shù)的進步,也有助于我們更深入地思考AI如何輔助人類創(chuàng)造力的表達。正如故事本身連接了人類的過去、現(xiàn)在和未來,故事可視化技術(shù)也將連接人類的想象和AI的創(chuàng)造力,開啟講故事藝術(shù)的新篇章。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-