av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 清華大學(xué)與快手聯(lián)合推出VideoReward:讓AI視頻生成更懂人心的突破性方法

清華大學(xué)與快手聯(lián)合推出VideoReward:讓AI視頻生成更懂人心的突破性方法

2025-09-17 10:30
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-17 10:30 ? 科技行者

這項由清華大學(xué)劉宇杰教授領(lǐng)導(dǎo),聯(lián)合快手科技、香港中文大學(xué)等多個機構(gòu)完成的研究發(fā)表于2025年1月,研究論文題為《Improving Video Generation with Human Feedback》。有興趣深入了解的讀者可以訪問完整論文(arXiv:2501.13918v1)。

視頻生成技術(shù)正在以驚人的速度發(fā)展,從最初的簡單動畫到如今能夠生成逼真的人物對話,這個領(lǐng)域的進步讓人目不暇接。然而,就像一個剛學(xué)會說話的孩子,現(xiàn)有的AI視頻生成系統(tǒng)雖然能夠產(chǎn)出內(nèi)容,但往往無法真正理解什么樣的視頻才是人們真正想要的。運動不夠流暢、畫面質(zhì)量不夠精細、生成的內(nèi)容與用戶描述存在偏差——這些問題就像是AI在按照自己的理解創(chuàng)作,而不是按照人類的喜好創(chuàng)作。

研究團隊意識到,要讓AI真正學(xué)會生成高質(zhì)量視頻,關(guān)鍵在于讓它能夠理解人類的反饋和偏好。就如同一個學(xué)習(xí)繪畫的學(xué)生需要老師的指導(dǎo)才能不斷進步一樣,AI也需要人類的"教學(xué)"才能產(chǎn)出更符合期待的作品。為了解決這個問題,研究團隊構(gòu)建了一個龐大的人類偏好數(shù)據(jù)集,包含了18.2萬個經(jīng)過人工標(biāo)注的視頻對比樣本。這些樣本就像是給AI準(zhǔn)備的"教科書",告訴它什么樣的視頻在視覺質(zhì)量、運動質(zhì)量和文本對齊度方面更受人們喜愛。

在這個基礎(chǔ)上,研究團隊開發(fā)了VideoReward——一個多維度的視頻獎勵模型,它就像是一位經(jīng)驗豐富的評委,能夠從多個角度對視頻質(zhì)量進行評判。更重要的是,他們還提出了三種針對基于流模型的視頻生成系統(tǒng)的對齊算法:Flow-DPO、Flow-RWR和Flow-NRG。這些算法就像是不同的訓(xùn)練方法,能夠讓AI在生成視頻時更好地遵循人類的偏好。

一、構(gòu)建AI的"品味教科書":大規(guī)模人類偏好數(shù)據(jù)集

要讓AI學(xué)會什么是好視頻,首先需要告訴它人類是如何判斷視頻質(zhì)量的。這就像培養(yǎng)一個藝術(shù)評論家,需要讓他看遍各種藝術(shù)作品,了解什么是美,什么是不足。研究團隊面臨的第一個挑戰(zhàn)就是現(xiàn)有的數(shù)據(jù)集大多基于較老的視頻生成模型,這些模型產(chǎn)出的視頻質(zhì)量相對較低,時長也很短,無法反映現(xiàn)代視頻生成技術(shù)的真實水平。

研究團隊決定從零開始構(gòu)建一個全新的數(shù)據(jù)集。他們從互聯(lián)網(wǎng)上收集了各種類型的文本描述,包括動物、建筑、食物、人物、植物、場景、車輛和物體等八個大類。這些描述經(jīng)過精心篩選和擴展,最終形成了1.6萬個詳細的文本提示。接著,他們使用12個不同的現(xiàn)代視頻生成模型來處理這些文本,產(chǎn)生了10.8萬個視頻,進而構(gòu)建了18.2萬個三元組樣本,每個樣本包含一個文本提示和兩個相應(yīng)的生成視頻。

數(shù)據(jù)收集只是第一步,更關(guān)鍵的是如何進行標(biāo)注。研究團隊聘請了專業(yè)的標(biāo)注員,讓他們從三個關(guān)鍵維度對視頻進行評價:視覺質(zhì)量、運動質(zhì)量和文本對齊度。視覺質(zhì)量主要關(guān)注畫面的清晰度、細節(jié)豐富度和美觀程度,就像評判一幅畫作的技法是否精湛。運動質(zhì)量則關(guān)注視頻中的動作是否流暢自然,物體運動是否符合物理規(guī)律,就像評判一場舞蹈表演的協(xié)調(diào)性。文本對齊度評估的是生成的視頻內(nèi)容是否與原始文本描述相匹配,就像檢查翻譯是否準(zhǔn)確傳達原文意思。

為了確保標(biāo)注質(zhì)量,每個樣本都由三位獨立的標(biāo)注員進行評價。當(dāng)出現(xiàn)意見分歧時,會有額外的評審員介入解決爭議。這個過程就像法庭審理案件時需要多位陪審員達成一致意見一樣嚴(yán)謹(jǐn)。最終,這個數(shù)據(jù)集不僅包含了配對比較的標(biāo)注(哪個視頻更好),還包含了具體的評分(給每個視頻打分),為后續(xù)的模型訓(xùn)練提供了豐富的學(xué)習(xí)材料。

二、打造AI視頻評委:VideoReward多維度獎勵模型

有了訓(xùn)練數(shù)據(jù),下一步就是構(gòu)建一個能夠模擬人類判斷的AI評委系統(tǒng)。這個系統(tǒng)需要像人類專家一樣,能夠從多個角度綜合評價視頻質(zhì)量。研究團隊以Qwen2-VL-2B作為基礎(chǔ)模型,開發(fā)了VideoReward系統(tǒng)。

在設(shè)計VideoReward時,研究團隊面臨一個重要的技術(shù)選擇:是使用點式評分(直接給視頻打分)還是使用配對比較(判斷哪個視頻更好)的訓(xùn)練方式。通過大量實驗,他們發(fā)現(xiàn)配對比較的方式更加有效。這是因為相比于給視頻一個絕對的分?jǐn)?shù),人們更容易判斷兩個視頻中哪一個更好。就像在美食比賽中,評委可能難以給一道菜打出確切的分?jǐn)?shù),但很容易判斷兩道菜中哪一道更美味。

研究團隊采用了Bradley-Terry模型的擴展版本——Bradley-Terry-With-Ties模型來處理人類偏好數(shù)據(jù)。這個模型不僅能處理"A比B好"或"B比A好"的情況,還能處理"A和B差不多"的平手情況。在現(xiàn)實中,確實存在兩個視頻質(zhì)量相當(dāng)、難以區(qū)分優(yōu)劣的情況,忽略這種情況會讓模型的判斷能力變得不夠細致。

另一個重要的創(chuàng)新是分離式設(shè)計。傳統(tǒng)的多維度評價模型往往會讓不同維度的評價相互影響,就像一個偏心的老師可能因為學(xué)生字寫得好就給作文內(nèi)容也打高分。為了避免這種問題,研究團隊為每個評價維度設(shè)計了專門的查詢標(biāo)記。視覺質(zhì)量和運動質(zhì)量的評價標(biāo)記放在視頻內(nèi)容之后、文本提示之前,這樣它們只能"看到"視頻內(nèi)容;而文本對齊度的評價標(biāo)記放在文本提示之后,既能"看到"視頻內(nèi)容,也能"看到"文本描述。這種設(shè)計確保了每個維度的評價都更加獨立和準(zhǔn)確。

三、讓AI學(xué)會模仿人類偏好:三種對齊算法

有了能夠評價視頻質(zhì)量的VideoReward系統(tǒng),接下來的挑戰(zhàn)是如何讓視頻生成模型真正學(xué)會按照人類偏好來生成內(nèi)容。這就像是教授學(xué)生如何根據(jù)評委的喜好來創(chuàng)作作品。研究團隊開發(fā)了三種不同的算法來實現(xiàn)這個目標(biāo)。

Flow-DPO(直接偏好優(yōu)化)是第一種方法。這種方法的核心思想是讓模型通過比較學(xué)習(xí):當(dāng)面對兩個視頻樣本時,模型學(xué)會提高生成更受歡迎視頻的概率,同時降低生成不受歡迎視頻的概率。這就像教練通過分析優(yōu)秀運動員和普通運動員的表現(xiàn)差異來指導(dǎo)訓(xùn)練一樣。

在將DPO算法適配到基于流模型的視頻生成系統(tǒng)時,研究團隊發(fā)現(xiàn)了一個重要問題。原本的算法設(shè)計會在不同時間步施加不同強度的約束,在早期時間步(噪聲較多時)施加較弱約束,在后期時間步施加較強約束。然而實驗結(jié)果表明,使用固定強度的約束效果更好。這個發(fā)現(xiàn)對于實際應(yīng)用非常重要,因為它意味著模型能夠在整個生成過程中保持一致的優(yōu)化方向。

Flow-RWR(獎勵加權(quán)回歸)是第二種方法。這種方法根據(jù)視頻的質(zhì)量評分來調(diào)整訓(xùn)練樣本的權(quán)重,質(zhì)量高的視頻在訓(xùn)練中獲得更大的權(quán)重,質(zhì)量低的視頻權(quán)重較小。這就像在學(xué)習(xí)時更多地關(guān)注優(yōu)秀范例,而不是把時間平均分配給所有樣本。這種方法的優(yōu)勢在于直接利用了獎勵信號,但可能不如DPO那樣能夠精確地建模人類偏好的相對關(guān)系。

Flow-NRG(流式噪聲獎勵引導(dǎo))是第三種方法,它的特殊之處在于可以在推理時直接應(yīng)用,無需重新訓(xùn)練模型。這種方法在生成過程的每一步都使用獎勵模型提供的梯度信息來調(diào)整生成方向,就像GPS導(dǎo)航在行駛過程中不斷修正路線一樣。更有價值的是,F(xiàn)low-NRG允許用戶為不同的評價維度設(shè)置不同的權(quán)重,比如某個用戶更重視視覺質(zhì)量而不太在意運動流暢度,就可以相應(yīng)調(diào)整權(quán)重配置。

為了讓Flow-NRG能夠在含有噪聲的中間狀態(tài)下正常工作,研究團隊訓(xùn)練了一個專門的時間相關(guān)獎勵模型。這個模型不僅能評價最終的完整視頻,還能評價生成過程中的中間狀態(tài)。這就像培養(yǎng)一個能在雕塑創(chuàng)作過程中就能看出最終效果的專家一樣。

四、實驗驗證:全面的性能評估

為了驗證這些方法的有效性,研究團隊進行了全面的實驗評估。他們不僅在自己構(gòu)建的數(shù)據(jù)集上測試,還在現(xiàn)有的基準(zhǔn)測試上驗證模型的泛化能力。

在獎勵模型的評估中,VideoReward在多個基準(zhǔn)測試中都表現(xiàn)出色。特別是在VideoGen-RewardBench這個專門針對現(xiàn)代視頻生成模型設(shè)計的基準(zhǔn)上,VideoReward的整體準(zhǔn)確率達到了73.59%,顯著超過了現(xiàn)有的其他方法。在各個維度上,視覺質(zhì)量評估準(zhǔn)確率為75.66%,運動質(zhì)量評估為74.70%,文本對齊度評估為72.20%。這些數(shù)字表明VideoReward確實能夠準(zhǔn)確捕捉人類對視頻質(zhì)量的判斷。

在對齊算法的評估中,F(xiàn)low-DPO(使用固定β參數(shù))表現(xiàn)最為優(yōu)異。在VBench基準(zhǔn)測試中,經(jīng)過Flow-DPO對齊的模型總分達到83.41,相比原始模型的83.19有所提升。更重要的是,在人類評估中,F(xiàn)low-DPO對齊的模型在各個維度上都獲得了顯著更高的勝率。在視覺質(zhì)量方面勝率達到93.42%,運動質(zhì)量勝率為69.08%,文本對齊度勝率為75.43%。

特別值得關(guān)注的是,研究團隊還測試了Flow-NRG的靈活性。通過調(diào)整不同維度的權(quán)重,用戶可以根據(jù)自己的需求定制生成結(jié)果。例如,當(dāng)用戶更注重文本對齊度時,可以增加相應(yīng)權(quán)重,模型就會生成更貼近文本描述的視頻,即使可能在視覺效果上有所妥協(xié)。

五、技術(shù)細節(jié)與創(chuàng)新點

這項研究的技術(shù)創(chuàng)新體現(xiàn)在多個方面。首先是數(shù)據(jù)集的構(gòu)建策略。與以往研究主要使用早期開源模型生成的低質(zhì)量視頻不同,研究團隊專門選擇了12個現(xiàn)代化的視頻生成模型,包括6個現(xiàn)代模型和6個傳統(tǒng)模型,確保數(shù)據(jù)集能夠反映當(dāng)前技術(shù)的真實水平。

在模型架構(gòu)設(shè)計上,分離式的查詢標(biāo)記設(shè)計是一個重要創(chuàng)新。這種設(shè)計不僅提高了評價的準(zhǔn)確性,還增強了模型的可解釋性。用戶可以清楚地了解模型在各個維度上的判斷,而不是得到一個黑箱式的總體評分。

在算法層面,將DPO算法從擴散模型擴展到流模型是一個技術(shù)挑戰(zhàn)。研究團隊通過數(shù)學(xué)推導(dǎo)發(fā)現(xiàn),在流模型中應(yīng)用DPO時,約束強度與時間步的關(guān)系需要重新考慮。這個發(fā)現(xiàn)不僅對本研究有用,對整個領(lǐng)域的發(fā)展也具有指導(dǎo)意義。

Flow-NRG算法的另一個創(chuàng)新是直接在潛在空間中進行獎勵引導(dǎo)。由于現(xiàn)代視頻生成模型通常在壓縮的潛在空間中工作,直接在像素空間計算獎勵梯度會帶來巨大的計算開銷。研究團隊通過使用預(yù)訓(xùn)練模型的前幾層來構(gòu)建輕量級的獎勵模型,既保持了引導(dǎo)的有效性,又控制了計算成本。

六、實際應(yīng)用前景與意義

這項研究的意義遠超學(xué)術(shù)價值,它為視頻生成技術(shù)的實際應(yīng)用開辟了新的可能性。在內(nèi)容創(chuàng)作領(lǐng)域,創(chuàng)作者可以使用這些技術(shù)來生成更符合自己創(chuàng)意需求的視頻素材。比如一個廣告制作人可以快速生成多個版本的產(chǎn)品演示視頻,然后根據(jù)客戶偏好進行微調(diào)。

在教育培訓(xùn)領(lǐng)域,這項技術(shù)可以用來生成個性化的教學(xué)視頻。不同學(xué)生可能對同樣的知識點有不同的理解方式,通過調(diào)整生成參數(shù),可以為每個學(xué)生生成最適合的講解視頻。比如有些學(xué)生更喜歡動畫風(fēng)格的解釋,有些則偏好真實場景的演示。

對于社交媒體和娛樂平臺,這項技術(shù)可以幫助用戶更輕松地創(chuàng)作高質(zhì)量的視頻內(nèi)容。用戶只需要提供文字描述,系統(tǒng)就能生成符合其風(fēng)格偏好的視頻。更重要的是,通過人類反饋的持續(xù)學(xué)習(xí),系統(tǒng)會越來越了解不同用戶群體的喜好。

從技術(shù)發(fā)展的角度來看,這項研究建立了一個重要的評估框架。VideoGen-RewardBench基準(zhǔn)測試填補了現(xiàn)代視頻生成模型評估的空白,為后續(xù)研究提供了標(biāo)準(zhǔn)化的比較工具。這就像為整個領(lǐng)域建立了一個統(tǒng)一的考試系統(tǒng),讓不同研究團隊的成果能夠公平比較。

七、挑戰(zhàn)與改進方向

盡管取得了顯著成果,研究團隊也坦誠地指出了當(dāng)前方法的局限性。首先是獎勵竊取問題。由于獎勵模型是可微分的,生成模型可能會學(xué)會專門針對獎勵模型的弱點來優(yōu)化,而不是真正提升視頻質(zhì)量。這就像學(xué)生可能會針對特定老師的評分習(xí)慣來應(yīng)付考試,而不是真正掌握知識。

計算效率是另一個挑戰(zhàn)。雖然Flow-NRG提供了靈活的推理時對齊能力,但每次生成都需要額外的梯度計算,這會增加計算成本。對于需要大規(guī)模部署的應(yīng)用來說,這可能是一個需要權(quán)衡的問題。

數(shù)據(jù)集的多樣性仍有提升空間。雖然當(dāng)前數(shù)據(jù)集已經(jīng)相當(dāng)龐大,但相對于人類視覺體驗的復(fù)雜性來說仍然有限。特別是對于一些特殊場景或藝術(shù)風(fēng)格,模型的判斷能力可能還不夠準(zhǔn)確。

研究團隊也認(rèn)識到,人類偏好本身是動態(tài)變化的。不同文化背景、年齡層次的人對視頻質(zhì)量的看法可能存在差異。如何構(gòu)建一個能夠適應(yīng)這種多樣性的系統(tǒng),仍然是未來需要解決的問題。

八、與現(xiàn)有技術(shù)的比較優(yōu)勢

相比于現(xiàn)有的視頻生成評估方法,這項研究在多個方面展現(xiàn)了顯著優(yōu)勢。傳統(tǒng)的評估方法主要依賴于計算機視覺指標(biāo),比如FID分?jǐn)?shù)或CLIP相似度。這些指標(biāo)雖然客觀,但往往無法準(zhǔn)確反映人類的主觀感受。就像用化學(xué)分析來評判食物味道一樣,技術(shù)上精確但可能與實際體驗相去甚遠。

VideoReward的多維度評估框架更貼近人類的實際判斷過程。當(dāng)我們評價一個視頻時,確實會從畫面質(zhì)量、動作流暢度和內(nèi)容相關(guān)性等多個角度進行考慮。這種設(shè)計讓AI的評判更接近人類專家的思維方式。

在算法層面,相比于傳統(tǒng)的強化學(xué)習(xí)方法如PPO,DPO類方法避免了復(fù)雜的在線學(xué)習(xí)過程,訓(xùn)練更穩(wěn)定,實施更簡單。這就像選擇了一條更直接的學(xué)習(xí)路徑,避免了許多可能的陷阱和不穩(wěn)定因素。

Flow-NRG的推理時對齊能力是這項研究的獨特優(yōu)勢。大多數(shù)現(xiàn)有方法都需要針對特定偏好重新訓(xùn)練模型,這不僅耗時耗力,還限制了應(yīng)用的靈活性。Flow-NRG讓用戶可以在使用時動態(tài)調(diào)整偏好權(quán)重,大大提高了實用性。

九、對行業(yè)發(fā)展的啟示

這項研究對整個AI視頻生成行業(yè)具有重要啟示意義。首先,它驗證了人類反饋在AI系統(tǒng)優(yōu)化中的關(guān)鍵作用。僅僅依靠技術(shù)指標(biāo)優(yōu)化是不夠的,必須將人類的主觀判斷納入訓(xùn)練過程。這個觀點在大語言模型領(lǐng)域已經(jīng)得到廣泛認(rèn)可,現(xiàn)在在視頻生成領(lǐng)域也得到了有力證實。

數(shù)據(jù)質(zhì)量比數(shù)量更重要的觀點在這項研究中也得到了體現(xiàn)。研究團隊花費大量精力構(gòu)建高質(zhì)量的偏好數(shù)據(jù)集,這種投入獲得了顯著的回報。對于產(chǎn)業(yè)界來說,這意味著在數(shù)據(jù)收集和標(biāo)注上的投資是值得的。

多維度評估的重要性是另一個關(guān)鍵啟示。視頻質(zhì)量不是一個單一概念,而是多個維度的綜合體現(xiàn)。忽視任何一個維度都可能導(dǎo)致用戶體驗的下降。這要求開發(fā)者在系統(tǒng)設(shè)計時必須考慮全面性。

技術(shù)的實用性和靈活性同樣重要。Flow-NRG的成功說明,能夠讓用戶根據(jù)具體需求進行定制的技術(shù)更有應(yīng)用價值。在實際部署中,一刀切的解決方案往往無法滿足多樣化的用戶需求。

說到底,這項由清華大學(xué)、快手科技等機構(gòu)聯(lián)合完成的研究為AI視頻生成技術(shù)的發(fā)展提供了一個重要的里程碑。通過構(gòu)建大規(guī)模的人類偏好數(shù)據(jù)集和開發(fā)相應(yīng)的對齊算法,研究團隊成功地讓AI系統(tǒng)學(xué)會了更好地理解和滿足人類對視頻質(zhì)量的期望。這不僅是技術(shù)上的突破,更是人機協(xié)作理念在視頻生成領(lǐng)域的成功實踐。

隨著技術(shù)的不斷完善,我們有理由相信,未來的AI視頻生成系統(tǒng)將能夠創(chuàng)作出更加符合人類審美和實用需求的內(nèi)容。這項研究為這個美好愿景的實現(xiàn)奠定了堅實的基礎(chǔ),也為后續(xù)研究指明了方向。對于普通用戶來說,這意味著他們很快就能享受到更智能、更貼心的AI視頻創(chuàng)作服務(wù)。對于整個行業(yè)來說,這標(biāo)志著視頻生成技術(shù)正在向著更加成熟和實用的方向發(fā)展。

Q&A

Q1:VideoReward是什么?它能做什么?

A:VideoReward是由清華大學(xué)和快手科技等機構(gòu)開發(fā)的AI視頻評價系統(tǒng),它能像專業(yè)評委一樣從視覺質(zhì)量、運動質(zhì)量和文本對齊度三個維度評價視頻好壞。這個系統(tǒng)基于18.2萬個人工標(biāo)注的視頻對比樣本訓(xùn)練而成,能夠準(zhǔn)確判斷哪個視頻更符合人類偏好,為AI視頻生成模型的改進提供指導(dǎo)。

Q2:Flow-DPO這些算法會讓視頻生成變得更好嗎?

A:是的,實驗結(jié)果顯示Flow-DPO算法能顯著提升視頻生成質(zhì)量。經(jīng)過Flow-DPO訓(xùn)練的模型在人類評估中,視覺質(zhì)量勝率達到93.42%,運動質(zhì)量勝率為69.08%,文本對齊度勝率為75.43%。這意味著生成的視頻在畫面清晰度、動作流暢性和內(nèi)容準(zhǔn)確性方面都有明顯改善,更符合用戶期望。

Q3:普通用戶什么時候能用上這項技術(shù)?

A:目前這項研究主要面向技術(shù)開發(fā)者和研究機構(gòu),普通用戶還無法直接使用。不過,這些技術(shù)有望集成到各大視頻生成平臺中,比如抖音、快手等短視頻應(yīng)用,以及專業(yè)的視頻制作工具。預(yù)計在未來1-2年內(nèi),用戶就能體驗到基于這些技術(shù)改進的視頻生成服務(wù),享受更智能、更符合個人喜好的視頻創(chuàng)作體驗。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-