如果把AI生成圖片比作一位畫(huà)家的創(chuàng)作過(guò)程,那么這位畫(huà)家需要經(jīng)歷從粗糙草圖到精美成品的完整過(guò)程。有意思的是,浙江大學(xué)和騰訊微信視覺(jué)團(tuán)隊(duì)的研究人員發(fā)現(xiàn),在這個(gè)創(chuàng)作過(guò)程中,不同時(shí)間點(diǎn)的"指導(dǎo)"效果竟然天差地別。他們?cè)?025年8月發(fā)表的這項(xiàng)研究"TempFlow-GRPO: When Timing Matters for GRPO in Flow Models",就像發(fā)現(xiàn)了畫(huà)家創(chuàng)作的最佳指導(dǎo)時(shí)機(jī)一樣,讓AI能夠更高效地學(xué)會(huì)畫(huà)出人類(lèi)喜歡的圖片。
這項(xiàng)由浙江大學(xué)張博教授團(tuán)隊(duì)和騰訊微信視覺(jué)部門(mén)合作完成的研究,解決了一個(gè)看似簡(jiǎn)單但實(shí)際復(fù)雜的問(wèn)題:如何讓AI更好地理解人類(lèi)的審美偏好。就像教孩子畫(huà)畫(huà)一樣,什么時(shí)候給建議、給什么樣的建議,都會(huì)直接影響最終的學(xué)習(xí)效果。研究團(tuán)隊(duì)發(fā)現(xiàn),傳統(tǒng)的AI訓(xùn)練方法就像一位不分輕重緩急的老師,無(wú)論學(xué)生是在構(gòu)思整體布局還是在添加細(xì)節(jié)陰影,都用同樣的力度給出指導(dǎo),結(jié)果往往事倍功半。
當(dāng)前最先進(jìn)的圖片生成AI使用的是一種叫做"流匹配"的技術(shù),這就像一位畫(huà)家從空白畫(huà)布開(kāi)始,通過(guò)一系列連續(xù)的筆觸最終完成一幅作品。每一步都至關(guān)重要,但重要程度卻不相同。在創(chuàng)作初期,畫(huà)家需要確定整體構(gòu)圖和主要元素的位置,這時(shí)的決策會(huì)影響整幅作品的基調(diào)。而在后期,畫(huà)家主要是在調(diào)整細(xì)節(jié)、優(yōu)化陰影和色彩,雖然也重要,但對(duì)整體效果的影響相對(duì)較小。
然而,目前主流的AI訓(xùn)練方法,包括最新的Flow-GRPO技術(shù),都存在一個(gè)根本性問(wèn)題:它們對(duì)每個(gè)創(chuàng)作階段都給予同等的關(guān)注和優(yōu)化力度。這就好比一位鋼琴老師在學(xué)生剛開(kāi)始學(xué)習(xí)基本指法時(shí),就用糾正演奏細(xì)節(jié)時(shí)的同樣嚴(yán)格程度來(lái)指導(dǎo),結(jié)果可能會(huì)讓學(xué)生在基礎(chǔ)不牢固的情況下,過(guò)分關(guān)注細(xì)枝末節(jié)。
研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn)了一個(gè)驚人的現(xiàn)象:在AI生成圖片的過(guò)程中,早期步驟的微小改動(dòng)能夠產(chǎn)生巨大的影響,而后期步驟的改動(dòng)影響相對(duì)較小。具體來(lái)說(shuō),他們測(cè)試了200個(gè)不同的提示詞,每個(gè)提示詞生成24張圖片,然后分析在不同時(shí)間點(diǎn)進(jìn)行調(diào)整時(shí),最終圖片質(zhì)量的變化程度。結(jié)果顯示,在前2-3個(gè)步驟進(jìn)行調(diào)整時(shí),圖片質(zhì)量的變化最為顯著,而在后面6-8個(gè)步驟調(diào)整時(shí),變化程度接近于零。
這個(gè)發(fā)現(xiàn)促使研究團(tuán)隊(duì)開(kāi)發(fā)了TempFlow-GRPO框架,這個(gè)新方法的核心理念可以用園藝來(lái)類(lèi)比。優(yōu)秀的園丁知道,在幼苗期給予適當(dāng)?shù)酿B(yǎng)分和修剪最為關(guān)鍵,這時(shí)的投入會(huì)在植物成長(zhǎng)的整個(gè)過(guò)程中產(chǎn)生持續(xù)的積極影響。相比之下,當(dāng)植物基本成型后,過(guò)度的修剪可能反而會(huì)損害植物的健康。
TempFlow-GRPO包含兩個(gè)關(guān)鍵創(chuàng)新。第一個(gè)創(chuàng)新叫做"軌跡分支",這就像在創(chuàng)作過(guò)程中的關(guān)鍵節(jié)點(diǎn)設(shè)置檢查點(diǎn)。傳統(tǒng)方法難以準(zhǔn)確評(píng)估中間過(guò)程的質(zhì)量,因?yàn)榘氤善吠雌饋?lái)模糊不清,很難判斷好壞。研究團(tuán)隊(duì)巧妙地解決了這個(gè)問(wèn)題:他們讓AI在某個(gè)特定時(shí)間點(diǎn)開(kāi)始"實(shí)驗(yàn)性創(chuàng)作",然后繼續(xù)完成整幅作品,通過(guò)比較最終結(jié)果來(lái)判斷那個(gè)時(shí)間點(diǎn)的決策是否正確。
這種方法的巧妙之處在于,它避免了直接評(píng)判半成品的困難。就像判斷一道菜的口味,與其在烹飪過(guò)程中品嘗半生不熟的食材,不如讓廚師按照不同的中間處理方式完成整道菜,然后比較最終的味道。這樣既能準(zhǔn)確評(píng)估中間步驟的影響,又不需要額外訓(xùn)練專(zhuān)門(mén)的"半成品評(píng)判員"。
第二個(gè)創(chuàng)新是"噪聲感知權(quán)重調(diào)整",這個(gè)機(jī)制根據(jù)每個(gè)創(chuàng)作階段的重要性來(lái)調(diào)整學(xué)習(xí)強(qiáng)度。研究團(tuán)隊(duì)發(fā)現(xiàn),AI創(chuàng)作過(guò)程中的"不確定性"或者說(shuō)"探索空間"在不同階段差別巨大。在早期階段,AI面臨著巨大的選擇空間,需要從無(wú)數(shù)種可能性中做出關(guān)鍵決策,這時(shí)的學(xué)習(xí)應(yīng)該更加積極主動(dòng)。而在后期階段,大部分關(guān)鍵決策已經(jīng)確定,剩下的主要是細(xì)節(jié)優(yōu)化,這時(shí)應(yīng)該采用更加溫和的學(xué)習(xí)方式,避免破壞已經(jīng)形成的良好基礎(chǔ)。
這種動(dòng)態(tài)調(diào)整學(xué)習(xí)強(qiáng)度的方法,就像一位經(jīng)驗(yàn)豐富的教練訓(xùn)練運(yùn)動(dòng)員。在運(yùn)動(dòng)員掌握基本技能的階段,教練會(huì)投入大量精力糾正基礎(chǔ)動(dòng)作,確保動(dòng)作規(guī)范。而當(dāng)運(yùn)動(dòng)員技能嫻熟后,教練會(huì)更多地關(guān)注戰(zhàn)術(shù)指導(dǎo)和心理調(diào)整,避免過(guò)度干預(yù)影響運(yùn)動(dòng)員的自然發(fā)揮。
研究團(tuán)隊(duì)將這兩個(gè)創(chuàng)新有機(jī)結(jié)合,創(chuàng)造了一個(gè)既能精確指導(dǎo)又能適度調(diào)節(jié)的訓(xùn)練系統(tǒng)。實(shí)驗(yàn)結(jié)果顯示,這個(gè)新系統(tǒng)的效果遠(yuǎn)超傳統(tǒng)方法。在標(biāo)準(zhǔn)的圖片質(zhì)量評(píng)估中,TempFlow-GRPO只需要大約2000個(gè)訓(xùn)練步驟就能達(dá)到傳統(tǒng)Flow-GRPO方法5600個(gè)步驟才能達(dá)到的效果,效率提升了近三倍。
更令人印象深刻的是,在人類(lèi)偏好對(duì)齊的測(cè)試中,新方法生成的圖片在PickScore評(píng)分系統(tǒng)中獲得了顯著提升。研究團(tuán)隊(duì)還在GenEval基準(zhǔn)測(cè)試中驗(yàn)證了方法的通用性,這個(gè)測(cè)試專(zhuān)門(mén)評(píng)估AI是否能理解復(fù)雜的文字描述并生成相應(yīng)的圖片。結(jié)果顯示,使用TempFlow-GRPO訓(xùn)練的模型在理解"兩個(gè)紅色蘋(píng)果和一只藍(lán)色貓咪在廚房里"這類(lèi)復(fù)雜描述時(shí),準(zhǔn)確率從63%提升到97%,幾乎達(dá)到了完美水平。
為了驗(yàn)證每個(gè)組件的貢獻(xiàn),研究團(tuán)隊(duì)進(jìn)行了詳盡的對(duì)比實(shí)驗(yàn)。他們發(fā)現(xiàn),單獨(dú)使用軌跡分支技術(shù)就能帶來(lái)顯著改善,而加入噪聲感知權(quán)重調(diào)整后,效果更是錦上添花。特別是在復(fù)雜場(chǎng)景生成方面,噪聲感知權(quán)重調(diào)整帶來(lái)了9%的性能提升,這在AI領(lǐng)域已經(jīng)是相當(dāng)可觀的進(jìn)步。
從技術(shù)實(shí)現(xiàn)的角度來(lái)看,TempFlow-GRPO的數(shù)學(xué)基礎(chǔ)也十分優(yōu)雅。研究團(tuán)隊(duì)通過(guò)理論分析證明,他們的方法實(shí)際上修正了傳統(tǒng)方法中的一個(gè)根本性不平衡問(wèn)題。傳統(tǒng)方法在計(jì)算每個(gè)步驟對(duì)最終結(jié)果的貢獻(xiàn)時(shí),無(wú)意中給了后期步驟過(guò)高的權(quán)重,就像在評(píng)估一部電影的質(zhì)量時(shí),過(guò)分重視片尾字幕的字體選擇,而忽視了劇本和演技的重要性。
新方法通過(guò)引入時(shí)間感知的權(quán)重調(diào)整,確保了每個(gè)創(chuàng)作階段都能獲得與其重要性相匹配的關(guān)注度。當(dāng)設(shè)置特定參數(shù)時(shí),系統(tǒng)甚至能達(dá)到完美的平衡狀態(tài),使每個(gè)步驟對(duì)最終優(yōu)化的貢獻(xiàn)完全相等,這為后續(xù)的研究提供了一個(gè)理想的基準(zhǔn)點(diǎn)。
除了理論上的優(yōu)越性,TempFlow-GRPO在實(shí)際應(yīng)用中也表現(xiàn)出色。研究團(tuán)隊(duì)測(cè)試了不同分辨率下的表現(xiàn),發(fā)現(xiàn)無(wú)論是512像素還是1024像素的圖片,新方法都能保持穩(wěn)定的優(yōu)勢(shì)。在高分辨率圖片生成中,TempFlow-GRPO僅需180個(gè)訓(xùn)練步驟就能達(dá)到傳統(tǒng)方法450個(gè)步驟的效果,再次證明了其高效性。
定性分析也支持了定量結(jié)果。研究團(tuán)隊(duì)展示的圖片對(duì)比顯示,使用TempFlow-GRPO生成的圖片在細(xì)節(jié)豐富程度和視覺(jué)真實(shí)感方面都有明顯提升。特別是在處理復(fù)雜場(chǎng)景時(shí),比如"鉆石制成的法拉利跑車(chē)"或"在茶杯里洗澡的迷你龍"這類(lèi)富有創(chuàng)意的描述,新方法能夠更好地平衡各種元素,避免出現(xiàn)明顯的瑕疵或不協(xié)調(diào)感。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的改進(jìn)。它揭示了一個(gè)更深層的問(wèn)題:在人工智能的訓(xùn)練過(guò)程中,時(shí)機(jī)的把握往往比訓(xùn)練強(qiáng)度更重要。這個(gè)洞察可能對(duì)其他AI領(lǐng)域也有啟發(fā)意義,比如語(yǔ)言模型訓(xùn)練、語(yǔ)音識(shí)別優(yōu)化等。
當(dāng)然,研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了目前方法的局限性。當(dāng)前的實(shí)驗(yàn)主要基于單一的獎(jiǎng)勵(lì)模型進(jìn)行驗(yàn)證,未來(lái)需要在更多樣化的評(píng)估標(biāo)準(zhǔn)下測(cè)試方法的魯棒性。研究團(tuán)隊(duì)計(jì)劃整合多個(gè)評(píng)估模型的反饋,創(chuàng)建一個(gè)更全面的訓(xùn)練管道,從多個(gè)維度提升生成圖片的質(zhì)量。
此外,雖然TempFlow-GRPO在計(jì)算效率上有顯著提升,但在某些復(fù)雜場(chǎng)景下,仍然需要相當(dāng)?shù)挠?jì)算資源。研究團(tuán)隊(duì)正在探索進(jìn)一步優(yōu)化的可能性,希望讓這種先進(jìn)的訓(xùn)練方法能夠在更廣泛的硬件環(huán)境中應(yīng)用。
從更廣闊的視角來(lái)看,這項(xiàng)研究代表了AI訓(xùn)練方法論的一次重要進(jìn)步。傳統(tǒng)的"一刀切"訓(xùn)練方式正在被更加精細(xì)化、個(gè)性化的方法所取代。就像現(xiàn)代醫(yī)學(xué)從"一藥治百病"轉(zhuǎn)向精準(zhǔn)醫(yī)療一樣,AI訓(xùn)練也在朝著更加精準(zhǔn)、高效的方向發(fā)展。
TempFlow-GRPO的成功還暗示了一個(gè)更深層的哲學(xué)問(wèn)題:在任何學(xué)習(xí)過(guò)程中,節(jié)奏和時(shí)機(jī)的重要性往往被低估。無(wú)論是人類(lèi)的教育還是機(jī)器的訓(xùn)練,了解何時(shí)施加影響、如何調(diào)節(jié)強(qiáng)度,都是達(dá)到最優(yōu)效果的關(guān)鍵。這個(gè)原理不僅適用于AI技術(shù),也為人類(lèi)的學(xué)習(xí)和成長(zhǎng)提供了有益的啟示。
說(shuō)到底,浙大和騰訊團(tuán)隊(duì)的這項(xiàng)研究,雖然看似專(zhuān)注于技術(shù)細(xì)節(jié),但實(shí)際上觸及了學(xué)習(xí)和優(yōu)化的根本規(guī)律。他們發(fā)現(xiàn)的"時(shí)機(jī)比強(qiáng)度更重要"這一原則,可能會(huì)影響未來(lái)AI訓(xùn)練方法的設(shè)計(jì)思路,推動(dòng)整個(gè)領(lǐng)域向更高效、更智能的方向發(fā)展。對(duì)于普通用戶而言,這意味著未來(lái)的AI工具將能更快地理解我們的需求,生成更符合我們期望的內(nèi)容,讓人機(jī)協(xié)作變得更加順暢和自然。
Q&A
Q1:TempFlow-GRPO和傳統(tǒng)Flow-GRPO方法有什么區(qū)別?
A:最大區(qū)別在于對(duì)時(shí)機(jī)的把握。傳統(tǒng)Flow-GRPO就像不分輕重緩急的老師,對(duì)每個(gè)創(chuàng)作階段都用同樣力度指導(dǎo)。而TempFlow-GRPO更像經(jīng)驗(yàn)豐富的教練,知道在關(guān)鍵的早期階段加強(qiáng)指導(dǎo),在后期細(xì)節(jié)階段溫和調(diào)整,這樣既提高了效率又改善了最終效果。
Q2:軌跡分支技術(shù)是如何工作的?
A:軌跡分支就像在烹飪過(guò)程中設(shè)置檢查點(diǎn)。傳統(tǒng)方法難以評(píng)判半成品好壞,軌跡分支讓AI在特定時(shí)間點(diǎn)開(kāi)始"實(shí)驗(yàn)性創(chuàng)作",然后完成整幅作品,通過(guò)比較最終結(jié)果來(lái)判斷那個(gè)時(shí)間點(diǎn)的決策是否正確,避免了直接評(píng)判模糊半成品的困難。
Q3:這個(gè)技術(shù)對(duì)普通用戶有什么實(shí)際意義?
A:對(duì)普通用戶來(lái)說(shuō),這意味著未來(lái)的AI繪圖工具會(huì)變得更快更好用。原本需要很長(zhǎng)時(shí)間訓(xùn)練的AI模型,現(xiàn)在能以三倍的效率達(dá)到更好效果,生成的圖片更符合人類(lèi)審美,在理解復(fù)雜描述方面準(zhǔn)確率從63%提升到97%,讓AI真正成為更實(shí)用的創(chuàng)作助手。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。