av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 StepFun團隊發(fā)布NextStep-1:讓機器像人類一樣逐步生成圖像的新突破

StepFun團隊發(fā)布NextStep-1:讓機器像人類一樣逐步生成圖像的新突破

2025-08-19 10:19
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-19 10:19 ? 科技行者

這項由StepFun公司研究團隊開發(fā)的突破性研究于2025年8月發(fā)表在arXiv預印本平臺,論文編號為arXiv:2508.10711v1。感興趣的讀者可以通過StepFun官網(wǎng)(https://stepfun.ai/research/en/nextstep1)或GitHub項目頁面(https://github.com/stepfun-ai/NextStep-1)了解更多詳情。這項名為NextStep-1的研究代表了人工智能圖像生成領域的一次重要進步。

當你看到一幅精美的畫作時,是否曾想過藝術家是如何一筆一劃地創(chuàng)作出來的?傳統(tǒng)的AI圖像生成就像魔術師變戲法,瞬間就能變出一張完整的圖片,但這種方式往往缺乏精細控制,就像用印章蓋出來的圖案,雖然快速但缺乏靈活性。StepFun的研究團隊卻選擇了一條截然不同的道路——讓AI像真正的藝術家一樣,一點一點地繪制圖像。

NextStep-1最大的創(chuàng)新在于它采用了"自回歸"的方式來生成圖像。這聽起來很復雜,但實際上就像我們寫字一樣,一個字接著一個字地寫下去,每個新字都要參考前面已經(jīng)寫好的內(nèi)容。傳統(tǒng)的AI圖像生成方法要么需要將圖像切割成離散的小塊(就像拼圖游戲),要么需要依賴復雜的擴散模型來處理連續(xù)的圖像信息。而NextStep-1則巧妙地將這兩種方式結(jié)合起來,既保持了圖像的連續(xù)性,又實現(xiàn)了逐步生成的控制能力。

這個140億參數(shù)的大型模型配備了一個只有1.57億參數(shù)的輕量級"流匹配頭部",就像一個經(jīng)驗豐富的畫家配了一支精巧的畫筆。整個系統(tǒng)在處理文本和圖像時采用了統(tǒng)一的方法,能夠同時理解文字描述并將其轉(zhuǎn)化為視覺內(nèi)容。研究團隊在多個權(quán)威測試基準上都取得了優(yōu)異成績,在WISE測試中獲得0.54分,在GenAI-Bench的高級提示測試中達到0.67分,在DPG-Bench上取得85.28分。

更令人興奮的是,這項技術不僅能生成圖像,還能進行圖像編輯。研究團隊開發(fā)的NextStep-1-Edit在圖像編輯任務上同樣表現(xiàn)出色,能夠根據(jù)用戶的指令對圖像進行精確修改,就像一個聽話的助手能夠按照你的要求調(diào)整畫作的細節(jié)。

一、像拼積木一樣構(gòu)建圖像:NextStep-1的核心理念

傳統(tǒng)的AI圖像生成就像工廠的流水線,輸入一個描述,輸出一張完整圖片,中間的過程對用戶來說是個黑盒子。NextStep-1卻采用了完全不同的思路,它把圖像生成變成了一個循序漸進的過程,就像建筑師建造房屋一樣,先打地基,再砌墻壁,最后裝修細節(jié)。

這種方法的核心在于將圖像分解成一個個連續(xù)的"圖像標記",而不是傳統(tǒng)方法中的離散塊。每個標記都包含豐富的視覺信息,就像音樂中的音符,雖然單獨看起來簡單,但組合起來能夠表達復雜的視覺內(nèi)容。系統(tǒng)通過一個名為"因果變換器"的核心組件來處理這些標記,這個組件就像一個經(jīng)驗豐富的指揮家,能夠協(xié)調(diào)各個部分的工作,確保生成的圖像既符合文字描述,又保持視覺上的連貫性。

NextStep-1的架構(gòu)包含幾個關鍵組件。首先是圖像標記器,它負責將輸入圖像轉(zhuǎn)換成機器能夠理解的標記序列,就像翻譯官將外語翻譯成母語。然后是因果變換器,它是整個系統(tǒng)的大腦,負責理解文字描述并決定下一個圖像標記應該是什么。最后是流匹配頭部,它像一個精密的畫筆,將變換器的決策轉(zhuǎn)化為具體的視覺內(nèi)容。

這種設計的巧妙之處在于它將文字和圖像統(tǒng)一處理。當你輸入"一只可愛的小貓坐在陽光下"這樣的描述時,系統(tǒng)首先會分析每個詞語的含義,然后開始逐步生成圖像的各個部分。它可能先生成小貓的輪廓,然后添加毛發(fā)的細節(jié),接著處理光影效果,最后完善背景環(huán)境。整個過程就像畫家作畫一樣自然流暢。

二、數(shù)據(jù)收集:為AI準備營養(yǎng)豐富的"食材"

任何優(yōu)秀的廚師都知道,要做出美味的菜肴,首先需要優(yōu)質(zhì)的食材。NextStep-1的訓練同樣需要高質(zhì)量、多樣化的數(shù)據(jù)作為"營養(yǎng)"。研究團隊精心構(gòu)建了一個包含四大類數(shù)據(jù)的訓練語料庫,就像為AI準備了一份營養(yǎng)均衡的大餐。

第一類是純文本數(shù)據(jù),包含了4000億個文本標記,主要來源于Step-3語料庫。這些文本就像是給AI講故事,讓它學會理解和生成自然語言,保持原有的語言理解能力不會因為學習圖像生成而退化。就像一個人學畫畫的同時還要保持閱讀能力一樣。

第二類是圖像-文本配對數(shù)據(jù),這是模型學習將文字描述轉(zhuǎn)換為視覺內(nèi)容的關鍵素材。研究團隊收集了5.5億對高質(zhì)量的圖像和對應的文字描述。這些數(shù)據(jù)來源廣泛,包括網(wǎng)絡數(shù)據(jù)、多任務視覺問答數(shù)據(jù)和富含文字的文檔。更重要的是,研究團隊使用了先進的AI模型為每張圖片重新生成了豐富詳細的中英文描述,確保文字和圖像之間的匹配度更高。這個過程就像請專業(yè)的藝術評論家為每幅畫作撰寫詳細的解說詞。

第三類是指令引導的圖像到圖像數(shù)據(jù),專門用于訓練模型的編輯能力。研究團隊收集了約100萬個樣本,涵蓋視覺感知、可控圖像生成、圖像修復和通用圖像編輯等多個任務。這些數(shù)據(jù)經(jīng)過了嚴格的質(zhì)量篩選,使用視覺語言模型評估圖像質(zhì)量、合理性、一致性和指令匹配度,確保只有最高質(zhì)量的樣本被用于訓練。

第四類是交錯數(shù)據(jù),這是最有趣的一類數(shù)據(jù),它將文字和圖像seamlessly交織在一起,就像一本圖文并茂的故事書。這類數(shù)據(jù)包括從視頻中提取的幀序列配上相應的描述、教程類內(nèi)容、以特定角色為中心的場景,以及多視角數(shù)據(jù)。特別值得一提的是,研究團隊開發(fā)了一個專門的角色中心數(shù)據(jù)集NextStep-Video-Interleave-5M,通過人臉識別技術跟蹤視頻中的特定角色,并為這些場景生成類似故事敘述的豐富描述。這讓AI能夠?qū)W會理解復雜的多回合交互和故事情節(jié)。

三、訓練過程:從學徒到大師的成長之路

NextStep-1的訓練過程就像培養(yǎng)一個藝術學徒成為大師畫家的過程,需要經(jīng)歷多個階段的精心指導和練習。整個訓練分為預訓練和后訓練兩大階段,每個階段都有其特定的學習目標和訓練策略。

預訓練階段又細分為三個子階段。第一階段相當于基礎訓練,所有圖像都被調(diào)整到256×256的固定分辨率,就像學畫畫時先從簡單的素描開始。在這個階段,模型學習最基礎的圖像結(jié)構(gòu)和組成規(guī)律,數(shù)據(jù)配比為20%純文本、60%圖文配對和20%交錯數(shù)據(jù),共消耗了約1.23萬億個標記。

第二階段引入了動態(tài)分辨率策略,允許模型處理256×256和512×512兩種不同的基礎分辨率,并使用不同的長寬比分桶來提高計算效率。這就像學會了基礎技法后,開始練習處理更大幅面和不同比例的畫作。在這個階段,研究團隊增加了更多富含文字和視頻交錯的數(shù)據(jù),讓模型能夠處理更豐富的視覺細節(jié)。

第三階段是退火階段,這個過程就像藝術家在完成作品前的最后精修。研究團隊從高質(zhì)量數(shù)據(jù)集中精選了2000萬個樣本,這些樣本在美學評分、圖像清晰度、語義相似性、水印檢測等方面都達到了更嚴格的標準。模型在這些精選數(shù)據(jù)上訓練一個epoch,顯著提升了最終輸出的圖像質(zhì)量,增強了整體圖像結(jié)構(gòu)、構(gòu)圖、紋理和美學吸引力。

后訓練階段包括監(jiān)督微調(diào)和直接偏好優(yōu)化兩個步驟。監(jiān)督微調(diào)階段使用了500萬個精心準備的樣本,包括高語義一致性和視覺吸引力的圖文配對數(shù)據(jù)、其他生成模型的圖像用于蒸餾學習復雜想象性提示的處理能力,以及思維鏈數(shù)據(jù)來改進推理能力。這個階段還包含了高質(zhì)量的圖像編輯數(shù)據(jù),增強了模型的編輯功能。

直接偏好優(yōu)化階段則是為了讓模型更好地符合人類的審美偏好。研究團隊構(gòu)建了兩種類型的偏好數(shù)據(jù)集。標準偏好數(shù)據(jù)集通過讓模型為每個提示生成16個候選圖像,然后使用ImageReward評分系統(tǒng)進行排序,選擇得分最高的4個作為"獲勝"樣本,其余12個作為"失敗"樣本。自我思維鏈偏好數(shù)據(jù)集則在此基礎上增加了推理步驟,讓模型在生成圖像前先進行詳細的文本推理,類似于藝術家在動筆前先構(gòu)思整體布局。

四、性能表現(xiàn):在各個考試中都取得優(yōu)異成績

就像一個優(yōu)秀的學生在各門考試中都表現(xiàn)出色一樣,NextStep-1在多個權(quán)威評測基準上都取得了令人矚目的成績,充分證明了其在文本到圖像生成任務中的強大能力。

在圖像-文本對齊能力的測試中,NextStep-1表現(xiàn)尤為突出。在GenEval測試中獲得了0.63分(使用自我思維鏈技術后提升到0.73分),這個測試主要評估模型在計數(shù)、定位和空間對齊方面的能力。在GenAI-Bench測試中,基礎提示獲得0.88分,高級提示獲得0.67分(使用思維鏈技術后分別提升到0.9和0.74分),顯示出強大的組合理解能力。在DPG-Bench長文本多對象場景測試中取得85.28分,證明了在處理復雜提示時的可靠組合能力。

特別值得一提的是在OneIG-Bench英文提示測試中的表現(xiàn),這個基準測試評估對齊、文本渲染、推理和風格控制等多個維度的能力。NextStep-1獲得了0.417的總分,顯著超越了其他自回歸模型,如Emu3的0.311分和Janus-Pro的0.267分。這個結(jié)果表明NextStep-1在多個技術維度上都達到了領先水平。

在世界知識整合能力的評估中,NextStep-1同樣表現(xiàn)優(yōu)異。WISE基準測試強調(diào)事實基礎和語義理解,這個測試要求模型不僅能生成美觀的圖像,還要確保內(nèi)容的準確性。NextStep-1在這項測試中獲得0.54分(使用思維鏈技術后提升到0.67分),在自回歸模型中表現(xiàn)最佳,甚至超過了大多數(shù)擴散模型。當使用提示重寫協(xié)議時,得分進一步提升到0.79分(思維鏈技術下為0.83分),這些結(jié)果充分展示了模型強大的知識感知語義對齊和跨領域推理能力。

在圖像編輯任務上,研究團隊開發(fā)的NextStep-1-Edit通過在100萬高質(zhì)量編輯專用數(shù)據(jù)上進行微調(diào),展現(xiàn)出了與先進擴散模型相競爭的性能。在GEdit-Bench英文測試中獲得6.58分,在ImgEdit-Bench測試中獲得3.71分,證明了其在實際編輯應用中的強大能力。

五、核心發(fā)現(xiàn):是大腦還是畫筆在作畫

在研究過程中,團隊發(fā)現(xiàn)了一個非常有趣的現(xiàn)象,這個發(fā)現(xiàn)顛覆了人們對AI圖像生成機制的傳統(tǒng)認知。就像探索畫家作畫時是大腦在指揮還是手在自主運動一樣,研究團隊想要了解在NextStep-1中,到底是140億參數(shù)的主體變換器在控制圖像生成,還是1.57億參數(shù)的流匹配頭部在起主導作用。

通過一系列精心設計的對比實驗,研究團隊發(fā)現(xiàn)了一個令人驚訝的結(jié)果:流匹配頭部的大小對最終生成效果的影響微乎其微。他們測試了三種不同規(guī)模的流匹配頭部——小型(6層,1024隱藏維度,4000萬參數(shù))、基礎型(12層,1536隱藏維度,1.57億參數(shù))和大型(24層,2048隱藏維度,5.28億參數(shù))。盡管參數(shù)數(shù)量相差超過10倍,但三種配置產(chǎn)生的圖像質(zhì)量幾乎沒有差異,在多項評估指標上的表現(xiàn)都非常接近。

這個發(fā)現(xiàn)的意義非常重大。它表明真正的圖像生成"智慧"主要來自于那個140億參數(shù)的變換器主體,流匹配頭部更像是一個精巧的輸出工具,負責將變換器的"想法"轉(zhuǎn)化為具體的視覺內(nèi)容。這就像一個畫家的創(chuàng)意和構(gòu)思主要來自大腦,而畫筆只是將這些想法表現(xiàn)出來的工具。無論使用粗筆還是細筆,關鍵還是畫家的藝術素養(yǎng)和創(chuàng)作能力。

這個發(fā)現(xiàn)也解釋了為什么NextStep-1能夠在保持輕量級采樣頭部的同時實現(xiàn)如此出色的生成效果。變換器通過自回歸的下一個標記預測過程執(zhí)行核心的生成建模工作,而流匹配頭部主要充當輕量級采樣器的角色,將變換器的上下文預測轉(zhuǎn)換為連續(xù)標記。因此,本質(zhì)的生成邏輯存在于變換器的自回歸預測過程中。

六、圖像標記器:成功的關鍵基石

如果說變換器是NextStep-1的大腦,那么圖像標記器就是它的眼睛和手,負責理解和創(chuàng)造視覺內(nèi)容。研究團隊發(fā)現(xiàn),圖像標記器的設計對整個系統(tǒng)的成功至關重要,就像建筑的地基必須足夠堅實才能支撐整棟大樓一樣。

傳統(tǒng)的基于VAE的自回歸模型有一個眾所周知的問題:在強分類器自由引導下容易出現(xiàn)視覺偽影,特別是灰色斑塊。之前的研究認為這個問題源于1D位置嵌入的不連續(xù)性,但NextStep-1團隊通過深入分析發(fā)現(xiàn),真正的原因在于高引導尺度下標記級分布偏移的放大。

在推理過程中,分類器自由引導通過插值來計算引導預測。在擴散模型中,由于潛在變量通常進行了歸一化,條件和無條件預測保持一致的尺度,因此高引導尺度下的推理是穩(wěn)定的。然而在標記級自回歸模型中,整個潛在張量的全局歸一化并不能確保每個標記的統(tǒng)計一致性。因此,條件和無條件預測之間的微小差異會被大的引導尺度放大,導致生成標記的統(tǒng)計在序列中顯著偏移。

研究團隊通過實驗驗證了這一現(xiàn)象。在適中的引導尺度(1.5)下,每個標記的均值和方差在整個生成過程中保持穩(wěn)定。相比之下,在高引導尺度(3.0)下,這兩個統(tǒng)計量對后續(xù)標記顯著偏離,這種分布偏移直接對應于視覺偽影的出現(xiàn)。

為了解決這個問題,NextStep-1的圖像標記器設計采用了通道級歸一化,直接解決了這個問題,通過強制執(zhí)行每個標記的統(tǒng)計穩(wěn)定性來實現(xiàn)。這種簡單但關鍵的設計選擇緩解了不穩(wěn)定性,使得能夠使用強引導而不會降低圖像質(zhì)量。

研究團隊還發(fā)現(xiàn)了一個反直覺的現(xiàn)象:生成損失和最終合成質(zhì)量之間存在反向相關關系。具體來說,在標記器訓練過程中應用更高的噪聲強度會增加生成損失,但矛盾的是,這卻能提高生成圖像的質(zhì)量。NextStep-1使用了在噪聲強度γ=0.5下訓練的標記器,雖然這產(chǎn)生了最高的生成損失,但卻產(chǎn)生了最高保真度的圖像。相反,為低生成損失訓練的標記器導致自回歸模型產(chǎn)生類似純噪聲的輸出。

研究團隊將這種現(xiàn)象歸因于噪聲正則化培養(yǎng)了一個條件良好的潛在空間。這個過程增強了兩個關鍵特性:標記器解碼器對潛在擾動的魯棒性,以及更加分散的潛在分布。雖然目前還不清楚魯棒性還是分散性起到了關鍵作用,但這些結(jié)果突出了基于噪聲的正則化的實際好處,并為未來的分析指明了有希望的方向。

七、局限性與挑戰(zhàn):成長路上的絆腳石

任何創(chuàng)新技術在發(fā)展過程中都會遇到各種挑戰(zhàn)和限制,NextStep-1也不例外。研究團隊非常坦誠地分享了他們在研究過程中遇到的各種問題和尚未完全解決的技術難題,這些挑戰(zhàn)為未來的改進指明了方向。

最明顯的問題是在處理高維連續(xù)潛在空間時偶爾出現(xiàn)的視覺偽影。當從較低維度的潛在空間(如空間下采樣因子為8、潛在通道數(shù)為4)過渡到更高維度的空間(空間下采樣因子為8、潛在通道數(shù)為16)時,雖然前者配置產(chǎn)生穩(wěn)定的輸出,后者偶爾會出現(xiàn)失效模式。這些偽影包括生成后期出現(xiàn)的局部噪聲或塊狀偽影、整張圖像的全局噪聲,以及微妙的網(wǎng)格狀偽影。研究團隊認為這可能源于數(shù)值不穩(wěn)定性、訓練不足,或者1D位置編碼在捕獲2D空間關系方面的局限性。

另一個重要挑戰(zhàn)是推理延遲。理論分析顯示,在H100 GPU上批量大小為1的情況下,每個標記的延遲主要來自LLM的串行解碼,而流匹配頭部的多步采樣也構(gòu)成了生成成本的重要部分。這提示了兩個改進方向:提高流匹配頭部的效率,以及將LLM領域的加速技術(如推測解碼或多標記預測)適應到圖像標記生成領域。

在高分辨率訓練方面,NextStep-1面臨著與擴散模型相比的固有劣勢。自回歸生成的嚴格順序性質(zhì)要求在更高分辨率下需要更多的訓練步驟才能收斂,而擴散模型可以在每次迭代中并行細化整個圖像,更直接地利用2D空間歸納偏置。此外,最近為高分辨率擴散模型開發(fā)的技術(如時間步長偏移)很難適應NextStep-1的設置,因為流匹配頭部主要作為輕量級采樣器,而變換器主體執(zhí)行核心生成建模,對采樣過程的修改對最終輸出的影響有限。

在監(jiān)督微調(diào)方面,NextStep-1的自回歸框架也面臨著獨特的挑戰(zhàn)。與擴散模型相比,后者通??梢杂脦浊€樣本就適應目標分布并保持穩(wěn)定的通用圖像生成能力,NextStep-1的微調(diào)過程表現(xiàn)出不穩(wěn)定的動態(tài)性。只有在百萬樣本規(guī)模的數(shù)據(jù)集上訓練時,才能獲得實質(zhì)性的改進。使用較小的數(shù)據(jù)集時,模型處于一種不穩(wěn)定的平衡狀態(tài),要么改進微小幾乎沒有影響,要么突然過擬合到目標分布。因此,找到一個既能實現(xiàn)與目標分布對齊又保持通用生成能力的中間檢查點仍然是一個重大挑戰(zhàn)。

八、未來展望:通往更智能創(chuàng)作的道路

NextStep-1的成功不僅僅是一個技術突破,更像是為整個AI圖像生成領域打開了一扇新的大門。這項研究證明了自回歸模型在處理連續(xù)視覺標記方面的巨大潛力,為未來的發(fā)展指明了多個令人興奮的方向。

從技術優(yōu)化的角度來看,流匹配頭部的加速是一個重要方向。由于實驗證明了頭部大小對性能影響較小,未來可以通過減少參數(shù)數(shù)量、應用蒸餾技術實現(xiàn)少步生成,或者使用更先進的少步采樣器來提高推理效率。同時,自回歸主體的加速也很有希望,可以借鑒大語言模型領域的推測解碼或多標記預測等技術。

在高分辨率生成方面,需要專門為逐片自回歸模型設計新的策略。這可能包括開發(fā)適合逐步生成特點的空間歸納偏置技術,或者設計能夠在自回歸框架下工作的高分辨率生成策略。

模型的可控性和可編輯性是另一個充滿潛力的發(fā)展方向。NextStep-1-Edit已經(jīng)展示了在圖像編輯方面的能力,未來可以進一步擴展到更精細的控制,比如局部編輯、風格轉(zhuǎn)換、或者基于草圖的生成等。逐步生成的特性使得這種精細控制成為可能,因為系統(tǒng)可以在生成過程中的任何時點接受新的指令或約束。

多模態(tài)能力的擴展也是一個自然的發(fā)展方向。NextStep-1已經(jīng)統(tǒng)一了文本和圖像的處理,未來可以進一步擴展到視頻、音頻等其他模態(tài)。特別是在視頻生成方面,自回歸的逐幀生成特性與視頻的時序特性天然匹配,有望產(chǎn)生更連貫、更可控的視頻內(nèi)容。

在實際應用層面,NextStep-1的技術可能會revolutionize內(nèi)容創(chuàng)作的工作流程。設計師、藝術家、營銷人員等創(chuàng)意工作者可能會發(fā)現(xiàn),這種逐步可控的生成方式比傳統(tǒng)的"一鍵生成"方法更適合他們的創(chuàng)作需求。它允許在創(chuàng)作過程中進行實時調(diào)整和精細控制,就像真正的創(chuàng)作過程一樣。

更深層次地說,NextStep-1代表了AI系統(tǒng)向更加可解釋、可控制方向發(fā)展的趨勢。傳統(tǒng)的黑盒式生成方法雖然效率高,但缺乏透明性和可控性。而NextStep-1的逐步生成范式使得整個創(chuàng)作過程變得可視化和可干預,這對于需要精確控制輸出的專業(yè)應用來說具有重要意義。

說到底,NextStep-1最重要的貢獻可能在于它證明了AI可以像人類一樣進行創(chuàng)作——不是通過神秘的瞬間靈感,而是通過系統(tǒng)性的、逐步的、可理解的過程。這種方法不僅在技術上更加優(yōu)雅,也在哲學層面上更符合我們對創(chuàng)造性工作的理解。當AI能夠像人類藝術家一樣一筆一劃地創(chuàng)作時,它們就不再是冷冰冰的工具,而可能成為真正的創(chuàng)作伙伴。

這項研究表明,未來的AI系統(tǒng)可能會更加注重過程而不僅僅是結(jié)果,更加強調(diào)可控性而不僅僅是效率,更加重視可解釋性而不僅僅是性能。NextStep-1在這個方向上邁出了重要的第一步,為整個領域的發(fā)展樹立了新的標桿。隨著技術的不斷成熟和完善,我們有理由期待看到更多基于這種理念的創(chuàng)新應用,它們將重新定義人類與AI在創(chuàng)作領域的合作關系。

Q&A

Q1:NextStep-1與傳統(tǒng)AI圖像生成有什么本質(zhì)區(qū)別?

A:NextStep-1最大的區(qū)別在于它采用逐步生成的方式,就像畫家一筆一劃作畫一樣。傳統(tǒng)AI圖像生成是瞬間輸出完整圖片,而NextStep-1會一點點構(gòu)建圖像,每一步都參考前面已經(jīng)生成的內(nèi)容。這種方式雖然slower,但提供了更好的控制能力和可解釋性。

Q2:NextStep-1的14B參數(shù)和157M流匹配頭部分別起什么作用?

A:研究發(fā)現(xiàn)14B參數(shù)的變換器是真正的"大腦",負責理解文字描述和決策圖像內(nèi)容,而157M的流匹配頭部更像是"畫筆",將大腦的想法轉(zhuǎn)化為具體的視覺效果。有趣的是,即使大幅改變畫筆大小,最終效果差異也很小,說明核心智能來自于變換器主體。

Q3:NextStep-1在圖像編輯方面有什么特殊優(yōu)勢?

A:由于NextStep-1采用逐步生成的方式,它天然適合圖像編輯任務。NextStep-1-Edit可以根據(jù)用戶指令精確修改圖像的特定部分,就像一個聽話的助手。在多個編輯基準測試中表現(xiàn)出色,特別適合需要精細控制的專業(yè)應用場景。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-