av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) ByteDance Seed研究團(tuán)隊(duì)發(fā)布BAGEL:探索統(tǒng)一多模態(tài)預(yù)訓(xùn)練中的涌現(xiàn)能力

ByteDance Seed研究團(tuán)隊(duì)發(fā)布BAGEL:探索統(tǒng)一多模態(tài)預(yù)訓(xùn)練中的涌現(xiàn)能力

2025-05-26 08:20
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-26 08:20 ? 科技行者

在人工智能研究領(lǐng)域,2025年迎來(lái)了一項(xiàng)重要突破。由ByteDance Seed團(tuán)隊(duì)主導(dǎo)的研究成果《Emerging Properties in Unified Multimodal Pretraining》(統(tǒng)一多模態(tài)預(yù)訓(xùn)練中的涌現(xiàn)能力)于2025年5月20日發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.14683v1),向公眾展示了他們開(kāi)發(fā)的強(qiáng)大開(kāi)源基礎(chǔ)模型BAGEL(Scalable Generative Cognitive Model)。這項(xiàng)研究由多位杰出研究者共同完成,包括Chaorui Deng、Deyao Zhu、Kunchang Li、Chenhui Gou、Feng Li、Zeyu Wang等首要貢獻(xiàn)者,以及由Haoqi Fan擔(dān)任項(xiàng)目負(fù)責(zé)人。研究團(tuán)隊(duì)來(lái)自ByteDance Seed、深圳先進(jìn)技術(shù)研究院、莫納什大學(xué)、香港科技大學(xué)和加州大學(xué)圣克魯茲分校等多家研究機(jī)構(gòu)。有興趣深入了解的讀者可以通過(guò)項(xiàng)目官網(wǎng)https://bagel-ai.org/獲取更多信息。

想象一下,如果我們把傳統(tǒng)的AI模型比作專業(yè)廚師,那么他們通常只擅長(zhǎng)一種菜系——有些只會(huì)做中餐,有些只會(huì)做西餐。而現(xiàn)在,ByteDance的研究團(tuán)隊(duì)打造了一位全能大廚BAGEL,不僅能同時(shí)精通多種菜系,還能在烹飪過(guò)程中展現(xiàn)出令人驚訝的創(chuàng)新能力,比如根據(jù)客人的簡(jiǎn)單描述創(chuàng)造出全新的菜品,或者僅憑一張食物圖片就能復(fù)制出相同的美味。

什么是BAGEL?簡(jiǎn)單來(lái)說(shuō),它是一個(gè)能夠同時(shí)理解和生成多種模態(tài)(如文本、圖像、視頻)內(nèi)容的AI模型。與市面上那些要么專注于理解(比如識(shí)別圖片中的物體),要么專注于生成(比如根據(jù)文字描述創(chuàng)建圖像)的模型不同,BAGEL就像是一個(gè)既能聽(tīng)懂你說(shuō)話,又能用繪畫(huà)、寫(xiě)作等多種方式回應(yīng)你的全能伙伴。

這項(xiàng)研究最令人興奮的發(fā)現(xiàn)是"涌現(xiàn)能力"(Emerging Properties)。這有點(diǎn)像孩子的成長(zhǎng)過(guò)程:剛開(kāi)始學(xué)習(xí)基礎(chǔ)技能時(shí),孩子只能分別掌握聽(tīng)、說(shuō)、讀、寫(xiě)等能力,但隨著學(xué)習(xí)的深入,突然有一天,他們能將這些基礎(chǔ)能力融合起來(lái),展現(xiàn)出解決復(fù)雜問(wèn)題的綜合能力,比如能根據(jù)一篇閱讀材料寫(xiě)出有深度的感想。同樣,BAGEL在訓(xùn)練過(guò)程中,隨著數(shù)據(jù)量和模型規(guī)模的增加,不僅提升了基礎(chǔ)的理解和生成能力,還"涌現(xiàn)"出了一些研究人員都沒(méi)有直接教給它的高級(jí)能力。

接下來(lái),讓我們深入了解BAGEL是如何工作的,它帶來(lái)了哪些突破性進(jìn)展,以及這對(duì)我們的日常生活可能產(chǎn)生什么影響。

一、研究背景與挑戰(zhàn):為什么我們需要統(tǒng)一的多模態(tài)模型?

在人工智能發(fā)展的漫長(zhǎng)道路上,研究人員一直面臨著一個(gè)類似"專才vs通才"的兩難選擇。想象一下,你是一家公司的招聘經(jīng)理,你是該招聘一位精通銷售但不懂市場(chǎng)營(yíng)銷的專家,還是招聘一位銷售和市場(chǎng)營(yíng)銷都擅長(zhǎng)的全能人才?在AI領(lǐng)域,這個(gè)問(wèn)題表現(xiàn)為:是開(kāi)發(fā)專門(mén)用于理解圖像的模型和專門(mén)用于生成圖像的不同模型,還是嘗試創(chuàng)建一個(gè)既能理解又能生成的統(tǒng)一模型?

長(zhǎng)期以來(lái),AI研究遵循"專才路線"——為不同任務(wù)開(kāi)發(fā)專門(mén)的模型。比如GPT系列專注于文本理解和生成,DALL-E專注于圖像生成,而CLIP則專注于圖像理解。這就像是一個(gè)廚房里有多位廚師,每位只負(fù)責(zé)一道菜。這種方法雖然在各個(gè)領(lǐng)域取得了顯著成就,但也帶來(lái)了明顯的局限性:各個(gè)模型之間缺乏協(xié)作,用戶需要同時(shí)使用多個(gè)工具才能完成復(fù)雜任務(wù),并且模型之間的知識(shí)無(wú)法有效共享。

ByteDance Seed團(tuán)隊(duì)意識(shí)到,人類智能的一個(gè)關(guān)鍵特征是能夠無(wú)縫地在理解和表達(dá)之間切換。比如當(dāng)我們看到一幅畫(huà)作時(shí),不僅能理解其內(nèi)容,還能描述它,甚至受到啟發(fā)創(chuàng)作類似的作品。這種統(tǒng)一的理解和生成能力是實(shí)現(xiàn)真正通用人工智能的關(guān)鍵一步。

然而,創(chuàng)建這樣的統(tǒng)一模型面臨著巨大挑戰(zhàn):

首先是"優(yōu)化沖突"問(wèn)題。這就像是讓一個(gè)學(xué)生同時(shí)精通文學(xué)和數(shù)學(xué)一樣困難,因?yàn)檫@兩個(gè)學(xué)科需要不同的思維方式和學(xué)習(xí)策略。同樣,訓(xùn)練模型理解圖像和生成圖像需要不同的優(yōu)化目標(biāo)和學(xué)習(xí)方法,如何在一個(gè)模型中協(xié)調(diào)這些目標(biāo)是一個(gè)巨大挑戰(zhàn)。

其次是"數(shù)據(jù)結(jié)構(gòu)差異"問(wèn)題。理解任務(wù)通常使用配對(duì)數(shù)據(jù)(如圖像及其標(biāo)簽),而生成任務(wù)則需要更復(fù)雜的序列數(shù)據(jù)(如一系列指令和相應(yīng)的輸出)。如何設(shè)計(jì)一個(gè)統(tǒng)一的數(shù)據(jù)格式來(lái)訓(xùn)練模型同時(shí)執(zhí)行這兩類任務(wù)?

第三是"架構(gòu)設(shè)計(jì)"難題。傳統(tǒng)的理解模型和生成模型采用不同的網(wǎng)絡(luò)結(jié)構(gòu)。理解模型通常是編碼器結(jié)構(gòu),而生成模型則是解碼器或擴(kuò)散模型。如何設(shè)計(jì)一個(gè)能夠同時(shí)有效支持這兩種功能的統(tǒng)一架構(gòu)?

ByteDance團(tuán)隊(duì)通過(guò)創(chuàng)新的方法解決了這些挑戰(zhàn),開(kāi)發(fā)出了BAGEL模型。就像一位既能欣賞藝術(shù)又能創(chuàng)作藝術(shù)的全能藝術(shù)家,BAGEL能夠無(wú)縫地在理解和生成之間切換,并在這個(gè)過(guò)程中展現(xiàn)出令人驚訝的涌現(xiàn)能力。

二、BAGEL的創(chuàng)新架構(gòu):打造AI世界的"變形金剛"

如果把傳統(tǒng)AI模型比作只會(huì)單一技能的工具,那么BAGEL就像是一個(gè)能夠根據(jù)需要變形的"變形金剛"。它究竟是如何實(shí)現(xiàn)這種靈活轉(zhuǎn)換的呢?答案就在于其創(chuàng)新的架構(gòu)設(shè)計(jì)。

BAGEL采用了一種名為"混合變換器專家"(Mixture-of-Transformer-Experts,簡(jiǎn)稱MoT)的架構(gòu)。這聽(tīng)起來(lái)很復(fù)雜,但我們可以用一個(gè)簡(jiǎn)單的比喻來(lái)理解:想象BAGEL像是一個(gè)擁有兩位專家顧問(wèn)的CEO。一位專家擅長(zhǎng)"理解"業(yè)務(wù)(比如市場(chǎng)分析),另一位專家擅長(zhǎng)"生成"業(yè)務(wù)(比如產(chǎn)品創(chuàng)新)。當(dāng)CEO面對(duì)不同任務(wù)時(shí),會(huì)選擇性地咨詢相應(yīng)的專家,但最終決策是CEO在綜合兩位專家意見(jiàn)后做出的。

具體來(lái)說(shuō),BAGEL模型包含兩個(gè)主要部分:

1. 兩個(gè)變換器專家:一個(gè)專注于多模態(tài)理解(比如識(shí)別圖像中的物體),另一個(gè)專注于多模態(tài)生成(比如創(chuàng)建新圖像)。

2. 兩個(gè)視覺(jué)編碼器:一個(gè)用于理解視覺(jué)內(nèi)容,另一個(gè)用于生成視覺(jué)內(nèi)容。理解編碼器負(fù)責(zé)捕捉圖像的語(yǔ)義信息(比如"這是一只貓"),而生成編碼器則關(guān)注像素級(jí)細(xì)節(jié)(比如貓毛的紋理和顏色)。

這兩個(gè)專家模塊通過(guò)一個(gè)巧妙的機(jī)制協(xié)同工作:共享自注意力操作。想象兩位專家雖然擅長(zhǎng)不同領(lǐng)域,但他們坐在同一個(gè)會(huì)議室里,能聽(tīng)到彼此的討論并分享信息。這種設(shè)計(jì)使得理解和生成模塊能夠無(wú)縫協(xié)作,共享知識(shí),而不是像傳統(tǒng)方法那樣彼此孤立。

研究團(tuán)隊(duì)在設(shè)計(jì)這種架構(gòu)時(shí)面臨一個(gè)關(guān)鍵選擇:是采用"瓶頸"設(shè)計(jì)還是"無(wú)瓶頸"設(shè)計(jì)?這聽(tīng)起來(lái)像是一個(gè)技術(shù)問(wèn)題,但實(shí)際上可以用日常生活中的比喻來(lái)理解。想象你正在組織一場(chǎng)大型會(huì)議,需要兩個(gè)團(tuán)隊(duì)(理解團(tuán)隊(duì)和生成團(tuán)隊(duì))進(jìn)行交流。"瓶頸"設(shè)計(jì)就像是讓兩個(gè)團(tuán)隊(duì)通過(guò)幾位代表進(jìn)行溝通,信息需要壓縮和提煉;而"無(wú)瓶頸"設(shè)計(jì)則像是讓兩個(gè)團(tuán)隊(duì)的所有成員都參與到同一個(gè)大會(huì)議室中,實(shí)現(xiàn)全面而直接的交流。

ByteDance團(tuán)隊(duì)選擇了后者——無(wú)瓶頸設(shè)計(jì)。這種方法雖然計(jì)算成本更高,但能夠保持信息的完整性,尤其是在處理復(fù)雜的長(zhǎng)上下文多模態(tài)推理時(shí)。研究顯示,這種設(shè)計(jì)確實(shí)幫助模型在大規(guī)模訓(xùn)練中展現(xiàn)出了驚人的涌現(xiàn)能力。

為了驗(yàn)證不同架構(gòu)的效果,研究團(tuán)隊(duì)進(jìn)行了對(duì)比實(shí)驗(yàn)。他們比較了三種設(shè)計(jì):標(biāo)準(zhǔn)的密集變換器(所有參數(shù)都用于所有任務(wù))、混合專家(MoE,只復(fù)制部分網(wǎng)絡(luò)層)和混合變換器(MoT,復(fù)制全部網(wǎng)絡(luò)層為專家使用)。結(jié)果顯示,MoT架構(gòu)在理解和生成任務(wù)上都取得了最佳性能。

這就像是比較三種不同的團(tuán)隊(duì)協(xié)作方式:一種是讓所有人都成為全能選手(密集變換器),一種是設(shè)立專業(yè)顧問(wèn)但大家共用基礎(chǔ)設(shè)施(MoE),最后一種是設(shè)立完全獨(dú)立的專業(yè)團(tuán)隊(duì)但保持高效溝通(MoT)。實(shí)驗(yàn)表明,最后一種方式在處理復(fù)雜多模態(tài)任務(wù)時(shí)效果最佳。

三、數(shù)據(jù)是王道:BAGEL的秘密武器

在AI世界里,有一句廣為流傳的格言:"模型和方法固然重要,但數(shù)據(jù)才是王道。"這就像一個(gè)廚師,無(wú)論技藝多么精湛,如果沒(méi)有優(yōu)質(zhì)的食材,也難以做出美味佳肴。對(duì)于BAGEL這樣的多模態(tài)模型來(lái)說(shuō)尤其如此。

ByteDance團(tuán)隊(duì)意識(shí)到,要打造真正強(qiáng)大的統(tǒng)一多模態(tài)模型,關(guān)鍵在于構(gòu)建一個(gè)能夠同時(shí)支持理解和生成的高質(zhì)量、多樣化的訓(xùn)練數(shù)據(jù)集。他們的創(chuàng)新之處在于開(kāi)發(fā)了一種名為"多模態(tài)交錯(cuò)數(shù)據(jù)"(Multimodal Interleaved Data)的新型數(shù)據(jù)格式。

什么是"多模態(tài)交錯(cuò)數(shù)據(jù)"?想象一本特殊的雜志,其中文字、圖片和視頻不是簡(jiǎn)單地并排放置,而是精心編排,形成一個(gè)連貫的敘事。例如,一篇關(guān)于烹飪的文章不僅包含食譜文本,還包含食材圖片、烹飪過(guò)程的視頻片段,以及成品的展示圖。這種自然交錯(cuò)的格式模擬了人類在現(xiàn)實(shí)世界中接收信息的方式,使模型能夠?qū)W習(xí)到不同模態(tài)之間的復(fù)雜關(guān)系。

ByteDance團(tuán)隊(duì)從兩大類源頭構(gòu)建了這種交錯(cuò)數(shù)據(jù):

1. 視頻數(shù)據(jù):視頻本質(zhì)上是一種天然的交錯(cuò)數(shù)據(jù)源。想象一部電影,它包含了時(shí)間上連續(xù)的畫(huà)面、對(duì)話和聲音,展現(xiàn)了物體如何移動(dòng)、人物如何互動(dòng)。團(tuán)隊(duì)利用公開(kāi)的視頻資源和兩個(gè)專門(mén)數(shù)據(jù)集(Koala36M和MVImgNet2.0)來(lái)捕捉這種豐富的時(shí)空動(dòng)態(tài)。從視頻中,模型可以學(xué)習(xí)到物體的一致性(同一輛車(chē)在不同角度下的樣子)、物理規(guī)律(物體如何運(yùn)動(dòng))和時(shí)間連續(xù)性(一個(gè)動(dòng)作如何自然過(guò)渡到下一個(gè))。

2. 網(wǎng)頁(yè)數(shù)據(jù):現(xiàn)代網(wǎng)頁(yè)通常包含文本、圖像和其他多媒體元素的混合。團(tuán)隊(duì)利用OmniCorpus數(shù)據(jù)集,這是一個(gè)從Common Crawl中預(yù)處理的大規(guī)模網(wǎng)頁(yè)集合,包含自然交錯(cuò)的文本和圖像。此外,他們還納入了開(kāi)源的圖像編輯數(shù)據(jù)集,這些數(shù)據(jù)集展示了如何一步步編輯和修改圖像,教會(huì)模型精細(xì)的編輯行為。

數(shù)據(jù)收集只是第一步。原始數(shù)據(jù)往往包含噪聲、無(wú)關(guān)內(nèi)容和低質(zhì)量樣本。就像廚師需要仔細(xì)挑選和處理食材一樣,研究團(tuán)隊(duì)開(kāi)發(fā)了一套復(fù)雜的數(shù)據(jù)過(guò)濾管道:

對(duì)于視頻數(shù)據(jù),他們應(yīng)用了時(shí)間分割(將長(zhǎng)視頻切分為有意義的片段)、空間裁剪(移除黑邊和疊加物如徽標(biāo))和質(zhì)量過(guò)濾(根據(jù)長(zhǎng)度、分辨率、清晰度和穩(wěn)定性篩選)。

對(duì)于網(wǎng)頁(yè)數(shù)據(jù),他們?cè)O(shè)計(jì)了一個(gè)兩階段過(guò)濾系統(tǒng):首先使用輕量級(jí)主題選擇過(guò)程(使用fastText分類器進(jìn)行大規(guī)模篩選),然后應(yīng)用更精細(xì)的規(guī)則過(guò)濾(如移除低質(zhì)量圖像、確保文本與圖像的相關(guān)性等)。

收集和過(guò)濾完數(shù)據(jù)后,關(guān)鍵的一步是構(gòu)建高質(zhì)量的交錯(cuò)序列。對(duì)于視頻數(shù)據(jù),團(tuán)隊(duì)生成了連續(xù)幀之間的變化描述,捕捉物體運(yùn)動(dòng)、動(dòng)作轉(zhuǎn)換和場(chǎng)景變化。這些幀間描述作為學(xué)習(xí)視覺(jué)動(dòng)態(tài)的時(shí)間監(jiān)督信號(hào)。

對(duì)于網(wǎng)頁(yè)數(shù)據(jù),他們采用了"先說(shuō)后示"策略:在每個(gè)圖像前插入簡(jiǎn)潔的描述,作為概念性腳手架,幫助模型形成關(guān)于目標(biāo)圖像的概念草圖,從而提高生成質(zhì)量。

此外,研究團(tuán)隊(duì)受DeepSeek-R1的啟發(fā),用推理導(dǎo)向的內(nèi)容豐富了交錯(cuò)數(shù)據(jù),以促進(jìn)多模態(tài)推理能力。他們構(gòu)建了50萬(wàn)個(gè)推理增強(qiáng)示例,涵蓋文本到圖像生成、自由形式圖像操作和抽象編輯等任務(wù)。

最終,團(tuán)隊(duì)構(gòu)建了一個(gè)包含數(shù)萬(wàn)億個(gè)標(biāo)記的龐大數(shù)據(jù)集,其中包括純文本數(shù)據(jù)、圖像-文本對(duì)理解數(shù)據(jù)、圖像-文本對(duì)生成數(shù)據(jù),以及最關(guān)鍵的交錯(cuò)理解和生成數(shù)據(jù)(來(lái)自視頻和網(wǎng)頁(yè))。這種規(guī)模和多樣性的數(shù)據(jù)是BAGEL模型展現(xiàn)涌現(xiàn)能力的關(guān)鍵基礎(chǔ)。

四、培養(yǎng)AI全能冠軍:BAGEL的訓(xùn)練過(guò)程

訓(xùn)練一個(gè)統(tǒng)一的多模態(tài)模型就像培養(yǎng)一位要參加"十項(xiàng)全能"比賽的運(yùn)動(dòng)員。這位運(yùn)動(dòng)員需要同時(shí)精通跳高、短跑、鉛球等多種完全不同的運(yùn)動(dòng)項(xiàng)目。要實(shí)現(xiàn)這個(gè)目標(biāo),教練需要精心設(shè)計(jì)訓(xùn)練計(jì)劃,確保運(yùn)動(dòng)員在所有項(xiàng)目上都達(dá)到最佳狀態(tài),而不是只在某一項(xiàng)上出色。

ByteDance團(tuán)隊(duì)面臨著類似的挑戰(zhàn):如何設(shè)計(jì)訓(xùn)練過(guò)程,使BAGEL模型在理解和生成這兩個(gè)"項(xiàng)目"上都表現(xiàn)出色?他們采用了一個(gè)分階段的訓(xùn)練策略,就像運(yùn)動(dòng)員的訓(xùn)練通常分為基礎(chǔ)訓(xùn)練、專項(xiàng)訓(xùn)練和賽前準(zhǔn)備一樣。

BAGEL的訓(xùn)練分為四個(gè)關(guān)鍵階段:

1. 對(duì)齊階段(Alignment):這相當(dāng)于運(yùn)動(dòng)員的基礎(chǔ)熱身。在這個(gè)階段,團(tuán)隊(duì)將視覺(jué)理解編碼器(SigLIP2)與語(yǔ)言模型(Qwen2.5 LLM)對(duì)齊。具體來(lái)說(shuō),他們只訓(xùn)練連接這兩個(gè)組件的多層感知器(MLP)連接器,而保持視覺(jué)編碼器和語(yǔ)言模型凍結(jié)。這個(gè)階段只使用圖像-文本對(duì)數(shù)據(jù)進(jìn)行圖像描述任務(wù),每張圖像都被調(diào)整為固定分辨率(378×378),以匹配預(yù)訓(xùn)練的SigLIP2輸入大小。

2. 預(yù)訓(xùn)練階段(Pre-training,PT):這相當(dāng)于運(yùn)動(dòng)員的全面基礎(chǔ)訓(xùn)練。在這個(gè)階段,團(tuán)隊(duì)向語(yǔ)言模型添加了QK-Norm,并讓除VAE外的所有模型參數(shù)都可訓(xùn)練。訓(xùn)練語(yǔ)料包含2.5萬(wàn)億個(gè)標(biāo)記,由純文本、圖像-文本對(duì)、多模態(tài)對(duì)話、網(wǎng)頁(yè)交錯(cuò)和視頻交錯(cuò)數(shù)據(jù)組成。他們采用原生分辨率策略進(jìn)行多模態(tài)理解和生成,但限制了每個(gè)圖像的最大長(zhǎng)邊和最小短邊。

3. 持續(xù)訓(xùn)練階段(Continued Training,CT):這相當(dāng)于運(yùn)動(dòng)員的專項(xiàng)強(qiáng)化訓(xùn)練。與預(yù)訓(xùn)練階段相比,CT階段增加了視覺(jué)輸入分辨率,這對(duì)多模態(tài)生成和理解性能都很重要。團(tuán)隊(duì)還戰(zhàn)略性地增加了交錯(cuò)數(shù)據(jù)的采樣比例,以強(qiáng)調(diào)跨模態(tài)推理的學(xué)習(xí),因?yàn)榇藭r(shí)模型的核心理解和生成能力已經(jīng)變得更加穩(wěn)定可靠。CT階段消耗了約2.6萬(wàn)億個(gè)標(biāo)記。

4. 監(jiān)督微調(diào)階段(Supervised Fine-tuning,SFT):這相當(dāng)于運(yùn)動(dòng)員的賽前針對(duì)性訓(xùn)練。在SFT階段,團(tuán)隊(duì)從圖像-文本對(duì)數(shù)據(jù)集和交錯(cuò)生成數(shù)據(jù)集中構(gòu)建了高質(zhì)量子集用于多模態(tài)生成。對(duì)于多模態(tài)理解,他們從LLaVA-OV和Mammoth-VL指令調(diào)整數(shù)據(jù)中過(guò)濾了一個(gè)子集。這個(gè)階段的訓(xùn)練標(biāo)記總數(shù)為727億。

在所有訓(xùn)練階段,團(tuán)隊(duì)使用了AdamW優(yōu)化器,β1=0.9,β2=0.95。受啟發(fā)于之前的研究,他們?cè)O(shè)置ε=1.0×10^-15以抑制損失峰值。在增加生成分辨率時(shí),他們還將擴(kuò)散時(shí)間步從1.0增加到4.0,以確保適當(dāng)?shù)脑肼暭?jí)別分布。他們?yōu)镻T、CT和SFT階段采用恒定學(xué)習(xí)率,這樣可以輕松地?cái)U(kuò)展訓(xùn)練數(shù)據(jù)而無(wú)需重啟訓(xùn)練過(guò)程。

與單獨(dú)訓(xùn)練VLM或T2I模型不同,統(tǒng)一多模態(tài)預(yù)訓(xùn)練需要仔細(xì)調(diào)整兩個(gè)關(guān)鍵超參數(shù)——數(shù)據(jù)采樣比例和學(xué)習(xí)率——以平衡來(lái)自理解和生成任務(wù)的信號(hào)。

研究團(tuán)隊(duì)進(jìn)行了一系列對(duì)照研究,調(diào)整多模態(tài)生成數(shù)據(jù)與多模態(tài)理解數(shù)據(jù)的比例。結(jié)果表明,將生成數(shù)據(jù)的采樣比從50%("1g1u")增加到80%("4g1u")會(huì)穩(wěn)步降低MSE損失,結(jié)果是0.4%的絕對(duì)減少——這在實(shí)踐中對(duì)整流流模型是一個(gè)相當(dāng)大的改進(jìn)。相比之下,交叉熵(CE)損失在各個(gè)采樣比例中沒(méi)有顯示出一致的模式。這些發(fā)現(xiàn)表明,在訓(xùn)練過(guò)程中應(yīng)該更頻繁地采樣生成示例,而不是理解示例。

對(duì)于學(xué)習(xí)率的選擇,團(tuán)隊(duì)發(fā)現(xiàn)更大的學(xué)習(xí)率使MSE損失收斂更快,而更小的學(xué)習(xí)率有利于CE損失。為了調(diào)和這種權(quán)衡,他們?yōu)閮蓚€(gè)目標(biāo)分配了單獨(dú)的加權(quán)因子。

這些精心設(shè)計(jì)的訓(xùn)練策略,加上創(chuàng)新的數(shù)據(jù)處理方法,共同打造了BAGEL的強(qiáng)大能力。就像一位經(jīng)過(guò)科學(xué)訓(xùn)練計(jì)劃培養(yǎng)出的全能冠軍,BAGEL在各種多模態(tài)任務(wù)上都展現(xiàn)出卓越的表現(xiàn)。

五、令人驚嘆的涌現(xiàn)能力:BAGEL如何超越其訓(xùn)練目標(biāo)

在AI研究中,有一個(gè)特別令人著迷的現(xiàn)象叫做"涌現(xiàn)能力"(Emerging Properties)。這就像是當(dāng)你教孩子學(xué)習(xí)基礎(chǔ)的加減乘除后,有一天他突然能夠解決復(fù)雜的應(yīng)用題,而你從未直接教過(guò)他這種能力。這種能力不是被明確編程或訓(xùn)練的,而是隨著模型規(guī)模和訓(xùn)練數(shù)據(jù)增加自然"涌現(xiàn)"出來(lái)的。

BAGEL模型展示了令人驚嘆的涌現(xiàn)能力,這些能力遠(yuǎn)超研究團(tuán)隊(duì)最初的設(shè)計(jì)目標(biāo)。為了理解這一現(xiàn)象,團(tuán)隊(duì)對(duì)訓(xùn)練過(guò)程中的歷史檢查點(diǎn)進(jìn)行了詳細(xì)評(píng)估,觀察模型能力如何隨著訓(xùn)練數(shù)據(jù)量的增加而演變。

他們發(fā)現(xiàn)不同任務(wù)表現(xiàn)出不同的學(xué)習(xí)動(dòng)態(tài)和飽和行為。如果以達(dá)到85%峰值性能所需的標(biāo)記數(shù)作為指標(biāo),研究團(tuán)隊(duì)觀察到以下模式:

1. 基礎(chǔ)理解和生成能力較早達(dá)到飽和:多模態(tài)理解任務(wù)在看到約0.18萬(wàn)億標(biāo)記后就達(dá)到了85%的性能,而生成任務(wù)則在0.68萬(wàn)億標(biāo)記后達(dá)到同等水平。這就像孩子先學(xué)會(huì)基礎(chǔ)的閱讀和寫(xiě)作,這些基礎(chǔ)技能相對(duì)容易掌握。

2. 編輯任務(wù)需要更長(zhǎng)時(shí)間:需要同時(shí)具備理解和生成能力的編輯任務(wù)表現(xiàn)出更慢的收斂速度,直到看到2.64萬(wàn)億標(biāo)記后才達(dá)到85%的性能。這相當(dāng)于孩子需要先掌握閱讀和寫(xiě)作后,才能發(fā)展出評(píng)論和改進(jìn)文章的能力。

3. 智能編輯能力最晚出現(xiàn):設(shè)計(jì)用來(lái)消除簡(jiǎn)單編輯案例并強(qiáng)調(diào)復(fù)雜多模態(tài)推理的"智能編輯"任務(wù)需要3.61萬(wàn)億標(biāo)記才能達(dá)到85%,展現(xiàn)出類似于涌現(xiàn)行為的模式。在這種情況下,模型最初顯示低性能,然后在看到3萬(wàn)億標(biāo)記后性能逐漸并顯著提高。這就像孩子突然展現(xiàn)出創(chuàng)造性寫(xiě)作或深度批判性思維的能力。

更有趣的是,當(dāng)研究團(tuán)隊(duì)在3萬(wàn)億標(biāo)記處增加分辨率時(shí),傳統(tǒng)編輯任務(wù)的性能基本不受影響,但智能編輯性能繼續(xù)顯著提高——從15分增加到45分,在后期訓(xùn)練階段翻了三倍,突顯了其對(duì)統(tǒng)一多模態(tài)推理的依賴性。

研究團(tuán)隊(duì)還發(fā)現(xiàn),理解能力,特別是視覺(jué)輸入,在多模態(tài)推理中起著關(guān)鍵作用:移除ViT標(biāo)記對(duì)GEdit-Bench幾乎沒(méi)有影響,但導(dǎo)致智能編輯任務(wù)的表現(xiàn)下降16%,這突顯了視覺(jué)-語(yǔ)義推理在復(fù)雜編輯任務(wù)中的重要性。

除了量化評(píng)估,研究團(tuán)隊(duì)還通過(guò)檢查不同訓(xùn)練檢查點(diǎn)的生成輸出來(lái)觀察質(zhì)量上的涌現(xiàn)行為。他們發(fā)現(xiàn),生成質(zhì)量在1.5萬(wàn)億標(biāo)記前就已經(jīng)很強(qiáng),在3.0萬(wàn)億標(biāo)記后使用更高分辨率訓(xùn)練時(shí)有小幅質(zhì)量提升。文本渲染能力,如正確生成"hello"和"BAGEL"的拼寫(xiě),則出現(xiàn)得更晚——大約在1.5萬(wàn)億到4.5萬(wàn)億標(biāo)記之間。

智能編輯任務(wù)的質(zhì)性可視化也展示了明顯的涌現(xiàn)行為。與傳統(tǒng)編輯不同,智能編輯通常需要基于多模態(tài)推理生成全新概念,而不僅僅是對(duì)輸入圖像進(jìn)行部分修改。在3.5萬(wàn)億標(biāo)記之前,模型傾向于復(fù)制輸入圖像并只做最小的更改——這是一種在任務(wù)沒(méi)有被完全理解時(shí)的回退策略。然而,在看到3.5萬(wàn)億標(biāo)記后,模型開(kāi)始展示出清晰的推理能力,產(chǎn)生連貫且語(yǔ)義上適當(dāng)?shù)木庉?,與圖7中觀察到的涌現(xiàn)行為一致。

這些涌現(xiàn)能力使BAGEL能夠執(zhí)行各種令人印象深刻的任務(wù),從基本的圖像生成和理解,到復(fù)雜的圖像編輯、多視圖合成和世界導(dǎo)航——這些能力構(gòu)成了超越傳統(tǒng)圖像編輯模型范圍的"世界建模"任務(wù)。

六、超越競(jìng)爭(zhēng)對(duì)手:BAGEL的實(shí)際表現(xiàn)

想象一場(chǎng)AI的奧林匹克運(yùn)動(dòng)會(huì),各種模型在不同項(xiàng)目上競(jìng)爭(zhēng)。BAGEL作為一個(gè)統(tǒng)一的多模態(tài)模型,是如何與那些專門(mén)設(shè)計(jì)用于單一任務(wù)的"專業(yè)選手"相比的呢?ByteDance團(tuán)隊(duì)進(jìn)行了全面的評(píng)估,結(jié)果令人印象深刻。

首先,在圖像理解方面,研究團(tuán)隊(duì)使用了六個(gè)廣泛使用的基準(zhǔn)測(cè)試:MME、MMBench、MMVet、MMMU、MathVista和MMVP。這些測(cè)試共同提供了一個(gè)簡(jiǎn)潔但全面的測(cè)試平臺(tái),涵蓋了感知、認(rèn)知和多模態(tài)推理能力。

在可比的7B激活參數(shù)規(guī)模下,BAGEL在理解任務(wù)上優(yōu)于現(xiàn)有的統(tǒng)一模型。例如,在MMMU和MM-Vet上,BAGEL分別比Janus-Pro提高了14.3和17.1個(gè)百分點(diǎn)。值得注意的是,雖然MetaQuery-XL的表現(xiàn)也很強(qiáng),但它依賴于凍結(jié)的預(yù)訓(xùn)練Qwen2.5-VL主干,限制了其適應(yīng)性。更令人驚訝的是,BAGEL在這些基準(zhǔn)測(cè)試中的大多數(shù)表現(xiàn)優(yōu)于專門(mén)設(shè)計(jì)用于理解的模型,如Qwen2.5-VL和InternVL2.5,這表明MoT設(shè)計(jì)有效地緩解了任務(wù)沖突,同時(shí)保持了強(qiáng)大的視覺(jué)理解能力。

在圖像生成方面,研究團(tuán)隊(duì)使用了兩個(gè)基準(zhǔn):GenEval和WISE。在相同的評(píng)估設(shè)置下,BAGEL達(dá)到了88%的總體得分,優(yōu)于專門(mén)的生成模型(FLUX-1-dev:82%,SD3-Medium:74%)和統(tǒng)一模型(Janus-Pro:80%,MetaQuery-XL:80%)。即使沒(méi)有LLM重寫(xiě)器,BAGEL也達(dá)到了82%,超過(guò)了之前最先進(jìn)的統(tǒng)一模型Janus-Pro-7B。在WISE基準(zhǔn)上,BAGEL超過(guò)了除領(lǐng)先的專有模型GPT-4o之外的所有先前模型,這表明BAGEL具有強(qiáng)大的推理能力和世界知識(shí)。

研究團(tuán)隊(duì)還進(jìn)行了BAGEL與Janus-Pro 7B、SD3-medium和GPT-4o的定性比較。如圖10所示,BAGEL生成的圖像質(zhì)量顯著高于Janus-Pro 7B,也超過(guò)了廣泛使用的專業(yè)文本到圖像模型SD3-medium。此外,它原生支持中文和英文提示,并允許以任意寬高比生成圖像。

在圖像編輯方面,研究團(tuán)隊(duì)使用GEdit-Bench評(píng)估BAGEL的古典圖像編輯能力。BAGEL的表現(xiàn)與當(dāng)前領(lǐng)先的專業(yè)圖像編輯模型Step1X-Edit相當(dāng),并且優(yōu)于Gemini 2.0。此外,團(tuán)隊(duì)還在新提出的IntelligentBench上報(bào)告了結(jié)果,BAGEL獲得了44.9分的表現(xiàn),顯著超過(guò)了現(xiàn)有的開(kāi)源Step1X-Edit模型30分。

研究團(tuán)隊(duì)還在各種圖像編輯場(chǎng)景中提供了定性比較,對(duì)比了BAGEL與Gemini 2.0、GPT-4o、Step1X-Edit和IC-Edit。如圖所示,BAGEL在各種編輯任務(wù)中始終表現(xiàn)出比Step1X-Edit和IC-Edit更優(yōu)秀的性能,并且也超過(guò)了Gemini 2.0的能力。雖然GPT-4o成功處理了這些場(chǎng)景,但它往往會(huì)對(duì)源圖像進(jìn)行非預(yù)期的修改,這是BAGEL有效避免的問(wèn)題。

此外,研究團(tuán)隊(duì)還驗(yàn)證了推理增強(qiáng)生成在各種基準(zhǔn)測(cè)試中的有效性。對(duì)于文本到圖像任務(wù),使用顯式思維鏈(CoT)推理過(guò)程的BAGEL在WISE上達(dá)到了0.70的得分,超過(guò)了非CoT對(duì)應(yīng)物0.18,并且也大大超過(guò)了所有現(xiàn)有開(kāi)源模型(之前的最高水平:MetaQuery-XL為0.55)。同樣,在IntelligentBench上,將CoT納入BAGEL將其智能得分從44.9提高到55.3。這種性能提升主要?dú)w因于推理的引入,使模型能夠利用世界知識(shí)并提供詳細(xì)的編輯指導(dǎo)。

最后,為了提高BAGEL的世界建模能力,研究團(tuán)隊(duì)通過(guò)增加訓(xùn)練配方中視頻和導(dǎo)航數(shù)據(jù)的比例對(duì)模型進(jìn)行了微調(diào)。在圖14中,團(tuán)隊(duì)展示了BAGEL在導(dǎo)航、旋轉(zhuǎn)和多幀生成等世界建模能力方面的示例。BAGEL展示了強(qiáng)大的世界理解和模擬能力,能夠按照輸入指令生成動(dòng)態(tài)數(shù)量的圖像,用于導(dǎo)航和旋轉(zhuǎn)輸入圖像等任務(wù),或基于給定提示生成多個(gè)圖像。此外,BAGEL還展示了世界理解方面的強(qiáng)大泛化能力。例如,雖然它僅在真實(shí)世界街道導(dǎo)航上進(jìn)行訓(xùn)練,但它無(wú)縫地?cái)U(kuò)展到各種領(lǐng)域,如水墨畫(huà)、卡通和視頻游戲。

綜合來(lái)看,BAGEL在各種多模態(tài)任務(wù)上的表現(xiàn)令人印象深刻,不僅與專門(mén)設(shè)計(jì)的模型相媲美,在許多情況下甚至超越了它們。這表明統(tǒng)一的多模態(tài)模型不僅可行,而且可以成為未來(lái)AI研究和應(yīng)用的有力方向。

七、未來(lái)展望:BAGEL開(kāi)啟的可能性

BAGEL模型的成功不僅僅是技術(shù)上的突破,它開(kāi)啟了一系列激動(dòng)人心的可能性,就像一把鑰匙打開(kāi)了通往未來(lái)的大門(mén)。讓我們一起展望BAGEL及其背后的統(tǒng)一多模態(tài)方法可能帶來(lái)的變革。

首先,BAGEL模型的開(kāi)源性質(zhì)是一個(gè)重大貢獻(xiàn)。與專有系統(tǒng)相比,開(kāi)源模型允許更廣泛的研究社區(qū)參與、貢獻(xiàn)和改進(jìn)。ByteDance團(tuán)隊(duì)不僅分享了模型的代碼和檢查點(diǎn),還詳細(xì)說(shuō)明了關(guān)鍵發(fā)現(xiàn)、預(yù)訓(xùn)練細(xì)節(jié)和數(shù)據(jù)創(chuàng)建協(xié)議。這種開(kāi)放性為多模態(tài)研究創(chuàng)造了更多機(jī)會(huì),可能催生新一代更強(qiáng)大、更靈活的AI系統(tǒng)。

其次,BAGEL的涌現(xiàn)能力表明,隨著數(shù)據(jù)規(guī)模和模型容量的增加,我們可能會(huì)看到更多意想不到的能力出現(xiàn)。就像超過(guò)某個(gè)臨界點(diǎn)的水突然變成蒸汽一樣,當(dāng)AI系統(tǒng)超過(guò)某個(gè)規(guī)模閾值時(shí),可能會(huì)展現(xiàn)出質(zhì)的飛躍。BAGEL的經(jīng)驗(yàn)表明,這些涌現(xiàn)能力不僅限于語(yǔ)言模型,也存在于多模態(tài)系統(tǒng)中。

第三,BAGEL展示的世界建模能力開(kāi)辟了新的應(yīng)用可能性:

1. 增強(qiáng)人機(jī)交互:能夠理解和生成多種模態(tài)的AI可以創(chuàng)造更自然、更直觀的人機(jī)交互體驗(yàn)。比如,用戶可以通過(guò)自然語(yǔ)言描述編輯需求,AI理解后直接生成修改后的圖像,無(wú)需學(xué)習(xí)復(fù)雜的編輯軟件。

2. 創(chuàng)意助手:BAGEL可以作為創(chuàng)意專業(yè)人士的強(qiáng)大助手,幫助設(shè)計(jì)師、藝術(shù)家和內(nèi)容創(chuàng)作者快速將想法轉(zhuǎn)化為視覺(jué)作品,并允許通過(guò)自然語(yǔ)言指令進(jìn)行精細(xì)調(diào)整。

3. 虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí):BAGEL的導(dǎo)航和3D操作能力可以應(yīng)用于構(gòu)建更逼真、更響應(yīng)用戶意圖的虛擬環(huán)境,為元宇宙等應(yīng)用奠定基礎(chǔ)。

4. 自動(dòng)化內(nèi)容生成:新聞機(jī)構(gòu)、營(yíng)銷團(tuán)隊(duì)和教育機(jī)構(gòu)可以利用BAGEL自動(dòng)生成與文本內(nèi)容匹配的視覺(jué)材料,大大提高內(nèi)容制作效率。

5. 輔助技術(shù):對(duì)于視障人士,BAGEL可以提供更詳細(xì)、更上下文相關(guān)的圖像描述;對(duì)于有表達(dá)困難的人,它可以幫助將想法轉(zhuǎn)化為視覺(jué)表示。

然而,隨著這些令人興奮的可能性而來(lái)的是重要的倫理考量。強(qiáng)大的圖像生成和編輯能力可能被濫用于創(chuàng)建誤導(dǎo)性內(nèi)容或深度偽造。BAGEL的開(kāi)發(fā)團(tuán)隊(duì)認(rèn)識(shí)到這些挑戰(zhàn),并強(qiáng)調(diào)了負(fù)責(zé)任的使用和進(jìn)一步研究安全措施的重要性。

此外,盡管BAGEL展現(xiàn)了令人印象深刻的能力,它仍有改進(jìn)空間。如圖17所示,涉及特定知識(shí)產(chǎn)權(quán)、復(fù)雜文本渲染、反事實(shí)場(chǎng)景、對(duì)象交換等任務(wù)對(duì)BAGEL和其他模型仍然構(gòu)成挑戰(zhàn)。與GPT-4o相比,還有明顯的提升空間。BAGEL的性能可以通過(guò)多種方式增強(qiáng),例如擴(kuò)充含有更多文本的圖像數(shù)據(jù)、增加模型容量,或在最終后訓(xùn)練階段應(yīng)用人類反饋強(qiáng)化學(xué)習(xí)(RLHF)。

ByteDance團(tuán)隊(duì)在論文結(jié)尾表示:"我們呈現(xiàn)了BAGEL,一個(gè)統(tǒng)一的多模態(tài)理解和生成模型,在擴(kuò)大統(tǒng)一預(yù)訓(xùn)練時(shí)展現(xiàn)出涌現(xiàn)能力。BAGEL在標(biāo)準(zhǔn)多模態(tài)理解和生成基準(zhǔn)上產(chǎn)生頂級(jí)性能,并以強(qiáng)大的世界建模和推理能力進(jìn)一步區(qū)分自己。為了開(kāi)啟多模態(tài)研究的更多機(jī)會(huì),我們向研究社區(qū)開(kāi)源BAGEL。"

這一結(jié)語(yǔ)不僅總結(jié)了他們的成就,也表明了他們對(duì)開(kāi)放協(xié)作和推動(dòng)AI邊界的承諾。隨著時(shí)間的推移,BAGEL開(kāi)創(chuàng)的道路可能會(huì)導(dǎo)致更加智能、更有用的AI系統(tǒng),這些系統(tǒng)能夠無(wú)縫地理解我們的世界并幫助我們以新的方式與之互動(dòng)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-