這項由北京人工智能研究院的吳晨原、鄭鵬飛、閆瑞然、肖世濤等研究團隊共同完成的突破性研究,發(fā)表于2025年6月,論文標題為《OmniGen2: Exploration to Advanced Multimodal Generation》。感興趣的讀者可以通過arXiv:2506.18871v1訪問完整論文,或者訪問項目頁面https://vectorspacelab.github.io/OmniGen2以及GitHub倉庫https://github.com/VectorSpaceLab/OmniGen2獲得更多資源。
要理解OmniGen2的重要性,我們可以把現(xiàn)在的AI圖像生成比作一群各有專長的廚師。有的廚師只會做中餐,有的只會烘焙,有的只會改良現(xiàn)有菜品。當你想要一頓完整的晚餐時,就需要在不同廚房之間跑來跑去,既麻煩又費時。而OmniGen2就像是一位全能大廚,能夠獨自完成從前菜到甜點的所有料理,還能根據(jù)你的要求即時調(diào)整菜品風格。
與之前的版本OmniGen相比,OmniGen2采用了一種全新的"雙廚房"設計理念。傳統(tǒng)的方法就像讓同一個廚師既要處理文字菜單又要制作圖像菜品,結果往往顧此失彼。而OmniGen2則設置了兩個專門的工作臺:一個專門處理文字理解和生成,另一個專門負責圖像創(chuàng)作。這種分工讓每個部分都能發(fā)揮最佳水平,就像讓專業(yè)的面點師傅專心做面食,讓炒菜師傅專心掌勺一樣。
研究團隊在數(shù)據(jù)準備方面也下了一番苦功。他們不滿足于現(xiàn)有的"半成品食材",而是從頭開始構建了一套完整的"食材供應鏈"。特別是在圖像編輯和情境生成方面,他們開發(fā)了從視頻中提取高質(zhì)量訓練數(shù)據(jù)的方法,就像從新鮮農(nóng)場直接采摘蔬菜,而不是使用冷凍食品。
更令人驚喜的是,OmniGen2還具備了"自我反思"的能力。當它生成一張圖像后,能夠像經(jīng)驗豐富的大廚一樣品嘗自己的作品,發(fā)現(xiàn)不足之處并主動改進。比如當你要求"一張有四個紅蘋果的圖片",它生成的圖片只有三個蘋果時,OmniGen2會自動意識到這個問題,然后重新制作一張符合要求的圖片。
為了全面評估這種"情境理解"能力,研究團隊還專門設計了一套名為OmniContext的評測標準。這就像為大廚設計了一套全面的烹飪考試,包含了人物、物品、場景等各種復雜情況的測試。結果顯示,OmniGen2在這些測試中表現(xiàn)優(yōu)異,特別是在保持角色一致性方面達到了開源模型中的最高水平。
一、雙軌制設計:讓專業(yè)的人做專業(yè)的事
OmniGen2最核心的創(chuàng)新在于它的雙軌制架構設計。這種設計思路源于一個簡單而深刻的觀察:讓同一套系統(tǒng)既要精通文字處理又要擅長圖像生成,就像要求一個人既是莎士比亞又是達芬奇,實際上是強人所難的。
研究團隊通過大量實驗發(fā)現(xiàn)了一個有趣的現(xiàn)象。當他們嘗試用更強大的語言模型替換原有系統(tǒng)時,圖像生成質(zhì)量竟然下降了。這就好比一個頂級的文學評論家未必能畫出好畫,甚至可能因為過于注重文字的精確性而束縛了視覺創(chuàng)作的自由度。
基于這個發(fā)現(xiàn),OmniGen2采用了"術業(yè)有專攻"的策略。它設置了兩條完全獨立的處理路徑:一條專門負責自回歸文本建模,另一條專門處理擴散圖像生成。這兩條路徑各自使用獨立的參數(shù),互不干擾,就像交響樂團中小提琴手專注于弦樂部分,而不需要兼顧打擊樂器一樣。
在圖像編碼方面,OmniGen2也采用了分層處理的策略。系統(tǒng)使用視覺變換器(ViT)來理解圖像的語義內(nèi)容,同時使用變分自編碼器(VAE)來捕捉圖像的細節(jié)特征。這種雙重編碼就像人類既用眼睛看整體構圖,又用放大鏡觀察細節(jié)紋理。ViT負責理解"這是一只貓坐在沙發(fā)上",而VAE則關注"貓毛的質(zhì)感"和"沙發(fā)布料的紋理"。
特別值得一提的是OmniGen2的位置編碼創(chuàng)新。傳統(tǒng)的位置編碼就像給每個像素點編號,但在復雜的多圖像任務中,這種簡單編號會造成混亂。OmniGen2設計了一種三維位置編碼系統(tǒng),叫做Omni-RoPE。這個系統(tǒng)為每個圖像分配唯一的身份標識,同時在圖像內(nèi)部使用局部坐標系。這就像給每棟建筑一個門牌號,同時在建筑內(nèi)部使用樓層和房間號的組合編碼,既能區(qū)分不同建筑,又能精確定位建筑內(nèi)的具體位置。
二、數(shù)據(jù)工廠:從源頭保證食材新鮮
數(shù)據(jù)質(zhì)量對AI模型的重要性,就如同食材新鮮度對美食的重要性。研究團隊發(fā)現(xiàn),現(xiàn)有的開源數(shù)據(jù)集就像超市里打折的隔夜蔬菜,雖然便宜易得,但質(zhì)量堪憂,特別是在圖像編輯和情境生成任務上。
為了解決這個問題,研究團隊建立了一套完整的"數(shù)據(jù)農(nóng)場"。他們的核心思路是從視頻中提取高質(zhì)量的訓練樣本。視頻天然包含了同一對象在不同條件下的多種表現(xiàn),就像一個人在不同燈光、不同角度下的連續(xù)照片,為模型提供了豐富的學習素材。
在情境生成數(shù)據(jù)的構建過程中,研究團隊設計了一套精密的流水線。首先,他們從視頻中提取關鍵幀,然后使用Qwen2.5-VL-7B模型識別畫面中的主要對象。這就像讓一個經(jīng)驗豐富的攝影師從大量照片中挑選出最具代表性的幾張。接下來,他們使用GroundingDINO技術精確定位對象的位置,再用SAM2技術進行對象分割和跟蹤。
整個過程還加入了嚴格的質(zhì)量控制環(huán)節(jié)。系統(tǒng)會使用多重過濾機制確保提取的對象確實是同一個,避免將相似但不同的對象誤認為是同一個。這就像在生產(chǎn)線上設置多道質(zhì)檢關卡,確保每一件產(chǎn)品都符合標準。
在圖像編輯數(shù)據(jù)方面,研究團隊采用了一種巧妙的"逆向工程"方法。他們不是先有編輯指令再生成對應的圖像,而是先制作圖像對,然后讓AI模型觀察兩張圖像的差異并描述編輯過程。這種方法避免了指令與實際效果不匹配的問題,就像讓廚師品嘗兩道菜的區(qū)別,然后描述如何從第一道菜改進到第二道菜。
特別創(chuàng)新的是反思數(shù)據(jù)的構建。研究團隊讓模型生成圖像后,再讓它自己評判生成結果是否符合要求。如果發(fā)現(xiàn)問題,模型需要分析錯誤原因并提出改進方案,然后重新生成。這個過程就像讓學生不僅要完成作業(yè),還要自己批改作業(yè)并總結錯誤,從而培養(yǎng)自我改進的能力。
三、全能測試:OmniContext基準的誕生
為了全面評估OmniGen2的能力,研究團隊意識到現(xiàn)有的評測標準就像用小學數(shù)學題來考察大學生,既不夠全面也不夠深入。特別是在情境生成能力的評測上,市面上缺乏一套像樣的"綜合考試"。
于是,研究團隊開發(fā)了OmniContext基準測試。這套測試就像為AI設計的"全能競賽",涵蓋了人物、物體、場景三大類別,總共八個細分任務。每個任務都有50個精心設計的測試案例,確保覆蓋各種復雜情況。
測試的設計理念很巧妙。它不僅要求模型生成好看的圖像,更要求生成的圖像在內(nèi)容上高度準確。比如,給模型看一張小女孩的照片,然后要求生成"這個小女孩在海邊堆沙堡"的場景。模型不僅要生成一張質(zhì)量上佳的海邊圖片,還要確保圖片中的小女孩確實是輸入照片中的那個孩子,而不是另一個相似的小孩。
評測過程采用了GPT-4.1作為"考官"。這個AI考官會從兩個維度打分:一是"指令遵循度",看生成的圖像是否按照要求完成了任務;二是"主體一致性",檢查生成圖像中的人物或物體是否與參考圖像保持一致。這種評測方式比傳統(tǒng)的數(shù)值指標更接近人類的判斷標準。
測試結果顯示,OmniGen2在這套嚴格的考試中表現(xiàn)出色,總分達到7.18分(滿分10分),在開源模型中排名第一。特別值得一提的是,OmniGen2在處理多對象組合任務時表現(xiàn)尤為突出,展現(xiàn)了優(yōu)秀的"情境理解"能力。
四、反思機制:會自我改進的AI
OmniGen2最令人印象深刻的功能之一是它的自我反思能力。這種能力讓AI不再是一個"一次性"的工具,而是一個能夠持續(xù)改進的"學習伙伴"。
反思機制的工作原理很有趣。當OmniGen2生成一張圖像后,它會像一個嚴格的老師一樣檢查自己的作品。如果用戶要求"一張有四個紅蘋果的圖片",而生成的圖片只有三個蘋果,系統(tǒng)會自動識別這個問題,并分析:"描述中提到四個蘋果,但圖像中只顯示三個,需要再添加一個蘋果。"然后系統(tǒng)會基于這個分析重新生成圖像。
這種反思過程是可以多輪進行的。如果第二次生成的圖像仍有問題,系統(tǒng)會繼續(xù)反思和改進,直到達到滿意的結果或者確認已經(jīng)符合要求。整個過程就像一個認真的學生反復修改作文,每次都針對發(fā)現(xiàn)的問題進行具體改進。
研究團隊發(fā)現(xiàn),這種反思機制在處理顏色、數(shù)量、形狀等具體要求時特別有效。比如用戶要求"黃色的西蘭花",如果系統(tǒng)生成了綠色的西蘭花,反思機制會準確識別顏色錯誤并進行修正。同樣,在數(shù)量要求上,如果要求"三塊披薩"卻只生成了一塊,系統(tǒng)也能準確發(fā)現(xiàn)并補充。
不過,研究團隊也誠實地指出了反思機制的局限性。有時候系統(tǒng)會"過度反思",對本來正確的結果提出不必要的修改意見。這就像一個過于嚴格的完美主義者,有時會對已經(jīng)很好的作品吹毛求疵。另外,在處理一些簡單指令時,反思機制可能會增加不必要的復雜性。
盡管如此,反思機制的引入標志著AI圖像生成技術的一個重要進步。它讓AI從"被動執(zhí)行"轉(zhuǎn)向"主動優(yōu)化",這種轉(zhuǎn)變的意義不僅僅在于技術層面,更在于它展示了AI系統(tǒng)向更智能、更自主方向發(fā)展的可能性。
五、性能表現(xiàn):數(shù)據(jù)說話的實力證明
OmniGen2的實際表現(xiàn)就像一場全能比賽的成績單,在多個項目上都展現(xiàn)了強勁實力。在視覺理解能力測試中,OmniGen2在MMBench上得到79.1分,在MMMU測試中獲得53.1分,在MM-Vet評估中達到61.8分。這些成績雖然不是最頂尖的,但考慮到OmniGen2同時還要兼顧圖像生成任務,這樣的表現(xiàn)已經(jīng)相當出色。
在文字轉(zhuǎn)圖像的核心任務上,OmniGen2的表現(xiàn)更加亮眼。在GenEval測試中,它獲得了0.86分的高分(滿分1.0),這個成績與參數(shù)量和訓練數(shù)據(jù)都多得多的BAGEL模型(0.88分)相當接近。更令人贊嘆的是,OmniGen2只使用了40億個可訓練參數(shù)和1500萬張訓練圖片,而BAGEL使用了140億參數(shù)和16億張圖片。這種效率差異就像一個小排量汽車跑出了大排量汽車的速度。
在DPG-Bench測試中,OmniGen2得到83.57分,同樣表現(xiàn)優(yōu)異。這個測試主要評估模型處理復雜長文本指令的能力,高分說明OmniGen2能夠很好地理解和執(zhí)行復雜的創(chuàng)作要求。
圖像編輯能力的測試結果更加說明了OmniGen2的實用價值。在Emu-Edit測試中,OmniGen2在CLIP-Out指標上獲得最高分0.309,這個指標衡量的是編輯結果與指令的匹配度。同時,它在CLIP-I和DINO指標上分別獲得0.876和0.822的次優(yōu)成績,這兩個指標評估的是對未編輯區(qū)域的保護程度。這種平衡表現(xiàn)說明OmniGen2既能準確執(zhí)行編輯指令,又能很好地保持圖像其他部分不受影響。
在ImgEdit-Bench這個更全面的編輯測試中,OmniGen2取得了3.44分的總成績,在開源模型中名列前茅。特別值得一提的是,在動作修改這個細分任務上,OmniGen2獲得了4.68分的高分,展現(xiàn)了從視頻數(shù)據(jù)中學習的優(yōu)勢。
最引人注目的是在OmniContext基準測試中的表現(xiàn)。OmniGen2作為第一個在該基準上測試的模型,就取得了7.18分的優(yōu)異成績。在單一對象任務中獲得7.81分,多對象任務中獲得7.23分,場景任務中獲得6.71分。這種全面而均衡的表現(xiàn),證明了OmniGen2在情境生成方面的強大能力。
與閉源商業(yè)模型相比,OmniGen2在某些方面仍有差距。比如GPT-4o在OmniContext測試中獲得了8.80分的更高成績。但考慮到OmniGen2是完全開源的,任何人都可以下載使用和改進,它的價值遠不止性能數(shù)字那么簡單。
六、實際應用:從實驗室到現(xiàn)實世界
OmniGen2的強大功能在實際應用中展現(xiàn)出了廣闊的前景。在文字轉(zhuǎn)圖像方面,它能夠處理各種復雜的創(chuàng)作需求,從簡單的物體描述到復雜的場景構建,都能生成高質(zhì)量的結果。更重要的是,它支持不同的圖像比例,從方形到寬屏,從豎版到橫版,都能很好地適應。
在圖像編輯領域,OmniGen2展現(xiàn)了令人印象深刻的靈活性。它可以進行局部修改,比如改變衣服顏色、添加裝飾品;也可以進行整體風格轉(zhuǎn)換,比如將真實照片轉(zhuǎn)換為動漫風格;還可以進行復雜的場景替換,比如將人物從室內(nèi)場景移到海邊。這種全方位的編輯能力讓它成為內(nèi)容創(chuàng)作者的得力助手。
情境生成功能則為個性化內(nèi)容創(chuàng)作開辟了新的可能性。用戶可以上傳自己的照片,然后讓OmniGen2生成各種有趣的場景。比如,上傳一張寵物貓的照片,然后要求生成"這只貓在巴黎埃菲爾鐵塔前留影"的圖像。這種功能對于社交媒體內(nèi)容創(chuàng)作、個人紀念品制作等場景都有很大價值。
反思功能的實際應用價值尤其突出。在傳統(tǒng)的AI圖像生成中,如果結果不滿意,用戶只能重新輸入指令碰運氣。而OmniGen2的反思機制讓整個過程變得更可控和高效。系統(tǒng)能夠理解哪里出了問題,并主動進行改進,大大減少了用戶的試錯成本。
不過,研究團隊也誠實地指出了一些使用限制。OmniGen2在處理中文指令時的表現(xiàn)不如英文指令穩(wěn)定,這主要是因為訓練數(shù)據(jù)中英文內(nèi)容占主導地位。在處理低質(zhì)量輸入圖像時,輸出質(zhì)量也會受到明顯影響。另外,在處理涉及多個圖像源的復雜指令時,如果指令表述不夠明確,系統(tǒng)可能會產(chǎn)生混淆。
特別需要注意的是,OmniGen2在某些特定任務上還有改進空間。比如在人體形態(tài)修改方面,由于缺乏足夠的訓練數(shù)據(jù),效果還不夠理想。在處理一些需要精確細節(jié)的任務時,比如修改圖像中的文字內(nèi)容,表現(xiàn)也有待提升。
七、技術細節(jié):深入了解工作原理
OmniGen2的技術架構體現(xiàn)了現(xiàn)代AI設計的智慧。整個系統(tǒng)基于Qwen2.5-VL-3B作為多模態(tài)理解的基礎,這個30億參數(shù)的模型負責處理文本和圖像的理解任務。在訓練過程中,這部分參數(shù)基本保持凍結狀態(tài),只更新新引入的特殊標記,這樣既保持了原有的理解能力,又加入了圖像生成的觸發(fā)機制。
擴散生成部分采用了獨立的變換器架構,包含32層網(wǎng)絡,隱藏維度為2520,總計約40億參數(shù)。這個規(guī)模的設計既保證了生成質(zhì)量,又控制了計算成本。系統(tǒng)使用修正流(Rectified Flow)方法進行圖像生成,這種方法相比傳統(tǒng)的擴散過程更加高效。
Omni-RoPE位置編碼的設計特別巧妙。它將位置信息分解為三個組件:序列和模態(tài)標識符、二維高度坐標、二維寬度坐標。對于文本標記,只使用序列標識符,自然退化為標準的一維位置編碼。對于圖像標記,所有三個組件都發(fā)揮作用,能夠精確編碼圖像中每個位置的信息。
訓練策略采用了分階段的方法。首先在文字轉(zhuǎn)圖像任務上訓練擴散模型,然后引入混合任務訓練,最后進行反思能力的端到端訓練。這種漸進式的訓練方法確保了模型在每個階段都能穩(wěn)定學習,避免了同時學習多個復雜任務可能帶來的干擾。
在推理過程中,當系統(tǒng)遇到特殊標記時,會自動切換到圖像生成模式。MLLM產(chǎn)生的隱藏狀態(tài)與VAE提取的視覺特征一起輸入到擴散解碼器中,生成最終的圖像。整個過程是端到端的,用戶體驗流暢自然。
數(shù)據(jù)處理流程也體現(xiàn)了嚴格的質(zhì)量控制。從視頻中提取的每一幀都要經(jīng)過多重過濾,包括DINO相似性過濾、VLM一致性檢查等。這種多層過濾機制確保了訓練數(shù)據(jù)的高質(zhì)量,這對最終模型性能至關重要。
八、未來展望:走向更智能的多模態(tài)世界
OmniGen2的發(fā)布標志著多模態(tài)AI發(fā)展的一個重要里程碑,但它更像是一個新起點而不是終點。研究團隊在論文中坦誠地分析了當前的限制,并指出了未來的發(fā)展方向。
在模型規(guī)模方面,當前的30億參數(shù)MLLM雖然在效率上有優(yōu)勢,但在處理復雜推理任務時還有提升空間。研究團隊計劃探索更大規(guī)模的模型,同時保持系統(tǒng)的整體效率。這就像在汽車設計中既要提升發(fā)動機功率,又要保持燃油經(jīng)濟性的平衡。
數(shù)據(jù)質(zhì)量的提升是另一個重要方向。雖然研究團隊已經(jīng)建立了從視頻中提取高質(zhì)量數(shù)據(jù)的流程,但在某些特定領域,比如文字編輯、人體形態(tài)修改等方面,還需要更多針對性的數(shù)據(jù)。未來的工作可能會包括更精細化的數(shù)據(jù)收集和處理方法。
反思機制的完善也是一個重要的研究方向。當前的反思系統(tǒng)有時會出現(xiàn)過度反思或者反思不準確的問題。研究團隊計劃引入強化學習等方法來提升反思的準確性和效率。這種改進將讓AI系統(tǒng)變得更加智能和可靠。
多語言支持的改進也在計劃之中。目前OmniGen2在處理中文等非英語指令時表現(xiàn)不夠穩(wěn)定,這主要是由于訓練數(shù)據(jù)的語言分布不均勻?qū)е碌?。未來的版本將加強對多語言的支持,讓更多國家和地區(qū)的用戶能夠享受到優(yōu)質(zhì)的AI服務。
從更廣闊的角度來看,OmniGen2代表了向通用人工智能邁進的重要一步。它展示了單一模型處理多種復雜任務的可能性,這種統(tǒng)一性對于構建更智能、更自然的AI系統(tǒng)具有重要意義。未來的AI助手可能會像OmniGen2一樣,能夠無縫地在不同模態(tài)之間切換,為用戶提供真正智能化的服務。
更重要的是,OmniGen2的開源特性為整個AI社區(qū)提供了寶貴的資源。世界各地的研究者和開發(fā)者都可以基于這個基礎進行改進和創(chuàng)新,這種開放合作的模式有望加速整個領域的發(fā)展進程。
說到底,OmniGen2不僅僅是一個技術產(chǎn)品,更是對AI發(fā)展方向的一次重要探索。它告訴我們,真正智能的AI系統(tǒng)應該具備統(tǒng)一性、適應性和自我改進的能力。雖然距離完美還有很長的路要走,但OmniGen2已經(jīng)為我們展示了一個充滿可能性的未來。對于普通用戶來說,這意味著更強大、更易用的AI工具正在向我們走來。對于研究者來說,這提供了新的思路和平臺。對于整個人工智能領域來說,這是向下一個發(fā)展階段邁出的重要一步。
研究團隊承諾將繼續(xù)開源更多的模型、代碼和數(shù)據(jù)集,這種開放的態(tài)度值得贊賞。毫無疑問,OmniGen2將激發(fā)更多的研究和應用,推動多模態(tài)AI技術向更高水平發(fā)展。對于關注AI發(fā)展的人們來說,這確實是一個值得期待的時代。
Q&A
Q1:OmniGen2相比其他AI圖像生成工具有什么特別之處? A:OmniGen2最大的特點是"一個模型搞定所有任務",它可以同時進行文字轉(zhuǎn)圖像、圖像編輯、情境生成等多種任務,而不需要切換不同的工具。更重要的是,它具備自我反思能力,能發(fā)現(xiàn)生成圖像的問題并自動改進,這是其他工具很少具備的功能。
Q2:普通用戶能直接使用OmniGen2嗎?使用門檻高不高? A:是的,OmniGen2是完全開源的,普通用戶可以通過GitHub倉庫下載使用。不過目前主要面向有一定技術基礎的用戶,需要自己搭建運行環(huán)境。對于沒有技術背景的用戶來說,可能需要等待基于OmniGen2開發(fā)的更友好的應用產(chǎn)品。
Q3:OmniGen2的反思功能是如何工作的?會不會出錯? A:反思功能讓OmniGen2在生成圖像后自動檢查結果是否符合要求,如果發(fā)現(xiàn)問題(比如數(shù)量不對、顏色錯誤),會自動重新生成。不過這個功能也有局限性,有時會出現(xiàn)"過度反思"的情況,對本來正確的結果提出不必要的修改建議。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構聯(lián)合提出SparseLoRA技術,通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。