這項(xiàng)由阿里巴巴集團(tuán)Ovis團(tuán)隊(duì)開發(fā)的研究成果于2025年6月29日發(fā)布在arXiv平臺(tái)上,論文編號(hào)為arXiv:2506.23044v1。感興趣的讀者可以通過GitHub項(xiàng)目頁(yè)面(https://github.com/AIDC-AI/Ovis-U1)或者HuggingFace模型庫(kù)(https://huggingface.co/AIDC-AI/Ovis-U1-3B)來了解更多技術(shù)細(xì)節(jié)和使用方法。
在人工智能的世界里,我們經(jīng)??吹竭@樣的現(xiàn)象:有些AI模型特別擅長(zhǎng)理解圖片內(nèi)容,能夠準(zhǔn)確描述一張照片里有什么;有些模型專門負(fù)責(zé)根據(jù)文字描述來生成精美的圖像;還有些模型專門用來編輯和修改現(xiàn)有的圖片。就像現(xiàn)實(shí)生活中的專業(yè)分工一樣,每個(gè)AI都有自己的專長(zhǎng)領(lǐng)域。然而,阿里巴巴的研究團(tuán)隊(duì)卻提出了一個(gè)大膽的想法:能不能培養(yǎng)出一個(gè)"全才"AI,讓它同時(shí)掌握看圖、畫圖和修圖這三項(xiàng)本領(lǐng)?
這個(gè)想法聽起來簡(jiǎn)單,實(shí)際操作起來卻充滿挑戰(zhàn)。就好比要培養(yǎng)一個(gè)既能當(dāng)翻譯、又能當(dāng)畫家、還能當(dāng)攝影師的全能人才一樣困難。不同技能之間需要不同的"思維方式",如何讓一個(gè)AI模型同時(shí)具備這些能力,而且每項(xiàng)技能都不輸給專業(yè)選手,這是一個(gè)技術(shù)難題。
現(xiàn)在,阿里巴巴的研究團(tuán)隊(duì)交出了他們的答案——Ovis-U1模型。這個(gè)名字中的"U"代表"Unified",意思是"統(tǒng)一的",寓意著它能把多種能力統(tǒng)一在一個(gè)模型中。有趣的是,盡管它只有36億個(gè)參數(shù)(在AI模型的世界里,這算是"輕量級(jí)選手"),但它的表現(xiàn)卻讓人刮目相看。
為了驗(yàn)證Ovis-U1的能力,研究團(tuán)隊(duì)設(shè)計(jì)了一系列測(cè)試,就像給這個(gè)AI全才安排了三場(chǎng)不同的考試。在理解圖片的考試中,它在OpenCompass多模態(tài)學(xué)術(shù)基準(zhǔn)測(cè)試中獲得了69.6分的成績(jī),超過了許多專門做這件事的AI模型,比如Ristretto-3B和SAIL-VL-1.5-2B。在文字生成圖片的測(cè)試中,它在DPG-Bench和GenEval兩個(gè)權(quán)威測(cè)試平臺(tái)上分別獲得了83.72分和0.89分的優(yōu)異成績(jī)。而在圖片編輯方面,它在ImgEdit-Bench和GEdit-Bench-EN測(cè)試中分別取得了4.00分和6.42分的表現(xiàn)。
更令人印象深刻的是,Ovis-U1采用了一種全新的訓(xùn)練策略。傳統(tǒng)做法往往是先讓AI學(xué)會(huì)一項(xiàng)技能,然后再嘗試添加其他功能。但阿里巴巴的研究團(tuán)隊(duì)發(fā)現(xiàn),如果讓AI同時(shí)學(xué)習(xí)理解圖片和生成圖片這兩項(xiàng)技能,它在每個(gè)方面的表現(xiàn)都會(huì)更好。這就像學(xué)習(xí)音樂時(shí),同時(shí)練習(xí)彈琴和唱歌的人,往往比只專注一項(xiàng)技能的人在音樂理解上更加全面深入。
這種發(fā)現(xiàn)具有重要意義,因?yàn)樗凳局鳤I能力之間可能存在某種相互促進(jìn)的關(guān)系。當(dāng)AI學(xué)會(huì)如何生成圖像時(shí),它對(duì)圖像的理解也會(huì)變得更加深刻;反過來,更好的圖像理解能力也有助于生成更高質(zhì)量的圖像。
一、Ovis-U1的"大腦結(jié)構(gòu)":像搭積木一樣組裝AI能力
要理解Ovis-U1是如何工作的,我們可以把它想象成一個(gè)精密的工廠流水線。這個(gè)工廠有幾個(gè)關(guān)鍵的車間,每個(gè)車間負(fù)責(zé)處理不同類型的信息。
整個(gè)系統(tǒng)的核心是一個(gè)叫做"多模態(tài)大語(yǔ)言模型"的中央處理器,就像工廠的總調(diào)度室一樣。這個(gè)調(diào)度室基于阿里巴巴自己開發(fā)的Qwen3-1.7B語(yǔ)言模型,它就像一個(gè)經(jīng)驗(yàn)豐富的工廠主管,能夠理解和協(xié)調(diào)各種不同類型的信息。
當(dāng)一張圖片進(jìn)入這個(gè)系統(tǒng)時(shí),它首先會(huì)經(jīng)過"視覺編碼器"這個(gè)車間。這個(gè)車間的工作就像是把圖片翻譯成AI能夠理解的"數(shù)字語(yǔ)言"。研究團(tuán)隊(duì)使用了一個(gè)叫做Aimv2-large-patch14-448的預(yù)訓(xùn)練模型作為這個(gè)車間的基礎(chǔ)設(shè)備。有趣的是,這個(gè)車間經(jīng)過了特殊改造,能夠處理各種尺寸的圖片,不需要像以前那樣把大圖片切成小塊再處理。
接下來是"適配器"模塊,它就像工廠里的轉(zhuǎn)換器,負(fù)責(zé)把視覺信息轉(zhuǎn)換成語(yǔ)言模型能夠理解的格式。這個(gè)轉(zhuǎn)換過程使用了一種概率化的方法,就像用不同濃度的顏料來調(diào)配出最合適的色彩一樣。
當(dāng)系統(tǒng)需要生成圖片時(shí),就輪到"視覺解碼器"出場(chǎng)了。這個(gè)部分基于擴(kuò)散變換器架構(gòu),可以把文字描述轉(zhuǎn)換成具體的圖像。研究團(tuán)隊(duì)把這個(gè)解碼器的規(guī)??刂圃?0億參數(shù)左右,通過減少層數(shù)和注意力頭數(shù)來實(shí)現(xiàn)輕量化設(shè)計(jì)。它使用了一種叫做"流匹配"的訓(xùn)練目標(biāo),就像教導(dǎo)一位畫家如何從粗糙的草圖逐步繪制出精美的作品。
特別值得一提的是系統(tǒng)中的"精煉器"模塊。這個(gè)模塊就像是質(zhì)量檢查員,負(fù)責(zé)提升文字和圖像信息之間的互動(dòng)質(zhì)量。它由兩個(gè)變換器塊組成,使用調(diào)制機(jī)制來工作。研究團(tuán)隊(duì)還引入了一個(gè)可學(xué)習(xí)的特殊標(biāo)記,用來捕獲全局信息,這就像給檢查員配備了一副能夠看到全局的特殊眼鏡。
整個(gè)系統(tǒng)還包含一個(gè)VAE(變分自編碼器),它就像是圖像處理的專用工具,負(fù)責(zé)在圖像的像素表示和潛在空間表示之間進(jìn)行轉(zhuǎn)換。研究團(tuán)隊(duì)選擇使用SDXL的VAE模型,并在訓(xùn)練過程中保持其參數(shù)不變。
二、數(shù)據(jù)準(zhǔn)備:為AI全才準(zhǔn)備豐富的"教材"
要培養(yǎng)一個(gè)具備多種技能的AI,就需要為它準(zhǔn)備種類豐富的學(xué)習(xí)材料。就像培養(yǎng)一個(gè)全才學(xué)生需要提供各學(xué)科的教科書一樣,Ovis-U1的訓(xùn)練需要三種不同類型的數(shù)據(jù)。
第一類是多模態(tài)理解數(shù)據(jù),這就像是給AI提供的"閱讀理解教材"。這類數(shù)據(jù)包含了圖片和對(duì)應(yīng)的文字描述,讓AI學(xué)會(huì)如何理解圖像內(nèi)容。研究團(tuán)隊(duì)收集了來自公開數(shù)據(jù)集的材料,包括COYO、Wukong、Laion、ShareGPT4V和CC3M等數(shù)據(jù)庫(kù)。為了確保教材質(zhì)量,他們還建立了專門的數(shù)據(jù)預(yù)處理流程,就像編輯教科書時(shí)要篩選優(yōu)質(zhì)內(nèi)容、提升文字質(zhì)量并調(diào)整不同材料的比例一樣。
第二類是文字到圖像生成數(shù)據(jù),這相當(dāng)于"創(chuàng)作課教材"。研究團(tuán)隊(duì)從Laion5B數(shù)據(jù)集中精心挑選了美學(xué)評(píng)分在6分以上的高質(zhì)量圖片,然后使用Qwen模型為每張圖片生成詳細(xì)的文字描述,最終創(chuàng)建了Laion-aes6數(shù)據(jù)集。他們還使用了JourneyDB數(shù)據(jù)集作為補(bǔ)充材料。
第三類是圖像加文字到圖像生成數(shù)據(jù),這類似于"實(shí)用技能教材",包含了四個(gè)細(xì)分方向。圖像編輯數(shù)據(jù)來源于OmniEdit、UltraEdit和SeedEdit等公開數(shù)據(jù)集,教會(huì)AI如何根據(jù)指令修改現(xiàn)有圖片。參考圖像驅(qū)動(dòng)的圖像生成數(shù)據(jù)包括Subjects200K和SynCD等數(shù)據(jù)集,讓AI學(xué)會(huì)基于參考圖片創(chuàng)作新作品。像素級(jí)控制的圖像生成數(shù)據(jù)涵蓋了從邊緣檢測(cè)圖生成真實(shí)圖像、從深度圖生成圖像、圖像修復(fù)和圖像擴(kuò)展等任務(wù),這些數(shù)據(jù)來自MultiGen 20M數(shù)據(jù)集。此外,研究團(tuán)隊(duì)還構(gòu)建了大量?jī)?nèi)部數(shù)據(jù),包括風(fēng)格轉(zhuǎn)換、內(nèi)容移除、風(fēng)格翻譯、去噪去模糊、圖像著色、文字渲染等各種實(shí)用功能的訓(xùn)練材料。
三、訓(xùn)練過程:六個(gè)階段的漸進(jìn)式學(xué)習(xí)之旅
Ovis-U1的訓(xùn)練過程就像培養(yǎng)一位全才藝術(shù)家,需要經(jīng)過六個(gè)精心設(shè)計(jì)的學(xué)習(xí)階段。這種漸進(jìn)式的訓(xùn)練方法確保了AI能夠逐步掌握各種技能,而不是一開始就被復(fù)雜的任務(wù)搞得手忙腳亂。
第一個(gè)階段是視覺解碼器的基礎(chǔ)訓(xùn)練。在這個(gè)階段,研究團(tuán)隊(duì)專注于讓AI學(xué)會(huì)最基本的"畫畫"技能。他們使用文字到圖像的訓(xùn)練數(shù)據(jù),讓視覺解碼器和精煉器從隨機(jī)初始化開始學(xué)習(xí),就像教一個(gè)完全不會(huì)畫畫的人如何握筆、如何在紙上留下第一筆。這個(gè)階段使用了500,000個(gè)訓(xùn)練步驟,批次大小為1024,學(xué)習(xí)率設(shè)置為1e-4。
第二個(gè)階段是適配器的預(yù)訓(xùn)練。適配器的作用就像是翻譯官,負(fù)責(zé)在視覺信息和語(yǔ)言信息之間建立橋梁。在這個(gè)階段,系統(tǒng)開始學(xué)習(xí)如何處理理解、生成和編輯這三種任務(wù)。適配器從隨機(jī)初始化開始訓(xùn)練,使用1510個(gè)訓(xùn)練步驟,批次大小增加到8192,學(xué)習(xí)率為5e-4。
第三個(gè)階段是視覺編碼器的對(duì)齊訓(xùn)練。這時(shí)候,視覺編碼器和適配器一起進(jìn)行微調(diào),進(jìn)一步提升視覺信息和文字信息之間的對(duì)齊效果。這個(gè)階段繼續(xù)使用三種任務(wù)的混合訓(xùn)練,訓(xùn)練步驟為2630步,批次大小保持8192,學(xué)習(xí)率調(diào)整為1e-4。與前面不同的是,生成任務(wù)在這個(gè)階段也有助于不同模態(tài)之間的信息對(duì)齊。
第四個(gè)階段是理解能力的專門學(xué)習(xí)。這個(gè)階段相當(dāng)于Ovis原始模型的訓(xùn)練過程,專門優(yōu)化視覺編碼器、適配器和語(yǔ)言模型在理解任務(wù)上的表現(xiàn)。訓(xùn)練完成后,這些參數(shù)會(huì)被固定下來,以保持已經(jīng)獲得的理解能力。這個(gè)階段的訓(xùn)練最為intensive,使用了23,000個(gè)訓(xùn)練步驟,批次大小為2240,學(xué)習(xí)率為5e-5。
第五個(gè)階段是生成能力的學(xué)習(xí)。由于第四階段調(diào)整了語(yǔ)言模型的參數(shù),研究團(tuán)隊(duì)需要重新訓(xùn)練精煉器和視覺解碼器,讓它們適應(yīng)優(yōu)化后的文字和圖像嵌入表示。實(shí)驗(yàn)結(jié)果表明,相比第一階段,這個(gè)階段的文字到圖像生成性能有了明顯提升,這說明前面幾個(gè)階段的訓(xùn)練確實(shí)優(yōu)化了文字嵌入的質(zhì)量。這個(gè)階段使用275,000個(gè)訓(xùn)練步驟,批次大小為256,學(xué)習(xí)率為5e-5。
第六個(gè)階段是生成能力的精細(xì)調(diào)優(yōu)。在具備了文字到圖像生成能力的基礎(chǔ)上,最后一個(gè)訓(xùn)練階段專門針對(duì)文字到圖像生成和圖像編輯任務(wù)進(jìn)行解碼器的精細(xì)調(diào)優(yōu)。這個(gè)階段使用325,000個(gè)訓(xùn)練步驟,批次大小為256,學(xué)習(xí)率保持5e-5。
這種六階段的訓(xùn)練策略體現(xiàn)了研究團(tuán)隊(duì)的深刻洞察:不同的AI能力需要在合適的時(shí)機(jī)以合適的方式進(jìn)行培養(yǎng)。通過這種漸進(jìn)式的方法,Ovis-U1最終獲得了在理解、生成和編輯三個(gè)方面都表現(xiàn)出色的綜合能力。
四、性能表現(xiàn):小身材大能量的全面驗(yàn)證
當(dāng)Ovis-U1完成訓(xùn)練后,研究團(tuán)隊(duì)進(jìn)行了全面的性能測(cè)試,就像給一位全才學(xué)生安排期末考試一樣。測(cè)試結(jié)果表明,這個(gè)只有36億參數(shù)的"小個(gè)子"AI在多個(gè)方面都表現(xiàn)出了令人驚喜的能力。
在圖像理解能力的測(cè)試中,研究團(tuán)隊(duì)使用了OpenCompass多模態(tài)學(xué)術(shù)基準(zhǔn)測(cè)試,這個(gè)測(cè)試包括八個(gè)不同的子項(xiàng)目,涵蓋了多模態(tài)推理、數(shù)學(xué)視覺理解、幻覺檢測(cè)、科學(xué)圖表理解、文字識(shí)別等各個(gè)方面。Ovis-U1在這項(xiàng)測(cè)試中獲得了69.6分的平均成績(jī),超過了許多同等規(guī)模甚至更大規(guī)模的專業(yè)模型。特別值得注意的是,在與其他30億參數(shù)左右的模型比較中,Ovis-U1的表現(xiàn)尤其突出,超過了InternVL2.5-2B、SAIL-VL-2B、InternVL3-2B、Qwen2.5-VL-3B、Ovis2-2B、SAIL-VL-1.5-2B和Ristretto-3B等多個(gè)競(jìng)爭(zhēng)對(duì)手。
在文字到圖像生成能力的評(píng)估中,研究團(tuán)隊(duì)使用了GenEval和DPG-Bench兩個(gè)權(quán)威測(cè)試平臺(tái)。GenEval測(cè)試主要評(píng)估模型在處理單個(gè)物體、兩個(gè)物體、計(jì)數(shù)、顏色、位置和屬性綁定等方面的能力。Ovis-U1在這項(xiàng)測(cè)試中獲得了0.89分的優(yōu)異成績(jī),顯著超過了許多專業(yè)的圖像生成模型。在DPG-Bench測(cè)試中,Ovis-U1獲得了83.72分,這個(gè)成績(jī)?cè)谕惸P椭幸彩窍喈?dāng)突出的。
圖像編輯能力的測(cè)試使用了ImgEdit-Bench和GEdit-Bench-EN兩個(gè)最新推出的基準(zhǔn)測(cè)試。ImgEdit-Bench包含811個(gè)圖像指令對(duì),測(cè)試模型在添加、調(diào)整、提取、替換、移除、背景處理、風(fēng)格轉(zhuǎn)換、混合操作和動(dòng)作處理等九個(gè)方面的表現(xiàn)。Ovis-U1在這項(xiàng)測(cè)試中獲得了4.00分的總分,在各個(gè)細(xì)分項(xiàng)目中都表現(xiàn)出了均衡的能力。GEdit-Bench-EN包含606個(gè)圖像指令對(duì),涵蓋背景更換、顏色調(diào)整、材質(zhì)修改、動(dòng)作變化、肖像美化、風(fēng)格轉(zhuǎn)換、主體添加、主體移除、主體替換、文字修改和色調(diào)轉(zhuǎn)換等11個(gè)方面。Ovis-U1在這項(xiàng)測(cè)試中獲得了6.42分,證明了其在復(fù)雜編輯任務(wù)上的可靠性。
為了驗(yàn)證統(tǒng)一訓(xùn)練方法的有效性,研究團(tuán)隊(duì)還進(jìn)行了對(duì)比實(shí)驗(yàn)。他們發(fā)現(xiàn),采用統(tǒng)一訓(xùn)練方法的Ovis-U1比只進(jìn)行理解任務(wù)訓(xùn)練的基線模型在理解能力上提升了1.14分。這個(gè)結(jié)果證明了同時(shí)學(xué)習(xí)生成任務(wù)確實(shí)有助于提升模型的理解能力,就像同時(shí)學(xué)習(xí)多種樂器的音樂學(xué)生往往對(duì)音樂有更深刻的理解一樣。
在圖像生成性能的階段性分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)訓(xùn)練過程中每個(gè)階段都對(duì)最終性能有積極貢獻(xiàn)。特別有趣的是,他們發(fā)現(xiàn)在生成訓(xùn)練中加入圖像編輯數(shù)據(jù)能夠?qū)⑽淖值綀D像生成的性能在DPG-Bench上提升0.77分,這說明不同類型的生成任務(wù)之間也存在相互促進(jìn)的關(guān)系。
五、技術(shù)創(chuàng)新:精煉器設(shè)計(jì)的巧思
Ovis-U1的一個(gè)重要?jiǎng)?chuàng)新是引入了精煉器模塊,這個(gè)模塊的設(shè)計(jì)體現(xiàn)了研究團(tuán)隊(duì)的技術(shù)巧思。精煉器的作用就像是一個(gè)經(jīng)驗(yàn)豐富的編輯,負(fù)責(zé)提升文字和圖像信息之間的交互質(zhì)量。
傳統(tǒng)的文字到圖像生成模型通常使用CLIP模型來捕獲全局特征,但Ovis-U1采用了一種不依賴CLIP的創(chuàng)新方法。研究團(tuán)隊(duì)引入了一個(gè)可學(xué)習(xí)的特殊標(biāo)記,這個(gè)標(biāo)記就像一個(gè)智能的"全局觀察員",能夠匯聚和整理來自語(yǔ)言模型的信息。
精煉器的結(jié)構(gòu)相對(duì)簡(jiǎn)潔,由兩個(gè)變換器塊組成,使用調(diào)制機(jī)制來處理信息。研究團(tuán)隊(duì)發(fā)現(xiàn),僅使用語(yǔ)言模型最后一層的特征會(huì)導(dǎo)致性能下降,但如果將倒數(shù)第二層和最后一層的特征連接起來,就能恢復(fù)到基線水平的性能。這個(gè)發(fā)現(xiàn)反映了語(yǔ)言模型不同層次包含不同粒度信息的特點(diǎn),通過結(jié)合多層信息,精煉器能夠更好地利用語(yǔ)言模型的表征能力。
在無CLIP方法的探索中,研究團(tuán)隊(duì)比較了兩種不同的設(shè)計(jì):一種是對(duì)精煉器輸出進(jìn)行平均池化,另一種是使用可學(xué)習(xí)的特殊標(biāo)記來聚合全局信息。實(shí)驗(yàn)結(jié)果表明,使用特殊標(biāo)記的方法表現(xiàn)更好,特別是在較大數(shù)據(jù)集上訓(xùn)練時(shí),這種方法在DPG-Bench上甚至超過了基線方法。
這些技術(shù)細(xì)節(jié)看似微小,但它們共同構(gòu)成了Ovis-U1出色性能的基礎(chǔ)。就像制作精美手表需要每個(gè)零件都精確配合一樣,AI模型的優(yōu)異表現(xiàn)也需要每個(gè)組件都經(jīng)過精心設(shè)計(jì)和調(diào)優(yōu)。
六、實(shí)際應(yīng)用:從技術(shù)到生活的橋梁
Ovis-U1的能力不僅僅停留在測(cè)試分?jǐn)?shù)上,它在實(shí)際應(yīng)用中也展現(xiàn)出了強(qiáng)大的實(shí)用性。通過研究團(tuán)隊(duì)提供的定性結(jié)果展示,我們可以看到這個(gè)AI在真實(shí)場(chǎng)景中的表現(xiàn)。
在圖像理解方面,Ovis-U1能夠準(zhǔn)確識(shí)別和描述復(fù)雜場(chǎng)景中的各種元素。比如,當(dāng)看到一張廚房照片時(shí),它不僅能識(shí)別出新鮮炸制的薯?xiàng)l、深度油炸鍋、番茄醬罐和番茄等物品,還能注意到花崗巖臺(tái)面的斑點(diǎn)圖案等細(xì)節(jié)。在文字識(shí)別任務(wù)中,它能夠準(zhǔn)確讀取圖像中的笑話內(nèi)容,展現(xiàn)出了優(yōu)秀的光學(xué)字符識(shí)別能力。
在文字到圖像生成方面,Ovis-U1能夠根據(jù)各種復(fù)雜的文字描述創(chuàng)作出高質(zhì)量的圖像。研究團(tuán)隊(duì)展示的樣例包括科幻風(fēng)格的水下城市、優(yōu)雅的蝴蝶圖案、溫馨的咖啡杯靜物、時(shí)尚的綠色連衣裙人物、抽象的藝術(shù)肖像等各種不同風(fēng)格和主題的作品。這些生成的圖像不僅在技術(shù)質(zhì)量上表現(xiàn)出色,在藝術(shù)表現(xiàn)力方面也很有吸引力。
在圖像編輯功能上,Ovis-U1展現(xiàn)出了精確的局部修改能力。它能夠根據(jù)指令將長(zhǎng)椅的材質(zhì)替換為大理石,讓人物表情變得快樂,將背景換成森林場(chǎng)景,將圖像轉(zhuǎn)換為涂鴉風(fēng)格,移除花生等物品,將夜景轉(zhuǎn)換為白天場(chǎng)景,應(yīng)用水彩畫風(fēng)格,在背景中添加現(xiàn)代摩天大樓,修改背景顏色并添加金色邊框,甚至能夠?qū)D像中的狗替換為從車窗伸出的向日葵等復(fù)雜操作。
特別值得注意的是,Ovis-U1在處理這些任務(wù)時(shí)表現(xiàn)出了很好的指令理解能力和執(zhí)行精度。它能夠準(zhǔn)確理解用戶的編輯意圖,并在保持圖像其他部分不變的同時(shí),精確地執(zhí)行指定的修改操作。
七、分類器自由引導(dǎo):給AI創(chuàng)作過程加上"調(diào)節(jié)器"
在圖像編輯功能中,Ovis-U1采用了一種叫做"分類器自由引導(dǎo)"的技術(shù),這個(gè)技術(shù)就像給AI的創(chuàng)作過程裝上了兩個(gè)可調(diào)節(jié)的旋鈕。一個(gè)旋鈕控制生成的圖像與原始圖像的相似程度,另一個(gè)旋鈕控制生成結(jié)果對(duì)文字指令的遵循程度。
研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)發(fā)現(xiàn),這兩個(gè)"旋鈕"的設(shè)置會(huì)顯著影響最終的編輯效果。當(dāng)圖像相似度參數(shù)設(shè)置得較高時(shí),生成的圖像會(huì)保留更多原始圖像的細(xì)節(jié);當(dāng)文字遵循度參數(shù)設(shè)置得較高時(shí),模型會(huì)更嚴(yán)格地按照編輯指令執(zhí)行操作。
有趣的是,Ovis-U1對(duì)這些參數(shù)變化表現(xiàn)出了很好的魯棒性,即使參數(shù)設(shè)置有所變化,結(jié)果的差異也保持在合理范圍內(nèi)。這種穩(wěn)定性對(duì)于實(shí)際應(yīng)用來說非常重要,因?yàn)橛脩舨恍枰ㄙM(fèi)大量時(shí)間來調(diào)試參數(shù)就能獲得滿意的結(jié)果。
研究團(tuán)隊(duì)發(fā)現(xiàn),在不同的測(cè)試基準(zhǔn)上,最優(yōu)的參數(shù)設(shè)置可能略有不同,但總體而言,模型都能保持穩(wěn)定的高水平表現(xiàn)。這種靈活性使得Ovis-U1能夠適應(yīng)各種不同的應(yīng)用場(chǎng)景和用戶需求。
八、統(tǒng)一訓(xùn)練的相互促進(jìn)效應(yīng)
Ovis-U1最重要的發(fā)現(xiàn)之一是不同任務(wù)之間的相互促進(jìn)效應(yīng)。傳統(tǒng)觀念認(rèn)為,讓AI同時(shí)學(xué)習(xí)多種不同的任務(wù)可能會(huì)導(dǎo)致"樣樣通,樣樣松"的問題。但Ovis-U1的實(shí)驗(yàn)結(jié)果卻顯示了相反的情況:統(tǒng)一訓(xùn)練實(shí)際上能夠提升模型在各個(gè)單項(xiàng)任務(wù)上的表現(xiàn)。
在理解能力方面,采用統(tǒng)一訓(xùn)練的Ovis-U1比只進(jìn)行理解任務(wù)訓(xùn)練的基線模型獲得了明顯的性能提升。這說明學(xué)習(xí)生成任務(wù)能夠幫助模型更好地理解圖像內(nèi)容,就像學(xué)會(huì)畫畫的人往往能更敏銳地觀察和理解視覺細(xì)節(jié)一樣。
在生成能力方面,研究團(tuán)隊(duì)發(fā)現(xiàn)不同訓(xùn)練階段都對(duì)最終性能有積極貢獻(xiàn)。特別是在加入圖像編輯任務(wù)后,模型的文字到圖像生成能力也得到了提升。這種現(xiàn)象表明,各種視覺生成任務(wù)之間存在共同的底層機(jī)制,掌握一種技能有助于提升其他相關(guān)技能。
這種相互促進(jìn)效應(yīng)為AI模型的未來發(fā)展指明了一個(gè)重要方向:與其追求單一任務(wù)的極致性能,不如通過多任務(wù)學(xué)習(xí)來實(shí)現(xiàn)更全面、更智能的AI系統(tǒng)。這種思路不僅能夠提升模型的綜合能力,還能夠提高參數(shù)使用效率,在相同的模型規(guī)模下實(shí)現(xiàn)更強(qiáng)的功能。
說到底,阿里巴巴團(tuán)隊(duì)通過Ovis-U1向我們展示了一種全新的AI發(fā)展思路。這個(gè)只有36億參數(shù)的"小個(gè)子"模型,通過巧妙的架構(gòu)設(shè)計(jì)和創(chuàng)新的訓(xùn)練策略,實(shí)現(xiàn)了在多個(gè)任務(wù)上都不輸于專業(yè)模型的綜合表現(xiàn)。更重要的是,它證明了不同AI能力之間存在相互促進(jìn)的關(guān)系,為未來開發(fā)更強(qiáng)大、更全面的AI系統(tǒng)提供了寶貴的經(jīng)驗(yàn)。
歸根結(jié)底,Ovis-U1的成功不僅僅在于它優(yōu)秀的性能表現(xiàn),更在于它所代表的技術(shù)發(fā)展方向。隨著AI技術(shù)的不斷進(jìn)步,我們可能會(huì)看到更多這樣的"全才"AI出現(xiàn),它們能夠在保持高效的同時(shí)處理更多樣化的任務(wù)。對(duì)于普通用戶來說,這意味著未來我們可能只需要一個(gè)AI助手就能完成圖像理解、創(chuàng)作和編輯的各種需求,而不需要在不同的專業(yè)工具之間切換。
當(dāng)然,研究團(tuán)隊(duì)也坦承Ovis-U1還有一些需要改進(jìn)的地方。比如,相比于更大規(guī)模的模型,它在某些復(fù)雜任務(wù)上可能還存在一定差距;在圖像生成質(zhì)量方面,較小的模型規(guī)模也可能導(dǎo)致一些偽影和幻覺問題。此外,目前的模型還缺少?gòu)?qiáng)化學(xué)習(xí)階段,這在大模型優(yōu)化中通常是一個(gè)重要環(huán)節(jié)。
展望未來,研究團(tuán)隊(duì)計(jì)劃從幾個(gè)方向繼續(xù)改進(jìn)。首先是擴(kuò)大模型規(guī)模,通過增加參數(shù)數(shù)量來提升圖像生成質(zhì)量和減少偽影。其次是改進(jìn)訓(xùn)練數(shù)據(jù),收集和整理更多高質(zhì)量、多樣化的數(shù)據(jù),特別是交錯(cuò)的圖像文本內(nèi)容。第三是創(chuàng)新架構(gòu)設(shè)計(jì),開發(fā)專門針對(duì)統(tǒng)一模型的優(yōu)化結(jié)構(gòu),特別是改進(jìn)視覺編碼器解碼器結(jié)構(gòu)以保持輸入圖像的精細(xì)細(xì)節(jié)。最后是探索如何將強(qiáng)化學(xué)習(xí)應(yīng)用到統(tǒng)一的多模態(tài)模型中,以便更好地與人類偏好對(duì)齊。
研究團(tuán)隊(duì)還提到了開源的重要性。通過開源Ovis-U1,他們希望能夠推動(dòng)整個(gè)AI社區(qū)在統(tǒng)一多模態(tài)模型方向的發(fā)展,鼓勵(lì)更多研究者參與到這個(gè)有趣而充滿挑戰(zhàn)的領(lǐng)域中來。畢竟,AI技術(shù)的進(jìn)步需要整個(gè)社區(qū)的共同努力,只有通過開放合作,我們才能更快地實(shí)現(xiàn)真正智能的AI系統(tǒng)。
想要深入了解技術(shù)細(xì)節(jié)的讀者,可以訪問GitHub項(xiàng)目頁(yè)面(https://github.com/AIDC-AI/Ovis-U1)獲取代碼和更多信息,或者通過HuggingFace模型庫(kù)(https://huggingface.co/AIDC-AI/Ovis-U1-3B)直接體驗(yàn)這個(gè)模型的能力。
Q&A Q1:Ovis-U1和其他AI模型相比有什么特別之處? A:Ovis-U1最大的特點(diǎn)是"一專多能",它能同時(shí)完成看圖說話、根據(jù)文字畫圖和編輯圖片三項(xiàng)任務(wù),而且每項(xiàng)任務(wù)的表現(xiàn)都很出色。更重要的是,它只有36億參數(shù),比很多專業(yè)模型都要"輕量",但性能卻不輸給那些專門做單一任務(wù)的大模型。
Q2:統(tǒng)一訓(xùn)練是什么意思?為什么這種方法更好? A:統(tǒng)一訓(xùn)練就是讓AI同時(shí)學(xué)習(xí)多種不同的技能,而不是一次只學(xué)一種。研究發(fā)現(xiàn),當(dāng)AI同時(shí)學(xué)習(xí)看圖和畫圖時(shí),它在每個(gè)方面的表現(xiàn)都會(huì)比單獨(dú)學(xué)習(xí)時(shí)更好,就像同時(shí)學(xué)習(xí)彈琴和唱歌的人對(duì)音樂理解更深刻一樣。
Q3:普通人能使用Ovis-U1嗎?如何獲取這個(gè)模型? A:是的,Ovis-U1是開源的。技術(shù)愛好者可以通過GitHub(https://github.com/AIDC-AI/Ovis-U1)獲取源代碼,或者通過HuggingFace平臺(tái)(https://huggingface.co/AIDC-AI/Ovis-U1-3B)直接下載和使用模型。不過目前主要面向開發(fā)者和研究人員,普通用戶可能需要一定的技術(shù)基礎(chǔ)才能部署使用。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。