這項(xiàng)令人興奮的研究來自昆字節(jié)AI公司和浙江大學(xué)的聯(lián)合團(tuán)隊,由馮雨桐、張琳琳、曹恒遠(yuǎn)等研究人員共同完成,于2025年8月發(fā)表在計算機(jī)視覺領(lǐng)域的頂級預(yù)印本平臺arXiv上。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過論文編號arXiv:2508.13632v1訪問完整研究內(nèi)容,項(xiàng)目代碼和演示也已在https://omnitry.github.io/公開發(fā)布。
想象一下,你正準(zhǔn)備在網(wǎng)上購買一頂帽子,但卻不知道它戴在自己頭上會是什么樣子?;蛘吣憧粗辛艘桓倍h(huán),卻擔(dān)心它們與自己的臉型是否相配。過去,這些疑慮只能通過親自試穿或者復(fù)雜的圖像處理軟件才能解決?,F(xiàn)在,昆字節(jié)AI團(tuán)隊開發(fā)的OmniTry系統(tǒng)就像一個萬能的虛擬試衣鏡,不僅可以試穿衣服,還能試戴珠寶、帽子、眼鏡,甚至手表和包包,而且操作簡單到令人難以置信。
這項(xiàng)技術(shù)的突破性在于徹底簡化了傳統(tǒng)的虛擬試穿流程。以往的系統(tǒng)就像一個挑剔的管家,需要用戶精確標(biāo)出想要替換的區(qū)域,還要提供復(fù)雜的參數(shù)設(shè)置。而OmniTry更像是一位貼心的朋友,你只需要給它看一張你的照片和想要試穿的物品圖片,它就能智能地理解你的意圖,自動將物品"穿戴"到合適的位置上。這種"免標(biāo)注"的設(shè)計理念讓普通人也能輕松使用,不再需要專業(yè)的圖像處理知識。
研究團(tuán)隊面臨的最大挑戰(zhàn)是數(shù)據(jù)稀缺問題。就像一個新手廚師缺乏食譜一樣,對于帽子、珠寶、眼鏡等非服裝類物品,市面上很難找到大量的"原物品+試穿效果"配對圖片。傳統(tǒng)的AI系統(tǒng)需要這種成對數(shù)據(jù)才能學(xué)會正確的試穿效果,但收集這些數(shù)據(jù)既昂貴又耗時。研究團(tuán)隊巧妙地解決了這個難題,他們開發(fā)了一套"兩階段學(xué)習(xí)法",就像是先教AI認(rèn)識不同物品應(yīng)該戴在哪里,然后再教它如何保持物品的原有樣子。
第一階段可以比作訓(xùn)練一位智能造型師的"空間感"。研究團(tuán)隊收集了大量包含各種穿戴物品的人物照片,然后讓AI學(xué)習(xí)每種物品的正確佩戴位置。他們使用了一種叫做"無痕移除"的技術(shù),就像用橡皮擦小心翼翼地擦掉照片中的某個物品,但不留下任何痕跡。這個過程需要格外精細(xì),因?yàn)槿绻粝履呐乱稽c(diǎn)點(diǎn)擦除痕跡,AI就會學(xué)會"作弊"——通過識別這些痕跡來判斷物品位置,而不是真正理解物品應(yīng)該放在哪里。
為了實(shí)現(xiàn)真正的"無痕移除",研究團(tuán)隊采用了一種創(chuàng)新方法。他們先用傳統(tǒng)方法移除物品,然后使用圖像重繪技術(shù)對整張照片進(jìn)行細(xì)微調(diào)整,就像用水彩畫家的技巧將畫面重新潤色一遍,確保移除區(qū)域與周圍環(huán)境完美融合。接著,他們將原始照片與重繪后的照片巧妙地混合,確保除了目標(biāo)物品區(qū)域外,其他部分保持完全一致。這種做法成功避免了AI學(xué)習(xí)到錯誤的"捷徑"。
第二階段則專注于教會AI如何保持物品的身份特征。在這個階段,研究團(tuán)隊引入了真正的配對數(shù)據(jù)——包含原物品圖片和對應(yīng)試穿效果的圖片。由于第一階段已經(jīng)建立了良好的空間理解基礎(chǔ),AI在這個階段能夠快速學(xué)會如何在保持物品原有顏色、紋理、形狀的同時,將其準(zhǔn)確地"穿戴"到人身上。
OmniTry的核心技術(shù)架構(gòu)采用了當(dāng)前最先進(jìn)的擴(kuò)散變換器模型,這就像是一個超級智能的繪畫大師,能夠根據(jù)給定的條件生成高質(zhì)量的圖像。研究團(tuán)隊沒有選擇從零開始訓(xùn)練模型,而是巧妙地改造了現(xiàn)有的圖像修復(fù)模型。他們發(fā)現(xiàn),通過將"掩碼"(告訴AI需要修改哪個區(qū)域的標(biāo)記)設(shè)置為全零,原本用于圖像修復(fù)的模型就能轉(zhuǎn)變?yōu)闊o需用戶標(biāo)注的智能試穿系統(tǒng)。
這種改造就像是給一位專業(yè)的修復(fù)師新的工作指令。原本,修復(fù)師需要明確的指示才知道修復(fù)畫作的哪個部分?,F(xiàn)在,研究團(tuán)隊告訴修復(fù)師:"不用等待指示,直接根據(jù)給出的參考物品,在畫作中找到最合適的位置進(jìn)行創(chuàng)作。"這種設(shè)計讓系統(tǒng)能夠自動理解用戶的意圖,無需復(fù)雜的操作步驟。
為了處理人物圖像和物品圖像這兩種不同類型的輸入,研究團(tuán)隊設(shè)計了"雙流適配器"系統(tǒng)。這就像是配備了兩個專門的助手,一個負(fù)責(zé)理解人物圖像的特征和需求,另一個專門處理物品圖像的細(xì)節(jié)。兩個助手通過精密的協(xié)作機(jī)制確保最終結(jié)果既保持了人物的原有特征,又完美地展現(xiàn)了物品的細(xì)節(jié)。
在訓(xùn)練數(shù)據(jù)方面,研究團(tuán)隊展現(xiàn)了驚人的數(shù)據(jù)處理能力。第一階段使用了超過18萬對訓(xùn)練樣本,這些樣本來自各種真實(shí)的人物照片,涵蓋了從日常街拍到專業(yè)攝影的各種場景。第二階段則使用了超過5萬對精心挑選的配對樣本,覆蓋了12個主要的可穿戴物品類別。
這12個類別的設(shè)計體現(xiàn)了研究團(tuán)隊對用戶需求的深刻理解。他們將可穿戴物品分為四大家族:服裝家族包括上衣、下裝和連衣裙;鞋履家族涵蓋各種常見鞋型;珠寶家族包括手鐲、耳環(huán)、項(xiàng)鏈和戒指;配件家族則包括包包、腰帶、帽子、普通眼鏡、太陽鏡和領(lǐng)帶。每個類別都有針對性的優(yōu)化策略,確保不同類型物品都能獲得最佳的試穿效果。
為了驗(yàn)證OmniTry的效果,研究團(tuán)隊構(gòu)建了一個全面的評估體系。他們創(chuàng)建了包含360對測試樣本的基準(zhǔn)數(shù)據(jù)集,這些樣本不僅包括專業(yè)的商品圖片,還包括各種真實(shí)場景下的照片。評估指標(biāo)從三個維度全面考察系統(tǒng)性能:物品一致性(試穿后的物品是否保持原有特征)、人物保真度(人物的原有特征是否得到保護(hù))和位置準(zhǔn)確性(物品是否被放置在正確的位置上)。
實(shí)驗(yàn)結(jié)果顯示,OmniTry在所有關(guān)鍵指標(biāo)上都顯著超越了現(xiàn)有技術(shù)。在物品一致性方面,OmniTry的得分達(dá)到了0.616(DINO指標(biāo))和0.833(CLIP指標(biāo)),大幅領(lǐng)先于其他方法。在人物保真度方面,OmniTry的LPIPS得分僅為0.054,遠(yuǎn)低于競爭對手,這意味著試穿后的人物圖像與原始圖像幾乎沒有不必要的變化。在位置準(zhǔn)確性方面,OmniTry達(dá)到了99.72%的準(zhǔn)確率,幾乎可以完美地將物品放置在正確位置。
研究團(tuán)隊還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),驗(yàn)證了每個技術(shù)組件的重要性。結(jié)果顯示,無痕移除技術(shù)將性能提升了約8%,雙階段訓(xùn)練策略帶來了顯著的效率提升,而雙流適配器設(shè)計則確保了系統(tǒng)在處理不同類型物品時的穩(wěn)定性能。
特別值得關(guān)注的是OmniTry的少樣本學(xué)習(xí)能力。實(shí)驗(yàn)表明,對于數(shù)據(jù)稀缺的物品類別,OmniTry僅需要每類1-5個訓(xùn)練樣本就能達(dá)到令人滿意的效果。這種能力來源于第一階段的廣泛預(yù)訓(xùn)練,就像是一個經(jīng)驗(yàn)豐富的造型師,即使面對陌生的配飾也能快速掌握其佩戴規(guī)律。
研究團(tuán)隊還展示了OmniTry在處理"非常規(guī)"可穿戴物品方面的能力。除了傳統(tǒng)的服裝配飾,系統(tǒng)還能夠處理手套、耳機(jī)、手表、發(fā)帶甚至?xí)镜?可持有"物品。這種擴(kuò)展能力證明了OmniTry技術(shù)框架的通用性和可擴(kuò)展性。
從技術(shù)實(shí)現(xiàn)角度來看,OmniTry的訓(xùn)練過程高度優(yōu)化。第一階段使用4張H800 GPU訓(xùn)練5萬步,第二階段訓(xùn)練2.5萬步,整個過程在合理的計算資源消耗下就能完成。這種效率得益于巧妙的模型設(shè)計和訓(xùn)練策略,使得該技術(shù)具備了產(chǎn)業(yè)化應(yīng)用的可行性。
在與現(xiàn)有技術(shù)的對比中,OmniTry的優(yōu)勢十分明顯。傳統(tǒng)的基于掩碼的方法雖然在服裝試穿方面表現(xiàn)不錯,但需要用戶手動標(biāo)注試穿區(qū)域,操作復(fù)雜且容易出錯。一些無掩碼的通用圖像生成方法雖然操作簡單,但往往無法準(zhǔn)確保持物品特征或正確定位試穿位置。OmniTry成功地結(jié)合了兩者的優(yōu)點(diǎn),既保持了操作的簡便性,又確保了結(jié)果的準(zhǔn)確性。
研究團(tuán)隊特別強(qiáng)調(diào)了"無痕移除"技術(shù)的重要性。傳統(tǒng)的物品移除方法會在圖像中留下細(xì)微但可檢測的痕跡,導(dǎo)致AI系統(tǒng)學(xué)會依賴這些痕跡而非真正的語義理解來工作。當(dāng)這些系統(tǒng)面對真實(shí)的、沒有經(jīng)過處理的用戶照片時,往往會失效。無痕移除技術(shù)通過消除這些人工痕跡,迫使AI系統(tǒng)學(xué)習(xí)真正的物品佩戴規(guī)律,從而在實(shí)際應(yīng)用中表現(xiàn)出色。
OmniTry的應(yīng)用前景極其廣闊。在電商領(lǐng)域,它可以為每個商品自動生成個性化的試穿效果圖,大大降低退貨率并提升用戶購物體驗(yàn)。在社交媒體領(lǐng)域,用戶可以輕松嘗試各種搭配風(fēng)格,激發(fā)創(chuàng)意靈感。在時尚設(shè)計領(lǐng)域,設(shè)計師可以快速預(yù)覽設(shè)計作品的實(shí)際效果,加速產(chǎn)品開發(fā)周期。在個人形象咨詢領(lǐng)域,專業(yè)顧問可以為客戶提供更直觀、更個性化的搭配建議。
當(dāng)然,這項(xiàng)技術(shù)也面臨一些挑戰(zhàn)和限制。對于形狀變化特別大的物品(如大型背包),系統(tǒng)的處理效果還有改進(jìn)空間。對于極度復(fù)雜的紋理或特殊材質(zhì),保真度有時可能不夠完美。此外,系統(tǒng)目前主要針對正面或半側(cè)面的人物照片進(jìn)行了優(yōu)化,對于其他角度的處理能力還需要進(jìn)一步提升。
研究團(tuán)隊已經(jīng)意識到這些局限性,并在論文中坦誠地討論了未來的改進(jìn)方向。他們計劃擴(kuò)大訓(xùn)練數(shù)據(jù)的規(guī)模和多樣性,特別是增加更多角度和更多物品類型的樣本。同時,他們也在探索更先進(jìn)的物品變形和材質(zhì)渲染技術(shù),以進(jìn)一步提升系統(tǒng)的表現(xiàn)力。
從技術(shù)發(fā)展趨勢來看,OmniTry代表了AI技術(shù)從"專用工具"向"通用平臺"演進(jìn)的重要一步。過去,每種應(yīng)用都需要專門的AI系統(tǒng),現(xiàn)在,通過巧妙的架構(gòu)設(shè)計和訓(xùn)練策略,單一系統(tǒng)就能處理多種不同的任務(wù)。這種統(tǒng)一化的趨勢不僅提高了技術(shù)效率,也降低了開發(fā)和部署成本。
說到底,OmniTry的意義遠(yuǎn)不止是一個技術(shù)演示。它展示了AI技術(shù)如何真正走進(jìn)普通人的生活,解決實(shí)實(shí)在在的日常問題。過去,虛擬試穿是專業(yè)設(shè)計師和大型電商平臺的特權(quán),現(xiàn)在,任何人都可以享受這種便利。這種技術(shù)的民主化進(jìn)程正在改變我們與數(shù)字世界交互的方式,讓高科技不再高冷,而是變得親切可及。
歸根結(jié)底,昆字節(jié)AI團(tuán)隊的這項(xiàng)研究不僅僅是技術(shù)上的突破,更是對用戶體驗(yàn)的深度思考。他們沒有滿足于構(gòu)建一個功能強(qiáng)大但復(fù)雜難用的系統(tǒng),而是致力于創(chuàng)造一個既強(qiáng)大又簡單的工具。正如他們在論文中所說的那樣,真正的技術(shù)進(jìn)步應(yīng)該讓復(fù)雜的事情變得簡單,讓專業(yè)的能力變得普及。OmniTry正是這種理念的完美體現(xiàn),它預(yù)示著一個更加智能、更加便民的數(shù)字化未來正在到來。
Q&A
Q1:OmniTry和傳統(tǒng)的虛擬試穿技術(shù)有什么不同?
A:傳統(tǒng)技術(shù)需要用戶手動標(biāo)出要替換的區(qū)域,操作復(fù)雜。而OmniTry只需要一張人物照片和物品圖片,就能自動識別合適位置進(jìn)行試穿,完全不需要用戶做任何標(biāo)記,就像有了一個智能助手幫你完成所有復(fù)雜操作。
Q2:OmniTry能試穿哪些類型的物品?
A:OmniTry支持12大類可穿戴物品,包括各種服裝(上衣、下裝、連衣裙)、鞋子、珠寶首飾(耳環(huán)、項(xiàng)鏈、手鐲、戒指)、以及各種配飾(包包、帽子、眼鏡、太陽鏡、腰帶、領(lǐng)帶等),甚至還能處理手表、手套等特殊物品。
Q3:普通人如何使用OmniTry技術(shù)?
A:目前可以通過昆字節(jié)AI公司的官方項(xiàng)目頁面https://omnitry.github.io/體驗(yàn)相關(guān)技術(shù)。研究團(tuán)隊已經(jīng)公開了代碼和演示,未來這項(xiàng)技術(shù)有望集成到各種購物應(yīng)用和社交平臺中,讓更多人輕松享受虛擬試穿服務(wù)。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。