這項由香港大學(xué)的楊云涵、劉希輝等研究者與哈爾濱工業(yè)大學(xué)、浙江大學(xué)、VAST公司聯(lián)合開展的研究發(fā)表于2025年7月,論文標(biāo)題為"OmniPart: Part-Aware 3D Generation with Semantic Decoupling and Structural Cohesion"。有興趣深入了解的讀者可以通過論文項目頁面https://omnipart.github.io/訪問完整內(nèi)容。
當(dāng)我們看到一個機(jī)器人玩具時,大腦會自動將它分解為頭部、身體、手臂、腿部等不同部分。這種"零件思維"讓我們能夠輕松理解物體的結(jié)構(gòu),也讓我們能夠想象如何重新組裝或修改這些部分。然而,對于計算機(jī)來說,這種看似簡單的能力一直是個巨大挑戰(zhàn)。
傳統(tǒng)的3D生成技術(shù)就像是用一整塊橡皮泥捏出一個雕塑,雖然外觀不錯,但內(nèi)部結(jié)構(gòu)是混亂的,無法分離出有意義的部分。如果你想給這個3D機(jī)器人換個帽子或者調(diào)整手臂的位置,就像試圖從一塊已經(jīng)混合好的面團(tuán)中取出特定的面粉一樣困難。這種限制嚴(yán)重阻礙了3D內(nèi)容在游戲、動畫、虛擬現(xiàn)實等領(lǐng)域的應(yīng)用。
這個研究團(tuán)隊提出了一個名為OmniPart的創(chuàng)新框架,讓計算機(jī)學(xué)會了像人類一樣思考3D物體的結(jié)構(gòu)。這個系統(tǒng)能夠從一張普通的2D圖片出發(fā),不僅生成高質(zhì)量的3D模型,還能自動將其分解為語義明確、結(jié)構(gòu)合理的各個部分。更重要的是,用戶可以通過簡單的2D遮罩來控制這個分解過程,就像在照片上用不同顏色標(biāo)記出你想要分離的部分一樣直觀。
一、智能規(guī)劃:讓計算機(jī)學(xué)會"看圖識部件"
OmniPart的工作原理可以用裝配家具來類比。當(dāng)你拿到一套宜家家具的安裝說明書時,第一步總是查看零件清單,了解需要哪些部件以及它們的大致位置。OmniPart的第一個核心模塊就扮演著這樣的角色,它被稱為"可控結(jié)構(gòu)規(guī)劃"模塊。
這個模塊的工作方式非常巧妙。研究團(tuán)隊讓它學(xué)會了一種特殊的"語言",這種語言不是用文字,而是用3D邊界框來表達(dá)。每個邊界框就像是一個透明的盒子,圈出一個特定零件應(yīng)該占據(jù)的空間范圍。比如,如果要生成一個機(jī)器人,系統(tǒng)會先預(yù)測出頭部、軀干、手臂、腿部等各個部分的大致位置和大小。
這個過程使用了一種叫做"自回歸生成"的技術(shù)。簡單來說,就是讓計算機(jī)像寫故事一樣,一個接一個地生成這些邊界框。它會先決定第一個部件的位置,然后基于這個信息決定第二個部件的位置,以此類推。這種方法的好處是可以處理不同復(fù)雜程度的物體,有些物體可能只需要3-5個部件,而復(fù)雜的物體可能需要幾十個部件。
更令人印象深刻的是,這個系統(tǒng)支持用戶控制。用戶可以在輸入的2D圖像上用不同顏色標(biāo)記出希望分離的部分,就像用彩色筆在草圖上涂色一樣。系統(tǒng)會理解這些標(biāo)記,并據(jù)此調(diào)整3D分解的策略。這種控制方式不需要用戶具備專業(yè)的3D建模知識,任何人都可以通過直觀的2D操作來影響3D結(jié)果。
為了確保生成的邊界框能夠完整覆蓋對應(yīng)的物體部分,研究團(tuán)隊還引入了一個"部件覆蓋損失"的技術(shù)。這就像是在裝配過程中反復(fù)檢查每個零件是否都被正確的包裝盒包含,如果發(fā)現(xiàn)有零件露在外面,系統(tǒng)會自動調(diào)整盒子的大小以確保完整覆蓋。
二、精準(zhǔn)合成:同時生成所有零件的藝術(shù)
有了詳細(xì)的零件清單和位置規(guī)劃,接下來就是實際制造這些零件。這就是OmniPart第二個核心模塊的任務(wù):空間條件化零件合成。這個過程就像是一個擁有多條生產(chǎn)線的智能工廠,能夠同時制造所有需要的零件,并確保它們完美契合。
這個合成過程建立在一個名為TRELLIS的先進(jìn)3D生成系統(tǒng)之上。TRELLIS使用了一種叫做"結(jié)構(gòu)化潛在表示"的技術(shù),可以將3D物體編碼為一組稀疏的體素點,每個體素點都攜帶著局部的幾何和外觀信息。研究團(tuán)隊巧妙地利用了這個特性,將第一階段預(yù)測的邊界框轉(zhuǎn)化為體素初始化的指導(dǎo)。
在這個過程中,系統(tǒng)面臨一個重要挑戰(zhàn):如何讓所有零件保持整體的一致性。這就像是要求多個廚師同時制作一道菜的不同部分,既要保證每個部分的質(zhì)量,又要確保它們能夠完美組合。研究團(tuán)隊的解決方案是引入"零件位置嵌入"技術(shù)。系統(tǒng)會給每個零件分配一個特殊的標(biāo)識符,讓生成網(wǎng)絡(luò)知道當(dāng)前正在處理的是哪個部分,以及它與整體的關(guān)系。
更加創(chuàng)新的是,系統(tǒng)還采用了"體素丟棄機(jī)制"來處理邊界重疊的問題。在現(xiàn)實中,相鄰零件的邊界往往會有重疊,比如機(jī)器人手臂和軀干的連接處。系統(tǒng)會自動識別這些重疊區(qū)域,并決定每個體素真正屬于哪個零件。這個過程就像是在拼圖時自動修整邊緣,確保每個拼塊都能完美契合。
整個合成過程使用了一種叫做"整流流"的先進(jìn)生成技術(shù)。這種技術(shù)可以被理解為一個精密的雕刻過程,從粗糙的噪聲開始,逐步細(xì)化直到得到精確的3D幾何形狀。關(guān)鍵在于,所有零件的雕刻過程是同步進(jìn)行的,系統(tǒng)會不斷協(xié)調(diào)各個零件之間的關(guān)系,確保最終結(jié)果的一致性。
三、數(shù)據(jù)構(gòu)建:打造AI的"零件字典"
為了訓(xùn)練這樣一個復(fù)雜的系統(tǒng),研究團(tuán)隊需要構(gòu)建一個龐大的訓(xùn)練數(shù)據(jù)集。這個過程就像是為AI編寫一本詳盡的"零件字典",讓它學(xué)會識別和理解各種物體的部件結(jié)構(gòu)。
研究團(tuán)隊收集了18萬個帶有零件標(biāo)注的3D物體。這些物體涵蓋了從簡單的家具到復(fù)雜的機(jī)器人等各種類別。每個物體都被仔細(xì)標(biāo)注了其組成部件,包括每個部件的邊界、語義類別和空間關(guān)系。這個過程需要大量的人工工作,就像是要為每個物體編寫詳細(xì)的零件說明書。
為了確保訓(xùn)練質(zhì)量,研究團(tuán)隊還設(shè)計了一個評分系統(tǒng)來評估標(biāo)注質(zhì)量。他們從18萬個物體中選出了1.5萬個高質(zhì)量樣本作為核心訓(xùn)練數(shù)據(jù)。這些樣本的零件數(shù)量分布很廣,從簡單的2-3個部件到復(fù)雜的幾十個部件都有涵蓋。
在數(shù)據(jù)預(yù)處理階段,系統(tǒng)會為每個零件渲染150個不同角度的視圖,然后使用先進(jìn)的視覺編碼器提取特征。這個過程就像是為每個零件拍攝全方位的照片,讓AI能夠從各個角度理解零件的外觀和結(jié)構(gòu)。
四、實驗驗證:全面測試系統(tǒng)性能
為了驗證OmniPart的有效性,研究團(tuán)隊設(shè)計了一系列全面的實驗。他們構(gòu)建了一個包含300個測試物體的評估數(shù)據(jù)集,這些物體按照零件數(shù)量分為四個組別:0-5個零件、6-10個零件、11-15個零件和16-50個零件。
在邊界框生成的評估中,研究團(tuán)隊使用了三個關(guān)鍵指標(biāo):邊界框IoU(衡量預(yù)測邊界框與真實邊界框的重疊程度)、體素召回率(衡量預(yù)測邊界框覆蓋有效零件體素的比例)和體素IoU(衡量整體體素級別的重疊程度)。實驗結(jié)果顯示,OmniPart在所有指標(biāo)上都顯著優(yōu)于現(xiàn)有方法。特別是在體素召回率方面,OmniPart達(dá)到了85.96%,遠(yuǎn)超基線方法的79.12%。
在完整的零件感知3D生成評估中,研究團(tuán)隊將OmniPart與多個現(xiàn)有方法進(jìn)行了對比。這些方法包括基于分割的方法(如TRELLIS+SAM3D)、基于重建的方法(如TRELLIS+PartField+HoloPart)以及直接生成方法(如Part123和PartGen)。評估使用了零件級別和整體物體級別的幾何質(zhì)量指標(biāo),包括倒角距離和F1分?jǐn)?shù)。
結(jié)果表明,OmniPart在所有評估指標(biāo)上都取得了最佳性能。在零件級別的倒角距離方面,OmniPart達(dá)到了0.18,明顯優(yōu)于其他方法。在整體物體級別,OmniPart也表現(xiàn)出了優(yōu)異的性能,證明了其生成的零件不僅質(zhì)量高,而且能夠很好地組合成完整的物體。
效率方面的測試也顯示出OmniPart的優(yōu)勢。從單張圖像生成零件級3D輸出,OmniPart只需要約0.75分鐘,而Part123需要約15分鐘,PartGen需要約5分鐘。這種效率提升主要來自于OmniPart的統(tǒng)一主干設(shè)計,能夠同時生成所有零件,并支持直接解碼為網(wǎng)格、3D高斯點云或NeRF表示。
五、實際應(yīng)用:開啟3D內(nèi)容創(chuàng)作新紀(jì)元
OmniPart的成功不僅在于其技術(shù)創(chuàng)新,更在于其廣泛的應(yīng)用前景。這個系統(tǒng)為3D內(nèi)容創(chuàng)作開辟了許多新的可能性,讓普通用戶也能輕松進(jìn)行復(fù)雜的3D編輯和定制。
在遮罩控制生成方面,用戶可以通過簡單的2D遮罩來控制3D零件的結(jié)構(gòu)。這個過程就像是在紙上畫草圖,然后讓計算機(jī)自動將其轉(zhuǎn)換為精確的3D模型。研究團(tuán)隊設(shè)計了一個高效的流程,用戶可以通過合并SAM生成的過分割區(qū)域來獲得準(zhǔn)確的2D遮罩。
多粒度生成是另一個重要應(yīng)用。通過控制2D分割遮罩的粒度,用戶可以生成不同復(fù)雜程度的3D零件。比如,對于同一個機(jī)器人,用戶可以選擇生成粗粒度的"頭部、軀干、四肢"三個部分,也可以選擇生成細(xì)粒度的"眼部、嘴部、帽子、衣服、手掌、腳部"等十幾個部分。這種靈活性讓系統(tǒng)能夠適應(yīng)不同的應(yīng)用需求。
材質(zhì)編輯功能讓用戶可以為每個零件單獨分配材質(zhì)屬性。這就像是為每個零件準(zhǔn)備不同的"衣服",比如可以給機(jī)器人的帽子換成不同的顏色或材質(zhì),給衣服添加不同的圖案。這種零件級別的材質(zhì)控制為3D內(nèi)容的個性化定制提供了強(qiáng)大的支持。
幾何處理方面,OmniPart生成的零件感知3D對象使得幾何處理變得更加便捷和有效。比如,在網(wǎng)格重構(gòu)過程中,系統(tǒng)可以為每個零件單獨處理,避免了傳統(tǒng)方法在零件邊界處產(chǎn)生的人工痕跡。這種處理方式不僅提高了處理質(zhì)量,還大大簡化了工作流程。
動畫支持是OmniPart的另一個重要應(yīng)用。由于每個零件都是獨立生成的,動畫師可以輕松地為每個零件設(shè)置不同的動畫參數(shù)。比如,可以讓機(jī)器人的手臂獨立旋轉(zhuǎn),讓頭部獨立點頭,這種精細(xì)的控制能力為動畫制作提供了極大的便利。
研究團(tuán)隊還展示了OmniPart在實際項目中的應(yīng)用效果。他們使用系統(tǒng)生成了各種復(fù)雜的3D對象,包括機(jī)器人、車輛、家具、動物等。這些生成的對象不僅具有高質(zhì)量的視覺效果,還能支持各種后續(xù)的編輯和處理操作。
六、技術(shù)創(chuàng)新與突破
OmniPart在技術(shù)層面實現(xiàn)了多個重要突破。首先是兩階段解耦設(shè)計的創(chuàng)新。傳統(tǒng)方法通常將零件規(guī)劃和零件生成混合在一起,導(dǎo)致控制困難和質(zhì)量不穩(wěn)定。OmniPart將這兩個過程完全分離,先進(jìn)行結(jié)構(gòu)規(guī)劃,再進(jìn)行幾何生成,這種設(shè)計不僅提高了控制性,還顯著改善了生成質(zhì)量。
自回歸邊界框生成是另一個技術(shù)亮點。這種方法能夠處理可變數(shù)量的零件,不需要預(yù)先指定零件數(shù)量。系統(tǒng)會根據(jù)輸入的復(fù)雜程度自動決定生成多少個零件,這種自適應(yīng)能力讓系統(tǒng)能夠處理從簡單到復(fù)雜的各種對象。
空間條件化合成技術(shù)實現(xiàn)了所有零件的同步生成。這種方法避免了傳統(tǒng)逐個生成方法可能產(chǎn)生的不一致性問題,確保所有零件能夠完美組合。同時,這種同步生成方式也大大提高了生成效率。
體素丟棄機(jī)制是解決邊界重疊問題的創(chuàng)新方案。這個機(jī)制能夠自動識別和處理零件邊界處的重疊體素,確保每個體素都被正確分配給對應(yīng)的零件。這種處理方式不僅提高了分割精度,還減少了后續(xù)處理的復(fù)雜度。
零件位置嵌入技術(shù)讓系統(tǒng)能夠理解零件之間的空間關(guān)系。這種嵌入方式不僅幫助系統(tǒng)區(qū)分不同的零件,還讓生成過程能夠考慮零件之間的相互影響,從而提高整體的一致性。
七、實驗分析與性能評估
研究團(tuán)隊進(jìn)行了詳盡的消融實驗來驗證每個技術(shù)組件的有效性。在邊界框生成的消融實驗中,他們發(fā)現(xiàn)覆蓋損失的引入顯著提高了體素召回率和IoU。雖然沒有覆蓋損失的模型在邊界框IoU方面表現(xiàn)更好(41.24% vs 38.37%),但這種"更準(zhǔn)確"的邊界框?qū)嶋H上覆蓋了更少的有效零件體素,這會負(fù)面影響第二階段的性能。
2D遮罩輸入的重要性也得到了驗證。沒有2D遮罩輸入的模型在所有指標(biāo)上都表現(xiàn)較差,特別是在體素召回率方面只達(dá)到了66.98%,遠(yuǎn)低于完整模型的85.96%。這說明2D遮罩不僅提供了用戶控制能力,還顯著提高了系統(tǒng)的性能。
在完整系統(tǒng)的性能評估中,OmniPart在零件級別的幾何質(zhì)量方面表現(xiàn)出色。倒角距離達(dá)到了0.18,F(xiàn)1-0.1分?jǐn)?shù)達(dá)到了0.74,F(xiàn)1-0.05分?jǐn)?shù)達(dá)到了0.59,這些指標(biāo)都明顯優(yōu)于現(xiàn)有方法。更重要的是,OmniPart生成的零件能夠很好地組合成完整的物體,整體物體級別的性能也達(dá)到了最佳水平。
質(zhì)量分析顯示,OmniPart生成的零件具有低語義耦合和高結(jié)構(gòu)內(nèi)聚的特點。每個零件都是語義上獨立的,可以單獨進(jìn)行編輯和處理,同時所有零件組合起來又形成了結(jié)構(gòu)合理的完整物體。這種平衡是零件感知3D生成的關(guān)鍵要求。
與現(xiàn)有方法的對比顯示,基于分割的方法只能產(chǎn)生表面級別的遮罩,無法恢復(fù)完整的零件幾何。基于補(bǔ)全的方法雖然能夠生成完整的零件,但受限于初始分割的質(zhì)量。直接生成方法能夠生成完整的零件,但往往幾何保真度和語義合理性較差。OmniPart通過其兩階段設(shè)計和精心的技術(shù)組合,在所有這些方面都取得了最佳平衡。
八、局限性與未來展望
盡管OmniPart取得了顯著成果,但研究團(tuán)隊也誠實地指出了系統(tǒng)的一些局限性。當(dāng)前系統(tǒng)使用軸對齊邊界框來簡化第一階段的訓(xùn)練,這在某些情況下可能導(dǎo)致過多的噪聲體素被傳遞到第二階段。研究團(tuán)隊認(rèn)為,探索更精確的結(jié)構(gòu)規(guī)劃表示是未來工作的一個重要方向。
在數(shù)據(jù)需求方面,雖然OmniPart有效利用了預(yù)訓(xùn)練的整體3D生成模型,但仍然需要一定量的零件級別標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)。如何進(jìn)一步減少對標(biāo)注數(shù)據(jù)的依賴,或者開發(fā)更有效的弱監(jiān)督學(xué)習(xí)方法,是值得探索的研究方向。
計算效率方面,雖然OmniPart已經(jīng)比現(xiàn)有方法快得多,但對于實時應(yīng)用來說仍有優(yōu)化空間。特別是在移動設(shè)備或邊緣計算環(huán)境中的部署,可能需要進(jìn)一步的模型壓縮和優(yōu)化。
在應(yīng)用擴(kuò)展方面,當(dāng)前系統(tǒng)主要針對剛性物體的零件分解,對于變形物體或流體等更復(fù)雜的幾何形式的處理還有待探索。同時,如何將系統(tǒng)擴(kuò)展到更大規(guī)模的場景生成,也是一個有趣的研究方向。
用戶交互方面,雖然2D遮罩提供了直觀的控制方式,但對于更復(fù)雜的編輯需求,可能需要開發(fā)更豐富的交互界面。比如,支持3D空間中的直接操作,或者提供更高級的語義控制選項。
九、技術(shù)影響與產(chǎn)業(yè)前景
OmniPart的成功不僅代表了學(xué)術(shù)研究的突破,更預(yù)示著3D內(nèi)容創(chuàng)作產(chǎn)業(yè)的重要變革。這項技術(shù)的應(yīng)用前景非常廣闊,涵蓋了從娛樂媒體到工業(yè)設(shè)計的多個領(lǐng)域。
在游戲開發(fā)領(lǐng)域,OmniPart可以大大簡化3D資產(chǎn)的創(chuàng)作流程。游戲開發(fā)者可以快速生成具有清晰零件結(jié)構(gòu)的3D模型,然后針對每個零件進(jìn)行個性化的材質(zhì)和動畫設(shè)置。這種工作流程不僅提高了效率,還為游戲的個性化定制提供了更多可能性。
動畫制作行業(yè)也將從這項技術(shù)中受益。傳統(tǒng)的角色建模和綁定過程通常需要大量的手工工作,而OmniPart可以自動生成具有合理零件結(jié)構(gòu)的3D角色,為后續(xù)的綁定和動畫制作奠定良好基礎(chǔ)。
在虛擬現(xiàn)實和增強(qiáng)現(xiàn)實應(yīng)用中,OmniPart生成的零件感知3D對象能夠支持更自然的交互體驗。用戶可以在虛擬環(huán)境中直接操作物體的各個部分,這種精細(xì)的交互能力為沉浸式體驗提供了重要支撐。
工業(yè)設(shè)計領(lǐng)域也是OmniPart的重要應(yīng)用場景。設(shè)計師可以使用這個系統(tǒng)快速生成產(chǎn)品的初始設(shè)計,然后針對每個零件進(jìn)行詳細(xì)的工程分析和優(yōu)化。這種設(shè)計流程能夠顯著縮短產(chǎn)品開發(fā)周期。
電子商務(wù)平臺可以利用OmniPart技術(shù)為產(chǎn)品提供更豐富的3D展示。消費者可以查看產(chǎn)品的詳細(xì)零件結(jié)構(gòu),甚至模擬不同配置的組合效果。這種展示方式不僅提高了用戶體驗,還能減少因為產(chǎn)品信息不足導(dǎo)致的退貨。
教育領(lǐng)域也是一個重要的應(yīng)用方向。OmniPart可以用于生成各種教學(xué)用的3D模型,學(xué)生可以通過操作這些模型來學(xué)習(xí)物體的結(jié)構(gòu)和工作原理。這種交互式學(xué)習(xí)方式能夠顯著提高學(xué)習(xí)效果。
研究團(tuán)隊表示,他們正在與多家公司合作,探索OmniPart在實際產(chǎn)品中的應(yīng)用。這些合作不僅有助于技術(shù)的產(chǎn)業(yè)化,還為進(jìn)一步的技術(shù)改進(jìn)提供了寶貴的反饋。
說到底,OmniPart代表了AI技術(shù)在3D內(nèi)容生成領(lǐng)域的一個重要里程碑。它不僅解決了長期存在的技術(shù)難題,還為整個行業(yè)開辟了新的發(fā)展方向。這項技術(shù)讓計算機(jī)第一次真正學(xué)會了像人類一樣思考3D物體的結(jié)構(gòu),這種"零件思維"的獲得將對未來的3D應(yīng)用產(chǎn)生深遠(yuǎn)影響。
隨著技術(shù)的不斷完善和應(yīng)用的深入擴(kuò)展,我們有理由相信,OmniPart將成為下一代3D內(nèi)容創(chuàng)作工具的重要基礎(chǔ)。它不僅會改變專業(yè)創(chuàng)作者的工作方式,還會讓普通用戶也能輕松創(chuàng)作出專業(yè)級的3D內(nèi)容。這種技術(shù)的普及化將真正實現(xiàn)"人人都是3D創(chuàng)作者"的愿景。
對于有興趣進(jìn)一步了解這項技術(shù)的讀者,可以訪問研究團(tuán)隊的項目頁面https://omnipart.github.io/,那里提供了更多的技術(shù)細(xì)節(jié)、演示視頻和代碼資源。這項研究的成功也提醒我們,AI技術(shù)的發(fā)展不僅在于算法的創(chuàng)新,更在于對人類認(rèn)知過程的深入理解和巧妙模擬。
Q&A
Q1:OmniPart是什么?它能做什么? A:OmniPart是香港大學(xué)團(tuán)隊開發(fā)的AI系統(tǒng),能夠從單張2D圖片生成具有清晰零件結(jié)構(gòu)的3D模型。它的核心能力是像人類一樣"分解"3D物體,將復(fù)雜對象自動分解為語義明確的各個部分,比如將機(jī)器人分解為頭部、軀干、手臂等,每個部分都可以獨立編輯和處理。
Q2:OmniPart會不會取代傳統(tǒng)的3D建模工作? A:不會完全取代,但會大大改變3D創(chuàng)作方式。OmniPart更像是一個智能助手,能夠快速生成具有合理零件結(jié)構(gòu)的3D模型初稿,然后專業(yè)建模師可以基于這個基礎(chǔ)進(jìn)行精細(xì)化設(shè)計。它讓3D創(chuàng)作變得更高效,也讓普通用戶能夠參與到3D內(nèi)容創(chuàng)作中來。
Q3:普通用戶如何使用OmniPart?有什么技術(shù)要求? A:用戶只需要提供一張2D圖片和簡單的顏色遮罩(類似用彩色筆標(biāo)記想要分離的部分),系統(tǒng)就能自動生成對應(yīng)的3D零件。整個過程不需要專業(yè)的3D建模知識,就像在照片上涂顏色一樣直觀。目前系統(tǒng)還在研究階段,但研究團(tuán)隊已經(jīng)開源了相關(guān)代碼,未來有望開發(fā)成用戶友好的產(chǎn)品。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。