這項(xiàng)由香港科技大學(xué)的董少聰、許丹教授團(tuán)隊(duì)聯(lián)合中文大學(xué)、商湯科技和上海AI實(shí)驗(yàn)室共同完成的研究發(fā)表于2025年7月,論文標(biāo)題為"From One to More: Contextual Part Latents for 3D Generation"。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)arXiv:2507.08772v1訪問(wèn)完整論文。
當(dāng)我們走進(jìn)任何一個(gè)3D設(shè)計(jì)工作室,都會(huì)看到設(shè)計(jì)師們專(zhuān)注地在電腦屏幕前工作著。他們創(chuàng)造一個(gè)復(fù)雜的3D模型時(shí),從不會(huì)一下子就捏出整個(gè)物體,而是像搭積木一樣,先做出頭部,再做身體,然后是四肢,最后把所有部分組裝起來(lái)。這種"化整為零"的創(chuàng)作方式不僅讓設(shè)計(jì)師能夠精雕細(xì)琢每個(gè)細(xì)節(jié),還能隨時(shí)調(diào)整和修改單個(gè)部分。
然而,當(dāng)前的AI 3D生成技術(shù)卻像是一個(gè)"急性子"的學(xué)徒,總想一口氣把整個(gè)3D物體"吐"出來(lái)。這種做法就像試圖一筆畫(huà)完整幅畫(huà)一樣,結(jié)果往往是整體看起來(lái)還行,但細(xì)節(jié)模糊不清。特別是當(dāng)需要生成復(fù)雜物體時(shí),比如一個(gè)穿著全套裝備的消防員,AI經(jīng)常會(huì)把頭盔和頭部融合在一起,或者把工具和身體搞混,產(chǎn)生一團(tuán)模糊的東西。
面對(duì)這個(gè)問(wèn)題,香港科技大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)革命性的解決方案:讓AI也學(xué)會(huì)像人類(lèi)設(shè)計(jì)師一樣"分部件"工作。他們開(kāi)發(fā)了一個(gè)名為CoPart的系統(tǒng),這個(gè)名字來(lái)自"Contextual Part"(上下文部件)的縮寫(xiě)。
一、讓AI學(xué)會(huì)"化整為零"的創(chuàng)作哲學(xué)
傳統(tǒng)的AI 3D生成系統(tǒng)就像一個(gè)只會(huì)畫(huà)簡(jiǎn)筆畫(huà)的機(jī)器人,無(wú)論你要求它畫(huà)什么,它都用同樣粗細(xì)的筆,同樣的力度,試圖一筆完成。結(jié)果就是簡(jiǎn)單的物體還能湊合,復(fù)雜的物體就變得面目全非。
CoPart的核心創(chuàng)新在于徹底改變了這種"一鍋煮"的思路。它把3D物體的創(chuàng)建過(guò)程分解成了多個(gè)獨(dú)立但相互關(guān)聯(lián)的"部件生成"任務(wù)。就像一個(gè)經(jīng)驗(yàn)豐富的廚師準(zhǔn)備一道復(fù)雜菜肴時(shí),會(huì)分別處理不同的食材,最后巧妙地組合在一起,產(chǎn)生完美的味覺(jué)體驗(yàn)。
這種方法的巧妙之處在于,每個(gè)部件都能得到AI的"專(zhuān)門(mén)關(guān)照"。當(dāng)AI專(zhuān)注于生成一個(gè)消防員的頭盔時(shí),它不需要同時(shí)考慮身體、工具和其他復(fù)雜因素,可以把全部"注意力"都投入到頭盔的形狀、材質(zhì)和細(xì)節(jié)上。這樣生成出來(lái)的頭盔不僅外觀精美,而且具有獨(dú)立的語(yǔ)義意義——它就是一個(gè)頭盔,而不是某個(gè)模糊物體的一部分。
更重要的是,CoPart引入了一個(gè)"上下文關(guān)聯(lián)"的概念。雖然每個(gè)部件是獨(dú)立生成的,但它們之間并不是完全孤立的。就像交響樂(lè)團(tuán)中的每個(gè)樂(lè)器都有自己的旋律,但所有旋律都圍繞著同一個(gè)主題展開(kāi)。AI在生成頭盔時(shí),會(huì)"感知"到這個(gè)頭盔需要和消防員的制服、工具等其他部件協(xié)調(diào)一致,確保整體的和諧統(tǒng)一。
二、雙重編碼:讓AI同時(shí)"看得見(jiàn)"和"摸得著"
CoPart的另一個(gè)核心創(chuàng)新是采用了"雙重編碼"的策略。如果說(shuō)傳統(tǒng)AI只會(huì)用一種"語(yǔ)言"來(lái)描述3D物體,那么CoPart就像一個(gè)精通多種語(yǔ)言的翻譯官,能夠同時(shí)用兩種不同的"方言"來(lái)理解和生成3D內(nèi)容。
第一種"語(yǔ)言"是幾何語(yǔ)言。AI通過(guò)這種語(yǔ)言理解物體的三維形狀、尺寸和空間關(guān)系。它就像一個(gè)精確的工程制圖員,能夠準(zhǔn)確把握每個(gè)部件的長(zhǎng)寬高、曲面形狀和空間位置。當(dāng)AI用這種語(yǔ)言描述一個(gè)消防員的頭盔時(shí),它關(guān)注的是頭盔的圓弧度、厚度、以及與頭部的配合關(guān)系。
第二種"語(yǔ)言"是圖像語(yǔ)言。AI通過(guò)這種語(yǔ)言理解物體的外觀、顏色、材質(zhì)和紋理。它就像一個(gè)敏銳的攝影師,能夠捕捉到每個(gè)部件的視覺(jué)特征。當(dāng)AI用這種語(yǔ)言描述同一個(gè)頭盔時(shí),它關(guān)注的是頭盔的光澤度、顏色深淺、表面紋理和反光效果。
這兩種"語(yǔ)言"的結(jié)合產(chǎn)生了神奇的效果。幾何語(yǔ)言確保了生成的部件在三維空間中是合理的,不會(huì)出現(xiàn)物理上不可能的形狀。圖像語(yǔ)言則確保了部件在視覺(jué)上是令人信服的,具有逼真的外觀和材質(zhì)感。
更巧妙的是,CoPart利用了已經(jīng)訓(xùn)練好的專(zhuān)業(yè)AI模型。對(duì)于幾何語(yǔ)言,它借用了專(zhuān)門(mén)處理3D幾何的AI模型的"大腦"。對(duì)于圖像語(yǔ)言,它則借用了專(zhuān)門(mén)處理2D圖像的AI模型的"眼睛"。這種做法就像讓一個(gè)建筑師和一個(gè)畫(huà)家合作完成同一個(gè)項(xiàng)目,建筑師負(fù)責(zé)確保結(jié)構(gòu)的合理性,畫(huà)家負(fù)責(zé)確保外觀的美觀性。
三、"相互指導(dǎo)"機(jī)制:讓部件之間學(xué)會(huì)協(xié)作
想象一下,如果讓幾個(gè)完全不認(rèn)識(shí)的人分別制作一套家具的不同部件,最后很可能會(huì)出現(xiàn)桌子太高、椅子太矮、顏色不搭配等問(wèn)題。CoPart面臨的挑戰(zhàn)也是如此:如何讓獨(dú)立生成的各個(gè)部件最終能夠完美配合?
研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)精巧的"相互指導(dǎo)"機(jī)制來(lái)解決這個(gè)問(wèn)題。這個(gè)機(jī)制就像一個(gè)經(jīng)驗(yàn)豐富的項(xiàng)目協(xié)調(diào)員,在整個(gè)創(chuàng)作過(guò)程中不斷地讓各個(gè)部件之間"對(duì)話"和"協(xié)商"。
在技術(shù)層面,這個(gè)機(jī)制包含了兩種類(lèi)型的"對(duì)話"。第一種是"部件間對(duì)話",讓正在生成的每個(gè)部件都能"看到"其他部件的進(jìn)展情況。比如,當(dāng)AI在生成消防員的頭盔時(shí),它能夠感知到制服的顏色風(fēng)格,從而調(diào)整頭盔的設(shè)計(jì),確保兩者在視覺(jué)上協(xié)調(diào)一致。
第二種是"語(yǔ)言間對(duì)話",讓同一個(gè)部件的幾何描述和圖像描述能夠相互影響。這就像讓建筑師和畫(huà)家在工作過(guò)程中不斷交流,建筑師的結(jié)構(gòu)設(shè)計(jì)會(huì)影響畫(huà)家的色彩選擇,畫(huà)家的美學(xué)意見(jiàn)也會(huì)影響建筑師的細(xì)節(jié)調(diào)整。
這種相互指導(dǎo)的過(guò)程是連續(xù)進(jìn)行的。在AI生成3D物體的每一個(gè)步驟中,所有部件都在相互"傾聽(tīng)"和"響應(yīng)"。這確保了最終生成的物體不僅每個(gè)部件都精美細(xì)致,而且整體上具有強(qiáng)烈的一致性和協(xié)調(diào)感。
四、"包圍盒"導(dǎo)航:給AI一個(gè)精確的施工圖
在現(xiàn)實(shí)世界中,建筑師在開(kāi)始施工前會(huì)先畫(huà)出詳細(xì)的平面圖,標(biāo)明每個(gè)房間的位置和大小。CoPart也采用了類(lèi)似的策略,通過(guò)"3D包圍盒"來(lái)指導(dǎo)AI的創(chuàng)作過(guò)程。
這些包圍盒就像一個(gè)個(gè)透明的"容器",告訴AI每個(gè)部件應(yīng)該在什么位置,占據(jù)多大的空間。比如,當(dāng)要生成一個(gè)坐著的人物時(shí),系統(tǒng)會(huì)先設(shè)定一個(gè)包圍盒表示頭部的位置,另一個(gè)包圍盒表示軀干的位置,還有包圍盒表示四肢的位置。AI就像一個(gè)遵循指示的雕塑家,在每個(gè)指定的空間內(nèi)精心創(chuàng)作相應(yīng)的部件。
這種方法的優(yōu)勢(shì)在于提供了精確的空間約束和語(yǔ)義指導(dǎo)??臻g約束確保了各個(gè)部件在三維空間中的位置關(guān)系是合理的,避免了部件重疊或分離的問(wèn)題。語(yǔ)義指導(dǎo)則確保了每個(gè)部件都有明確的意義和功能,不會(huì)出現(xiàn)無(wú)法識(shí)別的奇怪形狀。
更重要的是,包圍盒機(jī)制使得CoPart具有了強(qiáng)大的可控性。用戶(hù)可以通過(guò)調(diào)整包圍盒的位置和大小來(lái)精確控制生成結(jié)果。想要一個(gè)更大的頭部?調(diào)整頭部包圍盒的大小。想要改變手臂的姿勢(shì)?移動(dòng)手臂包圍盒的位置。這種直觀的控制方式讓普通用戶(hù)也能輕松操作。
五、"全局監(jiān)督":確保整體和諧統(tǒng)一
雖然CoPart強(qiáng)調(diào)部件化的創(chuàng)作方式,但研究團(tuán)隊(duì)深知,優(yōu)秀的3D作品不僅需要精美的細(xì)節(jié),更需要整體的和諧統(tǒng)一。為此,他們?cè)O(shè)計(jì)了一個(gè)"全局監(jiān)督"機(jī)制,就像一個(gè)總指揮,在關(guān)注每個(gè)部件的同時(shí),始終把握著整體的方向。
這個(gè)機(jī)制的工作原理類(lèi)似于一個(gè)經(jīng)驗(yàn)豐富的藝術(shù)總監(jiān)。它不僅要確保每個(gè)演員的表演都很出色,還要確保所有演員的表演風(fēng)格一致,共同營(yíng)造出想要的氛圍。在技術(shù)實(shí)現(xiàn)上,全局監(jiān)督機(jī)制會(huì)同時(shí)生成一個(gè)"全局版本"的3D物體,這個(gè)版本包含了整體的風(fēng)格和特征信息。
各個(gè)部件在生成過(guò)程中會(huì)不斷參考這個(gè)全局版本,確保自己的風(fēng)格和特征與整體保持一致。這就像樂(lè)隊(duì)中的每個(gè)樂(lè)手都會(huì)聽(tīng)著指揮的節(jié)拍,確保自己的演奏與整體節(jié)奏協(xié)調(diào)。
全局監(jiān)督機(jī)制還起到了"質(zhì)量控制"的作用。如果某個(gè)部件的生成過(guò)程出現(xiàn)了偏差,全局監(jiān)督會(huì)及時(shí)發(fā)現(xiàn)并進(jìn)行調(diào)整,防止局部問(wèn)題影響整體效果。這種機(jī)制特別重要,因?yàn)樗_保了CoPart在獲得細(xì)節(jié)優(yōu)勢(shì)的同時(shí),不會(huì)失去整體的協(xié)調(diào)性。
六、突破性的應(yīng)用場(chǎng)景:從編輯到創(chuàng)造
CoPart的部件化設(shè)計(jì)不僅提高了3D生成的質(zhì)量,還開(kāi)啟了許多前所未有的應(yīng)用可能性。這些應(yīng)用就像給3D創(chuàng)作工具安裝了各種功能強(qiáng)大的"插件",讓用戶(hù)能夠?qū)崿F(xiàn)更多創(chuàng)意想法。
部件編輯功能讓用戶(hù)能夠像修改文檔一樣輕松修改3D物體。想要給一個(gè)角色換個(gè)發(fā)型?只需要重新生成頭發(fā)部件,其他部分保持不變。想要給一把武器換個(gè)顏色?只需要調(diào)整武器部件的材質(zhì)設(shè)置。這種精確的編輯能力在傳統(tǒng)的整體生成方法中是不可能實(shí)現(xiàn)的。
關(guān)節(jié)物體生成功能讓CoPart能夠創(chuàng)造出可以活動(dòng)的3D模型。通過(guò)結(jié)合專(zhuān)門(mén)的關(guān)節(jié)生成算法,系統(tǒng)能夠創(chuàng)造出具有合理關(guān)節(jié)結(jié)構(gòu)的角色模型。這些模型不僅外觀逼真,還能進(jìn)行各種動(dòng)作,為游戲開(kāi)發(fā)和動(dòng)畫(huà)制作提供了強(qiáng)大的工具。
微型場(chǎng)景生成功能則展示了CoPart的另一個(gè)驚人能力。系統(tǒng)可以把整個(gè)場(chǎng)景中的每個(gè)物體都當(dāng)作一個(gè)"部件"來(lái)處理,生成包含多個(gè)物體的復(fù)雜場(chǎng)景。比如,一個(gè)餐廳場(chǎng)景可能包含桌子、椅子、餐具、食物等多個(gè)物體,每個(gè)物體都是獨(dú)立生成的,但它們?cè)陲L(fēng)格和尺度上完全協(xié)調(diào)一致。
這些應(yīng)用的實(shí)現(xiàn)得益于CoPart的靈活架構(gòu)。由于每個(gè)部件都是獨(dú)立可控的,用戶(hù)可以通過(guò)組合不同的部件來(lái)實(shí)現(xiàn)各種創(chuàng)意想法。這種靈活性就像擁有了一套高質(zhì)量的3D"樂(lè)高積木",用戶(hù)可以根據(jù)自己的需求自由組合搭建。
七、數(shù)據(jù)集建設(shè):為AI準(zhǔn)備"營(yíng)養(yǎng)均衡"的訓(xùn)練餐
要讓AI學(xué)會(huì)像人類(lèi)設(shè)計(jì)師一樣進(jìn)行部件化創(chuàng)作,首先需要給它提供大量的"示例"來(lái)學(xué)習(xí)。然而,現(xiàn)有的3D數(shù)據(jù)集在這方面存在明顯的不足。研究團(tuán)隊(duì)面臨的情況就像想要培養(yǎng)一個(gè)優(yōu)秀的廚師,但手頭只有一些簡(jiǎn)單的食譜和粗糙的食材。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為"PartVerse"的大規(guī)模3D部件數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包含了來(lái)自12000個(gè)物體的91000個(gè)高質(zhì)量部件,涵蓋了175個(gè)不同的類(lèi)別。相比之前最大的部件數(shù)據(jù)集PartNet只有24個(gè)類(lèi)別,PartVerse的豐富程度有了質(zhì)的飛躍。
構(gòu)建這個(gè)數(shù)據(jù)集的過(guò)程就像一個(gè)精心設(shè)計(jì)的"食材準(zhǔn)備"流程。研究團(tuán)隊(duì)首先從大型3D模型庫(kù)Objaverse中選擇了高質(zhì)量的3D模型作為"原材料"。然后,他們開(kāi)發(fā)了一個(gè)智能分割算法,能夠自動(dòng)將這些完整的3D模型分解為語(yǔ)義上有意義的部件。這個(gè)算法就像一個(gè)經(jīng)驗(yàn)豐富的解剖師,能夠準(zhǔn)確識(shí)別出每個(gè)部件的邊界和功能。
由于自動(dòng)分割算法可能會(huì)出現(xiàn)過(guò)度分割或分割不足的問(wèn)題,研究團(tuán)隊(duì)還組織了人工標(biāo)注人員進(jìn)行質(zhì)量控制。這些標(biāo)注人員就像食品質(zhì)檢員,仔細(xì)檢查每個(gè)部件的質(zhì)量,合并過(guò)度分割的部分,分離分割不足的區(qū)域,確保每個(gè)部件都有清晰的語(yǔ)義意義。
數(shù)據(jù)集建設(shè)的另一個(gè)重要環(huán)節(jié)是為每個(gè)部件生成文字描述。研究團(tuán)隊(duì)利用先進(jìn)的視覺(jué)語(yǔ)言模型,為每個(gè)部件生成了詳細(xì)的文字描述,包括外觀特征、材質(zhì)屬性和與整體的關(guān)系。這些描述就像給每個(gè)部件配上了"身份證",幫助AI理解每個(gè)部件的特點(diǎn)和用途。
八、實(shí)驗(yàn)驗(yàn)證:讓數(shù)據(jù)說(shuō)話
為了驗(yàn)證CoPart的效果,研究團(tuán)隊(duì)進(jìn)行了全面的實(shí)驗(yàn)評(píng)估。這些實(shí)驗(yàn)就像一場(chǎng)嚴(yán)格的"考試",從多個(gè)角度檢驗(yàn)CoPart的能力。
在與現(xiàn)有頂級(jí)3D生成系統(tǒng)的對(duì)比中,CoPart展現(xiàn)出了顯著的優(yōu)勢(shì)。特別是在生成復(fù)雜物體時(shí),CoPart生成的模型在細(xì)節(jié)精度和部件獨(dú)立性方面都明顯優(yōu)于傳統(tǒng)方法。比如,在生成一個(gè)全副武裝的士兵時(shí),傳統(tǒng)方法往往會(huì)把武器和身體混合在一起,而CoPart能夠清晰地區(qū)分每個(gè)裝備部件。
研究團(tuán)隊(duì)還進(jìn)行了用戶(hù)研究,邀請(qǐng)了51名來(lái)自不同背景的參與者對(duì)生成結(jié)果進(jìn)行評(píng)價(jià)。結(jié)果顯示,在整體質(zhì)量評(píng)估中,54.9%的參與者更偏好CoPart的生成結(jié)果。在部件質(zhì)量評(píng)估中,這個(gè)比例更是達(dá)到了60.8%。這些數(shù)據(jù)客觀地證明了CoPart在用戶(hù)體驗(yàn)方面的優(yōu)勢(shì)。
定量評(píng)估實(shí)驗(yàn)使用了多個(gè)客觀指標(biāo)來(lái)衡量生成質(zhì)量。在幾何一致性方面,CoPart的得分為0.1607,遠(yuǎn)高于其他方法。在圖像質(zhì)量方面,CoPart的得分為0.1768,同樣領(lǐng)先于競(jìng)爭(zhēng)對(duì)手。這些數(shù)據(jù)表明,CoPart不僅在主觀感受上更好,在客觀指標(biāo)上也確實(shí)更優(yōu)秀。
消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了CoPart各個(gè)組件的重要性。當(dāng)移除全局監(jiān)督機(jī)制時(shí),生成結(jié)果的整體協(xié)調(diào)性明顯下降。當(dāng)移除相互指導(dǎo)機(jī)制時(shí),各個(gè)部件之間的一致性出現(xiàn)問(wèn)題。這些實(shí)驗(yàn)結(jié)果證實(shí)了CoPart的設(shè)計(jì)是合理和必要的。
九、未來(lái)展望:3D創(chuàng)作的新時(shí)代
CoPart的成功不僅僅是一個(gè)技術(shù)突破,更代表了3D內(nèi)容創(chuàng)作理念的根本轉(zhuǎn)變。它展示了"化整為零"的創(chuàng)作方式在AI領(lǐng)域的巨大潛力,為未來(lái)的3D內(nèi)容創(chuàng)作開(kāi)辟了新的道路。
從技術(shù)發(fā)展的角度來(lái)看,CoPart為3D生成技術(shù)的發(fā)展提供了一個(gè)新的方向。傳統(tǒng)的整體生成方法已經(jīng)接近了其技術(shù)極限,而部件化生成方法則為進(jìn)一步提高生成質(zhì)量提供了廣闊的空間。隨著算法的不斷優(yōu)化和硬件性能的提升,我們可以期待更加精細(xì)、更加可控的3D生成效果。
在應(yīng)用層面,CoPart的影響可能會(huì)擴(kuò)展到許多行業(yè)。游戲開(kāi)發(fā)者可以利用CoPart快速生成大量的游戲角色和道具,大大減少建模工作量。影視制作團(tuán)隊(duì)可以用它來(lái)創(chuàng)建概念設(shè)計(jì)和預(yù)覽模型,加速創(chuàng)作流程。教育領(lǐng)域也可以利用CoPart來(lái)生成教學(xué)用的3D模型,讓抽象概念變得更加直觀。
更重要的是,CoPart降低了3D創(chuàng)作的技術(shù)門(mén)檻。傳統(tǒng)的3D建模需要專(zhuān)業(yè)的技能和經(jīng)驗(yàn),而CoPart的直觀控制界面使得普通用戶(hù)也能參與到3D創(chuàng)作中來(lái)。這種民主化的趨勢(shì)可能會(huì)催生全新的創(chuàng)作生態(tài),讓更多的人能夠表達(dá)自己的創(chuàng)意想法。
當(dāng)然,CoPart目前還存在一些限制。生成時(shí)間相對(duì)較長(zhǎng),對(duì)硬件要求較高,生成的部件數(shù)量也有限制。但隨著技術(shù)的不斷進(jìn)步,這些問(wèn)題都有望得到解決。
說(shuō)到底,CoPart的最大價(jià)值在于它改變了我們對(duì)AI創(chuàng)作的理解。它證明了AI不僅可以模仿人類(lèi)的創(chuàng)作結(jié)果,還可以學(xué)習(xí)人類(lèi)的創(chuàng)作過(guò)程。這種"過(guò)程導(dǎo)向"的AI設(shè)計(jì)理念可能會(huì)在更多領(lǐng)域產(chǎn)生深遠(yuǎn)影響。
歸根結(jié)底,CoPart為我們展示了一個(gè)令人興奮的未來(lái)愿景:AI不再是一個(gè)冷冰冰的工具,而是一個(gè)能夠理解創(chuàng)作邏輯、具備協(xié)作能力的智能伙伴。在這個(gè)未來(lái)中,人類(lèi)的創(chuàng)造力和AI的計(jì)算能力將實(shí)現(xiàn)完美結(jié)合,共同創(chuàng)造出前所未有的精彩內(nèi)容。對(duì)于那些對(duì)技術(shù)細(xì)節(jié)和實(shí)現(xiàn)方法感興趣的讀者,完整的研究論文可以通過(guò)arXiv:2507.08772v1獲取,其中包含了更多深入的技術(shù)分析和實(shí)驗(yàn)數(shù)據(jù)。
Q&A
Q1:CoPart是什么?它和傳統(tǒng)3D生成有什么區(qū)別? A:CoPart是一種新的AI 3D生成技術(shù),它模仿人類(lèi)設(shè)計(jì)師的工作方式,把復(fù)雜的3D物體分解成多個(gè)部件分別生成,然后組裝起來(lái)。這與傳統(tǒng)方法一次性生成整個(gè)物體不同,能夠產(chǎn)生更精細(xì)、更可控的結(jié)果。
Q2:普通人能使用CoPart嗎?需要什么技術(shù)背景? A:CoPart的設(shè)計(jì)目標(biāo)之一就是降低3D創(chuàng)作的技術(shù)門(mén)檻。用戶(hù)只需要提供文字描述和簡(jiǎn)單的3D包圍盒設(shè)置,就能生成高質(zhì)量的3D模型。不過(guò)目前這項(xiàng)技術(shù)還在研究階段,尚未有面向普通用戶(hù)的商業(yè)產(chǎn)品。
Q3:CoPart生成的3D模型能用于游戲開(kāi)發(fā)或影視制作嗎? A:是的,CoPart生成的模型具有工業(yè)級(jí)的質(zhì)量,特別適合游戲開(kāi)發(fā)和影視制作。它能生成可編輯的部件、支持關(guān)節(jié)動(dòng)畫(huà),還能快速生成大量不同的角色和道具,大大提高制作效率。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。