av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 ShapeLLM-Omni:清華大學(xué)團(tuán)隊(duì)打造的首個原生多模態(tài)3D生成與理解大模型

ShapeLLM-Omni:清華大學(xué)團(tuán)隊(duì)打造的首個原生多模態(tài)3D生成與理解大模型

2025-06-05 13:32
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-05 13:32 ? 科技行者

在人工智能飛速發(fā)展的今天,我們見證了從文本到圖像的生成技術(shù)的巨大進(jìn)步,像ChatGPT-4o這樣的多模態(tài)大模型能夠同時理解和生成文本與圖像,讓我們驚嘆不已。然而,想象一下,如果AI不僅能理解平面的世界,還能理解和創(chuàng)造立體的三維空間,會是怎樣一番景象?這正是清華大學(xué)葉俊良、王正一、趙若文,北京大學(xué)謝圣浩以及清華大學(xué)和盛樹實(shí)驗(yàn)室的朱軍教授帶領(lǐng)的研究團(tuán)隊(duì)所探索的方向。他們在2025年6月2日發(fā)布于arXiv的研究論文《ShapeLLM-Omni: A Native Multimodal LLM for 3D Generation and Understanding》中,提出了一個開創(chuàng)性的模型,能夠原生地理解和生成3D內(nèi)容,為AI賦予了"觸摸"3D世界的能力。有興趣深入了解的讀者可以通過GitHub鏈接https://github.com/JAMESYJL/ShapeLLM-Omni/訪問項(xiàng)目詳情。

一、為什么我們需要一個3D大語言模型?

想象一下,你正在裝修新家,想要在客廳放一張沙發(fā),但不確定什么樣的沙發(fā)適合你的空間。如果你能對AI說:"給我設(shè)計一個帶儲物功能的雙人沙發(fā),風(fēng)格現(xiàn)代簡約",然后AI立刻為你生成一個可以從各個角度查看的3D沙發(fā)模型,這會多么方便!或者,如果你看到一個漂亮的椅子的照片,想要一個類似的3D模型來放在你的虛擬空間里,只需上傳照片,AI就能為你創(chuàng)建匹配的3D模型。這就是ShapeLLM-Omni想要實(shí)現(xiàn)的未來。

近年來,大語言模型(LLM)取得了顯著成就,從純文本的語言模型到能理解圖像的多模態(tài)語言模型(MLLM),再到能處理視頻和3D內(nèi)容的模型。最近,ChatGPT-4o展示了將圖像生成和理解原生整合到大語言模型架構(gòu)中的強(qiáng)大性能,它能通過人類指令實(shí)現(xiàn)更精細(xì)、更精確的控制。然而,它的多模態(tài)能力仍然局限于圖像和文本,在更復(fù)雜的空間領(lǐng)域中存在局限性。

清華大學(xué)的研究團(tuán)隊(duì)認(rèn)為,將3D生成和理解能力整合到預(yù)訓(xùn)練的多模態(tài)大語言模型中至關(guān)重要,這將使AI能夠在3D內(nèi)容創(chuàng)建、機(jī)器人技術(shù)、數(shù)字孿生和沉浸式虛擬環(huán)境等領(lǐng)域發(fā)揮更大作用。為此,他們提出了ShapeLLM-Omni,這是一個能夠理解和生成3D資產(chǎn)與文本的統(tǒng)一模型,真正實(shí)現(xiàn)了AI與3D世界的無縫連接。

二、ShapeLLM-Omni的工作原理:如何讓AI理解3D世界

想象一下,語言是由字母組成的,圖像是由像素組成的,那么3D對象由什么組成呢?在ShapeLLM-Omni中,研究團(tuán)隊(duì)采用了一種稱為"體素"(voxel)的表示方法,可以將其想象成空間中的小立方體,就像數(shù)字樂高積木一樣。這些小立方體堆疊在一起,就能表示出3D形狀。

但是,如果直接使用這些"樂高積木",數(shù)量會非常龐大,處理起來非常困難。因此,研究團(tuán)隊(duì)開發(fā)了一個特殊的壓縮工具——3D向量量化變分自編碼器(3D VQVAE)。這個工具就像一個神奇的壓縮機(jī),它可以把成千上萬的"樂高積木"壓縮成一組代碼,這些代碼可以被大語言模型輕松處理,然后再在需要時解壓縮還原成完整的3D形狀。

具體來說,3D VQVAE將64?個體素(這相當(dāng)于262,144個小立方體?。嚎s成只有1024個離散的標(biāo)記,這些標(biāo)記就像是對3D形狀的簡潔描述。這個過程就像是把一個復(fù)雜的樂高作品拆解成建造指南,使得大語言模型能夠更容易地處理3D信息。

這種方法采用了完全的下一個標(biāo)記預(yù)測范式,確保了與聯(lián)合訓(xùn)練和大規(guī)??蓴U(kuò)展性的自然兼容性。通過利用VQVAE將3D網(wǎng)格編碼為緊湊的離散標(biāo)記,實(shí)現(xiàn)了統(tǒng)一的表示。這些標(biāo)記被用于理解和生成3D網(wǎng)格,遵循類似于語言建模的格式。

三、構(gòu)建3D-Alpaca數(shù)據(jù)集:教會AI理解和創(chuàng)建3D世界

要教會AI理解和創(chuàng)建3D世界,首先需要大量高質(zhì)量的訓(xùn)練數(shù)據(jù)。研究團(tuán)隊(duì)構(gòu)建了一個名為3D-Alpaca的綜合訓(xùn)練數(shù)據(jù)集,包含了三種核心任務(wù):3D生成、3D理解和3D編輯。

首先,他們從多個3D數(shù)據(jù)集中選擇了高質(zhì)量的約71.2萬個3D資產(chǎn)。對于圖像集合,每個3D資產(chǎn)都被渲染成2D圖像,并對正面視圖應(yīng)用隨機(jī)偏移以創(chuàng)建輸入。這些渲染的圖像也為后續(xù)的編輯數(shù)據(jù)集構(gòu)建提供了基礎(chǔ)。

為了生成文本集合并實(shí)現(xiàn)所有三種模態(tài)的早期融合,他們?yōu)槊總€資產(chǎn)渲染了四個正交視圖——前、后、左、右。這些多視圖圖像隨后被輸入到基礎(chǔ)模型Qwen-2.5-VL-Instruct中以生成描述性標(biāo)題。這些生成的標(biāo)題既被用作文本到3D生成的提示,也被用作3D到文本標(biāo)題任務(wù)的真實(shí)目標(biāo)。

更令人興奮的是,研究團(tuán)隊(duì)還構(gòu)建了一個創(chuàng)新的3D資產(chǎn)編輯數(shù)據(jù)集,包含6.2萬對3D網(wǎng)格和相應(yīng)的文本編輯指令。這使得用戶可以通過自然語言對3D資產(chǎn)進(jìn)行精細(xì)操作,比如"給椅子添加靠背"、"打開櫥柜門"或"給角色添加翅膀"等,使得實(shí)時編輯更加直觀和可控。

構(gòu)建這個編輯數(shù)據(jù)集的過程非常巧妙。研究團(tuán)隊(duì)首先參考了Objaverse-XL數(shù)據(jù)集的分布,手動選擇了100個最具代表性和常見的對象類別,如汽車、桌子、柜子、人物形象等。然后,使用ChatGPT-4o對數(shù)據(jù)集中的3D資產(chǎn)進(jìn)行細(xì)粒度分類,并從中篩選出屬于這100個主要類別的31.1萬個資產(chǎn)。

接下來,他們?yōu)镃hatGPT-4o提供類別名稱,指導(dǎo)它為每個類別生成20個可行的編輯提示,如"給椅子的靠背換成網(wǎng)狀框架"。研究團(tuán)隊(duì)手動審查了每個生成的編輯提示,只保留那些滿足技術(shù)可行性和視覺吸引力標(biāo)準(zhǔn)的提示,最終得到371個獨(dú)特的編輯提示。

由于時間和資源限制,他們構(gòu)建了一個緊湊、高質(zhì)量的編輯提示數(shù)據(jù)集,而不是對每個資產(chǎn)應(yīng)用每種可能的編輯提示。具體來說,他們?yōu)槊總€編輯提示分配了200個資產(chǎn)。對于每個采樣的資產(chǎn),研究團(tuán)隊(duì)向ChatGPT-4o提供其正面渲染圖像和選定的編輯提示,由ChatGPT-4o生成相應(yīng)的編輯后圖像,從而產(chǎn)生圖像級別的編輯對。經(jīng)過過濾掉錯誤的情況后,他們最終得到了7萬個有效的編輯樣本,這些樣本隨后通過Trellis轉(zhuǎn)換為編輯前后的3D資產(chǎn)對。

通過定義每個任務(wù)25個對話模板并使用預(yù)訓(xùn)練的3D VQVAE將所有3D資產(chǎn)編碼為離散標(biāo)記序列,研究團(tuán)隊(duì)創(chuàng)建了一個包含250萬個3D對話的訓(xùn)練語料庫。最終的3D-Alpaca數(shù)據(jù)集包括四種類型的任務(wù):圖像到3D、文本到3D、3D到標(biāo)題和3D編輯,總共256萬個樣本,包含34.6億個標(biāo)記。

四、基于Qwen-2.5-vl構(gòu)建ShapeLLM-Omni:賦予AI 3D視覺

有了數(shù)據(jù),接下來就是訓(xùn)練模型。研究團(tuán)隊(duì)選擇了Qwen-2.5-VL-Instruct-7B作為基礎(chǔ)模型,這是一個具有圖像理解能力的多模態(tài)大語言模型。他們擴(kuò)展了其基礎(chǔ)架構(gòu),添加了8192個3D VQVAE編碼本。為了保持其原有的圖像理解技能,他們凍結(jié)了Qwen2.5-vl的視覺編碼器參數(shù)。

ShapeLLM-Omni的訓(xùn)練過程相當(dāng)有挑戰(zhàn)性,需要在48個NVIDIA H100 GPU上進(jìn)行,每個GPU的批量大小為2,梯度在2個步驟上累積,共訓(xùn)練了15個周期。訓(xùn)練過程中,學(xué)習(xí)率從5×10??逐漸衰減到5×10??。

最終的ShapeLLM-Omni模型展示了令人印象深刻的多功能性,包括:

1. 從文本指令生成3D內(nèi)容:用戶可以通過自然語言描述,如"生成一個現(xiàn)代風(fēng)格的辦公椅",讓模型創(chuàng)建相應(yīng)的3D模型。

2. 從圖像輸入生成3D對象:用戶上傳一張物品的照片,模型能生成相應(yīng)的3D模型,這對于快速原型設(shè)計和虛擬展示非常有用。

3. 使用自然語言交互式編輯3D資產(chǎn):用戶可以對已有的3D模型發(fā)出編輯指令,如"給這把椅子添加扶手"或"將桌子的表面改為圓形",模型會相應(yīng)地修改3D模型。

4. 理解和解釋3D網(wǎng)格的語義和幾何推理:模型能夠分析3D模型并提供描述,如"這是一個帶有四個輪子和可調(diào)節(jié)靠背的辦公椅"。

實(shí)驗(yàn)結(jié)果表明,盡管在3D-Alpaca上進(jìn)行了微調(diào)以支持3D網(wǎng)格生成和理解,ShapeLLM-Omni仍然保持了與基線模型相當(dāng)?shù)恼Z言理解和推理性能。在MMLU、PIQA、GSM8K和SIQA等測試中,它的表現(xiàn)接近或超過了原始的Qwen2.5-vl-7B模型,這證明了它在保持語言能力的同時,成功地擴(kuò)展了對3D內(nèi)容的處理能力。

五、ShapeLLM-Omni的驚人表現(xiàn):創(chuàng)建和理解3D世界

在各種任務(wù)上,ShapeLLM-Omni展現(xiàn)出了令人印象深刻的性能。在文本到3D和圖像到3D生成任務(wù)中,它與CRM、SAR3D、3DTopia-XL和TRELLIS等基線方法相比表現(xiàn)出色。研究團(tuán)隊(duì)使用Inception-V3特征計算的Frechet距離(FD)和核距離(KD)評估生成的3D輸出的整體質(zhì)量,并使用CLIP分?jǐn)?shù)衡量生成輸出與輸入提示之間的語義對齊度。

值得注意的是,ShapeLLM-Omni在生成結(jié)果上優(yōu)于所有基線方法,僅次于Trellis。研究團(tuán)隊(duì)解釋了為什么他們的結(jié)果不如Trellis的幾個原因:首先,Trellis使用單獨(dú)的模型分別處理文本到3D和圖像到3D任務(wù),而ShapeLLM-Omni在一個模型中處理這兩項(xiàng)任務(wù),并支持3D編輯、理解和交互式對話;其次,Trellis基于校正流模型,而ShapeLLM-Omni是一個離散自回歸模型,從架構(gòu)角度來看,這可能導(dǎo)致一些性能差異。

在3D到標(biāo)題任務(wù)上,ShapeLLM-Omni展示了強(qiáng)大的3D理解能力,其性能僅次于專為單任務(wù)3D理解定制的PointLLM。在對Objaverse數(shù)據(jù)集的3D對象標(biāo)題結(jié)果評估中,它在BLUE-1、ROUGE-L和METEOR等指標(biāo)上取得了優(yōu)異成績。

從質(zhì)量上看,ShapeLLM-Omni生成的3D模型展現(xiàn)出高度的準(zhǔn)確性和細(xì)節(jié)豐富度。在圖像到3D任務(wù)中,它能夠準(zhǔn)確捕捉圖像中的幾何形狀和紋理細(xì)節(jié),生成高質(zhì)量的3D網(wǎng)格。相比于其他基線,它生成的3D模型幾何形狀更完整,紋理更高保真,實(shí)現(xiàn)了逼真的圖像到3D生成。在文本到3D任務(wù)中,它能夠精確對齊給定的文本提示,并生成復(fù)雜、連貫的細(xì)節(jié)。

特別令人印象深刻的是ShapeLLM-Omni的3D編輯能力。與傳統(tǒng)的生成模型相比,這個原生多模態(tài)LLM不僅增強(qiáng)了圖像理解能力,還顯著提高了對文本指令的理解能力,為藝術(shù)家提供了一種更強(qiáng)大的語言驅(qū)動的交互式3D資產(chǎn)操作范式。用戶可以通過簡單的指令如"打開櫥柜門"、"在頂部添加蓋子"、"添加翅膀"或"長出尾巴"等來編輯3D資產(chǎn),而模型能夠在保持原始身份和視覺一致性的同時執(zhí)行這些編輯。

六、ShapeLLM-Omni的局限性與未來發(fā)展方向

盡管ShapeLLM-Omni在3D生成和理解方面取得了顯著成就,但研究團(tuán)隊(duì)也坦率地指出了其局限性。受限于資源,他們只有7萬個3D編輯對——遠(yuǎn)遠(yuǎn)不足以達(dá)到ChatGPT-4o級別的3D編輯結(jié)果。此外,由于計算資源有限,ShapeLLM-Omni只有70億參數(shù),這使得其性能尚未達(dá)到真正的"3D版ChatGPT-4o"的水平。

未來的研究方向可能包括收集更多的3D編輯數(shù)據(jù),增加模型的參數(shù)規(guī)模,以及探索更多的3D表示方法。隨著計算資源的增加和數(shù)據(jù)的豐富,我們可以期待看到更強(qiáng)大的3D生成和理解模型的出現(xiàn)。

總的來說,ShapeLLM-Omni代表了多模態(tài)AI研究的一個重要里程碑,它將AI的能力從平面的2D世界擴(kuò)展到了立體的3D空間。通過統(tǒng)一的架構(gòu)和創(chuàng)新的數(shù)據(jù)集,它為未來的3D內(nèi)容創(chuàng)建、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)和數(shù)字孿生等領(lǐng)域鋪平了道路。隨著技術(shù)的不斷進(jìn)步,我們可以期待看到更多令人驚嘆的3D AI應(yīng)用出現(xiàn)在我們的日常生活中。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-