av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 加州理工學(xué)院全新突破:讓AI同時(shí)"看懂"文字、圖片和3D世界的革命性技術(shù)

加州理工學(xué)院全新突破:讓AI同時(shí)"看懂"文字、圖片和3D世界的革命性技術(shù)

2025-06-16 09:43
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-16 09:43 ? 科技行者

這項(xiàng)由加州理工學(xué)院計(jì)算與數(shù)學(xué)科學(xué)系的Aadarsh Sahoo、Vansh Tibrewal和Georgia Gkioxari教授共同完成的開創(chuàng)性研究,發(fā)表于2025年6月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2506.08002v1)。有興趣深入了解的讀者可以通過(guò)https://glab-caltech.github.io/kyvo/訪問(wèn)項(xiàng)目主頁(yè)獲取完整論文和代碼。

想象一下,如果有一個(gè)超級(jí)聰明的助手,它不僅能讀懂你寫的文字,看懂你拍的照片,還能完全理解你房間里每件物品的3D形狀、位置和大小關(guān)系。更神奇的是,你只需要用簡(jiǎn)單的語(yǔ)言告訴它"把那個(gè)紅色的杯子移到藍(lán)色沙發(fā)旁邊",它就能立刻明白你的意思,并且能夠在腦海中重新安排整個(gè)房間的布局。這聽起來(lái)像科幻電影里的情節(jié),但加州理工學(xué)院的研究團(tuán)隊(duì)剛剛讓這個(gè)夢(mèng)想變成了現(xiàn)實(shí)。

在我們?nèi)粘I钪?,理解周圍的世界需要同時(shí)處理多種信息:我們既要讀懂文字說(shuō)明,也要看清楚物體的外觀,更要準(zhǔn)確判斷物體在空間中的位置關(guān)系。比如當(dāng)你在網(wǎng)上購(gòu)買家具時(shí),你不僅要看懂商品描述(文字),查看產(chǎn)品圖片(2D圖像),還要想象這件家具放在你家里會(huì)是什么樣子(3D空間理解)。然而,目前的人工智能系統(tǒng)大多只能處理其中一種或兩種信息,就像一個(gè)只會(huì)看不會(huì)聽,或者只會(huì)聽不會(huì)摸的人一樣,理解能力總是有所欠缺。

研究團(tuán)隊(duì)開發(fā)了一個(gè)名為"Kyvo"的全新AI系統(tǒng)(在希臘語(yǔ)中意為"3D立方體"),這個(gè)系統(tǒng)就像一個(gè)擁有全方位感知能力的超級(jí)大腦。與以往的AI系統(tǒng)不同,Kyvo能夠同時(shí)理解文字、圖片和3D空間信息,并且能夠在這三種信息之間自由轉(zhuǎn)換。這就好比培養(yǎng)了一個(gè)既會(huì)讀書、又會(huì)畫畫、還精通空間幾何的全才學(xué)生。

更令人興奮的是,這項(xiàng)研究不僅僅是理論上的突破,它還具有巨大的實(shí)際應(yīng)用價(jià)值。對(duì)于建筑設(shè)計(jì)師來(lái)說(shuō),Kyvo可以根據(jù)文字描述直接生成3D室內(nèi)設(shè)計(jì)方案;對(duì)于機(jī)器人工程師來(lái)說(shuō),它能讓機(jī)器人更好地理解和操作3D環(huán)境;對(duì)于普通消費(fèi)者來(lái)說(shuō),未來(lái)我們可能只需要拍一張房間照片,然后用語(yǔ)言描述想要的改變,AI就能幫我們重新設(shè)計(jì)整個(gè)空間布局。

這項(xiàng)研究的創(chuàng)新之處在于首次實(shí)現(xiàn)了文字、圖像和3D結(jié)構(gòu)信息的完全統(tǒng)一處理。研究團(tuán)隊(duì)通過(guò)訓(xùn)練307個(gè)不同的模型,系統(tǒng)性地探索了各種技術(shù)路線,最終找到了最優(yōu)的解決方案。他們不僅解決了技術(shù)難題,還提供了一份詳細(xì)的"技術(shù)食譜",為其他研究者指明了在這個(gè)領(lǐng)域取得成功的關(guān)鍵要素。

一、化繁為簡(jiǎn):讓AI學(xué)會(huì)同時(shí)處理三種"語(yǔ)言"

要讓AI同時(shí)理解文字、圖片和3D信息,就像教一個(gè)人同時(shí)學(xué)會(huì)中文、英文和手語(yǔ)一樣復(fù)雜。研究團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)是:如何讓這三種截然不同的信息能夠在同一個(gè)系統(tǒng)中和諧共處?

傳統(tǒng)的AI系統(tǒng)就像專業(yè)的翻譯員,每個(gè)人只精通一種語(yǔ)言。有的AI擅長(zhǎng)處理文字,能夠?qū)懗隽鲿车奈恼拢挥械腁I專長(zhǎng)圖像識(shí)別,能夠準(zhǔn)確識(shí)別照片中的物體;還有的AI專門處理3D數(shù)據(jù),能夠分析物體的空間結(jié)構(gòu)。但是,當(dāng)我們需要同時(shí)用到這三種能力時(shí),就像需要一個(gè)會(huì)說(shuō)多種語(yǔ)言的人一樣,傳統(tǒng)方法就顯得力不從心了。

Kyvo的核心創(chuàng)新在于發(fā)明了一種"通用語(yǔ)言"系統(tǒng),研究團(tuán)隊(duì)稱之為"統(tǒng)一token空間"。這就像創(chuàng)造了一種全新的世界語(yǔ),能夠同時(shí)表達(dá)文字含義、圖像內(nèi)容和3D空間信息。在這個(gè)系統(tǒng)中,無(wú)論是一個(gè)英文單詞、一小塊圖像區(qū)域,還是一個(gè)3D物體的位置坐標(biāo),都被轉(zhuǎn)換成相同格式的"token"(可以理解為信息的最小單位,就像積木塊一樣)。

具體來(lái)說(shuō),研究團(tuán)隊(duì)是這樣處理這三種信息的:對(duì)于文字部分,他們使用了現(xiàn)成的文本處理技術(shù),就像把每個(gè)詞匯都變成一個(gè)特定的數(shù)字代碼。對(duì)于圖片,他們采用了一種叫做VQGAN的技術(shù),把圖像切分成很多小塊,每一小塊也對(duì)應(yīng)一個(gè)數(shù)字代碼。最有趣的是對(duì)3D信息的處理方式:他們創(chuàng)造了一種"結(jié)構(gòu)化3D表示法",把每個(gè)3D場(chǎng)景描述成一個(gè)物體清單,每個(gè)物體都有自己的形狀、顏色、材質(zhì)、大小和位置信息。

這種方法的巧妙之處在于,它把復(fù)雜的3D場(chǎng)景變成了一個(gè)類似購(gòu)物清單的簡(jiǎn)單結(jié)構(gòu)。比如,一個(gè)包含紅色球體和藍(lán)色立方體的簡(jiǎn)單場(chǎng)景會(huì)被描述為:"場(chǎng)景開始→物體1:大號(hào)、紅色、金屬材質(zhì)、球形、位置(-0.55, 0.05, 0.70)→物體1結(jié)束→物體2:小號(hào)、藍(lán)色、橡膠材質(zhì)、立方體、位置(1.25, 2.50, 0.35)→物體2結(jié)束→場(chǎng)景結(jié)束"。這樣的描述方式讓AI能夠像閱讀菜譜一樣理解3D場(chǎng)景的構(gòu)成。

研究團(tuán)隊(duì)發(fā)現(xiàn),處理數(shù)字坐標(biāo)是一個(gè)特別棘手的問(wèn)題。AI系統(tǒng)天生不擅長(zhǎng)處理連續(xù)的數(shù)字,就像讓一個(gè)只會(huì)背誦整數(shù)的學(xué)生去理解小數(shù)點(diǎn)后很多位的精確數(shù)值一樣困難。為了解決這個(gè)問(wèn)題,他們采用了一種"離散化"的策略,把連續(xù)的坐標(biāo)值分割成固定的網(wǎng)格。這就像把一個(gè)平滑的坡道改造成一級(jí)一級(jí)的臺(tái)階,讓AI更容易"行走"。

經(jīng)過(guò)大量實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn)坐標(biāo)精度的選擇至關(guān)重要。如果精度太粗糙(比如只精確到整數(shù)),AI就無(wú)法準(zhǔn)確定位物體位置,生成的場(chǎng)景會(huì)出現(xiàn)明顯的空間錯(cuò)誤。但如果精度太細(xì)致(比如精確到小數(shù)點(diǎn)后三位),又會(huì)產(chǎn)生太多種可能的坐標(biāo)值,導(dǎo)致AI難以學(xué)習(xí)其中的規(guī)律。最終,他們找到了一個(gè)完美的平衡點(diǎn):將坐標(biāo)精確到0.05的精度,這個(gè)數(shù)值恰好能夠提供足夠的空間準(zhǔn)確性,同時(shí)保持合理的學(xué)習(xí)難度。

為了讓AI更好地理解數(shù)字的含義,研究團(tuán)隊(duì)還采用了一種"混合編碼"策略。他們不僅讓AI學(xué)習(xí)每個(gè)數(shù)字的獨(dú)特含義,還加入了數(shù)學(xué)中的"正弦-余弦編碼",這種編碼方式能夠自然地體現(xiàn)數(shù)字之間的大小關(guān)系。這就像在教孩子數(shù)數(shù)時(shí),不僅要讓他們記住每個(gè)數(shù)字的名字,還要讓他們理解"2比1大,3比2大"這樣的順序關(guān)系。

通過(guò)這種創(chuàng)新的統(tǒng)一表示方法,Kyvo成功地讓三種不同類型的信息能夠在同一個(gè)系統(tǒng)中無(wú)縫協(xié)作,為后續(xù)的復(fù)雜任務(wù)奠定了堅(jiān)實(shí)基礎(chǔ)。

二、打造AI的"超級(jí)大腦":從基礎(chǔ)模型到多模態(tài)天才

有了統(tǒng)一的信息表示方法,下一步就是構(gòu)建一個(gè)能夠處理這些信息的"超級(jí)大腦"。研究團(tuán)隊(duì)選擇了一個(gè)聰明的策略:他們沒(méi)有從零開始構(gòu)建全新的AI系統(tǒng),而是在一個(gè)已經(jīng)非常優(yōu)秀的語(yǔ)言模型基礎(chǔ)上進(jìn)行擴(kuò)展和改造。

這個(gè)基礎(chǔ)模型是Meta公司開發(fā)的Llama-3.2-1B-Instruct,它原本只能處理文字信息。研究團(tuán)隊(duì)的工作就像給一個(gè)只會(huì)讀書的天才學(xué)生配備上最先進(jìn)的攝像頭和3D傳感器,讓他同時(shí)獲得視覺(jué)和空間感知能力。這種改造方式的優(yōu)勢(shì)在于,原有的語(yǔ)言理解能力得到了完全保留,而新增的視覺(jué)和3D處理能力則是在這個(gè)堅(jiān)實(shí)基礎(chǔ)上逐步培養(yǎng)的。

改造過(guò)程中最關(guān)鍵的創(chuàng)新是設(shè)計(jì)了專門的"模態(tài)特定tokenizer"(可以理解為專門的信息翻譯器)。對(duì)于圖像信息,他們訓(xùn)練了一個(gè)專門的VQGAN模型,這個(gè)模型就像一個(gè)藝術(shù)家,能夠把任何圖片分解成256個(gè)小塊,每個(gè)小塊都對(duì)應(yīng)一個(gè)特定的代碼。這些代碼組合起來(lái)就能完整地重現(xiàn)原始圖像,就像用樂(lè)高積木拼出復(fù)雜模型一樣。

對(duì)于3D信息的處理,研究團(tuán)隊(duì)設(shè)計(jì)了一套精巧的特殊標(biāo)記系統(tǒng)。他們創(chuàng)造了諸如[SIZE]、[COLOR]、[MATERIAL]、[SHAPE]、[LOCATION]這樣的特殊標(biāo)記,就像在普通語(yǔ)言中插入了專門的3D詞匯。當(dāng)AI看到這些標(biāo)記時(shí),就知道接下來(lái)的信息是描述物體的某個(gè)特定屬性。這種設(shè)計(jì)讓AI能夠像人類一樣,在理解自然語(yǔ)言的同時(shí),也能準(zhǔn)確解析復(fù)雜的3D空間信息。

研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn)了幾個(gè)關(guān)鍵的技術(shù)要點(diǎn)。首先是輸入序列的順序問(wèn)題:當(dāng)需要同時(shí)處理圖像和3D信息時(shí),將圖像信息放在3D信息之前會(huì)得到更好的效果。這可能是因?yàn)閳D像提供了整體的視覺(jué)語(yǔ)境,幫助AI更好地理解后續(xù)的3D空間描述。

其次是輸出序列設(shè)計(jì)的重要發(fā)現(xiàn)。在訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)遇到了一個(gè)意想不到的問(wèn)題:AI在生成圖像時(shí)經(jīng)常會(huì)"跑偏",生成的圖像與期望的內(nèi)容相去甚遠(yuǎn)。深入分析后發(fā)現(xiàn),問(wèn)題出在圖像序列的第一個(gè)token上。由于CLEVR數(shù)據(jù)集中的圖像都有統(tǒng)一的灰色背景,導(dǎo)致超過(guò)25%的圖像在左上角位置都使用相同的顏色代碼。這種偏差讓AI產(chǎn)生了錯(cuò)誤的學(xué)習(xí)模式,就像一個(gè)學(xué)畫畫的學(xué)生總是習(xí)慣性地從左上角開始涂同一種顏色。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)發(fā)明了一種"中心token重排序"的巧妙方法。他們改變了圖像token的排列順序,不再?gòu)淖笊辖情_始,而是從圖像中心開始,然后向左右兩邊交替擴(kuò)展,直到覆蓋整張圖像。這種方法讓圖像序列的開頭變得更有代表性,有效解決了生成偏差問(wèn)題。同時(shí),他們還采用了"加權(quán)損失"策略,對(duì)圖像序列前幾個(gè)token的預(yù)測(cè)錯(cuò)誤給予更高的懲罰,確保AI特別重視這些關(guān)鍵位置的準(zhǔn)確性。

此外,研究團(tuán)隊(duì)還發(fā)現(xiàn)了一些有趣的訓(xùn)練策略insights。他們比較了三種不同的模型訓(xùn)練方法:從零開始訓(xùn)練、使用LoRA微調(diào)技術(shù),以及進(jìn)行全面的精細(xì)調(diào)優(yōu)。結(jié)果顯示,即使原始的語(yǔ)言模型從未接觸過(guò)圖像和3D數(shù)據(jù),通過(guò)全面精細(xì)調(diào)優(yōu)的方法仍然能夠獲得最佳效果。這說(shuō)明預(yù)訓(xùn)練的語(yǔ)言理解能力具有很強(qiáng)的遷移性,能夠有效地?cái)U(kuò)展到新的模態(tài)領(lǐng)域。

更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)模型大小并不是越大越好。他們測(cè)試了1B參數(shù)和3B參數(shù)兩種規(guī)模的模型,發(fā)現(xiàn)1B參數(shù)的模型在大多數(shù)任務(wù)上表現(xiàn)更好,而3B參數(shù)的模型反而在問(wèn)答任務(wù)上出現(xiàn)了性能下降,這可能是因?yàn)檩^大的模型容易在相對(duì)簡(jiǎn)單的數(shù)據(jù)集上過(guò)擬合。

通過(guò)這些精心設(shè)計(jì)的技術(shù)創(chuàng)新和訓(xùn)練策略,Kyvo成功地從一個(gè)單純的語(yǔ)言模型進(jìn)化成了一個(gè)能夠同時(shí)理解和生成文字、圖像、3D信息的多模態(tài)AI系統(tǒng),為后續(xù)的復(fù)雜任務(wù)應(yīng)用奠定了強(qiáng)大的技術(shù)基礎(chǔ)。

三、四大核心技能:AI的全方位3D世界理解能力

當(dāng)Kyvo的"超級(jí)大腦"構(gòu)建完成后,研究團(tuán)隊(duì)開始測(cè)試它在四個(gè)核心任務(wù)上的表現(xiàn)。這四個(gè)任務(wù)就像四種不同的技能考試,全面檢驗(yàn)AI是否真正掌握了文字、圖像和3D信息之間的轉(zhuǎn)換能力。

第一項(xiàng)技能是"3D渲染",也就是從3D場(chǎng)景描述生成對(duì)應(yīng)圖像的能力。這就像給AI一份詳細(xì)的房間布置清單,然后要求它畫出這個(gè)房間的樣子。傳統(tǒng)上,這種工作需要專業(yè)的3D渲染軟件如Blender,需要復(fù)雜的光線追蹤和材質(zhì)計(jì)算。而Kyvo能夠直接從結(jié)構(gòu)化的3D描述"想象"出對(duì)應(yīng)的圖像,這種能力相當(dāng)于讓AI具備了空間想象和視覺(jué)表達(dá)的雙重才能。

在測(cè)試中,研究團(tuán)隊(duì)給Kyvo輸入了包含不同物體類型、顏色、材質(zhì)、大小和位置的3D場(chǎng)景描述,Kyvo能夠生成相應(yīng)的圖像。雖然生成的圖像在一些細(xì)節(jié)上還不夠完美(比如偶爾會(huì)出現(xiàn)物體姿態(tài)的小偏差),但總體上能夠準(zhǔn)確反映場(chǎng)景的基本布局和物體屬性。這種能力對(duì)設(shè)計(jì)師來(lái)說(shuō)特別有價(jià)值,因?yàn)樗麄兛梢酝ㄟ^(guò)簡(jiǎn)單的文字描述快速預(yù)覽設(shè)計(jì)效果,而不需要掌握復(fù)雜的3D建模軟件。

第二項(xiàng)技能是"3D識(shí)別",即從單張圖像推斷出完整3D場(chǎng)景結(jié)構(gòu)的能力。這是渲染任務(wù)的逆向過(guò)程,難度更大,就像要求偵探僅僅通過(guò)一張現(xiàn)場(chǎng)照片就推斷出房間里每件物品的精確位置和屬性。人類在日常生活中經(jīng)常進(jìn)行這種推理,比如看到一張客廳照片就能大致判斷沙發(fā)、茶幾、電視的位置關(guān)系,但對(duì)AI來(lái)說(shuō)這是一個(gè)極其復(fù)雜的空間理解任務(wù)。

Kyvo在這項(xiàng)任務(wù)上表現(xiàn)出了令人印象深刻的能力。當(dāng)輸入一張包含多個(gè)物體的圖像時(shí),它不僅能夠識(shí)別出每個(gè)物體的類型和屬性,還能推斷出它們?cè)?D空間中的精確位置和姿態(tài)。這種能力的實(shí)際應(yīng)用價(jià)值巨大:機(jī)器人可以通過(guò)拍照快速理解環(huán)境結(jié)構(gòu),自動(dòng)駕駛汽車能夠更準(zhǔn)確地判斷道路上物體的空間關(guān)系,AR應(yīng)用可以更精確地在現(xiàn)實(shí)環(huán)境中放置虛擬物體。

第三項(xiàng)技能是"指令跟隨",這是最復(fù)雜的任務(wù)之一。想象你對(duì)一個(gè)智能助手說(shuō):"把那個(gè)紅色的杯子移到藍(lán)色沙發(fā)旁邊,然后把小桌子上的黃色花瓶換成綠色的。"這個(gè)助手不僅要理解你的自然語(yǔ)言指令,還要準(zhǔn)確識(shí)別當(dāng)前環(huán)境中的物體,最后生成修改后的新環(huán)境。這種任務(wù)需要AI同時(shí)具備語(yǔ)言理解、空間推理和創(chuàng)造性修改的能力。

研究團(tuán)隊(duì)設(shè)計(jì)了四種不同類型的指令來(lái)測(cè)試Kyvo:修改物體外觀(比如改變顏色或材質(zhì))、添加新物體、移除特定物體,以及移動(dòng)物體位置。每種指令都需要AI進(jìn)行不同類型的空間推理。比如,當(dāng)指令是"把紅色球體移到大桌子后面"時(shí),AI需要理解"后面"的空間含義,并計(jì)算出合適的新位置坐標(biāo)。

Kyvo在指令跟隨任務(wù)上展現(xiàn)了良好的表現(xiàn),特別是在3D場(chǎng)景修改方面。它能夠準(zhǔn)確理解大部分自然語(yǔ)言指令,并在3D場(chǎng)景中做出相應(yīng)的修改。不過(guò),同時(shí)生成修改后的圖像仍然是一個(gè)挑戰(zhàn),有時(shí)候圖像的修改效果不如3D場(chǎng)景修改那么精確。

第四項(xiàng)技能是"問(wèn)答對(duì)話",測(cè)試AI對(duì)3D場(chǎng)景的理解和推理能力。這類似于給AI看一張房間照片,然后問(wèn)它:"房間里有幾個(gè)紅色的物體?"或者"綠色的椅子在桌子的哪一邊?"這種任務(wù)需要AI不僅能夠識(shí)別和定位物體,還要能夠進(jìn)行空間關(guān)系推理和數(shù)量統(tǒng)計(jì)。

在問(wèn)答測(cè)試中,研究團(tuán)隊(duì)使用了CLEVR數(shù)據(jù)集的問(wèn)題生成引擎,創(chuàng)造了包含各種類型的問(wèn)題:是非題("房間里有紅色的球嗎?")、計(jì)數(shù)問(wèn)題("一共有幾個(gè)大物體?")、屬性查詢("最大的物體是什么顏色?")以及空間關(guān)系問(wèn)題("藍(lán)色立方體在綠色球體的左邊還是右邊?")。

Kyvo在問(wèn)答任務(wù)上的表現(xiàn)證明了它確實(shí)具備了真正的3D場(chǎng)景理解能力,而不僅僅是模式匹配。它能夠準(zhǔn)確回答大部分問(wèn)題,特別是在涉及空間關(guān)系和物體屬性的查詢中表現(xiàn)出色。這種能力對(duì)于開發(fā)智能家居助手、教育機(jī)器人或者無(wú)障礙輔助設(shè)備都有重要意義。

為了全面評(píng)估Kyvo的能力,研究團(tuán)隊(duì)使用了多種不同復(fù)雜度的數(shù)據(jù)集。從簡(jiǎn)單的CLEVR幾何形狀場(chǎng)景,到包含復(fù)雜Objaverse 3D模型的場(chǎng)景,再到真實(shí)世界的Objectron和ARKitScenes數(shù)據(jù)集。隨著場(chǎng)景復(fù)雜度的增加,Kyvo的表現(xiàn)確實(shí)會(huì)有所下降,但仍然保持著可觀的準(zhǔn)確率,證明了這種方法的有效性和實(shí)用價(jià)值。

四、突破極限:從簡(jiǎn)單幾何到復(fù)雜真實(shí)世界

在驗(yàn)證了基本的多模態(tài)處理能力后,研究團(tuán)隊(duì)開始挑戰(zhàn)更復(fù)雜的任務(wù):讓Kyvo處理真實(shí)世界中的復(fù)雜3D物體和場(chǎng)景。這就像讓一個(gè)剛學(xué)會(huì)識(shí)別基本幾何圖形的學(xué)生去理解復(fù)雜的藝術(shù)品和建筑結(jié)構(gòu)。

為了實(shí)現(xiàn)這個(gè)目標(biāo),研究團(tuán)隊(duì)首先擴(kuò)展了他們的數(shù)據(jù)集。他們創(chuàng)建了"ObjaWorld",這是一個(gè)包含來(lái)自O(shè)bjaverse數(shù)據(jù)庫(kù)的復(fù)雜3D物體的虛擬世界。與CLEVR中簡(jiǎn)單的立方體、球體和圓柱體不同,ObjaWorld包含了各種復(fù)雜的真實(shí)物體:從栩栩如生的人物模型到精細(xì)的家具,從逼真的動(dòng)物到復(fù)雜的機(jī)械設(shè)備。

在ObjaWorld中,研究團(tuán)隊(duì)設(shè)計(jì)了兩種典型的場(chǎng)景類型:公園場(chǎng)景(包含人物、鳥類、長(zhǎng)椅和路燈)和客廳場(chǎng)景(包含人物、沙發(fā)和咖啡桌)。這些場(chǎng)景更接近真實(shí)世界的復(fù)雜程度,物體不僅形狀復(fù)雜,而且具有豐富的紋理和材質(zhì)變化。更重要的是,這些物體的位置和姿態(tài)都是隨機(jī)變化的,大大增加了場(chǎng)景的多樣性和學(xué)習(xí)難度。

在這個(gè)更復(fù)雜的環(huán)境中,Kyvo依然展現(xiàn)了令人印象深刻的能力。在識(shí)別任務(wù)中,它能夠從一張復(fù)雜場(chǎng)景的圖像中準(zhǔn)確識(shí)別出各種物體的類型、位置和姿態(tài),盡管準(zhǔn)確率相比簡(jiǎn)單的CLEVR場(chǎng)景有所下降(從92.12%降到64.15%),但考慮到任務(wù)復(fù)雜度的巨大提升,這個(gè)結(jié)果仍然相當(dāng)出色。作為對(duì)比,當(dāng)前最先進(jìn)的視覺(jué)語(yǔ)言模型Llama3.2-V在同樣的任務(wù)上幾乎完全失敗,無(wú)法準(zhǔn)確預(yù)測(cè)3D坐標(biāo)信息。

在渲染任務(wù)中,Kyvo展現(xiàn)了從復(fù)雜3D描述生成相應(yīng)圖像的能力。雖然生成的圖像在一些精細(xì)細(xì)節(jié)上還不夠完美(比如鳥類的姿態(tài)可能略有偏差),但總體上能夠準(zhǔn)確反映場(chǎng)景的整體布局和物體類型。更有趣的是,Kyvo還表現(xiàn)出了一定的創(chuàng)造性泛化能力:當(dāng)輸入一些在訓(xùn)練時(shí)從未見過(guò)的場(chǎng)景組合(比如把通常出現(xiàn)在公園的物體放到客廳場(chǎng)景中)時(shí),它仍然能夠生成合理的圖像。

研究團(tuán)隊(duì)還驗(yàn)證了Kyvo進(jìn)行"任務(wù)鏈接"的能力。他們讓Kyvo先從圖像識(shí)別出3D場(chǎng)景結(jié)構(gòu),然后用這個(gè)結(jié)構(gòu)重新渲染圖像。這種做法就像讓AI先"看懂"一張照片的空間布局,然后根據(jù)理解重新"畫出"這張照片。雖然重建的圖像在一些細(xì)節(jié)上與原始圖像有差異,但基本的空間關(guān)系和物體類型都得到了很好的保持,證明了Kyvo確實(shí)掌握了真正的3D場(chǎng)景理解能力。

接下來(lái),研究團(tuán)隊(duì)進(jìn)行了一個(gè)更加雄心勃勃的擴(kuò)展:讓Kyvo不僅能夠識(shí)別物體類型和位置,還能夠重建物體的完整3D幾何形狀。這就像要求AI不僅能夠識(shí)別"這里有一個(gè)椅子",還要能夠描述"這個(gè)椅子是什么樣子的,有幾條腿,靠背是什么形狀"等詳細(xì)的幾何信息。

為了實(shí)現(xiàn)這個(gè)目標(biāo),研究團(tuán)隊(duì)開發(fā)了一套精巧的3D形狀編碼系統(tǒng)。他們首先采用了Trellis技術(shù)中的"結(jié)構(gòu)化潛在表示"(SLAT),這種表示方式能夠?qū)?fù)雜的3D物體壓縮成大約20,000個(gè)稀疏的體素點(diǎn),每個(gè)點(diǎn)包含位置和特征信息。然而,20,000個(gè)token對(duì)于自回歸模型來(lái)說(shuō)還是太長(zhǎng)了,就像要求一個(gè)人一口氣背誦兩萬(wàn)個(gè)單詞一樣困難。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開發(fā)了一個(gè)專門的"3D VQ-VAE"(矢量量化變分自編碼器)。這個(gè)系統(tǒng)的工作原理就像一個(gè)高效的壓縮算法:它首先將稀疏的20,000個(gè)點(diǎn)重新排列成一個(gè)密集的64×64×64網(wǎng)格,然后通過(guò)3D卷積神經(jīng)網(wǎng)絡(luò)將這個(gè)網(wǎng)格壓縮成8×8×8的緊湊表示,最后通過(guò)矢量量化技術(shù)將每個(gè)位置的256維特征向量映射到8192個(gè)預(yù)定義的代碼上。

通過(guò)這種方法,原本需要20,000個(gè)token才能描述的3D形狀現(xiàn)在只需要512個(gè)token就能表示,壓縮比達(dá)到了約40倍。這種壓縮不僅大大減少了計(jì)算量,還保持了足夠的幾何細(xì)節(jié)來(lái)重建原始物體的基本形狀和結(jié)構(gòu)。

在包含復(fù)雜3D形狀的場(chǎng)景中,Kyvo展現(xiàn)了同時(shí)進(jìn)行形狀重建和場(chǎng)景理解的能力。給定一張包含多個(gè)復(fù)雜物體的圖像,它不僅能夠識(shí)別出每個(gè)物體的類型和位置,還能夠重建出每個(gè)物體的完整3D幾何形狀。這種能力的實(shí)際價(jià)值巨大:建筑師可以通過(guò)拍照快速獲得現(xiàn)有空間的3D模型,考古學(xué)家可以從照片重建文物的3D結(jié)構(gòu),電商平臺(tái)可以從商品照片自動(dòng)生成3D展示模型。

最后,研究團(tuán)隊(duì)將Kyvo應(yīng)用到了真實(shí)世界的數(shù)據(jù)集上:Objectron和ARKitScenes。這兩個(gè)數(shù)據(jù)集包含了大量真實(shí)環(huán)境中拍攝的照片,涵蓋了室內(nèi)外各種復(fù)雜場(chǎng)景。在這些具有挑戰(zhàn)性的真實(shí)數(shù)據(jù)上,Kyvo仍然展現(xiàn)了出色的物體識(shí)別和3D定位能力,在某些情況下甚至超越了專門為3D物體檢測(cè)設(shè)計(jì)的傳統(tǒng)方法。

這些擴(kuò)展實(shí)驗(yàn)充分證明了Kyvo方法的通用性和實(shí)用性:它不僅能夠處理簡(jiǎn)單的幾何場(chǎng)景,還能夠應(yīng)對(duì)復(fù)雜的真實(shí)世界挑戰(zhàn),為未來(lái)的實(shí)際應(yīng)用奠定了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。

五、技術(shù)深度解析:307個(gè)模型背后的科學(xué)發(fā)現(xiàn)

為了找到最優(yōu)的技術(shù)解決方案,研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)史無(wú)前例的系統(tǒng)性研究:他們訓(xùn)練了307個(gè)不同配置的模型,對(duì)每一個(gè)可能影響性能的技術(shù)細(xì)節(jié)都進(jìn)行了深入探索。這就像一個(gè)超大規(guī)模的科學(xué)實(shí)驗(yàn),每個(gè)實(shí)驗(yàn)都在驗(yàn)證一個(gè)特定的技術(shù)假設(shè)。

首先是關(guān)于坐標(biāo)精度的關(guān)鍵發(fā)現(xiàn)。研究團(tuán)隊(duì)測(cè)試了三種不同的坐標(biāo)離散化精度:0.005(非常精細(xì))、0.05(中等精度)和0.5(較粗糙)。結(jié)果令人意外:最精細(xì)的0.005精度反而表現(xiàn)最差,而中等的0.05精度獲得了最佳效果。這個(gè)發(fā)現(xiàn)揭示了一個(gè)重要的平衡原理:過(guò)于精細(xì)的坐標(biāo)劃分會(huì)產(chǎn)生太多可能的位置值,導(dǎo)致每個(gè)具體位置的訓(xùn)練樣本不足,AI難以學(xué)習(xí)到可靠的模式;而過(guò)于粗糙的劃分則無(wú)法提供足夠的空間精度。0.05的精度恰好處在這個(gè)平衡點(diǎn)上,既保證了合理的空間精度,又維持了足夠的學(xué)習(xí)效率。

在數(shù)字編碼方面,研究團(tuán)隊(duì)比較了三種不同的策略。第一種是純粹的正弦-余弦編碼,這種方法雖然能夠體現(xiàn)數(shù)字的順序關(guān)系,但缺乏學(xué)習(xí)靈活性。第二種是完全可學(xué)習(xí)的嵌入,這種方法具有最大的靈活性,但在數(shù)據(jù)不足時(shí)容易失效。第三種是兩者的混合方法:在可學(xué)習(xí)嵌入的基礎(chǔ)上加入正弦-余弦編碼的結(jié)構(gòu)信息。實(shí)驗(yàn)結(jié)果顯示,混合方法在各種數(shù)據(jù)規(guī)模下都表現(xiàn)穩(wěn)定,特別是在訓(xùn)練數(shù)據(jù)較少的情況下優(yōu)勢(shì)明顯。

關(guān)于輸入序列順序的實(shí)驗(yàn)也產(chǎn)生了有趣的發(fā)現(xiàn)。當(dāng)同時(shí)處理圖像和3D信息時(shí),將圖像放在3D信息之前比相反的順序效果更好。研究團(tuán)隊(duì)推測(cè)這可能是因?yàn)閳D像提供了全局的視覺(jué)上下文,幫助AI更好地理解后續(xù)的結(jié)構(gòu)化3D描述。這就像人類在理解一個(gè)空間時(shí),往往先形成整體的視覺(jué)印象,然后再關(guān)注具體的細(xì)節(jié)信息。

在輸出序列設(shè)計(jì)方面,研究團(tuán)隊(duì)發(fā)現(xiàn)了"首token效應(yīng)"這個(gè)重要現(xiàn)象。在圖像生成任務(wù)中,序列的第一個(gè)token對(duì)最終結(jié)果有著決定性的影響,因?yàn)楹罄m(xù)的自回歸生成都以此為起點(diǎn)。傳統(tǒng)的從左上角開始的掃描順序在面對(duì)具有統(tǒng)一背景的圖像時(shí)會(huì)產(chǎn)生嚴(yán)重偏差。他們發(fā)明的"中心token重排序"方法有效解決了這個(gè)問(wèn)題,同時(shí)配合"加權(quán)損失"策略(對(duì)前幾個(gè)token的錯(cuò)誤給予更高權(quán)重),顯著提升了圖像生成質(zhì)量。

訓(xùn)練策略方面的比較也很有啟發(fā)性。研究團(tuán)隊(duì)對(duì)比了三種方法:從零開始訓(xùn)練、使用LoRA(低秩適應(yīng))技術(shù)進(jìn)行輕量級(jí)微調(diào),以及進(jìn)行全面的精細(xì)調(diào)優(yōu)。結(jié)果顯示,即使是處理全新的模態(tài)信息,全面精細(xì)調(diào)優(yōu)仍然是最有效的方法。這個(gè)發(fā)現(xiàn)挑戰(zhàn)了一些現(xiàn)有的觀念,證明了大型語(yǔ)言模型的預(yù)訓(xùn)練知識(shí)具有很強(qiáng)的跨模態(tài)遷移能力。

關(guān)于模型規(guī)模的實(shí)驗(yàn)也產(chǎn)生了反直覺(jué)的結(jié)果。在測(cè)試了1B和3B兩種不同參數(shù)規(guī)模的模型后,研究團(tuán)隊(duì)發(fā)現(xiàn)更大的模型并不總是更好。雖然3B模型在某些任務(wù)上表現(xiàn)優(yōu)秀,但在問(wèn)答任務(wù)上卻出現(xiàn)了性能下降,這可能是因?yàn)檫^(guò)大的模型容量導(dǎo)致了過(guò)擬合現(xiàn)象。這個(gè)發(fā)現(xiàn)提醒我們,在實(shí)際應(yīng)用中需要根據(jù)具體任務(wù)和數(shù)據(jù)規(guī)模選擇合適的模型大小。

研究團(tuán)隊(duì)還深入分析了不同任務(wù)的難度差異。他們發(fā)現(xiàn),在四個(gè)核心任務(wù)中,指令跟隨是最具挑戰(zhàn)性的,因?yàn)樗枰瑫r(shí)處理三種模態(tài)的輸入并生成兩種模態(tài)的輸出。渲染任務(wù)相對(duì)簡(jiǎn)單一些,因?yàn)樗恍枰獜慕Y(jié)構(gòu)化輸入生成圖像輸出。識(shí)別任務(wù)的難度居中,需要從復(fù)雜的圖像輸入推斷出結(jié)構(gòu)化的3D信息。問(wèn)答任務(wù)雖然輸出簡(jiǎn)單(只是文本),但需要復(fù)雜的推理能力。

在評(píng)估方法方面,研究團(tuán)隊(duì)開發(fā)了專門的評(píng)價(jià)指標(biāo)。對(duì)于3D場(chǎng)景的評(píng)估,他們使用了改進(jìn)的Jaccard指數(shù),這個(gè)指標(biāo)不僅考慮物體識(shí)別的準(zhǔn)確性,還考慮空間位置的精度。對(duì)于圖像生成的評(píng)估,他們發(fā)現(xiàn)傳統(tǒng)的SSIM和L2損失等指標(biāo)無(wú)法有效捕捉物體級(jí)別的細(xì)微錯(cuò)誤,因此采用了人工評(píng)估的方法,讓評(píng)估者對(duì)生成圖像的質(zhì)量進(jìn)行評(píng)分和排序。

通過(guò)這些系統(tǒng)性的實(shí)驗(yàn),研究團(tuán)隊(duì)不僅找到了最優(yōu)的技術(shù)配置,還總結(jié)出了一套在多模態(tài)AI開發(fā)中的"最佳實(shí)踐指南"。這些發(fā)現(xiàn)對(duì)整個(gè)研究領(lǐng)域都有重要的指導(dǎo)意義,為后續(xù)的相關(guān)研究提供了寶貴的經(jīng)驗(yàn)和啟示。

六、實(shí)際應(yīng)用潛力:從實(shí)驗(yàn)室到真實(shí)世界

Kyvo的技術(shù)突破不僅僅停留在學(xué)術(shù)層面,它在真實(shí)世界中的應(yīng)用潛力令人興奮。研究團(tuán)隊(duì)通過(guò)在真實(shí)數(shù)據(jù)集上的測(cè)試,證明了這項(xiàng)技術(shù)已經(jīng)接近實(shí)用化的門檻。

在真實(shí)世界的3D物體識(shí)別任務(wù)中,Kyvo與專門設(shè)計(jì)的傳統(tǒng)3D檢測(cè)算法進(jìn)行了直接對(duì)比。在Objectron數(shù)據(jù)集上,Kyvo的表現(xiàn)顯著超越了Cube R-CNN這一業(yè)界標(biāo)準(zhǔn)算法的兩個(gè)版本。在更具挑戰(zhàn)性的ARKitScenes數(shù)據(jù)集上,Kyvo也達(dá)到了與專業(yè)算法相當(dāng)?shù)乃健_@個(gè)結(jié)果特別令人印象深刻,因?yàn)镵yvo是一個(gè)通用的多模態(tài)系統(tǒng),而Cube R-CNN是專門為3D物體檢測(cè)任務(wù)優(yōu)化的專業(yè)工具。這就像一個(gè)多才多藝的全能選手在某個(gè)專項(xiàng)比賽中擊敗了專業(yè)運(yùn)動(dòng)員。

對(duì)于設(shè)計(jì)行業(yè)來(lái)說(shuō),Kyvo可能帶來(lái)革命性的變化。傳統(tǒng)的3D設(shè)計(jì)流程需要設(shè)計(jì)師掌握復(fù)雜的建模軟件,學(xué)習(xí)曲線陡峭,制作周期漫長(zhǎng)。而Kyvo讓設(shè)計(jì)師能夠用自然語(yǔ)言描述設(shè)計(jì)想法,系統(tǒng)就能自動(dòng)生成相應(yīng)的3D場(chǎng)景和效果圖。比如,室內(nèi)設(shè)計(jì)師可以說(shuō)"在客廳中央放一個(gè)棕色皮質(zhì)沙發(fā),左邊配一個(gè)小圓桌,上面放一盆綠植",Kyvo就能立即生成對(duì)應(yīng)的3D場(chǎng)景和渲染圖像。這種工作方式不僅大大降低了技術(shù)門檻,還能讓設(shè)計(jì)師把更多精力放在創(chuàng)意構(gòu)思上,而不是繁瑣的技術(shù)操作上。

在機(jī)器人領(lǐng)域,Kyvo的空間理解能力為機(jī)器人的環(huán)境感知和操作規(guī)劃提供了新的可能性。傳統(tǒng)的機(jī)器人需要專門的3D傳感器和復(fù)雜的點(diǎn)云處理算法才能理解環(huán)境結(jié)構(gòu),而Kyvo可以僅僅通過(guò)普通攝像頭拍攝的圖像就推斷出完整的3D場(chǎng)景結(jié)構(gòu)。這意味著機(jī)器人可以更便宜、更高效地獲得空間理解能力。比如,一個(gè)家庭服務(wù)機(jī)器人看到客廳的一張照片,就能理解"沙發(fā)在電視機(jī)前面,茶幾在沙發(fā)和電視之間"這樣的空間關(guān)系,從而規(guī)劃出合理的移動(dòng)路徑。

增強(qiáng)現(xiàn)實(shí)(AR)和虛擬現(xiàn)實(shí)(VR)應(yīng)用也將從Kyvo技術(shù)中受益匪淺。在AR應(yīng)用中,準(zhǔn)確理解現(xiàn)實(shí)環(huán)境的3D結(jié)構(gòu)是虛擬物體正確放置的關(guān)鍵。Kyvo能夠從手機(jī)攝像頭的實(shí)時(shí)畫面中快速推斷出環(huán)境的3D結(jié)構(gòu),讓虛擬家具、裝飾品等能夠準(zhǔn)確地"放置"在現(xiàn)實(shí)空間中。用戶可以通過(guò)語(yǔ)音指令調(diào)整虛擬物體的位置,比如"把那個(gè)虛擬花瓶移到桌子左邊一點(diǎn)",系統(tǒng)就能理解指令并實(shí)時(shí)調(diào)整。

電商行業(yè)也是一個(gè)重要的應(yīng)用領(lǐng)域。在線購(gòu)物時(shí),消費(fèi)者往往難以判斷商品在自己家中的實(shí)際效果。Kyvo技術(shù)可以讓消費(fèi)者拍攝自己的房間照片,然后在照片中添加想要購(gòu)買的家具或裝飾品,直觀地預(yù)覽購(gòu)買效果。更進(jìn)一步,消費(fèi)者甚至可以用語(yǔ)言描述想要的改變,比如"我想在沙發(fā)旁邊加一個(gè)落地?zé)?,系統(tǒng)就能自動(dòng)在房間圖像中添加合適的落地?zé)舨⒄{(diào)整照明效果。

在教育領(lǐng)域,Kyvo可以成為強(qiáng)大的學(xué)習(xí)輔助工具。對(duì)于學(xué)習(xí)幾何、物理或建筑設(shè)計(jì)的學(xué)生來(lái)說(shuō),能夠通過(guò)自然語(yǔ)言描述快速創(chuàng)建3D場(chǎng)景是一個(gè)巨大的優(yōu)勢(shì)。教師可以說(shuō)"創(chuàng)建一個(gè)斜面,上面放一個(gè)小球,演示重力加速度實(shí)驗(yàn)",系統(tǒng)就能生成相應(yīng)的3D模型和模擬動(dòng)畫。這種互動(dòng)式的學(xué)習(xí)方式比傳統(tǒng)的平面教材更加生動(dòng)直觀。

對(duì)于內(nèi)容創(chuàng)作者來(lái)說(shuō),Kyvo提供了全新的創(chuàng)作工具。游戲開發(fā)者、動(dòng)畫制作者、影視工作者都可以通過(guò)自然語(yǔ)言快速構(gòu)建場(chǎng)景原型,然后再進(jìn)行精細(xì)化調(diào)整。這大大加速了創(chuàng)意到成品的轉(zhuǎn)化過(guò)程,降低了內(nèi)容創(chuàng)作的技術(shù)門檻。

在建筑和房地產(chǎn)行業(yè),Kyvo可以幫助快速生成設(shè)計(jì)方案和效果圖。建筑師可以根據(jù)客戶的描述快速生成多種設(shè)計(jì)方案,而房地產(chǎn)經(jīng)紀(jì)人可以根據(jù)客戶需求快速調(diào)整房屋布局和裝修風(fēng)格的展示效果。

當(dāng)然,將Kyvo技術(shù)真正應(yīng)用到這些實(shí)際場(chǎng)景中還需要解決一些挑戰(zhàn)。比如,如何提高復(fù)雜場(chǎng)景下的準(zhǔn)確性,如何處理更多樣化的物體類型,如何優(yōu)化計(jì)算效率以支持實(shí)時(shí)應(yīng)用等。但研究團(tuán)隊(duì)已經(jīng)為這些挑戰(zhàn)的解決奠定了堅(jiān)實(shí)的技術(shù)基礎(chǔ),相信隨著技術(shù)的不斷完善,Kyvo將在不久的將來(lái)走出實(shí)驗(yàn)室,真正改變我們與3D世界交互的方式。

說(shuō)到底,Kyvo代表的不僅僅是一項(xiàng)技術(shù)突破,更是人工智能發(fā)展的一個(gè)重要里程碑。它首次實(shí)現(xiàn)了文字、圖像和3D空間信息的真正統(tǒng)一處理,讓AI能夠像人類一樣綜合理解多維度的信息。雖然目前的技術(shù)還有改進(jìn)空間,比如在復(fù)雜指令跟隨任務(wù)中的圖像生成質(zhì)量還需要提升,在處理極其復(fù)雜的真實(shí)場(chǎng)景時(shí)準(zhǔn)確率還有上升空間,但這些都是技術(shù)發(fā)展過(guò)程中的正常現(xiàn)象。

更重要的是,研究團(tuán)隊(duì)不僅實(shí)現(xiàn)了技術(shù)突破,還通過(guò)訓(xùn)練307個(gè)模型的大規(guī)模實(shí)驗(yàn),為整個(gè)研究領(lǐng)域提供了一套詳盡的"技術(shù)烹飪書"。這種開放共享的研究態(tài)度將大大加速相關(guān)技術(shù)的發(fā)展,讓更多研究者能夠在這個(gè)基礎(chǔ)上繼續(xù)創(chuàng)新。

從更宏觀的角度來(lái)看,Kyvo的成功證明了多模態(tài)AI的巨大潛力。未來(lái)的AI系統(tǒng)將不再局限于單一類型的信息處理,而是能夠像人類一樣,綜合運(yùn)用視覺(jué)、語(yǔ)言、空間等多種感知能力來(lái)理解和操作世界。這種全方位的智能將為我們帶來(lái)更加自然、直觀的人機(jī)交互方式,也將為各行各業(yè)帶來(lái)新的可能性。

對(duì)于有興趣深入了解這項(xiàng)技術(shù)的讀者,可以訪問(wèn)研究團(tuán)隊(duì)的項(xiàng)目主頁(yè)https://glab-caltech.github.io/kyvo/獲取更多詳細(xì)信息、代碼實(shí)現(xiàn)和數(shù)據(jù)集。研究團(tuán)隊(duì)承諾將開放所有代碼和數(shù)據(jù),這對(duì)推動(dòng)整個(gè)研究領(lǐng)域的發(fā)展具有重要意義。隨著這項(xiàng)技術(shù)的不斷完善和應(yīng)用,我們有理由相信,一個(gè)更加智能、更加便捷的數(shù)字化未來(lái)正在向我們走來(lái)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-