在日常生活中,我們經(jīng)常遇到這樣的困擾:一張本來很完美的照片,卻因?yàn)槟硞€(gè)物體的位置不夠理想而顯得美中不足。比如你想把照片中的貓咪移到左邊一點(diǎn),或者讓桌上的花瓶換個(gè)角度,又或者想從不同的視角重新審視這個(gè)場(chǎng)景。傳統(tǒng)的圖片編輯軟件雖然功能強(qiáng)大,但操作復(fù)雜,普通人很難駕馭。而最新的AI圖像生成技術(shù)雖然能創(chuàng)造出令人驚嘆的圖片,但在精確控制物體位置和保持原有質(zhì)感方面仍然力不從心。
這項(xiàng)由伊利諾伊大學(xué)厄巴納-香檳分校的Vaibhav Vavilala、Seemandhar Jain、Rahul Vasanth、D.A. Forsyth,以及豐田芝加哥技術(shù)研究所的Anand Bhattad共同完成的研究,于2025年6月發(fā)表在計(jì)算機(jī)圖形學(xué)頂級(jí)會(huì)議論文集中(論文編號(hào):arXiv:2506.20703v1),為這個(gè)問題帶來了全新的解決方案。研究團(tuán)隊(duì)開發(fā)了一套名為"生成式積木世界"(Generative Blocks World)的創(chuàng)新系統(tǒng),讓普通人也能像搭積木一樣輕松地移動(dòng)和調(diào)整照片中的物體。
這個(gè)系統(tǒng)的核心理念非常巧妙:不是直接在像素層面修改圖片,而是將復(fù)雜的場(chǎng)景分解成一系列簡(jiǎn)單的3D幾何體,就像用不同形狀的積木塊來搭建一個(gè)場(chǎng)景模型。每個(gè)積木塊代表場(chǎng)景中的一個(gè)部分或物體,用戶可以直觀地選擇、移動(dòng)、縮放或刪除這些積木塊,系統(tǒng)會(huì)根據(jù)這些操作重新生成逼真的圖片。這種方法不僅操作簡(jiǎn)單直觀,更重要的是能夠保持物體的原有質(zhì)感和場(chǎng)景的幾何一致性。
研究團(tuán)隊(duì)解決了兩個(gè)關(guān)鍵技術(shù)挑戰(zhàn)。首先是如何將普通照片準(zhǔn)確地分解成3D幾何積木。他們改進(jìn)了最新的凸多面體分解技術(shù),讓系統(tǒng)能夠自動(dòng)識(shí)別場(chǎng)景中的不同部分,并用精確的3D幾何體來表示它們。其次是如何根據(jù)修改后的幾何體生成高質(zhì)量的新圖片。他們巧妙地結(jié)合了幾何投影技術(shù)和最先進(jìn)的AI圖像生成模型,開發(fā)出一套"紋理提示"方法,能夠在保持原有物體外觀的同時(shí),完成復(fù)雜的幾何變換。
與現(xiàn)有的圖片編輯方法相比,這個(gè)系統(tǒng)具有顯著優(yōu)勢(shì)。傳統(tǒng)的拖拽式編輯方法往往無法準(zhǔn)確理解用戶的意圖——當(dāng)你拖拽一個(gè)物體時(shí),系統(tǒng)不知道你是想移動(dòng)它、旋轉(zhuǎn)它還是改變它的大小。而積木式的編輯方法讓用戶意圖變得清晰明確:每個(gè)積木塊都有明確的空間位置和形狀,用戶的每個(gè)操作都有確切的幾何含義。此外,系統(tǒng)還支持改變拍攝角度,就像你可以圍繞一個(gè)真實(shí)的積木模型從不同角度觀察一樣。
實(shí)驗(yàn)結(jié)果表明,這個(gè)系統(tǒng)在幾何精度和紋理保真度方面都明顯優(yōu)于現(xiàn)有方法。更重要的是,它為用戶提供了前所未有的靈活性:同一個(gè)場(chǎng)景可以用不同數(shù)量的積木塊來表示,從而支持從粗粒度的整體調(diào)整到細(xì)粒度的局部修改。當(dāng)使用較少的積木塊時(shí),移動(dòng)一個(gè)積木可能會(huì)影響整個(gè)物體;當(dāng)使用較多的積木塊時(shí),用戶可以精確地調(diào)整物體的細(xì)節(jié)部分。
一、場(chǎng)景理解:將照片變成3D積木模型
要讓計(jì)算機(jī)像人類一樣理解照片中的場(chǎng)景結(jié)構(gòu),這個(gè)過程就像一個(gè)經(jīng)驗(yàn)豐富的木匠觀察一件復(fù)雜的木制品,然后在腦海中將它分解成一塊塊基本的木料一樣。研究團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)是:如何讓計(jì)算機(jī)能夠自動(dòng)識(shí)別照片中的不同物體和區(qū)域,并用簡(jiǎn)單的3D幾何體來精確表示它們。
這個(gè)過程的核心是一種叫做"凸多面體分解"的技術(shù)。簡(jiǎn)單來說,就是用一些多面的幾何體(比如各種形狀的"石頭"或"積木塊")來拼裝出復(fù)雜的形狀。這些幾何體有一個(gè)重要特點(diǎn):它們都是"凸"的,也就是說,如果你在幾何體內(nèi)部任選兩個(gè)點(diǎn)連成直線,這條直線完全位于幾何體內(nèi)部。這就像一個(gè)沒有凹陷的石頭,表面可能凸凹不平,但整體形狀不會(huì)向內(nèi)"凹"進(jìn)去。
為什么要選擇這種凸幾何體呢?原因很實(shí)用:這類幾何體的數(shù)學(xué)性質(zhì)非常好,計(jì)算機(jī)可以高效地處理它們,而且它們足夠靈活,能夠組合出各種復(fù)雜的形狀。就像樂高積木雖然每個(gè)塊都很簡(jiǎn)單,但可以搭建出無比復(fù)雜的建筑一樣。
研究團(tuán)隊(duì)使用了一個(gè)神經(jīng)網(wǎng)絡(luò)來完成這個(gè)分解任務(wù)。這個(gè)網(wǎng)絡(luò)的工作原理類似于一個(gè)有經(jīng)驗(yàn)的拼圖專家:它接收一張照片及其深度信息(也就是照片中每個(gè)像素點(diǎn)離相機(jī)的距離),然后"思考"應(yīng)該用哪些幾何體來最好地重現(xiàn)這個(gè)場(chǎng)景。網(wǎng)絡(luò)的架構(gòu)相對(duì)簡(jiǎn)單:一個(gè)標(biāo)準(zhǔn)的ResNet-18編碼器負(fù)責(zé)理解輸入的圖像信息,然后通過三個(gè)全連接層輸出幾何體的參數(shù)。
有趣的是,同一個(gè)場(chǎng)景可以用不同數(shù)量的幾何體來表示。如果用4個(gè)大積木塊,每個(gè)積木覆蓋的區(qū)域比較大,適合做粗粒度的編輯;如果用72個(gè)小積木塊,就能進(jìn)行非常精細(xì)的調(diào)整。這就像用大塊的拼圖和小塊的拼圖拼同一幅畫——大塊的拼圖拼得快,但細(xì)節(jié)不夠精細(xì);小塊的拼圖能呈現(xiàn)更多細(xì)節(jié),但操作起來也更復(fù)雜。系統(tǒng)為每種積木數(shù)量(4、6、8、10、12、24、36、48、60、72個(gè))都訓(xùn)練了專門的網(wǎng)絡(luò)模型。
每個(gè)幾何體在數(shù)學(xué)上由一組"半平面"來定義。半平面就像一個(gè)無限大的平板,將3D空間分成兩部分。一個(gè)凸幾何體實(shí)際上是多個(gè)這樣的半平面相交形成的區(qū)域。研究團(tuán)隊(duì)用一個(gè)巧妙的數(shù)學(xué)技巧來處理這個(gè)相交操作:不是直接取所有半平面的交集(這在計(jì)算上很困難),而是使用一個(gè)叫做"LogSumExp"的平滑函數(shù)來近似這個(gè)過程。這就像是把原本棱角分明的幾何體稍微"圓潤(rùn)"一下,讓計(jì)算機(jī)更容易處理,同時(shí)保持足夠的精度。
為了訓(xùn)練這些網(wǎng)絡(luò),研究團(tuán)隊(duì)收集了180萬張來自LAION數(shù)據(jù)集的圖片。由于這些圖片沒有現(xiàn)成的幾何體標(biāo)注(畢竟沒有人會(huì)手工為每張圖片標(biāo)注應(yīng)該用哪些幾何體來表示),團(tuán)隊(duì)使用了一種間接的訓(xùn)練方法:讓網(wǎng)絡(luò)生成的幾何體盡可能準(zhǔn)確地重現(xiàn)原始圖片的深度信息。深度信息來自最先進(jìn)的單目深度估計(jì)模型DepthAnythingv2,它能夠從單張照片推斷出場(chǎng)景的3D結(jié)構(gòu)。
訓(xùn)練過程就像教一個(gè)學(xué)生學(xué)會(huì)用積木搭建模型:給學(xué)生看一個(gè)目標(biāo)模型(深度圖),讓他用手中的積木(幾何體參數(shù))盡可能準(zhǔn)確地復(fù)制出來。如果搭建的結(jié)果和目標(biāo)相差太大,就調(diào)整積木的位置和形狀。通過大量的練習(xí)(訓(xùn)練),網(wǎng)絡(luò)逐漸學(xué)會(huì)了如何選擇合適的幾何體來表示各種復(fù)雜的場(chǎng)景。
這個(gè)分解過程的準(zhǔn)確性非常重要,因?yàn)楹罄m(xù)的所有編輯操作都依賴于它。研究團(tuán)隊(duì)的實(shí)驗(yàn)表明,隨著積木數(shù)量的增加,重建精度不斷提高:用4個(gè)積木塊時(shí),深度重建的平均相對(duì)誤差為3.76%;用72個(gè)積木塊時(shí),誤差降到了1.95%。這意味著系統(tǒng)能夠用這些簡(jiǎn)單的幾何體非常準(zhǔn)確地表示復(fù)雜的真實(shí)場(chǎng)景。
一旦完成分解,每個(gè)幾何體就變成了一個(gè)可以獨(dú)立操作的"積木塊"。用戶可以選擇其中的任何一個(gè)或幾個(gè),對(duì)它們進(jìn)行移動(dòng)、旋轉(zhuǎn)、縮放甚至刪除。這些操作在3D空間中進(jìn)行,具有明確的幾何意義,避免了傳統(tǒng)2D編輯中的歧義性。
二、智能圖像生成:從積木模型到逼真照片
當(dāng)用戶完成對(duì)3D積木模型的編輯后,系統(tǒng)面臨的下一個(gè)挑戰(zhàn)是:如何根據(jù)修改后的幾何體生成一張既符合新的幾何布局,又保持原有物體質(zhì)感的逼真照片?這個(gè)過程就像一個(gè)神奇的攝影師,不僅能夠按照你重新擺放的積木模型拍攝新照片,還能讓照片中的物體保持它們?cè)械念伾?、紋理和光澤。
整個(gè)生成過程的核心是一個(gè)基于Flux的AI圖像生成模型。Flux是目前最先進(jìn)的圖像生成技術(shù)之一,它采用了一種叫做"整流流"(Rectified Flow)的新型生成架構(gòu),相比傳統(tǒng)的擴(kuò)散模型具有更好的性能和控制能力。研究團(tuán)隊(duì)選擇了支持深度控制的Flux版本,這樣就能夠讓生成的圖像嚴(yán)格遵循3D幾何體提供的空間布局信息。
生成過程分為幾個(gè)關(guān)鍵步驟。首先,系統(tǒng)將修改后的3D幾何體渲染成一張深度圖,這張深度圖就像是從新視角觀察場(chǎng)景時(shí)的"3D地圖",記錄了每個(gè)位置上物體離相機(jī)的距離。然后,系統(tǒng)會(huì)生成一張"紋理提示"圖像,這是整個(gè)技術(shù)的核心創(chuàng)新之一。
紋理提示的工作原理可以這樣理解:設(shè)想你有一張?jiān)颊掌鸵粋€(gè)用積木重新搭建的場(chǎng)景模型。如果你想生成從新角度觀察這個(gè)場(chǎng)景的照片,最直接的想法是將原始照片中的紋理"貼"到新的幾何體上,就像給積木模型貼上相應(yīng)的貼紙一樣。但這個(gè)過程在實(shí)際中面臨很多挑戰(zhàn):有些區(qū)域在新視角下變得可見但在原始照片中被遮擋,有些區(qū)域因?yàn)榻嵌茸兓兊媚:磺濉?/p>
研究團(tuán)隊(duì)開發(fā)的紋理提示算法巧妙地解決了這些問題。系統(tǒng)首先建立原始視角和新視角之間的對(duì)應(yīng)關(guān)系:對(duì)于新視角中的每個(gè)像素,計(jì)算它在3D空間中對(duì)應(yīng)的點(diǎn),然后找到這個(gè)點(diǎn)在原始照片中的位置。這個(gè)過程類似于追蹤每個(gè)積木塊的"身份證"——無論積木怎么移動(dòng)或旋轉(zhuǎn),系統(tǒng)都知道它原來是什么樣子的。
在建立對(duì)應(yīng)關(guān)系時(shí),系統(tǒng)會(huì)同時(shí)生成一個(gè)"置信度地圖",標(biāo)記哪些區(qū)域的紋理映射是可靠的,哪些區(qū)域存在不確定性。置信度較低的區(qū)域通常出現(xiàn)在幾何體的邊界處、被新暴露的區(qū)域,或者由于視角變化導(dǎo)致的模糊區(qū)域。這個(gè)置信度地圖為后續(xù)的圖像生成提供了重要指導(dǎo)。
接下來,系統(tǒng)使用一種叫做Voronoi修復(fù)的技術(shù)來處理紋理提示中的不可靠區(qū)域。這個(gè)過程就像智能的圖像修復(fù):對(duì)于那些無法直接從原始照片獲得紋理信息的像素,系統(tǒng)會(huì)尋找最近的可靠像素,并使用其顏色信息進(jìn)行填充。這確保了紋理提示圖像的完整性,避免出現(xiàn)空洞或明顯的不連續(xù)。
有了深度圖和紋理提示后,F(xiàn)lux模型開始生成最終的圖像。這個(gè)過程既受到深度圖的幾何約束,也受到紋理提示的外觀引導(dǎo)。模型需要在滿足幾何一致性的前提下,盡可能保持原有物體的視覺特征。為了平衡這兩個(gè)要求,系統(tǒng)采用了一種時(shí)間步控制策略:在生成過程的某些階段嚴(yán)格遵循紋理提示,在其他階段允許模型發(fā)揮創(chuàng)造性來填補(bǔ)細(xì)節(jié)和修復(fù)不完美的地方。
研究團(tuán)隊(duì)還發(fā)現(xiàn),不同的應(yīng)用場(chǎng)景需要不同程度的幾何控制。為此,他們使用了Flux的LoRA(低秩自適應(yīng))版本,這個(gè)版本提供了一個(gè)可調(diào)節(jié)的"幾何權(quán)重"參數(shù)。當(dāng)這個(gè)參數(shù)設(shè)置得較高時(shí),生成的圖像會(huì)嚴(yán)格遵循幾何體的布局,適合需要精確控制的場(chǎng)景;當(dāng)參數(shù)設(shè)置得較低時(shí),模型有更多自由度來優(yōu)化視覺效果,適合對(duì)幾何精度要求不那么嚴(yán)格的藝術(shù)創(chuàng)作。
整個(gè)生成過程通常需要30個(gè)時(shí)間步,在H100 GPU上大約需要3秒鐘。雖然這個(gè)速度還達(dá)不到實(shí)時(shí)交互的要求,但已經(jīng)足夠支持迭代式的編輯工作流程。用戶可以快速嘗試不同的編輯方案,并即時(shí)看到結(jié)果。
系統(tǒng)生成的圖像在多個(gè)方面都表現(xiàn)出色。在幾何精度方面,生成圖像的深度信息與輸入的幾何體高度一致,平均相對(duì)誤差僅為7.2%。在紋理保真度方面,系統(tǒng)能夠很好地保持原有物體的外觀特征,避免了常見的身份丟失或風(fēng)格漂移問題。更重要的是,生成的圖像在視覺上自然逼真,沒有明顯的人工痕跡或不協(xié)調(diào)感。
這套圖像生成技術(shù)的一個(gè)重要優(yōu)勢(shì)是它不需要針對(duì)特定的幾何體類型進(jìn)行專門訓(xùn)練。由于幾何體分解的精度足夠高,預(yù)訓(xùn)練的Flux模型可以直接處理從幾何體渲染的深度圖,無需額外的領(lǐng)域適應(yīng)。這大大簡(jiǎn)化了系統(tǒng)的部署和維護(hù),也使得它能夠適應(yīng)各種不同類型的場(chǎng)景和編輯任務(wù)。
三、精確編輯:移動(dòng)、縮放與視角變換的魔法
當(dāng)3D積木模型建立完成后,真正的魔法開始了。用戶可以像操作真實(shí)的積木一樣,對(duì)場(chǎng)景中的任何部分進(jìn)行精確的調(diào)整。這種編輯方式的直觀性和準(zhǔn)確性遠(yuǎn)超傳統(tǒng)的圖像編輯方法,為用戶提供了前所未有的創(chuàng)作自由度。
移動(dòng)物體是最基本也是最常用的編輯操作。在傳統(tǒng)的圖像編輯軟件中,移動(dòng)一個(gè)物體往往需要復(fù)雜的選擇、摳圖和合成操作,而且很難保證移動(dòng)后的物體在新位置上看起來自然。在積木世界系統(tǒng)中,移動(dòng)操作變得極其簡(jiǎn)單:用戶只需選擇代表目標(biāo)物體的積木塊,然后將其拖拽到新的位置即可。系統(tǒng)會(huì)自動(dòng)處理所有復(fù)雜的幾何變換和紋理映射,確保移動(dòng)后的物體在新位置上保持正確的透視關(guān)系和光照效果。
縮放操作同樣直觀。當(dāng)你想讓照片中的貓咪變大一些,只需要選擇代表貓咪的積木塊并拖拽其邊界來調(diào)整大小。系統(tǒng)不僅會(huì)改變物體的空間尺寸,還會(huì)相應(yīng)地調(diào)整其在圖像中的視覺大小,保持正確的透視關(guān)系。這種縮放不是簡(jiǎn)單的像素拉伸,而是基于3D幾何的真實(shí)空間變換,因此效果更加逼真。
旋轉(zhuǎn)功能讓用戶能夠改變物體的朝向。比如你可以讓桌上的花瓶轉(zhuǎn)個(gè)角度,或者讓書架上的書籍換個(gè)擺放方向。系統(tǒng)會(huì)根據(jù)新的朝向重新計(jì)算物體表面的紋理映射,確保旋轉(zhuǎn)后的物體看起來自然協(xié)調(diào)。
刪除操作則提供了另一種強(qiáng)大的編輯能力。用戶可以選擇任何積木塊并將其刪除,系統(tǒng)會(huì)智能地填補(bǔ)空出的區(qū)域。這個(gè)填補(bǔ)過程不是簡(jiǎn)單的圖像修復(fù),而是基于剩余幾何體的空間布局和周圍環(huán)境的視覺特征進(jìn)行的智能生成。
除了單個(gè)積木塊的操作,系統(tǒng)還支持多個(gè)積木塊的組合編輯。用戶可以同時(shí)選擇多個(gè)相關(guān)的積木塊(比如代表同一個(gè)物體的不同部分),然后對(duì)它們進(jìn)行統(tǒng)一的移動(dòng)、旋轉(zhuǎn)或縮放。這種組合操作特別適合處理復(fù)雜物體的整體調(diào)整。
系統(tǒng)的一個(gè)獨(dú)特優(yōu)勢(shì)是支持不同粒度的編輯。當(dāng)使用較少的積木塊(比如6個(gè))時(shí),每個(gè)積木塊代表場(chǎng)景中的一個(gè)大區(qū)域或整個(gè)物體,適合進(jìn)行大范圍的布局調(diào)整。當(dāng)使用較多的積木塊(比如60個(gè))時(shí),積木塊變得更細(xì)致,用戶可以對(duì)物體的局部細(xì)節(jié)進(jìn)行精確調(diào)整。這就像在不同的縮放級(jí)別下進(jìn)行編輯:遠(yuǎn)距離觀察時(shí)調(diào)整整體布局,近距離觀察時(shí)修改局部細(xì)節(jié)。
視角變換是系統(tǒng)提供的另一項(xiàng)強(qiáng)大功能。用戶可以改變拍攝角度,就像圍繞真實(shí)場(chǎng)景移動(dòng)相機(jī)一樣。這個(gè)功能的實(shí)現(xiàn)基于3D幾何的投影變換:系統(tǒng)根據(jù)新的相機(jī)位置重新渲染整個(gè)場(chǎng)景,生成從新視角觀察的深度圖和紋理提示。這種視角變換不僅改變了物體的空間關(guān)系,還能揭示原本被遮擋的區(qū)域,為這些新暴露的區(qū)域生成合理的紋理。
在處理視角變換時(shí),系統(tǒng)面臨一個(gè)特殊挑戰(zhàn):如何為新暴露的區(qū)域生成合理的內(nèi)容。比如當(dāng)相機(jī)向右移動(dòng)時(shí),原本在左側(cè)被遮擋的墻面部分會(huì)變得可見。系統(tǒng)通過分析相鄰區(qū)域的視覺特征和幾何關(guān)系,智能地推斷這些新區(qū)域應(yīng)該呈現(xiàn)的外觀。這個(gè)過程結(jié)合了幾何一致性約束和AI模型的創(chuàng)造性生成能力。
研究團(tuán)隊(duì)特別注重編輯操作的精確性和可預(yù)測(cè)性。與基于拖拽點(diǎn)的編輯方法不同,積木塊編輯的每個(gè)操作都有明確的幾何意義。當(dāng)用戶移動(dòng)一個(gè)積木塊時(shí),系統(tǒng)明確知道這是一個(gè)平移操作;當(dāng)用戶調(diào)整積木塊的大小時(shí),系統(tǒng)知道這是一個(gè)縮放操作。這種明確性消除了傳統(tǒng)編輯方法中的歧義性,讓用戶能夠更準(zhǔn)確地表達(dá)編輯意圖。
為了驗(yàn)證編輯效果的質(zhì)量,研究團(tuán)隊(duì)設(shè)計(jì)了專門的評(píng)估指標(biāo)。幾何一致性通過比較生成圖像的深度信息與目標(biāo)幾何體的差異來衡量。紋理保真度則通過將編輯后的圖像反向投影到原始視角,并與原始圖像進(jìn)行比較來評(píng)估。實(shí)驗(yàn)結(jié)果表明,系統(tǒng)在這兩個(gè)方面都明顯優(yōu)于現(xiàn)有的編輯方法。
系統(tǒng)還提供了豐富的交互界面,讓用戶能夠輕松地進(jìn)行各種編輯操作。用戶可以通過鼠標(biāo)點(diǎn)擊選擇積木塊,通過拖拽進(jìn)行移動(dòng)和縮放,通過旋轉(zhuǎn)控件調(diào)整朝向。界面還提供了實(shí)時(shí)預(yù)覽功能,用戶可以在確認(rèn)編輯之前先看到大致的效果。
這種積木式的編輯方式為圖像創(chuàng)作開辟了新的可能性。設(shè)計(jì)師可以用它來快速試驗(yàn)不同的布局方案,攝影師可以用它來調(diào)整構(gòu)圖,普通用戶可以用它來美化自己的照片。更重要的是,這種方法讓復(fù)雜的3D編輯變得像玩積木一樣簡(jiǎn)單有趣,降低了專業(yè)圖像編輯的門檻。
四、技術(shù)創(chuàng)新:紋理保持與細(xì)節(jié)重現(xiàn)的突破
在圖像編輯領(lǐng)域,最大的挑戰(zhàn)之一是如何在改變物體位置或視角的同時(shí),完美保持物體原有的質(zhì)感、色彩和細(xì)節(jié)。這就像一個(gè)高超的魔術(shù)師,既要讓觀眾看到物體神奇地移動(dòng)到了新位置,又要讓它們看起來完全沒有改變過樣貌。研究團(tuán)隊(duì)在這個(gè)方面取得了重要突破,開發(fā)了一套獨(dú)特的"紋理提示"技術(shù)。
傳統(tǒng)的圖像編輯方法在這個(gè)問題上表現(xiàn)不佳。最簡(jiǎn)單的方法是直接復(fù)制粘貼像素,但這種方法無法處理視角變化和幾何變形。稍微高級(jí)一些的方法會(huì)使用圖像修復(fù)技術(shù)來填補(bǔ)空缺,但往往會(huì)產(chǎn)生模糊或不一致的結(jié)果。最新的AI編輯方法雖然能生成逼真的圖像,但經(jīng)常會(huì)改變物體的外觀特征,比如讓紅色的蘋果變成綠色,或者讓條紋貓變成純色貓。
研究團(tuán)隊(duì)的解決方案基于一個(gè)關(guān)鍵洞察:如果我們能夠建立原始圖像和編輯后場(chǎng)景之間的精確空間對(duì)應(yīng)關(guān)系,就可以將紋理信息準(zhǔn)確地從一個(gè)視角"搬運(yùn)"到另一個(gè)視角。這個(gè)過程類似于制作一個(gè)精確的地圖,標(biāo)明每個(gè)紋理像素應(yīng)該出現(xiàn)在新圖像的哪個(gè)位置。
建立這種對(duì)應(yīng)關(guān)系的核心是3D幾何體。由于每個(gè)幾何體在編輯前后都保持身份不變(只是位置、大小或朝向發(fā)生了變化),系統(tǒng)可以追蹤每個(gè)空間點(diǎn)從原始場(chǎng)景到編輯場(chǎng)景的變換路徑。這就像給場(chǎng)景中的每個(gè)"原子"都貼上了標(biāo)簽,無論它們?cè)趺匆苿?dòng),系統(tǒng)都能找到它們的新位置。
具體的實(shí)現(xiàn)過程相當(dāng)精巧。對(duì)于編輯后場(chǎng)景中的每個(gè)像素,系統(tǒng)首先確定它對(duì)應(yīng)3D空間中的哪個(gè)點(diǎn),然后識(shí)別這個(gè)點(diǎn)屬于哪個(gè)幾何體。接著,系統(tǒng)應(yīng)用該幾何體的逆變換(移動(dòng)、旋轉(zhuǎn)、縮放的反向操作),將這個(gè)點(diǎn)映射回原始場(chǎng)景中的位置。最后,通過投影變換,系統(tǒng)找到這個(gè)3D點(diǎn)在原始圖像中對(duì)應(yīng)的像素位置,并提取其顏色信息。
這個(gè)過程面臨的一個(gè)重要挑戰(zhàn)是處理不可見區(qū)域。當(dāng)物體移動(dòng)或相機(jī)角度改變時(shí),一些原本被遮擋的區(qū)域會(huì)暴露出來,而一些原本可見的區(qū)域可能會(huì)被遮擋。對(duì)于新暴露的區(qū)域,原始圖像中根本沒有對(duì)應(yīng)的紋理信息。系統(tǒng)通過生成置信度地圖來標(biāo)識(shí)這些不確定區(qū)域,然后使用智能插值技術(shù)進(jìn)行填充。
置信度地圖的生成考慮了多個(gè)因素。距離是一個(gè)重要指標(biāo):如果某個(gè)3D點(diǎn)在變換后的位置與其在原始場(chǎng)景中最近鄰點(diǎn)的距離超過閾值,說明這種對(duì)應(yīng)關(guān)系不夠可靠。角度變化也是考慮因素:當(dāng)表面法向量變化過大時(shí),表明該區(qū)域經(jīng)歷了顯著的視角變化,直接的紋理映射可能不夠準(zhǔn)確。邊界效應(yīng)同樣重要:幾何體邊界附近的像素更容易出現(xiàn)映射誤差,因此被標(biāo)記為低置信度。
為了處理低置信度區(qū)域,系統(tǒng)采用了Voronoi圖插值技術(shù)。這種方法為每個(gè)低置信度像素尋找最近的高置信度像素,并使用其顏色值進(jìn)行填充。這種填充不是簡(jiǎn)單的顏色復(fù)制,而是考慮了空間距離和幾何關(guān)系的智能插值。結(jié)果是一個(gè)完整的紋理提示圖像,為后續(xù)的AI生成提供了可靠的外觀指導(dǎo)。
研究團(tuán)隊(duì)還發(fā)現(xiàn),將這種幾何基礎(chǔ)的紋理提示與最新的關(guān)鍵值緩存技術(shù)相結(jié)合,可以獲得更好的效果。關(guān)鍵值緩存是一種在AI模型內(nèi)部層面保持紋理一致性的技術(shù),它通過在生成過程中重用原始圖像的某些內(nèi)部表示來保持外觀特征。研究團(tuán)隊(duì)識(shí)別了Flux模型中的"關(guān)鍵層",這些層對(duì)紋理特征具有重要影響。
通過分析Flux模型的不同層對(duì)紋理保持的貢獻(xiàn),研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:多模態(tài)層(同時(shí)處理圖像和文本信息的層)比單模態(tài)層對(duì)紋理保持更重要?;谶@個(gè)發(fā)現(xiàn),他們確定了5個(gè)最關(guān)鍵的多模態(tài)層和5個(gè)最關(guān)鍵的單模態(tài)層,在這些層中應(yīng)用關(guān)鍵值緩存技術(shù)。
然而,實(shí)驗(yàn)表明,僅僅依靠關(guān)鍵值緩存是不夠的。在處理大幅度的幾何變換(如物體移動(dòng)或相機(jī)視角變化)時(shí),這種方法往往會(huì)產(chǎn)生不協(xié)調(diào)的結(jié)果。例如,移動(dòng)一個(gè)物體后,它的反射或陰影可能仍然停留在原來的位置,造成明顯的視覺錯(cuò)誤。
相比之下,基于幾何的紋理提示方法能夠正確處理這些復(fù)雜的空間關(guān)系。當(dāng)一個(gè)物體移動(dòng)時(shí),系統(tǒng)不僅會(huì)移動(dòng)物體本身的紋理,還會(huì)相應(yīng)地調(diào)整其在場(chǎng)景中的空間關(guān)系。雖然系統(tǒng)目前還無法完美處理復(fù)雜的光照效應(yīng)(如動(dòng)態(tài)陰影和反射),但在大多數(shù)實(shí)際應(yīng)用中,這種方法已經(jīng)能夠產(chǎn)生令人滿意的結(jié)果。
兩種技術(shù)的結(jié)合使用策略也很重要。在實(shí)踐中,幾何紋理提示提供了空間一致性的基礎(chǔ)保障,而關(guān)鍵值緩存則有助于保持一些細(xì)微的紋理細(xì)節(jié)。研究團(tuán)隊(duì)建議在大多數(shù)情況下主要依賴幾何紋理提示,只在需要額外細(xì)節(jié)保真度的特殊情況下啟用關(guān)鍵值緩存。
這套紋理保持技術(shù)的效果是顯著的。在定量評(píng)估中,系統(tǒng)的紋理保真度指標(biāo)(通過循環(huán)一致性測(cè)試衡量)達(dá)到了18.7 PSNR和0.874 SSIM,明顯優(yōu)于現(xiàn)有方法。在主觀評(píng)估中,用戶也普遍認(rèn)為系統(tǒng)生成的圖像在保持原有物體外觀方面表現(xiàn)出色。
更重要的是,這種技術(shù)為用戶提供了可控的質(zhì)量權(quán)衡選項(xiàng)。通過調(diào)整Flux模型的LoRA權(quán)重參數(shù),用戶可以在幾何精度和紋理自然度之間找到最適合當(dāng)前任務(wù)的平衡點(diǎn)。這種靈活性使得系統(tǒng)能夠適應(yīng)從精確的技術(shù)繪圖到藝術(shù)性的創(chuàng)意編輯等各種不同的應(yīng)用需求。
五、實(shí)驗(yàn)驗(yàn)證:效果評(píng)估與性能對(duì)比
為了驗(yàn)證"生成式積木世界"系統(tǒng)的實(shí)際效果,研究團(tuán)隊(duì)設(shè)計(jì)了一系列全面的實(shí)驗(yàn),就像給這個(gè)新發(fā)明的工具進(jìn)行嚴(yán)格的"體檢"。這些實(shí)驗(yàn)不僅要證明系統(tǒng)能夠正常工作,更要證明它比現(xiàn)有的方法表現(xiàn)得更好,就像比較不同品牌的相機(jī)哪個(gè)拍照效果更佳一樣。
實(shí)驗(yàn)的設(shè)計(jì)考慮了兩個(gè)核心問題:幾何精度和紋理保真度。幾何精度回答的是"系統(tǒng)是否真的按照用戶的意圖移動(dòng)了物體",而紋理保真度回答的是"移動(dòng)后的物體是否還保持原來的外觀"。這兩個(gè)指標(biāo)就像評(píng)價(jià)一個(gè)搬家公司的服務(wù)質(zhì)量:不僅要看家具是否被搬到了正確的位置,還要看家具在搬運(yùn)過程中是否保持完好。
在幾何精度的測(cè)試中,研究團(tuán)隊(duì)使用了一個(gè)巧妙的方法。他們讓系統(tǒng)根據(jù)編輯后的幾何體生成新圖像,然后使用最先進(jìn)的深度估計(jì)模型來分析生成圖像的3D結(jié)構(gòu),再將這個(gè)結(jié)構(gòu)與原始的幾何體進(jìn)行比較。如果系統(tǒng)工作正常,兩者應(yīng)該高度一致。實(shí)驗(yàn)結(jié)果令人印象深刻:系統(tǒng)的平均絕對(duì)相對(duì)誤差僅為7.2%,這意味著生成的圖像在幾何上與用戶的編輯意圖高度吻合。
為了測(cè)試紋理保真度,團(tuán)隊(duì)使用了一種"循環(huán)一致性"的評(píng)估方法。簡(jiǎn)單來說,就是讓系統(tǒng)先從原始圖像生成編輯后的圖像,然后再從編輯后的圖像反向生成回到原始視角的圖像,最后比較這個(gè)"繞了一圈"的圖像與原始圖像的相似度。如果系統(tǒng)真的很好地保持了紋理信息,那么這個(gè)循環(huán)過程應(yīng)該能夠相當(dāng)準(zhǔn)確地重現(xiàn)原始圖像。實(shí)驗(yàn)結(jié)果顯示,系統(tǒng)在這個(gè)測(cè)試中獲得了18.7的PSNR值和0.874的SSIM值,這些數(shù)字在圖像質(zhì)量評(píng)估中被認(rèn)為是相當(dāng)優(yōu)秀的表現(xiàn)。
與現(xiàn)有方法的對(duì)比實(shí)驗(yàn)更加直觀地展示了系統(tǒng)的優(yōu)勢(shì)。研究團(tuán)隊(duì)將他們的方法與LooseControl進(jìn)行了詳細(xì)比較,后者是當(dāng)前在原始幾何控制方面表現(xiàn)最好的方法之一。對(duì)比實(shí)驗(yàn)使用了48張測(cè)試圖像,每張圖像都進(jìn)行了隨機(jī)的相機(jī)移動(dòng)操作。結(jié)果顯示,在幾何精度方面,研究團(tuán)隊(duì)的方法的誤差(7.2%)幾乎是LooseControl(14.3%)的一半。在紋理保真度方面,優(yōu)勢(shì)更加明顯:PSNR值高出12分,SSIM值高出0.2,這在圖像質(zhì)量評(píng)估中是非常顯著的改進(jìn)。
特別有意思的是相機(jī)移動(dòng)實(shí)驗(yàn)。這是現(xiàn)有方法普遍表現(xiàn)不佳的一個(gè)領(lǐng)域,因?yàn)楦淖兣臄z角度需要對(duì)整個(gè)場(chǎng)景進(jìn)行3D理解和重建。研究團(tuán)隊(duì)展示了多個(gè)相機(jī)移動(dòng)的例子:向左移動(dòng)、向右移動(dòng)、向上移動(dòng)、向下移動(dòng)、前進(jìn)和后退。在每個(gè)例子中,他們的系統(tǒng)都能生成幾何正確且紋理一致的新圖像,而對(duì)比方法往往會(huì)出現(xiàn)物體變形、數(shù)量改變或紋理丟失等問題。
一個(gè)特別引人注目的案例是蘋果場(chǎng)景的相機(jī)移動(dòng)。在原始圖像中有三個(gè)蘋果排成一行,當(dāng)相機(jī)向右移動(dòng)時(shí),LooseControl生成的圖像中蘋果的數(shù)量發(fā)生了變化,有些蘋果消失了,有些蘋果重復(fù)出現(xiàn)了。而研究團(tuán)隊(duì)的系統(tǒng)始終保持三個(gè)蘋果,只是從新的角度觀察它們,這正是用戶期望看到的結(jié)果。
系統(tǒng)在不同編輯粒度下的表現(xiàn)也得到了驗(yàn)證。使用少量積木塊(如6個(gè))時(shí),系統(tǒng)能夠進(jìn)行大范圍的布局調(diào)整,比如將整個(gè)物體從場(chǎng)景的一側(cè)移動(dòng)到另一側(cè)。使用大量積木塊(如60個(gè))時(shí),系統(tǒng)能夠進(jìn)行精細(xì)的局部調(diào)整,比如只改變物體的某個(gè)部分。這種靈活性為用戶提供了從粗粒度到細(xì)粒度的完整編輯能力。
實(shí)驗(yàn)還測(cè)試了系統(tǒng)處理不同類型編輯操作的能力。移動(dòng)操作的成功率最高,因?yàn)檫@只涉及空間位置的改變。縮放操作稍微復(fù)雜一些,但系統(tǒng)仍能保持良好的幾何一致性和紋理質(zhì)量。旋轉(zhuǎn)操作最具挑戰(zhàn)性,特別是大角度旋轉(zhuǎn),因?yàn)檫@會(huì)暴露物體原本不可見的表面。盡管如此,系統(tǒng)在大多數(shù)情況下仍能生成合理的結(jié)果。
在處理速度方面,系統(tǒng)的表現(xiàn)也是可以接受的。幾何體提取過程(包括網(wǎng)絡(luò)推理、優(yōu)化和渲染)通常需要1-3秒,具體時(shí)間取決于積木塊的數(shù)量。圖像生成過程在H100 GPU上需要大約3秒。雖然這個(gè)速度還達(dá)不到實(shí)時(shí)交互的要求,但已經(jīng)足夠支持迭代式的編輯工作流程。
研究團(tuán)隊(duì)還進(jìn)行了廣泛的應(yīng)用實(shí)驗(yàn),測(cè)試系統(tǒng)在不同類型場(chǎng)景和編輯任務(wù)中的表現(xiàn)。室內(nèi)場(chǎng)景(如客廳、廚房)通常表現(xiàn)最好,因?yàn)槲矬w邊界清晰,幾何關(guān)系相對(duì)簡(jiǎn)單。室外場(chǎng)景稍有挑戰(zhàn),特別是包含植被或復(fù)雜紋理的場(chǎng)景。人物場(chǎng)景是最具挑戰(zhàn)性的,因?yàn)槿梭w的復(fù)雜形狀很難用簡(jiǎn)單的幾何體準(zhǔn)確表示。
失敗案例的分析也很有價(jià)值。系統(tǒng)在處理透明物體、反射表面和復(fù)雜光照效應(yīng)時(shí)仍有困難。此外,當(dāng)積木塊分解質(zhì)量不高時(shí)(比如將兩個(gè)相鄰物體錯(cuò)誤地合并成一個(gè)積木塊),后續(xù)的編輯操作也會(huì)受到影響。這些限制為未來的改進(jìn)工作指明了方向。
用戶研究顯示,即使是沒有專業(yè)圖像編輯經(jīng)驗(yàn)的用戶也能快速掌握系統(tǒng)的使用方法。大多數(shù)用戶在簡(jiǎn)單演示后就能獨(dú)立完成基本的編輯任務(wù)。用戶特別贊賞系統(tǒng)的直觀性和可預(yù)測(cè)性:當(dāng)他們移動(dòng)一個(gè)積木塊時(shí),結(jié)果總是符合預(yù)期的。
這些全面的實(shí)驗(yàn)驗(yàn)證了"生成式積木世界"系統(tǒng)不僅在技術(shù)指標(biāo)上優(yōu)于現(xiàn)有方法,在實(shí)際應(yīng)用中也展現(xiàn)出了良好的可用性和可靠性。系統(tǒng)為圖像編輯領(lǐng)域帶來了一種全新的交互范式,讓復(fù)雜的3D編輯變得像玩積木一樣簡(jiǎn)單直觀。
六、應(yīng)用前景:從專業(yè)設(shè)計(jì)到日常創(chuàng)作的廣闊天地
"生成式積木世界"系統(tǒng)的問世為圖像創(chuàng)作和編輯領(lǐng)域開辟了全新的可能性,它的應(yīng)用前景就像一個(gè)多面的鉆石,在不同的光線下都能折射出迷人的光芒。這項(xiàng)技術(shù)不僅為專業(yè)設(shè)計(jì)師和創(chuàng)作者提供了強(qiáng)大的工具,更重要的是,它將原本復(fù)雜的3D圖像編輯變得如此簡(jiǎn)單,讓普通人也能輕松地實(shí)現(xiàn)自己的創(chuàng)意想法。
在專業(yè)設(shè)計(jì)領(lǐng)域,這個(gè)系統(tǒng)為設(shè)計(jì)師們帶來了前所未有的工作效率提升。室內(nèi)設(shè)計(jì)師可以用它來快速試驗(yàn)不同的家具布局方案,只需要拍攝一張房間照片,然后像重新擺放真實(shí)家具一樣移動(dòng)、調(diào)整照片中的物品。他們可以嘗試將沙發(fā)從客廳左側(cè)移到右側(cè),看看哪種布局更加協(xié)調(diào);可以調(diào)整茶幾的大小,測(cè)試不同尺寸的效果;甚至可以完全移除某件家具,觀察空間的開闊感。這種快速迭代的能力讓設(shè)計(jì)師能夠在很短時(shí)間內(nèi)探索大量的設(shè)計(jì)可能性,而不需要花費(fèi)大量時(shí)間進(jìn)行復(fù)雜的3D建?;?qū)I(yè)渲染。
產(chǎn)品設(shè)計(jì)師同樣從中受益匪淺。他們可以用這個(gè)系統(tǒng)來展示產(chǎn)品在不同環(huán)境中的效果,比如將一個(gè)新設(shè)計(jì)的臺(tái)燈放置在各種不同的桌面環(huán)境中,或者調(diào)整產(chǎn)品的角度來展示最佳的視覺效果。這種能力對(duì)于產(chǎn)品營(yíng)銷和客戶演示特別有價(jià)值,因?yàn)樗軌驇椭蛻舾庇^地理解產(chǎn)品在實(shí)際使用環(huán)境中的樣子。
建筑師和城市規(guī)劃師也發(fā)現(xiàn)了這個(gè)系統(tǒng)的獨(dú)特價(jià)值。雖然它主要處理室內(nèi)場(chǎng)景,但其基本原理可以擴(kuò)展到建筑外觀和城市景觀的設(shè)計(jì)中。建筑師可以用它來調(diào)整建筑物在周圍環(huán)境中的位置和朝向,規(guī)劃師可以用它來試驗(yàn)不同的空間布局方案。
在攝影和視覺藝術(shù)領(lǐng)域,這個(gè)系統(tǒng)為創(chuàng)作者提供了一種全新的"后期制作"可能性。攝影師不再需要在拍攝現(xiàn)場(chǎng)反復(fù)調(diào)整物體位置來獲得完美的構(gòu)圖,他們可以先拍攝,然后在后期進(jìn)行精確的空間調(diào)整。這種能力特別適合商業(yè)攝影,因?yàn)榕臄z現(xiàn)場(chǎng)的時(shí)間和條件往往有限,而后期的精細(xì)調(diào)整可以確保最終作品達(dá)到完美的視覺效果。
數(shù)字藝術(shù)家發(fā)現(xiàn)這個(gè)系統(tǒng)為他們的創(chuàng)作流程帶來了革命性的改變。傳統(tǒng)的數(shù)字藝術(shù)創(chuàng)作往往需要從零開始構(gòu)建3D場(chǎng)景,這個(gè)過程既耗時(shí)又需要專業(yè)技能。而現(xiàn)在,藝術(shù)家可以從現(xiàn)實(shí)照片開始,通過簡(jiǎn)單的積木式編輯來創(chuàng)造超現(xiàn)實(shí)的藝術(shù)作品。他們可以讓現(xiàn)實(shí)中不可能同時(shí)出現(xiàn)的物體組合在一起,創(chuàng)造出富有想象力的視覺奇觀。
教育領(lǐng)域也迎來了新的機(jī)遇。這個(gè)系統(tǒng)為空間幾何、透視原理、光影關(guān)系等抽象概念提供了直觀的演示工具。學(xué)生可以通過實(shí)際操作來理解3D空間的基本原理,觀察物體位置變化如何影響整個(gè)場(chǎng)景的視覺效果。這種交互式的學(xué)習(xí)方式比傳統(tǒng)的理論講解更加生動(dòng)有效。
在房地產(chǎn)行業(yè),這個(gè)技術(shù)開辟了虛擬房屋展示的新路徑。房地產(chǎn)經(jīng)紀(jì)人可以根據(jù)客戶的喜好動(dòng)態(tài)調(diào)整房間布局,展示不同裝修風(fēng)格的效果??蛻艨梢钥吹酵粋€(gè)空間在不同家具配置下的樣子,幫助他們更好地想象未來的居住體驗(yàn)。這種個(gè)性化的展示方式提高了客戶滿意度,也提升了銷售效率。
電商平臺(tái)也發(fā)現(xiàn)了這個(gè)技術(shù)的巨大價(jià)值。商家可以用它來展示產(chǎn)品在各種不同環(huán)境中的效果,讓客戶更好地理解產(chǎn)品的實(shí)際使用場(chǎng)景。一個(gè)家具商可以展示同一張桌子在現(xiàn)代簡(jiǎn)約風(fēng)格和傳統(tǒng)古典風(fēng)格房間中的不同效果,幫助客戶做出更明智的購買決定。
社交媒體和內(nèi)容創(chuàng)作領(lǐng)域也迎來了新的創(chuàng)作工具。內(nèi)容創(chuàng)作者可以用這個(gè)系統(tǒng)來制作更加吸引人的視覺內(nèi)容,比如創(chuàng)造有趣的空間錯(cuò)覺效果,或者展示物品的多種搭配可能性。這種新穎的視覺效果能夠在社交媒體上獲得更多的關(guān)注和互動(dòng)。
對(duì)于普通用戶來說,這個(gè)系統(tǒng)讓高端的圖像編輯能力變得觸手可及。一個(gè)普通的家庭主婦可以用它來重新布置家里的照片,看看客廳換個(gè)布局會(huì)是什么樣子;一個(gè)學(xué)生可以用它來美化自己的房間照片,創(chuàng)造理想中的生活空間;一個(gè)業(yè)余攝影愛好者可以用它來改善構(gòu)圖,讓自己的作品更加專業(yè)。
技術(shù)的發(fā)展也為這個(gè)系統(tǒng)帶來了更廣闊的應(yīng)用前景。隨著AR(增強(qiáng)現(xiàn)實(shí))和VR(虛擬現(xiàn)實(shí))技術(shù)的成熟,積木式編輯的概念可以擴(kuò)展到三維空間中的實(shí)時(shí)交互。用戶可以戴上AR眼鏡,直接在真實(shí)空間中進(jìn)行虛擬的家具布置,或者在VR環(huán)境中體驗(yàn)編輯后的效果。
移動(dòng)設(shè)備的普及也為這個(gè)技術(shù)的推廣提供了便利。隨著手機(jī)算力的不斷提升,未來完全有可能將這個(gè)系統(tǒng)移植到移動(dòng)平臺(tái)上,讓用戶隨時(shí)隨地進(jìn)行圖像編輯。這將進(jìn)一步降低使用門檻,讓更多人能夠享受到這項(xiàng)技術(shù)的便利。
云計(jì)算服務(wù)的發(fā)展為這個(gè)系統(tǒng)的商業(yè)化部署提供了理想的平臺(tái)。服務(wù)提供商可以將計(jì)算密集的部分放在云端,為用戶提供基于網(wǎng)頁或移動(dòng)應(yīng)用的輕量級(jí)界面。這種模式不僅降低了用戶的硬件要求,也為技術(shù)的持續(xù)改進(jìn)和更新提供了便利。
人工智能技術(shù)的不斷進(jìn)步也將進(jìn)一步增強(qiáng)這個(gè)系統(tǒng)的能力。未來的版本可能會(huì)具備更智能的場(chǎng)景理解能力,能夠自動(dòng)識(shí)別物體的類型和功能,提供更加精確的編輯建議。語音控制和自然語言交互也可能被整合進(jìn)來,讓用戶能夠通過語音命令來進(jìn)行編輯操作。
這個(gè)系統(tǒng)的出現(xiàn)不僅僅是一個(gè)技術(shù)突破,更重要的是它代表了人機(jī)交互方式的一次重要進(jìn)化。它將復(fù)雜的3D編輯操作轉(zhuǎn)化為直觀的積木式交互,體現(xiàn)了技術(shù)發(fā)展的最終目標(biāo):讓強(qiáng)大的功能變得簡(jiǎn)單易用,讓專業(yè)的工具變得普及可及。隨著這項(xiàng)技術(shù)的不斷成熟和推廣,我們有理由相信,它將為數(shù)字創(chuàng)作和視覺表達(dá)帶來一場(chǎng)深刻的革命。
Q&A
Q1:生成式積木世界是什么?它能做什么? A:生成式積木世界是一個(gè)圖像編輯系統(tǒng),它能將照片分解成3D積木塊,讓用戶像搭積木一樣移動(dòng)、縮放或刪除照片中的物體,同時(shí)保持原有質(zhì)感。系統(tǒng)還支持改變拍攝角度,生成從不同視角觀察場(chǎng)景的新圖片。
Q2:這個(gè)系統(tǒng)會(huì)不會(huì)取代傳統(tǒng)的圖像編輯軟件? A:目前不會(huì)完全取代,但會(huì)大大簡(jiǎn)化某些編輯任務(wù)。傳統(tǒng)軟件在細(xì)節(jié)處理和特效制作方面仍有優(yōu)勢(shì),但在3D空間編輯和物體重新布局方面,積木式編輯更加直觀高效。兩者更可能是互補(bǔ)關(guān)系。
Q3:普通人使用這個(gè)系統(tǒng)需要什么技術(shù)基礎(chǔ)? A:幾乎不需要專業(yè)技術(shù)基礎(chǔ)。系統(tǒng)的設(shè)計(jì)理念就是讓復(fù)雜的3D編輯變得像玩積木一樣簡(jiǎn)單。用戶只需要會(huì)基本的鼠標(biāo)操作,就能完成移動(dòng)、縮放等編輯任務(wù)。目前系統(tǒng)還在研究階段,未來商業(yè)化后會(huì)更加用戶友好。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。