av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 牛津大學(xué)團(tuán)隊(duì)打造"記憶大師":讓AI記住看過的每一幀畫面,創(chuàng)造無限虛擬世界

牛津大學(xué)團(tuán)隊(duì)打造"記憶大師":讓AI記住看過的每一幀畫面,創(chuàng)造無限虛擬世界

2025-06-26 12:51
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-26 12:51 ? 科技行者

這項(xiàng)由牛津大學(xué)計(jì)算機(jī)視覺實(shí)驗(yàn)室的李潤(rùn)佳、Philip Torr、Andrea Vedaldi和Tomas Jakab等研究人員共同完成的突破性研究,發(fā)表于2025年6月23日的計(jì)算機(jī)視覺頂級(jí)會(huì)議論文集(arXiv:2506.18903v1)。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過arXiv平臺(tái)訪問完整論文。這項(xiàng)研究首次解決了AI生成視頻時(shí)的"健忘癥"問題,讓人工智能能夠像人類一樣記住曾經(jīng)見過的場(chǎng)景,從而創(chuàng)造出前所未有的連貫虛擬世界。

想象你正在玩一個(gè)開放世界的電子游戲,從廚房走到客廳,再到臥室,最后又回到廚房。你期望廚房看起來和剛才離開時(shí)完全一樣,但如果游戲的AI有"健忘癥",你可能會(huì)發(fā)現(xiàn)廚房的布局完全變了樣。這正是當(dāng)前AI視頻生成技術(shù)面臨的核心挑戰(zhàn)。

現(xiàn)有的AI視頻生成技術(shù)就像一個(gè)患有短期記憶障礙的畫家。當(dāng)你要求它繪制一個(gè)房間的不同角度時(shí),它每次都像第一次看到這個(gè)房間一樣,無法保持前后一致。這導(dǎo)致生成的視頻在長(zhǎng)時(shí)間播放后會(huì)出現(xiàn)嚴(yán)重的畫面不連貫,物體位置隨意變化,甚至整個(gè)場(chǎng)景結(jié)構(gòu)都會(huì)發(fā)生扭曲。

牛津大學(xué)的研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)革命性的解決方案,他們稱之為"Surfel-Indexed View Memory"(簡(jiǎn)稱VMem),這就像給AI裝上了一個(gè)超級(jí)記憶系統(tǒng)。這個(gè)系統(tǒng)不僅能記住每一幀畫面,更重要的是能夠智能地理解哪些記憶對(duì)當(dāng)前要生成的畫面最有用。

VMem的工作原理可以比作一個(gè)經(jīng)驗(yàn)豐富的導(dǎo)游。當(dāng)導(dǎo)游帶你參觀一座博物館時(shí),他不會(huì)把所有房間的信息一股腦地告訴你,而是會(huì)根據(jù)你當(dāng)前所在的位置,有選擇性地分享最相關(guān)的信息。如果你正在參觀埃及展廳,他會(huì)重點(diǎn)介紹埃及文物的歷史,而不是隔壁希臘展廳的內(nèi)容。

這個(gè)記憶系統(tǒng)的核心在于一種叫做"表面元素"(surfels)的技術(shù)概念。可以把這些表面元素想象成場(chǎng)景中的"記憶錨點(diǎn)"。就像你在旅行時(shí)會(huì)在重要景點(diǎn)拍照留念一樣,VMem會(huì)在3D場(chǎng)景的關(guān)鍵表面位置設(shè)置這些記憶錨點(diǎn),每個(gè)錨點(diǎn)都記錄著曾經(jīng)從哪些角度觀察過這個(gè)位置。

當(dāng)AI需要生成新的視角時(shí),VMem首先會(huì)查看這個(gè)新視角能看到哪些表面區(qū)域,然后迅速找出之前拍攝過這些區(qū)域的最佳角度。這就像你想畫一幅靜物寫生,你不會(huì)隨意選擇參考照片,而是會(huì)挑選那些角度最合適、光線最好的照片作為參考。

這種方法的巧妙之處在于它并不需要構(gòu)建完美精確的3D模型。傳統(tǒng)的方法就像要求畫家在作畫前必須先制作一個(gè)完全準(zhǔn)確的雕塑模型,這不僅耗時(shí)費(fèi)力,而且任何小錯(cuò)誤都會(huì)影響最終作品。而VMem更像是一個(gè)聰明的攝影師,它只需要知道大概的空間關(guān)系,就能選出最合適的參考照片。

在具體實(shí)現(xiàn)上,研究團(tuán)隊(duì)使用了一種類似"拼貼畫"的技術(shù)。當(dāng)需要生成新畫面時(shí),系統(tǒng)會(huì)從記憶庫中選出最相關(guān)的幾張歷史畫面,然后像拼貼藝術(shù)家一樣,將這些畫面的精華部分融合成全新的視角。這個(gè)過程完全自動(dòng)化,而且速度很快。

為了驗(yàn)證這個(gè)系統(tǒng)的效果,研究團(tuán)隊(duì)設(shè)計(jì)了一系列嚴(yán)格的測(cè)試。他們讓AI生成長(zhǎng)達(dá)數(shù)百幀的視頻序列,并特意設(shè)計(jì)了"回到原點(diǎn)"的路徑。就像測(cè)試一個(gè)人的方向感,你蒙住他的眼睛帶他繞一圈,看他能否準(zhǔn)確回到起點(diǎn)。結(jié)果顯示,使用VMem的AI系統(tǒng)在回到起始位置時(shí),能夠幾乎完美地重現(xiàn)最初的場(chǎng)景,而傳統(tǒng)方法生成的場(chǎng)景則出現(xiàn)了明顯的變形和不一致。

研究團(tuán)隊(duì)還在多個(gè)不同類型的數(shù)據(jù)集上進(jìn)行了測(cè)試,包括室內(nèi)場(chǎng)景和戶外景觀。無論是復(fù)雜的室內(nèi)家具布局,還是宏偉的建筑景觀,VMem都展現(xiàn)出了優(yōu)異的一致性保持能力。特別是在處理遮擋關(guān)系時(shí),這個(gè)系統(tǒng)表現(xiàn)出了近乎人類的空間理解能力。

與現(xiàn)有技術(shù)相比,VMem在多個(gè)關(guān)鍵指標(biāo)上都取得了顯著提升。在畫面質(zhì)量方面,新方法生成的圖像更加清晰自然。在空間一致性方面,物體的位置和大小保持穩(wěn)定,不會(huì)出現(xiàn)隨意飄移的現(xiàn)象。最重要的是,在長(zhǎng)期一致性測(cè)試中,VMem展現(xiàn)出了前所未有的穩(wěn)定性,即使在生成數(shù)百幀的長(zhǎng)視頻后,畫面依然保持高度連貫。

這項(xiàng)技術(shù)的應(yīng)用前景極其廣闊。在虛擬現(xiàn)實(shí)領(lǐng)域,用戶可以在無限擴(kuò)展的虛擬世界中自由探索,而不用擔(dān)心場(chǎng)景突然變樣。在游戲開發(fā)方面,開發(fā)者可以用單張概念圖就生成完整的游戲關(guān)卡。在電影制作中,導(dǎo)演可以從一個(gè)靜態(tài)場(chǎng)景圖像出發(fā),創(chuàng)造出復(fù)雜的運(yùn)鏡序列。

當(dāng)然,這項(xiàng)技術(shù)也面臨一些挑戰(zhàn)。目前系統(tǒng)主要在室內(nèi)場(chǎng)景上進(jìn)行了訓(xùn)練,對(duì)于復(fù)雜的自然景觀或包含大量運(yùn)動(dòng)物體的場(chǎng)景,效果可能會(huì)有所下降。此外,由于使用了擴(kuò)散模型技術(shù),單幀畫面的生成速度還不能達(dá)到實(shí)時(shí)要求,這在一定程度上限制了其在實(shí)時(shí)交互應(yīng)用中的使用。

研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前評(píng)估方法的局限性。由于缺乏專門針對(duì)長(zhǎng)期一致性的標(biāo)準(zhǔn)化測(cè)試基準(zhǔn),他們主要使用循環(huán)路徑測(cè)試作為評(píng)估手段。雖然這種方法有效,但相對(duì)簡(jiǎn)單,無法完全展現(xiàn)VMem在處理復(fù)雜遮擋關(guān)系方面的全部潛力。

盡管存在這些限制,VMem代表了AI視頻生成技術(shù)的一個(gè)重要里程碑。它首次實(shí)現(xiàn)了真正意義上的"有記憶"視頻生成,為創(chuàng)建一致性虛擬世界提供了可行的技術(shù)路徑。隨著計(jì)算能力的提升和訓(xùn)練數(shù)據(jù)的豐富,這項(xiàng)技術(shù)有望在不久的將來實(shí)現(xiàn)更廣泛的應(yīng)用。

從技術(shù)實(shí)現(xiàn)的角度來看,VMem的設(shè)計(jì)理念極其巧妙。它沒有試圖解決3D重建的所有技術(shù)難題,而是聚焦于解決視頻生成中的一致性問題。這種"夠用就好"的工程哲學(xué)體現(xiàn)了研究團(tuán)隊(duì)的務(wù)實(shí)態(tài)度。系統(tǒng)只需要粗略的幾何信息就能有效工作,這大大降低了技術(shù)實(shí)現(xiàn)的復(fù)雜度和計(jì)算成本。

在具體的技術(shù)架構(gòu)上,VMem采用了模塊化設(shè)計(jì),可以輕松集成到現(xiàn)有的視頻生成流水線中。這意味著其他研究團(tuán)隊(duì)和開發(fā)者可以相對(duì)容易地將這項(xiàng)技術(shù)應(yīng)用到自己的項(xiàng)目中。這種開放性設(shè)計(jì)理念有助于推動(dòng)整個(gè)領(lǐng)域的快速發(fā)展。

實(shí)驗(yàn)結(jié)果顯示,VMem在保持高畫質(zhì)的同時(shí)顯著提升了生成效率。傳統(tǒng)方法需要在每一幀生成時(shí)考慮所有歷史信息,計(jì)算復(fù)雜度隨著序列長(zhǎng)度平方級(jí)增長(zhǎng)。而VMem通過智能選擇最相關(guān)的歷史信息,將計(jì)算復(fù)雜度控制在可管理的范圍內(nèi)。

研究團(tuán)隊(duì)在論文中詳細(xì)比較了VMem與多種現(xiàn)有方法的性能。在短期生成任務(wù)中,VMem在所有主要指標(biāo)上都優(yōu)于競(jìng)爭(zhēng)對(duì)手。在長(zhǎng)期生成任務(wù)中,這種優(yōu)勢(shì)更加明顯。特別是在循環(huán)路徑測(cè)試中,VMem生成的視頻在返回起始點(diǎn)時(shí)幾乎能夠完美重現(xiàn)原始場(chǎng)景,而其他方法都出現(xiàn)了不同程度的漂移現(xiàn)象。

值得一提的是,VMem的記憶機(jī)制還具有一定的抗噪能力。即使在輸入的幾何信息存在誤差的情況下,系統(tǒng)依然能夠選擇出合適的參考視角。這種魯棒性來源于其基于投票的視角選擇機(jī)制,多個(gè)記憶錨點(diǎn)的共同作用能夠有效過濾掉單個(gè)錨點(diǎn)的錯(cuò)誤信息。

從更廣闊的視角來看,VMem的成功為人工智能的記憶機(jī)制研究提供了新的思路。傳統(tǒng)的AI系統(tǒng)往往依賴于端到端的學(xué)習(xí),試圖讓模型自動(dòng)學(xué)會(huì)所有必要的能力。而VMem展示了顯式記憶結(jié)構(gòu)的價(jià)值,證明了在某些任務(wù)中,精心設(shè)計(jì)的記憶機(jī)制可能比純粹的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)更加有效。

說到底,VMem的出現(xiàn)標(biāo)志著AI視頻生成技術(shù)從"無狀態(tài)"向"有記憶"的重要轉(zhuǎn)變。就像人類的認(rèn)知能力離不開記憶一樣,真正智能的AI系統(tǒng)也需要具備有效的記憶機(jī)制。VMem不僅解決了當(dāng)前視頻生成中的技術(shù)難題,更重要的是為構(gòu)建更智能、更一致的AI系統(tǒng)指明了方向。隨著這項(xiàng)技術(shù)的不斷完善和推廣應(yīng)用,我們有理由期待在不久的將來能夠看到更加逼真、更加連貫的AI生成內(nèi)容,為虛擬現(xiàn)實(shí)、游戲娛樂、影視制作等眾多領(lǐng)域帶來革命性的變化。對(duì)于普通用戶而言,這意味著更加沉浸式的數(shù)字體驗(yàn)和更加豐富的創(chuàng)作可能性。

Q&A

Q1:VMem是什么?它解決了什么問題? A:VMem是牛津大學(xué)開發(fā)的AI視頻生成記憶系統(tǒng),解決了AI生成長(zhǎng)視頻時(shí)畫面不連貫的問題。就像給AI裝上了記憶,讓它能記住之前生成的畫面,確保從不同角度看同一個(gè)場(chǎng)景時(shí)保持一致,不會(huì)出現(xiàn)物體隨意變形或消失的情況。

Q2:這項(xiàng)技術(shù)會(huì)不會(huì)很快用到游戲和電影中? A:技術(shù)前景很好,但目前還有限制。VMem主要在室內(nèi)場(chǎng)景表現(xiàn)優(yōu)秀,生成單幀需要4秒多時(shí)間,還達(dá)不到實(shí)時(shí)要求。不過隨著計(jì)算能力提升,預(yù)計(jì)幾年內(nèi)就能在游戲關(guān)卡設(shè)計(jì)、電影預(yù)覽等非實(shí)時(shí)場(chǎng)景中開始應(yīng)用。

Q3:普通人能用上這個(gè)技術(shù)嗎?需要什么條件? A:目前還不能直接使用,但研究團(tuán)隊(duì)已經(jīng)開源了相關(guān)代碼。普通用戶需要等待商業(yè)化產(chǎn)品,或者具備一定技術(shù)背景才能部署使用。隨著技術(shù)成熟,未來可能會(huì)出現(xiàn)基于VMem的消費(fèi)級(jí)視頻創(chuàng)作工具。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-