av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

清華大學(xué)團(tuán)隊打造3D世界的"智能向?qū)?quot;：讓機(jī)器人看圖就能找到任何地方

人工智能3D高斯點云機(jī)器人導(dǎo)航

清華大學(xué)團(tuán)隊打造3D世界的"智能向?qū)?quot;：讓機(jī)器人看圖就能找到任何地方

作者：科技行者

2025-08-07 10:20

分享至：

清華大學(xué)團(tuán)隊開發(fā)的IGL-Nav系統(tǒng)實現(xiàn)了機(jī)器人圖像導(dǎo)航的重大突破，讓機(jī)器人能夠僅通過一張任意角度拍攝的照片準(zhǔn)確找到拍攝地點。該系統(tǒng)采用3D高斯點云技術(shù)進(jìn)行實時場景重建，結(jié)合粗定位到精定位的分層策略，在傳統(tǒng)和自由視角導(dǎo)航任務(wù)中都顯著超越現(xiàn)有方法。系統(tǒng)已成功部署到真實機(jī)器人平臺，展現(xiàn)出強(qiáng)大的泛化能力和實用價值。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-08-07 10:20 ? 科技行者

這項由清華大學(xué)計算機(jī)系郭文軒、徐修維、尹航等研究人員與南洋理工大學(xué)王子威合作完成的研究，發(fā)表于2025年8月的arXiv預(yù)印本平臺。有興趣深入了解的讀者可以通過項目主頁https://gwxuan.github.io/IGL-Nav/訪問完整論文和演示材料。

當(dāng)你在一個陌生的商場里迷路時，你會掏出手機(jī)找到目標(biāo)商店的照片，然后按圖索驥找到那里?，F(xiàn)在，清華大學(xué)的研究團(tuán)隊讓機(jī)器人也擁有了這種能力，而且比人類更加精準(zhǔn)。他們開發(fā)的IGL-Nav系統(tǒng)，能夠讓機(jī)器人僅僅通過一張照片，就在完全陌生的環(huán)鏡中準(zhǔn)確找到拍攝地點。

傳統(tǒng)的機(jī)器人導(dǎo)航就像是一個只會看地圖的司機(jī)，需要預(yù)先知道所有道路信息。而這個新系統(tǒng)更像是一個經(jīng)驗豐富的探險家，能夠一邊探索未知環(huán)境，一邊建立3D地圖，同時準(zhǔn)確定位目標(biāo)照片的拍攝位置。更令人驚訝的是，這張目標(biāo)照片可以用任何相機(jī)在任何角度拍攝，甚至可以是用手機(jī)隨手拍的一張照片。

一、現(xiàn)有導(dǎo)航技術(shù)的瓶頸

目前的機(jī)器人圖像導(dǎo)航技術(shù)面臨著一個根本性矛盾。一方面，傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法就像是讓一個人在完全黑暗中反復(fù)碰壁來學(xué)會走路，效率極低且容易忘記之前學(xué)到的東西。另一方面，基于地圖的方法雖然更加可靠，但它們構(gòu)建的地圖就像是平面圖紙，缺乏真實世界的立體信息。

以往最先進(jìn)的RNR-Map系統(tǒng)雖然嘗試用神經(jīng)輻射場技術(shù)來構(gòu)建可渲染的地圖，但這種方法就像是把一個立體的房間壓扁成一張平面圖。這種"壓扁"的處理方式導(dǎo)致了一個嚴(yán)重問題：目標(biāo)照片必須是水平拍攝的，就像傳統(tǒng)相機(jī)只能水平拍照一樣。但在現(xiàn)實生活中，人們拍照時會有各種角度，可能仰拍、俯拍，或者傾斜拍攝。

更關(guān)鍵的是，這些傳統(tǒng)方法需要大量的計算時間來優(yōu)化神經(jīng)網(wǎng)絡(luò)，就像是每次畫一幅畫都要重新學(xué)習(xí)繪畫技巧一樣低效。在機(jī)器人需要實時決策的場景中，這種延遲是不可接受的。

二、3D高斯點云的革命性應(yīng)用

清華團(tuán)隊選擇了3D高斯點云技術(shù)作為解決方案的核心。如果把傳統(tǒng)的神經(jīng)輻射場比作用無數(shù)個小畫筆在空中作畫，那么3D高斯點云就像是用無數(shù)個發(fā)光的小球來重建現(xiàn)實世界。每個小球都有自己的位置、顏色、透明度和形狀信息，它們組合在一起就能精確重現(xiàn)三維場景。

這種方法的優(yōu)勢就像是樂高積木與傳統(tǒng)雕塑的區(qū)別。傳統(tǒng)方法需要精雕細(xì)琢每一個細(xì)節(jié)，而3D高斯點云則可以快速組裝，還能隨時調(diào)整。當(dāng)機(jī)器人看到新的場景時，系統(tǒng)能夠立即預(yù)測出對應(yīng)的高斯點云參數(shù)，而不需要像傳統(tǒng)方法那樣進(jìn)行耗時的優(yōu)化過程。

研究團(tuán)隊設(shè)計了一個特殊的神經(jīng)網(wǎng)絡(luò)，能夠直接從RGB-D圖像（帶有深度信息的彩色圖像）預(yù)測出高斯點云的所有參數(shù)。這個過程就像是一個經(jīng)驗豐富的建筑師，僅僅看一眼房間就能立即畫出完整的3D結(jié)構(gòu)圖。網(wǎng)絡(luò)首先提取圖像的特征信息，然后通過專門的"高斯頭部"模塊預(yù)測每個像素對應(yīng)的3D高斯參數(shù)，包括位置、不透明度、協(xié)方差矩陣和球諧函數(shù)系數(shù)。

三、分層定位策略：從粗略到精確

面對6自由度相機(jī)姿態(tài)的巨大搜索空間，研究團(tuán)隊提出了一個巧妙的"粗定位到精定位"策略。這就像是在大海中尋找一座小島，先用望遠(yuǎn)鏡找到大致方向，再用精密儀器確定準(zhǔn)確位置。

在粗定位階段，系統(tǒng)采用了一個基于球面坐標(biāo)的巧妙設(shè)計。研究人員觀察到，人們拍照時相機(jī)頂部邊緣通常與地面平行，基于這個觀察，他們將6自由度的相機(jī)姿態(tài)簡化為5維空間：3維位置加上2維旋轉(zhuǎn)角度。這種簡化就像是把復(fù)雜的立體幾何問題轉(zhuǎn)換為相對簡單的球面幾何問題。

系統(tǒng)將3D空間離散化為體素網(wǎng)格，同時將目標(biāo)圖像的方向離散化為球面上的多個點。通過將目標(biāo)圖像在不同方向上的3D特征與場景特征進(jìn)行匹配，系統(tǒng)能夠快速找到最可能的目標(biāo)位置。這個過程被巧妙地轉(zhuǎn)換為3D卷積運算，大大提高了計算效率。

當(dāng)機(jī)器人通過粗定位接近目標(biāo)區(qū)域后，系統(tǒng)會啟動精定位模式。這時，系統(tǒng)使用一個基于渲染的停止器來判斷目標(biāo)是否出現(xiàn)在視野中。一旦確認(rèn)目標(biāo)在視野內(nèi)，系統(tǒng)就會啟動基于微分渲染的優(yōu)化過程，通過匹配渲染圖像與目標(biāo)圖像來精確確定相機(jī)姿態(tài)。

四、漸進(jìn)式場景重建

傳統(tǒng)的3D重建方法需要收集完整的圖像序列后再進(jìn)行離線優(yōu)化，就像是必須拍完所有照片才能沖洗膠卷。而IGL-Nav系統(tǒng)采用了漸進(jìn)式重建策略，能夠像拍立得相機(jī)一樣即拍即現(xiàn)。

當(dāng)機(jī)器人每接收到一幀新的RGB-D圖像時，系統(tǒng)立即通過前饋神經(jīng)網(wǎng)絡(luò)預(yù)測對應(yīng)的高斯點云參數(shù)。這些新的高斯點被直接添加到現(xiàn)有的場景表示中，同時系統(tǒng)會根據(jù)不透明度和點云密度對冗余的高斯點進(jìn)行修剪，確保內(nèi)存使用的高效性。

這種增量式更新機(jī)制使得系統(tǒng)能夠在探索過程中同步建立場景模型，不需要額外的離線處理時間。相應(yīng)的3D特征嵌入也會同步更新，為后續(xù)的目標(biāo)定位提供實時的場景信息。

五、導(dǎo)航?jīng)Q策與路徑規(guī)劃

整個導(dǎo)航過程分為兩個階段：探索發(fā)現(xiàn)和目標(biāo)到達(dá)。在探索階段，系統(tǒng)結(jié)合粗定位結(jié)果和前沿探索策略來指導(dǎo)機(jī)器人的移動。系統(tǒng)維護(hù)一個在線占用地圖，標(biāo)識已探索、未探索和障礙區(qū)域。

當(dāng)粗定位模塊給出的激活得分超過預(yù)設(shè)閾值時，機(jī)器人會優(yōu)先探索得分最高的區(qū)域。如果所有區(qū)域的得分都很低，系統(tǒng)會選擇最近的前沿區(qū)域繼續(xù)探索。這種策略既保證了目標(biāo)搜索的效率，又確保了對環(huán)境的充分探索。

一旦基于渲染的停止器檢測到目標(biāo)出現(xiàn)在視野中，系統(tǒng)立即切換到精定位模式。通過優(yōu)化相機(jī)姿態(tài)，系統(tǒng)能夠準(zhǔn)確計算出目標(biāo)照片的拍攝位置，然后使用快速行進(jìn)法進(jìn)行路徑規(guī)劃，引導(dǎo)機(jī)器人到達(dá)目標(biāo)位置。

六、實驗驗證與性能表現(xiàn)

研究團(tuán)隊在Gibson數(shù)據(jù)集上進(jìn)行了廣泛的實驗驗證。在傳統(tǒng)的圖像目標(biāo)導(dǎo)航任務(wù)中，IGL-Nav在所有難度級別上都顯著超越了現(xiàn)有的最先進(jìn)方法。在直線路徑的總體成功率達(dá)到76.8%，在彎曲路徑的總體成功率達(dá)到73.5%，相比之前的最佳方法分別提升了8.6%和7.8%。

更令人印象深刻的是在自由視角圖像目標(biāo)導(dǎo)航任務(wù)上的表現(xiàn)。這是一個更加貼近現(xiàn)實應(yīng)用的任務(wù)設(shè)置，允許目標(biāo)圖像從任意角度和高度拍攝。在這個更具挑戰(zhàn)性的任務(wù)中，IGL-Nav的性能依然保持領(lǐng)先。即使在零樣本轉(zhuǎn)移的情況下（直接將在傳統(tǒng)任務(wù)上訓(xùn)練的模型應(yīng)用到新任務(wù)），IGL-Nav的表現(xiàn)仍然超過了其他方法在監(jiān)督學(xué)習(xí)條件下的結(jié)果。

研究團(tuán)隊還分析了系統(tǒng)各個模塊的貢獻(xiàn)。實驗顯示，使用3級細(xì)分的球面離散化能夠在精度和計算效率之間取得最佳平衡?；?D高斯渲染的停止器和匹配約束優(yōu)化顯著優(yōu)于傳統(tǒng)的基于特征匹配的方法。

七、真實世界部署

為了驗證系統(tǒng)的實際應(yīng)用價值，研究團(tuán)隊將IGL-Nav部署到了真實的機(jī)器人平臺上。他們使用手機(jī)隨意拍攝的照片作為目標(biāo)圖像，測試機(jī)器人在復(fù)雜室內(nèi)環(huán)境中的導(dǎo)航能力。

實驗結(jié)果表明，盡管模型完全基于仿真數(shù)據(jù)訓(xùn)練，沒有在真實世界數(shù)據(jù)上進(jìn)行任何微調(diào)，IGL-Nav依然能夠成功引導(dǎo)機(jī)器人到達(dá)目標(biāo)位置。這種強(qiáng)大的泛化能力源于3D高斯表示的顯式性質(zhì)和系統(tǒng)設(shè)計的通用性。

在實際部署中，系統(tǒng)能夠處理各種實際挑戰(zhàn)，包括光照變化、視角差異和環(huán)境動態(tài)性。機(jī)器人能夠建立高質(zhì)量的3D場景重建，準(zhǔn)確定位手機(jī)拍攝的自由視角目標(biāo)圖像，并成功導(dǎo)航到目標(biāo)位置。

八、技術(shù)創(chuàng)新與突破

IGL-Nav系統(tǒng)的核心創(chuàng)新在于首次將前饋式3D高斯點云技術(shù)應(yīng)用于圖像目標(biāo)導(dǎo)航任務(wù)。相比傳統(tǒng)的隱式表示方法，3D高斯點云提供了更高的渲染效率和更強(qiáng)的幾何表達(dá)能力。系統(tǒng)能夠在保持高精度的同時實現(xiàn)實時性能，這在以往的方法中是難以同時滿足的。

分層定位策略的設(shè)計也展現(xiàn)了研究團(tuán)隊的深刻洞察。通過將復(fù)雜的6自由度搜索問題分解為粗定位和精定位兩個階段，系統(tǒng)不僅提高了計算效率，還增強(qiáng)了定位的魯棒性。粗定位階段的3D卷積實現(xiàn)特別巧妙，將點云匹配問題轉(zhuǎn)換為高效的并行計算問題。

此外，系統(tǒng)對自由視角圖像目標(biāo)導(dǎo)航任務(wù)的支持填補(bǔ)了該領(lǐng)域的一個重要空白。傳統(tǒng)方法通常假設(shè)目標(biāo)圖像必須由機(jī)器人相機(jī)拍攝，這嚴(yán)重限制了實際應(yīng)用的靈活性。IGL-Nav打破了這一限制，使得任何相機(jī)拍攝的圖像都可以作為導(dǎo)航目標(biāo)。

九、局限性與未來發(fā)展

盡管IGL-Nav在多個方面取得了突破，但系統(tǒng)仍然存在一些局限性。目前系統(tǒng)需要目標(biāo)圖像的深度信息和相機(jī)內(nèi)參，雖然可以通過單目深度估計來預(yù)測這些信息，但這會引入一定的誤差。未來的改進(jìn)方向包括開發(fā)更加魯棒的單目深度估計方法，或者設(shè)計不依賴深度信息的定位策略。

另一個潛在的改進(jìn)方向是處理動態(tài)環(huán)境的能力。當(dāng)前系統(tǒng)主要針對靜態(tài)場景設(shè)計，對于包含移動物體的環(huán)境可能需要額外的處理機(jī)制。此外，在大規(guī)模環(huán)境中的內(nèi)存管理和計算效率優(yōu)化也是值得進(jìn)一步研究的問題。

從應(yīng)用角度來看，IGL-Nav為服務(wù)機(jī)器人、自動導(dǎo)航和增強(qiáng)現(xiàn)實等領(lǐng)域開辟了新的可能性。系統(tǒng)的實時性和高精度使其特別適合需要快速響應(yīng)的實際應(yīng)用場景。隨著硬件計算能力的不斷提升和算法的進(jìn)一步優(yōu)化，這類技術(shù)有望在更廣泛的場景中得到應(yīng)用。

說到底，IGL-Nav系統(tǒng)代表了圖像目標(biāo)導(dǎo)航技術(shù)的一個重要里程碑。它不僅在技術(shù)上實現(xiàn)了多項突破，更重要的是為這一領(lǐng)域指明了新的發(fā)展方向。通過將顯式3D表示與高效定位策略相結(jié)合，該系統(tǒng)證明了在保持高性能的同時實現(xiàn)實時導(dǎo)航是完全可能的。對于普通人而言，這項技術(shù)意味著未來的機(jī)器人助手將能夠更好地理解和導(dǎo)航我們的生活環(huán)境，僅僅通過一張照片就能準(zhǔn)確找到任何我們想要去的地方。這種能力將在老人護(hù)理、殘障輔助、智能家居等眾多領(lǐng)域產(chǎn)生深遠(yuǎn)影響，讓技術(shù)真正服務(wù)于改善人類的生活質(zhì)量。

Q&A

Q1：IGL-Nav系統(tǒng)是什么？它能解決什么問題？

A：IGL-Nav是清華大學(xué)開發(fā)的機(jī)器人圖像導(dǎo)航系統(tǒng)，能讓機(jī)器人僅通過一張照片就找到拍攝地點。它解決了傳統(tǒng)導(dǎo)航方法需要預(yù)先建圖、只能處理水平拍攝照片等限制，支持任意角度拍攝的照片作為導(dǎo)航目標(biāo)。

Q2：3D高斯點云技術(shù)比傳統(tǒng)方法有什么優(yōu)勢？

A：3D高斯點云就像用發(fā)光小球重建現(xiàn)實世界，比傳統(tǒng)神經(jīng)輻射場更高效。它能實時預(yù)測場景參數(shù)，不需要耗時的離線優(yōu)化，同時保持高質(zhì)量的3D重建和渲染效果，特別適合機(jī)器人實時導(dǎo)航需求。

Q3：這個系統(tǒng)在現(xiàn)實中有什么實際應(yīng)用？

A：IGL-Nav已在真實機(jī)器人上成功部署，能處理手機(jī)隨拍的照片作為目標(biāo)。未來可應(yīng)用于服務(wù)機(jī)器人、老人護(hù)理、殘障輔助、智能家居等領(lǐng)域，讓機(jī)器人助手更好地理解和導(dǎo)航生活環(huán)境。

人工智能3D高斯點云機(jī)器人導(dǎo)航

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團(tuán)隊AudioStory突破性進(jìn)展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運動信息，顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團(tuán)隊AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團(tuán)隊AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<u id="euiso"></u>

<blockquote id="euiso"></blockquote>

<var id="euiso"><strong id="euiso"></strong></var>