這項由清華大學(xué)計算機(jī)系郭文軒、徐修維、尹航等研究人員與南洋理工大學(xué)王子威合作完成的研究,發(fā)表于2025年8月的arXiv預(yù)印本平臺。有興趣深入了解的讀者可以通過項目主頁https://gwxuan.github.io/IGL-Nav/訪問完整論文和演示材料。
當(dāng)你在一個陌生的商場里迷路時,你會掏出手機(jī)找到目標(biāo)商店的照片,然后按圖索驥找到那里?,F(xiàn)在,清華大學(xué)的研究團(tuán)隊讓機(jī)器人也擁有了這種能力,而且比人類更加精準(zhǔn)。他們開發(fā)的IGL-Nav系統(tǒng),能夠讓機(jī)器人僅僅通過一張照片,就在完全陌生的環(huán)鏡中準(zhǔn)確找到拍攝地點。
傳統(tǒng)的機(jī)器人導(dǎo)航就像是一個只會看地圖的司機(jī),需要預(yù)先知道所有道路信息。而這個新系統(tǒng)更像是一個經(jīng)驗豐富的探險家,能夠一邊探索未知環(huán)境,一邊建立3D地圖,同時準(zhǔn)確定位目標(biāo)照片的拍攝位置。更令人驚訝的是,這張目標(biāo)照片可以用任何相機(jī)在任何角度拍攝,甚至可以是用手機(jī)隨手拍的一張照片。
一、現(xiàn)有導(dǎo)航技術(shù)的瓶頸
目前的機(jī)器人圖像導(dǎo)航技術(shù)面臨著一個根本性矛盾。一方面,傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法就像是讓一個人在完全黑暗中反復(fù)碰壁來學(xué)會走路,效率極低且容易忘記之前學(xué)到的東西。另一方面,基于地圖的方法雖然更加可靠,但它們構(gòu)建的地圖就像是平面圖紙,缺乏真實世界的立體信息。
以往最先進(jìn)的RNR-Map系統(tǒng)雖然嘗試用神經(jīng)輻射場技術(shù)來構(gòu)建可渲染的地圖,但這種方法就像是把一個立體的房間壓扁成一張平面圖。這種"壓扁"的處理方式導(dǎo)致了一個嚴(yán)重問題:目標(biāo)照片必須是水平拍攝的,就像傳統(tǒng)相機(jī)只能水平拍照一樣。但在現(xiàn)實生活中,人們拍照時會有各種角度,可能仰拍、俯拍,或者傾斜拍攝。
更關(guān)鍵的是,這些傳統(tǒng)方法需要大量的計算時間來優(yōu)化神經(jīng)網(wǎng)絡(luò),就像是每次畫一幅畫都要重新學(xué)習(xí)繪畫技巧一樣低效。在機(jī)器人需要實時決策的場景中,這種延遲是不可接受的。
二、3D高斯點云的革命性應(yīng)用
清華團(tuán)隊選擇了3D高斯點云技術(shù)作為解決方案的核心。如果把傳統(tǒng)的神經(jīng)輻射場比作用無數(shù)個小畫筆在空中作畫,那么3D高斯點云就像是用無數(shù)個發(fā)光的小球來重建現(xiàn)實世界。每個小球都有自己的位置、顏色、透明度和形狀信息,它們組合在一起就能精確重現(xiàn)三維場景。
這種方法的優(yōu)勢就像是樂高積木與傳統(tǒng)雕塑的區(qū)別。傳統(tǒng)方法需要精雕細(xì)琢每一個細(xì)節(jié),而3D高斯點云則可以快速組裝,還能隨時調(diào)整。當(dāng)機(jī)器人看到新的場景時,系統(tǒng)能夠立即預(yù)測出對應(yīng)的高斯點云參數(shù),而不需要像傳統(tǒng)方法那樣進(jìn)行耗時的優(yōu)化過程。
研究團(tuán)隊設(shè)計了一個特殊的神經(jīng)網(wǎng)絡(luò),能夠直接從RGB-D圖像(帶有深度信息的彩色圖像)預(yù)測出高斯點云的所有參數(shù)。這個過程就像是一個經(jīng)驗豐富的建筑師,僅僅看一眼房間就能立即畫出完整的3D結(jié)構(gòu)圖。網(wǎng)絡(luò)首先提取圖像的特征信息,然后通過專門的"高斯頭部"模塊預(yù)測每個像素對應(yīng)的3D高斯參數(shù),包括位置、不透明度、協(xié)方差矩陣和球諧函數(shù)系數(shù)。
三、分層定位策略:從粗略到精確
面對6自由度相機(jī)姿態(tài)的巨大搜索空間,研究團(tuán)隊提出了一個巧妙的"粗定位到精定位"策略。這就像是在大海中尋找一座小島,先用望遠(yuǎn)鏡找到大致方向,再用精密儀器確定準(zhǔn)確位置。
在粗定位階段,系統(tǒng)采用了一個基于球面坐標(biāo)的巧妙設(shè)計。研究人員觀察到,人們拍照時相機(jī)頂部邊緣通常與地面平行,基于這個觀察,他們將6自由度的相機(jī)姿態(tài)簡化為5維空間:3維位置加上2維旋轉(zhuǎn)角度。這種簡化就像是把復(fù)雜的立體幾何問題轉(zhuǎn)換為相對簡單的球面幾何問題。
系統(tǒng)將3D空間離散化為體素網(wǎng)格,同時將目標(biāo)圖像的方向離散化為球面上的多個點。通過將目標(biāo)圖像在不同方向上的3D特征與場景特征進(jìn)行匹配,系統(tǒng)能夠快速找到最可能的目標(biāo)位置。這個過程被巧妙地轉(zhuǎn)換為3D卷積運算,大大提高了計算效率。
當(dāng)機(jī)器人通過粗定位接近目標(biāo)區(qū)域后,系統(tǒng)會啟動精定位模式。這時,系統(tǒng)使用一個基于渲染的停止器來判斷目標(biāo)是否出現(xiàn)在視野中。一旦確認(rèn)目標(biāo)在視野內(nèi),系統(tǒng)就會啟動基于微分渲染的優(yōu)化過程,通過匹配渲染圖像與目標(biāo)圖像來精確確定相機(jī)姿態(tài)。
四、漸進(jìn)式場景重建
傳統(tǒng)的3D重建方法需要收集完整的圖像序列后再進(jìn)行離線優(yōu)化,就像是必須拍完所有照片才能沖洗膠卷。而IGL-Nav系統(tǒng)采用了漸進(jìn)式重建策略,能夠像拍立得相機(jī)一樣即拍即現(xiàn)。
當(dāng)機(jī)器人每接收到一幀新的RGB-D圖像時,系統(tǒng)立即通過前饋神經(jīng)網(wǎng)絡(luò)預(yù)測對應(yīng)的高斯點云參數(shù)。這些新的高斯點被直接添加到現(xiàn)有的場景表示中,同時系統(tǒng)會根據(jù)不透明度和點云密度對冗余的高斯點進(jìn)行修剪,確保內(nèi)存使用的高效性。
這種增量式更新機(jī)制使得系統(tǒng)能夠在探索過程中同步建立場景模型,不需要額外的離線處理時間。相應(yīng)的3D特征嵌入也會同步更新,為后續(xù)的目標(biāo)定位提供實時的場景信息。
五、導(dǎo)航?jīng)Q策與路徑規(guī)劃
整個導(dǎo)航過程分為兩個階段:探索發(fā)現(xiàn)和目標(biāo)到達(dá)。在探索階段,系統(tǒng)結(jié)合粗定位結(jié)果和前沿探索策略來指導(dǎo)機(jī)器人的移動。系統(tǒng)維護(hù)一個在線占用地圖,標(biāo)識已探索、未探索和障礙區(qū)域。
當(dāng)粗定位模塊給出的激活得分超過預(yù)設(shè)閾值時,機(jī)器人會優(yōu)先探索得分最高的區(qū)域。如果所有區(qū)域的得分都很低,系統(tǒng)會選擇最近的前沿區(qū)域繼續(xù)探索。這種策略既保證了目標(biāo)搜索的效率,又確保了對環(huán)境的充分探索。
一旦基于渲染的停止器檢測到目標(biāo)出現(xiàn)在視野中,系統(tǒng)立即切換到精定位模式。通過優(yōu)化相機(jī)姿態(tài),系統(tǒng)能夠準(zhǔn)確計算出目標(biāo)照片的拍攝位置,然后使用快速行進(jìn)法進(jìn)行路徑規(guī)劃,引導(dǎo)機(jī)器人到達(dá)目標(biāo)位置。
六、實驗驗證與性能表現(xiàn)
研究團(tuán)隊在Gibson數(shù)據(jù)集上進(jìn)行了廣泛的實驗驗證。在傳統(tǒng)的圖像目標(biāo)導(dǎo)航任務(wù)中,IGL-Nav在所有難度級別上都顯著超越了現(xiàn)有的最先進(jìn)方法。在直線路徑的總體成功率達(dá)到76.8%,在彎曲路徑的總體成功率達(dá)到73.5%,相比之前的最佳方法分別提升了8.6%和7.8%。
更令人印象深刻的是在自由視角圖像目標(biāo)導(dǎo)航任務(wù)上的表現(xiàn)。這是一個更加貼近現(xiàn)實應(yīng)用的任務(wù)設(shè)置,允許目標(biāo)圖像從任意角度和高度拍攝。在這個更具挑戰(zhàn)性的任務(wù)中,IGL-Nav的性能依然保持領(lǐng)先。即使在零樣本轉(zhuǎn)移的情況下(直接將在傳統(tǒng)任務(wù)上訓(xùn)練的模型應(yīng)用到新任務(wù)),IGL-Nav的表現(xiàn)仍然超過了其他方法在監(jiān)督學(xué)習(xí)條件下的結(jié)果。
研究團(tuán)隊還分析了系統(tǒng)各個模塊的貢獻(xiàn)。實驗顯示,使用3級細(xì)分的球面離散化能夠在精度和計算效率之間取得最佳平衡?;?D高斯渲染的停止器和匹配約束優(yōu)化顯著優(yōu)于傳統(tǒng)的基于特征匹配的方法。
七、真實世界部署
為了驗證系統(tǒng)的實際應(yīng)用價值,研究團(tuán)隊將IGL-Nav部署到了真實的機(jī)器人平臺上。他們使用手機(jī)隨意拍攝的照片作為目標(biāo)圖像,測試機(jī)器人在復(fù)雜室內(nèi)環(huán)境中的導(dǎo)航能力。
實驗結(jié)果表明,盡管模型完全基于仿真數(shù)據(jù)訓(xùn)練,沒有在真實世界數(shù)據(jù)上進(jìn)行任何微調(diào),IGL-Nav依然能夠成功引導(dǎo)機(jī)器人到達(dá)目標(biāo)位置。這種強(qiáng)大的泛化能力源于3D高斯表示的顯式性質(zhì)和系統(tǒng)設(shè)計的通用性。
在實際部署中,系統(tǒng)能夠處理各種實際挑戰(zhàn),包括光照變化、視角差異和環(huán)境動態(tài)性。機(jī)器人能夠建立高質(zhì)量的3D場景重建,準(zhǔn)確定位手機(jī)拍攝的自由視角目標(biāo)圖像,并成功導(dǎo)航到目標(biāo)位置。
八、技術(shù)創(chuàng)新與突破
IGL-Nav系統(tǒng)的核心創(chuàng)新在于首次將前饋式3D高斯點云技術(shù)應(yīng)用于圖像目標(biāo)導(dǎo)航任務(wù)。相比傳統(tǒng)的隱式表示方法,3D高斯點云提供了更高的渲染效率和更強(qiáng)的幾何表達(dá)能力。系統(tǒng)能夠在保持高精度的同時實現(xiàn)實時性能,這在以往的方法中是難以同時滿足的。
分層定位策略的設(shè)計也展現(xiàn)了研究團(tuán)隊的深刻洞察。通過將復(fù)雜的6自由度搜索問題分解為粗定位和精定位兩個階段,系統(tǒng)不僅提高了計算效率,還增強(qiáng)了定位的魯棒性。粗定位階段的3D卷積實現(xiàn)特別巧妙,將點云匹配問題轉(zhuǎn)換為高效的并行計算問題。
此外,系統(tǒng)對自由視角圖像目標(biāo)導(dǎo)航任務(wù)的支持填補(bǔ)了該領(lǐng)域的一個重要空白。傳統(tǒng)方法通常假設(shè)目標(biāo)圖像必須由機(jī)器人相機(jī)拍攝,這嚴(yán)重限制了實際應(yīng)用的靈活性。IGL-Nav打破了這一限制,使得任何相機(jī)拍攝的圖像都可以作為導(dǎo)航目標(biāo)。
九、局限性與未來發(fā)展
盡管IGL-Nav在多個方面取得了突破,但系統(tǒng)仍然存在一些局限性。目前系統(tǒng)需要目標(biāo)圖像的深度信息和相機(jī)內(nèi)參,雖然可以通過單目深度估計來預(yù)測這些信息,但這會引入一定的誤差。未來的改進(jìn)方向包括開發(fā)更加魯棒的單目深度估計方法,或者設(shè)計不依賴深度信息的定位策略。
另一個潛在的改進(jìn)方向是處理動態(tài)環(huán)境的能力。當(dāng)前系統(tǒng)主要針對靜態(tài)場景設(shè)計,對于包含移動物體的環(huán)境可能需要額外的處理機(jī)制。此外,在大規(guī)模環(huán)境中的內(nèi)存管理和計算效率優(yōu)化也是值得進(jìn)一步研究的問題。
從應(yīng)用角度來看,IGL-Nav為服務(wù)機(jī)器人、自動導(dǎo)航和增強(qiáng)現(xiàn)實等領(lǐng)域開辟了新的可能性。系統(tǒng)的實時性和高精度使其特別適合需要快速響應(yīng)的實際應(yīng)用場景。隨著硬件計算能力的不斷提升和算法的進(jìn)一步優(yōu)化,這類技術(shù)有望在更廣泛的場景中得到應(yīng)用。
說到底,IGL-Nav系統(tǒng)代表了圖像目標(biāo)導(dǎo)航技術(shù)的一個重要里程碑。它不僅在技術(shù)上實現(xiàn)了多項突破,更重要的是為這一領(lǐng)域指明了新的發(fā)展方向。通過將顯式3D表示與高效定位策略相結(jié)合,該系統(tǒng)證明了在保持高性能的同時實現(xiàn)實時導(dǎo)航是完全可能的。對于普通人而言,這項技術(shù)意味著未來的機(jī)器人助手將能夠更好地理解和導(dǎo)航我們的生活環(huán)境,僅僅通過一張照片就能準(zhǔn)確找到任何我們想要去的地方。這種能力將在老人護(hù)理、殘障輔助、智能家居等眾多領(lǐng)域產(chǎn)生深遠(yuǎn)影響,讓技術(shù)真正服務(wù)于改善人類的生活質(zhì)量。
Q&A
Q1:IGL-Nav系統(tǒng)是什么?它能解決什么問題?
A:IGL-Nav是清華大學(xué)開發(fā)的機(jī)器人圖像導(dǎo)航系統(tǒng),能讓機(jī)器人僅通過一張照片就找到拍攝地點。它解決了傳統(tǒng)導(dǎo)航方法需要預(yù)先建圖、只能處理水平拍攝照片等限制,支持任意角度拍攝的照片作為導(dǎo)航目標(biāo)。
Q2:3D高斯點云技術(shù)比傳統(tǒng)方法有什么優(yōu)勢?
A:3D高斯點云就像用發(fā)光小球重建現(xiàn)實世界,比傳統(tǒng)神經(jīng)輻射場更高效。它能實時預(yù)測場景參數(shù),不需要耗時的離線優(yōu)化,同時保持高質(zhì)量的3D重建和渲染效果,特別適合機(jī)器人實時導(dǎo)航需求。
Q3:這個系統(tǒng)在現(xiàn)實中有什么實際應(yīng)用?
A:IGL-Nav已在真實機(jī)器人上成功部署,能處理手機(jī)隨拍的照片作為目標(biāo)。未來可應(yīng)用于服務(wù)機(jī)器人、老人護(hù)理、殘障輔助、智能家居等領(lǐng)域,讓機(jī)器人助手更好地理解和導(dǎo)航生活環(huán)境。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。