這項由上??萍即髮W(xué)何旭明教授團隊聯(lián)合瑞士洛桑聯(lián)邦理工學(xué)院(EPFL)研究人員共同完成的研究于2025年7月發(fā)表在arXiv預(yù)印本平臺上,有興趣深入了解的讀者可以通過https://github.com/tongshw/GeoDistill訪問完整論文和代碼。
現(xiàn)代社會中,從自動駕駛汽車到增強現(xiàn)實應(yīng)用,都需要解決一個看似簡單卻極其困難的問題:如何讓計算機準確知道自己在哪里?特別是當你只有一張地面拍攝的照片時,如何在衛(wèi)星地圖上找到對應(yīng)的確切位置?這就像是讓一個人站在街頭,僅憑眼前的景象就能在世界地圖上準確指出自己的位置一樣困難。
傳統(tǒng)的解決方案通常需要大量精確標注的數(shù)據(jù),就如同需要無數(shù)個"活地圖"來告訴計算機每個位置的準確坐標。但這種方法成本極高,就像雇傭成千上萬的測量員去標記每一個角落一樣昂貴且不現(xiàn)實。更糟糕的是,在一個城市訓(xùn)練出來的系統(tǒng),到了另一個城市往往就"水土不服",表現(xiàn)大打折扣。
上海科技大學(xué)的研究團隊提出了一個巧妙的解決方案,他們開發(fā)了名為GeoDistill的框架,這個系統(tǒng)就像是培養(yǎng)了一位善于觀察細節(jié)的"偵探"。這位"偵探"不需要知道每個地方的精確坐標,只需要粗略的位置信息(比如手機GPS提供的大概位置),就能通過學(xué)習辨識關(guān)鍵的視覺線索來實現(xiàn)精確定位。
研究團隊的核心創(chuàng)新在于采用了一種"師父帶徒弟"的學(xué)習方式。系統(tǒng)中設(shè)置了兩個角色:一個是看到完整全景圖像的"師父",另一個是只能看到部分視野的"徒弟"。師父因為信息更全面,通常能給出較為準確的位置判斷。而徒弟雖然信息有限,卻被要求給出同樣準確的答案。在這個過程中,徒弟被迫學(xué)會關(guān)注那些真正重要的視覺特征,比如道路標線、建筑輪廓等關(guān)鍵細節(jié),而不是依賴于整體的場景布局。
這種訓(xùn)練方式就像教一個新手司機認路:經(jīng)驗豐富的師父可以從全景后視鏡看到完整路況做出判斷,而新手只能通過側(cè)窗看到有限視野。為了做出同樣準確的判斷,新手必須學(xué)會敏銳地捕捉那些最關(guān)鍵的路標和地標特征。通過這種訓(xùn)練,新手逐漸培養(yǎng)出比師父更敏銳的細節(jié)觀察能力。
更有趣的是,研究團隊還設(shè)計了一個專門的方向估計網(wǎng)絡(luò),解決了之前弱監(jiān)督方法無法準確判斷朝向的問題。這個網(wǎng)絡(luò)能夠在不需要精確位置信息的情況下,僅通過比較地面圖像和衛(wèi)星圖像的結(jié)構(gòu)特征來判斷拍攝方向,就像是通過對比街景和地圖上的道路布局來確定朝向。
為了驗證這種方法的有效性,研究團隊在兩個重要的數(shù)據(jù)集上進行了廣泛測試。VIGOR數(shù)據(jù)集包含了來自美國四個城市的10萬多對地面全景圖和對應(yīng)的航拍圖像,而KITTI數(shù)據(jù)集則提供了德國地區(qū)通過針孔相機拍攝的有限視野地面圖像。實驗結(jié)果顯示,這種新方法不僅在訓(xùn)練區(qū)域內(nèi)表現(xiàn)優(yōu)異,更重要的是在完全未見過的新區(qū)域中也能保持良好的定位精度。
在VIGOR數(shù)據(jù)集的跨區(qū)域測試中,應(yīng)用了GeoDistill框架的系統(tǒng)相比原始方法,定位精度平均提升了超過25%。特別值得注意的是,當系統(tǒng)使用更強大的DINO特征提取器時,甚至能夠超越一些需要精確標注數(shù)據(jù)的完全監(jiān)督方法。這就像是一個僅僅通過觀察和模仿學(xué)習的學(xué)生,最終超越了那些接受過系統(tǒng)性專業(yè)訓(xùn)練的學(xué)生。
研究團隊還深入分析了系統(tǒng)的各個組成部分。他們發(fā)現(xiàn),傳統(tǒng)的隨機遮擋策略(類似于隨機在照片上貼黑色補?。┩鶗茐闹匾膱鼍敖Y(jié)構(gòu),反而降低學(xué)習效果。而他們提出的視野限制策略(FoV-based masking)能夠保持場景的幾何連貫性,就像是通過調(diào)節(jié)相機鏡頭的焦距來控制視野范圍,確??吹降膬?nèi)容仍然有意義。
在不確定性處理方面,研究團隊采用了一種巧妙的"銳化"策略。由于師父的判斷雖然相對準確但仍然存在噪聲,直接讓徒弟完全模仿可能會學(xué)到錯誤信息。因此,他們對師父的判斷進行"銳化"處理,突出高置信度的部分,弱化不確定的部分,就像是在模糊的照片中突出清晰的部分,讓學(xué)習目標更加明確。
更進一步,系統(tǒng)還采用了雙向知識流動的機制。在學(xué)習過程中,不僅徒弟要向師父學(xué)習,師父也會逐漸吸收徒弟學(xué)到的精細觀察能力。這種機制通過指數(shù)移動平均的方式實現(xiàn),確保了師父能夠持續(xù)改進,成為更好的學(xué)習目標。這就像是師父在教學(xué)過程中也從徒弟的新發(fā)現(xiàn)中獲得啟發(fā),不斷完善自己的判斷能力。
關(guān)于視野大小的選擇,研究團隊進行了細致的分析。他們發(fā)現(xiàn),如果給徒弟的視野太?。ㄐ∮?0度),任務(wù)變得過于困難,就像讓人在管中窺豹的情況下判斷整體位置一樣不現(xiàn)實。而如果視野太大(超過240度),則與師父看到的信息相差不大,失去了訓(xùn)練的意義。因此,他們選擇了180度到240度的動態(tài)視野范圍,既保證了任務(wù)的可行性,又維持了足夠的學(xué)習挑戰(zhàn)性。
在與現(xiàn)有最先進方法的比較中,GeoDistill展現(xiàn)出了顯著的優(yōu)勢。在VIGOR數(shù)據(jù)集的跨區(qū)域測試中,即使是基于VGG骨干網(wǎng)絡(luò)的版本也能在中位數(shù)定位誤差上超越所有對比方法。而使用DINO特征的版本更是在所有指標上都達到了最優(yōu)性能,平均定位誤差降低到2.68米,方向估計誤差僅為2.72度。這種精度已經(jīng)能夠滿足大多數(shù)實際應(yīng)用的需求。
值得一提的是,這種方法的通用性非常強。研究團隊成功將其應(yīng)用于兩種不同類型的基礎(chǔ)架構(gòu):既適用于弱監(jiān)督的G2SWeakly方法,也能夠增強完全監(jiān)督的CCVPE方法。這種即插即用的特性使得現(xiàn)有的定位系統(tǒng)都能夠受益于這一創(chuàng)新,無需進行大規(guī)模的架構(gòu)修改。
在實際應(yīng)用價值方面,這項研究解決了跨視角定位領(lǐng)域的一個關(guān)鍵瓶頸:如何在減少對精確標注數(shù)據(jù)依賴的同時,提高系統(tǒng)的泛化能力。對于自動駕駛、機器人導(dǎo)航、增強現(xiàn)實等應(yīng)用來說,這意味著可以用更低的成本部署更可靠的定位系統(tǒng)。特別是在那些難以獲得精確測量數(shù)據(jù)的地區(qū),這種方法提供了一條可行的技術(shù)路徑。
從技術(shù)發(fā)展的角度來看,GeoDistill代表了從"數(shù)據(jù)驅(qū)動"向"策略驅(qū)動"學(xué)習的重要轉(zhuǎn)變。它證明了通過巧妙的訓(xùn)練策略設(shè)計,即使在數(shù)據(jù)質(zhì)量有限的情況下,也能夠?qū)崿F(xiàn)優(yōu)異的性能。這種思路對于其他需要處理多模態(tài)、跨域數(shù)據(jù)的計算機視覺任務(wù)具有重要的借鑒意義。
研究團隊的實驗還揭示了一個有趣的現(xiàn)象:經(jīng)過這種特殊訓(xùn)練的"徒弟"模型往往比原本的"師父"模型表現(xiàn)更好。這說明了專注于細節(jié)特征學(xué)習的價值,也證實了"教學(xué)相長"在人工智能訓(xùn)練中的有效性。這種現(xiàn)象在機器學(xué)習領(lǐng)域被稱為自蒸餾,通過這種方式,模型能夠不斷自我改進,達到更高的性能水平。
此外,研究團隊還對比了不同遮擋策略的效果。他們發(fā)現(xiàn),基于最大激活的遮擋和隨機補丁遮擋都不如基于視野的遮擋效果好。這是因為前兩種方法可能會破壞重要的幾何結(jié)構(gòu),而視野限制策略能夠保持場景的空間連貫性,讓模型學(xué)習更加合理的特征表示。
在不同數(shù)據(jù)集上的測試結(jié)果也展現(xiàn)了方法的魯棒性。KITTI數(shù)據(jù)集與VIGOR數(shù)據(jù)集在圖像類型上存在顯著差異:前者是有限視野的針孔相機圖像,后者是360度全景圖像。盡管存在這些差異,GeoDistill在兩個數(shù)據(jù)集上都取得了一致的改進效果,證明了方法的通用性。
從計算效率的角度來看,這種方法也具有明顯優(yōu)勢。由于不需要復(fù)雜的數(shù)據(jù)預(yù)處理和精確標注,訓(xùn)練過程更加高效。同時,推理時只需要使用單一的"師父"模型,不會增加額外的計算負擔。這使得該方法在實際部署中具有良好的可操作性。
研究團隊還考慮了方向估計的獨特挑戰(zhàn)。由于全景圖像的球面投影特性,直線在圖像中會呈現(xiàn)為曲線,這給直接比較帶來了困難。為了解決這個問題,他們采用了球面變換將全景圖像投影到鳥瞰視角,使其與衛(wèi)星圖像在幾何結(jié)構(gòu)上保持一致。這種預(yù)處理確保了方向估計的準確性,同時避免了復(fù)雜的幾何校正過程。
說到底,這項研究解決的是一個非常實際的問題:如何讓計算機在資源有限的情況下學(xué)會精確定位。就像培養(yǎng)一個善于觀察的偵探,通過巧妙的訓(xùn)練策略,讓AI系統(tǒng)學(xué)會抓住關(guān)鍵線索而不被無關(guān)信息干擾。這種能力對于未來的智能城市、自動駕駛和增強現(xiàn)實應(yīng)用都具有重要意義。歸根結(jié)底,這不僅僅是一個技術(shù)改進,更是對人工智能學(xué)習機制的深度理解和創(chuàng)新應(yīng)用。
對于普通人而言,這項技術(shù)的應(yīng)用前景非常廣闊。以后當你用手機拍攝街景時,應(yīng)用可能瞬間就能告訴你準確的位置和方向,而不需要等待GPS信號或進行復(fù)雜的校準。對于那些GPS信號較弱的室內(nèi)外交界區(qū)域,這種視覺定位技術(shù)將發(fā)揮重要作用。隨著這類技術(shù)的成熟和普及,我們的生活將變得更加便利和智能。感興趣的讀者如果想要了解更多技術(shù)細節(jié),可以訪問研究團隊在GitHub上開源的完整代碼和論文資料。
Q&A
Q1:GeoDistill是什么?它能做什么? A:GeoDistill是上??萍即髮W(xué)團隊開發(fā)的跨視角定位框架,它的核心能力是僅通過地面照片就能在衛(wèi)星地圖上找到精確位置和方向,就像讓計算機學(xué)會"看地圖認路",而且不需要昂貴的精確標注數(shù)據(jù)。
Q2:這個技術(shù)會不會比GPS更準確? A:在某些場景下是的。GeoDistill的定位精度可以達到2.68米,在GPS信號較弱的地方(如高樓林立的城市峽谷或室內(nèi)外交界處)表現(xiàn)更好,而且能夠同時提供精確的方向信息。
Q3:普通人能使用這個技術(shù)嗎? A:目前這還是研究階段的技術(shù),但研究團隊已經(jīng)在GitHub上開源了代碼。未來這種技術(shù)很可能被集成到手機應(yīng)用、導(dǎo)航軟件或增強現(xiàn)實應(yīng)用中,讓普通用戶也能受益。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。