這項(xiàng)由香港中文大學(xué)崔北雷、黃一鳴、白龍和任宏亮教授領(lǐng)導(dǎo)的研究發(fā)表于2025年6月的計(jì)算機(jī)視覺頂級(jí)會(huì)議arXiv,有興趣深入了解的讀者可以通過https://github.com/BeileiCui/TR2M訪問完整論文和代碼。
當(dāng)你用手機(jī)拍照時(shí),有沒有想過一個(gè)問題:為什么我們的眼睛能輕松判斷桌子離我們兩米遠(yuǎn),而椅子只有一米遠(yuǎn),但相機(jī)卻做不到這一點(diǎn)?這個(gè)看似簡單的問題,實(shí)際上困擾了計(jì)算機(jī)視覺研究者很多年。
現(xiàn)在,香港中文大學(xué)的研究團(tuán)隊(duì)找到了一個(gè)巧妙的解決方案。他們開發(fā)了一個(gè)叫做TR2M的系統(tǒng),這個(gè)系統(tǒng)就像給AI安裝了一副"智能眼鏡",不僅能看到物體的遠(yuǎn)近關(guān)系,還能準(zhǔn)確說出具體的距離數(shù)字。
要理解這項(xiàng)研究的重要性,我們得先了解一個(gè)有趣的現(xiàn)象。目前的AI視覺系統(tǒng)分為兩種類型,就像兩種不同能力的"觀察者"。第一種是"精確測量師",它能告訴你物體的確切距離,比如"那張桌子離你2.3米",但這種系統(tǒng)通常只在特定環(huán)境下工作,比如只能在室內(nèi)或只能在戶外使用。第二種是"關(guān)系判斷師",它很擅長告訴你"桌子比椅子遠(yuǎn)",而且在任何環(huán)境下都能工作,但它說不出具體的距離數(shù)字。
這就好比一個(gè)人要么是專業(yè)測量員,要么是經(jīng)驗(yàn)豐富的向?qū)?。測量員拿著精密儀器,能給出準(zhǔn)確數(shù)字,但換個(gè)環(huán)境就不會(huì)用了。向?qū)ё弑樘煜?,任何地方都能指路,但說不出確切的公里數(shù)。
研究團(tuán)隊(duì)的核心想法很有趣:既然"關(guān)系判斷師"這么通用,能不能給它配個(gè)"翻譯器",把它的相對(duì)判斷轉(zhuǎn)換成精確數(shù)字呢?就像給那位經(jīng)驗(yàn)豐富的向?qū)湟话阎悄艹咦?,讓他既能在任何地方工作,又能說出準(zhǔn)確距離。
這個(gè)"翻譯器"的工作原理相當(dāng)巧妙。它不是簡單地給整張圖片加一個(gè)統(tǒng)一的縮放比例,而是為每個(gè)像素點(diǎn)都量身定制一個(gè)轉(zhuǎn)換參數(shù)。這就像一個(gè)超級(jí)精細(xì)的地圖,不僅告訴你整體比例,還為每一小塊區(qū)域提供專門的換算公式。
更有趣的是,這個(gè)系統(tǒng)還會(huì)"聽取"文字描述來幫助判斷。當(dāng)你告訴它"這是一間教室"時(shí),它就知道桌椅大概是什么尺寸,房間大概有多大。當(dāng)你說"這是一條街道"時(shí),它就明白汽車和建筑物的真實(shí)大小范圍。這種結(jié)合視覺和語言信息的方法,讓系統(tǒng)的判斷更加準(zhǔn)確可靠。
研究團(tuán)隊(duì)還開發(fā)了一種叫做"尺度導(dǎo)向?qū)Ρ葘W(xué)習(xí)"的訓(xùn)練方法。這個(gè)方法的核心思想是讓AI學(xué)會(huì)把距離相近的像素點(diǎn)歸為一類,把距離相差很大的點(diǎn)分開對(duì)待。就像訓(xùn)練一個(gè)人學(xué)會(huì)區(qū)分"近景"、"中景"、"遠(yuǎn)景",讓他知道同一個(gè)景深范圍內(nèi)的物體應(yīng)該具有相似的特征。
為了驗(yàn)證系統(tǒng)的效果,研究團(tuán)隊(duì)在多個(gè)不同的數(shù)據(jù)集上進(jìn)行了測試,包括室內(nèi)場景、戶外街道,甚至醫(yī)學(xué)內(nèi)窺鏡圖像。結(jié)果顯示,TR2M不僅在訓(xùn)練過的場景中表現(xiàn)出色,在完全沒見過的新環(huán)境中也能保持很好的性能。這就像一個(gè)人學(xué)會(huì)了基本的測距技能后,無論走到哪里都能應(yīng)用這種能力。
特別值得一提的是,這個(gè)系統(tǒng)的訓(xùn)練參數(shù)非常少,只有1900萬個(gè),相比其他類似系統(tǒng)動(dòng)輒上億的參數(shù),簡直是"輕裝上陣"。這意味著它不僅效果好,還很節(jié)省計(jì)算資源,更容易在實(shí)際設(shè)備上部署使用。
研究團(tuán)隊(duì)在實(shí)驗(yàn)中發(fā)現(xiàn)了一些有趣的現(xiàn)象。比如,當(dāng)給系統(tǒng)提供錯(cuò)誤的文字描述時(shí),比如給室內(nèi)場景配上"這是一條街道"的描述,系統(tǒng)的性能會(huì)明顯下降。這說明文字信息在系統(tǒng)判斷中起到了關(guān)鍵作用,就像一個(gè)向?qū)枰獪?zhǔn)確的地圖信息才能給出正確指引。
在對(duì)比實(shí)驗(yàn)中,TR2M的表現(xiàn)令人印象深刻。在NYUv2室內(nèi)數(shù)據(jù)集上,它的準(zhǔn)確率達(dá)到了95.4%,超過了許多現(xiàn)有的專業(yè)測距系統(tǒng)。在KITTI街道數(shù)據(jù)集上,它同樣取得了96.5%的高準(zhǔn)確率。更重要的是,當(dāng)在完全陌生的環(huán)境中測試時(shí),比如從室內(nèi)訓(xùn)練的模型去處理戶外場景,TR2M仍然能保持相當(dāng)不錯(cuò)的性能。
這項(xiàng)研究的實(shí)際應(yīng)用前景非常廣闊。在自動(dòng)駕駛領(lǐng)域,準(zhǔn)確的距離判斷對(duì)安全至關(guān)重要,TR2M可以幫助車輛更好地理解周圍環(huán)境。在機(jī)器人導(dǎo)航中,這種技術(shù)能讓機(jī)器人在各種環(huán)境中都能準(zhǔn)確判斷障礙物的位置。在增強(qiáng)現(xiàn)實(shí)應(yīng)用中,精確的深度信息是實(shí)現(xiàn)真實(shí)感虛擬物體放置的基礎(chǔ)。甚至在醫(yī)療領(lǐng)域,比如內(nèi)窺鏡檢查中,準(zhǔn)確的深度信息能幫助醫(yī)生更好地判斷病灶的位置和大小。
研究團(tuán)隊(duì)也誠實(shí)地指出了當(dāng)前方法的一些局限性。由于采用了相對(duì)輕量級(jí)的網(wǎng)絡(luò)架構(gòu),在某些復(fù)雜場景中,生成的深度圖可能在邊緣細(xì)節(jié)上不夠清晰。另外,系統(tǒng)對(duì)文字描述的依賴也是一把雙刃劍,雖然能提高準(zhǔn)確性,但如果用戶提供了錯(cuò)誤或模糊的描述,可能會(huì)影響最終結(jié)果。
從技術(shù)發(fā)展的角度來看,這項(xiàng)研究代表了計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要進(jìn)步。它巧妙地結(jié)合了現(xiàn)有技術(shù)的優(yōu)勢,避免了各自的缺點(diǎn),是一個(gè)典型的"1+1>2"的創(chuàng)新案例。更重要的是,它為未來的研究指出了一個(gè)有前景的方向:通過多模態(tài)信息融合來解決單一模態(tài)的局限性。
這種研究思路也給其他科技領(lǐng)域帶來了啟發(fā)。在人工智能發(fā)展中,往往不是要推翻現(xiàn)有技術(shù),而是要找到巧妙的方法把不同技術(shù)的優(yōu)勢結(jié)合起來。就像TR2M把"通用性強(qiáng)但不夠精確"和"精確但通用性差"的兩種技術(shù)結(jié)合,創(chuàng)造出了"既通用又精確"的新解決方案。
說到底,這項(xiàng)研究解決的是一個(gè)我們每天都會(huì)遇到的基本問題:如何準(zhǔn)確判斷物體的距離。雖然對(duì)人類來說這是本能,但對(duì)機(jī)器來說卻是一個(gè)復(fù)雜的挑戰(zhàn)。TR2M的成功不僅在技術(shù)上有所突破,更重要的是它展示了一種解決復(fù)雜問題的思路:不是硬碰硬地解決所有問題,而是巧妙地組合現(xiàn)有的解決方案,取長補(bǔ)短,創(chuàng)造出更好的效果。
對(duì)于普通人來說,這項(xiàng)技術(shù)的成熟意味著未來的智能設(shè)備將更加"聰明"和實(shí)用。無論是拍照時(shí)的自動(dòng)對(duì)焦,還是導(dǎo)航時(shí)的路徑規(guī)劃,或者是購物時(shí)的AR試穿,都將因?yàn)楦鼫?zhǔn)確的距離判斷而變得更加便利和可靠。這就是科技進(jìn)步的魅力所在:通過解決看似抽象的技術(shù)問題,最終讓每個(gè)人的生活變得更加美好。
如果你對(duì)這項(xiàng)研究的技術(shù)細(xì)節(jié)感興趣,可以訪問研究團(tuán)隊(duì)提供的開源代碼和詳細(xì)論文,親自體驗(yàn)這項(xiàng)令人興奮的技術(shù)突破。
Q&A
Q1:TR2M是什么?它能做什么? A:TR2M是香港中文大學(xué)開發(fā)的AI視覺系統(tǒng),它能讓計(jì)算機(jī)像人眼一樣準(zhǔn)確判斷照片中物體的真實(shí)距離。不同于現(xiàn)有技術(shù)要么只能看遠(yuǎn)近關(guān)系、要么只能在特定環(huán)境工作,TR2M既能給出精確的米數(shù),又能在室內(nèi)、戶外、醫(yī)療等各種場景中通用。它就像給AI安裝了一副"智能眼鏡",結(jié)合圖像和文字描述來做出準(zhǔn)確的距離判斷。
Q2:TR2M會(huì)不會(huì)取代現(xiàn)有的距離測量技術(shù)? A:TR2M更像是對(duì)現(xiàn)有技術(shù)的升級(jí)而非替代。它巧妙地結(jié)合了不同技術(shù)的優(yōu)勢,讓原本只能判斷遠(yuǎn)近關(guān)系的AI學(xué)會(huì)了給出精確數(shù)字,同時(shí)保持了在各種環(huán)境中的通用性。雖然在某些細(xì)節(jié)處理上還有改進(jìn)空間,但它為解決"通用性"和"精確性"的矛盾提供了新思路,未來可能成為智能設(shè)備的標(biāo)準(zhǔn)配置。
Q3:普通人什么時(shí)候能用上這項(xiàng)技術(shù)? A:研究團(tuán)隊(duì)已經(jīng)在GitHub上開源了代碼,技術(shù)愛好者現(xiàn)在就能體驗(yàn)。由于TR2M參數(shù)量小、效率高,很適合在手機(jī)等設(shè)備上部署。預(yù)計(jì)在不久的將來,這項(xiàng)技術(shù)將集成到智能手機(jī)的相機(jī)應(yīng)用、AR購物、自動(dòng)駕駛等產(chǎn)品中,讓我們的設(shè)備更準(zhǔn)確地理解三維世界,提供更智能的服務(wù)體驗(yàn)。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。