av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 浙江大學(xué)團(tuán)隊(duì)突破自動(dòng)駕駛語言理解:機(jī)器也能讀懂"前面那輛藍(lán)色轎車"了

浙江大學(xué)團(tuán)隊(duì)突破自動(dòng)駕駛語言理解:機(jī)器也能讀懂"前面那輛藍(lán)色轎車"了

2025-08-11 09:58
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-11 09:58 ? 科技行者

這項(xiàng)由浙江大學(xué)計(jì)算機(jī)科學(xué)學(xué)院的朱建科教授(通訊作者)、史展、王松以及優(yōu)地科技的陳俊波等人合作完成的研究,于2025年8月在arXiv預(yù)印本服務(wù)器上發(fā)表。有興趣深入了解的讀者可以通過https://github.com/RONINGOD/GroundingOcc訪問完整的數(shù)據(jù)集和代碼。這項(xiàng)研究首次將3D占用預(yù)測(cè)引入到視覺定位任務(wù)中,為自動(dòng)駕駛系統(tǒng)的人機(jī)交互開辟了全新道路。

回到日常生活中,當(dāng)我們坐在副駕駛座位上給司機(jī)指路時(shí),經(jīng)常會(huì)說"前面那輛紅色SUV后面有個(gè)空位"或者"注意右邊那臺(tái)挖掘機(jī)"這樣的話。對(duì)于人類司機(jī)來說,理解這些描述并準(zhǔn)確找到對(duì)應(yīng)的車輛或物體是輕而易舉的事情。但是對(duì)于自動(dòng)駕駛汽車來說,這卻是一個(gè)極其復(fù)雜的技術(shù)挑戰(zhàn)。目前的自動(dòng)駕駛系統(tǒng)雖然能夠檢測(cè)和識(shí)別道路上的各種物體,但它們通常只能用簡(jiǎn)單的方框來標(biāo)記這些物體,就像在照片上貼標(biāo)簽一樣粗糙。

這種傳統(tǒng)方法的問題在于,真實(shí)世界中的物體形狀千差萬別,用規(guī)整的長(zhǎng)方形框來表示一臺(tái)形狀復(fù)雜的挖掘機(jī)顯然是不夠精確的。長(zhǎng)方形框內(nèi)有很大一部分空間實(shí)際上是空的,這會(huì)導(dǎo)致自動(dòng)駕駛系統(tǒng)對(duì)周圍環(huán)境的理解出現(xiàn)偏差,進(jìn)而影響行駛安全。

為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了一個(gè)全新的概念——3D占用定位。簡(jiǎn)單來說,就是讓自動(dòng)駕駛系統(tǒng)不再用粗糙的方框來理解物體,而是精確到每一個(gè)小立方體空間塊(稱為體素)來判斷哪里有物體、哪里是空的。這就像從用整塊積木搭建變成了用樂高小顆粒精細(xì)拼裝,精度提升了好幾個(gè)數(shù)量級(jí)。

這項(xiàng)研究的核心貢獻(xiàn)體現(xiàn)在三個(gè)方面。研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為Talk2Occ的全新數(shù)據(jù)集,這是世界上第一個(gè)專門用于3D占用定位的基準(zhǔn)數(shù)據(jù)集。該數(shù)據(jù)集基于著名的nuScenes自動(dòng)駕駛數(shù)據(jù)集構(gòu)建,包含了9925個(gè)物體樣本,涵蓋15個(gè)不同類別,從常見的轎車、卡車到行人、自行車,甚至包括動(dòng)物和建筑車輛等。每個(gè)樣本都配有自然語言描述和精確的3D占用標(biāo)注,為訓(xùn)練和評(píng)估系統(tǒng)提供了豐富的數(shù)據(jù)基礎(chǔ)。

在技術(shù)層面,研究團(tuán)隊(duì)開發(fā)了名為GroundingOcc的端到端模型。這個(gè)模型的設(shè)計(jì)思路就像一個(gè)經(jīng)驗(yàn)豐富的出租車司機(jī),能夠同時(shí)處理乘客的語言指令、觀察周圍的視覺環(huán)境,并結(jié)合車載雷達(dá)的距離信息來準(zhǔn)確定位目標(biāo)。模型采用了從粗到細(xì)的漸進(jìn)式處理策略,先大致確定目標(biāo)區(qū)域,然后逐步細(xì)化到具體的體素級(jí)別。這種設(shè)計(jì)讓系統(tǒng)既保持了高效性,又實(shí)現(xiàn)了高精度。

為了增強(qiáng)系統(tǒng)的空間理解能力,研究團(tuán)隊(duì)還巧妙地引入了2D視覺定位模塊和深度估計(jì)模塊。2D定位模塊就像是給系統(tǒng)裝上了一雙善于觀察的眼睛,能夠在二維圖像中快速定位目標(biāo)物體。深度估計(jì)模塊則像是一個(gè)精準(zhǔn)的測(cè)距儀,能夠判斷物體距離車輛的遠(yuǎn)近。這兩個(gè)輔助模塊的加入,讓主系統(tǒng)的3D占用預(yù)測(cè)更加準(zhǔn)確可靠。

特別值得一提的是,研究團(tuán)隊(duì)在深度信息的處理上有一個(gè)重要?jiǎng)?chuàng)新。傳統(tǒng)方法通常直接將稀疏的激光雷達(dá)點(diǎn)云投影到圖像上生成深度圖,但這種方法會(huì)產(chǎn)生很多空洞和不準(zhǔn)確的區(qū)域。新方法則采用了基于占用網(wǎng)格的射線投射技術(shù),就像用探照燈掃描一樣,從相機(jī)位置向每個(gè)像素方向發(fā)射虛擬射線,直到碰到第一個(gè)被占用的體素,從而生成更加完整準(zhǔn)確的深度圖。

在實(shí)驗(yàn)驗(yàn)證方面,研究團(tuán)隊(duì)設(shè)計(jì)了多套對(duì)比方案來全面評(píng)估系統(tǒng)性能。由于這是一個(gè)全新的研究方向,目前還沒有現(xiàn)成的對(duì)比方法,因此團(tuán)隊(duì)設(shè)計(jì)了基于激光雷達(dá)、基于相機(jī)以及多模態(tài)融合的三種基線方法。這些基線方法采用兩階段處理流程,先進(jìn)行傳統(tǒng)的3D物體檢測(cè),再在檢測(cè)到的邊界框內(nèi)進(jìn)行占用預(yù)測(cè)。

實(shí)驗(yàn)結(jié)果顯示,GroundingOcc方法在各項(xiàng)指標(biāo)上都取得了顯著優(yōu)勢(shì)。在最重要的定位精度指標(biāo)Acc@0.25上,該方法達(dá)到了32.68%的準(zhǔn)確率,相比最強(qiáng)的多模態(tài)基線方法提升了18.13個(gè)百分點(diǎn)。這個(gè)提升幅度在計(jì)算機(jī)視覺領(lǐng)域是相當(dāng)可觀的,說明了新方法的有效性。

通過詳細(xì)的消融實(shí)驗(yàn),研究團(tuán)隊(duì)還驗(yàn)證了各個(gè)組件的重要性。多幀融合技術(shù)能夠利用歷史信息提升系統(tǒng)的穩(wěn)定性,深度預(yù)測(cè)模塊顯著改善了距離感知能力,2D定位模塊則為3D定位提供了重要的空間先驗(yàn)信息。這些組件的協(xié)同工作,共同構(gòu)成了一個(gè)性能優(yōu)異的完整系統(tǒng)。

從技術(shù)實(shí)現(xiàn)的角度來看,系統(tǒng)采用了先進(jìn)的Transformer架構(gòu)來處理多模態(tài)信息融合。文本編碼器使用了預(yù)訓(xùn)練的RoBERTa模型來理解自然語言描述,圖像特征提取采用了ResNet101骨干網(wǎng)絡(luò),點(diǎn)云處理則使用了高效的稀疏3D卷積。整個(gè)系統(tǒng)在4張英偉達(dá)RTX 4090顯卡上進(jìn)行訓(xùn)練,充分利用了現(xiàn)代GPU的并行計(jì)算能力。

這項(xiàng)研究的意義不僅僅局限于技術(shù)層面的突破。在實(shí)際應(yīng)用中,更精確的3D占用理解能夠讓自動(dòng)駕駛汽車更好地規(guī)劃行駛路徑,避免與不規(guī)則形狀的障礙物發(fā)生碰撞。比如在建筑工地附近行駛時(shí),系統(tǒng)能夠準(zhǔn)確識(shí)別挖掘機(jī)的真實(shí)占用空間,而不是簡(jiǎn)單地用一個(gè)大框框住整臺(tái)設(shè)備,從而為路徑規(guī)劃提供更精確的空間信息。

此外,這項(xiàng)技術(shù)還為人機(jī)交互提供了新的可能性。未來的自動(dòng)駕駛汽車不僅能夠理解"前面那輛車"這樣的簡(jiǎn)單指令,還能處理更復(fù)雜的空間描述,如"停在那臺(tái)挖掘機(jī)旁邊的空地上"或"繞過右側(cè)那堆建筑材料"。這將讓自動(dòng)駕駛汽車的使用體驗(yàn)更加自然流暢。

當(dāng)然,這項(xiàng)研究也面臨一些挑戰(zhàn)和限制。在處理模糊指令或場(chǎng)景中存在多個(gè)相似物體時(shí),系統(tǒng)的性能還有待提升。比如當(dāng)乘客說"那輛白色轎車"而現(xiàn)場(chǎng)有多輛白色轎車時(shí),系統(tǒng)就需要更強(qiáng)的推理能力來確定具體是哪一輛。研究團(tuán)隊(duì)在論文中坦誠(chéng)地指出了這些局限性,并表示這將是未來研究的重點(diǎn)方向。

從更宏觀的角度來看,這項(xiàng)研究代表了自動(dòng)駕駛技術(shù)向更高層次智能化的重要一步。傳統(tǒng)的自動(dòng)駕駛系統(tǒng)更多關(guān)注的是"看得見"和"能避障",而新的研究方向則致力于讓機(jī)器"理解得更深入"和"交流得更自然"。這種從感知到理解的跨越,正是實(shí)現(xiàn)真正智能化交通的關(guān)鍵環(huán)節(jié)。

研究團(tuán)隊(duì)還貼心地將完整的數(shù)據(jù)集和代碼開源,為學(xué)術(shù)界和工業(yè)界的后續(xù)研究提供了寶貴資源。這種開放的態(tài)度不僅有助于技術(shù)的快速發(fā)展,也體現(xiàn)了研究者們推動(dòng)整個(gè)領(lǐng)域進(jìn)步的責(zé)任感。

展望未來,這項(xiàng)技術(shù)的應(yīng)用前景非常廣闊。除了自動(dòng)駕駛汽車,它還可能被應(yīng)用到服務(wù)機(jī)器人、無人機(jī)導(dǎo)航、增強(qiáng)現(xiàn)實(shí)等多個(gè)領(lǐng)域。設(shè)想一下,未來的家政機(jī)器人能夠理解"把那個(gè)放在沙發(fā)后面的花瓶移到茶幾上"這樣的指令,并精確執(zhí)行相應(yīng)操作,這將極大地提升人機(jī)協(xié)作的效率和體驗(yàn)。

總的來說,浙江大學(xué)團(tuán)隊(duì)的這項(xiàng)研究為自動(dòng)駕駛和人工智能領(lǐng)域帶來了令人振奮的技術(shù)突破。通過將精確的3D空間理解與自然語言處理相結(jié)合,他們不僅解決了一個(gè)重要的技術(shù)難題,更為未來智能交通系統(tǒng)的發(fā)展指明了新的方向。隨著技術(shù)的不斷完善和應(yīng)用的逐步推廣,我們有理由相信,更智能、更安全、更人性化的自動(dòng)駕駛時(shí)代正在向我們走來。

Q&A

Q1:Talk2Occ數(shù)據(jù)集和傳統(tǒng)的自動(dòng)駕駛數(shù)據(jù)集有什么不同?

A:Talk2Occ是首個(gè)專門用于3D占用定位的數(shù)據(jù)集,它不僅包含傳統(tǒng)的3D邊界框標(biāo)注,還提供了精確到體素級(jí)別的占用信息和自然語言描述。數(shù)據(jù)集包含9925個(gè)物體樣本,涵蓋15個(gè)類別,每個(gè)樣本都有詳細(xì)的空間占用標(biāo)注,能夠精確描述物體在三維空間中的真實(shí)形狀。

Q2:GroundingOcc模型的核心優(yōu)勢(shì)是什么?

A:GroundingOcc采用端到端的單階段架構(gòu),相比傳統(tǒng)的兩階段方法更加高效。它融合了視覺、文本和點(diǎn)云信息,通過2D定位模塊和深度估計(jì)模塊增強(qiáng)空間理解能力。在Talk2Occ數(shù)據(jù)集上,該方法的定位精度達(dá)到32.68%,比最強(qiáng)基線方法提升了18.13個(gè)百分點(diǎn)。

Q3:這項(xiàng)3D占用定位技術(shù)能解決什么實(shí)際問題?

A:傳統(tǒng)方法用規(guī)整方框標(biāo)記物體會(huì)導(dǎo)致精度不足,特別是對(duì)于挖掘機(jī)等不規(guī)則形狀的物體。3D占用定位能精確到每個(gè)體素塊,讓自動(dòng)駕駛系統(tǒng)更準(zhǔn)確地理解周圍環(huán)境,提供更安全的路徑規(guī)劃。同時(shí)支持自然語言交互,讓人機(jī)溝通更加直觀便捷。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-