這項(xiàng)由清華大學(xué)、麥吉爾大學(xué)、威斯康星大學(xué)麥迪遜分校等多所國(guó)際知名院校聯(lián)合完成的開創(chuàng)性研究,于2025年6月30日發(fā)表在計(jì)算機(jī)視覺頂級(jí)期刊arXiv上。該研究的通訊作者包括清華大學(xué)的江昆教授和麥吉爾大學(xué)的孫立軍教授,論文編號(hào)為arXiv:2506.24044v1。這份長(zhǎng)達(dá)19頁(yè)的綜合性調(diào)研報(bào)告,首次系統(tǒng)性地梳理了自動(dòng)駕駛領(lǐng)域一個(gè)全新的技術(shù)方向——視覺-語言-行動(dòng)模型(VLA4AD),為有興趣深入了解的讀者提供了完整的技術(shù)脈絡(luò)圖譜。
想象一下這樣的場(chǎng)景:你坐在一輛自動(dòng)駕駛汽車?yán)铮瑢?duì)它說"前面有救護(hù)車,讓一讓",汽車不僅能聽懂你的話,還能看到救護(hù)車,并且立即做出合適的避讓動(dòng)作。這聽起來像科幻電影情節(jié),但實(shí)際上正是當(dāng)前自動(dòng)駕駛技術(shù)發(fā)展的最前沿方向。傳統(tǒng)的自動(dòng)駕駛系統(tǒng)就像一個(gè)只會(huì)按程序行事的機(jī)器人,雖然能識(shí)別紅綠燈、避開障礙物,但遇到復(fù)雜情況時(shí)往往顯得"木訥"。而這項(xiàng)研究所關(guān)注的新技術(shù),則試圖讓汽車變得更像一個(gè)會(huì)思考、能交流的智能助手。
過去幾十年里,自動(dòng)駕駛技術(shù)的發(fā)展歷程就像搭積木一樣——工程師們把駕駛?cè)蝿?wù)分解成感知、預(yù)測(cè)、規(guī)劃、控制等不同模塊,每個(gè)模塊各司其職。這種方法雖然條理清晰,但也帶來了一個(gè)問題:當(dāng)一個(gè)模塊出錯(cuò)時(shí),錯(cuò)誤會(huì)像多米諾骨牌一樣傳遞下去,最終導(dǎo)致整個(gè)系統(tǒng)失效。更重要的是,這種系統(tǒng)很難處理那些程序員事先沒有考慮到的特殊情況。
近年來,隨著大型語言模型和視覺模型的爆發(fā)式發(fā)展,研究人員開始探索一個(gè)全新的可能性:能否讓自動(dòng)駕駛汽車像人類一樣,同時(shí)運(yùn)用視覺、語言和行動(dòng)能力來處理復(fù)雜的駕駛場(chǎng)景?這就是視覺-語言-行動(dòng)模型的核心理念。這種技術(shù)不再把駕駛?cè)蝿?wù)割裂成獨(dú)立的模塊,而是試圖在一個(gè)統(tǒng)一的框架內(nèi),讓汽車能夠看懂路況、理解指令、進(jìn)行推理,并直接做出駕駛決策。
研究團(tuán)隊(duì)通過深入調(diào)研發(fā)現(xiàn),這個(gè)領(lǐng)域的發(fā)展經(jīng)歷了四個(gè)清晰的階段,就像一個(gè)技術(shù)逐漸成熟的成長(zhǎng)過程。最初,語言模型只是充當(dāng)"解說員"的角色,幫助解釋汽車為什么做出某個(gè)決策,但并不直接參與駕駛控制。后來,語言開始作為"中間翻譯",將感知到的信息轉(zhuǎn)換成可理解的計(jì)劃,再由其他模塊執(zhí)行。接下來,整個(gè)系統(tǒng)變得更加一體化,從感知到?jīng)Q策的全過程都在一個(gè)模型內(nèi)完成。最近的發(fā)展則更進(jìn)一步,加入了長(zhǎng)期推理和記憶能力,讓汽車能夠處理更復(fù)雜的情況并提供詳細(xì)的解釋。
在技術(shù)架構(gòu)方面,這類系統(tǒng)的設(shè)計(jì)原理可以比作一個(gè)超級(jí)智能的司機(jī)大腦。首先是"眼睛"——視覺編碼器,它不僅能處理普通的攝像頭畫面,還能整合激光雷達(dá)、雷達(dá)等多種傳感器信息,形成對(duì)周圍環(huán)境的立體理解。這就像人類駕駛時(shí)不僅用眼睛看,還會(huì)用耳朵聽、用身體感受車輛的運(yùn)動(dòng)狀態(tài)。其次是"大腦"——語言處理器,它基于預(yù)訓(xùn)練的大型語言模型,能夠理解各種形式的指令和查詢,從簡(jiǎn)單的"左轉(zhuǎn)"到復(fù)雜的"在確保安全的前提下超越前車"都能處理。最后是"手腳"——行動(dòng)解碼器,它將前面兩個(gè)部分的輸出轉(zhuǎn)換成具體的駕駛動(dòng)作,可以是精確的方向盤轉(zhuǎn)角和油門剎車控制,也可以是更高層次的軌跡規(guī)劃。
這種技術(shù)的輸出方式也很有趣,不再局限于簡(jiǎn)單的控制信號(hào)。有些系統(tǒng)會(huì)輸出詳細(xì)的駕駛軌跡,告訴執(zhí)行模塊應(yīng)該如何移動(dòng);有些則直接輸出底層控制指令,如方向盤轉(zhuǎn)角和踏板力度;還有一些更高級(jí)的系統(tǒng)能夠同時(shí)輸出駕駛動(dòng)作和自然語言解釋,讓乘客了解汽車的"思考過程"。
當(dāng)然,這個(gè)領(lǐng)域的發(fā)展并非一帆風(fēng)順。早期的嘗試主要集中在讓語言模型扮演"旁觀者"角色,類似于一個(gè)坐在副駕駛座上的陪練教練,能夠觀察和評(píng)價(jià)駕駛行為,但不直接操控車輛。比如DriveGPT-4這樣的系統(tǒng),能夠看一張路況照片,然后用文字描述應(yīng)該采取什么行動(dòng),但這種描述往往比較模糊,難以轉(zhuǎn)換成精確的控制指令。更重要的是,處理每一幀圖像都需要大量計(jì)算,導(dǎo)致系統(tǒng)響應(yīng)緩慢,無法滿足實(shí)時(shí)駕駛的需求。
隨著技術(shù)的進(jìn)步,研究人員開始嘗試模塊化的方法。這個(gè)階段的系統(tǒng)更像是一個(gè)有組織的團(tuán)隊(duì),語言不再只是旁觀者,而是成為團(tuán)隊(duì)中的重要一員。例如,OpenDriveVLA系統(tǒng)能夠接收"在教堂右轉(zhuǎn)"這樣的路線指令,然后生成"20米后右轉(zhuǎn),然后直行"這樣的中間指令,最后由專門的軌跡生成器將其轉(zhuǎn)換成具體的行駛路徑。這種方法大大提高了系統(tǒng)的可解釋性和靈活性,但仍然存在模塊間信息傳遞損失的問題。
真正的突破出現(xiàn)在端到端統(tǒng)一模型的發(fā)展階段。這類系統(tǒng)就像一個(gè)天才司機(jī),能夠直接從原始的傳感器數(shù)據(jù)跳躍到最終的駕駛動(dòng)作,中間的推理過程完全在模型內(nèi)部完成。EMMA系統(tǒng)是這個(gè)階段的代表作,它在Waymo的大規(guī)模駕駛數(shù)據(jù)上進(jìn)行訓(xùn)練,能夠同時(shí)處理目標(biāo)檢測(cè)和運(yùn)動(dòng)規(guī)劃任務(wù),在閉環(huán)測(cè)試中展現(xiàn)出比傳統(tǒng)分離式系統(tǒng)更好的性能。SimLingo和CarLLaVA等系統(tǒng)則進(jìn)一步引入了"動(dòng)作想象"技術(shù),讓模型能夠在腦海中預(yù)演不同駕駛策略的后果,從而選擇最優(yōu)的行動(dòng)方案。
最新的發(fā)展趨勢(shì)是推理增強(qiáng)型系統(tǒng),這類系統(tǒng)不僅能夠駕駛,還具備了類似人類的推理和記憶能力。ORION系統(tǒng)配備了一個(gè)"記憶銀行",能夠存儲(chǔ)幾分鐘的觀察和行動(dòng)歷史,并由語言模型對(duì)這些信息進(jìn)行總結(jié)和分析,生成下一步的行動(dòng)計(jì)劃。Impromptu VLA系統(tǒng)則專門針對(duì)極端情況進(jìn)行訓(xùn)練,能夠在遇到前所未見的復(fù)雜場(chǎng)景時(shí)進(jìn)行鏈?zhǔn)酵评?,并給出詳細(xì)的行動(dòng)解釋。AutoVLA更是將這種推理能力與軌跡規(guī)劃完美結(jié)合,在多個(gè)基準(zhǔn)測(cè)試中都取得了最佳成績(jī)。
為了支撐這些技術(shù)的發(fā)展,研究社區(qū)構(gòu)建了豐富的數(shù)據(jù)集和評(píng)估體系。BDD-X數(shù)據(jù)集提供了帶有人類解釋的真實(shí)駕駛場(chǎng)景,成為訓(xùn)練可解釋AI系統(tǒng)的重要資源。nuScenes數(shù)據(jù)集雖然最初專注于感知任務(wù),但其豐富的多傳感器數(shù)據(jù)使其成為VLA系統(tǒng)的重要測(cè)試平臺(tái)。Bench2Drive則提供了專門的閉環(huán)測(cè)試環(huán)境,包含44種不同的駕駛場(chǎng)景,能夠全面評(píng)估系統(tǒng)的駕駛能力。Impromptu VLA數(shù)據(jù)集專門收集了8萬個(gè)極端駕駛場(chǎng)景,每個(gè)場(chǎng)景都配有詳細(xì)的推理鏈條和時(shí)間戳標(biāo)注,為訓(xùn)練能夠處理罕見情況的AI系統(tǒng)提供了寶貴資源。
在訓(xùn)練方法方面,當(dāng)前主流的做法是采用多階段漸進(jìn)式訓(xùn)練。這個(gè)過程就像培養(yǎng)一個(gè)司機(jī)新手,需要循序漸進(jìn)。首先是預(yù)訓(xùn)練階段,在大規(guī)模的圖像-文本數(shù)據(jù)上訓(xùn)練視覺編碼器和語言模型,建立基礎(chǔ)的視覺-語言理解能力。然后是模態(tài)對(duì)齊階段,使用配對(duì)的圖像-文本-動(dòng)作數(shù)據(jù)進(jìn)行微調(diào),讓模型學(xué)會(huì)將視覺信息、語言指令和駕駛動(dòng)作關(guān)聯(lián)起來。接下來是場(chǎng)景特化階段,在特定的駕駛場(chǎng)景和指令上進(jìn)行針對(duì)性訓(xùn)練,并可能加入強(qiáng)化學(xué)習(xí)來優(yōu)化安全性和規(guī)則遵循。最后是模型壓縮階段,通過參數(shù)高效的方法如LoRA適配器、專家混合路由或知識(shí)蒸餾來減少計(jì)算需求,使模型能夠在車載硬件上實(shí)時(shí)運(yùn)行。
評(píng)估這類系統(tǒng)的挑戰(zhàn)在于需要同時(shí)考慮駕駛能力和語言能力兩個(gè)維度。在駕駛方面,研究人員關(guān)注閉環(huán)成功率、交通違規(guī)次數(shù)、碰撞率等傳統(tǒng)指標(biāo),同時(shí)也測(cè)試系統(tǒng)在惡劣天氣、未見過的路況等情況下的泛化能力。在語言方面,則需要評(píng)估指令理解的準(zhǔn)確性、解釋的合理性、多輪對(duì)話的一致性等。更重要的是,還需要評(píng)估兩種能力的耦合程度——系統(tǒng)是否真正理解了語言指令的含義,而不是簡(jiǎn)單地基于關(guān)鍵詞做出反應(yīng)。
盡管取得了顯著進(jìn)展,但這個(gè)領(lǐng)域仍面臨諸多挑戰(zhàn)。首要問題是魯棒性和可靠性。語言模型雖然強(qiáng)大,但有時(shí)會(huì)產(chǎn)生"幻覺",可能錯(cuò)誤地感知不存在的危險(xiǎn)或誤解俚語表達(dá)。比如當(dāng)有人說"踩油門"時(shí),系統(tǒng)需要理解這是加速的意思,而不是真的要踩什么東西。實(shí)時(shí)性能也是一個(gè)關(guān)鍵挑戰(zhàn),在30Hz的控制頻率下運(yùn)行包含數(shù)十億參數(shù)的模型對(duì)計(jì)算硬件提出了極高要求。
數(shù)據(jù)標(biāo)注瓶頸是另一個(gè)重要制約因素。訓(xùn)練這類系統(tǒng)需要大量的圖像-控制-語言三元組數(shù)據(jù),而這種數(shù)據(jù)的收集和標(biāo)注成本極高。雖然合成數(shù)據(jù)可以在一定程度上緩解這個(gè)問題,但在覆蓋非英語方言、地區(qū)性交通習(xí)慣、法律術(shù)語等方面仍然存在不足。
多模態(tài)融合仍然是一個(gè)技術(shù)難點(diǎn)。當(dāng)前的工作主要集中在攝像頭數(shù)據(jù)上,激光雷達(dá)、雷達(dá)、高精地圖等信息的融合程度有限。如何在保持系統(tǒng)復(fù)雜度可控的同時(shí),有效整合這些異構(gòu)數(shù)據(jù)源,仍需要更多探索。
多智能體協(xié)調(diào)也帶來了新的挑戰(zhàn)。當(dāng)多輛配備VLA系統(tǒng)的車輛需要協(xié)調(diào)行動(dòng)時(shí),如何設(shè)計(jì)安全、高效、防篡改的通信協(xié)議成為關(guān)鍵問題。系統(tǒng)需要能夠驗(yàn)證其他車輛發(fā)送信息的真實(shí)性,同時(shí)對(duì)惡意攻擊保持魯棒性。
展望未來,研究人員認(rèn)為這個(gè)領(lǐng)域有幾個(gè)重要的發(fā)展方向。首先是構(gòu)建專門針對(duì)駕駛?cè)蝿?wù)的基礎(chǔ)模型,類似于通用語言模型GPT,但專門針對(duì)多傳感器駕駛數(shù)據(jù)進(jìn)行自監(jiān)督預(yù)訓(xùn)練,然后通過少量數(shù)據(jù)就能適應(yīng)各種下游任務(wù)。神經(jīng)符號(hào)安全內(nèi)核的發(fā)展也很有前景,通過讓神經(jīng)網(wǎng)絡(luò)輸出結(jié)構(gòu)化的行動(dòng)程序,再由符號(hào)驗(yàn)證器執(zhí)行,可以在保持靈活性的同時(shí)提供安全保障。
車隊(duì)級(jí)持續(xù)學(xué)習(xí)是另一個(gè)有趣的方向。deployed的車輛可以將遇到的新情況以簡(jiǎn)潔的語言片段形式上傳到云端,形成全車隊(duì)共享的知識(shí)庫(kù),實(shí)現(xiàn)快速的增量學(xué)習(xí)。標(biāo)準(zhǔn)化的交通語言也是必要的發(fā)展方向,類似于航空業(yè)的標(biāo)準(zhǔn)通信用語,需要設(shè)計(jì)一套受限但精確的消息集合來支持車輛間的協(xié)調(diào)。
跨模態(tài)社交智能將進(jìn)一步擴(kuò)展系統(tǒng)的能力邊界。未來的系統(tǒng)不僅要處理語言指令,還需要理解手勢(shì)、表情、路牌等多種信息源,并能夠通過燈光、顯示屏、喇叭等多種方式與人類進(jìn)行交互。檢索增強(qiáng)規(guī)劃也展現(xiàn)出巨大潛力,通過實(shí)時(shí)檢索相似的歷史駕駛案例來指導(dǎo)當(dāng)前決策,可以顯著提高系統(tǒng)處理長(zhǎng)尾事件的能力。
這項(xiàng)綜合性調(diào)研不僅梳理了當(dāng)前的技術(shù)現(xiàn)狀,更重要的是為未來的研究指明了方向。研究團(tuán)隊(duì)強(qiáng)調(diào),要實(shí)現(xiàn)真正安全、透明、全球部署的VLA4AD系統(tǒng),需要在可擴(kuò)展訓(xùn)練、形式化安全分析、人機(jī)交互、標(biāo)準(zhǔn)化評(píng)估等多個(gè)方面取得突破。他們呼吁建立統(tǒng)一的評(píng)估協(xié)議和開源工具包,促進(jìn)不同研究團(tuán)隊(duì)間的合作和比較。
這項(xiàng)研究的意義不僅在于技術(shù)層面的貢獻(xiàn),更在于它為自動(dòng)駕駛的未來發(fā)展提供了一個(gè)全新的視角。與其簡(jiǎn)單地讓機(jī)器模仿人類的駕駛行為,不如讓機(jī)器具備理解、推理和交流的能力,成為真正的駕駛伙伴。這種技術(shù)路線的成功,將徹底改變我們對(duì)自動(dòng)駕駛汽車的認(rèn)知,從一個(gè)精密的自動(dòng)化工具變成一個(gè)可以理解、可以溝通、可以解釋自己行為的智能伙伴。
說到底,這項(xiàng)研究所描繪的未來并不遙遠(yuǎn)。隨著計(jì)算能力的提升、數(shù)據(jù)的積累和算法的改進(jìn),我們很可能在不久的將來就能體驗(yàn)到這種會(huì)說話、能推理的智能汽車。當(dāng)然,這個(gè)過程中還有許多技術(shù)和社會(huì)挑戰(zhàn)需要解決,但正如研究團(tuán)隊(duì)所指出的,這條道路的方向是明確的,前景是光明的。對(duì)于普通人來說,這意味著未來的出行將變得更加安全、舒適和智能,我們與汽車的關(guān)系也將從簡(jiǎn)單的工具使用轉(zhuǎn)變?yōu)楦幼匀坏娜藱C(jī)協(xié)作。
Q&A
Q1:VLA4AD是什么意思?它與傳統(tǒng)自動(dòng)駕駛有什么不同? A:VLA4AD是"視覺-語言-行動(dòng)模型用于自動(dòng)駕駛"的縮寫。與傳統(tǒng)自動(dòng)駕駛相比,它最大的特點(diǎn)是能夠同時(shí)處理視覺信息、理解語言指令并做出駕駛決策,就像給汽車裝上了"眼睛"、"大腦"和"嘴巴",能看能聽能說還能開,而不是像傳統(tǒng)系統(tǒng)那樣只能按程序執(zhí)行預(yù)設(shè)動(dòng)作。
Q2:這種技術(shù)什么時(shí)候能在普通汽車上使用? A:目前這項(xiàng)技術(shù)還處于研究階段,主要在實(shí)驗(yàn)室和仿真環(huán)境中測(cè)試。雖然已有一些原型系統(tǒng)展現(xiàn)出良好效果,但要在普通汽車上大規(guī)模應(yīng)用,還需要解決計(jì)算效率、安全驗(yàn)證、成本控制等問題,預(yù)計(jì)還需要幾年時(shí)間才能進(jìn)入商用階段。
Q3:VLA4AD系統(tǒng)安全嗎?會(huì)不會(huì)因?yàn)?理解錯(cuò)誤"造成事故? A:安全性確實(shí)是最大的挑戰(zhàn)之一。系統(tǒng)可能會(huì)產(chǎn)生"幻覺"或誤解指令,這正是研究人員重點(diǎn)關(guān)注的問題。目前的解決方案包括加入符號(hào)邏輯驗(yàn)證、多重安全檢查、漸進(jìn)式部署等措施。未來的系統(tǒng)會(huì)更像有經(jīng)驗(yàn)的司機(jī),不僅會(huì)開車,還會(huì)主動(dòng)識(shí)別和避免潛在風(fēng)險(xiǎn)。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。