av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 上海AI實驗室團隊提出LEGO-Puzzles:揭露多模態(tài)大模型在空間推理上的驚人短板

上海AI實驗室團隊提出LEGO-Puzzles:揭露多模態(tài)大模型在空間推理上的驚人短板

2025-07-30 10:00
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-30 10:00 ? 科技行者

這項由上海AI實驗室聯合同濟大學、清華大學的研究團隊于2025年6月發(fā)表在arXiv預印本平臺上的研究(論文編號:arXiv:2503.19990v3),通過一個巧妙的LEGO積木評測基準,深度檢驗了當前最先進多模態(tài)大語言模型的空間推理能力。有興趣深入了解的讀者可以通過論文編號在arXiv平臺訪問完整研究內容。

研究團隊由唐克仙、高俊堯等多位研究者組成,他們發(fā)現了一個令人意外的現象:即使是最強大的人工智能模型,在處理需要多步驟空間推理的任務時,表現竟然只能達到人類水平的一半左右。這個發(fā)現對于我們理解人工智能的真實能力,以及未來在機器人控制、自動駕駛等領域的應用具有重要意義。

研究背景可以用一個簡單的比喻來理解:就像我們從小玩積木一樣,搭建一個完整的LEGO模型需要理解每個零件的形狀、大小、連接方式,還要按照說明書一步步組裝。這個過程看似簡單,實際上需要大腦進行復雜的三維空間思維和邏輯推理。研究團隊正是利用這個特點,設計了一套全面的測試體系來評估人工智能模型是否真的具備了類似人類的空間智能。

在當今人工智能飛速發(fā)展的時代,多模態(tài)大語言模型已經在圖像識別、文本理解等單一任務上表現出色,但在需要多步驟空間推理的復雜場景中,它們的真實能力仍然是個謎。這項研究首次系統(tǒng)性地揭示了這個重要問題,為未來人工智能的發(fā)展方向提供了寶貴的洞察。

一、積木世界里的智能測試:LEGO-Puzzles基準的巧妙設計

研究團隊選擇LEGO積木作為測試載體絕非偶然,這背后有著深刻的認知科學依據。就像兒童通過搭積木逐步發(fā)展空間認知能力一樣,人類的空間智能發(fā)展遵循著從簡單到復雜的階段性規(guī)律。首先是基礎的空間理解能力,比如判斷物體的高低、遠近關系;然后是單步驟的組裝推理,能夠理解如何將一個零件正確安裝到指定位置;最后是多步驟的序列推理,能夠規(guī)劃和執(zhí)行復雜的組裝流程。

基于這種認知發(fā)展模式,研究團隊將測試任務分為三個遞進的層次。第一層是空間理解測試,就像教孩子認識"上下左右"一樣基礎但重要。這包括高度判斷任務,讓模型比較不同LEGO積木在三維空間中的相對高度;相鄰性判斷任務,確定積木塊是否相互接觸;旋轉角度計算任務,識別積木旋轉了多少度;以及多視角預測任務,從不同角度觀察同一個積木組合。

第二層是單步驟推理測試,這就像詢問"下一步應該怎么做"。研究團隊設計了旋轉狀態(tài)判斷任務,確定某個零件在安裝前是否需要旋轉;位置確定任務,找出零件應該安裝在哪個精確位置;下一步預測任務,根據當前狀態(tài)和待安裝零件預測組裝后的樣子;依賴關系識別任務,判斷完成某個步驟需要哪些特定零件。

第三層是多步驟推理測試,這是最具挑戰(zhàn)性的部分,需要模型像熟練的積木大師一樣進行長期規(guī)劃。逆向推理任務要求模型從完成品倒推中間步驟;排序任務需要將打亂的組裝步驟重新排列成正確順序;異常檢測任務要求識別出不屬于正確組裝流程的步驟。

整個LEGO-Puzzles基準包含了1100個精心設計的視覺問答樣本,涵蓋11種不同類型的任務。每個任務都包含100個測試樣本,確保評估結果的統(tǒng)計可靠性。更重要的是,這些測試樣本都來自真實的LEGO積木套裝,具有很強的實用性和代表性。

數據構建過程也頗具匠心。研究團隊首先從互聯網收集了大量開源的LEGO項目文件,這些文件包含詳細的分步組裝說明和零件清單。為了確保測試的合適難度,他們過濾掉了過于復雜或過于簡單的項目。太復雜的項目結構繁瑣,微小的視覺變化讓模型難以察覺步驟差異;太簡單的項目則缺乏足夠的空間復雜性,無法有效測試多步推理能力。

接下來是渲染和轉換階段。研究團隊使用專業(yè)軟件將LEGO項目渲染成PDF格式,保持攝像機視角在各步驟間的一致性,確保空間和時間的連貫性。這個工具還允許靈活編輯源文件,可以根據任務需求修改零件屬性,比如類型、數量、顏色和位置。比如在旋轉和多視角任務中,他們應用POV-Ray風格渲染并調整光照來模擬不同觀察角度;在逆向推理任務中,他們故意在零件屬性中引入錯誤來生成不正確的組裝狀態(tài)。

質量控制環(huán)節(jié)同樣嚴格。研究團隊實施了多階段的人工審核流程,包括重復樣本過濾、圖像質量檢查和模板驗證。每個問答對都經過三名訓練有素的標注員驗證,確保圖像標記的正確順序和答案的準確性。對于存在分歧的樣本,要么修訂要么移除,確保最終數據集的高質量。

二、令人意外的測試結果:人工智能的空間推理短板暴露無遺

當研究團隊用LEGO-Puzzles基準測試了20個當前最先進的多模態(tài)大語言模型后,結果令人深思。這些模型包括了業(yè)界最頂尖的產品,比如OpenAI的GPT-4o、谷歌的Gemini-2.0-Flash,以及眾多優(yōu)秀的開源模型如Qwen2-VL、InternVL等。

測試結果呈現出明顯的分化格局。在閉源商業(yè)模型方面,表現最好的是GPT-4o,總體準確率達到57.7%,其次是Gemini-2.0-Flash的54.0%。這個成績看起來還不錯,但要知道,這已經是目前人工智能領域最強大的模型了。相比之下,開源模型的表現就顯得力不從心了,大部分模型的準確率都在隨機猜測的水平附近徘徊,只有少數幾個大型模型如Qwen2.5-VL-72B達到了53.0%的準確率。

更加鮮明的對比來自與人類表現的比較。研究團隊邀請了30名人類專家對隨機選擇的220個問題進行測試,結果人類專家的平均準確率高達93.6%。這意味著即使是最強大的人工智能模型,也與人類存在超過30%的巨大差距。這個差距不是一點點的技術調優(yōu)就能彌補的,而是反映了當前人工智能在空間推理能力上的根本性不足。

深入分析各項任務的表現,我們能發(fā)現更多有趣的細節(jié)。在基礎的空間理解任務中,高度判斷是一個特別能暴露問題的測試。研究團隊故意設計了一些從二維視角看會產生誤導的案例,只有真正理解三維空間關系的模型才能答對。結果顯示,20個模型中有11個的表現還不如隨機猜測,這說明大多數模型實際上是在用二維的思維方式處理三維問題,就像看平面照片來判斷物體的真實距離一樣不靠譜。

旋轉角度識別任務同樣困難重重。要準確識別一個物體旋轉了多少度,需要模型具備精確的角度感知和空間變換理解能力。結果顯示,20個模型中有6個的表現低于隨機水平,大多數模型的準確率都達不到40%。這表明當前的人工智能模型在感知和區(qū)分物體方向變化方面存在嚴重困難。

在序列推理任務中,問題變得更加嚴峻。多步驟的排序任務要求模型像拼圖大師一樣,理解多個步驟之間的邏輯依賴關系,并將打亂的步驟重新排列成正確順序。結果顯示,幾乎一半的模型在這個任務上的表現都低于統(tǒng)計顯著性水平,有些模型如InternVL2.5-8B、LLaVA-OneVision-7B甚至完全失敗,得分為零。

類似的困難也出現在逆向推理任務中。這個任務要求模型從完整的積木作品出發(fā),識別出某個特定的中間組裝階段。這就像讓模型成為一名考古學家,從最終結果推斷歷史過程。結果顯示,14個開源模型中有8個的表現低于隨機水平,說明大多數模型缺乏這種逆向思維能力。

三、深度實驗:探索多模態(tài)模型的生成能力與推理步長影響

除了傳統(tǒng)的選擇題測試,研究團隊還進行了一項創(chuàng)新性的實驗:讓模型不再是選擇答案,而是直接生成圖像。這就像從"選擇題考試"變成了"作文考試",難度和要求都大大提升。他們將原本的多選題轉換成圖像生成任務,比如給定一個積木組合,要求模型生成它旋轉60度后的樣子;或者給定組裝前后的狀態(tài),要求模型生成需要添加的零件圖像。

這項測試涵蓋了8個不同的模型,包括開源的Emu2、GILL、Anole,以及商業(yè)模型GPT-4o、Gemini-2.0-Flash等。評估方式也很有意思,研究團隊請來了5名人類專家,從外觀相似度和指令遵循度兩個維度對生成結果進行打分,每個維度滿分3分。

結果再次讓人意外。即使是表現最好的GPT-4o,在外觀相似度上也只得到了2.25分,在指令遵循度上更是只有1.77分。這意味著即使是最先進的模型,也只能勉強保持生成圖像的基本外觀,而在理解和執(zhí)行復雜的空間變換指令方面還有很大不足。Gemini-2.0-Flash的表現相近,外觀相似度2.15分,指令遵循度1.08分。

更早版本的GPT-4o表現則顯著不同,雖然在某些任務上外觀保持還可以,但整體指令遵循能力很弱。研究團隊分析認為,這個版本的模型可能不是直接編輯輸入圖像,而是基于文本理解重新生成整個場景,這導致了較低的外觀一致性,反映的是概念重構過程而非精確的視覺編輯。

開源模型的表現就更加令人擔憂了。Emu2雖然在保持視覺外觀方面還有一些能力(0.89分),但在指令遵循方面幾乎完全失?。?.05分),基本上把這些任務當作簡單的圖像復制而不是基于推理的生成。GILL和Anole的表現則是全面失敗,在所有任務上的得分都接近零,經常生成與指令完全無關的輸出。

這些結果清楚地表明,當前的多模態(tài)模型雖然在圖像識別和基礎的視覺理解方面已經相當成熟,但在需要空間推理指導的圖像生成方面還處于起步階段。大多數模型要么無法理解復雜的空間變換指令,要么無法將理解轉化為準確的視覺輸出。

為了更深入地理解模型在多步推理方面的局限性,研究團隊還設計了一個漸進式的實驗:Next-k-Step任務。這個實驗的巧妙之處在于,它可以精確控制推理的步驟數量,從而觀察模型性能隨步驟增加而變化的規(guī)律。

具體來說,研究團隊設置了k=1到k=5五個不同的推理長度。k=1意味著只需要推理一步,k=5則需要連續(xù)推理五個步驟。每個設置都包含20個測試案例,確保結果的統(tǒng)計可靠性。同時,他們還測試了廣泛使用的"鏈式思維"提示策略是否能改善多步推理性能。

結果顯現出清晰的規(guī)律。GPT-4o和Gemini-2.0-Flash都表現出明顯的性能遞減趨勢:隨著推理步驟的增加,準確率顯著下降。GPT-4o在k=1時還能達到45%的準確率,但到了k=4和k=5時就降到了5%;Gemini-2.0-Flash從k=1時的85%一路下滑到k=5時的20%。這種下降反映了這些模型在處理多步序列推理時的根本困難,就像人在心算復雜數學題時,步驟越多出錯概率越大。

令人意外的是,Qwen2.5-VL-72B展現出了與眾不同的穩(wěn)定性。無論推理步驟有多少,它都能保持大約65%的準確率,這種一致性暗示著該模型可能具備了某種更強的多步推理穩(wěn)定性。相比之下,InternVL2.5-78B的表現基本維持在隨機猜測水平(25%)附近,不管步驟多少,都顯示出有限的整體效果。

關于"鏈式思維"提示策略的效果,結果同樣發(fā)人深省。在k=1的簡單情況下,這種策略確實能帶來顯著改善,GPT-4o提升了30%,InternVL2.5-78B提升了20%。但隨著推理步驟增加到k≥2,這種策略的效果就迅速消失甚至產生負面影響。GPT-4o在k=4時甚至降到了0%,InternVL2.5-78B也無法維持在隨機基線之上。

這個發(fā)現特別重要,因為"鏈式思維"提示一直被認為是提升大語言模型推理能力的重要技術。但在空間推理任務中,它的局限性暴露得非常明顯。Gemini-2.0-Flash和Qwen2.5-VL-72B對這種策略基本沒有響應,表明它們可能已經有了某種內在的推理結構,不需要依賴外部的步驟分解指導。

四、真實世界的驗證:從虛擬積木到自然圖像的能力遷移

考慮到LEGO-Puzzles基于渲染數據構建,一個自然的疑問是:這種合成環(huán)境下的測試結果能否反映模型在真實世界場景中的空間推理能力?為了回答這個關鍵問題,研究團隊進行了一項重要的驗證實驗。

他們選擇了3DSRBench作為對比基準,這是一個基于自然圖像的三維空間推理評測集。雖然兩個基準的具體任務設計不同,但它們在核心能力要求上高度相似。LEGO-Puzzles中的高度判斷任務對應3DSRBench中的高度任務,相鄰性判斷任務對應位置任務。這種對應關系為跨數據集的能力比較提供了基礎。

研究團隊對所有在LEGO-Puzzles上測試過的商業(yè)模型進行了3DSRBench上相應任務的評估,然后計算兩個數據集上性能表現的皮爾遜相關系數。結果令人振奮:高度任務的相關系數達到0.93,相鄰性任務更是高達0.98,兩者的p值都小于0.01,表明統(tǒng)計顯著性很強。

這種強相關性意味著什么?簡單來說,就是一個模型如果在LEGO積木的虛擬世界里空間推理能力強,那么它在真實照片中處理類似問題的能力也會相應較強;反之,在虛擬環(huán)境中表現不佳的模型,在真實場景中也難以有出色表現。這個發(fā)現驗證了LEGO-Puzzles作為空間推理能力評測工具的有效性和代表性。

更深層的意義在于,這表明空間推理能力是一種相對通用的認知能力,不會因為數據的具體形式(是渲染圖像還是自然照片)而發(fā)生根本性改變。就像一個人的空間想象力在搭積木和看建筑圖紙時都會發(fā)揮作用一樣,人工智能模型的空間推理能力也具有跨域的一致性。

這個驗證結果還有另一層重要含義:它證明了使用合成數據進行空間推理評測的合理性。在人工智能研究中,合成數據具有可控性強、規(guī)模可擴展、標注成本低等優(yōu)勢,但一直存在與真實世界差距的質疑。LEGO-Puzzles的成功驗證為這類研究方法提供了有力支持,表明精心設計的合成環(huán)境確實能夠有效評估模型的核心能力。

從更廣闊的視角來看,這項驗證實驗還揭示了一個有趣的現象:空間推理能力的評估可能比我們想象的更加穩(wěn)定和可預測。不管是在精心控制的實驗室環(huán)境中,還是在復雜多變的真實世界里,模型之間的相對優(yōu)劣關系基本保持一致。這為未來開發(fā)更好的空間推理模型提供了明確的方向指引。

五、研究啟示:多模態(tài)人工智能發(fā)展的新思考

通過LEGO-Puzzles這個巧妙的測試平臺,這項研究為我們理解當前多模態(tài)人工智能的真實能力提供了珍貴的洞察。就像用一面鏡子照出了人工智能發(fā)展過程中一些之前被忽視的盲點。

最直接的發(fā)現是,即使是當前最先進的人工智能模型,在需要多步驟空間推理的任務上仍然存在顯著不足。這種不足不是簡單的技術細節(jié)問題,而是反映了當前人工智能架構在處理三維空間信息和序列推理方面的根本性局限。就像一個只會背誦公式但不理解物理原理的學生,這些模型雖然在單項任務上表現出色,但在需要綜合運用多種空間認知能力的復雜場景中就暴露出明顯短板。

研究結果顯示的另一個重要現象是,開源模型和商業(yè)模型之間存在顯著的能力差距。這種差距不僅體現在總體性能上,更體現在處理復雜推理任務的穩(wěn)定性上。商業(yè)模型雖然也遠未達到人類水平,但至少在大多數任務上能夠超越隨機猜測;而許多開源模型的表現甚至不如隨機選擇,這表明它們可能根本沒有掌握相關的推理模式。

這種差距的背后可能隱藏著訓練數據質量、模型架構設計、計算資源投入等多個因素的綜合影響。商業(yè)模型通常擁有更大規(guī)模的高質量訓練數據、更精細的模型調優(yōu)和更充足的計算資源支持,這些優(yōu)勢在處理復雜推理任務時可能會被放大。但即使如此,它們與人類的巨大差距也提醒我們,單純依靠規(guī)模擴展可能無法解決空間推理的根本問題。

從技術發(fā)展角度來看,研究揭示的問題指向了幾個重要的改進方向。首先是三維空間表征能力的提升。當前的多模態(tài)模型主要基于二維圖像訓練,雖然能夠識別圖像中的物體和場景,但對真正的三維空間關系理解有限。未來可能需要引入更多三維幾何知識、空間變換原理和立體視覺機制。

其次是序列推理能力的增強。多步驟推理不僅需要每一步的準確執(zhí)行,更需要步驟之間的邏輯連貫和長期規(guī)劃能力。當前模型在這方面的表現表明,簡單的注意力機制和transformer架構可能還不足以支撐復雜的序列推理??赡苄枰敫鞔_的推理結構、記憶機制和規(guī)劃算法。

研究還揭示了一個有趣的現象:不同模型展現出了不同的推理特征。比如Qwen2.5-VL-72B在多步推理中表現出的穩(wěn)定性,以及某些模型對"鏈式思維"提示的不同響應模式。這些差異可能反映了不同的訓練策略和架構設計對推理能力的影響,為未來模型設計提供了有價值的參考。

從應用前景來看,空間推理能力的不足對許多實際應用領域都有重要影響。在機器人控制領域,機器人需要理解三維環(huán)境、規(guī)劃運動軌跡、執(zhí)行復雜的操作序列,這些都高度依賴空間推理能力。在自動駕駛領域,車輛需要實時理解復雜的三維交通環(huán)境、預測其他車輛的運動軌跡、規(guī)劃安全的行駛路徑。在增強現實和虛擬現實應用中,系統(tǒng)需要準確理解真實世界的三維結構并與虛擬對象進行自然交互。

目前多模態(tài)模型在空間推理方面的局限性意味著,這些應用領域可能還需要更長時間才能實現真正的智能化。但同時,這也為相關研究和技術發(fā)展指明了清晰的方向和目標。

說到底,這項研究最大的價值可能不在于揭示了人工智能的不足,而在于為我們提供了一個評估和改進空間推理能力的有效工具。LEGO-Puzzles不僅是一個測試基準,更是一個研究平臺,可以幫助研究者系統(tǒng)地分析不同方法的優(yōu)劣,追蹤技術進步的軌跡,發(fā)現新的研究機會。

歸根結底,空間智能是人類認知能力的重要組成部分,也是人工智能走向真正通用智能的必經之路。通過LEGO積木這個看似簡單的載體,我們看到了當前人工智能發(fā)展中的重要挑戰(zhàn),也看到了未來突破的方向。正如兒童通過搭積木逐步發(fā)展空間認知能力一樣,人工智能也需要在這個過程中不斷學習和改進,最終具備真正的空間智能。

對于有興趣深入了解這項研究技術細節(jié)和完整實驗結果的讀者,可以通過arXiv:2503.19990v3在相關學術平臺查閱完整論文,研究團隊還在項目主頁提供了數據集和代碼,為后續(xù)研究提供了便利的基礎。

Q&A

Q1:LEGO-Puzzles是什么?它是如何測試AI模型的? A:LEGO-Puzzles是上海AI實驗室開發(fā)的一個評測基準,通過1100個LEGO積木相關的視覺問答任務來測試AI模型的空間推理能力。它設計了11種不同難度的任務,從簡單的高度判斷到復雜的多步驟組裝規(guī)劃,像給AI做"空間智力測試"一樣全面評估其三維思維能力。

Q2:目前最強的AI模型在空間推理方面表現如何? A:令人意外的是,即使是GPT-4o這樣的頂級模型,在LEGO-Puzzles上的準確率也只有57.7%,而人類專家能達到93.6%。大多數開源模型的表現甚至接近隨機猜測水平。這表明當前AI在空間推理方面還有巨大提升空間,與人類存在30%以上的性能差距。

Q3:這項研究對未來AI發(fā)展有什么意義? A:這項研究揭示了當前AI在三維空間理解和多步推理方面的重要短板,這直接影響到機器人控制、自動駕駛、AR/VR等應用的發(fā)展。同時,LEGO-Puzzles為AI研究提供了一個標準化的評測工具,幫助研究者更好地改進模型的空間推理能力,推動AI向真正的通用智能發(fā)展。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-