av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 當(dāng)AI模型遇到"轉(zhuǎn)個身"的挑戰(zhàn):UNC Chapel Hill揭示多模態(tài)大語言模型的方向感困惑

當(dāng)AI模型遇到"轉(zhuǎn)個身"的挑戰(zhàn):UNC Chapel Hill揭示多模態(tài)大語言模型的方向感困惑

2025-08-27 10:30
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-27 10:30 ? 科技行者

這項由UNC Chapel Hill的Tianyi Niu、Jaemin Cho、Elias Stengel-Eskin和Mohit Bansal團(tuán)隊共同完成的研究發(fā)表于2025年8月,論文題目為"RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation"。有興趣深入了解的讀者可以通過GitHub鏈接https://github.com/tianyiniu/RotBench訪問完整的研究代碼和數(shù)據(jù)。

想象一下,你給一個號稱很聰明的朋友看一張倒過來的照片,問他這張照片被轉(zhuǎn)了多少度,結(jié)果他竟然一臉茫然。這聽起來很不可思議,但這正是目前最先進(jìn)的AI模型面臨的尷尬處境。

當(dāng)今最頂尖的多模態(tài)大語言模型,包括GPT-5、o3和Gemini-2.5-Pro,在處理復(fù)雜的視覺推理任務(wù)時表現(xiàn)出色,能夠分析圖像內(nèi)容、回答視覺問題,甚至進(jìn)行圖像分割。然而,UNC Chapel Hill的研究團(tuán)隊卻發(fā)現(xiàn)了這些AI巨頭的一個意外弱點:它們竟然無法可靠地識別一張圖片是否被旋轉(zhuǎn)了,以及被旋轉(zhuǎn)了多少度。

這個發(fā)現(xiàn)讓人頗為意外。人類只需要瞥一眼就能輕松判斷一張照片是正著放的、倒過來的,還是側(cè)著的。我們能夠利用圖像中的各種線索,比如人物的姿態(tài)、家具的擺放、文字的方向等等,快速準(zhǔn)確地判斷圖像的正確朝向。但對于這些在其他視覺任務(wù)上表現(xiàn)卓越的AI模型來說,這個看似簡單的任務(wù)卻成了一個難以逾越的障礙。

研究團(tuán)隊為了系統(tǒng)性地測試這個問題,專門創(chuàng)建了一個名為RotBench的基準(zhǔn)測試。這個測試包含了350張精心篩選的圖片,涵蓋了生活方式、肖像和風(fēng)景等不同類型。每張圖片都被分別旋轉(zhuǎn)0度(正常方向)、90度、180度(上下顛倒)和270度,然后讓AI模型判斷圖片的旋轉(zhuǎn)角度。

有趣的是,研究結(jié)果顯示了一個明顯的模式。幾乎所有的AI模型都能夠準(zhǔn)確識別正常朝向(0度)的圖片,這并不令人意外,因為這些模型在訓(xùn)練時主要接觸的都是正常朝向的圖像。一些較強的模型也能夠相對準(zhǔn)確地識別上下顛倒(180度)的圖片,畢竟一個人頭朝下站著還是比較明顯的。

然而,真正的挑戰(zhàn)出現(xiàn)在90度和270度的旋轉(zhuǎn)上。無論是開源的還是商業(yè)化的頂級模型,沒有一個能夠可靠地區(qū)分這兩種旋轉(zhuǎn)角度。這就像是一個人能夠分辨出照片是正著的還是倒著的,但卻搞不清楚照片是向左轉(zhuǎn)了90度還是向右轉(zhuǎn)了90度。

為了幫助這些AI模型提高表現(xiàn),研究團(tuán)隊嘗試了各種輔助方法。他們?yōu)槟P吞峁┝藞D像的詳細(xì)描述、物體的邊界框信息、深度圖等額外信息,還嘗試了鏈?zhǔn)剿伎继崾荆MP湍軌蜻M(jìn)行更深入的推理。然而,這些努力帶來的改善微乎其微,有時甚至適得其反。

研究團(tuán)隊還發(fā)現(xiàn)了一個有趣的現(xiàn)象:當(dāng)他們同時向模型展示同一張圖片的四個不同旋轉(zhuǎn)版本時,一些具備強大推理能力的模型,如o3和Gemini-2.5-Pro,表現(xiàn)有所改善。這就像是給學(xué)生開卷考試,讓他們能夠?qū)Ρ葏⒖即鸢浮H欢?,對于能力較弱的模型來說,這種做法反而讓它們更加混亂。

更深入的分析揭示了問題的根本所在。通過混淆矩陣分析,研究團(tuán)隊發(fā)現(xiàn)GPT-4o在面對90度旋轉(zhuǎn)的圖片時,有459次錯誤地將其識別為270度旋轉(zhuǎn),而面對270度旋轉(zhuǎn)的圖片時,又有424次錯誤地將其識別為90度旋轉(zhuǎn)。這種系統(tǒng)性的混淆表明,模型在區(qū)分順時針和逆時針旋轉(zhuǎn)方面存在根本性困難。

為了進(jìn)一步驗證這個發(fā)現(xiàn),研究團(tuán)隊設(shè)計了一個更簡單的二分類測試:只要求模型判斷一張側(cè)向旋轉(zhuǎn)的圖片是順時針轉(zhuǎn)了90度還是逆時針轉(zhuǎn)了90度。結(jié)果依然令人失望。GPT-4o在300張順時針旋轉(zhuǎn)的圖片中只正確識別了52張,而Qwen-2.5-VL-7B-Instruct更是只正確識別了23張。這些模型顯然存在強烈的方向性偏見,傾向于將不確定的旋轉(zhuǎn)都判斷為逆時針方向。

研究團(tuán)隊還嘗試通過微調(diào)來解決這個問題。他們使用1000張MS COCO數(shù)據(jù)集的圖片對Qwen-2.5-VL-7B-Instruct進(jìn)行了專門的旋轉(zhuǎn)識別訓(xùn)練。訓(xùn)練結(jié)果顯示,模型在識別0度和180度旋轉(zhuǎn)方面有了顯著提升,180度旋轉(zhuǎn)的準(zhǔn)確率最終穩(wěn)定在0.8左右。然而,在90度和270度旋轉(zhuǎn)的識別上,模型的表現(xiàn)卻出現(xiàn)了一種奇特的振蕩模式:每當(dāng)90度旋轉(zhuǎn)的準(zhǔn)確率提高時,270度旋轉(zhuǎn)的準(zhǔn)確率就會下降,反之亦然。這種現(xiàn)象表明,模型似乎陷入了兩個局部最優(yōu)解之間的循環(huán),無法同時掌握這兩種旋轉(zhuǎn)的識別。

這些發(fā)現(xiàn)對于依賴旋轉(zhuǎn)攝像頭的下游任務(wù)具有重要意義。比如機器人手臂操作、第一人稱極限運動分析等應(yīng)用都需要AI模型能夠準(zhǔn)確理解圖像的朝向。目前這些模型在處理旋轉(zhuǎn)圖像時的局限性,可能會嚴(yán)重影響這些應(yīng)用的可靠性和安全性。

研究團(tuán)隊還提出了一種創(chuàng)新的投票方法來緩解這個問題。這種方法的思路是利用模型在識別0度旋轉(zhuǎn)方面的強項:將待測圖片進(jìn)一步旋轉(zhuǎn)0度、90度、180度和270度,分別讓模型進(jìn)行判斷,然后通過數(shù)學(xué)運算將這些判斷結(jié)果轉(zhuǎn)換到統(tǒng)一的參考框架下,最后通過多數(shù)投票得出最終答案。這種方法在較弱的模型上取得了顯著的改善效果,讓所有旋轉(zhuǎn)角度的識別準(zhǔn)確率都接近0.5,雖然算不上優(yōu)秀,但至少達(dá)到了隨機猜測的水平。

然而,這種投票方法也有明顯的局限性。首先,它需要對每張圖片進(jìn)行四次模型調(diào)用,大大增加了計算成本。其次,它假設(shè)我們事先知道所有可能的旋轉(zhuǎn)角度,這在實際應(yīng)用中往往不現(xiàn)實,因為真實世界中的圖像旋轉(zhuǎn)往往是連續(xù)的角度值。

通過深入分析模型生成的推理過程,研究團(tuán)隊發(fā)現(xiàn)了一個令人啼笑皆非的問題。當(dāng)要求GPT-4o解釋其推理過程時,模型經(jīng)常會生成類似這樣的文本:"90度逆時針旋轉(zhuǎn)會將天空放在右邊,地面放在左邊,這與當(dāng)前朝向匹配。270度順時針旋轉(zhuǎn)會將天空放在左邊,地面放在右邊,這與當(dāng)前情況不符。"然而,90度逆時針旋轉(zhuǎn)和270度順時針旋轉(zhuǎn)實際上是完全相同的!這表明模型在概念理解上存在根本性錯誤,它虛假地區(qū)分了兩種等價的旋轉(zhuǎn)描述。

這項研究的意義不僅僅在于揭示了當(dāng)前AI模型的一個具體缺陷,更重要的是它提醒我們,即使是在其他方面表現(xiàn)出色的AI系統(tǒng),在某些看似簡單的任務(wù)上仍可能存在意想不到的盲點。這種空間推理能力的不足,反映了當(dāng)前多模態(tài)大語言模型在視覺理解方面仍然存在的根本性局限。

對于AI開發(fā)者和研究者來說,這些發(fā)現(xiàn)強調(diào)了在模型訓(xùn)練過程中整合旋轉(zhuǎn)意識的重要性。傳統(tǒng)的訓(xùn)練數(shù)據(jù)主要包含正常朝向的圖像,這可能導(dǎo)致模型對圖像旋轉(zhuǎn)不敏感。未來的模型設(shè)計需要更好地處理各種圖像變換,包括旋轉(zhuǎn)、翻轉(zhuǎn)、縮放等,以提高模型在真實世界應(yīng)用中的魯棒性。

此外,這項研究也為評估AI模型能力提供了一個新的視角。RotBench基準(zhǔn)測試可能會成為評估多模態(tài)模型空間推理能力的標(biāo)準(zhǔn)工具,就像其他基準(zhǔn)測試評估語言理解、圖像識別能力一樣。這有助于推動整個領(lǐng)域?qū)臻g推理能力的重視和改進(jìn)。

對于普通用戶來說,這些發(fā)現(xiàn)提醒我們在使用AI視覺系統(tǒng)時需要保持謹(jǐn)慎,特別是在那些對方向敏感的應(yīng)用場景中。雖然這些AI模型在許多任務(wù)上表現(xiàn)優(yōu)異,但在涉及圖像旋轉(zhuǎn)的場景下,人類的判斷可能仍然比AI更可靠。

說到底,這項研究以一種出人意料的方式揭示了人工智能發(fā)展的不平衡性。我們創(chuàng)造出了能夠進(jìn)行復(fù)雜推理、生成創(chuàng)意內(nèi)容的AI系統(tǒng),但它們卻在一個三歲小孩都能輕松完成的任務(wù)上敗下陣來。這種反差不僅令人深思,也為未來的AI發(fā)展指明了新的方向。歸根結(jié)底,真正智能的AI系統(tǒng)不僅需要在高級認(rèn)知任務(wù)上表現(xiàn)出色,也需要在基礎(chǔ)的感知和空間推理任務(wù)上達(dá)到人類的水平。只有這樣,AI才能真正成為我們在各種實際應(yīng)用中可以信賴的伙伴。

Q&A

Q1:RotBench測試是什么?它如何評估AI模型的旋轉(zhuǎn)識別能力?

A:RotBench是UNC Chapel Hill研究團(tuán)隊創(chuàng)建的專門測試AI模型圖像旋轉(zhuǎn)識別能力的基準(zhǔn)測試。它包含350張精心篩選的圖片,每張圖片都被旋轉(zhuǎn)0度、90度、180度和270度,然后讓AI模型判斷圖片被旋轉(zhuǎn)了多少度。這個測試就像給AI做"方向感測驗",檢查它們能否像人類一樣輕松識別圖片的正確朝向。

Q2:為什么GPT-5、o3這些頂級AI模型無法準(zhǔn)確識別圖像旋轉(zhuǎn)?

A:研究發(fā)現(xiàn)這些模型存在系統(tǒng)性的方向識別障礙。它們能識別正常方向(0度)和上下顛倒(180度)的圖片,但完全無法區(qū)分90度和270度旋轉(zhuǎn)。問題的根源在于模型訓(xùn)練時主要接觸正常朝向的圖像,缺乏處理旋轉(zhuǎn)變換的能力,甚至在概念理解上存在錯誤,會虛假區(qū)分實際相同的旋轉(zhuǎn)操作。

Q3:這種旋轉(zhuǎn)識別問題對實際應(yīng)用有什么影響?

A:這個問題對很多實際應(yīng)用都有重要影響,特別是那些依賴旋轉(zhuǎn)攝像頭的場景,比如機器人手臂操作、第一人稱極限運動分析、自動駕駛等。如果AI無法準(zhǔn)確判斷圖像朝向,可能導(dǎo)致操作失誤或安全風(fēng)險。研究團(tuán)隊提醒用戶在涉及方向敏感的AI視覺應(yīng)用時需要格外謹(jǐn)慎,人類判斷在這些場景下可能比AI更可靠。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-