av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 用"難題負(fù)樣本"教大型視覺語言模型如何讀懂幾何圖形——清華大學(xué)開發(fā)全新對(duì)比學(xué)習(xí)方法提升幾何推理能力

用"難題負(fù)樣本"教大型視覺語言模型如何讀懂幾何圖形——清華大學(xué)開發(fā)全新對(duì)比學(xué)習(xí)方法提升幾何推理能力

2025-05-29 16:17
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-29 16:17 ? 科技行者

在多模態(tài)人工智能領(lǐng)域,幾何數(shù)學(xué)推理一直是衡量大型多模態(tài)模型(LMM)能力的重要指標(biāo)。然而,即使是當(dāng)前最先進(jìn)的模型如GPT-4o、Claude-3和Qwen2.5-VL,在處理幾何問題時(shí)仍然會(huì)出現(xiàn)幻覺,比如憑空創(chuàng)造不存在的幾何元素或錯(cuò)誤理解空間關(guān)系。這一現(xiàn)象引起了清華大學(xué)研究團(tuán)隊(duì)的關(guān)注。由孫凱、白宇時(shí)、楊震、張家杰、齊冀、侯磊和李娟子組成的研究小組于2025年5月在arXiv(arXiv:2505.20152v1)上發(fā)表了一篇題為《Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models》的研究論文,提出了一種創(chuàng)新的硬負(fù)樣本對(duì)比學(xué)習(xí)框架,顯著提升了大型多模態(tài)模型在幾何理解和推理方面的能力。

想象一下,如果你正在教一個(gè)孩子識(shí)別不同的幾何圖形。你可能會(huì)先展示一個(gè)正方形,并告訴他"這是正方形"。但僅僅知道正方形的樣子是不夠的,孩子還需要學(xué)會(huì)辨別什么不是正方形——比如長(zhǎng)方形、菱形等相似但有區(qū)別的圖形。這就是"負(fù)樣本學(xué)習(xí)"的基本思想。而在這項(xiàng)研究中,清華團(tuán)隊(duì)采用了類似的方法,但難度更高——他們不是使用明顯不同的圖形作為負(fù)樣本,而是創(chuàng)造了"硬負(fù)樣本",即與正確圖形非常相似但在關(guān)鍵細(xì)節(jié)上有差異的圖形,迫使模型學(xué)會(huì)識(shí)別細(xì)微的幾何特征。

目前大多數(shù)多模態(tài)模型使用的視覺編碼器(如CLIP)主要是在自然場(chǎng)景圖像上訓(xùn)練的,這些圖像與幾何圖形有很大不同。就像一個(gè)只在城市里生活的人可能對(duì)森林中的植物辨識(shí)能力有限一樣,這些視覺編碼器在處理精細(xì)的幾何元素時(shí)表現(xiàn)不佳。清華團(tuán)隊(duì)開發(fā)的方法就像是專門為這些模型提供了一門"幾何識(shí)別特訓(xùn)課",通過精心設(shè)計(jì)的難題來提升它們的幾何理解能力。

讓我們深入了解這個(gè)研究團(tuán)隊(duì)是如何讓人工智能更好地"看懂"幾何圖形的。

一、為什么現(xiàn)有模型在幾何推理上表現(xiàn)不佳?

當(dāng)前最先進(jìn)的多模態(tài)模型在處理幾何問題時(shí)常常會(huì)犯錯(cuò),這就像一個(gè)學(xué)生在解題時(shí)看錯(cuò)了題目中的圖形信息。研究人員在論文中展示了一個(gè)簡(jiǎn)單的平行線問題,即使是頂尖模型如GPT-4o、Claude-3和Qwen2.5-VL都會(huì)出現(xiàn)幻覺,生成不存在的幾何元素(如△ABC和△ABE)或錯(cuò)誤理解空間關(guān)系。

這一問題的根本原因在于這些模型的"眼睛"——視覺編碼器(通常是CLIP模型)——主要是在普通自然場(chǎng)景圖像上訓(xùn)練的,而不是專門針對(duì)幾何圖形進(jìn)行優(yōu)化。這就像是讓一個(gè)只學(xué)過識(shí)別動(dòng)物的人去辨認(rèn)幾何圖形一樣,缺乏專門的訓(xùn)練和經(jīng)驗(yàn)。

雖然有研究者嘗試通過在專門的數(shù)學(xué)數(shù)據(jù)集上進(jìn)行微調(diào)或使用大量圖像-文本對(duì)來增強(qiáng)模型的視覺感知能力,但這些方法仍有局限性。特別是,許多圖像描述(caption)是由現(xiàn)有的LMM生成的,可能本身就包含幻覺或錯(cuò)誤信息。僅僅使用這些正樣本(正確的圖像-文本對(duì))進(jìn)行訓(xùn)練,可能會(huì)導(dǎo)致模型學(xué)習(xí)到錯(cuò)誤的關(guān)聯(lián)。

想象一下,如果你只給學(xué)生展示正確的答案,而不告訴他們哪些解題方法是錯(cuò)誤的,那么學(xué)生很容易在遇到稍微不同的問題時(shí)犯錯(cuò)。同樣,要讓模型真正理解幾何信息,不僅需要正確的例子,還需要專門設(shè)計(jì)的"陷阱"或"難題"來強(qiáng)化學(xué)習(xí)。

二、硬負(fù)樣本對(duì)比學(xué)習(xí):教模型區(qū)分細(xì)微差異的新方法

清華團(tuán)隊(duì)提出的核心創(chuàng)新是一種硬負(fù)樣本對(duì)比學(xué)習(xí)框架,包括兩大類負(fù)樣本構(gòu)建方法:基于圖像的和基于文本的。

### 基于圖像的負(fù)樣本構(gòu)建

想象你是一位幾何教師,不僅展示正確的幾何圖形,還會(huì)展示一些看起來很像但實(shí)際上有錯(cuò)誤的圖形,讓學(xué)生學(xué)會(huì)辨別細(xì)微差異。清華團(tuán)隊(duì)的方法也是如此。

研究團(tuán)隊(duì)首先使用大語言模型(如GPT-4o)為給定的幾何問題生成詳細(xì)的描述和相應(yīng)的圖形生成代碼,這些代碼可以精確地繪制出符合問題描述的幾何圖形,形成"正樣本"。然后,研究人員會(huì)讓大語言模型對(duì)這些代碼進(jìn)行微小的修改,生成視覺上非常相似但在幾何上不正確的圖形,作為"硬負(fù)樣本"。

舉個(gè)例子,對(duì)于一個(gè)包含直角三角形的問題,系統(tǒng)可能會(huì)生成一個(gè)看起來幾乎相同但角度略有變化的圖形,使其不再是直角三角形。這種微小但關(guān)鍵的變化迫使模型學(xué)會(huì)關(guān)注幾何圖形的本質(zhì)特征,而不是簡(jiǎn)單的外觀。

### 基于文本的負(fù)樣本構(gòu)建

除了圖像,研究團(tuán)隊(duì)還開發(fā)了兩種創(chuàng)建文本負(fù)樣本的策略:

1. 基于檢索的方法:研究團(tuán)隊(duì)使用SimANS模型對(duì)大量幾何領(lǐng)域的文本進(jìn)行編碼,計(jì)算相似度,并檢索出與正樣本描述詞匯相似但內(nèi)容不同的文本作為負(fù)樣本。這就像找出那些描述看起來很像但實(shí)際上在講不同事物的文本。

2. 基于規(guī)則的方法:研究團(tuán)隊(duì)分析了模型在MM-MATH數(shù)據(jù)集上的錯(cuò)誤,識(shí)別出四種主要的圖像元素識(shí)別錯(cuò)誤類型,然后根據(jù)這些錯(cuò)誤類型設(shè)計(jì)了對(duì)應(yīng)的規(guī)則來構(gòu)建負(fù)樣本:

- 幾何元素順序:修改幾何圖形中字母的順序,如將ABCD改為CDAB(但確保新順序不是原始順序的循環(huán)變換)。

- 形狀屬性:改變屬性,如將正方形改為長(zhǎng)方形,或?qū)⒅苯侨切胃臑榈妊切巍?/p>

- 幾何關(guān)系:修改關(guān)系,如將兩條線的平行關(guān)系改為其他關(guān)系,或改變?nèi)切沃g的相似關(guān)系。

- 數(shù)值:調(diào)整描述中的數(shù)值,如修改角度或線段長(zhǎng)度。

### MMCLIP:處理任意數(shù)量負(fù)樣本的新方法

傳統(tǒng)的CLIP訓(xùn)練通常采用批內(nèi)負(fù)采樣,這限制了其對(duì)精細(xì)圖像理解的能力。清華團(tuán)隊(duì)提出了MMCLIP訓(xùn)練策略,專注于單個(gè)圖像及其對(duì)應(yīng)的硬負(fù)樣本進(jìn)行訓(xùn)練,完全拋棄了傳統(tǒng)的批內(nèi)負(fù)樣本。

這就像是為每個(gè)學(xué)生提供一套專門的習(xí)題,而不是讓所有學(xué)生做同一套題。在這種方式下,視覺編碼器被迫學(xué)會(huì)區(qū)分所有情況下的細(xì)微差異,從而增強(qiáng)其精細(xì)化的幾何理解能力。

研究團(tuán)隊(duì)在實(shí)驗(yàn)中證明,不同類型的硬負(fù)樣本對(duì)模型性能的提升各不相同,其中基于真實(shí)考試圖像構(gòu)建的負(fù)樣本效果最為顯著——僅使用4K個(gè)圖像負(fù)樣本的效果就超過了100K個(gè)文本負(fù)樣本。這表明,質(zhì)量比數(shù)量更重要,精心設(shè)計(jì)的高質(zhì)量負(fù)樣本可以更有效地提升模型性能。

三、MMGeoLM:經(jīng)過硬負(fù)樣本訓(xùn)練的幾何理解模型

基于上述方法,研究團(tuán)隊(duì)訓(xùn)練了一個(gè)名為MMGeoLM的模型,并與現(xiàn)有的開源和閉源模型進(jìn)行了廣泛比較。

### 模型架構(gòu)與訓(xùn)練細(xì)節(jié)

MMGeoLM采用LLaVA架構(gòu),包括三個(gè)部分:視覺編碼器、2層MLP適配器和大語言模型主干。研究團(tuán)隊(duì)使用了兩種LLM主干:Mammoth2-7B和Qwen2.5-7B-Instruct,視覺編碼器基于AltCLIP,配置為最大長(zhǎng)度512個(gè)標(biāo)記,模型大小為0.5B參數(shù)。

訓(xùn)練過程分為三個(gè)階段: 1. 視覺-文本對(duì)齊階段:首先在400K MAVIS圖像-文本對(duì)齊數(shù)據(jù)集上預(yù)訓(xùn)練AltCLIP,然后使用MMCLIP策略在100K硬文本負(fù)樣本(每個(gè)包含10個(gè)基于規(guī)則和30個(gè)基于檢索的負(fù)樣本)和4K硬圖像負(fù)樣本(每個(gè)包含10個(gè)負(fù)幾何圖)上進(jìn)行微調(diào)。

2. 第二階段:使用67K G-LLAVA圖像-文本對(duì)齊數(shù)據(jù)調(diào)整MLP適配器。

3. 第三階段:在300K MAVIS指令數(shù)據(jù)、117K G-LLaVA指令數(shù)據(jù)和17K開放式幾何問題(包括團(tuán)隊(duì)收集的12K問題和隨機(jī)抽樣的5K MM-MATH幾何問題)上進(jìn)行監(jiān)督式微調(diào)。

### 實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在四個(gè)幾何基準(zhǔn)上評(píng)估了MMGeoLM的表現(xiàn):

1. 多項(xiàng)選擇類基準(zhǔn): - GeoQA:一個(gè)基于平面幾何的幾何問題回答任務(wù) - We-Math:一個(gè)包含不同難度問題的視覺數(shù)學(xué)推理任務(wù) - MathVista:廣泛用于評(píng)估LMM性能的基準(zhǔn)

2. 開放式問題基準(zhǔn): - MM-MATH:一個(gè)具有高區(qū)分度的二級(jí)學(xué)校水平問題集

實(shí)驗(yàn)結(jié)果令人矚目:MMGeoLM在MathVista和MM-MATH基準(zhǔn)上達(dá)到了最先進(jìn)的性能。在GeoQA基準(zhǔn)上,MMGeoLM-Qwen2.5-7B僅比Chimera-Reasoner-8B低0.4%,但后者是專門在GeoQA上訓(xùn)練的。值得注意的是,即使只有7B的規(guī)模,MMGeoLM也能在某些任務(wù)上與GPT-4o等強(qiáng)大的閉源模型相媲美。

研究人員還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),分析了不同類型的硬負(fù)樣本對(duì)幾何推理性能的影響。實(shí)驗(yàn)結(jié)果顯示,通過真實(shí)考試圖像構(gòu)建的負(fù)樣本效果最為顯著——僅使用4K圖像負(fù)樣本的效果就超過了100K文本負(fù)樣本。此外,增加硬負(fù)樣本的數(shù)量可以提高性能,但超過一定閾值后會(huì)出現(xiàn)收益遞減甚至性能下降的情況。

四、研究意義與未來展望

這項(xiàng)研究的重要意義在于,它提供了一種新的方法來增強(qiáng)大型多模態(tài)模型的幾何理解能力。通過專門設(shè)計(jì)的硬負(fù)樣本對(duì)比學(xué)習(xí),模型能夠?qū)W會(huì)辨別幾何圖形中的細(xì)微差異,從而更準(zhǔn)確地進(jìn)行幾何推理。

這種方法不僅適用于幾何理解,還可能擴(kuò)展到其他需要精細(xì)視覺理解的領(lǐng)域,如醫(yī)學(xué)圖像分析、工程圖紙識(shí)別等。通過為模型提供既相似又有關(guān)鍵差異的樣本,可以顯著提升模型的細(xì)粒度識(shí)別能力。

然而,研究團(tuán)隊(duì)也指出了方法的局限性。盡管基于擾動(dòng)Python腳本構(gòu)建的圖像硬負(fù)樣本效果顯著,但該方法在很大程度上依賴于LLM生成的代碼和描述的準(zhǔn)確性。這些合成構(gòu)建中的任何系統(tǒng)性偏差都可能引入與人類設(shè)計(jì)的幾何問題不同的人工制品。因此,模型在真實(shí)世界視覺輸入上的表現(xiàn)仍需進(jìn)一步驗(yàn)證。

未來的研究方向可能包括進(jìn)一步優(yōu)化負(fù)樣本構(gòu)建方法,擴(kuò)展到更多幾何領(lǐng)域,以及將類似的硬負(fù)樣本學(xué)習(xí)策略應(yīng)用到其他視覺理解任務(wù)中。隨著這些技術(shù)的發(fā)展,我們可以期待未來的多模態(tài)模型能夠像人類幾何教師一樣,精確理解和解決復(fù)雜的幾何問題。

總的來說,清華大學(xué)研究團(tuán)隊(duì)的這項(xiàng)工作為提升人工智能在精細(xì)幾何理解方面的能力提供了一個(gè)強(qiáng)有力的新方法,展示了負(fù)樣本學(xué)習(xí)在教授AI"看懂"世界方面的重要性。正如學(xué)習(xí)識(shí)別錯(cuò)誤對(duì)人類學(xué)習(xí)幾何一樣重要,學(xué)習(xí)辨別"幾乎正確但實(shí)際錯(cuò)誤"的樣本對(duì)AI理解幾何同樣至關(guān)重要。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-