這項由馬里蘭大學(xué)的王習(xí)堯、微軟的楊正遠(yuǎn)等多位研究者聯(lián)合完成的研究于2025年6月11日發(fā)表在arXiv預(yù)印本平臺上(論文編號:arXiv:2506.10128v1),有興趣深入了解的讀者可以通過論文編號在arXiv官網(wǎng)訪問完整論文。這個研究團(tuán)隊來自馬里蘭大學(xué)帕克分校、微軟、密歇根大學(xué)和卡迪夫大學(xué)等知名機(jī)構(gòu),他們的發(fā)現(xiàn)可能會徹底改變AI視覺模型的訓(xùn)練方式。
想象一下,你正在訓(xùn)練一個AI助手來看圖說話,就像教一個小孩子描述眼前看到的畫面。傳統(tǒng)的訓(xùn)練方法就像讓孩子看一幅畫,然后寫一篇200字的作文來描述這幅畫。問題是,這樣的作文很難打分——每個人都可能寫出不同但都正確的描述。這就好比問十個人同一道菜的味道,你可能得到十種不同的答案,但很難說哪個是"標(biāo)準(zhǔn)答案"。
研究團(tuán)隊發(fā)現(xiàn)了一個聰明的解決方案。他們不再讓AI寫完整的作文,而是給AI一篇幾乎完全正確的圖片描述,但故意在其中埋藏一個小錯誤,然后讓AI像偵探一樣找出這個錯誤在哪里。就像在一本書中故意印錯一個詞,然后請讀者找出來一樣。這樣的話,答案就變得非常明確了——要么找對了,要么找錯了,沒有模糊地帶。
這種訓(xùn)練方法被研究團(tuán)隊稱為"ViCrit",全稱是"視覺圖像描述幻覺批評家"。聽起來很復(fù)雜,但本質(zhì)就是訓(xùn)練AI成為一個超級細(xì)心的"找茬專家"。研究人員從一個包含384,000張圖片和詳細(xì)描述的數(shù)據(jù)庫開始工作,每張圖片都配有大約200字的人工撰寫描述。然后,他們使用GPT-4這個強(qiáng)大的語言模型來巧妙地修改這些描述,在每一段描述中只改動一個小細(xì)節(jié)。
這些修改非常狡猾。比如,原本描述中說桌子上有一個"iPad",他們可能會改成"MacBook Pro";或者把"黑色旗幟上寫著'true'和'false'"改成"黑色旗幟上寫著'tree'"。這些變化看起來很小,但要求AI具備非常精確的視覺理解能力才能發(fā)現(xiàn)。就像玩"大家來找茬"游戲一樣,需要極其敏銳的觀察力。
研究團(tuán)隊選擇這種方法有著深刻的考慮。傳統(tǒng)的AI訓(xùn)練就像讓學(xué)生背誦標(biāo)準(zhǔn)答案,學(xué)生可能會死記硬背一些常見的物體組合,比如"廚房里通常有冰箱、爐子、櫥柜",然后在看到廚房圖片時就機(jī)械地輸出這些詞匯,而不是真正仔細(xì)觀察圖片中的具體內(nèi)容。這種"死記硬背"的問題在AI領(lǐng)域被稱為"表面記憶"。
相比之下,ViCrit訓(xùn)練法迫使AI必須真正"看懂"圖片的每一個細(xì)節(jié)。因為錯誤可能出現(xiàn)在任何地方——可能是某個小物件的顏色不對,可能是物體的數(shù)量有誤,也可能是空間關(guān)系的描述錯誤。這就像訓(xùn)練一個質(zhì)檢員,必須對產(chǎn)品的每個部分都仔細(xì)檢查,不能放過任何細(xì)節(jié)。
為了驗證這種訓(xùn)練方法的效果,研究團(tuán)隊進(jìn)行了大規(guī)模的實驗。他們使用了兩個不同規(guī)模的AI模型進(jìn)行測試:一個是70億參數(shù)的"小型"模型,另一個是720億參數(shù)的"大型"模型。這就像比較一個剛?cè)雽W(xué)的小學(xué)生和一個大學(xué)生的學(xué)習(xí)能力差異。
實驗結(jié)果令人印象深刻。經(jīng)過ViCrit訓(xùn)練的AI模型在多個測試中都表現(xiàn)出了顯著的改善。最直觀的改善體現(xiàn)在減少"幻覺"現(xiàn)象上——也就是AI看到圖片中并不存在的東西。在一項名為CHAIR的標(biāo)準(zhǔn)測試中,720億參數(shù)的模型經(jīng)過訓(xùn)練后,幻覺錯誤率從26.4%降低到了21.0%。這意味著AI現(xiàn)在能更準(zhǔn)確地描述它真正看到的內(nèi)容,而不是胡亂猜測。
更有趣的是,這種訓(xùn)練方法的好處遠(yuǎn)遠(yuǎn)超出了研究人員的預(yù)期。就像學(xué)會了仔細(xì)觀察的學(xué)生,不僅在"找茬"游戲中表現(xiàn)更好,在其他需要觀察力的任務(wù)中也會有所提升。經(jīng)過ViCrit訓(xùn)練的AI模型在數(shù)學(xué)視覺推理、圖表理解、抽象圖像分析等各種任務(wù)中都表現(xiàn)得更好。
具體來說,在MathVision這個數(shù)學(xué)視覺推理測試中,720億參數(shù)的模型準(zhǔn)確率從35.2%提升到了40.1%。在VLMsAreBlind這個專門測試AI視覺盲點的基準(zhǔn)測試中,準(zhǔn)確率從61.3%上升到65.8%。在圖表推理任務(wù)Charxiv中,表現(xiàn)從45.5%提升到49.4%。這些提升看似數(shù)字不大,但在AI研究領(lǐng)域,每一個百分點的提升都代表著巨大的進(jìn)步。
這種跨領(lǐng)域的改善特別令人驚喜,因為AI在訓(xùn)練過程中主要接觸的是自然圖像,但它學(xué)到的觀察技能卻能夠遷移到數(shù)學(xué)圖形、抽象圖像和圖表分析等完全不同的領(lǐng)域。這就像一個人通過練習(xí)找茬游戲,意外地提高了解數(shù)學(xué)題和閱讀圖表的能力。這說明ViCrit訓(xùn)練法真正教會了AI如何"看",而不僅僅是如何記憶常見的圖像-文字配對。
為了更好地評估AI的視覺理解能力,研究團(tuán)隊還創(chuàng)建了一個新的測試基準(zhǔn),叫做"ViCrit-Bench"。這個測試集就像是專門為AI設(shè)計的"視覺能力測試",包含了607個精心設(shè)計的測試樣本。每個樣本都包含一張圖片和一段故意包含一個錯誤的描述,測試AI能否準(zhǔn)確找出錯誤所在。
這個測試基準(zhǔn)的設(shè)計非常周全。研究人員將圖片分為四大類:自然圖像(比如風(fēng)景、動物、人物照片)、文檔圖像(比如表格、圖表、截圖)、文字密集圖像(比如路標(biāo)、海報、漫畫)和抽象圖像(比如幾何圖形、藝術(shù)插畫)。同時,他們將可能的錯誤類型細(xì)分為八種:物體錯誤、顏色錯誤、材質(zhì)錯誤、空間關(guān)系錯誤、數(shù)量錯誤、形狀錯誤、文字錯誤和狀態(tài)條件錯誤。
測試結(jié)果顯示,即使是目前最先進(jìn)的AI系統(tǒng),在這個測試中的表現(xiàn)也相當(dāng)有限。OpenAI公司最新的o3模型只達(dá)到了47.7%的準(zhǔn)確率,而谷歌的Gemini-2.5-Pro模型準(zhǔn)確率為45.2%。這就像一個視力測試,即使是"視力最好"的AI,也只能看清一半的細(xì)節(jié)。經(jīng)過ViCrit訓(xùn)練的720億參數(shù)模型達(dá)到了43.0%的準(zhǔn)確率,在開源模型中表現(xiàn)最佳。
特別值得注意的是,研究人員發(fā)現(xiàn)了一個有趣的規(guī)律:在ViCrit-Bench測試中表現(xiàn)越好的AI模型,在其他各種視覺-語言任務(wù)中的綜合表現(xiàn)也越好。這種強(qiáng)相關(guān)性(相關(guān)系數(shù)達(dá)到0.96)說明ViCrit-Bench確實能夠有效評估AI的核心視覺理解能力,就像視力表能夠反映一個人的整體視覺健康狀況一樣。
研究團(tuán)隊還提供了一些生動的案例來展示訓(xùn)練效果的差異。在一個需要數(shù)數(shù)和識別顏色的數(shù)學(xué)題中,普通的AI模型可能會遺漏某些物體或者搞錯顏色,導(dǎo)致計算錯誤。而經(jīng)過ViCrit訓(xùn)練的模型則會更加仔細(xì)地檢查圖片中的每個物體,按順序識別它們的屬性,然后進(jìn)行準(zhǔn)確的計算。這就像一個經(jīng)過專業(yè)訓(xùn)練的會計師,會仔細(xì)核對每一筆賬目,而不是匆忙估算。
在另一個圖形推理的例子中,任務(wù)是找出序列中缺失的圖形。普通模型可能只注意到圖形的大致輪廓,而忽略了邊數(shù)的變化規(guī)律。經(jīng)過ViCrit訓(xùn)練的模型則會仔細(xì)分析每個圖形的邊數(shù)、顏色等細(xì)節(jié)特征,從而找出正確的模式和答案。
這種改善不僅體現(xiàn)在準(zhǔn)確性上,還體現(xiàn)在AI的"思考過程"上。研究人員發(fā)現(xiàn),經(jīng)過ViCrit訓(xùn)練的AI在回答問題時,會展現(xiàn)出更加系統(tǒng)化的分析方法。它們會先仔細(xì)觀察圖片的各個部分,識別關(guān)鍵信息,然后進(jìn)行邏輯推理。這種"慢思考"的模式雖然可能稍微降低回答速度,但大大提高了答案的準(zhǔn)確性和可靠性。
從技術(shù)實現(xiàn)的角度來看,ViCrit訓(xùn)練使用了一種叫做"強(qiáng)化學(xué)習(xí)"的方法。簡單來說,就是給AI設(shè)置明確的獎懲機(jī)制:找對錯誤就給獎勵,找錯了就不給獎勵。這種即時反饋機(jī)制讓AI能夠快速學(xué)習(xí)如何更好地觀察和分析圖片。與傳統(tǒng)的監(jiān)督學(xué)習(xí)不同,這種方法更像是通過大量練習(xí)來培養(yǎng)直覺和技能。
整個訓(xùn)練過程使用了875,000個樣本,每個樣本都包含一張圖片和一段帶有人工植入錯誤的描述。訓(xùn)練時間根據(jù)模型大小從幾天到幾周不等。雖然這聽起來工作量很大,但相比傳統(tǒng)方法需要人工標(biāo)注大量完美的圖片描述,ViCrit方法其實更加高效,因為它可以利用現(xiàn)有的圖片描述數(shù)據(jù),只需要自動化地植入錯誤即可。
研究團(tuán)隊還將ViCrit訓(xùn)練法與傳統(tǒng)的監(jiān)督學(xué)習(xí)方法進(jìn)行了對比。結(jié)果顯示,雖然傳統(tǒng)方法也能在一定程度上減少AI的幻覺現(xiàn)象,但在提升AI的整體推理能力方面,效果遠(yuǎn)不如ViCrit訓(xùn)練法。這就像比較死記硬背和理解學(xué)習(xí)的區(qū)別——死記硬背可能在特定考試中有用,但理解學(xué)習(xí)能夠提升整體的思維能力。
這項研究的意義不僅限于技術(shù)層面,它還為AI訓(xùn)練開辟了一個新的思路。以往的AI訓(xùn)練往往追求讓模型產(chǎn)生"好"的輸出,但很難定義什么算是"好"。ViCrit方法巧妙地將問題轉(zhuǎn)換為識別"錯誤",這樣就有了明確的對錯標(biāo)準(zhǔn)。這種思路可能會啟發(fā)更多類似的訓(xùn)練方法。
此外,這項研究還暴露了當(dāng)前AI視覺理解能力的局限性。即使是最先進(jìn)的AI系統(tǒng),在需要精確視覺理解的任務(wù)中仍然有很大的改進(jìn)空間。這提醒我們,盡管AI在很多任務(wù)中表現(xiàn)出色,但在需要細(xì)致觀察和精確理解的場景中,仍然需要謹(jǐn)慎使用。
從實際應(yīng)用的角度來看,這項研究的成果可能會對多個領(lǐng)域產(chǎn)生影響。在醫(yī)療影像診斷中,更準(zhǔn)確的視覺理解能力可能幫助AI更好地識別病變;在自動駕駛領(lǐng)域,更精確的視覺感知可能提高行車安全性;在教育輔助工具中,能夠準(zhǔn)確理解圖表和圖形的AI可能提供更好的學(xué)習(xí)支持。
研究團(tuán)隊也坦誠地指出了他們方法的一些局限性。比如,在某些特定類型的錯誤識別中,ViCrit訓(xùn)練后的模型表現(xiàn)反而有所下降,特別是在空間關(guān)系和文字識別方面。研究人員認(rèn)為這可能是因為訓(xùn)練數(shù)據(jù)中這些類型的樣本相對較少,導(dǎo)致了數(shù)據(jù)不平衡的問題。
此外,對于720億參數(shù)的大型模型,ViCrit訓(xùn)練的改善幅度相對較小。研究人員推測這可能是因為大型模型本身已經(jīng)具備了相當(dāng)強(qiáng)的視覺理解能力,需要更具挑戰(zhàn)性的訓(xùn)練數(shù)據(jù)才能進(jìn)一步提升。這就像一個已經(jīng)很優(yōu)秀的學(xué)生,需要更難的題目才能繼續(xù)進(jìn)步。
展望未來,研究團(tuán)隊計劃在幾個方向上繼續(xù)改進(jìn)他們的方法。首先是擴(kuò)大訓(xùn)練數(shù)據(jù)的規(guī)模和多樣性,特別是增加更多具有挑戰(zhàn)性的樣本。其次是探索更復(fù)雜的錯誤類型,比如邏輯推理錯誤和常識錯誤。最后是將這種訓(xùn)練方法擴(kuò)展到視頻理解和3D場景理解等更復(fù)雜的任務(wù)中。
這項研究也引發(fā)了對AI訓(xùn)練哲學(xué)的思考。傳統(tǒng)的AI訓(xùn)練往往追求讓模型"知道更多",而ViCrit方法則強(qiáng)調(diào)讓模型"看得更準(zhǔn)"。這種從"知識積累"到"能力培養(yǎng)"的轉(zhuǎn)變,可能代表了AI發(fā)展的一個重要方向。畢竟,在信息爆炸的時代,準(zhǔn)確理解和分析信息的能力比單純記憶信息更加重要。
總的來說,這項由馬里蘭大學(xué)領(lǐng)銜的多機(jī)構(gòu)合作研究為AI視覺理解能力的提升提供了一個創(chuàng)新而有效的解決方案。雖然還有改進(jìn)的空間,但ViCrit訓(xùn)練法已經(jīng)展現(xiàn)出了顯著的效果和廣闊的應(yīng)用前景。這項研究不僅推進(jìn)了AI技術(shù)的發(fā)展,也為我們理解和改進(jìn)AI的學(xué)習(xí)過程提供了新的視角。對于那些關(guān)心AI發(fā)展前沿的讀者,可以通過arXiv:2506.10128v1這個論文編號在arXiv網(wǎng)站上查閱完整的研究報告,深入了解這一創(chuàng)新訓(xùn)練方法的技術(shù)細(xì)節(jié)和實驗結(jié)果。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強(qiáng)于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。