想象一下,你正在幫助一個孩子做幾何題。這個孩子很聰明,能夠準(zhǔn)確地描述圖形中的每一個細(xì)節(jié)——三角形的角度、線段的長度、圓的半徑等等。但奇怪的是,當(dāng)需要運(yùn)用這些信息來解題時,他卻經(jīng)常算錯。這種現(xiàn)象聽起來很熟悉嗎?這正是目前人工智能在處理數(shù)學(xué)問題時遇到的困境。
這項由上海交通大學(xué)計算機(jī)科學(xué)學(xué)院的李雨婷、魏來、鄭開鵬、黃敬淵團(tuán)隊,聯(lián)合中關(guān)村研究院、北京通用人工智能研究院以及理海大學(xué)的黃維然教授共同完成的研究,發(fā)表于2025年6月的arXiv預(yù)印本平臺。感興趣的讀者可以通過arXiv:2506.09736v1訪問完整論文,研究代碼已在GitHub開源:https://github.com/YutingLi0606/Vision-Matters。
研究團(tuán)隊在實驗中發(fā)現(xiàn)了一個令人驚訝的現(xiàn)象。他們讓純文本的大語言模型(比如Qwen2.5-7B)閱讀圖片的文字描述來解數(shù)學(xué)題,結(jié)果竟然能達(dá)到甚至超過那些能直接"看到"圖片的多模態(tài)模型(比如Qwen2.5-VL-7B)的表現(xiàn)。這就像是一個只能聽別人描述棋局的象棋選手,竟然下得比能親眼看到棋盤的選手還要好。
更有趣的是,當(dāng)他們給這些純文本模型提供圖片描述時,表現(xiàn)還會進(jìn)一步提升。在MathVision數(shù)學(xué)測試中,原本得分25.4分的多模態(tài)模型,當(dāng)換成只看文字描述的語言模型時,得分竟然提升到了28.5分。這種現(xiàn)象就像是一個學(xué)生通過閱讀別人的筆記反而比直接看教科書學(xué)得更好。
這個發(fā)現(xiàn)揭示了一個重要問題:當(dāng)前的多模態(tài)AI雖然能夠"看到"圖片,卻沒有有效地將視覺信息整合到推理過程中。它們就像是擁有完美視力但缺乏視覺注意力的學(xué)生,能看清每個細(xì)節(jié),卻不知道哪些信息對解題真正重要。
基于這個洞察,研究團(tuán)隊提出了一個巧妙的解決方案:通過給AI的"眼睛"增加一些"噪音"和"干擾",反而能讓它學(xué)會更好地"看"。這聽起來有點反直覺,就像是故意給學(xué)生的眼鏡上添加一些斑點,結(jié)果卻讓他們看得更清楚。
一、視覺擾動的三個"訓(xùn)練招式"
研究團(tuán)隊設(shè)計了三種視覺擾動策略,每一種都像是給AI進(jìn)行的不同類型的"視覺訓(xùn)練"。
第一種訓(xùn)練叫做"分心物拼接"。想象你正在考試,老師故意在你的試卷旁邊放了一張無關(guān)的漫畫。如果你能在這種干擾下仍然專注于解題,那你的注意力就得到了很好的訓(xùn)練。研究團(tuán)隊就是這樣做的——他們在原始的數(shù)學(xué)題圖片旁邊橫向拼接一張完全無關(guān)的圖片,迫使AI學(xué)會忽略干擾信息,專注于真正重要的內(nèi)容。
第二種訓(xùn)練叫做"保持主導(dǎo)的混合"。這就像是在一杯清水中滴入幾滴墨水,水的本質(zhì)沒有改變,但顏色略有不同。研究團(tuán)隊將原始圖片與一張無關(guān)圖片按照8:2或9.5:0.5的比例進(jìn)行混合,讓原始圖片仍然占主導(dǎo)地位,但添加了一些視覺"噪音"。這種訓(xùn)練幫助AI學(xué)會提取圖片中最重要、最穩(wěn)定的特征,而不是過分依賴細(xì)微的紋理細(xì)節(jié)。
第三種訓(xùn)練叫做"隨機(jī)旋轉(zhuǎn)"。就像我們有時需要轉(zhuǎn)動手機(jī)來更好地看清照片一樣,研究團(tuán)隊將圖片隨機(jī)旋轉(zhuǎn)小角度(比如正負(fù)15度),讓AI學(xué)會無論圖形處于什么角度都能正確理解。這對幾何題特別有用,因為三角形不管怎么轉(zhuǎn),它的本質(zhì)屬性都不會改變。
這三種訓(xùn)練方法的巧妙之處在于,它們都保留了圖片的核心信息,只是增加了一些"挑戰(zhàn)",就像是在健身房里增加重量來讓肌肉變得更強(qiáng)壯。
二、令人矚目的實驗成果
研究團(tuán)隊進(jìn)行了一系列大規(guī)模實驗,結(jié)果令人印象深刻。他們在四個重要的數(shù)學(xué)推理測試平臺上驗證了這種方法:MathVision、MathVista、MathVerse和We-Math。這些測試就像是AI界的"數(shù)學(xué)奧林匹克競賽",涵蓋了從基礎(chǔ)幾何到復(fù)雜的圖表分析等各種題型。
實驗覆蓋了三種不同的AI訓(xùn)練方法。第一種叫做監(jiān)督微調(diào)(SFT),就像是給學(xué)生提供標(biāo)準(zhǔn)答案讓他們學(xué)習(xí)模仿。第二種叫做直接偏好優(yōu)化(DPO),類似于告訴學(xué)生什么樣的答案是好的,什么樣的是不好的。第三種叫做群體強(qiáng)化學(xué)習(xí)(GRPO),更像是讓學(xué)生們互相競爭,通過比較來提升水平。
在所有測試中,添加了視覺擾動的模型都表現(xiàn)得更好。以GEOQA幾何數(shù)據(jù)集為例,使用GRPO訓(xùn)練方法的模型,在添加視覺擾動后,平均分?jǐn)?shù)從53.3%提升到了54.4%,提升了2.1個百分點。雖然聽起來不多,但在AI領(lǐng)域,這樣的提升已經(jīng)相當(dāng)顯著了,就像是奧運(yùn)會上百米賽跑提升0.1秒一樣珍貴。
更有趣的是,研究團(tuán)隊還測試了這種方法在已經(jīng)很先進(jìn)的AI模型上的效果。他們發(fā)現(xiàn),即使是那些已經(jīng)經(jīng)過精心訓(xùn)練的頂級模型,在應(yīng)用了視覺擾動技術(shù)后,性能仍然能夠進(jìn)一步提升。這就像是即使是職業(yè)運(yùn)動員,通過特殊的訓(xùn)練方法仍然能夠突破個人最佳成績。
三、不同問題類型的"個性化"提升
研究團(tuán)隊深入分析發(fā)現(xiàn),不同類型的視覺擾動對不同類型的數(shù)學(xué)問題有著不同的效果,這個發(fā)現(xiàn)特別有趣。
對于幾何問題,"隨機(jī)旋轉(zhuǎn)"訓(xùn)練效果最好。研究顯示,幾何題的正確率從428道題目中答對變成了443道,提升了3.5%。這很容易理解——當(dāng)AI習(xí)慣了從各種角度看圖形后,它就不會被圖形的朝向所迷惑,能夠更好地理解空間關(guān)系。就像一個經(jīng)常轉(zhuǎn)動魔方的人,無論魔方處于什么角度,都能快速識別出每個面的模式。
對于科學(xué)類問題和計數(shù)問題,"分心物拼接"訓(xùn)練最有效??茖W(xué)題的正確率從724道提升到745道,增長了2.9%;計數(shù)題從379道提升到389道,增長了2.6%。這是因為這類問題往往包含很多復(fù)雜的視覺元素,AI需要學(xué)會在眾多信息中篩選出真正重要的部分,就像在嘈雜的環(huán)境中專注聽某個人說話的能力。
對于表格類問題,情況則有所不同。雖然"分心物拼接"仍然有幫助,但"隨機(jī)旋轉(zhuǎn)"反而會降低表現(xiàn)。這也很好理解——表格是有固定閱讀順序的,如果把表格轉(zhuǎn)個角度,確實會增加閱讀難度。
這些發(fā)現(xiàn)告訴我們,AI的"視覺訓(xùn)練"需要針對不同任務(wù)進(jìn)行定制,就像不同的體育項目需要不同的訓(xùn)練方法一樣。
四、技術(shù)實現(xiàn)的巧妙設(shè)計
研究團(tuán)隊在技術(shù)實現(xiàn)上也展現(xiàn)了很高的智慧。他們設(shè)計的視覺擾動系統(tǒng)就像是一個靈活的"訓(xùn)練器械",可以很容易地集成到現(xiàn)有的AI訓(xùn)練流程中,不需要改變AI的基礎(chǔ)架構(gòu)或者收集新的訓(xùn)練數(shù)據(jù)。
在具體操作上,訓(xùn)練過程就像是烹飪時調(diào)味料的添加——每次訓(xùn)練時,系統(tǒng)會隨機(jī)選擇三種擾動方法中的一種應(yīng)用到圖片上。這種隨機(jī)性確保AI能夠接觸到各種不同的視覺挑戰(zhàn),就像一個全面的體能訓(xùn)練計劃。
更重要的是,這種方法的成本很低。它不需要額外的計算資源或者昂貴的硬件設(shè)備,只需要在現(xiàn)有的訓(xùn)練過程中添加一個簡單的圖像處理步驟。這就像是在健身時只需要改變一下動作角度,就能鍛煉到更多肌肉群,而不需要購買新的器械。
研究團(tuán)隊還貼心地開源了他們的代碼,這意味著全世界的AI研究者都可以免費使用這種技術(shù),就像是分享了一個有效的健身方法。
五、更深層的科學(xué)發(fā)現(xiàn)
這項研究最有價值的地方不僅僅是提出了一種新的訓(xùn)練方法,更重要的是它揭示了多模態(tài)AI的一個根本性問題:當(dāng)前的AI系統(tǒng)在視覺信息處理上還有很大的改進(jìn)空間。
研究團(tuán)隊通過"有效秩"這個指標(biāo)來衡量AI模型的知識容量。他們發(fā)現(xiàn),經(jīng)過視覺擾動訓(xùn)練的模型,其有效秩顯著提升了。在MathVision測試中,從73.6提升到85.7;在MathVerse測試中,從62.4提升到77.6。這個數(shù)值的提升意味著AI的"大腦"變得更加豐富和靈活,能夠存儲和處理更多樣化的信息。
這個發(fā)現(xiàn)有點像是發(fā)現(xiàn)了大腦的一個新規(guī)律:通過適當(dāng)?shù)?困難訓(xùn)練",不僅能提升特定能力,還能增強(qiáng)整體的認(rèn)知容量。這為未來的AI發(fā)展指明了一個重要方向。
研究還發(fā)現(xiàn),那些破壞圖像信息的擾動方法(比如高斯模糊、隨機(jī)裁剪等)會降低AI的表現(xiàn),這進(jìn)一步證實了他們方法的科學(xué)性。這就像是區(qū)分了"有益的挑戰(zhàn)"和"有害的干擾"——前者能讓你變得更強(qiáng),后者只會拖累你的表現(xiàn)。
六、對AI未來發(fā)展的啟示
這項研究帶來的啟示遠(yuǎn)超出了數(shù)學(xué)推理的范疇。它告訴我們,在AI的發(fā)展過程中,"看得更好"與"想得更清楚"是密不可分的。過去,很多研究專注于改進(jìn)AI的"思考"算法,但這項研究提醒我們,改進(jìn)AI如何"觀察"世界同樣重要。
研究團(tuán)隊提出的"更好的推理始于更好的觀察"這一理念,可能會改變整個AI領(lǐng)域的研究方向。未來的AI系統(tǒng)不僅需要更強(qiáng)大的推理能力,還需要更敏銳的感知能力。
這種方法的普適性也很強(qiáng)。雖然這項研究專注于數(shù)學(xué)推理,但視覺擾動的思路可以應(yīng)用到其他需要視覺理解的任務(wù)中,比如醫(yī)學(xué)圖像分析、自動駕駛、機(jī)器人視覺等領(lǐng)域。就像一個好的教育方法不僅能提升數(shù)學(xué)成績,還能培養(yǎng)學(xué)生的整體學(xué)習(xí)能力。
更有趣的是,這種方法對于AI的"泛化能力"有很大幫助。經(jīng)過視覺擾動訓(xùn)練的AI模型,在面對新的、沒見過的圖像時,表現(xiàn)得更加穩(wěn)定可靠。這就像是一個經(jīng)過多樣化訓(xùn)練的運(yùn)動員,在面對各種比賽環(huán)境時都能發(fā)揮出穩(wěn)定的水平。
說到底,這項來自上海交通大學(xué)的研究為我們揭示了一個簡單而深刻的道理:有時候,讓事情變得稍微困難一點,反而能讓我們變得更強(qiáng)。在AI的世界里,通過巧妙設(shè)計的視覺"挑戰(zhàn)",我們可以訓(xùn)練出更聰明、更可靠的人工智能系統(tǒng)。
這個發(fā)現(xiàn)對普通人意味著什么呢?隨著這種技術(shù)的推廣應(yīng)用,我們可能很快就會看到更智能的AI助手,它們不僅能夠理解我們展示的圖片和圖表,還能從中準(zhǔn)確提取信息并進(jìn)行復(fù)雜的推理。無論是幫助學(xué)生解決數(shù)學(xué)題,還是協(xié)助醫(yī)生分析醫(yī)學(xué)影像,這種"看得更清楚、想得更明白"的AI都將為我們的生活帶來實實在在的改變。
最后,值得思考的是:如果適當(dāng)?shù)?困難"能讓AI變得更聰明,那么在人類的學(xué)習(xí)和成長過程中,我們是否也應(yīng)該主動尋求一些有益的挑戰(zhàn)呢?這項研究不僅推進(jìn)了AI技術(shù)的發(fā)展,也為我們理解學(xué)習(xí)和智能的本質(zhì)提供了新的視角。如果讀者對這項研究的技術(shù)細(xì)節(jié)感興趣,可以通過GitHub鏈接查看開源代碼,或訪問arXiv平臺閱讀完整的學(xué)術(shù)論文。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。