這項(xiàng)由約翰霍普金斯大學(xué)與StepFun公司合作的研究發(fā)表于2025年7月,論文題為《Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning》。研究團(tuán)隊(duì)包括約翰霍普金斯大學(xué)的Yana Wei、Vishal M. Patel教授,以及StepFun公司的Liang Zhao、Jianjian Sun等多位研究者。有興趣深入了解的讀者可以通過(guò)arXiv:2507.05255v1訪問(wèn)完整論文。
當(dāng)你看到一道幾何題時(shí),大腦會(huì)自動(dòng)開(kāi)始一系列復(fù)雜的思維過(guò)程:先觀察圖形的整體結(jié)構(gòu),然后分解成各個(gè)部分逐一分析,遇到困難時(shí)會(huì)回頭重新思考,最后驗(yàn)證答案是否合理。這些看似自然的思維行為,對(duì)于人工智能來(lái)說(shuō)卻是一個(gè)巨大挑戰(zhàn)?,F(xiàn)在,研究團(tuán)隊(duì)成功讓AI學(xué)會(huì)了這種"邊看邊思考"的能力,就像教會(huì)了機(jī)器人用人類的方式理解和推理視覺(jué)信息。
這項(xiàng)研究的核心突破在于解決了一個(gè)困擾AI領(lǐng)域許久的難題:如何讓擅長(zhǎng)文字推理的AI同樣精通視覺(jué)推理。過(guò)去的AI模型就像是一個(gè)只會(huì)背書卻不會(huì)看圖的學(xué)生,即使能夠處理復(fù)雜的數(shù)學(xué)文字題,但一旦遇到需要分析圖表、圖形或圖像的問(wèn)題就束手無(wú)策。研究團(tuán)隊(duì)創(chuàng)造性地提出了一種"認(rèn)知行為遷移"的方法,讓AI先在純文字環(huán)境中學(xué)會(huì)各種思維技巧,然后將這些技巧應(yīng)用到視覺(jué)任務(wù)中。
研究團(tuán)隊(duì)從Qwen2.5-VL-7B這個(gè)基礎(chǔ)模型開(kāi)始,設(shè)計(jì)了一個(gè)兩階段的訓(xùn)練過(guò)程。第一階段像是讓AI接受"思維訓(xùn)練營(yíng)",在大量文字推理任務(wù)中學(xué)習(xí)各種認(rèn)知行為,比如發(fā)現(xiàn)錯(cuò)誤時(shí)的回溯思考、將復(fù)雜問(wèn)題拆解成小步驟的分治策略、驗(yàn)證答案的習(xí)慣等。第二階段則通過(guò)強(qiáng)化學(xué)習(xí)讓AI將這些思維技巧應(yīng)用到視覺(jué)任務(wù)中,就像一個(gè)學(xué)會(huì)了邏輯推理的學(xué)生開(kāi)始練習(xí)看圖解題。
**一、破解AI的"視覺(jué)思維密碼"**
要理解這項(xiàng)研究的重要性,我們首先需要明白什么是"認(rèn)知行為"。認(rèn)知行為就像是我們大腦中的思維工具箱,包含了各種解決問(wèn)題的策略和習(xí)慣。當(dāng)你做數(shù)學(xué)題時(shí)遇到困難,可能會(huì)自動(dòng)回頭檢查前面的步驟(這叫回溯),或者把復(fù)雜問(wèn)題分解成幾個(gè)簡(jiǎn)單的小問(wèn)題(這叫分治),或者在得出答案后再驗(yàn)證一遍(這叫驗(yàn)證)。這些都是認(rèn)知行為的例子。
過(guò)去的AI雖然在處理文字時(shí)能展現(xiàn)出這些認(rèn)知行為,但在面對(duì)圖像時(shí)卻完全不會(huì)運(yùn)用。這就像一個(gè)數(shù)學(xué)天才突然變成了文盲,無(wú)法將自己的推理能力應(yīng)用到需要看圖的題目上。研究團(tuán)隊(duì)意識(shí)到,關(guān)鍵不在于讓AI重新學(xué)習(xí)推理,而在于教會(huì)它如何將已有的推理能力從文字領(lǐng)域"搬運(yùn)"到視覺(jué)領(lǐng)域。
研究團(tuán)隊(duì)定義了四種核心的視覺(jué)認(rèn)知行為。視覺(jué)反思就像是看錯(cuò)題目后重新仔細(xì)觀察圖片,AI會(huì)明確表達(dá)"讓我重新看看這張圖"之類的想法。視覺(jué)分治則是將復(fù)雜圖像分解成不同區(qū)域或元素逐一分析,比如"先看左邊的數(shù)字,再看右邊的圖形"。視覺(jué)驗(yàn)證是在推理過(guò)程中不斷回到圖像確認(rèn)信息,確保推理基于準(zhǔn)確的視覺(jué)觀察。目標(biāo)驅(qū)動(dòng)的視覺(jué)追蹤則是從期望的結(jié)論出發(fā),反向?qū)ふ覉D像中的支撐證據(jù)。
這些視覺(jué)認(rèn)知行為與對(duì)應(yīng)的文字認(rèn)知行為有著天然的聯(lián)系?;厮菟季S在視覺(jué)環(huán)境中變成了視覺(jué)反思,驗(yàn)證策略變成了視覺(jué)驗(yàn)證,分治方法變成了視覺(jué)分治,逆向推理變成了目標(biāo)驅(qū)動(dòng)的視覺(jué)追蹤。研究團(tuán)隊(duì)的核心洞察是,這種對(duì)應(yīng)關(guān)系不是偶然的,而是認(rèn)知過(guò)程的本質(zhì)特征,因此可以通過(guò)適當(dāng)?shù)挠?xùn)練方法實(shí)現(xiàn)跨模態(tài)的遷移。
**二、兩階段訓(xùn)練:從"文字學(xué)霸"到"視覺(jué)專家"**
研究團(tuán)隊(duì)設(shè)計(jì)的訓(xùn)練過(guò)程就像培養(yǎng)一個(gè)全能學(xué)生:先讓他成為文字推理的專家,然后教他如何將這些技能應(yīng)用到視覺(jué)問(wèn)題上。這個(gè)過(guò)程分為兩個(gè)關(guān)鍵階段,每個(gè)階段都有其獨(dú)特的作用和挑戰(zhàn)。
第一階段被稱為"語(yǔ)言冷啟動(dòng)",這個(gè)階段的目標(biāo)是讓AI在純文字環(huán)境中充分掌握各種認(rèn)知行為。研究團(tuán)隊(duì)收集了超過(guò)200萬(wàn)個(gè)高質(zhì)量的文字推理樣本,這些樣本都來(lái)自DeepSeek-R1模型生成的帶有豐富推理過(guò)程的解答。這些解答不僅包含正確答案,更重要的是展現(xiàn)了完整的思維過(guò)程,包括遇到困難時(shí)的回溯、問(wèn)題分解的策略、驗(yàn)證答案的方法等。
這個(gè)階段的訓(xùn)練就像是讓AI觀摩大量的"思維實(shí)錄"。每個(gè)訓(xùn)練樣本都是一個(gè)完整的推理故事,AI通過(guò)大量觀察和模仿,逐漸學(xué)會(huì)了各種認(rèn)知行為的模式。特別有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)DeepSeek-R1在處理數(shù)學(xué)問(wèn)題時(shí)經(jīng)常會(huì)出現(xiàn)"心理想象"的現(xiàn)象,比如在純文字推理中使用"讓我想象一下這個(gè)圖形"或"我需要在腦海中構(gòu)建這個(gè)場(chǎng)景"之類的表達(dá)。這種心理想象為后續(xù)的視覺(jué)遷移提供了天然的橋梁。
第二階段是"多模態(tài)強(qiáng)化學(xué)習(xí)",這是整個(gè)訓(xùn)練過(guò)程的核心創(chuàng)新。在這個(gè)階段,AI開(kāi)始接觸真正的圖像,學(xué)習(xí)如何將第一階段學(xué)到的認(rèn)知行為應(yīng)用到視覺(jué)任務(wù)中。研究團(tuán)隊(duì)使用了一種叫做PPO(近端策略優(yōu)化)的強(qiáng)化學(xué)習(xí)算法,這種算法的優(yōu)勢(shì)在于訓(xùn)練過(guò)程相對(duì)穩(wěn)定,不容易出現(xiàn)性能突然下降的問(wèn)題。
強(qiáng)化學(xué)習(xí)的關(guān)鍵在于獎(jiǎng)勵(lì)機(jī)制的設(shè)計(jì)。研究團(tuán)隊(duì)采用了極簡(jiǎn)主義的獎(jiǎng)勵(lì)策略:只要AI給出的最終答案正確就給予獎(jiǎng)勵(lì),錯(cuò)誤則不給獎(jiǎng)勵(lì)。這種方法看似簡(jiǎn)單,但實(shí)際上非常有效,因?yàn)樗苊饬藦?fù)雜的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)可能帶來(lái)的偏差,讓AI能夠自由探索最有效的推理路徑。
整個(gè)強(qiáng)化學(xué)習(xí)階段持續(xù)了約900次迭代,這在開(kāi)源模型的訓(xùn)練中是前所未有的規(guī)模。研究團(tuán)隊(duì)還采用了一種漸進(jìn)式的策略,隨著訓(xùn)練的進(jìn)行逐步增加AI能夠處理的文本長(zhǎng)度,從最初的24000個(gè)字符逐步提升到48000個(gè)字符。這種設(shè)計(jì)讓AI能夠逐漸學(xué)會(huì)處理越來(lái)越復(fù)雜的推理任務(wù),同時(shí)保持訓(xùn)練的穩(wěn)定性。
**三、令人驚喜的發(fā)現(xiàn):認(rèn)知行為的神奇遷移過(guò)程**
研究過(guò)程中,團(tuán)隊(duì)發(fā)現(xiàn)了三個(gè)令人驚訝的現(xiàn)象,這些發(fā)現(xiàn)不僅驗(yàn)證了他們方法的有效性,也揭示了AI學(xué)習(xí)過(guò)程中一些前所未知的規(guī)律。
第一個(gè)發(fā)現(xiàn)是認(rèn)知行為的遷移發(fā)生得比預(yù)期更早。研究團(tuán)隊(duì)原本以為,AI需要經(jīng)過(guò)完整的冷啟動(dòng)訓(xùn)練才能在視覺(jué)任務(wù)中表現(xiàn)出認(rèn)知行為,但實(shí)際觀察發(fā)現(xiàn),這種遷移在冷啟動(dòng)階段的早期就開(kāi)始出現(xiàn)了。分析發(fā)現(xiàn),這種早期遷移的關(guān)鍵在于DeepSeek-R1訓(xùn)練數(shù)據(jù)中大量存在的"心理想象"表達(dá)。當(dāng)AI學(xué)會(huì)了在文字中表達(dá)"讓我想象這個(gè)圖形的樣子"時(shí),它實(shí)際上已經(jīng)建立了從語(yǔ)言到視覺(jué)的認(rèn)知橋梁。一旦接觸到真實(shí)圖像,這些心理想象就能夠快速轉(zhuǎn)化為真正的視覺(jué)認(rèn)知行為。
第二個(gè)發(fā)現(xiàn)涉及冷啟動(dòng)和強(qiáng)化學(xué)習(xí)兩個(gè)階段的不同作用。研究團(tuán)隊(duì)通過(guò)詳細(xì)分析發(fā)現(xiàn),冷啟動(dòng)階段像是一個(gè)"認(rèn)知行為收集器",AI會(huì)廣泛學(xué)習(xí)各種可能有用的推理模式,不管它們是否真正有效。這個(gè)階段的學(xué)習(xí)是"寧可錯(cuò)殺一千,不可放過(guò)一個(gè)"的策略,盡可能多地掌握各種思維技巧。而強(qiáng)化學(xué)習(xí)階段則像是一個(gè)"認(rèn)知行為篩選器",AI通過(guò)實(shí)際解決問(wèn)題的反饋,逐漸識(shí)別出哪些認(rèn)知行為真正有效,并重點(diǎn)強(qiáng)化這些行為的使用。
第三個(gè)發(fā)現(xiàn)是認(rèn)知行為遷移的選擇性。并不是所有的認(rèn)知行為都能等效地從語(yǔ)言遷移到視覺(jué)。研究團(tuán)隊(duì)發(fā)現(xiàn),回溯行為的遷移率最高,從最初的2.5%提升到17.3%,而驗(yàn)證行為的遷移率始終很低,幾乎接近零。這種差異可能反映了不同認(rèn)知行為的本質(zhì)特征:回溯行為更多依賴于邏輯推理的通用模式,因此更容易跨模態(tài)遷移;而驗(yàn)證行為可能更依賴于特定模態(tài)的信息處理方式,因此遷移難度更大。
這些發(fā)現(xiàn)不僅證明了研究方法的科學(xué)性,也為未來(lái)的相關(guān)研究提供了重要啟示。它們表明,AI的認(rèn)知能力發(fā)展遵循著某些可預(yù)測(cè)的規(guī)律,這為更好地設(shè)計(jì)訓(xùn)練方法提供了理論基礎(chǔ)。
**四、性能突破:在多個(gè)基準(zhǔn)測(cè)試中創(chuàng)造新紀(jì)錄**
研究團(tuán)隊(duì)開(kāi)發(fā)的Open Vision Reasoner(OVR)模型在多項(xiàng)標(biāo)準(zhǔn)測(cè)試中都取得了令人矚目的成績(jī),這些成績(jī)不僅驗(yàn)證了方法的有效性,也展示了這種認(rèn)知行為遷移方法的巨大潛力。
在純文字推理任務(wù)中,OVR展現(xiàn)出了卓越的性能。在AIME 2024競(jìng)賽中獲得了63.5%的準(zhǔn)確率,AIME 2025中達(dá)到52.1%,在MATH500基準(zhǔn)測(cè)試中更是達(dá)到了驚人的95.3%。這些成績(jī)將OVR推到了7B參數(shù)模型的前列,甚至能夠與一些參數(shù)量更大的模型相媲美。特別值得注意的是,OVR在這些測(cè)試中的表現(xiàn)不僅僅是準(zhǔn)確率的提升,更重要的是展現(xiàn)出了更強(qiáng)的推理穩(wěn)定性和泛化能力。
在視覺(jué)推理任務(wù)中,OVR同樣表現(xiàn)出色。在MathVision測(cè)試中達(dá)到51.8%的準(zhǔn)確率,成為首個(gè)在該測(cè)試中超過(guò)50%的基于Qwen2.5-VL-7B的模型。在MathVerse測(cè)試中獲得54.6%的成績(jī),在DynaMath中達(dá)到33.5%,這些成績(jī)都明顯超越了之前的最佳開(kāi)源模型。更重要的是,這些提升是全面性的,不是在某個(gè)特定類型的任務(wù)上的局部?jī)?yōu)化,而是在各種不同類型的視覺(jué)推理任務(wù)中都有顯著改進(jìn)。
研究團(tuán)隊(duì)還測(cè)試了OVR在多模態(tài)理解任務(wù)中的表現(xiàn)。在MMMU-Pro測(cè)試中獲得54.8%的成績(jī),比之前的最佳方法提升了7.2個(gè)百分點(diǎn)。在CharXiv圖表理解任務(wù)中達(dá)到73.6%的準(zhǔn)確率,在LogicVista邏輯推理測(cè)試中取得64.8%的成績(jī)。這些結(jié)果表明,認(rèn)知行為的遷移不僅提升了數(shù)學(xué)推理能力,也增強(qiáng)了AI在各種類型視覺(jué)理解任務(wù)中的表現(xiàn)。
特別令人印象深刻的是,OVR在一些任務(wù)中的表現(xiàn)已經(jīng)接近甚至超越了某些商業(yè)模型。雖然在絕對(duì)性能上還有差距,但考慮到OVR是基于相對(duì)較小的7B參數(shù)模型開(kāi)發(fā)的,這種性能已經(jīng)相當(dāng)出色。這證明了認(rèn)知行為遷移方法的效率,它能夠在不大幅增加模型規(guī)模的情況下顯著提升性能。
**五、深入洞察:AI學(xué)習(xí)過(guò)程的意外發(fā)現(xiàn)**
在深入分析訓(xùn)練過(guò)程和模型行為時(shí),研究團(tuán)隊(duì)獲得了一些關(guān)于AI學(xué)習(xí)機(jī)制的深刻洞察,這些發(fā)現(xiàn)不僅對(duì)當(dāng)前研究有價(jià)值,也為未來(lái)的AI發(fā)展提供了重要啟示。
訓(xùn)練動(dòng)態(tài)分析揭示了一個(gè)有趣的現(xiàn)象:在冷啟動(dòng)階段,模型的損失函數(shù)呈現(xiàn)出階梯式下降的模式,而不是平滑的連續(xù)下降。這種模式表明,AI的學(xué)習(xí)過(guò)程不是漸進(jìn)式的緩慢改進(jìn),而是在某些關(guān)鍵時(shí)刻發(fā)生質(zhì)的躍升。研究團(tuán)隊(duì)推測(cè),這些躍升時(shí)刻對(duì)應(yīng)著AI掌握新的認(rèn)知行為模式的瞬間,就像人類學(xué)習(xí)中的"頓悟時(shí)刻"。
在強(qiáng)化學(xué)習(xí)階段,研究團(tuán)隊(duì)觀察到了獎(jiǎng)勵(lì)值和回答長(zhǎng)度之間的強(qiáng)相關(guān)關(guān)系。隨著訓(xùn)練的進(jìn)行,AI生成的回答越來(lái)越長(zhǎng),同時(shí)準(zhǔn)確率也在提升。這種現(xiàn)象反映了一個(gè)重要的學(xué)習(xí)規(guī)律:復(fù)雜推理任務(wù)需要更多的"思考空間"。當(dāng)AI被允許生成更長(zhǎng)的推理過(guò)程時(shí),它能夠展現(xiàn)出更復(fù)雜的認(rèn)知行為,從而獲得更好的性能。研究團(tuán)隊(duì)還發(fā)現(xiàn),當(dāng)回答長(zhǎng)度達(dá)到瓶頸時(shí),適時(shí)增加允許的最大長(zhǎng)度能夠再次激發(fā)性能的提升。
認(rèn)知行為的演化過(guò)程也展現(xiàn)出了令人驚訝的規(guī)律性。通過(guò)詳細(xì)追蹤不同認(rèn)知行為在訓(xùn)練過(guò)程中的出現(xiàn)頻率,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)類似生物進(jìn)化的過(guò)程:最初各種認(rèn)知行為都會(huì)被嘗試,但隨著訓(xùn)練的進(jìn)行,只有真正有效的行為被保留和強(qiáng)化,而無(wú)效的行為逐漸消失。這種"認(rèn)知進(jìn)化"過(guò)程體現(xiàn)了強(qiáng)化學(xué)習(xí)的本質(zhì):通過(guò)試錯(cuò)找到最優(yōu)策略。
研究團(tuán)隊(duì)還意外發(fā)現(xiàn)了視覺(jué)感知能力的變化規(guī)律。在冷啟動(dòng)階段,由于大量使用文字訓(xùn)練數(shù)據(jù),AI的視覺(jué)感知能力會(huì)出現(xiàn)一定程度的退化,這類似于"用進(jìn)廢退"的現(xiàn)象。然而,在多模態(tài)強(qiáng)化學(xué)習(xí)階段,這種退化能夠被有效逆轉(zhuǎn),甚至在某些任務(wù)上超越了原始水平。這個(gè)發(fā)現(xiàn)證明了多模態(tài)訓(xùn)練的重要性,也為如何平衡不同能力的發(fā)展提供了有價(jià)值的參考。
更深層的分析還揭示了不同類型任務(wù)對(duì)認(rèn)知行為需求的差異。在純粹的感知任務(wù)(如物體識(shí)別或文字識(shí)別)中,獎(jiǎng)勵(lì)的提升并不總是伴隨著推理長(zhǎng)度的增加,這表明這些任務(wù)更多依賴于直接的模式識(shí)別而非復(fù)雜推理。相比之下,在需要多步推理的任務(wù)中,推理長(zhǎng)度和性能之間存在明顯的正相關(guān)關(guān)系。這種差異為未來(lái)設(shè)計(jì)更有針對(duì)性的訓(xùn)練方法提供了指導(dǎo)。
**六、技術(shù)細(xì)節(jié):方法論的精巧設(shè)計(jì)**
研究團(tuán)隊(duì)在方法設(shè)計(jì)上展現(xiàn)了很多精巧的思考,這些技術(shù)細(xì)節(jié)雖然看似不起眼,但對(duì)最終效果起到了關(guān)鍵作用。整個(gè)技術(shù)框架的設(shè)計(jì)體現(xiàn)了對(duì)AI學(xué)習(xí)機(jī)制的深刻理解。
數(shù)據(jù)構(gòu)建方面,研究團(tuán)隊(duì)采用了多層次的質(zhì)量控制策略。他們首先從各種公開(kāi)數(shù)據(jù)集中收集了大量原始數(shù)據(jù),包括數(shù)學(xué)競(jìng)賽題目、科學(xué)問(wèn)題、邏輯推理任務(wù)等。然后使用預(yù)訓(xùn)練的模型自動(dòng)過(guò)濾掉訓(xùn)練損失異常高的樣本,這些樣本通常包含噪聲或過(guò)于復(fù)雜的內(nèi)容。接著運(yùn)用規(guī)則和模型相結(jié)合的方法識(shí)別并移除不良模式。最后根據(jù)覆蓋度和推理相關(guān)性進(jìn)行重新加權(quán),確保訓(xùn)練數(shù)據(jù)的平衡性和代表性。
在強(qiáng)化學(xué)習(xí)的算法設(shè)計(jì)上,研究團(tuán)隊(duì)選擇了相對(duì)簡(jiǎn)單但穩(wěn)定的PPO算法。他們?cè)O(shè)置了一些關(guān)鍵參數(shù):折扣因子γ設(shè)為1,GAE參數(shù)λ也設(shè)為1,這種設(shè)置能夠充分捕捉長(zhǎng)期依賴關(guān)系,這對(duì)推理任務(wù)來(lái)說(shuō)至關(guān)重要。他們還采用了嚴(yán)格的策略更新機(jī)制,確保每次策略更新都基于最新的經(jīng)驗(yàn),避免了過(guò)時(shí)數(shù)據(jù)可能帶來(lái)的問(wèn)題。
獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)體現(xiàn)了"少即是多"的哲學(xué)。研究團(tuán)隊(duì)沒(méi)有設(shè)計(jì)復(fù)雜的多維度獎(jiǎng)勵(lì),而是采用了最簡(jiǎn)單的二元獎(jiǎng)勵(lì):答案正確得1分,錯(cuò)誤得0分。這種設(shè)計(jì)避免了復(fù)雜獎(jiǎng)勵(lì)函數(shù)可能引入的偏差,讓AI能夠自由探索最有效的推理路徑。同時(shí),這種獎(jiǎng)勵(lì)機(jī)制也更貼近現(xiàn)實(shí)中的學(xué)習(xí)情況,我們通常也是通過(guò)最終結(jié)果的對(duì)錯(cuò)來(lái)判斷思考過(guò)程的有效性。
訓(xùn)練過(guò)程中的序列長(zhǎng)度調(diào)度也是一個(gè)巧妙的設(shè)計(jì)。研究團(tuán)隊(duì)沒(méi)有一開(kāi)始就使用最大長(zhǎng)度,而是采用了漸進(jìn)式增長(zhǎng):前300次迭代使用24k字符,300-700次迭代使用32k字符,700次迭代之后使用48k字符。這種設(shè)計(jì)讓AI能夠逐步適應(yīng)更復(fù)雜的推理任務(wù),同時(shí)保持訓(xùn)練的穩(wěn)定性。
模型融合策略也體現(xiàn)了實(shí)用主義的考慮。最終的OVR模型并不是某一個(gè)訓(xùn)練檢查點(diǎn),而是多個(gè)代表性中間檢查點(diǎn)的均勻平均。這種做法能夠綜合不同訓(xùn)練階段的優(yōu)勢(shì),提高模型在各種任務(wù)上的魯棒性。
**七、實(shí)際應(yīng)用:從實(shí)驗(yàn)室到現(xiàn)實(shí)世界的橋梁**
雖然這項(xiàng)研究主要在學(xué)術(shù)環(huán)境中進(jìn)行,但其潛在的應(yīng)用價(jià)值已經(jīng)初露端倪。這種能夠進(jìn)行視覺(jué)推理的AI技術(shù)可能在多個(gè)領(lǐng)域產(chǎn)生重要影響。
在教育領(lǐng)域,這種技術(shù)可能徹底改變?cè)诰€學(xué)習(xí)體驗(yàn)。傳統(tǒng)的AI教學(xué)助手通常只能處理文字問(wèn)題,面對(duì)包含圖表、幾何圖形或?qū)嶒?yàn)圖片的題目就束手無(wú)策。而具備視覺(jué)推理能力的AI助手能夠像人類老師一樣,不僅看懂圖片內(nèi)容,還能展現(xiàn)完整的解題思路。學(xué)生可以觀察到AI是如何一步步分析圖形、發(fā)現(xiàn)關(guān)鍵信息、建立解題思路的,這種透明的推理過(guò)程對(duì)學(xué)習(xí)很有幫助。
在科學(xué)研究中,這種技術(shù)可能成為研究人員的得力助手??茖W(xué)論文中包含大量的圖表、實(shí)驗(yàn)結(jié)果圖像、顯微鏡照片等視覺(jué)信息,傳統(tǒng)的AI往往只能進(jìn)行簡(jiǎn)單的圖像分類或描述,無(wú)法進(jìn)行深度的科學(xué)推理。而具備視覺(jué)推理能力的AI可以幫助研究人員分析復(fù)雜的實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)數(shù)據(jù)中的模式,甚至提出新的假設(shè)。
在醫(yī)療診斷領(lǐng)域,這種技術(shù)的應(yīng)用前景同樣廣闊。醫(yī)療影像分析是一個(gè)典型的視覺(jué)推理任務(wù),需要醫(yī)生不僅能夠識(shí)別圖像中的異常,還要結(jié)合醫(yī)學(xué)知識(shí)進(jìn)行推理判斷。具備視覺(jué)推理能力的AI可以模擬醫(yī)生的診斷思路,不僅指出可能的病變位置,還能解釋診斷的依據(jù)和推理過(guò)程,這對(duì)提高診斷的可靠性和可解釋性都有重要意義。
在工程設(shè)計(jì)和質(zhì)量控制方面,這種技術(shù)也有很大的應(yīng)用潛力。工程圖紙分析、產(chǎn)品缺陷檢測(cè)、系統(tǒng)故障診斷等任務(wù)都需要結(jié)合視覺(jué)信息和專業(yè)知識(shí)進(jìn)行推理。傳統(tǒng)的計(jì)算機(jī)視覺(jué)系統(tǒng)往往只能進(jìn)行簡(jiǎn)單的模式匹配,而具備推理能力的AI系統(tǒng)可以像人類專家一樣,結(jié)合多種信息源進(jìn)行綜合判斷。
當(dāng)然,實(shí)際應(yīng)用還面臨著一些挑戰(zhàn)。計(jì)算資源需求是一個(gè)重要考慮因素,這種復(fù)雜的推理過(guò)程需要相當(dāng)?shù)挠?jì)算能力,如何在保持性能的同時(shí)降低計(jì)算成本是一個(gè)需要解決的問(wèn)題??煽啃院桶踩砸彩顷P(guān)鍵考慮,特別是在醫(yī)療、金融等對(duì)準(zhǔn)確性要求極高的領(lǐng)域,需要更嚴(yán)格的驗(yàn)證和測(cè)試。
**八、局限性與未來(lái)展望:仍待攻克的挑戰(zhàn)**
盡管取得了顯著成果,研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前方法的局限性,這些局限性為未來(lái)的研究指明了方向。
最明顯的局限是在純感知任務(wù)上的可擴(kuò)展性問(wèn)題。研究團(tuán)隊(duì)發(fā)現(xiàn),對(duì)于OCR(光學(xué)字符識(shí)別)和物體計(jì)數(shù)等任務(wù),強(qiáng)化學(xué)習(xí)的效果相對(duì)有限。在這些任務(wù)中,獎(jiǎng)勵(lì)值可以有效提升,但推理長(zhǎng)度保持相對(duì)穩(wěn)定,這表明這類任務(wù)更多依賴于直接的模式識(shí)別而非復(fù)雜推理。這種現(xiàn)象揭示了當(dāng)前方法的一個(gè)重要局限:它主要適用于需要多步推理的復(fù)雜任務(wù),對(duì)于更基礎(chǔ)的感知任務(wù)效果有限。
另一個(gè)重要局限是對(duì)視覺(jué)認(rèn)知行為多樣性的不足。目前的研究主要關(guān)注了四種基本的認(rèn)知行為,但人類的視覺(jué)推理過(guò)程遠(yuǎn)比這復(fù)雜??臻g想象、多視角分析、動(dòng)態(tài)推理等更高級(jí)的認(rèn)知能力還沒(méi)有得到充分研究。研究團(tuán)隊(duì)認(rèn)為,未來(lái)需要發(fā)展更豐富的認(rèn)知行為庫(kù),并探索如何讓AI掌握這些更復(fù)雜的推理技巧。
模型規(guī)模也是一個(gè)考慮因素。雖然7B參數(shù)的模型已經(jīng)能夠取得不錯(cuò)的效果,但與更大規(guī)模的模型相比仍有差距。如何在保持計(jì)算效率的同時(shí)進(jìn)一步提升性能,是一個(gè)需要平衡的問(wèn)題。研究團(tuán)隊(duì)指出,簡(jiǎn)單地增加模型規(guī)模可能不是最優(yōu)解,更重要的是優(yōu)化訓(xùn)練方法和數(shù)據(jù)質(zhì)量。
數(shù)據(jù)質(zhì)量和多樣性也存在改進(jìn)空間。雖然研究團(tuán)隊(duì)已經(jīng)進(jìn)行了大量的數(shù)據(jù)篩選和處理工作,但高質(zhì)量的多模態(tài)推理數(shù)據(jù)仍然相對(duì)稀缺。如何生成或收集更多高質(zhì)量的訓(xùn)練數(shù)據(jù),特別是那些展現(xiàn)復(fù)雜認(rèn)知行為的數(shù)據(jù),是一個(gè)持續(xù)的挑戰(zhàn)。
對(duì)于未來(lái)的發(fā)展方向,研究團(tuán)隊(duì)提出了幾個(gè)有前景的探索方向。多輪對(duì)話和智能體式的強(qiáng)化學(xué)習(xí)是一個(gè)重要方向,這種方法可能讓AI學(xué)會(huì)更復(fù)雜的交互式推理。心理想象和空間建模是另一個(gè)有趣的方向,研究團(tuán)隊(duì)注意到DeepSeek-R1中存在的"心理想象"現(xiàn)象,認(rèn)為這可能是開(kāi)發(fā)更強(qiáng)大視覺(jué)推理能力的關(guān)鍵。
跨模態(tài)的認(rèn)知行為遷移也有進(jìn)一步擴(kuò)展的潛力。目前的研究主要關(guān)注從語(yǔ)言到視覺(jué)的遷移,但從視覺(jué)到其他模態(tài)(如聽(tīng)覺(jué)、觸覺(jué))的遷移同樣值得探索。這種研究可能幫助我們更好地理解認(rèn)知能力的本質(zhì)特征。
最后,研究團(tuán)隊(duì)強(qiáng)調(diào)了開(kāi)源和可重現(xiàn)性的重要性。他們計(jì)劃發(fā)布完整的模型、數(shù)據(jù)和訓(xùn)練代碼,希望能夠推動(dòng)整個(gè)社區(qū)在這個(gè)方向上的進(jìn)展。這種開(kāi)放的態(tài)度不僅有利于學(xué)術(shù)研究,也有助于技術(shù)的實(shí)際應(yīng)用和普及。
說(shuō)到底,這項(xiàng)研究代表了AI發(fā)展歷程中的一個(gè)重要里程碑。它不僅在技術(shù)上取得了突破,更重要的是為我們理解智能的本質(zhì)提供了新的視角。認(rèn)知行為作為智能的基本構(gòu)建塊,其跨模態(tài)遷移能力揭示了不同形式智能之間的深層聯(lián)系。這種理解不僅有助于開(kāi)發(fā)更強(qiáng)大的AI系統(tǒng),也可能為認(rèn)知科學(xué)和心理學(xué)研究提供新的洞察。
從更廣闊的角度看,這項(xiàng)研究體現(xiàn)了當(dāng)前AI發(fā)展的一個(gè)重要趨勢(shì):從單純追求性能提升轉(zhuǎn)向理解和模擬智能的工作機(jī)制。這種轉(zhuǎn)變不僅有助于開(kāi)發(fā)更可靠、可解釋的AI系統(tǒng),也為實(shí)現(xiàn)真正的通用人工智能鋪平了道路。雖然距離這個(gè)目標(biāo)還有很長(zhǎng)的路要走,但這樣的研究無(wú)疑是朝著正確方向邁出的重要一步。
Q&A
Q1:什么是認(rèn)知行為遷移?它是如何實(shí)現(xiàn)的? A:認(rèn)知行為遷移是指將AI在文字推理中學(xué)會(huì)的思維技巧(如回溯、驗(yàn)證、分解問(wèn)題等)應(yīng)用到視覺(jué)推理任務(wù)中。實(shí)現(xiàn)方法是先讓AI在大量文字推理任務(wù)中掌握這些認(rèn)知行為,然后通過(guò)強(qiáng)化學(xué)習(xí)讓它將這些技巧應(yīng)用到需要看圖解題的任務(wù)中,就像教會(huì)一個(gè)擅長(zhǎng)文字推理的學(xué)生如何分析圖形問(wèn)題。
Q2:Open Vision Reasoner比其他AI模型強(qiáng)在哪里? A:OVR的主要優(yōu)勢(shì)在于它會(huì)"邊看邊思考",不僅能識(shí)別圖像內(nèi)容,還能展現(xiàn)完整的推理過(guò)程。比如遇到幾何題時(shí),它會(huì)先觀察整體結(jié)構(gòu),然后分解分析各部分,遇到困難時(shí)還會(huì)回頭重新檢查,最后驗(yàn)證答案。在多項(xiàng)測(cè)試中,OVR都創(chuàng)造了7B參數(shù)模型的新紀(jì)錄,有些甚至接近更大規(guī)模的商業(yè)模型。
Q3:這項(xiàng)技術(shù)會(huì)不會(huì)很快應(yīng)用到日常生活中? A:目前還處于研究階段,但應(yīng)用前景很廣闊。未來(lái)可能出現(xiàn)在在線教育(AI老師能看懂和解析各種圖表題目)、醫(yī)療診斷(分析醫(yī)學(xué)影像并解釋推理過(guò)程)、科學(xué)研究(分析實(shí)驗(yàn)結(jié)果圖像)等領(lǐng)域。不過(guò)要真正普及還需要解決計(jì)算成本、可靠性等實(shí)際問(wèn)題,預(yù)計(jì)還需要一段時(shí)間的發(fā)展。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。