這項由阿里巴巴集團的Ovis團隊主導(dǎo)的研究發(fā)表于2025年8月,相關(guān)技術(shù)報告已在arXiv平臺發(fā)布。感興趣的讀者可以通過Hugging Face模型庫(https://huggingface.co/AIDC-AI/Ovis2.5-9B)或GitHub項目頁面(https://github.com/AIDC-AI/Ovis)獲取完整的技術(shù)細節(jié)和模型文件。
想象一下,如果AI助手不僅能理解你的話,還能像人類一樣仔細觀察圖片,甚至能對復(fù)雜的圖表進行深度思考和推理,那會是怎樣的體驗?阿里巴巴的研究團隊剛剛實現(xiàn)了這個愿景,他們開發(fā)的Ovis2.5模型就像給AI裝上了一雙"火眼金睛",不僅能看懂各種圖片,還能進行深度思考。
在AI發(fā)展的征途中,讓機器理解視覺信息一直是個巨大挑戰(zhàn)。就好比教一個盲人學(xué)會繪畫一樣困難。傳統(tǒng)的AI視覺模型就像戴著度數(shù)不合適眼鏡的人,看圖片時要么只能看清楚局部細節(jié),要么只能模糊地看到整體輪廓,很難同時兼顧。而且更重要的是,即使看懂了圖片,AI往往只能給出直接的答案,缺乏像人類那樣的深度思考過程。
Ovis2.5的出現(xiàn)就像為AI換上了一副完美的眼鏡。與之前的AI視覺模型相比,它有兩個革命性的突破。首先,它可以直接處理原始分辨率的圖片,不需要像切西瓜一樣把圖片切成小塊再拼接。這就好比一個人能夠直接看清整幅畫作,而不是只能通過放大鏡一小塊一小塊地觀察。其次,Ovis2.5還學(xué)會了"思考",遇到復(fù)雜問題時不會急于給出答案,而是會在內(nèi)心進行反復(fù)推理,就像人類解決難題時的思維過程一樣。
研究團隊為Ovis2.5設(shè)計了一套完整的"學(xué)習(xí)課程",就像培養(yǎng)一個天才學(xué)生一樣循序漸進。這個學(xué)習(xí)過程分為五個階段,每個階段都有明確的目標(biāo)和方法。首先是基礎(chǔ)視覺訓(xùn)練,讓AI學(xué)會看懂各種圖片;然后是多模態(tài)預(yù)訓(xùn)練,教會它如何將看到的內(nèi)容與文字聯(lián)系起來;接著是指令調(diào)優(yōu)階段,讓AI學(xué)會按照人類的要求完成各種任務(wù);隨后通過偏好優(yōu)化訓(xùn)練,讓AI的回答更符合人類期望;最后通過強化學(xué)習(xí),進一步提升AI的推理能力。
在這個訓(xùn)練過程中,研究團隊特別注重培養(yǎng)AI的"思考能力"。他們?yōu)锳I提供了大量包含思考過程的訓(xùn)練數(shù)據(jù),就像給學(xué)生展示優(yōu)秀的解題思路一樣。這些數(shù)據(jù)不僅包含正確答案,更重要的是包含了到達答案的完整推理過程,包括自我檢查和錯誤修正。通過這樣的訓(xùn)練,AI學(xué)會了在遇到復(fù)雜問題時先進入"思考模式",在內(nèi)心進行充分推理后再給出最終答案。
為了驗證Ovis2.5的能力,研究團隊設(shè)計了一系列嚴(yán)格的測試。在OpenCompass這個權(quán)威的多模態(tài)評測平臺上,Ovis2.5-9B模型獲得了78.3分的優(yōu)異成績,顯著超越了之前的版本,也在同等參數(shù)規(guī)模的開源模型中創(chuàng)造了新的記錄。Ovis2.5-2B雖然參數(shù)更少,但也達到了73.9分,證明了"小模型,大性能"的設(shè)計理念。
一、革命性的視覺處理技術(shù)
傳統(tǒng)的AI視覺模型處理圖片就像一個近視眼的人看畫展,需要把大幅畫作切成許多小塊,然后逐一觀察每個片段,最后再在腦海中拼接成完整圖像。這種方式不僅效率低下,而且經(jīng)常會遺漏重要的全局信息,就像只看到樹木而忽略了整片森林。
Ovis2.5采用了一種全新的"原生分辨率視覺處理"技術(shù),就像為AI配備了一副完美的眼鏡,能夠直接以圖片的原始分辨率進行觀察,無需進行任何裁剪或壓縮。這種技術(shù)的核心是使用了原生分辨率視覺變換器(NaViT),它能夠處理各種尺寸和比例的圖片,就像人眼能夠自然地觀察不同大小的物體一樣。
這種技術(shù)的優(yōu)勢在處理復(fù)雜圖表時尤為明顯。比如觀察一張包含大量數(shù)據(jù)的財務(wù)報表或者科學(xué)圖表時,傳統(tǒng)方法可能會因為切割圖片而破壞數(shù)據(jù)之間的關(guān)聯(lián)性,就像把一張地圖撕成碎片后再重組,很容易迷失方向。而Ovis2.5能夠保持圖表的完整結(jié)構(gòu),清晰地識別各個數(shù)據(jù)點之間的關(guān)系,準(zhǔn)確理解圖表所要表達的信息。
為了增強空間感知能力,研究團隊還為視覺處理模塊配備了旋轉(zhuǎn)位置編碼(RoPE)技術(shù)。這就像為AI的"眼睛"安裝了精確的定位系統(tǒng),使其能夠準(zhǔn)確理解圖片中各個元素的空間位置關(guān)系。無論是判斷物體的遠近關(guān)系,還是分析圖表中數(shù)據(jù)的分布趨勢,這種技術(shù)都能提供關(guān)鍵的空間信息支持。
整個視覺處理系統(tǒng)基于先進的SigLIP模型進行初始化,這相當(dāng)于為AI提供了一個良好的視覺基礎(chǔ)。就像一個藝術(shù)學(xué)生在接受專業(yè)訓(xùn)練之前已經(jīng)具備了基本的繪畫技能一樣,這種預(yù)訓(xùn)練為后續(xù)的學(xué)習(xí)奠定了堅實基礎(chǔ)。
二、突破性的深度推理能力
如果說傳統(tǒng)的AI就像一個只會背標(biāo)準(zhǔn)答案的學(xué)生,那么Ovis2.5就像一個真正會獨立思考的學(xué)者。它最令人驚嘆的特色就是具備了"思考模式",能夠像人類一樣進行深度推理和反思。
當(dāng)面對復(fù)雜問題時,Ovis2.5不會急于給出答案,而是會啟動內(nèi)在的思考過程。這個過程被巧妙地設(shè)計為可見的思考標(biāo)簽,用戶可以選擇查看AI的完整推理過程,就像能夠窺視一個天才學(xué)者的思維軌跡一樣。在這個思考過程中,AI會進行多角度分析,提出不同的假設(shè),甚至?xí)晕屹|(zhì)疑和糾錯。
這種思考能力的培養(yǎng)并非一蹴而就。研究團隊為AI準(zhǔn)備了大量包含完整推理過程的訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)不僅展示了正確的答案,更重要的是展示了到達答案的思維路徑。就像優(yōu)秀的老師不僅要告訴學(xué)生答案是什么,更要教會學(xué)生如何思考一樣。
特別值得一提的是,Ovis2.5學(xué)會了自我反思和錯誤修正。當(dāng)它發(fā)現(xiàn)自己的初步推理可能存在問題時,會主動回過頭重新審視,調(diào)整思路,就像一個負責(zé)任的學(xué)者會反復(fù)檢查自己的研究結(jié)論一樣。這種能力使得AI在處理復(fù)雜的數(shù)學(xué)問題、科學(xué)推理或者需要多步邏輯分析的任務(wù)時表現(xiàn)尤為出色。
用戶可以根據(jù)具體需求選擇是否啟用思考模式。對于簡單問題,可以關(guān)閉思考模式快速獲得答案;而對于復(fù)雜問題,啟用思考模式雖然會增加一些等待時間,但能獲得更準(zhǔn)確、更可靠的結(jié)果。這就像在速度和準(zhǔn)確性之間提供了一個可調(diào)節(jié)的平衡點。
三、精心設(shè)計的五階段訓(xùn)練體系
培養(yǎng)一個既能看懂圖片又會深度思考的AI,就像培養(yǎng)一個全才學(xué)者一樣需要系統(tǒng)性的教育。Ovis2.5的訓(xùn)練過程被精心設(shè)計為五個遞進的階段,每個階段都有明確的學(xué)習(xí)目標(biāo)和專門的訓(xùn)練方法。
第一階段是視覺感知基礎(chǔ)訓(xùn)練。在這個階段,AI主要學(xué)習(xí)如何理解圖片中的基本信息,就像教一個孩子認識各種物體一樣。訓(xùn)練數(shù)據(jù)主要是圖片和相應(yīng)的文字描述,AI需要學(xué)會將看到的視覺內(nèi)容轉(zhuǎn)換為文字表達。為了確保學(xué)習(xí)的穩(wěn)定性,研究團隊采用了漸進式的訓(xùn)練策略,先處理較低分辨率的圖片,逐步提升到更高分辨率。
第二階段是多模態(tài)理解訓(xùn)練。這個階段的目標(biāo)是讓AI學(xué)會將視覺信息與語言信息進行整合,就像教會一個學(xué)生不僅要能看懂圖片,還要能用文字準(zhǔn)確描述所看到的內(nèi)容。訓(xùn)練內(nèi)容擴展到包含文字識別、物體定位、圖表分析等多種任務(wù),訓(xùn)練數(shù)據(jù)也從簡單的圖片描述擴展到對話形式的問答。
第三階段是指令理解和執(zhí)行訓(xùn)練。在這個階段,AI學(xué)會根據(jù)具體的指令完成各種復(fù)雜任務(wù),就像訓(xùn)練一個助手能夠理解并執(zhí)行各種工作要求。訓(xùn)練內(nèi)容涵蓋了文本處理、多圖片分析、視頻理解等各個方面。特別重要的是,在這個階段引入了包含思考過程的訓(xùn)練數(shù)據(jù),開始培養(yǎng)AI的深度推理能力。
第四階段是偏好對齊訓(xùn)練。這個階段使用直接偏好優(yōu)化(DPO)技術(shù),讓AI學(xué)會生成更符合人類期望的回答。訓(xùn)練方式類似于讓AI在多個候選答案中學(xué)會選擇最好的那個,就像培養(yǎng)一個編輯的審美判斷能力一樣。這個階段特別注重提升AI在推理任務(wù)上的表現(xiàn),通過對比不同質(zhì)量的推理過程,讓AI學(xué)會什么是優(yōu)質(zhì)的思考方式。
第五階段是強化學(xué)習(xí)優(yōu)化。在最后這個階段,使用組相對策略優(yōu)化(GRPO)技術(shù)進一步提升AI的推理能力。這個階段專注于可驗證的推理任務(wù),通過獎勵機制鼓勵A(yù)I生成更準(zhǔn)確的推理過程。為了保持之前階段學(xué)到的通用能力,這個階段只更新語言模型部分的參數(shù),視覺處理部分保持不變。
四、卓越的性能表現(xiàn)
經(jīng)過精心訓(xùn)練的Ovis2.5在各種測試中都表現(xiàn)出了令人印象深刻的能力。在權(quán)威的OpenCompass多模態(tài)評測平臺上,Ovis2.5展現(xiàn)了全面而均衡的性能。這個評測平臺就像是AI領(lǐng)域的"高考",從多個維度考察模型的綜合能力。
在基礎(chǔ)視覺理解方面,Ovis2.5表現(xiàn)穩(wěn)健。無論是識別圖片中的物體、理解場景內(nèi)容,還是回答關(guān)于圖片的各種問題,它都能給出準(zhǔn)確而詳細的答案。特別是在處理高分辨率圖片時,它能夠捕捉到許多細微的細節(jié),就像一個觀察力敏銳的偵探一樣不放過任何線索。
在數(shù)學(xué)推理能力測試中,Ovis2.5的表現(xiàn)尤為突出。面對復(fù)雜的數(shù)學(xué)問題,它能夠展現(xiàn)出完整的解題思路,不僅給出正確答案,還能清晰地說明每一步的推理過程。在MathVista測試中獲得了83.4分的優(yōu)異成績,證明了其在視覺數(shù)學(xué)推理方面的強大能力。
文字識別和文檔理解是Ovis2.5的另一個強項。無論是掃描的文檔、手寫的筆記,還是復(fù)雜的表格,它都能準(zhǔn)確識別并理解其中的信息。在OCRBench測試中,它不僅超越了同類開源模型,甚至在某些方面超過了商業(yè)化的GPT-4o模型,顯示出了在實用性方面的巨大優(yōu)勢。
在圖表分析能力方面,Ovis2.5展現(xiàn)出了專業(yè)級的水準(zhǔn)。面對復(fù)雜的統(tǒng)計圖表、科學(xué)數(shù)據(jù)可視化或者商業(yè)報表,它能夠準(zhǔn)確理解數(shù)據(jù)之間的關(guān)系,識別趨勢變化,甚至能夠基于圖表數(shù)據(jù)進行推理和預(yù)測。這種能力在ChartQA Pro測試中得到了充分驗證,獲得了63.8分的優(yōu)秀成績。
物體定位和空間推理也是Ovis2.5的優(yōu)勢領(lǐng)域。在RefCOCO系列測試中,它能夠根據(jù)自然語言描述準(zhǔn)確找到圖片中的特定物體,平均準(zhǔn)確率達到90.1分。這種能力不僅需要理解語言描述,還需要準(zhǔn)確的空間感知,體現(xiàn)了多模態(tài)理解的真正融合。
五、實際應(yīng)用的廣闊前景
Ovis2.5的能力遠不止停留在實驗室的測試中,它在現(xiàn)實世界中有著廣闊的應(yīng)用前景。憑借其強大的視覺理解和推理能力,這個AI系統(tǒng)可以在許多領(lǐng)域發(fā)揮重要作用。
在教育領(lǐng)域,Ovis2.5可以成為一個智能的學(xué)習(xí)助手。學(xué)生遇到不懂的題目時,只需要拍一張照片,它就能提供詳細的解題思路和步驟說明。特別是對于數(shù)學(xué)、物理等需要復(fù)雜推理的學(xué)科,它的思考模式能夠幫助學(xué)生理解解題的邏輯過程,而不僅僅是得到答案。這就像有了一個永遠不會疲倦、知識淵博的私人導(dǎo)師。
在醫(yī)療健康領(lǐng)域,Ovis2.5的圖像分析能力可以協(xié)助醫(yī)生進行診斷。它可以分析醫(yī)學(xué)影像,識別異常區(qū)域,甚至可以解讀復(fù)雜的檢查報告。雖然不能替代專業(yè)醫(yī)生的判斷,但可以作為一個有力的輔助工具,提高診斷的效率和準(zhǔn)確性。
商業(yè)分析是另一個重要的應(yīng)用場景。面對復(fù)雜的財務(wù)報表、市場數(shù)據(jù)圖表或者商業(yè)演示文檔,Ovis2.5可以快速提取關(guān)鍵信息,分析趨勢變化,甚至提供決策建議。這對于需要處理大量數(shù)據(jù)的商業(yè)分析師來說,無疑是一個強大的工具。
在日常生活中,Ovis2.5也能提供許多實用的幫助。比如識別菜譜上的文字并提供烹飪建議、分析家庭財務(wù)記錄、幫助理解復(fù)雜的說明書或者合同條款等等。它就像一個博學(xué)的朋友,隨時準(zhǔn)備為你答疑解惑。
對于殘障人士來說,Ovis2.5更是一個貼心的助手。視力受損的用戶可以通過它來"看懂"各種圖片和文檔,獲得詳細的描述和解釋。這種無障礙的技術(shù)應(yīng)用體現(xiàn)了AI技術(shù)的人文關(guān)懷。
六、技術(shù)創(chuàng)新的深層意義
Ovis2.5的技術(shù)突破不僅僅是性能數(shù)據(jù)的提升,更代表了人工智能發(fā)展的一個重要里程碑。它展示了AI系統(tǒng)如何能夠更接近人類的認知方式,具備視覺理解和邏輯推理的綜合能力。
原生分辨率處理技術(shù)的應(yīng)用代表了視覺AI的一個重要發(fā)展方向。傳統(tǒng)的固定分辨率處理方式就像戴著有色眼鏡看世界,總會有信息的損失或扭曲。而原生分辨率處理則讓AI能夠以最原始、最真實的方式感知視覺世界,這為更精確的視覺理解奠定了基礎(chǔ)。
思考模式的引入則代表了AI推理能力的重大進步。以往的AI系統(tǒng)往往是"黑盒子",用戶只能看到輸入和輸出,無法了解其內(nèi)部的推理過程。Ovis2.5的思考模式讓這個"黑盒子"變得透明,用戶可以理解AI的思考軌跡,這不僅提高了結(jié)果的可信度,也為AI的進一步改進提供了方向。
多階段訓(xùn)練體系的設(shè)計體現(xiàn)了AI教育的科學(xué)性。就像培養(yǎng)人才需要循序漸進一樣,AI的訓(xùn)練也需要有層次、有計劃的安排。這種系統(tǒng)性的訓(xùn)練方法不僅提高了訓(xùn)練效率,也確保了AI能力的全面發(fā)展。
高效的訓(xùn)練基礎(chǔ)設(shè)施也是這項研究的重要貢獻。通過數(shù)據(jù)打包和混合并行技術(shù),訓(xùn)練速度提升了3-4倍,這意味著類似的AI系統(tǒng)可以更快速、更經(jīng)濟地進行開發(fā)和部署。
說到底,Ovis2.5的意義遠超一個簡單的技術(shù)產(chǎn)品。它展現(xiàn)了AI技術(shù)如何能夠真正理解和處理復(fù)雜的現(xiàn)實世界信息,如何能夠進行類人的推理和思考。這種能力的實現(xiàn)不僅推動了學(xué)術(shù)研究的邊界,更為AI技術(shù)在各個領(lǐng)域的廣泛應(yīng)用鋪平了道路。
對于普通用戶而言,Ovis2.5代表著一個更智能、更可靠的AI助手即將走入我們的生活。它不再是簡單的問答工具,而是一個能夠深度理解、獨立思考的智能伙伴。隨著技術(shù)的不斷完善和優(yōu)化,我們有理由期待AI將在更多場景下為人類提供有價值的幫助。
當(dāng)然,任何技術(shù)都有其局限性和發(fā)展空間。研究團隊也坦誠地指出了未來的改進方向,包括支持4K級別的超高分辨率圖像處理、處理更長時間的視頻內(nèi)容、以及集成更多實用工具等。這種開放和誠實的態(tài)度體現(xiàn)了科學(xué)研究的嚴(yán)謹性,也為后續(xù)的技術(shù)發(fā)展指明了方向。
總的來說,阿里巴巴團隊的這項研究不僅為我們帶來了一個功能強大的AI模型,更為整個AI領(lǐng)域的發(fā)展貢獻了寶貴的經(jīng)驗和方法。隨著Ovis2.5等先進AI系統(tǒng)的不斷涌現(xiàn),我們正在見證人工智能從實驗室走向現(xiàn)實生活的歷史性轉(zhuǎn)變。有興趣深入了解技術(shù)細節(jié)的讀者,可以通過前文提到的官方鏈接獲取完整的研究資料和模型文件,親自體驗這項令人興奮的技術(shù)創(chuàng)新。
Q&A
Q1:Ovis2.5相比傳統(tǒng)AI視覺模型有什么突破性改進?
A:Ovis2.5最大的突破是采用了原生分辨率處理技術(shù),能夠直接處理各種尺寸的原始圖片,不需要切割或壓縮,就像為AI配了一副完美眼鏡。同時它還具備思考模式,遇到復(fù)雜問題時會進行深度推理和自我檢查,而不是急于給出答案。
Q2:Ovis2.5的思考模式是如何工作的?
A:思考模式讓AI在回答問題前進行內(nèi)在推理,用戶可以選擇查看完整的思考過程。AI會多角度分析問題,提出假設(shè),甚至自我質(zhì)疑和糾錯,就像人類學(xué)者的思維軌跡。用戶可根據(jù)需求選擇開啟或關(guān)閉這個模式,在速度和準(zhǔn)確性之間找到平衡。
Q3:普通人可以在哪些場景使用Ovis2.5?
A:Ovis2.5可以作為學(xué)習(xí)助手幫助解題和理解復(fù)雜概念,協(xié)助分析各種圖表和文檔,識別圖片中的文字內(nèi)容,解讀說明書或合同條款等。對視力受損用戶來說更是貼心助手,能詳細描述各種圖片和文檔內(nèi)容,在教育、醫(yī)療、商業(yè)分析等多個領(lǐng)域都有廣泛應(yīng)用前景。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。