這項(xiàng)由香港中文大學(xué)多媒體實(shí)驗(yàn)室的王軻、潘俊廷、魏琳達(dá)等研究團(tuán)隊(duì)開(kāi)發(fā)的突破性研究發(fā)表于2025年5月,論文題為"MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning"。這項(xiàng)研究首次實(shí)現(xiàn)了讓AI通過(guò)理解代碼來(lái)精確識(shí)別數(shù)學(xué)圖形,就像給機(jī)器裝上了一雙能夠"讀懂"幾何圖的眼睛。有興趣深入了解這項(xiàng)研究的讀者可以通過(guò)GitHub鏈接https://github.com/mathllm/MathCoder獲取完整的論文和代碼。
一、為什么機(jī)器看數(shù)學(xué)圖這么難
想象一下,當(dāng)你看到一個(gè)幾何圖形時(shí),你能瞬間識(shí)別出三角形的角度、圓的半徑、直線(xiàn)的關(guān)系。但對(duì)于人工智能來(lái)說(shuō),這就像讓一個(gè)從未見(jiàn)過(guò)汽車(chē)的人去修理發(fā)動(dòng)機(jī)一樣困難。目前的AI模型雖然在文字理解上已經(jīng)達(dá)到了人類(lèi)水平,甚至在某些數(shù)學(xué)推理任務(wù)上超越了奧林匹克競(jìng)賽選手,但一旦涉及到需要"看圖說(shuō)話(huà)"的數(shù)學(xué)題,它們就像突然失明了一樣手足無(wú)措。
問(wèn)題的根源在于,傳統(tǒng)的圖像描述就像是用文字給盲人描述一幅畫(huà)——再詳細(xì)的描述也難免遺漏關(guān)鍵細(xì)節(jié)。比如說(shuō),當(dāng)AI看到一個(gè)幾何圖形時(shí),它可能會(huì)說(shuō)"這里有一個(gè)三角形和一個(gè)圓",但它很難準(zhǔn)確描述出三角形的具體角度是30度還是45度,圓心是否恰好在三角形的某個(gè)頂點(diǎn)上。這些看似微小的差別,在數(shù)學(xué)問(wèn)題中卻可能導(dǎo)致完全不同的答案。
更糟糕的是,現(xiàn)有的圖像描述方法就像玩"傳話(huà)游戲"一樣容易出錯(cuò)。AI首先要將圖像轉(zhuǎn)換成文字描述,然后再基于這個(gè)可能不準(zhǔn)確的描述去解決數(shù)學(xué)問(wèn)題。這就好比你讓朋友描述一道菜的味道,然后你根據(jù)這個(gè)描述去猜測(cè)食譜——中間的信息損失和誤解幾乎是不可避免的。
香港中文大學(xué)的研究團(tuán)隊(duì)意識(shí)到,要解決這個(gè)問(wèn)題,需要找到一種更直接、更精確的方式讓AI理解數(shù)學(xué)圖形。他們的靈感來(lái)自一個(gè)簡(jiǎn)單而深刻的觀察:如果一張數(shù)學(xué)圖形是用代碼繪制出來(lái)的,那么這個(gè)代碼就包含了繪制這張圖所需的所有精確信息——每一個(gè)點(diǎn)的坐標(biāo)、每一條線(xiàn)的角度、每一個(gè)圓的半徑都在代碼中有明確的數(shù)值。
二、用代碼當(dāng)"翻譯官"的絕妙想法
研究團(tuán)隊(duì)提出了一個(gè)聽(tīng)起來(lái)簡(jiǎn)單卻極其巧妙的解決方案:讓AI學(xué)會(huì)將數(shù)學(xué)圖形"翻譯"成繪制這些圖形的代碼。這就像是給AI配備了一個(gè)超級(jí)精密的"圖形解碼器",能夠從視覺(jué)信息中反推出創(chuàng)建這個(gè)圖形的完整"制作配方"。
這個(gè)想法的天才之處在于,代碼是一種完全精確的語(yǔ)言。當(dāng)你用TikZ(一種專(zhuān)門(mén)用于繪制數(shù)學(xué)圖形的編程語(yǔ)言)或Python的matplotlib庫(kù)來(lái)畫(huà)一個(gè)三角形時(shí),每個(gè)頂點(diǎn)的坐標(biāo)都必須精確指定。比如說(shuō),畫(huà)一個(gè)直角三角形的代碼可能是:畫(huà)一條從點(diǎn)(0,0)到點(diǎn)(3,0)的線(xiàn),再畫(huà)一條從點(diǎn)(3,0)到點(diǎn)(3,4)的線(xiàn),最后畫(huà)一條從點(diǎn)(3,4)回到點(diǎn)(0,0)的線(xiàn)。這樣的代碼描述不僅包含了三角形的形狀,還精確記錄了它的大小、位置和角度。
為了訓(xùn)練AI學(xué)會(huì)這種"圖形到代碼"的翻譯能力,研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為ImgCode-8.6M的龐大數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包含了860萬(wàn)對(duì)圖形和對(duì)應(yīng)代碼的組合,就像是給AI準(zhǔn)備了860萬(wàn)個(gè)"看圖寫(xiě)代碼"的練習(xí)題。這些圖形涵蓋了從簡(jiǎn)單的幾何形狀到復(fù)雜的統(tǒng)計(jì)圖表的各種數(shù)學(xué)視覺(jué)內(nèi)容。
更有趣的是,研究團(tuán)隊(duì)還開(kāi)發(fā)了一個(gè)名為FigCodifier的AI模型,專(zhuān)門(mén)負(fù)責(zé)這種圖形到代碼的轉(zhuǎn)換工作。FigCodifier就像是一個(gè)經(jīng)驗(yàn)豐富的程序員,能夠看著任何數(shù)學(xué)圖形,然后快速寫(xiě)出能夠重現(xiàn)這個(gè)圖形的精確代碼。
三、讓AI"創(chuàng)造"新的數(shù)學(xué)圖形
但是研究團(tuán)隊(duì)并沒(méi)有止步于簡(jiǎn)單的圖形識(shí)別。他們發(fā)現(xiàn)了FigCodifier的一個(gè)意外的超能力:創(chuàng)造性地生成新的數(shù)學(xué)圖形。這就像是一個(gè)會(huì)畫(huà)畫(huà)的機(jī)器人,不僅能臨摹現(xiàn)有的畫(huà)作,還能創(chuàng)作出風(fēng)格相似但內(nèi)容全新的作品。
當(dāng)研究團(tuán)隊(duì)給FigCodifier設(shè)置一個(gè)較高的"創(chuàng)造性參數(shù)"(在技術(shù)上稱(chēng)為溫度參數(shù))時(shí),這個(gè)AI模型就會(huì)開(kāi)始發(fā)揮想象力。比如,給它一個(gè)標(biāo)準(zhǔn)的直角三角形,它可能會(huì)生成一個(gè)等腰三角形、一個(gè)鈍角三角形,或者一個(gè)包含三角形的更復(fù)雜圖形。這些新生成的圖形保持了原始圖形的數(shù)學(xué)特征,但在具體細(xì)節(jié)上有所變化。
這種創(chuàng)造能力為數(shù)學(xué)教育帶來(lái)了革命性的可能。傳統(tǒng)上,數(shù)學(xué)老師要為學(xué)生準(zhǔn)備練習(xí)題時(shí),往往需要手工繪制大量不同的幾何圖形,或者從有限的題庫(kù)中選擇?,F(xiàn)在,F(xiàn)igCodifier可以基于一個(gè)基礎(chǔ)圖形自動(dòng)生成成百上千個(gè)變體,每個(gè)都略有不同,但都保持著相同的數(shù)學(xué)難度和教學(xué)目標(biāo)。
利用這種能力,研究團(tuán)隊(duì)構(gòu)建了MM-MathInstruct-3M數(shù)據(jù)集,包含了300萬(wàn)個(gè)全新的數(shù)學(xué)問(wèn)題,每個(gè)問(wèn)題都配有專(zhuān)門(mén)生成的數(shù)學(xué)圖形。這就像是有一個(gè)永遠(yuǎn)不知疲倦的數(shù)學(xué)老師,能夠不斷創(chuàng)造出新的、多樣化的練習(xí)題來(lái)幫助學(xué)生學(xué)習(xí)。
四、兩階段訓(xùn)練:先學(xué)看圖,再學(xué)解題
研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的兩階段訓(xùn)練策略,就像培養(yǎng)一個(gè)數(shù)學(xué)天才的完整教育計(jì)劃。這個(gè)過(guò)程可以比作培養(yǎng)一個(gè)優(yōu)秀的數(shù)學(xué)老師:首先要讓他學(xué)會(huì)精確地"讀圖",然后再教他如何解決數(shù)學(xué)問(wèn)題。
第一階段是"圖形理解專(zhuān)業(yè)訓(xùn)練"。在這個(gè)階段,AI模型專(zhuān)門(mén)學(xué)習(xí)如何將數(shù)學(xué)圖形轉(zhuǎn)換成精確的代碼描述。這就像是訓(xùn)練一個(gè)素描藝術(shù)家,要求他看到任何物體都能立即畫(huà)出精確的技術(shù)圖紙。研究團(tuán)隊(duì)使用860萬(wàn)個(gè)圖形-代碼配對(duì)來(lái)訓(xùn)練模型,讓它反復(fù)練習(xí)這種"看圖寫(xiě)代碼"的技能。在這個(gè)階段,模型的語(yǔ)言理解能力被"凍結(jié)",專(zhuān)注于提升視覺(jué)理解能力,避免在學(xué)習(xí)新技能時(shí)忘記已有的語(yǔ)言能力。
第二階段是"數(shù)學(xué)問(wèn)題解決訓(xùn)練"。在掌握了精確的圖形理解能力后,AI開(kāi)始學(xué)習(xí)如何解決實(shí)際的數(shù)學(xué)問(wèn)題。這個(gè)階段使用了包含300萬(wàn)個(gè)問(wèn)題的MM-MathInstruct-3M數(shù)據(jù)集,每個(gè)問(wèn)題都包含一個(gè)圖形、一個(gè)問(wèn)題描述和詳細(xì)的解答步驟。這就像是一個(gè)已經(jīng)學(xué)會(huì)精確讀圖的學(xué)生,現(xiàn)在開(kāi)始學(xué)習(xí)如何運(yùn)用這種讀圖能力來(lái)解決實(shí)際的幾何題。
這種分階段的訓(xùn)練策略確保了AI既能準(zhǔn)確理解圖形中的每一個(gè)細(xì)節(jié),又能運(yùn)用這些信息進(jìn)行復(fù)雜的數(shù)學(xué)推理。最終誕生的MathCoder-VL模型就像是一個(gè)既有敏銳觀察力又有強(qiáng)大邏輯思維的數(shù)學(xué)專(zhuān)家。
五、令人驚嘆的實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)在多個(gè)國(guó)際標(biāo)準(zhǔn)測(cè)試上驗(yàn)證了MathCoder-VL的能力,結(jié)果令人印象深刻。在幾何問(wèn)題解決方面,MathCoder-VL不僅超越了所有同類(lèi)開(kāi)源模型,甚至在某些測(cè)試中超過(guò)了GPT-4o和Claude 3.5 Sonnet這樣的頂級(jí)商業(yè)AI模型。
具體來(lái)說(shuō),在MathVista數(shù)據(jù)集的幾何問(wèn)題解決測(cè)試中,MathCoder-VL達(dá)到了73.6%的準(zhǔn)確率,比GPT-4o高出8.9個(gè)百分點(diǎn),比Claude 3.5 Sonnet高出9.2個(gè)百分點(diǎn)。這就好比一個(gè)學(xué)生在數(shù)學(xué)競(jìng)賽中不僅擊敗了所有同班同學(xué),還超越了來(lái)自名校的選手。
更令人驚訝的是,MathCoder-VL在復(fù)雜的多步驟問(wèn)題上表現(xiàn)尤其出色。在需要兩步或三步推理的復(fù)雜幾何題上,它的表現(xiàn)甚至超過(guò)了參數(shù)量比它大十倍的模型。這說(shuō)明精確的圖形理解能力比單純?cè)黾幽P鸵?guī)模更加重要,就像一個(gè)掌握了正確方法的學(xué)生能夠比死記硬背的學(xué)生解決更復(fù)雜的問(wèn)題。
研究團(tuán)隊(duì)還發(fā)現(xiàn),傳統(tǒng)的圖像描述方法在數(shù)學(xué)圖形理解上確實(shí)存在嚴(yán)重局限。當(dāng)他們移除圖形到代碼的轉(zhuǎn)換步驟,直接使用傳統(tǒng)的圖像描述方法時(shí),模型的性能顯著下降。這證實(shí)了他們的核心假設(shè):代碼確實(shí)是連接視覺(jué)和數(shù)學(xué)推理的最佳橋梁。
特別值得注意的是,MathCoder-VL在平面幾何問(wèn)題上的表現(xiàn)格外突出。在涉及角度、面積和長(zhǎng)度計(jì)算的三個(gè)幾何子類(lèi)別中,它都取得了最高分,平均得分達(dá)到37.6%,比GPT-4o高出11.9個(gè)百分點(diǎn)。這種在幾何領(lǐng)域的優(yōu)勢(shì)正好驗(yàn)證了研究團(tuán)隊(duì)的方法特別適合處理需要精確空間理解的數(shù)學(xué)問(wèn)題。
六、技術(shù)創(chuàng)新的深層價(jià)值
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了單純的技術(shù)突破。從根本上說(shuō),它解決了人工智能領(lǐng)域一個(gè)長(zhǎng)期存在的難題:如何讓機(jī)器真正"理解"視覺(jué)信息中的精確含義,而不是僅僅識(shí)別表面特征。
傳統(tǒng)的AI圖像理解就像是讓機(jī)器學(xué)會(huì)用自然語(yǔ)言描述所看到的內(nèi)容,這種方法雖然對(duì)日常場(chǎng)景很有效,但在需要精確測(cè)量和計(jì)算的數(shù)學(xué)環(huán)境中就顯得力不從心。MathCoder-VL的創(chuàng)新在于找到了一種更直接、更精確的表示方法:用代碼作為視覺(jué)和邏輯推理之間的橋梁。
這種方法的另一個(gè)重要價(jià)值在于數(shù)據(jù)的可驗(yàn)證性。當(dāng)AI生成一段繪圖代碼時(shí),我們可以立即運(yùn)行這段代碼來(lái)檢驗(yàn)它是否正確。如果生成的圖形與原始圖形匹配,我們就知道AI確實(shí)正確理解了原圖;如果不匹配,我們可以立即發(fā)現(xiàn)錯(cuò)誤。這種即時(shí)驗(yàn)證能力在傳統(tǒng)的自然語(yǔ)言描述中是不可能實(shí)現(xiàn)的。
更進(jìn)一步說(shuō),這項(xiàng)研究為AI教育應(yīng)用開(kāi)辟了新的可能性。能夠自動(dòng)生成多樣化數(shù)學(xué)圖形的能力意味著可以為每個(gè)學(xué)生創(chuàng)造個(gè)性化的練習(xí)題庫(kù)。每個(gè)學(xué)生都可以得到適合自己學(xué)習(xí)進(jìn)度和薄弱環(huán)節(jié)的專(zhuān)門(mén)練習(xí),而且題目永遠(yuǎn)不會(huì)重復(fù)。
研究團(tuán)隊(duì)還開(kāi)源了他們的模型和數(shù)據(jù)集,這意味著全世界的研究者和教育工作者都可以基于這項(xiàng)工作進(jìn)一步發(fā)展。這種開(kāi)放精神確保了這項(xiàng)技術(shù)能夠快速傳播并產(chǎn)生更廣泛的社會(huì)影響。
七、當(dāng)前局限與未來(lái)展望
盡管取得了顯著成功,研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前方法的一些局限性。目前的系統(tǒng)主要專(zhuān)注于數(shù)學(xué)領(lǐng)域,還沒(méi)有擴(kuò)展到物理、化學(xué)等其他需要圖形理解的STEM學(xué)科。此外,數(shù)據(jù)集目前只包含英文內(nèi)容,對(duì)于其他語(yǔ)言的支持還有待加強(qiáng)。
由于計(jì)算資源的限制,研究團(tuán)隊(duì)目前只訓(xùn)練了2B和8B參數(shù)規(guī)模的模型。雖然這些模型已經(jīng)取得了優(yōu)異的性能,但研究團(tuán)隊(duì)相信,更大規(guī)模的模型可能會(huì)帶來(lái)進(jìn)一步的性能提升。
另一個(gè)值得探索的方向是將強(qiáng)化學(xué)習(xí)等更高級(jí)的訓(xùn)練方法引入到這個(gè)框架中。目前的訓(xùn)練主要基于監(jiān)督學(xué)習(xí),如果能夠讓AI通過(guò)嘗試和錯(cuò)誤來(lái)優(yōu)化自己的圖形理解和問(wèn)題解決能力,可能會(huì)取得更好的效果。
研究團(tuán)隊(duì)也在考慮將這種方法擴(kuò)展到三維圖形和動(dòng)態(tài)圖形的理解上。雖然目前的系統(tǒng)主要處理二維靜態(tài)圖形,但同樣的原理可能適用于更復(fù)雜的視覺(jué)內(nèi)容。
展望未來(lái),這項(xiàng)技術(shù)可能會(huì)改變數(shù)學(xué)教育的面貌。學(xué)生可能會(huì)有AI助教幫助他們理解復(fù)雜的幾何概念,教師可能會(huì)有AI工具幫助他們創(chuàng)造更有效的教學(xué)材料。更遠(yuǎn)期來(lái)看,這種精確的視覺(jué)理解能力可能會(huì)在機(jī)器人、自動(dòng)駕駛、醫(yī)學(xué)診斷等需要精確空間理解的領(lǐng)域發(fā)揮重要作用。
八、對(duì)普通人意味著什么
說(shuō)到底,這項(xiàng)研究最激動(dòng)人心的地方不在于技術(shù)本身有多么復(fù)雜,而在于它為普通人,特別是學(xué)生和教育工作者,帶來(lái)的實(shí)際好處。
對(duì)于正在學(xué)習(xí)數(shù)學(xué)的學(xué)生來(lái)說(shuō),這意味著他們將有機(jī)會(huì)接觸到更加個(gè)性化和多樣化的學(xué)習(xí)材料。不再需要翻遍教科書(shū)尋找類(lèi)似的練習(xí)題,AI可以根據(jù)學(xué)生的具體需求生成無(wú)窮無(wú)盡的練習(xí)機(jī)會(huì)。更重要的是,這些AI助手能夠像有經(jīng)驗(yàn)的老師一樣,精確地理解學(xué)生畫(huà)出的圖形或者教材中的復(fù)雜圖表,提供即時(shí)而準(zhǔn)確的幫助。
對(duì)于教師和教育工作者來(lái)說(shuō),這項(xiàng)技術(shù)就像是一個(gè)永遠(yuǎn)不知疲倦的助手。他們可以快速生成適合不同難度級(jí)別的教學(xué)材料,可以為每個(gè)學(xué)生定制專(zhuān)門(mén)的練習(xí)題,還可以用這個(gè)工具來(lái)驗(yàn)證學(xué)生作業(yè)中的圖形是否正確。這不僅能提高教學(xué)效率,還能讓教師有更多時(shí)間專(zhuān)注于啟發(fā)學(xué)生思考和創(chuàng)新。
從更廣闊的角度來(lái)看,這項(xiàng)研究代表了人工智能發(fā)展的一個(gè)重要趨勢(shì):從簡(jiǎn)單的模式識(shí)別向真正的理解轉(zhuǎn)變。當(dāng)AI能夠像數(shù)學(xué)家一樣精確地"看懂"幾何圖形時(shí),我們離創(chuàng)造出真正智能的機(jī)器又近了一步。
這種精確的視覺(jué)理解能力未來(lái)還可能應(yīng)用到建筑設(shè)計(jì)、工程制圖、醫(yī)學(xué)影像分析等眾多領(lǐng)域。建筑師可能會(huì)有AI助手幫助檢查設(shè)計(jì)圖紙的準(zhǔn)確性,醫(yī)生可能會(huì)有AI工具幫助分析復(fù)雜的醫(yī)學(xué)影像,工程師可能會(huì)有AI伙伴協(xié)助進(jìn)行精密的技術(shù)繪圖。
歸根結(jié)底,這項(xiàng)研究告訴我們,人工智能正在學(xué)會(huì)以一種全新的方式"看世界"——不是簡(jiǎn)單地識(shí)別表面現(xiàn)象,而是深入理解事物的本質(zhì)結(jié)構(gòu)。這種能力的發(fā)展將為人類(lèi)在科學(xué)、教育、工程等眾多領(lǐng)域的探索提供強(qiáng)有力的工具支持。
有興趣深入了解這項(xiàng)突破性研究的讀者,可以通過(guò)論文的GitHub頁(yè)面https://github.com/mathllm/MathCoder獲取完整的技術(shù)細(xì)節(jié)和開(kāi)源代碼,親自體驗(yàn)這種讓AI"看懂"數(shù)學(xué)圖形的神奇能力。
Q&A
Q1:MathCoder-VL到底是什么?它和普通的AI有什么不同? A:MathCoder-VL是一個(gè)專(zhuān)門(mén)為數(shù)學(xué)圖形理解設(shè)計(jì)的AI模型。與普通AI不同,它不是用自然語(yǔ)言描述圖形,而是將圖形轉(zhuǎn)換成精確的繪圖代碼,就像給AI裝上了一雙能精確"讀懂"幾何圖的眼睛,能準(zhǔn)確識(shí)別角度、長(zhǎng)度等數(shù)學(xué)細(xì)節(jié)。
Q2:這項(xiàng)技術(shù)會(huì)不會(huì)讓學(xué)生變懶,不愿意自己思考數(shù)學(xué)問(wèn)題? A:恰恰相反,這項(xiàng)技術(shù)更像是一個(gè)優(yōu)秀的數(shù)學(xué)老師助手。它能為每個(gè)學(xué)生生成個(gè)性化的練習(xí)題,提供即時(shí)的圖形理解幫助,但解決問(wèn)題的思考過(guò)程仍然需要學(xué)生自己完成。它只是讓學(xué)習(xí)過(guò)程更高效,讓學(xué)生能接觸到更多樣化的練習(xí)機(jī)會(huì)。
Q3:普通人現(xiàn)在能使用MathCoder-VL嗎?如何獲取這項(xiàng)技術(shù)? A:研究團(tuán)隊(duì)已經(jīng)在GitHub上開(kāi)源了相關(guān)代碼和模型,技術(shù)愛(ài)好者可以通過(guò)https://github.com/mathllm/MathCoder獲取。不過(guò)目前還需要一定的技術(shù)背景才能使用,相信隨著技術(shù)發(fā)展,未來(lái)會(huì)有更多用戶(hù)友好的應(yīng)用產(chǎn)品出現(xiàn)。
好文章,需要你的鼓勵(lì)
北航團(tuán)隊(duì)推出Easy Dataset框架,通過(guò)直觀的圖形界面和角色驅(qū)動(dòng)的生成方法,讓普通用戶(hù)能夠輕松將各種格式文檔轉(zhuǎn)換為高質(zhì)量的AI訓(xùn)練數(shù)據(jù)。該工具集成了智能文檔解析、混合分塊策略和個(gè)性化問(wèn)答生成功能,在金融領(lǐng)域?qū)嶒?yàn)中顯著提升了AI模型的專(zhuān)業(yè)表現(xiàn),同時(shí)保持通用能力。項(xiàng)目已開(kāi)源并獲得超過(guò)9000顆GitHub星標(biāo)。
盧森堡計(jì)算機(jī)事件響應(yīng)中心開(kāi)發(fā)的VLAI系統(tǒng),基于RoBERTa模型,能夠通過(guò)閱讀漏洞描述自動(dòng)判斷危險(xiǎn)等級(jí)。該系統(tǒng)在60萬(wàn)個(gè)真實(shí)漏洞數(shù)據(jù)上訓(xùn)練,準(zhǔn)確率達(dá)82.8%,已集成到實(shí)際安全服務(wù)中。研究采用開(kāi)源方式,為網(wǎng)絡(luò)安全專(zhuān)家提供快速漏洞風(fēng)險(xiǎn)評(píng)估工具,有效解決了官方評(píng)分發(fā)布前的安全決策難題。
中國(guó)電信研究院等機(jī)構(gòu)聯(lián)合開(kāi)發(fā)的xVerify系統(tǒng),專(zhuān)門(mén)解決復(fù)雜AI推理模型的評(píng)估難題。該系統(tǒng)能夠準(zhǔn)確判斷包含多步推理過(guò)程的AI輸出,在準(zhǔn)確率和效率方面均超越現(xiàn)有方法,為AI評(píng)估領(lǐng)域提供了重要突破。
昆侖公司Skywork AI團(tuán)隊(duì)開(kāi)發(fā)的Skywork R1V模型,成功將文本推理能力擴(kuò)展到視覺(jué)領(lǐng)域。該模型僅用380億參數(shù)就實(shí)現(xiàn)了與大型閉源模型相媲美的多模態(tài)推理性能,在MMMU測(cè)試中達(dá)到69.0分,在MathVista獲得67.5分,同時(shí)保持了優(yōu)秀的文本推理能力。研究團(tuán)隊(duì)采用高效的多模態(tài)遷移、混合優(yōu)化框架和自適應(yīng)推理鏈蒸餾三項(xiàng)核心技術(shù),成功實(shí)現(xiàn)了視覺(jué)理解與邏輯推理的完美結(jié)合,并將所有代碼和權(quán)重完全開(kāi)源。