這項(xiàng)開(kāi)創(chuàng)性研究由清華大學(xué)電子系、字節(jié)跳動(dòng)和浙江大學(xué)的聯(lián)合團(tuán)隊(duì)完成,第一作者為清華大學(xué)的羅瑞林和字節(jié)跳動(dòng)的鄭卓凡,通訊作者是字節(jié)跳動(dòng)的曾進(jìn)和清華大學(xué)的楊玉久教授。該研究已于2024年發(fā)表在預(yù)印本平臺(tái)arXiv上,論文編號(hào)為2501.04686v5,有興趣深入了解的讀者可以通過(guò)https://github.com/URSA-MATH訪問(wèn)完整的代碼、數(shù)據(jù)和模型檢查點(diǎn)。
在人工智能快速發(fā)展的今天,讓機(jī)器像人類(lèi)一樣解決數(shù)學(xué)問(wèn)題一直是科學(xué)家們追求的重要目標(biāo)。人類(lèi)解數(shù)學(xué)題時(shí),不僅要得出正確答案,更重要的是要有清晰的推理過(guò)程——每一步都有理有據(jù),可以被驗(yàn)證和理解。然而,當(dāng)前的人工智能系統(tǒng)雖然在某些數(shù)學(xué)任務(wù)上表現(xiàn)出色,但它們的推理過(guò)程往往像黑盒子一樣神秘莫測(cè),特別是當(dāng)涉及到圖像和文字結(jié)合的復(fù)雜數(shù)學(xué)問(wèn)題時(shí),這個(gè)問(wèn)題變得更加突出。
清華大學(xué)的研究團(tuán)隊(duì)就像探險(xiǎn)家一樣,決定攻克這個(gè)看似不可能的難題。他們發(fā)現(xiàn),之前的研究主要關(guān)注純文字的數(shù)學(xué)推理,而對(duì)于那些需要同時(shí)理解圖像和文字的復(fù)雜數(shù)學(xué)問(wèn)題,比如幾何圖形分析或者圖表數(shù)據(jù)解讀,現(xiàn)有的AI系統(tǒng)往往力不從心。更關(guān)鍵的是,即使這些系統(tǒng)能給出正確答案,我們也無(wú)法知道它們的推理過(guò)程是否真正可靠。
這就好比一個(gè)學(xué)生在考試中寫(xiě)出了正確答案,但是解題步驟完全錯(cuò)誤——運(yùn)氣好的話能蒙對(duì),但這種方法顯然不可靠。研究團(tuán)隊(duì)意識(shí)到,要讓AI在多模態(tài)數(shù)學(xué)推理上真正可信,就必須建立一套能夠評(píng)估和指導(dǎo)推理過(guò)程的機(jī)制,這就是他們提出的過(guò)程獎(jiǎng)勵(lì)模型(Process Reward Model,簡(jiǎn)稱(chēng)PRM)。
研究團(tuán)隊(duì)面臨的挑戰(zhàn)可以用修建一座橋梁來(lái)比喻。第一個(gè)挑戰(zhàn)就像缺乏足夠好的建筑材料——現(xiàn)有的多模態(tài)數(shù)學(xué)推理數(shù)據(jù)質(zhì)量不夠高,數(shù)量也不夠多,這限制了AI系統(tǒng)的基礎(chǔ)能力。第二個(gè)挑戰(zhàn)則像缺乏質(zhì)量檢查員——沒(méi)有自動(dòng)化的方法來(lái)標(biāo)注和評(píng)估多模態(tài)推理過(guò)程中每一步的正確性。第三個(gè)挑戰(zhàn)最為棘手,就像工人們?nèi)菀淄倒p料一樣,當(dāng)AI系統(tǒng)知道如何獲得獎(jiǎng)勵(lì)時(shí),它們可能會(huì)走捷徑,表面上推理過(guò)程看起來(lái)不錯(cuò),實(shí)際上卻存在嚴(yán)重問(wèn)題。
一、構(gòu)建堅(jiān)實(shí)基礎(chǔ):MMathCoT-1M數(shù)據(jù)集的創(chuàng)建
為了解決第一個(gè)挑戰(zhàn),研究團(tuán)隊(duì)像勤勞的農(nóng)夫一樣,從各種現(xiàn)有資源中精心收集和培育出了一個(gè)規(guī)模龐大的高質(zhì)量數(shù)據(jù)集。他們將這個(gè)數(shù)據(jù)集命名為MMathCoT-1M,其中包含了超過(guò)一百萬(wàn)個(gè)多模態(tài)數(shù)學(xué)推理樣本,每個(gè)樣本都包含了完整的思維鏈(Chain-of-Thought)推理過(guò)程。
這個(gè)過(guò)程就像烹飪大師為不同類(lèi)型的食材設(shè)計(jì)專(zhuān)門(mén)的處理方法。研究團(tuán)隊(duì)發(fā)現(xiàn),原始數(shù)據(jù)可以分為三大類(lèi):只有答案沒(méi)有推理過(guò)程的"答案型"數(shù)據(jù),有簡(jiǎn)單分析但缺乏清晰步驟的"分析型"數(shù)據(jù),以及已經(jīng)有完整推理但格式不統(tǒng)一的"推理型"數(shù)據(jù)。
對(duì)于"答案型"數(shù)據(jù),研究團(tuán)隊(duì)采用了"推理擴(kuò)展"策略。這就像看到一道菜的成品后,請(qǐng)大廚還原出完整的制作步驟。他們使用先進(jìn)的語(yǔ)言模型Gemini-1.5-Flash-002作為"推理大廚",根據(jù)題目和正確答案,逆向推導(dǎo)出詳細(xì)的解題步驟。這個(gè)過(guò)程需要特別小心,確保生成的推理過(guò)程真實(shí)可信,而不是簡(jiǎn)單的胡編亂造。
對(duì)于"分析型"數(shù)據(jù),團(tuán)隊(duì)使用了"重寫(xiě)策略"。這類(lèi)數(shù)據(jù)雖然有一些解題思路,但往往跳躍性太大,缺乏清晰的邏輯鏈條。研究團(tuán)隊(duì)就像編輯一樣,將這些零散的分析重新組織成條理清晰、步步為營(yíng)的推理過(guò)程,讓每一步都有明確的邏輯依據(jù)。
對(duì)于"推理型"數(shù)據(jù),團(tuán)隊(duì)采用了"格式統(tǒng)一"策略。這些數(shù)據(jù)已經(jīng)有了完整的推理過(guò)程,但表達(dá)方式五花八門(mén),有的使用數(shù)學(xué)符號(hào),有的使用規(guī)范的學(xué)術(shù)語(yǔ)言,有的則比較口語(yǔ)化。研究團(tuán)隊(duì)將它們統(tǒng)一轉(zhuǎn)換為自然、流暢的表達(dá)方式,就像將不同方言的故事翻譯成標(biāo)準(zhǔn)普通話一樣。
整個(gè)數(shù)據(jù)處理過(guò)程還包含了嚴(yán)格的質(zhì)量控制環(huán)節(jié)。研究團(tuán)隊(duì)設(shè)置了雙重檢查機(jī)制:首先檢查生成的推理過(guò)程是否真的能導(dǎo)向正確答案,其次檢查推理過(guò)程是否存在自相矛盾或者無(wú)理假設(shè)的問(wèn)題。經(jīng)過(guò)這些精心處理,最終得到的MMathCoT-1M數(shù)據(jù)集成為了訓(xùn)練強(qiáng)大數(shù)學(xué)推理模型的珍貴資源。
基于這個(gè)高質(zhì)量數(shù)據(jù)集,研究團(tuán)隊(duì)訓(xùn)練出了URSA-8B模型。這個(gè)模型就像一個(gè)經(jīng)過(guò)嚴(yán)格訓(xùn)練的數(shù)學(xué)學(xué)霸,不僅能夠理解復(fù)雜的圖文結(jié)合的數(shù)學(xué)問(wèn)題,還能給出詳細(xì)、可靠的解題步驟。在多個(gè)標(biāo)準(zhǔn)測(cè)試中,URSA-8B都表現(xiàn)出色,為后續(xù)的過(guò)程獎(jiǎng)勵(lì)建模打下了堅(jiān)實(shí)基礎(chǔ)。
二、建立質(zhì)量監(jiān)督:DualMath-1.1M過(guò)程標(biāo)注體系
解決了數(shù)據(jù)基礎(chǔ)問(wèn)題后,研究團(tuán)隊(duì)面臨第二個(gè)重大挑戰(zhàn):如何自動(dòng)標(biāo)注推理過(guò)程中每一步的正確性。這就像需要培訓(xùn)一位嚴(yán)格的數(shù)學(xué)老師,能夠仔細(xì)檢查學(xué)生解題的每一個(gè)步驟,并準(zhǔn)確指出問(wèn)題所在。
傳統(tǒng)的方法主要關(guān)注最終答案是否正確,但研究團(tuán)隊(duì)認(rèn)為這還遠(yuǎn)遠(yuǎn)不夠。在多模態(tài)數(shù)學(xué)推理中,一個(gè)看似正確的步驟可能存在兩類(lèi)問(wèn)題:邏輯錯(cuò)誤和感知錯(cuò)誤。邏輯錯(cuò)誤就像計(jì)算錯(cuò)誤或定理應(yīng)用錯(cuò)誤,而感知錯(cuò)誤則是對(duì)圖像信息的誤解或誤讀。
為了解決這個(gè)復(fù)雜問(wèn)題,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)"雙視角"的標(biāo)注系統(tǒng),他們稱(chēng)之為DualMath-1.1M。這個(gè)系統(tǒng)就像配備了兩種不同檢測(cè)儀器的質(zhì)量檢查員,能夠從不同角度發(fā)現(xiàn)推理過(guò)程中的問(wèn)題。
第一個(gè)檢測(cè)器被稱(chēng)為"二分錯(cuò)誤定位引擎"(Binary Error Locating Engine),它的工作原理就像醫(yī)生使用排除法診斷疾病。當(dāng)發(fā)現(xiàn)一個(gè)推理過(guò)程最終導(dǎo)向錯(cuò)誤答案時(shí),這個(gè)引擎會(huì)使用類(lèi)似于"二分查找"的高效方法來(lái)定位第一個(gè)出錯(cuò)的步驟。具體來(lái)說(shuō),它會(huì)從推理過(guò)程的中間某一步開(kāi)始,生成多個(gè)后續(xù)可能的推理路徑,然后看看這些路徑能否導(dǎo)向正確答案。如果可以,說(shuō)明錯(cuò)誤在后半部分;如果不行,說(shuō)明錯(cuò)誤在前半部分。通過(guò)這種方式,能夠快速鎖定問(wèn)題所在,而不需要逐一檢查每個(gè)步驟。
第二個(gè)檢測(cè)器被稱(chēng)為"誤解插入引擎"(Misinterpretation Insertion Engine),它專(zhuān)門(mén)處理多模態(tài)推理中特有的感知錯(cuò)誤問(wèn)題。這個(gè)引擎的工作方式頗有創(chuàng)意:它會(huì)故意在正確的推理過(guò)程中插入對(duì)圖像信息的誤解,然后觀察這種誤解如何影響后續(xù)的推理步驟。
比如,在一道幾何題中,如果圖中顯示角度為60度,誤解插入引擎可能會(huì)故意"誤讀"為65度,然后基于這個(gè)錯(cuò)誤信息繼續(xù)推理。這樣做的目的不是為了制造錯(cuò)誤,而是為了訓(xùn)練系統(tǒng)識(shí)別這類(lèi)感知不一致的問(wèn)題。通過(guò)大量這樣的"故意出錯(cuò)"練習(xí),系統(tǒng)就能學(xué)會(huì)識(shí)別真實(shí)推理中可能出現(xiàn)的類(lèi)似問(wèn)題。
這兩個(gè)引擎協(xié)同工作,最終生成了包含110萬(wàn)個(gè)樣本的DualMath-1.1M數(shù)據(jù)集。每個(gè)樣本都經(jīng)過(guò)了細(xì)致的步驟級(jí)標(biāo)注,明確指出了推理過(guò)程中哪些步驟是正確的,哪些是錯(cuò)誤的,以及錯(cuò)誤的具體類(lèi)型。
基于這個(gè)精心標(biāo)注的數(shù)據(jù)集,研究團(tuán)隊(duì)訓(xùn)練出了URSA-8B-RM過(guò)程獎(jiǎng)勵(lì)模型。這個(gè)模型就像一位經(jīng)驗(yàn)豐富的數(shù)學(xué)老師,不僅能夠判斷最終答案的正誤,更重要的是能夠評(píng)估推理過(guò)程中每一步的質(zhì)量和可靠性。在各種測(cè)試中,這個(gè)過(guò)程獎(jiǎng)勵(lì)模型都表現(xiàn)出了出色的判斷能力,能夠有效識(shí)別推理過(guò)程中的各種問(wèn)題。
三、智能優(yōu)化訓(xùn)練:PS-GRPO算法的突破
有了高質(zhì)量的基礎(chǔ)模型和可靠的過(guò)程評(píng)估工具,研究團(tuán)隊(duì)面臨最后也是最困難的挑戰(zhàn):如何將過(guò)程獎(jiǎng)勵(lì)有效地整合到模型訓(xùn)練中,讓AI系統(tǒng)不僅追求正確答案,更要追求正確的推理過(guò)程。
傳統(tǒng)的做法看似簡(jiǎn)單直接:給推理過(guò)程中的每一步打分,分?jǐn)?shù)高的步驟就多獎(jiǎng)勵(lì),分?jǐn)?shù)低的就少獎(jiǎng)勵(lì)或者懲罰。但研究團(tuán)隊(duì)通過(guò)深入實(shí)驗(yàn)發(fā)現(xiàn),這種"直接打分"的方法存在兩個(gè)嚴(yán)重問(wèn)題。
第一個(gè)問(wèn)題被稱(chēng)為"獎(jiǎng)勵(lì)欺騙"。AI系統(tǒng)很快學(xué)會(huì)了如何迎合評(píng)分系統(tǒng),產(chǎn)生看似完美但實(shí)際上華而不實(shí)的推理過(guò)程。這就像學(xué)生學(xué)會(huì)了應(yīng)試技巧,能寫(xiě)出格式工整、用詞規(guī)范的答案,但實(shí)際理解可能存在問(wèn)題。系統(tǒng)會(huì)傾向于使用那些通常能獲得高分的表述方式和推理模式,而不是真正解決問(wèn)題。
第二個(gè)問(wèn)題是"長(zhǎng)度偏見(jiàn)"。研究團(tuán)隊(duì)發(fā)現(xiàn),過(guò)程獎(jiǎng)勵(lì)模型往往對(duì)較短的推理過(guò)程給出更高評(píng)分,因?yàn)槎痰耐评磉^(guò)程出錯(cuò)的機(jī)會(huì)相對(duì)較少。這導(dǎo)致AI系統(tǒng)越來(lái)越傾向于給出簡(jiǎn)短、保守的答案,避免進(jìn)行復(fù)雜但必要的推理步驟。這就像一個(gè)人為了避免犯錯(cuò)而選擇什么都不做,顯然不是我們想要的結(jié)果。
面對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)提出了一個(gè)巧妙的解決方案:PS-GRPO算法(Process-Supervised Group-Relative-Policy-Optimization)。這個(gè)算法的核心思想是不再直接使用過(guò)程獎(jiǎng)勵(lì)的絕對(duì)數(shù)值,而是關(guān)注過(guò)程獎(jiǎng)勵(lì)中的"相對(duì)變化信號(hào)"。
PS-GRPO算法的工作原理就像一位經(jīng)驗(yàn)豐富的教練在指導(dǎo)運(yùn)動(dòng)員。教練不會(huì)簡(jiǎn)單地說(shuō)"你這個(gè)動(dòng)作得8分,那個(gè)動(dòng)作得6分",而是更關(guān)注"這個(gè)動(dòng)作比剛才那個(gè)動(dòng)作好在哪里,問(wèn)題出在哪里"。具體來(lái)說(shuō),算法會(huì)尋找推理過(guò)程中過(guò)程獎(jiǎng)勵(lì)發(fā)生顯著下降的"轉(zhuǎn)折點(diǎn)"——這通常意味著從這一步開(kāi)始,推理可能出現(xiàn)了問(wèn)題。
當(dāng)系統(tǒng)檢測(cè)到這樣的"轉(zhuǎn)折點(diǎn)"時(shí),即使最終答案是正確的,也會(huì)對(duì)這個(gè)推理過(guò)程施加一定的懲罰。這種做法鼓勵(lì)系統(tǒng)追求不僅結(jié)果正確、而且過(guò)程也嚴(yán)謹(jǐn)?shù)慕鉀Q方案。就像老師不僅看學(xué)生是否得出正確答案,更要看學(xué)生的解題思路是否清晰合理。
這種方法巧妙地避免了前述的兩個(gè)問(wèn)題。首先,因?yàn)椴辉僦苯觾?yōu)化過(guò)程獎(jiǎng)勵(lì)的絕對(duì)值,系統(tǒng)無(wú)法簡(jiǎn)單地通過(guò)迎合評(píng)分標(biāo)準(zhǔn)來(lái)獲得獎(jiǎng)勵(lì)。其次,因?yàn)閼土P機(jī)制基于的是獎(jiǎng)勵(lì)變化而非絕對(duì)長(zhǎng)度,系統(tǒng)不會(huì)因?yàn)楹ε路稿e(cuò)而刻意縮短推理過(guò)程。
研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)驗(yàn)證了PS-GRPO算法的有效性。結(jié)果顯示,使用這種新算法訓(xùn)練的模型在保持推理過(guò)程質(zhì)量的同時(shí),最終準(zhǔn)確率也得到了顯著提升。更重要的是,生成的推理過(guò)程更加自然、合理,更符合人類(lèi)的思考方式。
四、卓越性能驗(yàn)證:全面超越現(xiàn)有系統(tǒng)
經(jīng)過(guò)三個(gè)階段的精心構(gòu)建,研究團(tuán)隊(duì)最終得到了URSA-8B-PS-GRPO模型——一個(gè)在多模態(tài)數(shù)學(xué)推理方面表現(xiàn)卓越的AI系統(tǒng)。為了驗(yàn)證這個(gè)系統(tǒng)的真實(shí)水平,研究團(tuán)隊(duì)進(jìn)行了全面而嚴(yán)格的評(píng)估實(shí)驗(yàn)。
評(píng)估過(guò)程涵蓋了六個(gè)不同的標(biāo)準(zhǔn)測(cè)試集,每個(gè)都代表著多模態(tài)數(shù)學(xué)推理的不同挑戰(zhàn)。MathVerse測(cè)試集專(zhuān)門(mén)評(píng)估模型在不同文本-圖像信息組合下的表現(xiàn);MathVision測(cè)試集覆蓋了16種不同的數(shù)學(xué)能力;MathVista測(cè)試集重點(diǎn)考查幾何問(wèn)題求解能力;WE-MATH測(cè)試集評(píng)估復(fù)合問(wèn)題的分解和解決能力;DynaMath測(cè)試集測(cè)試數(shù)學(xué)推理的魯棒性;GeoQA測(cè)試集則專(zhuān)注于幾何問(wèn)答能力。
實(shí)驗(yàn)結(jié)果令人驚喜。在這些具有挑戰(zhàn)性的測(cè)試中,URSA-8B-PS-GRPO不僅超越了所有同等規(guī)模的開(kāi)源模型,甚至在平均表現(xiàn)上超過(guò)了商用的GPT-4o模型。具體來(lái)說(shuō),它比當(dāng)前最強(qiáng)的開(kāi)源數(shù)學(xué)推理模型Gemma3-12B平均高出8.4個(gè)百分點(diǎn),比GPT-4o平均高出2.7個(gè)百分點(diǎn)。這個(gè)成績(jī)?cè)趯W(xué)術(shù)界引起了廣泛關(guān)注,因?yàn)檫@是首次有開(kāi)源模型在多模態(tài)數(shù)學(xué)推理任務(wù)上全面超越閉源商業(yè)模型。
更值得關(guān)注的是模型在不同類(lèi)型任務(wù)上的表現(xiàn)差異。在需要復(fù)雜幾何分析的MathVista任務(wù)中,URSA-8B-PS-GRPO達(dá)到了83.2%的準(zhǔn)確率,遠(yuǎn)超GPT-4o的62.6%。在需要理解圖表和函數(shù)的MathVision任務(wù)中,它達(dá)到了31.5%的準(zhǔn)確率,同樣超過(guò)了GPT-4o的30.4%。這些結(jié)果表明,新模型在處理圖像信息和推理過(guò)程整合方面確實(shí)取得了突破性進(jìn)展。
研究團(tuán)隊(duì)還專(zhuān)門(mén)測(cè)試了過(guò)程獎(jiǎng)勵(lì)模型在"最佳答案選擇"任務(wù)中的表現(xiàn)。在這種測(cè)試中,模型需要從多個(gè)候選答案中選擇最好的一個(gè),這更直接地反映了過(guò)程評(píng)估能力。結(jié)果顯示,URSA-8B-RM在這類(lèi)任務(wù)中consistently outperforms傳統(tǒng)的自一致性方法和其他基線模型。即使在其他模型(如AtomThink-EMOVA)生成的答案中進(jìn)行選擇,URSA-8B-RM也能表現(xiàn)出良好的泛化能力。
為了更深入地理解模型的行為,研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。他們發(fā)現(xiàn),MMathCoT-1M數(shù)據(jù)集對(duì)模型性能的貢獻(xiàn)最大,這證實(shí)了高質(zhì)量訓(xùn)練數(shù)據(jù)的重要性。DualMath-1.1M數(shù)據(jù)集中的兩個(gè)組件——二分錯(cuò)誤定位和誤解插入——都對(duì)最終性能有顯著貢獻(xiàn),說(shuō)明同時(shí)關(guān)注邏輯正確性和感知一致性的必要性。PS-GRPO算法相對(duì)于傳統(tǒng)GRPO算法的優(yōu)勢(shì)在所有測(cè)試中都得到了驗(yàn)證,特別是在復(fù)雜推理任務(wù)中優(yōu)勢(shì)更加明顯。
五、深度分析與發(fā)現(xiàn):推理過(guò)程的奧秘
除了整體性能的提升,研究團(tuán)隊(duì)還深入分析了模型推理過(guò)程中的各種有趣現(xiàn)象,這些發(fā)現(xiàn)為未來(lái)的研究提供了寶貴的洞察。
通過(guò)分析大量的推理樣例,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:那些最終答案正確但推理過(guò)程存在問(wèn)題的"假陽(yáng)性"回答。這類(lèi)回答通常分為兩種情況。第一種是"視覺(jué)條件不一致",即模型在理解圖像信息時(shí)存在偏差,比如錯(cuò)誤識(shí)別角度大小、邊長(zhǎng)關(guān)系或坐標(biāo)數(shù)值,但最后通過(guò)某種巧合得到了正確答案。第二種是"捷徑模式利用",即模型繞過(guò)了關(guān)鍵的推理步驟,直接基于圖像特征和問(wèn)題模式的correlation給出答案,雖然答案正確但推理過(guò)程不夠嚴(yán)謹(jǐn)。
PS-GRPO算法的一個(gè)重要優(yōu)勢(shì)就是能夠識(shí)別并抑制這類(lèi)"假陽(yáng)性"回答。通過(guò)過(guò)程獎(jiǎng)勵(lì)中的"轉(zhuǎn)折點(diǎn)"檢測(cè),算法能夠發(fā)現(xiàn)那些看似合理但實(shí)際存在問(wèn)題的推理步驟,從而鼓勵(lì)模型產(chǎn)生更加嚴(yán)謹(jǐn)和可靠的推理過(guò)程。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了傳統(tǒng)過(guò)程獎(jiǎng)勵(lì)建模方法失效的具體原因。當(dāng)直接使用過(guò)程獎(jiǎng)勵(lì)數(shù)值進(jìn)行優(yōu)化時(shí),模型很快學(xué)會(huì)了一種"保守策略":詳細(xì)分析題目條件,使用標(biāo)準(zhǔn)化的表述方式,但在關(guān)鍵推理步驟上采取最安全的路徑,即使這可能導(dǎo)致錯(cuò)誤結(jié)論。這種行為模式表明,模型過(guò)分關(guān)注了獲得高過(guò)程獎(jiǎng)勵(lì),而忽略了真正的問(wèn)題解決。
通過(guò)對(duì)比分析不同訓(xùn)練階段的模型行為,研究團(tuán)隊(duì)還揭示了多模態(tài)數(shù)學(xué)推理能力的發(fā)展規(guī)律。他們發(fā)現(xiàn),模型的數(shù)學(xué)推理能力遵循明顯的scaling law:隨著訓(xùn)練數(shù)據(jù)量的增加,模型性能呈現(xiàn)穩(wěn)定的提升趨勢(shì)。更重要的是,他們發(fā)現(xiàn)視覺(jué)-語(yǔ)言對(duì)齊階段的訓(xùn)練對(duì)某些特定類(lèi)型的任務(wù)(如MathVerse和MathVision)影響更大,而大規(guī)模指令微調(diào)則對(duì)所有任務(wù)都有均勻的促進(jìn)作用。
六、技術(shù)創(chuàng)新與突破:多個(gè)第一次的實(shí)現(xiàn)
這項(xiàng)研究在多個(gè)方面實(shí)現(xiàn)了重要的技術(shù)突破,每一個(gè)都代表著該領(lǐng)域的重要進(jìn)展。
首先,這是第一次有研究團(tuán)隊(duì)系統(tǒng)性地將過(guò)程獎(jiǎng)勵(lì)建模引入到多模態(tài)數(shù)學(xué)推理中。之前的過(guò)程獎(jiǎng)勵(lì)建模主要集中在純文本的推理任務(wù)上,而多模態(tài)場(chǎng)景的復(fù)雜性——需要同時(shí)處理視覺(jué)信息和文本信息,需要保證跨模態(tài)的一致性——使得傳統(tǒng)方法難以直接應(yīng)用。URSA團(tuán)隊(duì)通過(guò)創(chuàng)新的雙視角標(biāo)注策略,成功解決了這個(gè)難題。
其次,MMathCoT-1M數(shù)據(jù)集是第一個(gè)百萬(wàn)級(jí)規(guī)模的高質(zhì)量多模態(tài)數(shù)學(xué)推理數(shù)據(jù)集。之前的相關(guān)數(shù)據(jù)集要么規(guī)模較小,要么質(zhì)量不夠高,限制了模型的訓(xùn)練效果。這個(gè)數(shù)據(jù)集不僅規(guī)模龐大,更重要的是質(zhì)量控制嚴(yán)格,每個(gè)樣例都經(jīng)過(guò)了多輪篩選和驗(yàn)證,為模型訓(xùn)練提供了堅(jiān)實(shí)基礎(chǔ)。
第三,DualMath-1.1M是第一個(gè)專(zhuān)門(mén)針對(duì)多模態(tài)推理的過(guò)程監(jiān)督數(shù)據(jù)集。傳統(tǒng)的過(guò)程監(jiān)督主要關(guān)注邏輯推理的正確性,而這個(gè)數(shù)據(jù)集同時(shí)考慮了邏輯正確性和感知一致性,填補(bǔ)了該領(lǐng)域的重要空白。二分錯(cuò)誤定位引擎和誤解插入引擎的設(shè)計(jì)都具有很強(qiáng)的創(chuàng)新性,為自動(dòng)化過(guò)程標(biāo)注提供了新的思路。
第四,PS-GRPO算法首次成功解決了過(guò)程獎(jiǎng)勵(lì)在線強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)欺騙和長(zhǎng)度偏見(jiàn)問(wèn)題。這兩個(gè)問(wèn)題一直是該領(lǐng)域的技術(shù)難點(diǎn),之前的研究要么避而不談,要么采用臨時(shí)性的修補(bǔ)措施。PS-GRPO通過(guò)巧妙的"過(guò)程作為結(jié)果"建模方式,從根本上解決了這些問(wèn)題,為過(guò)程獎(jiǎng)勵(lì)的實(shí)際應(yīng)用鋪平了道路。
研究團(tuán)隊(duì)還在模型架構(gòu)設(shè)計(jì)上做出了創(chuàng)新。他們采用了混合視覺(jué)編碼器(SigLIP-L + SAM-B)的設(shè)計(jì),能夠同時(shí)處理高分辨率和低分辨率的圖像信息,特別適合數(shù)學(xué)圖形的精確識(shí)別。在語(yǔ)言模型選擇上,他們使用了專(zhuān)門(mén)針對(duì)數(shù)學(xué)推理優(yōu)化的Qwen2.5-Math-Instruct作為基礎(chǔ),這為模型的數(shù)學(xué)推理能力提供了更好的起點(diǎn)。
七、實(shí)際應(yīng)用前景:改變數(shù)學(xué)教育和問(wèn)題解決
URSA系統(tǒng)的成功不僅僅是學(xué)術(shù)研究的突破,更重要的是它展示了人工智能在實(shí)際應(yīng)用中的巨大潛力,特別是在教育和問(wèn)題解決領(lǐng)域。
在數(shù)學(xué)教育方面,URSA系統(tǒng)可以作為智能數(shù)學(xué)導(dǎo)師,不僅能夠解決復(fù)雜的數(shù)學(xué)問(wèn)題,更重要的是能夠提供詳細(xì)、可驗(yàn)證的解題步驟。這對(duì)于學(xué)生學(xué)習(xí)數(shù)學(xué)推理技能具有重要價(jià)值。傳統(tǒng)的在線教育系統(tǒng)往往只能提供標(biāo)準(zhǔn)答案,而URSA能夠展示完整的思考過(guò)程,幫助學(xué)生理解問(wèn)題解決的邏輯。
系統(tǒng)的過(guò)程驗(yàn)證能力也為自動(dòng)化評(píng)估開(kāi)辟了新的可能性。在傳統(tǒng)的數(shù)學(xué)考試中,老師需要人工檢查學(xué)生的解題步驟,這不僅耗時(shí)耗力,而且容易出現(xiàn)主觀判斷的偏差。URSA的過(guò)程獎(jiǎng)勵(lì)模型可以自動(dòng)識(shí)別解題過(guò)程中的問(wèn)題,提供客觀、一致的評(píng)估結(jié)果。這對(duì)于大規(guī)模的在線教育和自適應(yīng)學(xué)習(xí)系統(tǒng)具有重要意義。
在科學(xué)研究領(lǐng)域,URSA系統(tǒng)展示的多模態(tài)推理能力可以應(yīng)用于各種需要結(jié)合圖像和數(shù)據(jù)分析的場(chǎng)景。比如,在材料科學(xué)研究中,需要分析電子顯微鏡圖像并結(jié)合數(shù)值數(shù)據(jù)進(jìn)行推理;在醫(yī)學(xué)診斷中,需要綜合醫(yī)學(xué)影像和患者數(shù)據(jù)進(jìn)行判斷。URSA提供的框架為這些應(yīng)用提供了技術(shù)基礎(chǔ)。
更廣泛地說(shuō),URSA系統(tǒng)代表了人工智能系統(tǒng)可解釋性研究的重要進(jìn)展。傳統(tǒng)的AI系統(tǒng)往往被認(rèn)為是"黑盒子",人們無(wú)法理解其決策過(guò)程。而URSA通過(guò)過(guò)程獎(jiǎng)勵(lì)建模,為AI系統(tǒng)的推理過(guò)程提供了透明性和可驗(yàn)證性。這種可解釋性對(duì)于AI系統(tǒng)在高風(fēng)險(xiǎn)應(yīng)用場(chǎng)景中的部署具有關(guān)鍵意義。
研究團(tuán)隊(duì)已經(jīng)將URSA的代碼、數(shù)據(jù)和模型權(quán)重全部開(kāi)源,這意味著全世界的研究者和開(kāi)發(fā)者都可以基于這個(gè)工作進(jìn)行進(jìn)一步的研究和應(yīng)用開(kāi)發(fā)。這種開(kāi)放的研究態(tài)度有助于加速整個(gè)領(lǐng)域的發(fā)展,讓更多的人受益于這項(xiàng)技術(shù)突破。
八、未來(lái)展望:通向通用AI推理的路徑
雖然URSA系統(tǒng)已經(jīng)取得了令人矚目的成果,但研究團(tuán)隊(duì)也清醒地認(rèn)識(shí)到當(dāng)前工作的限制和未來(lái)需要改進(jìn)的方向。
從技術(shù)層面來(lái)看,當(dāng)前的系統(tǒng)主要針對(duì)數(shù)學(xué)推理任務(wù)進(jìn)行了優(yōu)化,而在其他需要復(fù)雜推理的領(lǐng)域(如物理、化學(xué)、工程等)的表現(xiàn)還需要進(jìn)一步驗(yàn)證和改進(jìn)。未來(lái)的研究可能需要擴(kuò)展訓(xùn)練數(shù)據(jù)的覆蓋范圍,包含更多學(xué)科的推理樣例。
過(guò)程獎(jiǎng)勵(lì)模型的評(píng)估標(biāo)準(zhǔn)也有進(jìn)一步完善的空間。目前的模型主要關(guān)注邏輯正確性和感知一致性,但人類(lèi)的推理過(guò)程還包含創(chuàng)造性、直覺(jué)判斷、analogical reasoning等復(fù)雜因素。如何將這些更高層次的推理能力納入評(píng)估框架,是一個(gè)值得深入探索的問(wèn)題。
從應(yīng)用角度來(lái)看,當(dāng)前系統(tǒng)的computational requirement相對(duì)較高,這可能限制了其在資源受限環(huán)境中的部署。未來(lái)需要研究更加高效的模型架構(gòu)和推理方法,使這種先進(jìn)的推理能力能夠在更廣泛的場(chǎng)景中得到應(yīng)用。
另一個(gè)重要的發(fā)展方向是多輪交互推理。當(dāng)前的URSA系統(tǒng)主要處理單輪的問(wèn)題解決,而真實(shí)的問(wèn)題解決往往需要多輪的思考、驗(yàn)證和修正。如何擴(kuò)展過(guò)程獎(jiǎng)勵(lì)框架以支持這種更復(fù)雜的交互模式,是一個(gè)有趣的研究方向。
研究團(tuán)隊(duì)也提到了倫理和安全方面的考慮。雖然URSA系統(tǒng)在數(shù)學(xué)推理方面表現(xiàn)出色,但如何防止其被惡意使用,如何確保其輸出的準(zhǔn)確性和可靠性,都需要進(jìn)一步的研究和規(guī)范。
說(shuō)到底,URSA項(xiàng)目代表了人工智能向著真正理解和推理邁出的重要一步。通過(guò)將推理過(guò)程變得透明和可驗(yàn)證,它不僅提升了AI系統(tǒng)的性能,更重要的是增強(qiáng)了人們對(duì)AI系統(tǒng)的信任。這種信任是AI技術(shù)在更多關(guān)鍵領(lǐng)域得到應(yīng)用的基礎(chǔ)。歸根結(jié)底,這項(xiàng)工作向我們展示了一個(gè)令人激動(dòng)的可能性:未來(lái)的AI系統(tǒng)不僅能夠得出正確答案,更能夠像人類(lèi)專(zhuān)家一樣,提供清晰、可信的推理過(guò)程。這不僅僅是技術(shù)的進(jìn)步,更是人工智能向著真正的智能邁進(jìn)的重要標(biāo)志。對(duì)于每一個(gè)關(guān)注AI發(fā)展的人來(lái)說(shuō),URSA項(xiàng)目都值得深入了解和持續(xù)關(guān)注,因?yàn)樗芸赡茴A(yù)示著AI發(fā)展的下一個(gè)重要階段的到來(lái)。
Q&A
Q1:URSA系統(tǒng)與GPT-4o這些商業(yè)模型相比有什么優(yōu)勢(shì)?
A:URSA系統(tǒng)最大的優(yōu)勢(shì)是在多模態(tài)數(shù)學(xué)推理任務(wù)上的表現(xiàn)超越了GPT-4o,平均準(zhǔn)確率高出2.7個(gè)百分點(diǎn)。更重要的是,URSA提供完全可驗(yàn)證的推理過(guò)程,用戶可以檢查每一步的邏輯,而不像傳統(tǒng)模型那樣是"黑盒子"。此外,URSA完全開(kāi)源,研究者可以自由使用和改進(jìn)。
Q2:普通用戶能否使用URSA系統(tǒng)來(lái)幫助解決數(shù)學(xué)問(wèn)題?
A:目前URSA系統(tǒng)主要面向研究人員和開(kāi)發(fā)者,代碼和模型權(quán)重都已在GitHub開(kāi)源。雖然普通用戶可以通過(guò)技術(shù)手段部署使用,但需要一定的技術(shù)背景。研究團(tuán)隊(duì)很可能會(huì)在未來(lái)推出更易用的版本或與教育機(jī)構(gòu)合作,讓更多人能夠受益于這項(xiàng)技術(shù)。
Q3:URSA的過(guò)程獎(jiǎng)勵(lì)模型是如何判斷推理步驟正確性的?
A:URSA使用了創(chuàng)新的"雙視角"評(píng)估方法。第一個(gè)是二分錯(cuò)誤定位引擎,通過(guò)生成多個(gè)推理路徑來(lái)快速找到第一個(gè)出錯(cuò)的步驟。第二個(gè)是誤解插入引擎,專(zhuān)門(mén)識(shí)別對(duì)圖像信息的誤讀問(wèn)題。這兩個(gè)引擎協(xié)同工作,既檢查邏輯正確性,也驗(yàn)證視覺(jué)信息理解的準(zhǔn)確性,確保整個(gè)推理過(guò)程的可靠性。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。