這項(xiàng)由智譜AI公司與清華大學(xué)聯(lián)合開(kāi)展的突破性研究于2025年7月1日發(fā)表在arXiv平臺(tái)上(論文編號(hào):arXiv:2507.01006v1),研究團(tuán)隊(duì)包含了來(lái)自智譜AI公司和清華大學(xué)的數(shù)十位研究人員。有興趣深入了解的讀者可以通過(guò)https://github.com/THUDM/GLM-4.1V-Thinking訪問(wèn)完整的代碼、模型和詳細(xì)信息。
當(dāng)你和朋友聊天時(shí),有沒(méi)有注意到一個(gè)有趣的現(xiàn)象:當(dāng)朋友問(wèn)你一個(gè)復(fù)雜問(wèn)題時(shí),你通常不會(huì)立刻脫口而出答案,而是會(huì)先在心里默默思考一番,理清思路后再開(kāi)口回答。這種思考過(guò)程包括了分析問(wèn)題、回憶相關(guān)知識(shí)、權(quán)衡不同選擇,甚至可能推翻之前的想法重新思考。然而,傳統(tǒng)的AI模型就像一個(gè)過(guò)于急躁的學(xué)生,總是立刻給出答案,缺乏這種深度思考的能力。
智譜AI和清華大學(xué)的研究團(tuán)隊(duì)意識(shí)到了這個(gè)問(wèn)題,他們開(kāi)發(fā)了一個(gè)名為GLM-4.1V-Thinking的視覺(jué)語(yǔ)言模型。這個(gè)模型最大的特點(diǎn)就是會(huì)"思考",就像一個(gè)慎重的學(xué)者一樣,在給出最終答案之前會(huì)先進(jìn)行詳細(xì)的內(nèi)心獨(dú)白和推理過(guò)程。
研究團(tuán)隊(duì)發(fā)現(xiàn),讓AI學(xué)會(huì)思考并不簡(jiǎn)單。就像教一個(gè)孩子學(xué)會(huì)深度思考一樣,需要經(jīng)過(guò)多個(gè)階段的訓(xùn)練。他們采用了一種叫做"推理導(dǎo)向訓(xùn)練框架"的方法,這個(gè)框架包含三個(gè)關(guān)鍵階段:預(yù)訓(xùn)練、監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)。
在預(yù)訓(xùn)練階段,研究團(tuán)隊(duì)就像為AI準(zhǔn)備一個(gè)豐富的圖書(shū)館,里面包含了大量的圖像文本配對(duì)數(shù)據(jù)、學(xué)術(shù)文獻(xiàn)、文檔圖表、教學(xué)視頻等各種類型的信息。這個(gè)"圖書(shū)館"的規(guī)模是驚人的,僅圖像文本配對(duì)數(shù)據(jù)就超過(guò)100億對(duì)。為了確保數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)設(shè)計(jì)了一套嚴(yán)格的篩選流程,就像圖書(shū)管理員會(huì)仔細(xì)挑選高質(zhì)量書(shū)籍一樣。他們使用CLIP模型來(lái)計(jì)算圖像和文本的相似度,只保留相似度高于0.3的配對(duì),還采用了概念平衡重采樣策略來(lái)減少數(shù)據(jù)中的偏見(jiàn)。
更有趣的是,研究團(tuán)隊(duì)還開(kāi)發(fā)了一個(gè)"重新描述"模型,專門(mén)用來(lái)改善原始數(shù)據(jù)中的文字描述。這個(gè)模型就像一個(gè)細(xì)心的編輯,會(huì)將原本嘈雜、不準(zhǔn)確的圖片描述重新寫(xiě)成更精確、更詳細(xì)的版本,同時(shí)保持事實(shí)的準(zhǔn)確性。
在處理多模態(tài)交錯(cuò)數(shù)據(jù)時(shí),研究團(tuán)隊(duì)面臨了一個(gè)巨大挑戰(zhàn):網(wǎng)絡(luò)上的數(shù)據(jù)往往質(zhì)量參差不齊,很多樣本缺乏真正的圖文對(duì)應(yīng)關(guān)系。為了解決這個(gè)問(wèn)題,他們?cè)O(shè)計(jì)了專門(mén)的處理流程。對(duì)于網(wǎng)頁(yè)數(shù)據(jù),他們首先聚合來(lái)自大規(guī)模開(kāi)源數(shù)據(jù)集的原始內(nèi)容,然后進(jìn)行多階段清理和過(guò)濾。他們會(huì)丟棄與文章內(nèi)容語(yǔ)義無(wú)關(guān)的圖片,移除廣告和二維碼等噪音元素,并使用啟發(fā)式規(guī)則和專用圖像分類器來(lái)提高處理精度。
在學(xué)術(shù)書(shū)籍處理方面,研究團(tuán)隊(duì)收集了超過(guò)1億本數(shù)字化書(shū)籍,重點(diǎn)篩選科學(xué)、技術(shù)、工程和數(shù)學(xué)領(lǐng)域的內(nèi)容。他們使用PDF解析工具進(jìn)行深度解析,提取高質(zhì)量的圖文交錯(cuò)內(nèi)容。這就像是將一座巨大的圖書(shū)館數(shù)字化,并且確保每一頁(yè)的圖片和文字都能完美對(duì)應(yīng)。
為了增強(qiáng)模型的文字識(shí)別能力,研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含2.2億張圖片的OCR數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包括三個(gè)部分:合成文檔圖像、自然場(chǎng)景文字圖像和學(xué)術(shù)文檔。合成文檔圖像是通過(guò)將語(yǔ)言預(yù)訓(xùn)練語(yǔ)料庫(kù)中的文本渲染成不同字體、大小、顏色和方向的圖片制作而成的。自然場(chǎng)景文字圖像則是通過(guò)Paddle-OCR工具處理大量自然圖像,自動(dòng)提取文本內(nèi)容和對(duì)應(yīng)的邊界框獲得的。學(xué)術(shù)文檔部分采用了類似Nougat的處理方法,將arXiv論文的LaTeX源代碼標(biāo)準(zhǔn)化并轉(zhuǎn)換為HTML格式,最終分割成頁(yè)面并渲染。
在視覺(jué)定位方面,研究團(tuán)隊(duì)構(gòu)建了一個(gè)混合定位數(shù)據(jù)集,涵蓋自然圖像和圖形用戶界面兩個(gè)主要領(lǐng)域。對(duì)于自然圖像,他們使用LAION-115M作為基礎(chǔ)數(shù)據(jù)集,利用GLIPv2模型解析每張圖片的標(biāo)題并自動(dòng)預(yù)測(cè)每個(gè)名詞短語(yǔ)對(duì)應(yīng)的邊界框。對(duì)于GUI領(lǐng)域,他們從CommonCrawl快照中提取URL并捕獲相應(yīng)的網(wǎng)頁(yè)截圖,使用Playwright框架深度交互網(wǎng)頁(yè),編譯和解析所有可見(jiàn)的DOM元素及其精確渲染的邊界框。
在視頻理解方面,研究團(tuán)隊(duì)構(gòu)建了一個(gè)大規(guī)模、高質(zhì)量的視頻文本數(shù)據(jù)集。為了解決標(biāo)準(zhǔn)標(biāo)題中常見(jiàn)的幻覺(jué)和遺漏問(wèn)題,他們開(kāi)發(fā)了一個(gè)精細(xì)的人工標(biāo)注流程,準(zhǔn)確捕捉復(fù)雜的動(dòng)作和場(chǎng)景中的文字。此外,為了編碼更深層的視覺(jué)敘事,他們使用人機(jī)協(xié)作工作流程標(biāo)注關(guān)鍵的電影元素,如攝像機(jī)運(yùn)動(dòng)和鏡頭構(gòu)圖。
在模型架構(gòu)設(shè)計(jì)上,GLM-4.1V-Thinking采用了三個(gè)核心組件:視覺(jué)編碼器、MLP適配器和大語(yǔ)言模型解碼器。研究團(tuán)隊(duì)使用AIMv2-Huge作為視覺(jué)編碼器,GLM作為語(yǔ)言模型。為了處理視頻輸入,他們將原始的2D卷積替換為3D卷積,實(shí)現(xiàn)了2倍的時(shí)間下采樣,從而提高模型效率。
為了支持任意圖像分辨率和縱橫比,研究團(tuán)隊(duì)引入了兩個(gè)關(guān)鍵改進(jìn)。首先,他們集成了2D-RoPE技術(shù),使模型能夠有效處理極端縱橫比(超過(guò)200:1)或高分辨率(超過(guò)4K)的圖像。其次,為了保持預(yù)訓(xùn)練ViT的基礎(chǔ)能力,他們保留了原始的可學(xué)習(xí)絕對(duì)位置嵌入。在訓(xùn)練過(guò)程中,這些嵌入通過(guò)雙三次插值動(dòng)態(tài)適應(yīng)可變分辨率輸入。
對(duì)于視頻輸入的時(shí)間建模,研究團(tuán)隊(duì)在每個(gè)幀標(biāo)記后插入時(shí)間索引標(biāo)記,其中時(shí)間索引通過(guò)將每幀的時(shí)間戳編碼為字符串來(lái)實(shí)現(xiàn)。與多圖像輸入不同,視頻幀形成時(shí)間上連貫的序列。這種設(shè)計(jì)明確告知模型真實(shí)世界的時(shí)間戳和幀之間的時(shí)間距離,從而提升其時(shí)間理解和定位能力。
在監(jiān)督微調(diào)階段,研究團(tuán)隊(duì)的目標(biāo)是將基礎(chǔ)視覺(jué)語(yǔ)言模型轉(zhuǎn)換為能夠進(jìn)行長(zhǎng)鏈?zhǔn)剿季S推理的模型。他們精心策劃了一個(gè)長(zhǎng)思維鏈語(yǔ)料庫(kù),涵蓋可驗(yàn)證領(lǐng)域(如STEM問(wèn)題)和不可驗(yàn)證任務(wù)(如指令遵循、開(kāi)放式寫(xiě)作)。與以往將SFT應(yīng)用于短思維鏈數(shù)據(jù)的工作流程不同,他們故意省略了這一步驟。他們認(rèn)為SFT的作用不是注入新知識(shí),而是將模型現(xiàn)有的視覺(jué)語(yǔ)言理解與更有效的思考和回應(yīng)風(fēng)格對(duì)齊。
在回應(yīng)格式設(shè)計(jì)上,每個(gè)回應(yīng)都遵循標(biāo)準(zhǔn)化結(jié)構(gòu): {思考內(nèi)容} {回答內(nèi)容} 。思考部分捕捉模型的推理過(guò)程,包括反思、回溯、重試和驗(yàn)證等策略。回答部分呈現(xiàn)簡(jiǎn)潔、完整且邏輯合理的解決方案。對(duì)于有特定最終答案的可驗(yàn)證任務(wù),答案部分的最終結(jié)果需要用<|begin_of_box|>和<|end_of_box|>包裝,并且只接受一個(gè)框標(biāo)跨度。
研究團(tuán)隊(duì)發(fā)現(xiàn),冷啟動(dòng)數(shù)據(jù)集的質(zhì)量對(duì)RL訓(xùn)練的穩(wěn)定性至關(guān)重要。在實(shí)踐中,他們發(fā)現(xiàn)構(gòu)造不當(dāng)?shù)臄?shù)據(jù)可能導(dǎo)致訓(xùn)練不穩(wěn)定甚至崩潰。為了緩解這個(gè)問(wèn)題,他們實(shí)施了嚴(yán)格的數(shù)據(jù)清理流程,強(qiáng)制嚴(yán)格遵守格式約定(如正確使用和標(biāo)簽),并移除推理風(fēng)格不一致或嘈雜的示例。
強(qiáng)化學(xué)習(xí)階段是整個(gè)訓(xùn)練過(guò)程的關(guān)鍵。在這個(gè)階段,研究團(tuán)隊(duì)主要依靠強(qiáng)化學(xué)習(xí)來(lái)提升模型性能。他們采用了可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)和人類反饋強(qiáng)化學(xué)習(xí)(RLHF)的組合,在所有多模態(tài)域和能力上進(jìn)行大規(guī)模RL訓(xùn)練,包括STEM問(wèn)題求解(如數(shù)學(xué)、物理、化學(xué))、定位、光學(xué)字符識(shí)別(OCR)、視頻理解、GUI代理、圖表和文檔理解、邏輯推理以及指令遵循。
在獎(jiǎng)勵(lì)系統(tǒng)設(shè)計(jì)上,研究團(tuán)隊(duì)建立了一個(gè)兼容RLVR和RLHF的獎(jiǎng)勵(lì)系統(tǒng),并為每個(gè)多模態(tài)域進(jìn)行了定制。對(duì)于RLVR任務(wù),系統(tǒng)首先從生成輸出中提取包含最終答案的片段,然后將這個(gè)關(guān)鍵答案與參考答案進(jìn)行比較以確定正確性,最后返回二進(jìn)制(0/1)或連續(xù)形式的獎(jiǎng)勵(lì)值。對(duì)于RLHF任務(wù),系統(tǒng)直接獲取輸出的答案片段,并使用獎(jiǎng)勵(lì)模型進(jìn)行評(píng)分。
研究團(tuán)隊(duì)發(fā)現(xiàn),在訓(xùn)練統(tǒng)一的VLM處理不同技能時(shí),即使某個(gè)單一能力的獎(jiǎng)勵(lì)信號(hào)存在任何弱點(diǎn),都可能破壞整個(gè)訓(xùn)練過(guò)程。他們通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),即使STEM子域提供了高質(zhì)量獎(jiǎng)勵(lì),但多圖像QA任務(wù)的獎(jiǎng)勵(lì)缺陷也會(huì)導(dǎo)致所有域的模型崩潰。這強(qiáng)調(diào)了穩(wěn)定、有效的RL需要在每個(gè)域中都有精心調(diào)整、抗黑客攻擊的驗(yàn)證器。
為了應(yīng)對(duì)這個(gè)挑戰(zhàn),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)領(lǐng)域特定的獎(jiǎng)勵(lì)系統(tǒng),具有以下特點(diǎn):共享驗(yàn)證函數(shù)(如格式驗(yàn)證、框內(nèi)容提取和精確匹配等常見(jiàn)檢查被實(shí)現(xiàn)為可重用函數(shù))、領(lǐng)域特定模塊(每個(gè)域都有自己的子模塊,支持復(fù)雜驗(yàn)證邏輯,包括分支工作流、功能評(píng)估和由自定義判斷提示和超參數(shù)驅(qū)動(dòng)的基于模型的判斷)以及單元測(cè)試(為了驗(yàn)證每個(gè)域中的獎(jiǎng)勵(lì)系統(tǒng),他們定義了針對(duì)該域輸出分布的單元測(cè)試,并基于測(cè)試結(jié)果迭代改進(jìn)獎(jiǎng)勵(lì)邏輯)。
研究團(tuán)隊(duì)提出了一種名為"帶課程采樣的強(qiáng)化學(xué)習(xí)"(RLCS)的創(chuàng)新方法。這種方法的核心思想是動(dòng)態(tài)調(diào)整訓(xùn)練樣本的難度,以匹配模型不斷發(fā)展的能力。就像為學(xué)生安排學(xué)習(xí)進(jìn)度一樣,太簡(jiǎn)單的題目無(wú)法促進(jìn)學(xué)習(xí),太難的題目又會(huì)讓學(xué)生挫敗,只有適中難度的題目才能最大化學(xué)習(xí)效果。
在RLCS框架中,研究團(tuán)隊(duì)采用了自適應(yīng)課程,持續(xù)調(diào)整訓(xùn)練樣本的難度以匹配模型不斷發(fā)展的能力。他們既評(píng)估樣本的離線難度也評(píng)估在線難度。在訓(xùn)練前,他們通過(guò)對(duì)整個(gè)數(shù)據(jù)集運(yùn)行多個(gè)成熟視覺(jué)語(yǔ)言模型(或早期RL檢查點(diǎn))的pass@k評(píng)估,并將這些定量分?jǐn)?shù)與專家人類難度標(biāo)注合并,來(lái)評(píng)估每個(gè)樣本的固有難度。這個(gè)過(guò)程產(chǎn)生了一組細(xì)粒度的難度標(biāo)簽,將數(shù)據(jù)分為從非常簡(jiǎn)單到非常困難的多個(gè)層次。
在訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)執(zhí)行在線難度分級(jí)。對(duì)于每個(gè)生成的展開(kāi),他們記錄pass@k結(jié)果,將其映射到相應(yīng)的難度層,并將這些結(jié)果與離線標(biāo)簽合并。這種在線難度分布也為模型當(dāng)前性能提供了有價(jià)值的見(jiàn)解。通過(guò)利用這些難度標(biāo)簽以及模型的子類別性能,他們?cè)谟?xùn)練迭代的粒度上持續(xù)重新權(quán)衡不同難度類別的采樣比例。
為了提高強(qiáng)化學(xué)習(xí)的有效性,研究團(tuán)隊(duì)實(shí)施了幾個(gè)關(guān)鍵改進(jìn)。他們采用了更大的批量大小,當(dāng)在訓(xùn)練期間混合多域多模態(tài)數(shù)據(jù)時(shí),推薦相對(duì)較大的批量大小以在長(zhǎng)期內(nèi)實(shí)現(xiàn)更高的性能上限。他們還開(kāi)發(fā)了通過(guò)比率EMA進(jìn)行動(dòng)態(tài)采樣擴(kuò)展的方法。在GRPO中,當(dāng)同時(shí)移除熵?fù)p失和KL損失時(shí),完全由正確或完全由錯(cuò)誤樣本組成的展開(kāi)批次不提供有用的梯度。換句話說(shuō),全正確/錯(cuò)誤提示減少了可用批量大小。隨著這些全正確或全錯(cuò)誤批次的比例增長(zhǎng)或波動(dòng),有效批量大小可能劇烈變化,降低訓(xùn)練穩(wěn)定性。
研究團(tuán)隊(duì)還實(shí)施了強(qiáng)制回答機(jī)制。當(dāng)思考過(guò)程變得過(guò)長(zhǎng)時(shí),可能會(huì)被展開(kāi)長(zhǎng)度限制截?cái)?。因?yàn)槟P碗S后無(wú)法產(chǎn)生答案,通常會(huì)被分配零獎(jiǎng)勵(lì)。然而,這種冗長(zhǎng)的推理不一定是錯(cuò)誤的——對(duì)于困難問(wèn)題,過(guò)長(zhǎng)思考路徑的已生成部分可能是完全有效的。以這種方式截?cái)嗖粌H浪費(fèi)了展開(kāi)預(yù)算,還向訓(xùn)練注入了噪音。為了解決這個(gè)問(wèn)題,他們通過(guò)插入標(biāo)記后跟標(biāo)記來(lái)強(qiáng)制截?cái)啵@促使模型發(fā)出最終答案并允許他們?yōu)槠渫评斫o予公平獎(jiǎng)勵(lì)。
在訓(xùn)練穩(wěn)定性方面,研究團(tuán)隊(duì)識(shí)別了幾個(gè)顯著影響整個(gè)訓(xùn)練流程穩(wěn)定性的關(guān)鍵因素。他們發(fā)現(xiàn)冷啟動(dòng)SFT數(shù)據(jù)的質(zhì)量對(duì)訓(xùn)練穩(wěn)定性有重要影響,因此強(qiáng)烈建議將冷啟動(dòng)數(shù)據(jù)質(zhì)量維持在某個(gè)閾值之上。他們移除了熵?fù)p失,因?yàn)榘l(fā)現(xiàn)加入熵?fù)p失來(lái)促進(jìn)多樣性可能導(dǎo)致模型產(chǎn)生亂碼輸出,最終導(dǎo)致訓(xùn)練崩潰。在展開(kāi)過(guò)程中,他們使用top-p = 1而不是更小的值來(lái)產(chǎn)生更穩(wěn)定的RL訓(xùn)練。
在基礎(chǔ)設(shè)施優(yōu)化方面,研究團(tuán)隊(duì)廣泛優(yōu)化了RL基礎(chǔ)設(shè)施,專注于幾個(gè)關(guān)鍵組件。他們實(shí)現(xiàn)了跨DP等級(jí)的序列長(zhǎng)度負(fù)載平衡,因?yàn)槊總€(gè)樣本的展開(kāi)長(zhǎng)度事先未知,一些等級(jí)可能被分配許多極長(zhǎng)序列(如視頻或長(zhǎng)文檔提示,或具有長(zhǎng)回應(yīng)的困難問(wèn)題)。他們還采用了序列打包和梯度累積的等級(jí)內(nèi)訓(xùn)練方法,因?yàn)镽L中樣本長(zhǎng)度的不可預(yù)測(cè)變化使得無(wú)法提前知道每個(gè)DP等級(jí)將執(zhí)行多少次前向傳遞。
在評(píng)估方面,研究團(tuán)隊(duì)對(duì)GLM-4.1V-9B-Thinking進(jìn)行了全面評(píng)估,涵蓋28個(gè)公共基準(zhǔn)測(cè)試,包括八個(gè)不同類別:通用VQA、STEM、OCR和圖表、長(zhǎng)文檔、視覺(jué)定位、GUI代理、編程和視頻理解。評(píng)估結(jié)果顯示,GLM-4.1V-9B-Thinking在10B參數(shù)以下的模型中在23個(gè)基準(zhǔn)測(cè)試上創(chuàng)造了新的最先進(jìn)性能,展現(xiàn)了在廣泛多模態(tài)任務(wù)譜上的一致且強(qiáng)勁的性能。
在通用VQA領(lǐng)域,GLM-4.1V-9B-Thinking在五個(gè)廣泛使用的基準(zhǔn)測(cè)試上超越了所有10B以下的競(jìng)爭(zhēng)開(kāi)源模型,涵蓋單圖像和多圖像設(shè)置。在STEM類別中,該模型在MMMU_Val、MMMU_Pro、VideoMMMU和AI2D等具有挑戰(zhàn)性的科學(xué)和工程基準(zhǔn)測(cè)試上取得了最高性能。在OCR和圖表領(lǐng)域,GLM-4.1V-9B-Thinking在ChartQAPro和ChartMuseum上創(chuàng)造了新的最先進(jìn)分?jǐn)?shù)。對(duì)于長(zhǎng)文檔理解,GLM-4.1V-9B-Thinking在MMLongBench上超越了所有其他模型。
值得注意的是,盡管GLM-4.1V-9B-Thinking的規(guī)模相對(duì)較小,但在28個(gè)基準(zhǔn)測(cè)試中的18個(gè)上超越了規(guī)模大得多的Qwen2.5-VL-72B模型,包括MMStar、MUIRBENCH、MMMU_Pro和ChartMuseum等特別具有挑戰(zhàn)性的任務(wù)。與專有的GPT-4o相比,GLM-4.1V-9B-Thinking在大多數(shù)任務(wù)上取得了優(yōu)異結(jié)果,盡管GPT-4o具有顯著更大的規(guī)模和閉源優(yōu)勢(shì)。
為了探索多域強(qiáng)化學(xué)習(xí)中的跨域泛化現(xiàn)象,研究團(tuán)隊(duì)選擇了四個(gè)代表性域:STEM、OCR和圖表、定位和GUI代理。實(shí)驗(yàn)結(jié)果表明,強(qiáng)化學(xué)習(xí)展現(xiàn)了強(qiáng)大的跨域泛化和相互促進(jìn)。在一個(gè)域上的訓(xùn)練提升了其他域的性能,而跨域聯(lián)合訓(xùn)練在每個(gè)域中產(chǎn)生了更大的改進(jìn)。這種協(xié)同效應(yīng)可能是GLM-4.1V-9B-Thinking卓越性能的基礎(chǔ)。
研究團(tuán)隊(duì)也坦誠(chéng)地討論了當(dāng)前研究的局限性。首先,雖然RL提高了任務(wù)完成率,但并不一致地改善推理質(zhì)量。在某些情況下,模型產(chǎn)生正確答案但依賴錯(cuò)誤的推理步驟。這個(gè)問(wèn)題的出現(xiàn)是因?yàn)楫?dāng)前的獎(jiǎng)勵(lì)模型通常評(píng)估最終結(jié)果而不評(píng)估中間推理步驟。因此,如果有缺陷或幻覺(jué)的推理鏈產(chǎn)生正確答案,可能會(huì)被無(wú)意中強(qiáng)化。
其次,RL訓(xùn)練可能表現(xiàn)出不穩(wěn)定性。早期實(shí)驗(yàn)表明,設(shè)置上的微小變化可能導(dǎo)致推理深度或輸出風(fēng)格的顯著變化。盡管后期版本的改進(jìn)(如改進(jìn)的獎(jiǎng)勵(lì)設(shè)計(jì)和增強(qiáng)的冷啟動(dòng)數(shù)據(jù))使訓(xùn)練更加穩(wěn)定,但剩余的敏感性表明大規(guī)模RL優(yōu)化中的更深層挑戰(zhàn)。
第三,盡管GLM-4.1V-9B-Thinking在各種任務(wù)上表現(xiàn)強(qiáng)勁,但在復(fù)雜場(chǎng)景中仍有困難。涉及雜亂圖像、遮擋物體或模糊視覺(jué)細(xì)節(jié)的情況可能導(dǎo)致模型出現(xiàn)感知錯(cuò)誤,從而損害其推理能力。在這些條件下,模型可能訴諸猜測(cè)或一般假設(shè),而不是進(jìn)行基于根據(jù)的推理。
展望未來(lái),研究團(tuán)隊(duì)認(rèn)為一個(gè)關(guān)鍵方向是改進(jìn)模型推理的監(jiān)督和評(píng)估方式。未來(lái)的獎(jiǎng)勵(lì)模型應(yīng)該不僅評(píng)估最終答案,還要評(píng)估中間推理步驟,積極檢測(cè)幻覺(jué)和標(biāo)記邏輯不一致。對(duì)于具有主觀評(píng)估的任務(wù),探索防止獎(jiǎng)勵(lì)黑客攻擊的策略也是朝向通用智能的必要步驟。
研究團(tuán)隊(duì)還對(duì)多模態(tài)訓(xùn)練對(duì)純文本推理任務(wù)的潛在益處感興趣。例如,理解視覺(jué)推理任務(wù)(如解釋圖像中的代碼)是否能增強(qiáng)純文本編程任務(wù)的性能是一個(gè)有前景的研究方向。探索視覺(jué)和語(yǔ)言模態(tài)如何相互強(qiáng)化可能會(huì)帶來(lái)通用推理能力的重大進(jìn)展。
隨著模型能力的提高,評(píng)估框架也必須相應(yīng)發(fā)展。許多當(dāng)前基準(zhǔn)測(cè)試正接近飽和或無(wú)法有效識(shí)別關(guān)鍵錯(cuò)誤,如推理鏈中的幻覺(jué)。未來(lái)的基準(zhǔn)測(cè)試應(yīng)該既更具挑戰(zhàn)性又更具診斷性,專門(mén)設(shè)計(jì)用于檢測(cè)更多失敗模式,如捷徑推理或幻覺(jué)。
總的來(lái)說(shuō),GLM-4.1V-9B-Thinking代表了朝向通用多模態(tài)推理的重要一步。通過(guò)推理導(dǎo)向的訓(xùn)練框架,該模型學(xué)會(huì)了在視覺(jué)、文本、數(shù)學(xué)、科學(xué)和代理域中進(jìn)行推理。研究團(tuán)隊(duì)將GLM-4.1V-9B-Thinking開(kāi)源,以支持多模態(tài)推理的進(jìn)一步研究。這項(xiàng)工作不僅推進(jìn)了人工智能的技術(shù)邊界,也為未來(lái)開(kāi)發(fā)更智能、更可靠的AI系統(tǒng)奠定了堅(jiān)實(shí)基礎(chǔ)。
Q&A
Q1:GLM-4.1V-Thinking的"思考"功能是什么意思?它真的會(huì)思考嗎? A:GLM-4.1V-Thinking的"思考"指的是模型在給出最終答案前會(huì)先生成詳細(xì)的推理過(guò)程,就像人類解決問(wèn)題時(shí)的內(nèi)心獨(dú)白。雖然這不是真正意義上的人類思考,但模型會(huì)展示完整的分析步驟、考慮不同可能性、甚至推翻之前的想法重新思考,讓整個(gè)推理過(guò)程更加透明和可靠。
Q2:這個(gè)模型有什么實(shí)際用途?普通人能用到嗎? A:GLM-4.1V-9B-Thinking在多個(gè)領(lǐng)域都有實(shí)際應(yīng)用價(jià)值,包括幫助學(xué)生解決數(shù)學(xué)物理題、協(xié)助醫(yī)生分析醫(yī)療圖像、輔助程序員調(diào)試代碼、幫助設(shè)計(jì)師生成UI界面等。研究團(tuán)隊(duì)已經(jīng)開(kāi)源了這個(gè)模型,普通人可以通過(guò)GitHub(https://github.com/THUDM/GLM-4.1V-Thinking)獲取相關(guān)資源,不過(guò)使用起來(lái)可能需要一定的技術(shù)背景。
Q3:GLM-4.1V-Thinking比其他AI模型強(qiáng)在哪里? A:最大的優(yōu)勢(shì)是它具備深度推理能力,不會(huì)急著給出答案而是先仔細(xì)思考。在性能上,這個(gè)只有90億參數(shù)的模型在很多任務(wù)上甚至超越了720億參數(shù)的大型模型,特別是在數(shù)學(xué)解題、視頻理解、圖表分析等復(fù)雜任務(wù)上表現(xiàn)突出。更重要的是,它的推理過(guò)程是透明的,用戶可以看到模型是如何一步步得出結(jié)論的。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。