av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<pre id="ecppu"></pre>

<pre id="ecppu"><var id="ecppu"></var></pre>

<output id="ecppu"><big id="ecppu"></big></output>

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

智譜AI和清華大學(xué)聯(lián)手打造GLM-4.1V-Thinking：讓AI像人類一樣深度思考的神奇模型

多模態(tài)AI強(qiáng)化學(xué)習(xí)視覺推理

智譜AI和清華大學(xué)聯(lián)手打造GLM-4.1V-Thinking：讓AI像人類一樣深度思考的神奇模型

作者：科技行者

2025-07-03 14:00

分享至：

智譜AI和清華大學(xué)聯(lián)合發(fā)布GLM-4.1V-Thinking視覺語言模型，通過創(chuàng)新的推理導(dǎo)向訓(xùn)練框架，讓AI學(xué)會(huì)像人類一樣深度思考后再回答。該模型在多個(gè)基準(zhǔn)測試中超越了規(guī)模更大的競爭對(duì)手，并首次在開源社區(qū)提供了完整的多模態(tài)推理解決方案，為AI技術(shù)的實(shí)際應(yīng)用開辟了新路徑。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-03 14:00 ? 科技行者

這項(xiàng)由智譜AI公司與清華大學(xué)聯(lián)合開展的突破性研究于2025年7月1日發(fā)表在arXiv平臺(tái)上（論文編號(hào)：arXiv:2507.01006v1），研究團(tuán)隊(duì)包含了來自智譜AI公司和清華大學(xué)的數(shù)十位研究人員。有興趣深入了解的讀者可以通過https://github.com/THUDM/GLM-4.1V-Thinking訪問完整的代碼、模型和詳細(xì)信息。

當(dāng)你和朋友聊天時(shí)，有沒有注意到一個(gè)有趣的現(xiàn)象：當(dāng)朋友問你一個(gè)復(fù)雜問題時(shí)，你通常不會(huì)立刻脫口而出答案，而是會(huì)先在心里默默思考一番，理清思路后再開口回答。這種思考過程包括了分析問題、回憶相關(guān)知識(shí)、權(quán)衡不同選擇，甚至可能推翻之前的想法重新思考。然而，傳統(tǒng)的AI模型就像一個(gè)過于急躁的學(xué)生，總是立刻給出答案，缺乏這種深度思考的能力。

智譜AI和清華大學(xué)的研究團(tuán)隊(duì)意識(shí)到了這個(gè)問題，他們開發(fā)了一個(gè)名為GLM-4.1V-Thinking的視覺語言模型。這個(gè)模型最大的特點(diǎn)就是會(huì)"思考"，就像一個(gè)慎重的學(xué)者一樣，在給出最終答案之前會(huì)先進(jìn)行詳細(xì)的內(nèi)心獨(dú)白和推理過程。

研究團(tuán)隊(duì)發(fā)現(xiàn)，讓AI學(xué)會(huì)思考并不簡單。就像教一個(gè)孩子學(xué)會(huì)深度思考一樣，需要經(jīng)過多個(gè)階段的訓(xùn)練。他們采用了一種叫做"推理導(dǎo)向訓(xùn)練框架"的方法，這個(gè)框架包含三個(gè)關(guān)鍵階段：預(yù)訓(xùn)練、監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)。

在預(yù)訓(xùn)練階段，研究團(tuán)隊(duì)就像為AI準(zhǔn)備一個(gè)豐富的圖書館，里面包含了大量的圖像文本配對(duì)數(shù)據(jù)、學(xué)術(shù)文獻(xiàn)、文檔圖表、教學(xué)視頻等各種類型的信息。這個(gè)"圖書館"的規(guī)模是驚人的，僅圖像文本配對(duì)數(shù)據(jù)就超過100億對(duì)。為了確保數(shù)據(jù)質(zhì)量，研究團(tuán)隊(duì)設(shè)計(jì)了一套嚴(yán)格的篩選流程，就像圖書管理員會(huì)仔細(xì)挑選高質(zhì)量書籍一樣。他們使用CLIP模型來計(jì)算圖像和文本的相似度，只保留相似度高于0.3的配對(duì)，還采用了概念平衡重采樣策略來減少數(shù)據(jù)中的偏見。

更有趣的是，研究團(tuán)隊(duì)還開發(fā)了一個(gè)"重新描述"模型，專門用來改善原始數(shù)據(jù)中的文字描述。這個(gè)模型就像一個(gè)細(xì)心的編輯，會(huì)將原本嘈雜、不準(zhǔn)確的圖片描述重新寫成更精確、更詳細(xì)的版本，同時(shí)保持事實(shí)的準(zhǔn)確性。

在處理多模態(tài)交錯(cuò)數(shù)據(jù)時(shí)，研究團(tuán)隊(duì)面臨了一個(gè)巨大挑戰(zhàn)：網(wǎng)絡(luò)上的數(shù)據(jù)往往質(zhì)量參差不齊，很多樣本缺乏真正的圖文對(duì)應(yīng)關(guān)系。為了解決這個(gè)問題，他們?cè)O(shè)計(jì)了專門的處理流程。對(duì)于網(wǎng)頁數(shù)據(jù)，他們首先聚合來自大規(guī)模開源數(shù)據(jù)集的原始內(nèi)容，然后進(jìn)行多階段清理和過濾。他們會(huì)丟棄與文章內(nèi)容語義無關(guān)的圖片，移除廣告和二維碼等噪音元素，并使用啟發(fā)式規(guī)則和專用圖像分類器來提高處理精度。

在學(xué)術(shù)書籍處理方面，研究團(tuán)隊(duì)收集了超過1億本數(shù)字化書籍，重點(diǎn)篩選科學(xué)、技術(shù)、工程和數(shù)學(xué)領(lǐng)域的內(nèi)容。他們使用PDF解析工具進(jìn)行深度解析，提取高質(zhì)量的圖文交錯(cuò)內(nèi)容。這就像是將一座巨大的圖書館數(shù)字化，并且確保每一頁的圖片和文字都能完美對(duì)應(yīng)。

為了增強(qiáng)模型的文字識(shí)別能力，研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含2.2億張圖片的OCR數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包括三個(gè)部分：合成文檔圖像、自然場景文字圖像和學(xué)術(shù)文檔。合成文檔圖像是通過將語言預(yù)訓(xùn)練語料庫中的文本渲染成不同字體、大小、顏色和方向的圖片制作而成的。自然場景文字圖像則是通過Paddle-OCR工具處理大量自然圖像，自動(dòng)提取文本內(nèi)容和對(duì)應(yīng)的邊界框獲得的。學(xué)術(shù)文檔部分采用了類似Nougat的處理方法，將arXiv論文的LaTeX源代碼標(biāo)準(zhǔn)化并轉(zhuǎn)換為HTML格式，最終分割成頁面并渲染。

在視覺定位方面，研究團(tuán)隊(duì)構(gòu)建了一個(gè)混合定位數(shù)據(jù)集，涵蓋自然圖像和圖形用戶界面兩個(gè)主要領(lǐng)域。對(duì)于自然圖像，他們使用LAION-115M作為基礎(chǔ)數(shù)據(jù)集，利用GLIPv2模型解析每張圖片的標(biāo)題并自動(dòng)預(yù)測每個(gè)名詞短語對(duì)應(yīng)的邊界框。對(duì)于GUI領(lǐng)域，他們從CommonCrawl快照中提取URL并捕獲相應(yīng)的網(wǎng)頁截圖，使用Playwright框架深度交互網(wǎng)頁，編譯和解析所有可見的DOM元素及其精確渲染的邊界框。

在視頻理解方面，研究團(tuán)隊(duì)構(gòu)建了一個(gè)大規(guī)模、高質(zhì)量的視頻文本數(shù)據(jù)集。為了解決標(biāo)準(zhǔn)標(biāo)題中常見的幻覺和遺漏問題，他們開發(fā)了一個(gè)精細(xì)的人工標(biāo)注流程，準(zhǔn)確捕捉復(fù)雜的動(dòng)作和場景中的文字。此外，為了編碼更深層的視覺敘事，他們使用人機(jī)協(xié)作工作流程標(biāo)注關(guān)鍵的電影元素，如攝像機(jī)運(yùn)動(dòng)和鏡頭構(gòu)圖。

在模型架構(gòu)設(shè)計(jì)上，GLM-4.1V-Thinking采用了三個(gè)核心組件：視覺編碼器、MLP適配器和大語言模型解碼器。研究團(tuán)隊(duì)使用AIMv2-Huge作為視覺編碼器，GLM作為語言模型。為了處理視頻輸入，他們將原始的2D卷積替換為3D卷積，實(shí)現(xiàn)了2倍的時(shí)間下采樣，從而提高模型效率。

為了支持任意圖像分辨率和縱橫比，研究團(tuán)隊(duì)引入了兩個(gè)關(guān)鍵改進(jìn)。首先，他們集成了2D-RoPE技術(shù)，使模型能夠有效處理極端縱橫比（超過200:1）或高分辨率（超過4K）的圖像。其次，為了保持預(yù)訓(xùn)練ViT的基礎(chǔ)能力，他們保留了原始的可學(xué)習(xí)絕對(duì)位置嵌入。在訓(xùn)練過程中，這些嵌入通過雙三次插值動(dòng)態(tài)適應(yīng)可變分辨率輸入。

對(duì)于視頻輸入的時(shí)間建模，研究團(tuán)隊(duì)在每個(gè)幀標(biāo)記后插入時(shí)間索引標(biāo)記，其中時(shí)間索引通過將每幀的時(shí)間戳編碼為字符串來實(shí)現(xiàn)。與多圖像輸入不同，視頻幀形成時(shí)間上連貫的序列。這種設(shè)計(jì)明確告知模型真實(shí)世界的時(shí)間戳和幀之間的時(shí)間距離，從而提升其時(shí)間理解和定位能力。

在監(jiān)督微調(diào)階段，研究團(tuán)隊(duì)的目標(biāo)是將基礎(chǔ)視覺語言模型轉(zhuǎn)換為能夠進(jìn)行長鏈?zhǔn)剿季S推理的模型。他們精心策劃了一個(gè)長思維鏈語料庫，涵蓋可驗(yàn)證領(lǐng)域（如STEM問題）和不可驗(yàn)證任務(wù)（如指令遵循、開放式寫作）。與以往將SFT應(yīng)用于短思維鏈數(shù)據(jù)的工作流程不同，他們故意省略了這一步驟。他們認(rèn)為SFT的作用不是注入新知識(shí)，而是將模型現(xiàn)有的視覺語言理解與更有效的思考和回應(yīng)風(fēng)格對(duì)齊。

在回應(yīng)格式設(shè)計(jì)上，每個(gè)回應(yīng)都遵循標(biāo)準(zhǔn)化結(jié)構(gòu)： {思考內(nèi)容} {回答內(nèi)容} 。思考部分捕捉模型的推理過程，包括反思、回溯、重試和驗(yàn)證等策略?；卮鸩糠殖尸F(xiàn)簡潔、完整且邏輯合理的解決方案。對(duì)于有特定最終答案的可驗(yàn)證任務(wù)，答案部分的最終結(jié)果需要用<|begin_of_box|>和<|end_of_box|>包裝，并且只接受一個(gè)框標(biāo)跨度。

研究團(tuán)隊(duì)發(fā)現(xiàn)，冷啟動(dòng)數(shù)據(jù)集的質(zhì)量對(duì)RL訓(xùn)練的穩(wěn)定性至關(guān)重要。在實(shí)踐中，他們發(fā)現(xiàn)構(gòu)造不當(dāng)?shù)臄?shù)據(jù)可能導(dǎo)致訓(xùn)練不穩(wěn)定甚至崩潰。為了緩解這個(gè)問題，他們實(shí)施了嚴(yán)格的數(shù)據(jù)清理流程，強(qiáng)制嚴(yán)格遵守格式約定（如正確使用和標(biāo)簽），并移除推理風(fēng)格不一致或嘈雜的示例。

強(qiáng)化學(xué)習(xí)階段是整個(gè)訓(xùn)練過程的關(guān)鍵。在這個(gè)階段，研究團(tuán)隊(duì)主要依靠強(qiáng)化學(xué)習(xí)來提升模型性能。他們采用了可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)（RLVR）和人類反饋強(qiáng)化學(xué)習(xí)（RLHF）的組合，在所有多模態(tài)域和能力上進(jìn)行大規(guī)模RL訓(xùn)練，包括STEM問題求解（如數(shù)學(xué)、物理、化學(xué)）、定位、光學(xué)字符識(shí)別（OCR）、視頻理解、GUI代理、圖表和文檔理解、邏輯推理以及指令遵循。

在獎(jiǎng)勵(lì)系統(tǒng)設(shè)計(jì)上，研究團(tuán)隊(duì)建立了一個(gè)兼容RLVR和RLHF的獎(jiǎng)勵(lì)系統(tǒng)，并為每個(gè)多模態(tài)域進(jìn)行了定制。對(duì)于RLVR任務(wù)，系統(tǒng)首先從生成輸出中提取包含最終答案的片段，然后將這個(gè)關(guān)鍵答案與參考答案進(jìn)行比較以確定正確性，最后返回二進(jìn)制（0/1）或連續(xù)形式的獎(jiǎng)勵(lì)值。對(duì)于RLHF任務(wù)，系統(tǒng)直接獲取輸出的答案片段，并使用獎(jiǎng)勵(lì)模型進(jìn)行評(píng)分。

研究團(tuán)隊(duì)發(fā)現(xiàn)，在訓(xùn)練統(tǒng)一的VLM處理不同技能時(shí)，即使某個(gè)單一能力的獎(jiǎng)勵(lì)信號(hào)存在任何弱點(diǎn)，都可能破壞整個(gè)訓(xùn)練過程。他們通過實(shí)驗(yàn)發(fā)現(xiàn)，即使STEM子域提供了高質(zhì)量獎(jiǎng)勵(lì)，但多圖像QA任務(wù)的獎(jiǎng)勵(lì)缺陷也會(huì)導(dǎo)致所有域的模型崩潰。這強(qiáng)調(diào)了穩(wěn)定、有效的RL需要在每個(gè)域中都有精心調(diào)整、抗黑客攻擊的驗(yàn)證器。

為了應(yīng)對(duì)這個(gè)挑戰(zhàn)，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)領(lǐng)域特定的獎(jiǎng)勵(lì)系統(tǒng)，具有以下特點(diǎn)：共享驗(yàn)證函數(shù)（如格式驗(yàn)證、框內(nèi)容提取和精確匹配等常見檢查被實(shí)現(xiàn)為可重用函數(shù)）、領(lǐng)域特定模塊（每個(gè)域都有自己的子模塊，支持復(fù)雜驗(yàn)證邏輯，包括分支工作流、功能評(píng)估和由自定義判斷提示和超參數(shù)驅(qū)動(dòng)的基于模型的判斷）以及單元測試（為了驗(yàn)證每個(gè)域中的獎(jiǎng)勵(lì)系統(tǒng)，他們定義了針對(duì)該域輸出分布的單元測試，并基于測試結(jié)果迭代改進(jìn)獎(jiǎng)勵(lì)邏輯）。

研究團(tuán)隊(duì)提出了一種名為"帶課程采樣的強(qiáng)化學(xué)習(xí)"（RLCS）的創(chuàng)新方法。這種方法的核心思想是動(dòng)態(tài)調(diào)整訓(xùn)練樣本的難度，以匹配模型不斷發(fā)展的能力。就像為學(xué)生安排學(xué)習(xí)進(jìn)度一樣，太簡單的題目無法促進(jìn)學(xué)習(xí)，太難的題目又會(huì)讓學(xué)生挫敗，只有適中難度的題目才能最大化學(xué)習(xí)效果。

在RLCS框架中，研究團(tuán)隊(duì)采用了自適應(yīng)課程，持續(xù)調(diào)整訓(xùn)練樣本的難度以匹配模型不斷發(fā)展的能力。他們既評(píng)估樣本的離線難度也評(píng)估在線難度。在訓(xùn)練前，他們通過對(duì)整個(gè)數(shù)據(jù)集運(yùn)行多個(gè)成熟視覺語言模型（或早期RL檢查點(diǎn)）的pass@k評(píng)估，并將這些定量分?jǐn)?shù)與專家人類難度標(biāo)注合并，來評(píng)估每個(gè)樣本的固有難度。這個(gè)過程產(chǎn)生了一組細(xì)粒度的難度標(biāo)簽，將數(shù)據(jù)分為從非常簡單到非常困難的多個(gè)層次。

在訓(xùn)練過程中，研究團(tuán)隊(duì)執(zhí)行在線難度分級(jí)。對(duì)于每個(gè)生成的展開，他們記錄pass@k結(jié)果，將其映射到相應(yīng)的難度層，并將這些結(jié)果與離線標(biāo)簽合并。這種在線難度分布也為模型當(dāng)前性能提供了有價(jià)值的見解。通過利用這些難度標(biāo)簽以及模型的子類別性能，他們?cè)谟?xùn)練迭代的粒度上持續(xù)重新權(quán)衡不同難度類別的采樣比例。

為了提高強(qiáng)化學(xué)習(xí)的有效性，研究團(tuán)隊(duì)實(shí)施了幾個(gè)關(guān)鍵改進(jìn)。他們采用了更大的批量大小，當(dāng)在訓(xùn)練期間混合多域多模態(tài)數(shù)據(jù)時(shí)，推薦相對(duì)較大的批量大小以在長期內(nèi)實(shí)現(xiàn)更高的性能上限。他們還開發(fā)了通過比率EMA進(jìn)行動(dòng)態(tài)采樣擴(kuò)展的方法。在GRPO中，當(dāng)同時(shí)移除熵?fù)p失和KL損失時(shí)，完全由正確或完全由錯(cuò)誤樣本組成的展開批次不提供有用的梯度。換句話說，全正確/錯(cuò)誤提示減少了可用批量大小。隨著這些全正確或全錯(cuò)誤批次的比例增長或波動(dòng)，有效批量大小可能劇烈變化，降低訓(xùn)練穩(wěn)定性。

研究團(tuán)隊(duì)還實(shí)施了強(qiáng)制回答機(jī)制。當(dāng)思考過程變得過長時(shí)，可能會(huì)被展開長度限制截?cái)?。因?yàn)槟Ｐ碗S后無法產(chǎn)生答案，通常會(huì)被分配零獎(jiǎng)勵(lì)。然而，這種冗長的推理不一定是錯(cuò)誤的——對(duì)于困難問題，過長思考路徑的已生成部分可能是完全有效的。以這種方式截?cái)嗖粌H浪費(fèi)了展開預(yù)算，還向訓(xùn)練注入了噪音。為了解決這個(gè)問題，他們通過插入標(biāo)記后跟標(biāo)記來強(qiáng)制截?cái)啵@促使模型發(fā)出最終答案并允許他們?yōu)槠渫评斫o予公平獎(jiǎng)勵(lì)。

在訓(xùn)練穩(wěn)定性方面，研究團(tuán)隊(duì)識(shí)別了幾個(gè)顯著影響整個(gè)訓(xùn)練流程穩(wěn)定性的關(guān)鍵因素。他們發(fā)現(xiàn)冷啟動(dòng)SFT數(shù)據(jù)的質(zhì)量對(duì)訓(xùn)練穩(wěn)定性有重要影響，因此強(qiáng)烈建議將冷啟動(dòng)數(shù)據(jù)質(zhì)量維持在某個(gè)閾值之上。他們移除了熵?fù)p失，因?yàn)榘l(fā)現(xiàn)加入熵?fù)p失來促進(jìn)多樣性可能導(dǎo)致模型產(chǎn)生亂碼輸出，最終導(dǎo)致訓(xùn)練崩潰。在展開過程中，他們使用top-p = 1而不是更小的值來產(chǎn)生更穩(wěn)定的RL訓(xùn)練。

在基礎(chǔ)設(shè)施優(yōu)化方面，研究團(tuán)隊(duì)廣泛優(yōu)化了RL基礎(chǔ)設(shè)施，專注于幾個(gè)關(guān)鍵組件。他們實(shí)現(xiàn)了跨DP等級(jí)的序列長度負(fù)載平衡，因?yàn)槊總€(gè)樣本的展開長度事先未知，一些等級(jí)可能被分配許多極長序列（如視頻或長文檔提示，或具有長回應(yīng)的困難問題）。他們還采用了序列打包和梯度累積的等級(jí)內(nèi)訓(xùn)練方法，因?yàn)镽L中樣本長度的不可預(yù)測變化使得無法提前知道每個(gè)DP等級(jí)將執(zhí)行多少次前向傳遞。

在評(píng)估方面，研究團(tuán)隊(duì)對(duì)GLM-4.1V-9B-Thinking進(jìn)行了全面評(píng)估，涵蓋28個(gè)公共基準(zhǔn)測試，包括八個(gè)不同類別：通用VQA、STEM、OCR和圖表、長文檔、視覺定位、GUI代理、編程和視頻理解。評(píng)估結(jié)果顯示，GLM-4.1V-9B-Thinking在10B參數(shù)以下的模型中在23個(gè)基準(zhǔn)測試上創(chuàng)造了新的最先進(jìn)性能，展現(xiàn)了在廣泛多模態(tài)任務(wù)譜上的一致且強(qiáng)勁的性能。

在通用VQA領(lǐng)域，GLM-4.1V-9B-Thinking在五個(gè)廣泛使用的基準(zhǔn)測試上超越了所有10B以下的競爭開源模型，涵蓋單圖像和多圖像設(shè)置。在STEM類別中，該模型在MMMU_Val、MMMU_Pro、VideoMMMU和AI2D等具有挑戰(zhàn)性的科學(xué)和工程基準(zhǔn)測試上取得了最高性能。在OCR和圖表領(lǐng)域，GLM-4.1V-9B-Thinking在ChartQAPro和ChartMuseum上創(chuàng)造了新的最先進(jìn)分?jǐn)?shù)。對(duì)于長文檔理解，GLM-4.1V-9B-Thinking在MMLongBench上超越了所有其他模型。

值得注意的是，盡管GLM-4.1V-9B-Thinking的規(guī)模相對(duì)較小，但在28個(gè)基準(zhǔn)測試中的18個(gè)上超越了規(guī)模大得多的Qwen2.5-VL-72B模型，包括MMStar、MUIRBENCH、MMMU_Pro和ChartMuseum等特別具有挑戰(zhàn)性的任務(wù)。與專有的GPT-4o相比，GLM-4.1V-9B-Thinking在大多數(shù)任務(wù)上取得了優(yōu)異結(jié)果，盡管GPT-4o具有顯著更大的規(guī)模和閉源優(yōu)勢。

為了探索多域強(qiáng)化學(xué)習(xí)中的跨域泛化現(xiàn)象，研究團(tuán)隊(duì)選擇了四個(gè)代表性域：STEM、OCR和圖表、定位和GUI代理。實(shí)驗(yàn)結(jié)果表明，強(qiáng)化學(xué)習(xí)展現(xiàn)了強(qiáng)大的跨域泛化和相互促進(jìn)。在一個(gè)域上的訓(xùn)練提升了其他域的性能，而跨域聯(lián)合訓(xùn)練在每個(gè)域中產(chǎn)生了更大的改進(jìn)。這種協(xié)同效應(yīng)可能是GLM-4.1V-9B-Thinking卓越性能的基礎(chǔ)。

研究團(tuán)隊(duì)也坦誠地討論了當(dāng)前研究的局限性。首先，雖然RL提高了任務(wù)完成率，但并不一致地改善推理質(zhì)量。在某些情況下，模型產(chǎn)生正確答案但依賴錯(cuò)誤的推理步驟。這個(gè)問題的出現(xiàn)是因?yàn)楫?dāng)前的獎(jiǎng)勵(lì)模型通常評(píng)估最終結(jié)果而不評(píng)估中間推理步驟。因此，如果有缺陷或幻覺的推理鏈產(chǎn)生正確答案，可能會(huì)被無意中強(qiáng)化。

其次，RL訓(xùn)練可能表現(xiàn)出不穩(wěn)定性。早期實(shí)驗(yàn)表明，設(shè)置上的微小變化可能導(dǎo)致推理深度或輸出風(fēng)格的顯著變化。盡管后期版本的改進(jìn)（如改進(jìn)的獎(jiǎng)勵(lì)設(shè)計(jì)和增強(qiáng)的冷啟動(dòng)數(shù)據(jù)）使訓(xùn)練更加穩(wěn)定，但剩余的敏感性表明大規(guī)模RL優(yōu)化中的更深層挑戰(zhàn)。

第三，盡管GLM-4.1V-9B-Thinking在各種任務(wù)上表現(xiàn)強(qiáng)勁，但在復(fù)雜場景中仍有困難。涉及雜亂圖像、遮擋物體或模糊視覺細(xì)節(jié)的情況可能導(dǎo)致模型出現(xiàn)感知錯(cuò)誤，從而損害其推理能力。在這些條件下，模型可能訴諸猜測或一般假設(shè)，而不是進(jìn)行基于根據(jù)的推理。

展望未來，研究團(tuán)隊(duì)認(rèn)為一個(gè)關(guān)鍵方向是改進(jìn)模型推理的監(jiān)督和評(píng)估方式。未來的獎(jiǎng)勵(lì)模型應(yīng)該不僅評(píng)估最終答案，還要評(píng)估中間推理步驟，積極檢測幻覺和標(biāo)記邏輯不一致。對(duì)于具有主觀評(píng)估的任務(wù)，探索防止獎(jiǎng)勵(lì)黑客攻擊的策略也是朝向通用智能的必要步驟。

研究團(tuán)隊(duì)還對(duì)多模態(tài)訓(xùn)練對(duì)純文本推理任務(wù)的潛在益處感興趣。例如，理解視覺推理任務(wù)（如解釋圖像中的代碼）是否能增強(qiáng)純文本編程任務(wù)的性能是一個(gè)有前景的研究方向。探索視覺和語言模態(tài)如何相互強(qiáng)化可能會(huì)帶來通用推理能力的重大進(jìn)展。

隨著模型能力的提高，評(píng)估框架也必須相應(yīng)發(fā)展。許多當(dāng)前基準(zhǔn)測試正接近飽和或無法有效識(shí)別關(guān)鍵錯(cuò)誤，如推理鏈中的幻覺。未來的基準(zhǔn)測試應(yīng)該既更具挑戰(zhàn)性又更具診斷性，專門設(shè)計(jì)用于檢測更多失敗模式，如捷徑推理或幻覺。

總的來說，GLM-4.1V-9B-Thinking代表了朝向通用多模態(tài)推理的重要一步。通過推理導(dǎo)向的訓(xùn)練框架，該模型學(xué)會(huì)了在視覺、文本、數(shù)學(xué)、科學(xué)和代理域中進(jìn)行推理。研究團(tuán)隊(duì)將GLM-4.1V-9B-Thinking開源，以支持多模態(tài)推理的進(jìn)一步研究。這項(xiàng)工作不僅推進(jìn)了人工智能的技術(shù)邊界，也為未來開發(fā)更智能、更可靠的AI系統(tǒng)奠定了堅(jiān)實(shí)基礎(chǔ)。

Q&A

Q1：GLM-4.1V-Thinking的"思考"功能是什么意思？它真的會(huì)思考嗎？ A：GLM-4.1V-Thinking的"思考"指的是模型在給出最終答案前會(huì)先生成詳細(xì)的推理過程，就像人類解決問題時(shí)的內(nèi)心獨(dú)白。雖然這不是真正意義上的人類思考，但模型會(huì)展示完整的分析步驟、考慮不同可能性、甚至推翻之前的想法重新思考，讓整個(gè)推理過程更加透明和可靠。

Q2：這個(gè)模型有什么實(shí)際用途？普通人能用到嗎？ A：GLM-4.1V-9B-Thinking在多個(gè)領(lǐng)域都有實(shí)際應(yīng)用價(jià)值，包括幫助學(xué)生解決數(shù)學(xué)物理題、協(xié)助醫(yī)生分析醫(yī)療圖像、輔助程序員調(diào)試代碼、幫助設(shè)計(jì)師生成UI界面等。研究團(tuán)隊(duì)已經(jīng)開源了這個(gè)模型，普通人可以通過GitHub（https://github.com/THUDM/GLM-4.1V-Thinking）獲取相關(guān)資源，不過使用起來可能需要一定的技術(shù)背景。

Q3：GLM-4.1V-Thinking比其他AI模型強(qiáng)在哪里？ A：最大的優(yōu)勢是它具備深度推理能力，不會(huì)急著給出答案而是先仔細(xì)思考。在性能上，這個(gè)只有90億參數(shù)的模型在很多任務(wù)上甚至超越了720億參數(shù)的大型模型，特別是在數(shù)學(xué)解題、視頻理解、圖表分析等復(fù)雜任務(wù)上表現(xiàn)突出。更重要的是，它的推理過程是透明的，用戶可以看到模型是如何一步步得出結(jié)論的。

多模態(tài)AI強(qiáng)化學(xué)習(xí)視覺推理

分享至

1贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<style id="vzq9j"><rp id="vzq9j"></rp></style>