av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<wbr id="onfs1"><menu id="onfs1"></menu></wbr>

<sub id="onfs1"></sub>

<sub id="onfs1"></sub>

<label id="onfs1"><track id="onfs1"></track></label>

<cite id="onfs1"></cite>

<blockquote id="onfs1"></blockquote>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

通過(guò)"冷啟動(dòng)"強(qiáng)化學(xué)習(xí)提升多模態(tài)模型的推理能力：上海交大團(tuán)隊(duì)的最新研究突破

多模態(tài)推理強(qiáng)化學(xué)習(xí)思維鏈推理

通過(guò)"冷啟動(dòng)"強(qiáng)化學(xué)習(xí)提升多模態(tài)模型的推理能力：上海交大團(tuán)隊(duì)的最新研究突破

作者：科技行者

2025-06-02 16:32

分享至：

上海交通大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)多模態(tài)大語(yǔ)言模型中的"啊哈時(shí)刻"（自我反思模式）雖存在但并不意味著推理能力提升。他們提出了"冷啟動(dòng)強(qiáng)化學(xué)習(xí)"兩階段方法：先用監(jiān)督微調(diào)建立推理模式，再通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化。實(shí)驗(yàn)表明，這種方法在多個(gè)多模態(tài)數(shù)學(xué)推理基準(zhǔn)上表現(xiàn)卓越，使3B參數(shù)模型達(dá)到接近甚至超越部分7B模型的性能，為增強(qiáng)多模態(tài)AI推理能力提供了有效路徑。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-02 16:32 ? 科技行者

想象一下，你擁有一個(gè)智能助手，這個(gè)助手不僅能理解你說(shuō)的話，還能看懂圖片中的內(nèi)容并解答復(fù)雜的數(shù)學(xué)問(wèn)題。但問(wèn)題是，它有時(shí)候會(huì)答非所問(wèn)，或者明明看起來(lái)在認(rèn)真思考，卻給出錯(cuò)誤答案。為什么會(huì)這樣？如何讓這個(gè)助手變得更聰明？這正是上海交通大學(xué)魏來(lái)、李玉婷、鄭凱鵬等研究團(tuán)隊(duì)在2025年5月發(fā)布的最新研究所關(guān)注的問(wèn)題。

這項(xiàng)研究由上海交通大學(xué)計(jì)算機(jī)科學(xué)學(xué)院、上海創(chuàng)新研究院、中關(guān)村研究院和利哈伊大學(xué)的研究人員共同完成，并以《通過(guò)冷啟動(dòng)強(qiáng)化學(xué)習(xí)提升多模態(tài)推理》為題發(fā)表在arXiv預(yù)印本平臺(tái)（arXiv:2505.22334v1）。研究團(tuán)隊(duì)為了讓擁有視覺(jué)和語(yǔ)言能力的大型模型（也就是多模態(tài)大語(yǔ)言模型，簡(jiǎn)稱MLLM）變得更擅長(zhǎng)解決復(fù)雜推理問(wèn)題，開發(fā)了一種全新的訓(xùn)練方法。

在解釋這項(xiàng)研究之前，我們先來(lái)聊聊背景。近年來(lái)，像ChatGPT這樣的大語(yǔ)言模型（LLM）展現(xiàn)出了令人印象深刻的推理能力，它們能夠一步步分析問(wèn)題并給出解決方案。這種能力被稱為"思維鏈"（Chain-of-Thought）推理。特別是，當(dāng)這些模型在解題過(guò)程中突然意識(shí)到自己的錯(cuò)誤并進(jìn)行自我糾正時(shí)，研究人員稱之為"啊哈時(shí)刻"（aha moment）。許多研究者認(rèn)為，強(qiáng)化學(xué)習(xí)（RL）是培養(yǎng)這種能力的關(guān)鍵。

但是，當(dāng)這種能力被應(yīng)用到既能看圖又能理解文字的多模態(tài)模型時(shí)，情況變得更加復(fù)雜。想象一下，模型不僅要理解文字描述的數(shù)學(xué)問(wèn)題，還要看懂題目中的幾何圖形、圖表或表格，然后正確分析并解答。這就像是讓一個(gè)學(xué)生同時(shí)應(yīng)對(duì)數(shù)學(xué)、物理和藝術(shù)鑒賞的綜合考試，難度陡然提升。

現(xiàn)在，來(lái)看看上海交大團(tuán)隊(duì)的研究發(fā)現(xiàn)和創(chuàng)新方法。

一、"啊哈時(shí)刻"的迷思：自我反思不等于真正的思考能力

研究團(tuán)隊(duì)首先發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：許多研究者認(rèn)為強(qiáng)化學(xué)習(xí)可以讓模型產(chǎn)生"啊哈時(shí)刻"，即模型能夠自我反思并糾正錯(cuò)誤，這被視為思考能力提升的標(biāo)志。然而，上海交大團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)，這種反思模式實(shí)際上在未經(jīng)強(qiáng)化學(xué)習(xí)訓(xùn)練的模型中就已經(jīng)存在！

具體來(lái)說(shuō)，研究團(tuán)隊(duì)對(duì)Qwen2.5-VL模型進(jìn)行了測(cè)試，發(fā)現(xiàn)該模型在回答問(wèn)題時(shí)已經(jīng)會(huì)使用"讓我們重新評(píng)估"、"讓我們重新檢查"等反思性表達(dá)。更重要的是，他們發(fā)現(xiàn)這些看似反思的表達(dá)與模型實(shí)際推理能力之間并沒(méi)有正相關(guān)關(guān)系。

想象一下，這就像一個(gè)學(xué)生在考試中寫道："等等，我剛才的思路可能有問(wèn)題，讓我重新思考一下..."但實(shí)際上，他仍然得出了錯(cuò)誤答案。這種表面的自我反思并不能真正提高解題能力。

研究團(tuán)隊(duì)舉了一個(gè)具體例子：當(dāng)一個(gè)模型被問(wèn)到"在平行四邊形ABCD中，如果角B和角D的和為100°，那么角A的度數(shù)是多少？"時(shí)，模型會(huì)先假設(shè)一些條件，然后突然說(shuō)："這是不正確的，我們需要重新評(píng)估問(wèn)題。"雖然它表現(xiàn)出了反思的跡象，但最終給出的答案仍然是錯(cuò)誤的。

這一發(fā)現(xiàn)顛覆了之前的普遍觀點(diǎn)，表明"啊哈時(shí)刻"可能只是一種表面現(xiàn)象，而非真正推理能力提升的證據(jù)。研究團(tuán)隊(duì)將這種現(xiàn)象形象地比喻為"海市蜃樓"——看起來(lái)像是思考能力的提升，實(shí)際上可能只是表達(dá)方式的變化。

二、冷啟動(dòng)強(qiáng)化學(xué)習(xí)：兩階段訓(xùn)練的創(chuàng)新方法

基于上述發(fā)現(xiàn)，研究團(tuán)隊(duì)提出了一種新的訓(xùn)練方法：冷啟動(dòng)強(qiáng)化學(xué)習(xí)。這種方法包含兩個(gè)關(guān)鍵階段：

第一階段是"冷啟動(dòng)"，就像汽車在寒冷的冬天需要先熱一會(huì)兒發(fā)動(dòng)機(jī)才能正常行駛一樣。研究團(tuán)隊(duì)使用監(jiān)督微調(diào)（Supervised Fine-Tuning，簡(jiǎn)稱SFT）的方法，讓模型學(xué)習(xí)高質(zhì)量的推理模式。這就像是先給學(xué)生提供詳細(xì)的解題步驟和思考方法，讓他們掌握基本的思維框架。

研究團(tuán)隊(duì)探索了多種構(gòu)建"思維鏈"數(shù)據(jù)的方法：

1. 蒸餾式思維鏈（Distilled-CoT）：研究團(tuán)隊(duì)使用更大的模型（如Qwen2.5-VL-7B和Qwen2.5-VL-32B）生成高質(zhì)量的思維鏈回答，然后讓較小的模型學(xué)習(xí)這些思維模式。這就像是讓優(yōu)秀的老師示范解題，然后讓學(xué)生模仿學(xué)習(xí)。

2. 反思式思維鏈（Reflection-CoT）：研究團(tuán)隊(duì)收集了包含正確和錯(cuò)誤回答的數(shù)據(jù)，并創(chuàng)建了一種兩步推理模式。當(dāng)模型給出錯(cuò)誤答案后，添加一段反思性文字（如"等等，讓我們從不同角度思考一下..."），然后提供正確答案。這就像教導(dǎo)學(xué)生在犯錯(cuò)后如何進(jìn)行有效的自我糾正。

3. 描述式思維鏈（Caption-CoT）：模型先描述圖像內(nèi)容，再提供答案。這就像教導(dǎo)學(xué)生先仔細(xì)觀察題目中的圖形或圖表，理解題意后再解答。

4. 自我批評(píng)式思維鏈（Self-Critic-CoT）：模型先生成初步答案，然后對(duì)自己的回答進(jìn)行批評(píng)性評(píng)估，最后提供改進(jìn)后的最終答案。這就像教導(dǎo)學(xué)生如何批判性地審視自己的解題過(guò)程。

第二階段是強(qiáng)化學(xué)習(xí)，研究團(tuán)隊(duì)使用了GRPO（Group-Regularized Policy Optimization）算法。在這個(gè)階段，模型通過(guò)不斷嘗試和獲得反饋來(lái)優(yōu)化自己的推理能力。就像一個(gè)學(xué)生在掌握了基本解題方法后，通過(guò)大量練習(xí)和反饋不斷提升自己的能力。

這種兩階段方法的核心思想是：先給模型提供高質(zhì)量的推理模式作為基礎(chǔ)（冷啟動(dòng)），然后通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化和激活這些能力。就像是先教會(huì)學(xué)生正確的解題方法，然后通過(guò)大量練習(xí)和反饋幫助他們真正掌握并靈活運(yùn)用這些方法。

三、實(shí)驗(yàn)結(jié)果：小模型也能有大智慧

研究團(tuán)隊(duì)在四個(gè)多模態(tài)數(shù)學(xué)推理基準(zhǔn)測(cè)試上評(píng)估了他們的方法：MathVision、MathVista、MathVerse和We-Math。這些測(cè)試涵蓋了各種復(fù)雜的視覺(jué)數(shù)學(xué)問(wèn)題，包括幾何題、圖表分析和表格理解等。

實(shí)驗(yàn)結(jié)果令人印象深刻。在7B參數(shù)規(guī)模（相當(dāng)于較大的模型）上，他們的方法相比基礎(chǔ)模型（Qwen2.5-VL-7B）取得了顯著提升：在MathVista上從66.3%提升到73.4%，在We-Math上從62.9%提升到70.4%。平均而言，他們的7B模型在所有基準(zhǔn)測(cè)試上的得分提高了6.19分。

更令人驚訝的是，他們的3B參數(shù)規(guī)模模型（相當(dāng)于較小的模型）也取得了出色的表現(xiàn)。平均而言，3B模型的得分提高了10.84分，甚至在某些測(cè)試中超過(guò)了一些7B規(guī)模的模型，如Qwen2.5-VL-7B和VLAA-Thinker-7B。這就像是一個(gè)初中生通過(guò)有效的學(xué)習(xí)方法，在某些題目上能夠超越高中生的表現(xiàn)！

為了更好地理解"冷啟動(dòng)"和強(qiáng)化學(xué)習(xí)之間的關(guān)系，研究團(tuán)隊(duì)進(jìn)行了大量的消融實(shí)驗(yàn)（即移除某些組件來(lái)觀察效果變化的實(shí)驗(yàn)）。他們發(fā)現(xiàn)：

1. 單獨(dú)使用監(jiān)督微調(diào)（SFT）或強(qiáng)化學(xué)習(xí)（RL）都能提高模型性能，但兩者結(jié)合效果最佳。這就像學(xué)習(xí)任何技能一樣，理論學(xué)習(xí)（SFT）和實(shí)踐練習(xí)（RL）相結(jié)合才能取得最佳效果。

2. 冷啟動(dòng)階段的性能與最終模型質(zhì)量有很強(qiáng)的正相關(guān)關(guān)系。這表明投資高質(zhì)量的監(jiān)督數(shù)據(jù)是至關(guān)重要的。就像是奠定良好的基礎(chǔ)知識(shí)對(duì)學(xué)生的長(zhǎng)期學(xué)習(xí)成果至關(guān)重要。

3. 從更強(qiáng)大的模型（如32B參數(shù)模型）中蒸餾知識(shí)，效果優(yōu)于從較小模型（如7B參數(shù)模型）中蒸餾。這就像是向特級(jí)教師學(xué)習(xí)比向普通教師學(xué)習(xí)更有效。

四、重新審視"啊哈時(shí)刻"：形式與實(shí)質(zhì)的區(qū)別

研究團(tuán)隊(duì)還專門設(shè)計(jì)了實(shí)驗(yàn)來(lái)重新評(píng)估"啊哈時(shí)刻"的作用。他們構(gòu)建了一個(gè)只包含展示"啊哈時(shí)刻"模式的數(shù)據(jù)集（Reflection-CoT v2），并與隨機(jī)選擇的32B模型蒸餾數(shù)據(jù)進(jìn)行比較。

結(jié)果顯示，在"啊哈時(shí)刻"數(shù)據(jù)上訓(xùn)練的模型實(shí)際上表現(xiàn)不如在隨機(jī)選擇數(shù)據(jù)上訓(xùn)練的模型。這進(jìn)一步證明了"啊哈時(shí)刻"的表面形式并不能真正提升模型的推理能力。

研究團(tuán)隊(duì)還探究了數(shù)據(jù)質(zhì)量對(duì)模型性能的影響。他們發(fā)現(xiàn)，即使使用包含錯(cuò)誤答案的數(shù)據(jù)進(jìn)行訓(xùn)練，模型仍然能從中學(xué)習(xí)到有用的推理結(jié)構(gòu)。這表明思維鏈推理中的結(jié)構(gòu)模式可以獨(dú)立于解題正確性而被學(xué)習(xí)。就像學(xué)生可以從錯(cuò)誤示例中學(xué)習(xí)解題的邏輯結(jié)構(gòu)，即使答案本身是錯(cuò)誤的。

五、研究意義與未來(lái)展望

這項(xiàng)研究的意義遠(yuǎn)超模型性能的提升。它揭示了一個(gè)重要洞見：看似高級(jí)的反思能力（"啊哈時(shí)刻"）可能只是一種表面現(xiàn)象，而真正的推理能力提升需要更加系統(tǒng)和有針對(duì)性的訓(xùn)練方法。

研究團(tuán)隊(duì)的兩階段訓(xùn)練方法——先進(jìn)行監(jiān)督微調(diào)，再進(jìn)行強(qiáng)化學(xué)習(xí)——為開發(fā)具有高級(jí)推理能力的多模態(tài)模型提供了一個(gè)可行且有效的框架。特別是，他們的方法能夠讓較小規(guī)模的模型（3B參數(shù)）達(dá)到接近甚至超越某些較大模型（7B參數(shù)）的性能，這對(duì)于資源受限的應(yīng)用場(chǎng)景具有重要意義。

未來(lái)，這種訓(xùn)練方法可能被應(yīng)用于各種需要復(fù)雜推理的多模態(tài)任務(wù)，如醫(yī)學(xué)圖像分析、科學(xué)文獻(xiàn)理解、復(fù)雜圖表解讀等。隨著模型能力的提升，我們可能會(huì)看到更多智能助手能夠準(zhǔn)確理解并解答涉及文字和圖像的復(fù)雜問(wèn)題，為教育、科研和日常生活帶來(lái)便利。

總的來(lái)說(shuō)，上海交大團(tuán)隊(duì)的研究不僅提升了多模態(tài)模型的推理能力，還為我們理解和培養(yǎng)人工智能的"思考能力"提供了新的視角。他們的方法就像是為AI提供了一套更系統(tǒng)、更有效的"學(xué)習(xí)方法"，而不僅僅是讓AI模仿表面的思考過(guò)程。隨著這類研究的深入，未來(lái)的AI助手可能會(huì)更加真正地"理解"我們的問(wèn)題，而不僅僅是表面上看起來(lái)在思考。

有興趣深入了解這項(xiàng)研究的讀者可以通過(guò)GitHub（https://github.com/waltonfuture/RL-with-Cold-Start）訪問(wèn)研究團(tuán)隊(duì)的代碼，或直接查閱原論文（arXiv:2505.22334v1）獲取更詳細(xì)的技術(shù)細(xì)節(jié)。

多模態(tài)推理強(qiáng)化學(xué)習(xí)思維鏈推理

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語(yǔ)言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù)，通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn