av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 通過(guò)"冷啟動(dòng)"強(qiáng)化學(xué)習(xí)提升多模態(tài)模型的推理能力:上海交大團(tuán)隊(duì)的最新研究突破

通過(guò)"冷啟動(dòng)"強(qiáng)化學(xué)習(xí)提升多模態(tài)模型的推理能力:上海交大團(tuán)隊(duì)的最新研究突破

2025-06-02 16:32
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-02 16:32 ? 科技行者

想象一下,你擁有一個(gè)智能助手,這個(gè)助手不僅能理解你說(shuō)的話,還能看懂圖片中的內(nèi)容并解答復(fù)雜的數(shù)學(xué)問(wèn)題。但問(wèn)題是,它有時(shí)候會(huì)答非所問(wèn),或者明明看起來(lái)在認(rèn)真思考,卻給出錯(cuò)誤答案。為什么會(huì)這樣?如何讓這個(gè)助手變得更聰明?這正是上海交通大學(xué)魏來(lái)、李玉婷、鄭凱鵬等研究團(tuán)隊(duì)在2025年5月發(fā)布的最新研究所關(guān)注的問(wèn)題。

這項(xiàng)研究由上海交通大學(xué)計(jì)算機(jī)科學(xué)學(xué)院、上海創(chuàng)新研究院、中關(guān)村研究院和利哈伊大學(xué)的研究人員共同完成,并以《通過(guò)冷啟動(dòng)強(qiáng)化學(xué)習(xí)提升多模態(tài)推理》為題發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.22334v1)。研究團(tuán)隊(duì)為了讓擁有視覺(jué)和語(yǔ)言能力的大型模型(也就是多模態(tài)大語(yǔ)言模型,簡(jiǎn)稱MLLM)變得更擅長(zhǎng)解決復(fù)雜推理問(wèn)題,開發(fā)了一種全新的訓(xùn)練方法。

在解釋這項(xiàng)研究之前,我們先來(lái)聊聊背景。近年來(lái),像ChatGPT這樣的大語(yǔ)言模型(LLM)展現(xiàn)出了令人印象深刻的推理能力,它們能夠一步步分析問(wèn)題并給出解決方案。這種能力被稱為"思維鏈"(Chain-of-Thought)推理。特別是,當(dāng)這些模型在解題過(guò)程中突然意識(shí)到自己的錯(cuò)誤并進(jìn)行自我糾正時(shí),研究人員稱之為"啊哈時(shí)刻"(aha moment)。許多研究者認(rèn)為,強(qiáng)化學(xué)習(xí)(RL)是培養(yǎng)這種能力的關(guān)鍵。

但是,當(dāng)這種能力被應(yīng)用到既能看圖又能理解文字的多模態(tài)模型時(shí),情況變得更加復(fù)雜。想象一下,模型不僅要理解文字描述的數(shù)學(xué)問(wèn)題,還要看懂題目中的幾何圖形、圖表或表格,然后正確分析并解答。這就像是讓一個(gè)學(xué)生同時(shí)應(yīng)對(duì)數(shù)學(xué)、物理和藝術(shù)鑒賞的綜合考試,難度陡然提升。

現(xiàn)在,來(lái)看看上海交大團(tuán)隊(duì)的研究發(fā)現(xiàn)和創(chuàng)新方法。

一、"啊哈時(shí)刻"的迷思:自我反思不等于真正的思考能力

研究團(tuán)隊(duì)首先發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:許多研究者認(rèn)為強(qiáng)化學(xué)習(xí)可以讓模型產(chǎn)生"啊哈時(shí)刻",即模型能夠自我反思并糾正錯(cuò)誤,這被視為思考能力提升的標(biāo)志。然而,上海交大團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),這種反思模式實(shí)際上在未經(jīng)強(qiáng)化學(xué)習(xí)訓(xùn)練的模型中就已經(jīng)存在!

具體來(lái)說(shuō),研究團(tuán)隊(duì)對(duì)Qwen2.5-VL模型進(jìn)行了測(cè)試,發(fā)現(xiàn)該模型在回答問(wèn)題時(shí)已經(jīng)會(huì)使用"讓我們重新評(píng)估"、"讓我們重新檢查"等反思性表達(dá)。更重要的是,他們發(fā)現(xiàn)這些看似反思的表達(dá)與模型實(shí)際推理能力之間并沒(méi)有正相關(guān)關(guān)系。

想象一下,這就像一個(gè)學(xué)生在考試中寫道:"等等,我剛才的思路可能有問(wèn)題,讓我重新思考一下..."但實(shí)際上,他仍然得出了錯(cuò)誤答案。這種表面的自我反思并不能真正提高解題能力。

研究團(tuán)隊(duì)舉了一個(gè)具體例子:當(dāng)一個(gè)模型被問(wèn)到"在平行四邊形ABCD中,如果角B和角D的和為100°,那么角A的度數(shù)是多少?"時(shí),模型會(huì)先假設(shè)一些條件,然后突然說(shuō):"這是不正確的,我們需要重新評(píng)估問(wèn)題。"雖然它表現(xiàn)出了反思的跡象,但最終給出的答案仍然是錯(cuò)誤的。

這一發(fā)現(xiàn)顛覆了之前的普遍觀點(diǎn),表明"啊哈時(shí)刻"可能只是一種表面現(xiàn)象,而非真正推理能力提升的證據(jù)。研究團(tuán)隊(duì)將這種現(xiàn)象形象地比喻為"海市蜃樓"——看起來(lái)像是思考能力的提升,實(shí)際上可能只是表達(dá)方式的變化。

二、冷啟動(dòng)強(qiáng)化學(xué)習(xí):兩階段訓(xùn)練的創(chuàng)新方法

基于上述發(fā)現(xiàn),研究團(tuán)隊(duì)提出了一種新的訓(xùn)練方法:冷啟動(dòng)強(qiáng)化學(xué)習(xí)。這種方法包含兩個(gè)關(guān)鍵階段:

第一階段是"冷啟動(dòng)",就像汽車在寒冷的冬天需要先熱一會(huì)兒發(fā)動(dòng)機(jī)才能正常行駛一樣。研究團(tuán)隊(duì)使用監(jiān)督微調(diào)(Supervised Fine-Tuning,簡(jiǎn)稱SFT)的方法,讓模型學(xué)習(xí)高質(zhì)量的推理模式。這就像是先給學(xué)生提供詳細(xì)的解題步驟和思考方法,讓他們掌握基本的思維框架。

研究團(tuán)隊(duì)探索了多種構(gòu)建"思維鏈"數(shù)據(jù)的方法:

1. 蒸餾式思維鏈(Distilled-CoT):研究團(tuán)隊(duì)使用更大的模型(如Qwen2.5-VL-7B和Qwen2.5-VL-32B)生成高質(zhì)量的思維鏈回答,然后讓較小的模型學(xué)習(xí)這些思維模式。這就像是讓優(yōu)秀的老師示范解題,然后讓學(xué)生模仿學(xué)習(xí)。

2. 反思式思維鏈(Reflection-CoT):研究團(tuán)隊(duì)收集了包含正確和錯(cuò)誤回答的數(shù)據(jù),并創(chuàng)建了一種兩步推理模式。當(dāng)模型給出錯(cuò)誤答案后,添加一段反思性文字(如"等等,讓我們從不同角度思考一下..."),然后提供正確答案。這就像教導(dǎo)學(xué)生在犯錯(cuò)后如何進(jìn)行有效的自我糾正。

3. 描述式思維鏈(Caption-CoT):模型先描述圖像內(nèi)容,再提供答案。這就像教導(dǎo)學(xué)生先仔細(xì)觀察題目中的圖形或圖表,理解題意后再解答。

4. 自我批評(píng)式思維鏈(Self-Critic-CoT):模型先生成初步答案,然后對(duì)自己的回答進(jìn)行批評(píng)性評(píng)估,最后提供改進(jìn)后的最終答案。這就像教導(dǎo)學(xué)生如何批判性地審視自己的解題過(guò)程。

第二階段是強(qiáng)化學(xué)習(xí),研究團(tuán)隊(duì)使用了GRPO(Group-Regularized Policy Optimization)算法。在這個(gè)階段,模型通過(guò)不斷嘗試和獲得反饋來(lái)優(yōu)化自己的推理能力。就像一個(gè)學(xué)生在掌握了基本解題方法后,通過(guò)大量練習(xí)和反饋不斷提升自己的能力。

這種兩階段方法的核心思想是:先給模型提供高質(zhì)量的推理模式作為基礎(chǔ)(冷啟動(dòng)),然后通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化和激活這些能力。就像是先教會(huì)學(xué)生正確的解題方法,然后通過(guò)大量練習(xí)和反饋幫助他們真正掌握并靈活運(yùn)用這些方法。

三、實(shí)驗(yàn)結(jié)果:小模型也能有大智慧

研究團(tuán)隊(duì)在四個(gè)多模態(tài)數(shù)學(xué)推理基準(zhǔn)測(cè)試上評(píng)估了他們的方法:MathVision、MathVista、MathVerse和We-Math。這些測(cè)試涵蓋了各種復(fù)雜的視覺(jué)數(shù)學(xué)問(wèn)題,包括幾何題、圖表分析和表格理解等。

實(shí)驗(yàn)結(jié)果令人印象深刻。在7B參數(shù)規(guī)模(相當(dāng)于較大的模型)上,他們的方法相比基礎(chǔ)模型(Qwen2.5-VL-7B)取得了顯著提升:在MathVista上從66.3%提升到73.4%,在We-Math上從62.9%提升到70.4%。平均而言,他們的7B模型在所有基準(zhǔn)測(cè)試上的得分提高了6.19分。

更令人驚訝的是,他們的3B參數(shù)規(guī)模模型(相當(dāng)于較小的模型)也取得了出色的表現(xiàn)。平均而言,3B模型的得分提高了10.84分,甚至在某些測(cè)試中超過(guò)了一些7B規(guī)模的模型,如Qwen2.5-VL-7B和VLAA-Thinker-7B。這就像是一個(gè)初中生通過(guò)有效的學(xué)習(xí)方法,在某些題目上能夠超越高中生的表現(xiàn)!

為了更好地理解"冷啟動(dòng)"和強(qiáng)化學(xué)習(xí)之間的關(guān)系,研究團(tuán)隊(duì)進(jìn)行了大量的消融實(shí)驗(yàn)(即移除某些組件來(lái)觀察效果變化的實(shí)驗(yàn))。他們發(fā)現(xiàn):

1. 單獨(dú)使用監(jiān)督微調(diào)(SFT)或強(qiáng)化學(xué)習(xí)(RL)都能提高模型性能,但兩者結(jié)合效果最佳。這就像學(xué)習(xí)任何技能一樣,理論學(xué)習(xí)(SFT)和實(shí)踐練習(xí)(RL)相結(jié)合才能取得最佳效果。

2. 冷啟動(dòng)階段的性能與最終模型質(zhì)量有很強(qiáng)的正相關(guān)關(guān)系。這表明投資高質(zhì)量的監(jiān)督數(shù)據(jù)是至關(guān)重要的。就像是奠定良好的基礎(chǔ)知識(shí)對(duì)學(xué)生的長(zhǎng)期學(xué)習(xí)成果至關(guān)重要。

3. 從更強(qiáng)大的模型(如32B參數(shù)模型)中蒸餾知識(shí),效果優(yōu)于從較小模型(如7B參數(shù)模型)中蒸餾。這就像是向特級(jí)教師學(xué)習(xí)比向普通教師學(xué)習(xí)更有效。

四、重新審視"啊哈時(shí)刻":形式與實(shí)質(zhì)的區(qū)別

研究團(tuán)隊(duì)還專門設(shè)計(jì)了實(shí)驗(yàn)來(lái)重新評(píng)估"啊哈時(shí)刻"的作用。他們構(gòu)建了一個(gè)只包含展示"啊哈時(shí)刻"模式的數(shù)據(jù)集(Reflection-CoT v2),并與隨機(jī)選擇的32B模型蒸餾數(shù)據(jù)進(jìn)行比較。

結(jié)果顯示,在"啊哈時(shí)刻"數(shù)據(jù)上訓(xùn)練的模型實(shí)際上表現(xiàn)不如在隨機(jī)選擇數(shù)據(jù)上訓(xùn)練的模型。這進(jìn)一步證明了"啊哈時(shí)刻"的表面形式并不能真正提升模型的推理能力。

研究團(tuán)隊(duì)還探究了數(shù)據(jù)質(zhì)量對(duì)模型性能的影響。他們發(fā)現(xiàn),即使使用包含錯(cuò)誤答案的數(shù)據(jù)進(jìn)行訓(xùn)練,模型仍然能從中學(xué)習(xí)到有用的推理結(jié)構(gòu)。這表明思維鏈推理中的結(jié)構(gòu)模式可以獨(dú)立于解題正確性而被學(xué)習(xí)。就像學(xué)生可以從錯(cuò)誤示例中學(xué)習(xí)解題的邏輯結(jié)構(gòu),即使答案本身是錯(cuò)誤的。

五、研究意義與未來(lái)展望

這項(xiàng)研究的意義遠(yuǎn)超模型性能的提升。它揭示了一個(gè)重要洞見:看似高級(jí)的反思能力("啊哈時(shí)刻")可能只是一種表面現(xiàn)象,而真正的推理能力提升需要更加系統(tǒng)和有針對(duì)性的訓(xùn)練方法。

研究團(tuán)隊(duì)的兩階段訓(xùn)練方法——先進(jìn)行監(jiān)督微調(diào),再進(jìn)行強(qiáng)化學(xué)習(xí)——為開發(fā)具有高級(jí)推理能力的多模態(tài)模型提供了一個(gè)可行且有效的框架。特別是,他們的方法能夠讓較小規(guī)模的模型(3B參數(shù))達(dá)到接近甚至超越某些較大模型(7B參數(shù))的性能,這對(duì)于資源受限的應(yīng)用場(chǎng)景具有重要意義。

未來(lái),這種訓(xùn)練方法可能被應(yīng)用于各種需要復(fù)雜推理的多模態(tài)任務(wù),如醫(yī)學(xué)圖像分析、科學(xué)文獻(xiàn)理解、復(fù)雜圖表解讀等。隨著模型能力的提升,我們可能會(huì)看到更多智能助手能夠準(zhǔn)確理解并解答涉及文字和圖像的復(fù)雜問(wèn)題,為教育、科研和日常生活帶來(lái)便利。

總的來(lái)說(shuō),上海交大團(tuán)隊(duì)的研究不僅提升了多模態(tài)模型的推理能力,還為我們理解和培養(yǎng)人工智能的"思考能力"提供了新的視角。他們的方法就像是為AI提供了一套更系統(tǒng)、更有效的"學(xué)習(xí)方法",而不僅僅是讓AI模仿表面的思考過(guò)程。隨著這類研究的深入,未來(lái)的AI助手可能會(huì)更加真正地"理解"我們的問(wèn)題,而不僅僅是表面上看起來(lái)在思考。

有興趣深入了解這項(xiàng)研究的讀者可以通過(guò)GitHub(https://github.com/waltonfuture/RL-with-Cold-Start)訪問(wèn)研究團(tuán)隊(duì)的代碼,或直接查閱原論文(arXiv:2505.22334v1)獲取更詳細(xì)的技術(shù)細(xì)節(jié)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-