想象一下,你擁有一個(gè)智能助手,這個(gè)助手不僅能理解你說(shuō)的話,還能看懂圖片中的內(nèi)容并解答復(fù)雜的數(shù)學(xué)問(wèn)題。但問(wèn)題是,它有時(shí)候會(huì)答非所問(wèn),或者明明看起來(lái)在認(rèn)真思考,卻給出錯(cuò)誤答案。為什么會(huì)這樣?如何讓這個(gè)助手變得更聰明?這正是上海交通大學(xué)魏來(lái)、李玉婷、鄭凱鵬等研究團(tuán)隊(duì)在2025年5月發(fā)布的最新研究所關(guān)注的問(wèn)題。
這項(xiàng)研究由上海交通大學(xué)計(jì)算機(jī)科學(xué)學(xué)院、上海創(chuàng)新研究院、中關(guān)村研究院和利哈伊大學(xué)的研究人員共同完成,并以《通過(guò)冷啟動(dòng)強(qiáng)化學(xué)習(xí)提升多模態(tài)推理》為題發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.22334v1)。研究團(tuán)隊(duì)為了讓擁有視覺(jué)和語(yǔ)言能力的大型模型(也就是多模態(tài)大語(yǔ)言模型,簡(jiǎn)稱MLLM)變得更擅長(zhǎng)解決復(fù)雜推理問(wèn)題,開發(fā)了一種全新的訓(xùn)練方法。
在解釋這項(xiàng)研究之前,我們先來(lái)聊聊背景。近年來(lái),像ChatGPT這樣的大語(yǔ)言模型(LLM)展現(xiàn)出了令人印象深刻的推理能力,它們能夠一步步分析問(wèn)題并給出解決方案。這種能力被稱為"思維鏈"(Chain-of-Thought)推理。特別是,當(dāng)這些模型在解題過(guò)程中突然意識(shí)到自己的錯(cuò)誤并進(jìn)行自我糾正時(shí),研究人員稱之為"啊哈時(shí)刻"(aha moment)。許多研究者認(rèn)為,強(qiáng)化學(xué)習(xí)(RL)是培養(yǎng)這種能力的關(guān)鍵。
但是,當(dāng)這種能力被應(yīng)用到既能看圖又能理解文字的多模態(tài)模型時(shí),情況變得更加復(fù)雜。想象一下,模型不僅要理解文字描述的數(shù)學(xué)問(wèn)題,還要看懂題目中的幾何圖形、圖表或表格,然后正確分析并解答。這就像是讓一個(gè)學(xué)生同時(shí)應(yīng)對(duì)數(shù)學(xué)、物理和藝術(shù)鑒賞的綜合考試,難度陡然提升。
現(xiàn)在,來(lái)看看上海交大團(tuán)隊(duì)的研究發(fā)現(xiàn)和創(chuàng)新方法。
一、"啊哈時(shí)刻"的迷思:自我反思不等于真正的思考能力
研究團(tuán)隊(duì)首先發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:許多研究者認(rèn)為強(qiáng)化學(xué)習(xí)可以讓模型產(chǎn)生"啊哈時(shí)刻",即模型能夠自我反思并糾正錯(cuò)誤,這被視為思考能力提升的標(biāo)志。然而,上海交大團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),這種反思模式實(shí)際上在未經(jīng)強(qiáng)化學(xué)習(xí)訓(xùn)練的模型中就已經(jīng)存在!
具體來(lái)說(shuō),研究團(tuán)隊(duì)對(duì)Qwen2.5-VL模型進(jìn)行了測(cè)試,發(fā)現(xiàn)該模型在回答問(wèn)題時(shí)已經(jīng)會(huì)使用"讓我們重新評(píng)估"、"讓我們重新檢查"等反思性表達(dá)。更重要的是,他們發(fā)現(xiàn)這些看似反思的表達(dá)與模型實(shí)際推理能力之間并沒(méi)有正相關(guān)關(guān)系。
想象一下,這就像一個(gè)學(xué)生在考試中寫道:"等等,我剛才的思路可能有問(wèn)題,讓我重新思考一下..."但實(shí)際上,他仍然得出了錯(cuò)誤答案。這種表面的自我反思并不能真正提高解題能力。
研究團(tuán)隊(duì)舉了一個(gè)具體例子:當(dāng)一個(gè)模型被問(wèn)到"在平行四邊形ABCD中,如果角B和角D的和為100°,那么角A的度數(shù)是多少?"時(shí),模型會(huì)先假設(shè)一些條件,然后突然說(shuō):"這是不正確的,我們需要重新評(píng)估問(wèn)題。"雖然它表現(xiàn)出了反思的跡象,但最終給出的答案仍然是錯(cuò)誤的。
這一發(fā)現(xiàn)顛覆了之前的普遍觀點(diǎn),表明"啊哈時(shí)刻"可能只是一種表面現(xiàn)象,而非真正推理能力提升的證據(jù)。研究團(tuán)隊(duì)將這種現(xiàn)象形象地比喻為"海市蜃樓"——看起來(lái)像是思考能力的提升,實(shí)際上可能只是表達(dá)方式的變化。
二、冷啟動(dòng)強(qiáng)化學(xué)習(xí):兩階段訓(xùn)練的創(chuàng)新方法
基于上述發(fā)現(xiàn),研究團(tuán)隊(duì)提出了一種新的訓(xùn)練方法:冷啟動(dòng)強(qiáng)化學(xué)習(xí)。這種方法包含兩個(gè)關(guān)鍵階段:
第一階段是"冷啟動(dòng)",就像汽車在寒冷的冬天需要先熱一會(huì)兒發(fā)動(dòng)機(jī)才能正常行駛一樣。研究團(tuán)隊(duì)使用監(jiān)督微調(diào)(Supervised Fine-Tuning,簡(jiǎn)稱SFT)的方法,讓模型學(xué)習(xí)高質(zhì)量的推理模式。這就像是先給學(xué)生提供詳細(xì)的解題步驟和思考方法,讓他們掌握基本的思維框架。
研究團(tuán)隊(duì)探索了多種構(gòu)建"思維鏈"數(shù)據(jù)的方法:
1. 蒸餾式思維鏈(Distilled-CoT):研究團(tuán)隊(duì)使用更大的模型(如Qwen2.5-VL-7B和Qwen2.5-VL-32B)生成高質(zhì)量的思維鏈回答,然后讓較小的模型學(xué)習(xí)這些思維模式。這就像是讓優(yōu)秀的老師示范解題,然后讓學(xué)生模仿學(xué)習(xí)。
2. 反思式思維鏈(Reflection-CoT):研究團(tuán)隊(duì)收集了包含正確和錯(cuò)誤回答的數(shù)據(jù),并創(chuàng)建了一種兩步推理模式。當(dāng)模型給出錯(cuò)誤答案后,添加一段反思性文字(如"等等,讓我們從不同角度思考一下..."),然后提供正確答案。這就像教導(dǎo)學(xué)生在犯錯(cuò)后如何進(jìn)行有效的自我糾正。
3. 描述式思維鏈(Caption-CoT):模型先描述圖像內(nèi)容,再提供答案。這就像教導(dǎo)學(xué)生先仔細(xì)觀察題目中的圖形或圖表,理解題意后再解答。
4. 自我批評(píng)式思維鏈(Self-Critic-CoT):模型先生成初步答案,然后對(duì)自己的回答進(jìn)行批評(píng)性評(píng)估,最后提供改進(jìn)后的最終答案。這就像教導(dǎo)學(xué)生如何批判性地審視自己的解題過(guò)程。
第二階段是強(qiáng)化學(xué)習(xí),研究團(tuán)隊(duì)使用了GRPO(Group-Regularized Policy Optimization)算法。在這個(gè)階段,模型通過(guò)不斷嘗試和獲得反饋來(lái)優(yōu)化自己的推理能力。就像一個(gè)學(xué)生在掌握了基本解題方法后,通過(guò)大量練習(xí)和反饋不斷提升自己的能力。
這種兩階段方法的核心思想是:先給模型提供高質(zhì)量的推理模式作為基礎(chǔ)(冷啟動(dòng)),然后通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化和激活這些能力。就像是先教會(huì)學(xué)生正確的解題方法,然后通過(guò)大量練習(xí)和反饋幫助他們真正掌握并靈活運(yùn)用這些方法。
三、實(shí)驗(yàn)結(jié)果:小模型也能有大智慧
研究團(tuán)隊(duì)在四個(gè)多模態(tài)數(shù)學(xué)推理基準(zhǔn)測(cè)試上評(píng)估了他們的方法:MathVision、MathVista、MathVerse和We-Math。這些測(cè)試涵蓋了各種復(fù)雜的視覺(jué)數(shù)學(xué)問(wèn)題,包括幾何題、圖表分析和表格理解等。
實(shí)驗(yàn)結(jié)果令人印象深刻。在7B參數(shù)規(guī)模(相當(dāng)于較大的模型)上,他們的方法相比基礎(chǔ)模型(Qwen2.5-VL-7B)取得了顯著提升:在MathVista上從66.3%提升到73.4%,在We-Math上從62.9%提升到70.4%。平均而言,他們的7B模型在所有基準(zhǔn)測(cè)試上的得分提高了6.19分。
更令人驚訝的是,他們的3B參數(shù)規(guī)模模型(相當(dāng)于較小的模型)也取得了出色的表現(xiàn)。平均而言,3B模型的得分提高了10.84分,甚至在某些測(cè)試中超過(guò)了一些7B規(guī)模的模型,如Qwen2.5-VL-7B和VLAA-Thinker-7B。這就像是一個(gè)初中生通過(guò)有效的學(xué)習(xí)方法,在某些題目上能夠超越高中生的表現(xiàn)!
為了更好地理解"冷啟動(dòng)"和強(qiáng)化學(xué)習(xí)之間的關(guān)系,研究團(tuán)隊(duì)進(jìn)行了大量的消融實(shí)驗(yàn)(即移除某些組件來(lái)觀察效果變化的實(shí)驗(yàn))。他們發(fā)現(xiàn):
1. 單獨(dú)使用監(jiān)督微調(diào)(SFT)或強(qiáng)化學(xué)習(xí)(RL)都能提高模型性能,但兩者結(jié)合效果最佳。這就像學(xué)習(xí)任何技能一樣,理論學(xué)習(xí)(SFT)和實(shí)踐練習(xí)(RL)相結(jié)合才能取得最佳效果。
2. 冷啟動(dòng)階段的性能與最終模型質(zhì)量有很強(qiáng)的正相關(guān)關(guān)系。這表明投資高質(zhì)量的監(jiān)督數(shù)據(jù)是至關(guān)重要的。就像是奠定良好的基礎(chǔ)知識(shí)對(duì)學(xué)生的長(zhǎng)期學(xué)習(xí)成果至關(guān)重要。
3. 從更強(qiáng)大的模型(如32B參數(shù)模型)中蒸餾知識(shí),效果優(yōu)于從較小模型(如7B參數(shù)模型)中蒸餾。這就像是向特級(jí)教師學(xué)習(xí)比向普通教師學(xué)習(xí)更有效。
四、重新審視"啊哈時(shí)刻":形式與實(shí)質(zhì)的區(qū)別
研究團(tuán)隊(duì)還專門設(shè)計(jì)了實(shí)驗(yàn)來(lái)重新評(píng)估"啊哈時(shí)刻"的作用。他們構(gòu)建了一個(gè)只包含展示"啊哈時(shí)刻"模式的數(shù)據(jù)集(Reflection-CoT v2),并與隨機(jī)選擇的32B模型蒸餾數(shù)據(jù)進(jìn)行比較。
結(jié)果顯示,在"啊哈時(shí)刻"數(shù)據(jù)上訓(xùn)練的模型實(shí)際上表現(xiàn)不如在隨機(jī)選擇數(shù)據(jù)上訓(xùn)練的模型。這進(jìn)一步證明了"啊哈時(shí)刻"的表面形式并不能真正提升模型的推理能力。
研究團(tuán)隊(duì)還探究了數(shù)據(jù)質(zhì)量對(duì)模型性能的影響。他們發(fā)現(xiàn),即使使用包含錯(cuò)誤答案的數(shù)據(jù)進(jìn)行訓(xùn)練,模型仍然能從中學(xué)習(xí)到有用的推理結(jié)構(gòu)。這表明思維鏈推理中的結(jié)構(gòu)模式可以獨(dú)立于解題正確性而被學(xué)習(xí)。就像學(xué)生可以從錯(cuò)誤示例中學(xué)習(xí)解題的邏輯結(jié)構(gòu),即使答案本身是錯(cuò)誤的。
五、研究意義與未來(lái)展望
這項(xiàng)研究的意義遠(yuǎn)超模型性能的提升。它揭示了一個(gè)重要洞見:看似高級(jí)的反思能力("啊哈時(shí)刻")可能只是一種表面現(xiàn)象,而真正的推理能力提升需要更加系統(tǒng)和有針對(duì)性的訓(xùn)練方法。
研究團(tuán)隊(duì)的兩階段訓(xùn)練方法——先進(jìn)行監(jiān)督微調(diào),再進(jìn)行強(qiáng)化學(xué)習(xí)——為開發(fā)具有高級(jí)推理能力的多模態(tài)模型提供了一個(gè)可行且有效的框架。特別是,他們的方法能夠讓較小規(guī)模的模型(3B參數(shù))達(dá)到接近甚至超越某些較大模型(7B參數(shù))的性能,這對(duì)于資源受限的應(yīng)用場(chǎng)景具有重要意義。
未來(lái),這種訓(xùn)練方法可能被應(yīng)用于各種需要復(fù)雜推理的多模態(tài)任務(wù),如醫(yī)學(xué)圖像分析、科學(xué)文獻(xiàn)理解、復(fù)雜圖表解讀等。隨著模型能力的提升,我們可能會(huì)看到更多智能助手能夠準(zhǔn)確理解并解答涉及文字和圖像的復(fù)雜問(wèn)題,為教育、科研和日常生活帶來(lái)便利。
總的來(lái)說(shuō),上海交大團(tuán)隊(duì)的研究不僅提升了多模態(tài)模型的推理能力,還為我們理解和培養(yǎng)人工智能的"思考能力"提供了新的視角。他們的方法就像是為AI提供了一套更系統(tǒng)、更有效的"學(xué)習(xí)方法",而不僅僅是讓AI模仿表面的思考過(guò)程。隨著這類研究的深入,未來(lái)的AI助手可能會(huì)更加真正地"理解"我們的問(wèn)題,而不僅僅是表面上看起來(lái)在思考。
有興趣深入了解這項(xiàng)研究的讀者可以通過(guò)GitHub(https://github.com/waltonfuture/RL-with-Cold-Start)訪問(wèn)研究團(tuán)隊(duì)的代碼,或直接查閱原論文(arXiv:2505.22334v1)獲取更詳細(xì)的技術(shù)細(xì)節(jié)。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。