這項(xiàng)由中國東南大學(xué)新一代人工智能技術(shù)及其跨學(xué)科應(yīng)用重點(diǎn)實(shí)驗(yàn)室的彭穎哲、張公瑞等研究團(tuán)隊(duì)與香港中文大學(xué)、螞蟻集團(tuán)合作完成的突破性研究,于2025年3月發(fā)表在arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2503.07536v2)。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過GitHub項(xiàng)目頁面https://github.com/TideDra/lmm-r1獲取完整的研究成果和代碼。
在人工智能快速發(fā)展的今天,我們經(jīng)常聽到關(guān)于大型AI模型的驚人表現(xiàn),但這些"超級(jí)大腦"往往需要龐大的計(jì)算資源和存儲(chǔ)空間,就像需要一個(gè)巨大倉庫才能存放的超級(jí)計(jì)算機(jī)。然而,對(duì)于普通用戶和研究機(jī)構(gòu)來說,擁有一個(gè)既聰明又"小巧"的AI助手顯然更加實(shí)用。就像我們更愿意擁有一部功能強(qiáng)大但便攜的智能手機(jī),而不是需要推車才能移動(dòng)的古老電腦一樣。
這正是東南大學(xué)研究團(tuán)隊(duì)要解決的核心問題。他們把目光投向了只有30億參數(shù)的"小體型"多模態(tài)大語言模型(LMM),這類模型就像是AI世界里的"小鋼炮"——體積雖小,但研究團(tuán)隊(duì)希望讓它們擁有媲美大型模型的推理能力。在AI領(lǐng)域,推理能力就像人類的邏輯思維能力,是判斷一個(gè)AI系統(tǒng)是否真正"聰明"的關(guān)鍵指標(biāo)。
研究團(tuán)隊(duì)面臨的挑戰(zhàn)可以用一個(gè)生動(dòng)的比喻來理解。如果把AI模型比作廚師,那么大型模型就像是擁有豪華廚房和豐富經(jīng)驗(yàn)的頂級(jí)大廚,而30億參數(shù)的小模型則像是在狹小廚房里工作的新手廚師。新手廚師不僅要在有限的空間里工作,還要同時(shí)處理"看圖"和"推理"兩項(xiàng)復(fù)雜任務(wù),就像要一邊觀察食材一邊進(jìn)行復(fù)雜的烹飪計(jì)算。更關(guān)鍵的是,當(dāng)前訓(xùn)練這類"多面手廚師"的高質(zhì)量訓(xùn)練數(shù)據(jù)極其稀缺,就像缺乏好的菜譜和指導(dǎo)材料。
為了解決這個(gè)難題,研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新的"兩階段師傅帶徒弟"訓(xùn)練方案,他們稱之為LMM-R1框架。這個(gè)方案的核心思路非常巧妙:既然小模型難以同時(shí)掌握視覺理解和邏輯推理兩項(xiàng)技能,那就先讓它專心學(xué)好邏輯推理這一基本功,再將這項(xiàng)技能遷移到多模態(tài)任務(wù)中。
第一個(gè)階段被稱為"基礎(chǔ)推理強(qiáng)化"階段。研究團(tuán)隊(duì)讓小模型暫時(shí)"閉上眼睛",專門用純文本的數(shù)學(xué)和邏輯問題進(jìn)行訓(xùn)練。這就像讓學(xué)徒廚師先專心練習(xí)刀工和火候控制等基本功,而不急于處理復(fù)雜的視覺判斷。他們使用了一種叫做"基于規(guī)則的強(qiáng)化學(xué)習(xí)"的訓(xùn)練方法,這種方法的妙處在于不需要人工打分員來評(píng)判答案好壞,而是通過數(shù)學(xué)驗(yàn)證的方式自動(dòng)判斷答案是否正確。
想象一下,傳統(tǒng)的訓(xùn)練方法需要大量人類專家來評(píng)判AI的每一個(gè)回答,就像需要無數(shù)個(gè)老師來批改作業(yè)。而基于規(guī)則的強(qiáng)化學(xué)習(xí)則像是使用標(biāo)準(zhǔn)答案的自動(dòng)閱卷機(jī),能夠快速準(zhǔn)確地判斷數(shù)學(xué)題的對(duì)錯(cuò)。這種方法不僅效率更高,還避免了人工評(píng)分可能存在的主觀偏差。
在第一階段的訓(xùn)練中,研究團(tuán)隊(duì)使用了包含4萬道高質(zhì)量數(shù)學(xué)題的訓(xùn)練集,這些題目涵蓋了從基礎(chǔ)算術(shù)到高等數(shù)學(xué)的各個(gè)難度層次。通過反復(fù)練習(xí)這些純文本的推理題目,小模型逐漸掌握了扎實(shí)的邏輯推理能力,就像學(xué)徒通過大量基礎(chǔ)練習(xí)獲得了嫻熟的基本功。
第二個(gè)階段被稱為"多模態(tài)泛化訓(xùn)練"階段。在這個(gè)階段,已經(jīng)具備了強(qiáng)大文本推理能力的模型開始學(xué)習(xí)如何將這些技能應(yīng)用到需要同時(shí)處理圖像和文本的復(fù)雜任務(wù)中。研究團(tuán)隊(duì)精心設(shè)計(jì)了兩個(gè)主要的訓(xùn)練領(lǐng)域來測試和提升模型的綜合能力。
首先是"通用多模態(tài)推理"領(lǐng)域,這個(gè)領(lǐng)域又包含兩個(gè)不同難度的子任務(wù)。第一個(gè)是"視覺推理為主的幾何領(lǐng)域",主要處理幾何圖形分析問題。研究團(tuán)隊(duì)選擇幾何問題作為橋梁是很有道理的,因?yàn)閹缀螁栴}在某種程度上延續(xù)了第一階段的數(shù)學(xué)推理特征,同時(shí)又引入了視覺分析的要求。這就像讓已經(jīng)掌握了基本刀工的學(xué)徒開始練習(xí)處理形狀規(guī)整的蔬菜,既能運(yùn)用已有技能,又能逐步適應(yīng)視覺判斷的需求。
第二個(gè)是"感知推理平衡領(lǐng)域",這個(gè)領(lǐng)域的任務(wù)來自20多個(gè)不同的數(shù)據(jù)集,包括視覺問答、文檔理解、數(shù)學(xué)推理和科學(xué)推理等多種類型的任務(wù)。這些任務(wù)對(duì)視覺感知能力的要求比幾何領(lǐng)域更高,需要模型具備更強(qiáng)的圖像理解能力。這就像讓學(xué)徒處理各種不同類型和形狀的食材,需要更高的綜合技能。
其次是"智能體相關(guān)推理"領(lǐng)域,這個(gè)領(lǐng)域?qū)iT測試模型在復(fù)雜視覺環(huán)境中進(jìn)行決策和規(guī)劃的能力。研究團(tuán)隊(duì)選擇了兩個(gè)具有代表性的任務(wù):推箱子游戲和足球游戲。推箱子游戲需要模型分析游戲局面,制定移動(dòng)策略,并預(yù)測多步操作的結(jié)果。足球游戲則要求模型在動(dòng)態(tài)的多智能體環(huán)境中做出實(shí)時(shí)決策,需要考慮隊(duì)友和對(duì)手的位置和行為。這些任務(wù)就像讓廚師不僅要做好菜,還要能夠管理整個(gè)廚房的運(yùn)作和協(xié)調(diào)多個(gè)助手的工作。
研究團(tuán)隊(duì)使用Qwen2.5-VL-Instruct-3B作為基礎(chǔ)模型進(jìn)行實(shí)驗(yàn)驗(yàn)證。這個(gè)模型擁有30億個(gè)參數(shù),在AI模型中屬于相對(duì)較小的規(guī)模,但正是因?yàn)槠?小巧"的特點(diǎn),使其更適合在資源受限的環(huán)境中部署和使用。
實(shí)驗(yàn)結(jié)果令人印象深刻。在多模態(tài)推理任務(wù)上,經(jīng)過LMM-R1訓(xùn)練的模型比原始基準(zhǔn)模型平均提升了4.83%的性能。更有趣的是,這種提升并非以犧牲文本推理能力為代價(jià)——在純文本推理任務(wù)上,訓(xùn)練后的模型同樣獲得了4.5%的性能提升。在復(fù)雜的足球游戲任務(wù)中,模型的表現(xiàn)提升了3.63%,展現(xiàn)了其在復(fù)雜決策任務(wù)中的優(yōu)異表現(xiàn)。
為了更深入地理解訓(xùn)練過程的有效性,研究團(tuán)隊(duì)進(jìn)行了一系列對(duì)比實(shí)驗(yàn)。他們發(fā)現(xiàn)了一個(gè)非常有趣的現(xiàn)象:如果直接使用多模態(tài)數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,模型的文本推理能力實(shí)際上會(huì)下降。這就像一個(gè)學(xué)徒如果沒有扎實(shí)的基本功就直接挑戰(zhàn)復(fù)雜任務(wù),不僅無法掌握新技能,還可能讓原有的技能變得生疏。
相比之下,先進(jìn)行文本推理訓(xùn)練再轉(zhuǎn)向多模態(tài)任務(wù)的兩階段方法,不僅保持了原有的推理能力,還成功地將這些能力遷移到了視覺任務(wù)中。這驗(yàn)證了研究團(tuán)隊(duì)"先打基礎(chǔ)再擴(kuò)展"策略的有效性。
在訓(xùn)練過程的分析中,研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)值得關(guān)注的現(xiàn)象。當(dāng)使用多模態(tài)數(shù)據(jù)直接訓(xùn)練時(shí),模型生成的回答往往變得越來越簡短,推理過程也越來越粗糙。而使用文本數(shù)據(jù)進(jìn)行基礎(chǔ)訓(xùn)練的模型則展現(xiàn)出相反的趨勢——它們的回答變得更加詳細(xì),推理過程更加嚴(yán)謹(jǐn)。這就像前者是在偷工減料地應(yīng)付任務(wù),而后者則是在認(rèn)真思考并給出充分的解釋。
研究團(tuán)隊(duì)還將他們的方法與傳統(tǒng)的監(jiān)督學(xué)習(xí)方法進(jìn)行了比較。結(jié)果顯示,基于規(guī)則的強(qiáng)化學(xué)習(xí)方法在避免"災(zāi)難性遺忘"方面表現(xiàn)更優(yōu)。災(zāi)難性遺忘是AI訓(xùn)練中的一個(gè)常見問題,指的是模型在學(xué)習(xí)新任務(wù)時(shí)會(huì)忘記之前學(xué)會(huì)的技能,就像一個(gè)人學(xué)會(huì)了新語言卻忘記了母語。而強(qiáng)化學(xué)習(xí)方法能夠更好地保持已有技能,同時(shí)學(xué)習(xí)新的能力。
在智能體任務(wù)的評(píng)估中,經(jīng)過訓(xùn)練的30億參數(shù)模型展現(xiàn)出了令人驚訝的性能。在推箱子游戲中,它的表現(xiàn)甚至能夠媲美一些大型商業(yè)模型,如Claude-3.5-Sonnet和GPT-4o。在足球游戲任務(wù)中,訓(xùn)練后的模型也顯示出顯著的改進(jìn)。這些結(jié)果表明,通過適當(dāng)?shù)挠?xùn)練策略,小規(guī)模模型完全有潛力在復(fù)雜任務(wù)中達(dá)到與大型模型相當(dāng)?shù)男阅芩健?/p>
研究團(tuán)隊(duì)的工作不僅在技術(shù)上具有創(chuàng)新性,在實(shí)用性方面也具有重要意義。對(duì)于資源受限的研究機(jī)構(gòu)、初創(chuàng)公司或個(gè)人開發(fā)者來說,這種方法提供了一個(gè)經(jīng)濟(jì)高效的解決方案。他們不需要投入巨大的計(jì)算資源來訓(xùn)練和部署大型模型,而是可以通過巧妙的訓(xùn)練策略讓小模型發(fā)揮出超越其體量的性能。
此外,這項(xiàng)研究還為AI模型的訓(xùn)練策略提供了新的思路。傳統(tǒng)觀念認(rèn)為,模型的性能主要取決于參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)的數(shù)量,但這項(xiàng)研究表明,訓(xùn)練策略的設(shè)計(jì)同樣重要。通過合理的階段性訓(xùn)練和技能遷移,即使是相對(duì)較小的模型也能在復(fù)雜任務(wù)中表現(xiàn)出色。
研究團(tuán)隊(duì)在論文中還討論了他們方法的一些限制和未來的改進(jìn)方向。當(dāng)前的方法主要在數(shù)學(xué)和幾何領(lǐng)域進(jìn)行了驗(yàn)證,未來需要在更廣泛的應(yīng)用領(lǐng)域進(jìn)行測試。同時(shí),如何進(jìn)一步提高訓(xùn)練效率和擴(kuò)展到更多類型的任務(wù)也是值得探索的方向。
從更宏觀的角度來看,這項(xiàng)研究體現(xiàn)了AI發(fā)展的一個(gè)重要趨勢:不是單純地追求模型規(guī)模的增大,而是通過更智能的方法來提升模型的實(shí)際性能和實(shí)用性。這種思路對(duì)于推動(dòng)AI技術(shù)的普及和應(yīng)用具有重要價(jià)值,特別是在計(jì)算資源相對(duì)有限的環(huán)境中。
研究團(tuán)隊(duì)已經(jīng)在GitHub上開源了相關(guān)代碼和模型,這為其他研究者和開發(fā)者提供了寶貴的資源。有興趣的讀者可以訪問https://github.com/TideDra/lmm-r1獲取完整的實(shí)現(xiàn)細(xì)節(jié),這種開放的態(tài)度有助于推動(dòng)整個(gè)AI社區(qū)的發(fā)展和進(jìn)步。
說到底,這項(xiàng)研究告訴我們一個(gè)重要道理:在AI的世界里,"小而精"同樣可以很強(qiáng)大。通過巧妙的訓(xùn)練策略和扎實(shí)的基礎(chǔ)能力建設(shè),即使是體量較小的模型也能在復(fù)雜任務(wù)中展現(xiàn)出令人刮目相看的表現(xiàn)。這不僅為AI技術(shù)的民主化提供了可能,也為我們重新思考AI模型的設(shè)計(jì)和訓(xùn)練提供了新的視角。對(duì)于那些希望在有限資源下開發(fā)強(qiáng)大AI應(yīng)用的團(tuán)隊(duì)來說,這項(xiàng)研究無疑提供了一個(gè)值得借鑒的優(yōu)秀范例。
Q&A
Q1:LMM-R1是什么?它有什么特別之處? A:LMM-R1是東南大學(xué)團(tuán)隊(duì)開發(fā)的一個(gè)兩階段訓(xùn)練框架,專門用來提升小型AI模型的推理能力。它的特別之處在于采用"先學(xué)推理再學(xué)視覺"的策略,讓只有30億參數(shù)的小模型也能達(dá)到媲美大型模型的推理性能,這就像讓"小鋼炮"發(fā)揮出"大炮"的威力。
Q2:為什么不直接用多模態(tài)數(shù)據(jù)訓(xùn)練,要分兩個(gè)階段? A:研究團(tuán)隊(duì)發(fā)現(xiàn)直接用多模態(tài)數(shù)據(jù)訓(xùn)練會(huì)讓模型的推理能力下降,就像沒有基本功就直接挑戰(zhàn)復(fù)雜任務(wù)會(huì)適得其反。兩階段訓(xùn)練先讓模型專心掌握邏輯推理這個(gè)核心技能,再將這個(gè)技能遷移到視覺任務(wù)中,效果要好得多。
Q3:這種方法對(duì)普通用戶有什么意義? A:這項(xiàng)技術(shù)讓小型AI模型也能擁有強(qiáng)大的推理能力,意味著普通用戶和小公司也能在有限的計(jì)算資源下部署高性能的AI助手。不需要昂貴的硬件設(shè)備,就能享受到接近大型模型的智能服務(wù),大大降低了AI技術(shù)的使用門檻。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。