這項(xiàng)由NVIDIA公司和韓國科學(xué)技術(shù)院(KAIST)的研究團(tuán)隊(duì)聯(lián)合完成的突破性研究發(fā)表于2025年6月。論文的主要作者包括來自KAIST的李炳寬(Byung-Kwan Lee)和羅勇萬(Yong Man Ro),以及來自NVIDIA的八川亮(Ryo Hachiuma)、王玉強(qiáng)(Yu-Chiang Frank Wang)和吳悅?cè)A(Yueh-Hua Wu)。這項(xiàng)研究提出了一個(gè)名為"GenRecal"(重校準(zhǔn)后生成)的全新框架,有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以在arXiv平臺(tái)上找到完整論文(論文編號(hào):arXiv:2506.15681v1)。
當(dāng)前的人工智能世界正面臨著一個(gè)有趣的矛盾:為了讓AI變得更聰明,科學(xué)家們不斷地給AI模型"增肥",從最初的70億參數(shù)擴(kuò)展到現(xiàn)在的700多億參數(shù)。這就像是為了讓一個(gè)人變得更博學(xué),我們不斷地往他的腦子里塞書籍,最終這個(gè)人雖然知識(shí)淵博,但變得行動(dòng)遲緩,需要巨大的"食物"(計(jì)算資源)才能維持運(yùn)轉(zhuǎn)?,F(xiàn)在的問題是,這些超級(jí)聰明的大模型雖然能力出眾,甚至可以與GPT-4V和Claude-3.5這樣的頂級(jí)商業(yè)模型相提并論,但它們太"重"了,普通的手機(jī)或電腦根本帶不動(dòng)。
這種情況就像是擁有一臺(tái)功能強(qiáng)大但體積龐大的臺(tái)式電腦,雖然性能卓越,但你不可能把它裝進(jìn)背包隨身攜帶。因此,研究人員迫切需要找到一種方法,將這些"大胖子"AI的智慧轉(zhuǎn)移到"小個(gè)子"AI身上,讓小模型也能擁有大模型的聰明才智,同時(shí)保持輕便靈活的特性。
傳統(tǒng)的知識(shí)轉(zhuǎn)移方法就像是兩個(gè)人之間的語言交流,但前提是他們必須說同一種"語言"。在AI的世界里,這種"語言"指的是模型處理信息的方式,包括詞匯表的大小、如何切分詞語,以及給每個(gè)詞分配的編號(hào)系統(tǒng)。然而,現(xiàn)實(shí)中的AI模型就像來自不同國家的人,每個(gè)都有自己獨(dú)特的"方言"。比如,InternVL2.5系列會(huì)把一張圖片切分成最多12個(gè)小塊來分析,而Qwen2-VL系列則采用完全不同的策略,用一種叫做"多模態(tài)RoPE"的技術(shù)來一次性處理整張圖片。
這種差異造成的問題就像是試圖讓一個(gè)只會(huì)中文的老師教一個(gè)只懂英文的學(xué)生——即使老師知識(shí)淵博,學(xué)生也無法理解和吸收這些知識(shí)。現(xiàn)有的知識(shí)轉(zhuǎn)移技術(shù)只能在"說同一種語言"的AI模型之間工作,這大大限制了我們從最強(qiáng)大的AI模型中學(xué)習(xí)的機(jī)會(huì)。
正是在這樣的背景下,研究團(tuán)隊(duì)開發(fā)了GenRecal框架。這個(gè)系統(tǒng)的核心是一個(gè)叫做"重校準(zhǔn)器"(Recalibrator)的創(chuàng)新組件,它就像是一個(gè)超級(jí)翻譯官,能夠?qū)⒉煌珹I模型之間的"語言"進(jìn)行實(shí)時(shí)翻譯和轉(zhuǎn)換。這個(gè)翻譯官不僅能理解各種AI"方言",還能將大模型的深層知識(shí)以小模型能夠理解的方式進(jìn)行傳達(dá)。
更令人驚喜的是,即使是在相同"語言"的AI模型之間,GenRecal的表現(xiàn)也遠(yuǎn)超傳統(tǒng)方法。研究團(tuán)隊(duì)在一個(gè)名為MM-Vet的權(quán)威測(cè)試中進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果顯示傳統(tǒng)的知識(shí)轉(zhuǎn)移方法只能讓小模型的得分從62分提升到65.9分,而GenRecal能夠?qū)⑼瑯拥男∧P吞嵘?7.8分。當(dāng)他們使用更強(qiáng)大的"老師"模型時(shí),小模型的得分甚至能達(dá)到70.4分,這種提升幅度在AI領(lǐng)域是相當(dāng)顯著的。
GenRecal的工作原理可以用一個(gè)生動(dòng)的比喻來解釋。設(shè)想你要將一位資深教授的知識(shí)傳授給一名年輕學(xué)生,但他們說著不同的語言。傳統(tǒng)方法就像是強(qiáng)行要求學(xué)生直接理解教授的原始講義,結(jié)果往往是學(xué)生一頭霧水。而GenRecal的方法更像是雇傭了一位經(jīng)驗(yàn)豐富的翻譯官,這位翻譯官不僅能夠準(zhǔn)確翻譯語言,還能根據(jù)學(xué)生的理解能力調(diào)整表達(dá)方式,確保復(fù)雜的概念能夠以學(xué)生容易接受的形式傳達(dá)。
GenRecal的訓(xùn)練過程分為三個(gè)循序漸進(jìn)的階段,就像是培養(yǎng)一個(gè)學(xué)生從零基礎(chǔ)到精通的完整過程。第一階段專注于"對(duì)齊",讓重校準(zhǔn)器學(xué)會(huì)理解和匹配大小模型之間的特征表示,這就像是讓翻譯官先熟悉兩種語言的基本詞匯和語法結(jié)構(gòu)。第二階段進(jìn)行"蒸餾",開始真正的知識(shí)傳輸過程,讓小模型在重校準(zhǔn)器的幫助下逐步吸收大模型的智慧。第三階段是"微調(diào)",對(duì)整個(gè)系統(tǒng)進(jìn)行最后的優(yōu)化,確保小模型能夠在各種實(shí)際應(yīng)用場(chǎng)景中穩(wěn)定發(fā)揮。
研究團(tuán)隊(duì)在實(shí)驗(yàn)設(shè)計(jì)上非常嚴(yán)謹(jǐn),他們收集了900萬個(gè)視覺指令調(diào)優(yōu)樣本,涵蓋了從一般視覺問答、圖像描述到圖表理解、常識(shí)知識(shí)、科學(xué)數(shù)學(xué)推理等多個(gè)領(lǐng)域。這相當(dāng)于為AI模型準(zhǔn)備了一個(gè)包含各種題型的超級(jí)題庫,確保訓(xùn)練的全面性和有效性。
在技術(shù)實(shí)現(xiàn)上,重校準(zhǔn)器的設(shè)計(jì)頗為精巧。它由兩個(gè)解碼器塊和兩個(gè)投影器組成,就像是一個(gè)復(fù)雜的信息處理管道。當(dāng)來自小模型和大模型的信息流入重校準(zhǔn)器時(shí),系統(tǒng)首先通過預(yù)投影器調(diào)整維度匹配,然后通過解碼器塊進(jìn)行深度特征轉(zhuǎn)換,最后通過后投影器輸出適合大模型語言頭的格式。整個(gè)過程還加入了位置重新編碼和層歸一化等技術(shù)細(xì)節(jié),確保信息傳輸?shù)臏?zhǔn)確性和穩(wěn)定性。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)關(guān)鍵的技術(shù)要點(diǎn):正則化項(xiàng)的重要性。他們通過細(xì)致的實(shí)驗(yàn)證明,如果沒有適當(dāng)?shù)恼齽t化約束,重校準(zhǔn)器可能會(huì)偏離大模型的特征空間,導(dǎo)致知識(shí)傳輸效果大打折扣。這就像是在翻譯過程中需要保持原意的完整性,不能因?yàn)樽非蟊磉_(dá)的流暢而丟失核心信息。通過引入正則化機(jī)制,系統(tǒng)能夠在保持翻譯準(zhǔn)確性的同時(shí),確保知識(shí)傳輸?shù)母弑U娑取?/p>
實(shí)驗(yàn)結(jié)果令人印象深刻。在多個(gè)權(quán)威評(píng)測(cè)基準(zhǔn)上,GenRecal都表現(xiàn)出了顯著的優(yōu)勢(shì)。以AI2D測(cè)試為例,傳統(tǒng)方法通常只能將小模型的準(zhǔn)確率從77.5%提升到78.3%左右,而GenRecal能夠?qū)⑼瑯拥哪P吞嵘?3.9%,這種跨越式的提升在AI領(lǐng)域是極其罕見的。類似的顯著提升在ChartQA、MathVista、MMMU等各種測(cè)試中都得到了驗(yàn)證。
更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)"強(qiáng)者恒強(qiáng)"的規(guī)律:選擇更強(qiáng)大的大模型作為"老師",能夠帶來更顯著的性能提升。這就像是跟隨更優(yōu)秀的導(dǎo)師學(xué)習(xí),學(xué)生能夠獲得更高質(zhì)量的知識(shí)傳承。同時(shí),使用更有能力的小模型作為"學(xué)生",也能夠更好地吸收和利用傳輸?shù)闹R(shí),實(shí)現(xiàn)更高的最終性能。
研究團(tuán)隊(duì)還通過可視化分析驗(yàn)證了GenRecal的有效性。他們使用t-SNE技術(shù)將高維特征空間投影到二維平面進(jìn)行觀察,發(fā)現(xiàn)在訓(xùn)練初期,大小模型的特征表示分布相差很大,就像是兩片不相交的云團(tuán)。但隨著訓(xùn)練的進(jìn)行,重校準(zhǔn)器逐漸將小模型的特征"拉向"大模型的特征空間,最終實(shí)現(xiàn)了良好的對(duì)齊效果。這種可視化證據(jù)有力地支持了GenRecal的工作原理。
在對(duì)比傳統(tǒng)蒸餾方法時(shí),GenRecal展現(xiàn)出了全面的優(yōu)勢(shì)。研究團(tuán)隊(duì)將GenRecal與MiniLLM、DistiLLM、LLaVA-KD等現(xiàn)有方法進(jìn)行了公平對(duì)比,結(jié)果顯示即使在相同條件下,GenRecal的性能提升也是最為顯著的。這種優(yōu)勢(shì)來源于GenRecal能夠更好地處理大小模型之間的特征差異,以及更有效的知識(shí)傳輸機(jī)制。
GenRecal的另一個(gè)重要貢獻(xiàn)是打破了傳統(tǒng)蒸餾方法的局限性。以往的方法只能在具有相同"語言系統(tǒng)"的模型之間進(jìn)行知識(shí)傳輸,這大大限制了可選擇的模型組合。而GenRecal的出現(xiàn)使得任意大小模型之間的知識(shí)傳輸成為可能,極大地?cái)U(kuò)展了實(shí)際應(yīng)用的靈活性。
從實(shí)用角度來看,GenRecal解決了一個(gè)非?,F(xiàn)實(shí)的問題:如何在有限的計(jì)算資源下獲得最佳的AI性能。對(duì)于需要在移動(dòng)設(shè)備、邊緣計(jì)算設(shè)備上部署AI應(yīng)用的場(chǎng)景,GenRecal提供了一個(gè)理想的解決方案。用戶可以選擇最適合自己硬件條件的小模型,然后通過GenRecal從最強(qiáng)大的大模型中獲取知識(shí),實(shí)現(xiàn)性能和效率的最佳平衡。
研究團(tuán)隊(duì)在數(shù)據(jù)集構(gòu)建方面也下了很大功夫。他們將收集的900萬訓(xùn)練樣本按照功能進(jìn)行了精細(xì)分類,包括"知識(shí)類"、"科學(xué)數(shù)學(xué)類"和"圖表文檔類"三大類別。通過移除不同類別數(shù)據(jù)的對(duì)比實(shí)驗(yàn),他們發(fā)現(xiàn)MMMU測(cè)試更依賴于"知識(shí)類"數(shù)據(jù),而MathVista測(cè)試更需要"科學(xué)數(shù)學(xué)類"數(shù)據(jù)的支撐。這種發(fā)現(xiàn)為未來針對(duì)特定應(yīng)用場(chǎng)景的定制化訓(xùn)練提供了重要指導(dǎo)。
在計(jì)算資源需求方面,GenRecal的訓(xùn)練確實(shí)需要同時(shí)加載大小兩個(gè)模型,對(duì)內(nèi)存提出了較高要求。研究團(tuán)隊(duì)使用了256塊NVIDIA A100 80GB GPU進(jìn)行訓(xùn)練,并采用了梯度檢查點(diǎn)、LoRA等技術(shù)來優(yōu)化內(nèi)存使用。整個(gè)訓(xùn)練過程分三個(gè)階段,前兩個(gè)階段各需要5-7天,最后階段需要4-6天,總體訓(xùn)練時(shí)間在合理范圍內(nèi)。
值得注意的是,在實(shí)際部署時(shí),用戶只需要保留訓(xùn)練好的小模型,大模型和重校準(zhǔn)器都可以丟棄,這意味著最終的推理成本與普通小模型完全相同。這種設(shè)計(jì)使得GenRecal在實(shí)際應(yīng)用中具有很強(qiáng)的實(shí)用性,用戶可以享受大模型級(jí)別的性能,同時(shí)承擔(dān)小模型級(jí)別的計(jì)算成本。
研究團(tuán)隊(duì)還展示了GenRecal在不同規(guī)模模型組合上的廣泛適用性。他們測(cè)試了從1B到78B參數(shù)范圍內(nèi)的各種模型組合,結(jié)果顯示GenRecal在所有組合上都能帶來顯著的性能提升。這種規(guī)模無關(guān)的有效性證明了GenRecal方法的普遍適用性和穩(wěn)健性。
從技術(shù)發(fā)展趨勢(shì)來看,GenRecal代表了AI模型壓縮和知識(shí)傳輸領(lǐng)域的一個(gè)重要突破。隨著AI模型規(guī)模的不斷增長和應(yīng)用場(chǎng)景的日益多樣化,類似GenRecal這樣能夠跨架構(gòu)進(jìn)行知識(shí)傳輸?shù)募夹g(shù)將變得越來越重要。它不僅解決了當(dāng)前的技術(shù)痛點(diǎn),也為未來更復(fù)雜的多模型協(xié)作場(chǎng)景奠定了基礎(chǔ)。
研究團(tuán)隊(duì)在論文中還討論了GenRecal的局限性和未來改進(jìn)方向。當(dāng)前版本主要關(guān)注最后層的知識(shí)傳輸,未來可以擴(kuò)展到中間層的細(xì)粒度知識(shí)傳輸。此外,還可以探索多個(gè)大模型同時(shí)向一個(gè)小模型傳輸知識(shí)的可能性,這將進(jìn)一步提升知識(shí)傳輸?shù)男Ч挽`活性。
說到底,GenRecal就像是給AI世界提供了一個(gè)通用的"知識(shí)傳輸器",讓不同類型的AI模型能夠相互學(xué)習(xí)和傳承智慧。這不僅是一個(gè)技術(shù)突破,更是讓高性能AI民主化的重要一步。普通開發(fā)者和研究者現(xiàn)在可以輕松地從最先進(jìn)的大模型中汲取知識(shí),而不必受限于硬件條件或模型架構(gòu)的約束。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)本身。它為整個(gè)AI生態(tài)系統(tǒng)的發(fā)展提供了新的可能性,讓我們能夠更加靈活高效地利用已有的AI資源。就像是打通了AI世界的"任督二脈",讓知識(shí)和能力能夠自由流動(dòng),最終惠及更廣泛的用戶群體。對(duì)于想要深入了解技術(shù)細(xì)節(jié)的讀者,完整的研究論文已經(jīng)在arXiv平臺(tái)公開發(fā)布,編號(hào)為2506.15681v1。
Q&A
Q1:GenRecal到底是什么?它解決了什么問題? A:GenRecal是一個(gè)AI模型"減肥"技術(shù),能讓小的AI模型學(xué)會(huì)大模型的能力。它解決的核心問題是不同類型AI模型之間無法互相學(xué)習(xí)的限制,就像給AI世界裝了個(gè)"通用翻譯器",讓原本"語言不通"的AI模型能夠傳授和學(xué)習(xí)知識(shí)。
Q2:使用GenRecal訓(xùn)練的小模型性能真的能接近大模型嗎? A:實(shí)驗(yàn)顯示確實(shí)如此。比如在AI2D測(cè)試中,小模型原本只有77.5%準(zhǔn)確率,用GenRecal后能達(dá)到93.9%。雖然還是比不上真正的大模型,但已經(jīng)是巨大提升了,而且運(yùn)行成本只相當(dāng)于小模型。
Q3:普通人能用到GenRecal技術(shù)嗎?需要什么條件? A:目前GenRecal還是研究階段的技術(shù),需要專業(yè)的GPU集群來訓(xùn)練。但一旦訓(xùn)練完成,最終的小模型就能在普通設(shè)備上運(yùn)行。未來可能會(huì)有公司基于這項(xiàng)技術(shù)推出商業(yè)化產(chǎn)品,讓普通用戶也能享受到這種"小模型大能力"的好處。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。