在人工智能快速發(fā)展的今天,大語言模型(LLMs)的進(jìn)步令人矚目。2025年5月,來自羅馬薩皮恩扎大學(xué)和洛桑聯(lián)邦理工學(xué)院的研究團(tuán)隊(duì)發(fā)布了一項(xiàng)創(chuàng)新工具——Mergenetic,這是一個(gè)開源的進(jìn)化式模型合并庫。該研究由Adrian Robert Minut、Tommaso Mencattini(兩位第一作者貢獻(xiàn)相同)、Andrea Santilli、Donato Crisostomi和Emanuele Rodolà共同完成,論文發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.11427v1)。感興趣的讀者可以通過GitHub鏈接(https://github.com/tommasomncttn/mergenetic)訪問這個(gè)項(xiàng)目。
想象一下,如果你有幾個(gè)各自擅長不同任務(wù)的大語言模型,是否可以像搭積木一樣把它們的優(yōu)點(diǎn)組合起來,創(chuàng)造一個(gè)全能選手?這正是模型合并(Model Merging)技術(shù)的核心理念。就像廚師將不同食材的精華融合成一道美味佳肴,模型合并允許研究人員將已有模型的能力無縫結(jié)合,而不需要從頭訓(xùn)練。這種方法不僅節(jié)省了計(jì)算資源,而且在實(shí)踐中展現(xiàn)出驚人的效果——目前在Hugging Face開放大語言模型排行榜上,約30%的模型都是通過合并技術(shù)創(chuàng)建的。
然而,找到最佳的"合并配方"并不容易。就像烹飪中需要反復(fù)試驗(yàn)調(diào)整配料比例才能找到最佳口感一樣,簡單地將模型混合在一起通常無法達(dá)到最佳效果。這時(shí),進(jìn)化算法(Evolutionary Algorithms)閃亮登場(chǎng)。這些算法模擬了自然界的進(jìn)化過程,通過反復(fù)嘗試不同的合并參數(shù),選擇表現(xiàn)最好的"后代",并繼續(xù)改進(jìn),最終找到最優(yōu)的合并策略。
雖然這種進(jìn)化式模型合并方法已被證明非常有效,但研究人員面臨兩個(gè)關(guān)鍵挑戰(zhàn):首先,目前沒有專門的工具庫支持在語言模型中靈活嘗試不同的進(jìn)化算法和合并方法;其次,這些方法通常需要在進(jìn)化數(shù)據(jù)集上重復(fù)評(píng)估以計(jì)算適應(yīng)度函數(shù),這使得整個(gè)過程比標(biāo)準(zhǔn)合并技術(shù)更耗費(fèi)計(jì)算資源。這些限制阻礙了許多研究人員和愛好者嘗試這種強(qiáng)大的技術(shù)。
Mergenetic正是為解決這些問題而生。這個(gè)工具庫建立在流行的MergeKit和PyMoo進(jìn)化框架之上,提供了四大核心功能。第一,它支持19種進(jìn)化算法和6種合并策略,包括經(jīng)典的遺傳算法和最先進(jìn)的NSGA-II等多目標(biāo)優(yōu)化方法。第二,為了減少適應(yīng)度評(píng)估的計(jì)算負(fù)擔(dān),它支持?jǐn)?shù)據(jù)集抽樣和先進(jìn)的近似技術(shù),使得即使在普通消費(fèi)級(jí)GPU上也能高效進(jìn)行評(píng)估。第三,它與LM-Eval-Harness無縫集成,提供超過8000個(gè)任務(wù)和指標(biāo)用于適應(yīng)度計(jì)算,同時(shí)用戶也可以定義自己的適應(yīng)度函數(shù)。第四,它提供了靈活的Python API、命令行界面和圖形用戶界面,使得從專業(yè)研究人員到普通愛好者都能輕松上手。
作為一個(gè)比喻,Mergenetic就像是一位經(jīng)驗(yàn)豐富的調(diào)酒師,通過不斷嘗試不同的配方比例,最終調(diào)制出一杯口感絕佳的混合雞尾酒。而傳統(tǒng)的模型合并則更像是按照固定配方混合飲料,雖然簡單,但往往無法達(dá)到最佳效果。這個(gè)工具庫的目標(biāo)是讓每個(gè)人都能成為"AI調(diào)酒師",即使只有一臺(tái)普通電腦,也能調(diào)制出專業(yè)水準(zhǔn)的大語言模型"雞尾酒"。
讓我們更深入地了解Mergenetic的工作原理和設(shè)計(jì)思路。
一、背景與相關(guān)工作
在深入Mergenetic之前,我們需要理解模型合并和進(jìn)化算法這兩個(gè)基礎(chǔ)概念。
模型合并,顧名思義,是將多個(gè)已訓(xùn)練好的模型組合成一個(gè)新模型的技術(shù)。想象你有幾個(gè)朋友,每個(gè)人都在某一方面特別擅長:有人數(shù)學(xué)好,有人文學(xué)好,有人善于解決邏輯問題。模型合并就像是把這些朋友的知識(shí)和技能以某種方式融合到一起,創(chuàng)造出一個(gè)"全能型朋友",而不需要花費(fèi)大量時(shí)間重新培養(yǎng)一個(gè)人的所有能力。
在AI領(lǐng)域,模型合并已經(jīng)成為一種強(qiáng)大且高效的替代方案,它避免了傳統(tǒng)集成學(xué)習(xí)(將多個(gè)模型的預(yù)測(cè)結(jié)果取平均)的計(jì)算開銷。Mergenetic專注于多任務(wù)場(chǎng)景,旨在合并同一個(gè)預(yù)訓(xùn)練模型的不同微調(diào)版本。例如,我們可能有一個(gè)基礎(chǔ)模型,它分別被微調(diào)用于解決數(shù)學(xué)問題、翻譯不同語言和創(chuàng)作詩歌。通過合并這些專精模型,我們可以得到一個(gè)能同時(shí)勝任這些任務(wù)的綜合模型。
進(jìn)化算法則是一類受自然進(jìn)化啟發(fā)的優(yōu)化技術(shù)。想象一下野生動(dòng)物如何適應(yīng)環(huán)境:每一代中,那些更適應(yīng)環(huán)境的個(gè)體有更高的機(jī)會(huì)存活并繁殖,將自己的基因傳遞給下一代。隨著時(shí)間推移,整個(gè)種群變得越來越適應(yīng)環(huán)境。進(jìn)化算法模擬了這一過程,它操作一組候選方案(稱為"種群"),通過選擇、突變、重組和交叉等操作使其"進(jìn)化"。
在進(jìn)化算法中,適應(yīng)度函數(shù)是一個(gè)關(guān)鍵組件,它量化每個(gè)候選方案的質(zhì)量,引導(dǎo)進(jìn)化過程偏向表現(xiàn)更好的解決方案。應(yīng)用到模型合并上,進(jìn)化式合并技術(shù)自動(dòng)搜索有效的合并配方,使用合并模型在驗(yàn)證數(shù)據(jù)集上的表現(xiàn)作為適應(yīng)度函數(shù)。
與其他庫相比,Mergenetic最相近的是MergeKit,它提供了基礎(chǔ)的合并策略(如TIES、DARE、SLERP等)。但在搜索能力方面,MergeKit僅支持一種進(jìn)化算法(CMA-ES),限制了在優(yōu)化過程中的靈活性。更重要的是,MergeKit假設(shè)適應(yīng)度函數(shù)必須在完整評(píng)估數(shù)據(jù)集上計(jì)算,大大增加了運(yùn)行時(shí)間和計(jì)算需求,使整個(gè)過程在消費(fèi)級(jí)GPU上幾乎不可行。相比之下,Mergenetic支持子采樣評(píng)估和先進(jìn)的適應(yīng)度估計(jì)技術(shù),顯著降低了評(píng)估成本,使高質(zhì)量合并能夠在單個(gè)GPU上高效進(jìn)行。
二、設(shè)計(jì)原則與系統(tǒng)架構(gòu)
Mergenetic的設(shè)計(jì)反映了它支持廣泛進(jìn)化模型合并實(shí)驗(yàn)的目標(biāo),特別是在消費(fèi)級(jí)硬件上。它遵循三個(gè)關(guān)鍵設(shè)計(jì)原則:研究導(dǎo)向、用戶友好和計(jì)算效率。
從研究角度看,Mergenetic希望研究人員能夠輕松探索和比較不同的進(jìn)化算法、合并策略和優(yōu)化目標(biāo)。它不會(huì)將用戶限制在固定的方法中,而是支持靈活混搭合并方法(如TIES、DARE等)、進(jìn)化算法(如GA、NSGA-II等)和評(píng)估后端。這種模塊化設(shè)計(jì)支持系統(tǒng)性實(shí)驗(yàn),例如比較單目標(biāo)與多目標(biāo)合并,或測(cè)試不同數(shù)據(jù)采樣策略。
為了讓各種背景的用戶都能使用這一技術(shù),Mergenetic設(shè)計(jì)為既配置中心化又用戶友好。用戶可以通過簡單的YAML文件、命令行界面或交互式圖形界面定義合并、任務(wù)、算法和評(píng)估器,最大程度減少大型實(shí)驗(yàn)通常需要的工程開銷。該庫針對(duì)消費(fèi)級(jí)GPU進(jìn)行了優(yōu)化,支持近似評(píng)估方法(如基于IRT的估計(jì)器)、數(shù)據(jù)集子采樣和部分模型加載。
從功能上看,Mergenetic可以分為五個(gè)核心模塊:工作流定義(Python API、CLI、GUI)、執(zhí)行合并(Merger)、制定優(yōu)化問題(Optimization)、評(píng)估合并模型(Evaluator)和協(xié)調(diào)進(jìn)化循環(huán)(Searcher)。每個(gè)模塊都有明確的職責(zé),共同構(gòu)成了一個(gè)完整的進(jìn)化模型合并系統(tǒng)。
三、Mergenetic的四大組件
讓我們深入了解Mergenetic的四個(gè)核心組件:接口、合并器、優(yōu)化器和評(píng)估器。
Mergenetic提供了三種交互方式:Python API、命令行界面(CLI)和圖形用戶界面(GUI)。Python API最為靈活,適合希望自定義合并工作流的高級(jí)用戶。用戶可以實(shí)例化一個(gè)優(yōu)化問題(如合并多個(gè)語言模型),從PyMoo選擇一個(gè)算法,然后調(diào)用searcher.search()啟動(dòng)進(jìn)化過程。一個(gè)典型的工作流程包括:定義評(píng)估數(shù)據(jù)集和相關(guān)性能指標(biāo),實(shí)例化一個(gè)Merger指定如何組合權(quán)重,將這些傳遞給MergingProblem類(描述進(jìn)化搜索空間和目標(biāo)),選擇一個(gè)遺傳算法(如NSGA-II、GA、DE等),運(yùn)行搜索,然后可以選擇對(duì)最佳方案調(diào)用.test()進(jìn)行測(cè)試。
對(duì)于那些不想手動(dòng)編寫腳本的用戶,Mergenetic CLI是一個(gè)不錯(cuò)的選擇。它通過交互式向?qū)б龑?dǎo)用戶選擇模型、任務(wù)、算法和合并方法。這種方式讓用戶快速原型化合并,無需編寫代碼。而基于Gradio的圖形界面則提供了更直觀的操作方式,特別適合非技術(shù)用戶,它以分步向?qū)问揭龑?dǎo)用戶:加載基礎(chǔ)模型、指定任務(wù)/語言、設(shè)置進(jìn)化參數(shù),以及實(shí)時(shí)記錄運(yùn)行合并的全過程。
合并器(Merger)模塊負(fù)責(zé)處理核心的權(quán)重組合邏輯,通過與MergeKit接口實(shí)現(xiàn)。每個(gè)合并器類(如SlerpMerger、TiesDareMerger、TaskArithmeticMerger)生成一個(gè)YAML配置,指定基礎(chǔ)檢查點(diǎn)、插值方法和合并系數(shù)。該配置傳遞給MergeKit,后者執(zhí)行實(shí)際合并并生成新的模型檢查點(diǎn)。合并器支持標(biāo)準(zhǔn)和多模型合并,包括像TIES結(jié)合DARE這樣的高級(jí)策略。在優(yōu)化過程中,進(jìn)化算法提出權(quán)重組合,合并器將其轉(zhuǎn)換為準(zhǔn)備評(píng)估的實(shí)際模型。
在Mergenetic的核心,優(yōu)化模塊將模型合并視為黑盒優(yōu)化問題。決策變量對(duì)應(yīng)于合并配置文件中的目標(biāo)參數(shù)(如插值或修剪系數(shù))。目標(biāo)函數(shù)定義了要優(yōu)化的適應(yīng)度標(biāo)準(zhǔn),如準(zhǔn)確性、復(fù)雜度或其他任務(wù)特定指標(biāo)。MergingProblem類定義了如何將基因型轉(zhuǎn)換為合并模型(通過調(diào)用Merger)、如何在數(shù)據(jù)集上評(píng)估合并模型(通過Evaluator),以及如何將結(jié)果適應(yīng)度或多目標(biāo)分?jǐn)?shù)返回給算法。
Mergenetic支持各種單目標(biāo)或多目標(biāo)方法。單目標(biāo)方法優(yōu)化一個(gè)指標(biāo)(如跨語言準(zhǔn)確性),而多目標(biāo)策略(如NSGA-II)可以同時(shí)平衡多個(gè)指標(biāo),例如數(shù)學(xué)準(zhǔn)確性與一般流暢性。
評(píng)估器計(jì)算合并模型在所選任務(wù)上的性能。在Mergenetic中,它們既可以作為直接評(píng)估器(如在小數(shù)據(jù)集上運(yùn)行),也可以作為基于IRT的估計(jì)器使用錨點(diǎn)。該庫支持兩大類評(píng)估器:
LM-Eval-Harness評(píng)估器可以直接調(diào)用LM-Eval-Harness庫,傳遞合并的檢查點(diǎn)和所選基準(zhǔn)(如ARC、GSM8K)。這種方法覆蓋了許多標(biāo)準(zhǔn)任務(wù)并產(chǎn)生一致的比較結(jié)果。然而,如果反復(fù)評(píng)估大型數(shù)據(jù)集的許多候選合并,它可能相對(duì)昂貴。為了解決這個(gè)問題,Mergenetic包裝了LM-Eval-Harness,允許通過即插即用的ConfigPE進(jìn)行顯式子采樣,無需實(shí)例化新的配置文件。
自定義評(píng)估器允許用戶定義自己的正確性計(jì)算邏輯,例如MultilingualMathFGEvaluator(檢查最終提取的數(shù)字是否正確且符合目標(biāo)語言),或MultipleChoiceEvaluator(比較所選字母與正確答案)。這些評(píng)估器使高級(jí)用戶能夠輕松結(jié)合部分正確性檢查與領(lǐng)域約束。
最后,Searcher類協(xié)調(diào)進(jìn)化循環(huán):它從隨機(jī)基因型(權(quán)重向量)的初始化開始,接著進(jìn)行合并/評(píng)估(每個(gè)基因型合并為檢查點(diǎn)并在用戶指定的任務(wù)/數(shù)據(jù)集上評(píng)分),然后是選擇/變異(基于適應(yīng)度選擇父代基因型,通過交叉和突變修改以產(chǎn)生子代)。步驟2和3在主循環(huán)中重復(fù)T代。因此,Searcher類本質(zhì)上將所有這些元素(Problem、Merger、Evaluator、PyMoo算法)封裝在一個(gè)易用的API中。
整個(gè)搜索過程中,中間結(jié)果(種群基因型、部分解決方案、日志)存儲(chǔ)在CSV或JSON中,便于實(shí)時(shí)監(jiān)控。完成后,test()重新合并最佳解決方案并在未見測(cè)試集上評(píng)估它們,以量化最終性能。
四、實(shí)際案例研究
為了展示Mergenetic的能力,研究團(tuán)隊(duì)復(fù)現(xiàn)了兩個(gè)進(jìn)化模型合并管道:MERGE3和EvoLLM-JP。
在第一個(gè)案例中,研究人員展示了如何使用Mergenetic合并四種語言(意大利語、英語、德語和荷蘭語)的單獨(dú)微調(diào)模型,創(chuàng)建一個(gè)單一的多語言模型。這種設(shè)置將目標(biāo)函數(shù)明確地制定為多任務(wù),為每種語言分配一個(gè)評(píng)估指標(biāo),以促進(jìn)平衡的跨語言性能。如結(jié)果所示,合并模型始終優(yōu)于其所有語言特定組成部分,在ARC-Challenge基準(zhǔn)測(cè)試中獲得高達(dá)19%的準(zhǔn)確率提升。最重要的是,它超越了所有端點(diǎn),突顯了進(jìn)化合并在促進(jìn)跨語言積極知識(shí)轉(zhuǎn)移方面的有效性。
在第二個(gè)案例中,研究人員展示了Mergenetic支持跨語言技能遷移的能力。他們將專精于英語數(shù)學(xué)的模型與微調(diào)版本的日語Mistral-7B合并,并在GSM8K數(shù)據(jù)集的日語翻譯版本上評(píng)估結(jié)果。這個(gè)實(shí)驗(yàn)遵循Akiba等人(2025)提出的通用設(shè)置,但僅使用100個(gè)樣本進(jìn)行適應(yīng)度評(píng)估,而非完整數(shù)據(jù)集。結(jié)果顯示,合并模型比每個(gè)單獨(dú)組件的準(zhǔn)確率提高了10-20%,證明了進(jìn)化合并實(shí)現(xiàn)的有效跨語言遷移。
這些案例研究證明,Mergenetic能夠在各種任務(wù)和語言環(huán)境中產(chǎn)生競(jìng)爭性結(jié)果,僅使用適度的硬件資源。它不僅降低了進(jìn)入門檻,還為研究人員和實(shí)踐者提供了靈活的工具,探索高質(zhì)量的模型組合,無需大規(guī)模基礎(chǔ)設(shè)施。
五、局限性與未來展望
盡管Mergenetic顯著降低了進(jìn)化模型合并的門檻,但仍存在幾個(gè)限制。首先,模型合并需要訪問預(yù)訓(xùn)練或微調(diào)的基礎(chǔ)模型,這些模型具有相關(guān)能力(如數(shù)學(xué)推理、特定語言流暢性)。因此,該技術(shù)目前無法直接應(yīng)用于極低資源語言或沒有這類模型的領(lǐng)域。未來工作可以探索在合并前集成輕量級(jí)微調(diào)或基于檢索的增強(qiáng),以減輕這種依賴。
其次,雖然Mergenetic設(shè)計(jì)用于消費(fèi)級(jí)GPU,但仍需相對(duì)高端的硬件(如NVIDIA RTX 2080或更好),這是由于涉及語言模型的大小以及需要在進(jìn)化過程中加載和評(píng)估它們。大多數(shù)筆記本電腦或低內(nèi)存GPU可能沒有足夠的VRAM支持重復(fù)的合并和評(píng)估步驟。研究人員將此視為當(dāng)前LLM基礎(chǔ)設(shè)施的更廣泛限制,并希望模型量化、稀疏評(píng)估和高效加載技術(shù)的進(jìn)步將進(jìn)一步民主化Mergenetic等前沿AI工具的訪問。
展望未來,Mergenetic有望成為進(jìn)化模型合并研究和應(yīng)用的重要工具。它通過將尖端進(jìn)化模型合并技術(shù)與實(shí)用性相結(jié)合,填補(bǔ)了現(xiàn)有工具的空白。研究人員希望該庫能夠推動(dòng)多語言、多任務(wù)和高效進(jìn)化模型合并的未來研究,并邀請(qǐng)社區(qū)在其能力基礎(chǔ)上構(gòu)建和擴(kuò)展。
總結(jié)來說,Mergenetic代表了一個(gè)重要的進(jìn)步,它讓進(jìn)化模型合并變得更加高效、可配置和可訪問。通過彌合尖端進(jìn)化模型合并與實(shí)用性之間的差距,它使研究人員和實(shí)踐者能夠在普通硬件上探索高質(zhì)量的模型組合。這個(gè)簡單而強(qiáng)大的工具庫可能會(huì)促進(jìn)多語言、多任務(wù)和高效進(jìn)化模型合并的未來研究,并邀請(qǐng)社區(qū)在其能力的基礎(chǔ)上構(gòu)建和擴(kuò)展。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。