av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 小模型也能做大事!這個1.2B參數(shù)的AI模型如何在推理任務(wù)上超越眾多競爭對手

小模型也能做大事!這個1.2B參數(shù)的AI模型如何在推理任務(wù)上超越眾多競爭對手

2025-09-12 19:46
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-12 19:46 ? 科技行者

在人工智能的世界里,通常大家都認為模型越大越好,就像汽車引擎越大馬力越強一樣。不過,由小豆科技實驗室(Xiaoduo AI Lab)的王群、劉楊、林清泉、曲志久、蔣玲等研究人員在2024年12月發(fā)表的這項研究卻顛覆了這一認知。他們開發(fā)的Xmodel-2雖然只有12億個參數(shù),但在復(fù)雜推理和智能代理任務(wù)上的表現(xiàn)卻令人刮目相看,甚至超越了許多更大的模型。感興趣的讀者可以通過arXiv:2412.19638v1訪問完整論文,或在GitHub上查看開源代碼:https://github.com/XiaoduoAILab/Xmodel-2。

這項研究的背景其實很容易理解。當(dāng)前的大型語言模型雖然在許多任務(wù)上表現(xiàn)出色,但在復(fù)雜推理方面仍然存在明顯不足。復(fù)雜推理能力對于自動化客服、科學(xué)發(fā)現(xiàn)等應(yīng)用至關(guān)重要,但傳統(tǒng)的解決方案往往是簡單粗暴地增加模型規(guī)模,這就像用更大的錘子來敲核桃一樣,雖然有效但成本高昂。Xmodel-2的研究團隊決定另辟蹊徑,他們要證明通過精巧的設(shè)計和訓(xùn)練策略,小模型也能在推理任務(wù)上取得卓越表現(xiàn)。

研究團隊的核心創(chuàng)新體現(xiàn)在三個方面。首先,他們采用了基于張量程序的創(chuàng)新架構(gòu)設(shè)計,這個技術(shù)聽起來很復(fù)雜,但實際上就像是設(shè)計了一套標(biāo)準(zhǔn)化的樂高積木系統(tǒng)。在這個系統(tǒng)中,不同規(guī)模的模型可以共享同一套超參數(shù)配置,這意味著研究人員可以先在小模型上進行大量實驗來尋找最優(yōu)配置,然后將這些配置無縫地應(yīng)用到更大的模型上。這種方法大大提高了研究效率,避免了在大模型上進行昂貴試驗的需要。

其次,研究團隊采用了來自MiniCPM的WSD學(xué)習(xí)率調(diào)度器。學(xué)習(xí)率調(diào)度器就像是訓(xùn)練過程中的節(jié)拍器,它控制著模型學(xué)習(xí)的快慢節(jié)奏。WSD調(diào)度器的全名是預(yù)熱-穩(wěn)定-衰減調(diào)度器,顧名思義,它將訓(xùn)練過程分為三個階段:先是預(yù)熱階段讓模型慢慢適應(yīng),然后是穩(wěn)定階段進行主要訓(xùn)練,最后是衰減階段精細調(diào)優(yōu)。這種方法確保了訓(xùn)練過程的穩(wěn)定性和效率。

第三個關(guān)鍵創(chuàng)新是數(shù)據(jù)配比優(yōu)化策略。研究團隊深入探索了在訓(xùn)練的衰減階段如何混合預(yù)訓(xùn)練數(shù)據(jù)和高質(zhì)量的監(jiān)督微調(diào)數(shù)據(jù)。經(jīng)過400多次試驗,他們發(fā)現(xiàn)最優(yōu)的監(jiān)督微調(diào)數(shù)據(jù)比例應(yīng)該在60%到69%之間,具體數(shù)值取決于數(shù)據(jù)集的內(nèi)部構(gòu)成。這個發(fā)現(xiàn)就像是找到了烹飪的黃金配比,確保了模型在復(fù)雜推理任務(wù)上的出色表現(xiàn)。

Xmodel-2在訓(xùn)練過程中使用了1.5萬億個token的海量數(shù)據(jù)。這些數(shù)據(jù)來源廣泛,包括中文語料CC_Chn、英文教育網(wǎng)頁FineWeb-Edu、通用英文語料Dolma,以及StarCoder和The Stack等代碼預(yù)訓(xùn)練數(shù)據(jù)集。在衰減階段,研究團隊還加入了多樣化的監(jiān)督微調(diào)數(shù)據(jù),如EvolInstruct、OssInstruct和UltraChat等。為了提高模型的泛化能力,他們將監(jiān)督微調(diào)數(shù)據(jù)分為五個不同類別:數(shù)學(xué)、代碼、邏輯、知識和常識。其中,思維鏈數(shù)據(jù)被歸類在邏輯類別下,通過規(guī)則變換增加了監(jiān)督微調(diào)提示的多樣性。

在模型架構(gòu)設(shè)計上,Xmodel-2采用了類似于LLama 2的結(jié)構(gòu),但進行了多項優(yōu)化。模型具有1536的隱藏層大小、3840的中間層大小、24個注意力頭、8個鍵值頭、48個層以及4096的上下文長度。與大多數(shù)使用BPE分詞器的大型模型不同,Xmodel-2采用了自定義的Unigram分詞器,詞匯表大小為65,280個token。為了提高效率,模型實現(xiàn)了嵌入層共享,這一設(shè)計減少了1億個參數(shù)。

研究團隊特別強調(diào)了深而窄架構(gòu)的重要性,這種設(shè)計對于小型語言模型尤為關(guān)鍵。同時,為了優(yōu)化訓(xùn)練和推理效率,模型采用了分組查詢注意力機制,使用24個注意力頭和8個鍵值頭。這種設(shè)計就像是在有限的資源下優(yōu)化了信息處理的流水線。

訓(xùn)練過程分為兩個關(guān)鍵階段:穩(wěn)定訓(xùn)練階段和衰減階段。在穩(wěn)定訓(xùn)練階段,模型使用約1.5萬億個token進行訓(xùn)練,主要來源于開放數(shù)據(jù)集。訓(xùn)練采用了通過模型調(diào)優(yōu)實驗確定的最優(yōu)配置,使用WSD學(xué)習(xí)率調(diào)度器,批次大小為393萬個token,最大學(xué)習(xí)率為0.01。

衰減階段將預(yù)訓(xùn)練數(shù)據(jù)與高質(zhì)量監(jiān)督微調(diào)數(shù)據(jù)相結(jié)合,對WSD學(xué)習(xí)率調(diào)度器應(yīng)用指數(shù)退火。退火公式為f(s-T) = 0.5^((s-S)/T),其中T設(shè)置為5000步(200億token),使學(xué)習(xí)率在最終訓(xùn)練階段逐漸降低。這個過程就像是在雕琢藝術(shù)品的最后階段,需要更加精細和謹慎的處理。

實驗結(jié)果顯示,Xmodel-2在多個基準(zhǔn)測試中表現(xiàn)卓越。在常識推理任務(wù)上,包括ARC-Challenge、ARC-Easy、BoolQ、HellaSwag、OpenBookQA、PiQA、SciQ、TriviaQA和Winogrande等基準(zhǔn)測試中,Xmodel-2展現(xiàn)了與同規(guī)模模型相當(dāng)?shù)母偁幜?。更令人印象深刻的是,在?fù)雜推理任務(wù)上,Xmodel-2表現(xiàn)出了顯著優(yōu)勢。

在GSM8K數(shù)學(xué)推理測試中,Xmodel-2達到了55.88%的準(zhǔn)確率。在MATH高級數(shù)學(xué)測試中獲得了25.50%的分數(shù)。在BBH大型基準(zhǔn)測試中取得了48.40%的成績。在MMLU多任務(wù)理解測試中達到了48.87%的準(zhǔn)確率。在代碼生成方面,HumanEval測試中達到了29.88%,MBPP測試中達到了29.20%。綜合這些結(jié)果,Xmodel-2在復(fù)雜推理任務(wù)上的平均得分達到了39.62分,在1-2B參數(shù)規(guī)模的模型中表現(xiàn)出色。

特別值得關(guān)注的是Xmodel-2在智能代理任務(wù)上的表現(xiàn)。研究團隊使用ReAct提示技術(shù)在四個代理任務(wù)上進行了評估,包括HotpotQA、FEVER、AlfWorld和WebShop。這些任務(wù)對小型語言模型來說極具挑戰(zhàn)性,因為它們需要復(fù)雜推理、多步?jīng)Q策制定和現(xiàn)實世界交互能力。

在HotpotQA任務(wù)中,代理需要從維基百科檢索信息,跨多個文檔進行推理來回答復(fù)雜的開放式問題,Xmodel-2達到了13.70%的精確匹配率。在FEVER任務(wù)中,代理通過多項選擇題驗證聲明的真實性,取得了40.00%的成績。在AlfWorld任務(wù)中,代理需要在包含25個容器的環(huán)境中進行空間推理和決策制定,執(zhí)行檢索或操作物體等動作,Xmodel-2獲得了0.78%的成功率。在WebShop任務(wù)中,代理需要在模擬的電子商務(wù)環(huán)境中導(dǎo)航、搜索、定制和購買物品,達到了2.20%的成功率。綜合這些任務(wù)的表現(xiàn),Xmodel-2取得了14.21的平均分,在同規(guī)模模型中表現(xiàn)最佳。

研究團隊還進行了一些有趣的案例研究。首先是校準(zhǔn)性分析,結(jié)果顯示預(yù)訓(xùn)練的Xmodel-2模型具有良好的校準(zhǔn)性,預(yù)測置信度與實際正確性概率密切對應(yīng)。校準(zhǔn)圖顯示了模型的預(yù)測置信度與實際準(zhǔn)確率之間的關(guān)系,接近完美校準(zhǔn)的對角線,這表明模型對自身預(yù)測的可信度評估相當(dāng)準(zhǔn)確。

另一個引人關(guān)注的發(fā)現(xiàn)是后訓(xùn)練縮放定律。研究團隊在Wikitext-2數(shù)據(jù)集上探索了測試時損失隨提示token數(shù)量增加的變化規(guī)律。分析顯示,隨著上下文token數(shù)量的增加,模型對下一個token的預(yù)測準(zhǔn)確性提高,損失與token索引遵循冪律關(guān)系。擬合曲線顯示L(t) = b + (t/c)^a,其中a約為-0.575,b約為1.772,c約為32.840。這一發(fā)現(xiàn)表明,類似于OpenAI使用測試時間來增強模型性能的方法,增加上下文長度確實能帶來更準(zhǔn)確的token預(yù)測。

在研究過程中,團隊還進行了大量的模型風(fēng)洞實驗來驗證訓(xùn)練策略。他們在兩個小模型(6M參數(shù)的nano模型和54M參數(shù)的tiny模型)上進行了超參數(shù)搜索和數(shù)據(jù)配比優(yōu)化,這些實驗證實了策略對Xmodel-2的適用性。

具體來說,他們使用貝葉斯優(yōu)化對四個關(guān)鍵超參數(shù)進行了搜索:scale_emb、dim_model_base、scale_depth和learning_rate。在nano模型上使用C4數(shù)據(jù)集進行了300種配置的探索,相比網(wǎng)格搜索的57萬種配置大大提高了效率。結(jié)果顯示,最優(yōu)學(xué)習(xí)率應(yīng)在0.01到0.02之間,dim_model_base應(yīng)低于256。損失低于4.1的配置集中在特定超參數(shù)周圍,表明性能穩(wěn)定。

研究團隊發(fā)現(xiàn),μP超參數(shù)在不同模型規(guī)模間保持穩(wěn)定,這驗證了他們架構(gòu)設(shè)計的有效性。張量程序技術(shù)的應(yīng)用使得不同規(guī)模的模型能夠共享相同的超參數(shù)配置,大大簡化了大模型的調(diào)優(yōu)過程。

數(shù)據(jù)配比實驗揭示了指令格式化的監(jiān)督微調(diào)數(shù)據(jù)在退火階段的有效性,最終確定將64%的比例分配給監(jiān)督微調(diào)數(shù)據(jù)。這些調(diào)整結(jié)合優(yōu)化的數(shù)據(jù)混合和處理,使復(fù)雜推理性能較基線提高了29.31%。

整個研究過程體現(xiàn)了精心設(shè)計的重要性。通過創(chuàng)新的架構(gòu)、優(yōu)化的學(xué)習(xí)率調(diào)度和精確的數(shù)據(jù)配比,Xmodel-2證明了小模型也能在特定領(lǐng)域達到甚至超越大模型的性能。這就像是一位技藝精湛的工匠,用更少的材料制作出了更精美的作品。

說到底,這項研究為我們展示了一個重要的觀點:在人工智能發(fā)展的道路上,并不總是需要通過增加模型規(guī)模來提升性能。通過精巧的設(shè)計和優(yōu)化,小模型同樣可以在特定任務(wù)上取得卓越表現(xiàn)。Xmodel-2的成功不僅為研究人員提供了一個高效的工具,更重要的是,它證明了智能的實現(xiàn)并不完全依賴于規(guī)模的擴張,而是可以通過更好的方法論和技術(shù)創(chuàng)新來達成。

這項研究對于整個人工智能領(lǐng)域具有重要意義。它為那些計算資源有限但希望在推理任務(wù)上取得突破的研究者和開發(fā)者提供了新的思路。同時,Xmodel-2在智能代理任務(wù)上的出色表現(xiàn)也預(yù)示著它在客戶服務(wù)自動化、任務(wù)自動化等實際應(yīng)用中的巨大潛力。

歸根結(jié)底,Xmodel-2的研究告訴我們,在追求人工智能能力提升的過程中,創(chuàng)新的方法往往比簡單的規(guī)模擴張更有價值。這種"小而美"的設(shè)計理念不僅降低了計算成本,提高了訓(xùn)練效率,更重要的是為人工智能的普及和應(yīng)用開辟了新的道路。對于那些希望深入了解這項研究細節(jié)的讀者,完整的論文和代碼都已在GitHub上開源,為進一步的研究和應(yīng)用提供了寶貴資源。

Q&A

Q1:Xmodel-2相比其他1-2B參數(shù)的模型有什么特別之處?

A:Xmodel-2最大的特點是專門針對推理任務(wù)進行優(yōu)化設(shè)計。它采用了創(chuàng)新的張量程序架構(gòu),使得不同規(guī)模模型能共享超參數(shù)配置,大大提高了訓(xùn)練效率。同時使用WSD學(xué)習(xí)率調(diào)度器和精心優(yōu)化的數(shù)據(jù)配比策略,在復(fù)雜推理和智能代理任務(wù)上的表現(xiàn)超越了許多同規(guī)模甚至更大的模型。雖然只有12億參數(shù),但在GSM8K、MATH等推理基準(zhǔn)測試中表現(xiàn)卓越。

Q2:小豆科技為什么要開發(fā)這樣一個小參數(shù)模型而不是追求更大規(guī)模?

A:研究團隊認為簡單增加模型規(guī)模并不是提升推理能力的最佳方案。他們要證明通過精巧設(shè)計和優(yōu)化策略,小模型同樣可以在特定任務(wù)上達到甚至超越大模型的性能。這種方法不僅降低了計算成本和能耗,還提高了訓(xùn)練效率,為資源有限的研究者和開發(fā)者提供了更實用的解決方案,同時也為AI技術(shù)的普及應(yīng)用開辟了新道路。

Q3:普通開發(fā)者如何使用Xmodel-2,它適合哪些應(yīng)用場景?

A:Xmodel-2已經(jīng)在GitHub上開源(https://github.com/XiaoduoAILab/Xmodel-2),開發(fā)者可以免費獲取模型權(quán)重和代碼。由于其在推理和代理任務(wù)上的優(yōu)異表現(xiàn),特別適合用于自動化客服、任務(wù)自動化、代碼生成、數(shù)學(xué)問題求解等需要復(fù)雜推理的應(yīng)用場景。相比大模型,它的部署成本更低,運行效率更高,非常適合中小企業(yè)和個人開發(fā)者使用。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-