av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 貝殼研究院32B模型突破:用開源數(shù)據(jù)打造推理能力媲美超大模型的"小巧強(qiáng)兵"

貝殼研究院32B模型突破:用開源數(shù)據(jù)打造推理能力媲美超大模型的"小巧強(qiáng)兵"

2025-07-09 11:56
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-09 11:56 ? 科技行者

這項(xiàng)由貝殼找房(Ke.com)內(nèi)部a-m團(tuán)隊(duì)的紀(jì)運(yùn)杰、田曉雨、趙思彤、王浩天、陳帥庭、彭一平、趙涵、李現(xiàn)剛等研究者完成的研究,于2025年5月發(fā)表在計(jì)算機(jī)科學(xué)預(yù)印本網(wǎng)站arXiv上(論文編號(hào):arXiv:2505.08311v2),有興趣深入了解的讀者可以通過https://huggingface.co/a-m-team/AM-Thinking-v1訪問完整模型。

近年來,大型語言模型在推理能力上取得了令人矚目的進(jìn)步,特別是在數(shù)學(xué)問題解決和代碼生成這些需要復(fù)雜邏輯推理的任務(wù)上。然而,目前的頂尖推理模型往往依賴于龐大的混合專家(MoE)架構(gòu),這些"巨無霸"模型雖然能力強(qiáng)大,但部署和微調(diào)都極為復(fù)雜,對(duì)硬件資源的要求也相當(dāng)苛刻。

面對(duì)這種情況,研究團(tuán)隊(duì)提出了一個(gè)關(guān)鍵問題:能否在不依賴私有數(shù)據(jù)和大規(guī)模MoE架構(gòu)的情況下,通過精心設(shè)計(jì)的訓(xùn)練流程來釋放32B規(guī)模密集模型的推理潛力?這就像在問,能否用一臺(tái)精心調(diào)教的家用汽車跑出超跑的速度。

為了回答這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了AM-Thinking-v1,這是一個(gè)基于開源Qwen2.5-32B基礎(chǔ)模型構(gòu)建的推理優(yōu)化語言模型。這個(gè)模型在多個(gè)推理基準(zhǔn)測(cè)試中取得了令人印象深刻的成績(jī):在AIME2024數(shù)學(xué)競(jìng)賽中得分85.3,AIME2025中得分74.4,在LiveCodeBench編程測(cè)試中得分70.3。更令人驚訝的是,這個(gè)僅有320億參數(shù)的"小"模型竟然超越了DeepSeek-R1這樣的671B MoE模型,甚至接近了Qwen3-235B-A22B和Seed1.5-Thinking等頂級(jí)大模型的性能。

研究的核心創(chuàng)新在于一套精心設(shè)計(jì)的后訓(xùn)練框架。這個(gè)框架就像一個(gè)精密的烹飪流程,包含兩個(gè)主要階段:監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)。研究團(tuán)隊(duì)從Qwen2.5-32B基礎(chǔ)模型開始,首先使用冷啟動(dòng)數(shù)據(jù)集進(jìn)行監(jiān)督微調(diào),培養(yǎng)模型的"先思考再回答"模式,建立初步的推理能力。接著在強(qiáng)化學(xué)習(xí)階段,他們采用了難度感知的查詢選擇和兩階段訓(xùn)練程序,確保訓(xùn)練的穩(wěn)定性和性能的逐步提升。

更重要的是,整個(gè)訓(xùn)練過程完全基于公開可獲得的數(shù)據(jù)集。研究團(tuán)隊(duì)對(duì)各種開源查詢和指令進(jìn)行了嚴(yán)格的預(yù)處理,包括去重、去除低質(zhì)量或多模態(tài)查詢,以及對(duì)評(píng)估基準(zhǔn)進(jìn)行徹底的污染檢測(cè)。特別是對(duì)于數(shù)學(xué)查詢,由于發(fā)現(xiàn)其中存在大量噪聲項(xiàng),他們構(gòu)建了一個(gè)全面的數(shù)據(jù)處理流程,涵蓋查詢過濾和標(biāo)準(zhǔn)答案驗(yàn)證。

在數(shù)據(jù)收集方面,研究團(tuán)隊(duì)從多個(gè)公開數(shù)據(jù)集中收集訓(xùn)練數(shù)據(jù),涵蓋數(shù)學(xué)推理、代碼生成、科學(xué)推理、指令遵循和通用對(duì)話等任務(wù)。對(duì)于數(shù)學(xué)推理數(shù)據(jù),他們確保每個(gè)數(shù)據(jù)點(diǎn)都包含可驗(yàn)證的標(biāo)準(zhǔn)答案,并整合了OpenR1-Math-220k、Big-Math-RL-Verified、NuminaMath、MetaMathQA等多個(gè)數(shù)據(jù)集。代碼生成數(shù)據(jù)則確保所有收集的代碼數(shù)據(jù)都包含可驗(yàn)證的測(cè)試用例,涵蓋PRIME、DeepCoder、KodCode等數(shù)據(jù)集。

在數(shù)據(jù)清洗過程中,研究團(tuán)隊(duì)首先去除重復(fù)項(xiàng),然后應(yīng)用兩個(gè)清洗步驟:移除包含URL的查詢(因?yàn)槟P蜔o法在訓(xùn)練過程中訪問外部鏈接)和移除引用圖像的查詢(因?yàn)檫@是一個(gè)純文本模型)。最后,他們使用精確匹配和語義去重技術(shù),從訓(xùn)練集中移除與評(píng)估集相似的查詢。

對(duì)于數(shù)學(xué)查詢的特殊處理更加細(xì)致。研究團(tuán)隊(duì)發(fā)現(xiàn)數(shù)學(xué)數(shù)據(jù)中存在描述不清楚或不完整的查詢以及錯(cuò)誤的標(biāo)準(zhǔn)答案問題。為了解決前者,他們使用大語言模型分析并過濾掉缺乏清晰完整描述的查詢。對(duì)于后者,他們實(shí)施了嚴(yán)格的標(biāo)準(zhǔn)答案驗(yàn)證流程:對(duì)每個(gè)查詢,提示DeepSeek-R1生成多個(gè)回答,并使用math_verify工具比較最常見答案與原始標(biāo)準(zhǔn)答案。當(dāng)發(fā)現(xiàn)不一致時(shí),他們會(huì)咨詢o4-mini獲得替代答案,如果math_verify確定o4-mini答案和DeepSeek-R1常見答案產(chǎn)生等效結(jié)果,就認(rèn)為原始標(biāo)準(zhǔn)答案可能錯(cuò)誤并將其修訂。

在合成回答過濾方面,研究團(tuán)隊(duì)?wèi)?yīng)用了三種方法來過濾低質(zhì)量的合成回答:基于困惑度的過濾(使用之前訓(xùn)練的32B模型計(jì)算每個(gè)模型生成回答的困惑度)、基于N-gram的過濾(丟棄包含連續(xù)出現(xiàn)的重復(fù)短語的回答)、基于結(jié)構(gòu)的過濾(確保多輪對(duì)話的最后一輪是助手回答,并要求每個(gè)模型生成的回復(fù)都包含完整的思考和回答組件)。

獎(jiǎng)勵(lì)機(jī)制的設(shè)計(jì)也頗為巧妙。對(duì)于有客觀驗(yàn)證標(biāo)準(zhǔn)的查詢(數(shù)學(xué)、代碼、指令遵循),研究團(tuán)隊(duì)采用基于規(guī)則的驗(yàn)證或代碼執(zhí)行來評(píng)估模型回答的正確性。對(duì)于數(shù)學(xué)查詢,獎(jiǎng)勵(lì)通過驗(yàn)證模型的最終答案確定,過程是從模型答案內(nèi)容的最后一個(gè)框內(nèi)容中提取答案,然后使用math_verify工具與參考答案驗(yàn)證。對(duì)于代碼查詢,驗(yàn)證過程在安全的代碼沙盒環(huán)境中執(zhí)行,目前支持Python和C++等多種編程語言的評(píng)估。

代碼驗(yàn)證分為兩種形式:方法調(diào)用測(cè)試用例(要求實(shí)現(xiàn)特定方法或函數(shù),測(cè)試用例由特定函數(shù)名、輸入值和對(duì)應(yīng)的預(yù)期輸出定義)和標(biāo)準(zhǔn)輸入輸出測(cè)試用例(代碼從標(biāo)準(zhǔn)輸入讀取并寫入標(biāo)準(zhǔn)輸出)。為了確保安全的代碼執(zhí)行和高并發(fā)下的穩(wěn)定性能,研究團(tuán)隊(duì)將沙盒部署為利用多臺(tái)機(jī)器的分布式云服務(wù),通過負(fù)載均衡和隊(duì)列管理確保安全隔離和高容量執(zhí)行的可靠性。

對(duì)于缺乏客觀驗(yàn)證標(biāo)準(zhǔn)的查詢,研究團(tuán)隊(duì)采用基于獎(jiǎng)勵(lì)模型的方法。他們使用獎(jiǎng)勵(lì)模型為每個(gè)生成的回答提供三個(gè)不同的分?jǐn)?shù),分別衡量有用性、正確性和連貫性,最終獎(jiǎng)勵(lì)分?jǐn)?shù)計(jì)算為這三個(gè)分?jǐn)?shù)的平均值。

在監(jiān)督微調(diào)階段,研究團(tuán)隊(duì)使用約284萬個(gè)樣本進(jìn)行訓(xùn)練,涵蓋數(shù)學(xué)、代碼、科學(xué)、指令遵循和通用對(duì)話五大類別。從實(shí)例層面看,數(shù)學(xué)占35.5%,通用對(duì)話占38.3%,代碼占16.4%,科學(xué)占4.3%,指令遵循占5.5%。從token層面看,數(shù)學(xué)占41.8%,代碼占30.9%,通用對(duì)話占22.5%,指令遵循占2.6%,科學(xué)占2.2%。

有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)在長(zhǎng)形式推理任務(wù)上進(jìn)行監(jiān)督微調(diào)會(huì)導(dǎo)致模式轉(zhuǎn)換。與傳統(tǒng)SFT不同,這個(gè)階段需要更大的學(xué)習(xí)率和批量大小才能實(shí)現(xiàn)穩(wěn)定收斂,否則模型難以有效擬合數(shù)據(jù)。傳統(tǒng)SFT可能使用約8×10^-6的學(xué)習(xí)率和約0.5M token的批量大小,而長(zhǎng)形式推理的監(jiān)督微調(diào)通常需要高達(dá)8×10^-5的學(xué)習(xí)率和約2M token的批量大小。

強(qiáng)化學(xué)習(xí)階段更加精細(xì)。研究團(tuán)隊(duì)觀察到,選擇適當(dāng)難度的訓(xùn)練查詢對(duì)確保強(qiáng)化學(xué)習(xí)階段穩(wěn)定的性能改進(jìn)起著關(guān)鍵作用。因此,在RL之前,他們基于SFT模型獲得的通過率過濾數(shù)學(xué)和代碼查詢,只保留通過率嚴(yán)格在0和1之間的查詢,確保訓(xùn)練數(shù)據(jù)保持足夠的挑戰(zhàn)性以推動(dòng)學(xué)習(xí),同時(shí)避免過于簡(jiǎn)單或過于困難的實(shí)例。

RL流程包含兩個(gè)階段。當(dāng)模型在第一階段的性能達(dá)到平臺(tái)期時(shí),他們轉(zhuǎn)入第二階段。在第二階段,他們移除所有在第一階段模型100%正確回答的數(shù)學(xué)和代碼查詢,并補(bǔ)充15k通用對(duì)話和5k指令遵循數(shù)據(jù)以改善更廣泛的泛化能力。

研究團(tuán)隊(duì)采用群體相對(duì)政策優(yōu)化(GRPO)作為訓(xùn)練算法。盡管這是近端政策優(yōu)化(PPO)的簡(jiǎn)化輕量變體,但他們發(fā)現(xiàn)GRPO提供了強(qiáng)大的訓(xùn)練穩(wěn)定性和有效的性能增益。訓(xùn)練配置包括:移除KL約束以允許更實(shí)質(zhì)性的政策更新;對(duì)于在推出過程中超過特定長(zhǎng)度閾值的回答,將其優(yōu)勢(shì)設(shè)為零以防止其影響參數(shù)更新;嚴(yán)格的在策略訓(xùn)練,每個(gè)訓(xùn)練批次包含256個(gè)查詢,對(duì)每個(gè)查詢采樣16個(gè)推出,政策模型在每個(gè)探索階段后只更新一次;兩階段生成和學(xué)習(xí)率調(diào)度,第一階段限制最大回答長(zhǎng)度為24K token并使用相對(duì)較高的4×10^-6學(xué)習(xí)率,第二階段將最大回答長(zhǎng)度增加到32K并將學(xué)習(xí)率降低到1×10^-6。

技術(shù)框架方面,研究團(tuán)隊(duì)的訓(xùn)練流程基于verl框架構(gòu)建,使用GRPO進(jìn)行強(qiáng)化學(xué)習(xí)。verl是一個(gè)開源RL框架,集成了vLLM、FSDP和MegatronLM,能夠在1000+GPU上實(shí)現(xiàn)可擴(kuò)展的RL訓(xùn)練。他們進(jìn)一步擴(kuò)展了verl,增加了最適合其訓(xùn)練策略的修改。

在推出速度優(yōu)化方面,研究團(tuán)隊(duì)發(fā)現(xiàn)在線樣本生成的RL往往受到訓(xùn)練周期長(zhǎng)的困擾,每個(gè)訓(xùn)練步驟需要幾分鐘到幾十分鐘。與SFT或DPO不同,在線GRPO需要在每個(gè)步驟中進(jìn)行政策模型樣本生成,增加了每步延遲。這個(gè)推出階段占據(jù)了一個(gè)訓(xùn)練步驟總時(shí)間的70%以上,因此需要優(yōu)化。

他們識(shí)別出兩個(gè)主要問題:首先,訓(xùn)練是同步的,整個(gè)生成批次必須全部完成才能繼續(xù)下一階段,必須等待批次中最長(zhǎng)的序列完成,造成長(zhǎng)尾效應(yīng)。其次,不同提示和隨機(jī)樣本之間的生成長(zhǎng)度差異進(jìn)一步加劇了推理實(shí)例間的負(fù)載不均衡。

為了解決這些問題,研究團(tuán)隊(duì)采用了兩種方法。第一種方法使用靜態(tài)負(fù)載均衡,將一個(gè)提示的隨機(jī)采樣分散到多個(gè)實(shí)例上。通過將重復(fù)采樣移出推出工作器到訓(xùn)練器中,并增加額外的混洗,放松了同一提示綁定到同一推理實(shí)例的約束。這種改變緩解了不均衡負(fù)載,解放了擁擠的實(shí)例免于運(yùn)行許多低單序列吞吐量的長(zhǎng)序列。

第二種方法是將推出工作器從推理引擎分離,通過知曉實(shí)時(shí)系統(tǒng)指標(biāo)的自定義負(fù)載均衡器實(shí)現(xiàn)動(dòng)態(tài)實(shí)例分配。系統(tǒng)現(xiàn)在具有為每個(gè)生成樣本動(dòng)態(tài)分配推理實(shí)例的靈活性。為了實(shí)現(xiàn)這一點(diǎn),他們?cè)谕瞥龉ぷ髌鲀?nèi)的離線vLLM引擎中添加前端服務(wù)器,暴露API端點(diǎn),將所有實(shí)例的端點(diǎn)附加到自定義負(fù)載均衡器,然后從每個(gè)推出工作器調(diào)用這個(gè)聚合端點(diǎn)。通過實(shí)現(xiàn)感知每個(gè)實(shí)例當(dāng)前負(fù)載和速度指標(biāo)的負(fù)載均衡器,他們可以將擁擠工作器上的長(zhǎng)序列重新路由到不那么擁擠的副本。

在評(píng)估方面,研究團(tuán)隊(duì)在多個(gè)具有挑戰(zhàn)性的基準(zhǔn)上評(píng)估模型。AIME2024是一個(gè)具有挑戰(zhàn)性的數(shù)學(xué)推理競(jìng)賽數(shù)據(jù)集,包含30個(gè)整數(shù)答案問題,旨在評(píng)估精確的數(shù)學(xué)推理。AIME2025包含2025年AIME競(jìng)賽的30個(gè)問題,來自2025年AIME第一部分和第二部分。LiveCodeBench是一個(gè)全面的、無污染的編程基準(zhǔn),持續(xù)聚合來自LeetCode、AtCoder和Codeforces等平臺(tái)的新編程挑戰(zhàn)。Arena-Hard是一個(gè)從Chatbot Arena中的實(shí)時(shí)數(shù)據(jù)構(gòu)建高質(zhì)量基準(zhǔn)的數(shù)據(jù)流程,其中模型回答通過使用GPT-4-Turbo作為仲裁者的成對(duì)比較進(jìn)行評(píng)判。

評(píng)估方法保持標(biāo)準(zhǔn)化條件,最大生成長(zhǎng)度設(shè)為49,152 token。對(duì)于需要隨機(jī)采樣的基準(zhǔn),統(tǒng)一采用0.6的溫度和0.95的top-p值。具體而言,對(duì)于AIME2024和AIME2025,每個(gè)查詢生成64個(gè)回答來計(jì)算pass@1精度;對(duì)于LiveCodeBench,每個(gè)查詢生成16個(gè)回答來估計(jì)pass@1;對(duì)于Arena-Hard,每個(gè)查詢生成一個(gè)回答并使用GPT-4 Turbo進(jìn)行評(píng)估。

在提示策略方面,所有評(píng)估都使用一致的系統(tǒng)提示來指導(dǎo)模型的回答格式,告訴模型它是一個(gè)有用的助手,在回答用戶問題時(shí),首先思考推理過程,然后為用戶提供答案,推理過程和答案分別包含在和標(biāo)簽內(nèi)。

實(shí)驗(yàn)結(jié)果顯示,AM-Thinking-v1在多個(gè)推理基準(zhǔn)上的表現(xiàn)令人印象深刻。在數(shù)學(xué)任務(wù)上,該模型在AIME2024和AIME2025上分別獲得85.3和74.4的分?jǐn)?shù),超越或緊密匹配DeepSeek-R1和Qwen3-235B-A22B等更大模型。在專注于代碼推理的LiveCodeBench基準(zhǔn)上,AM-Thinking-v1達(dá)到70.3的分?jǐn)?shù),大幅超越DeepSeek-R1(64.3)、Qwen3-32B(65.7)和Nemotron-Ultra-253B(68.1),展現(xiàn)了強(qiáng)大的代碼理解和生成能力。在通用對(duì)話基準(zhǔn)Arena-Hard上,AM-Thinking-v1獲得92.5的分?jǐn)?shù),與OpenAI-o1(92.1)和o3-mini(89.0)等幾個(gè)專有模型競(jìng)爭(zhēng)激烈,不過其性能仍落后于Qwen3-235B-A22B(95.6),表明在通用對(duì)話能力方面仍有改進(jìn)空間。

性能與模型大小的關(guān)系圖表明,AM-Thinking-v1在相似規(guī)模的密集模型中實(shí)現(xiàn)了最強(qiáng)性能,并接近了更大MoE模型的性能,在效率和性能之間取得了有效平衡。

在訓(xùn)練過程中,研究團(tuán)隊(duì)還觀察到一些有趣的現(xiàn)象。在SFT的早期階段,模型傾向于生成過長(zhǎng)的輸出,停止比率較低。這主要是由于基礎(chǔ)模型的預(yù)訓(xùn)練語料主要由純文本組成,以及數(shù)據(jù)集中的推理示例比標(biāo)準(zhǔn)指令數(shù)據(jù)長(zhǎng)得多。隨著訓(xùn)練的進(jìn)行,平均生成長(zhǎng)度持續(xù)下降,停止比率穩(wěn)步上升,表明模型正逐漸學(xué)習(xí)長(zhǎng)形式推理提示中固有的結(jié)構(gòu)和語義模式。

這項(xiàng)研究最重要的貢獻(xiàn)在于證明了即使沒有大規(guī)模MoE架構(gòu),32B規(guī)模的密集模型也能實(shí)現(xiàn)與最佳可用模型相當(dāng)?shù)耐评砟芰?。研究團(tuán)隊(duì)希望這項(xiàng)工作能為社區(qū)提供實(shí)用參考,突出精心的后訓(xùn)練設(shè)計(jì)如何在保持中等規(guī)模模型部署優(yōu)勢(shì)的同時(shí)彌補(bǔ)性能差距。

然而,研究團(tuán)隊(duì)也坦誠(chéng)地指出了AM-Thinking-v1的局限性。雖然該模型在推理和開放域?qū)υ挿矫姹憩F(xiàn)良好,但它缺乏對(duì)結(jié)構(gòu)化函數(shù)調(diào)用、工具使用和多模態(tài)輸入的支持,限制了其在基于代理或跨模態(tài)場(chǎng)景中的適用性。安全對(duì)齊仍然是初步的,需要進(jìn)一步的紅隊(duì)測(cè)試。此外,其在低資源語言和特定領(lǐng)域任務(wù)上的性能可能有所不同。

說到底,這項(xiàng)研究為我們展示了一個(gè)令人振奮的可能性:通過巧妙的設(shè)計(jì)和精心的訓(xùn)練,相對(duì)較小的模型也能在特定任務(wù)上達(dá)到甚至超越巨型模型的表現(xiàn)。這就像一個(gè)技藝精湛的工匠,用普通的工具也能創(chuàng)造出超越昂貴設(shè)備的作品。對(duì)于那些資源有限但又希望在推理任務(wù)上獲得出色性能的研究者和開發(fā)者來說,這無疑是一個(gè)重要的啟示。

歸根結(jié)底,AM-Thinking-v1證明了在AI發(fā)展的道路上,創(chuàng)新的方法往往比單純的規(guī)模擴(kuò)張更有價(jià)值。這項(xiàng)研究不僅為32B規(guī)模模型的潛力提供了有力證明,也為整個(gè)開源社區(qū)指出了一條可行的發(fā)展路徑。有興趣的讀者可以通過https://huggingface.co/a-m-team/AM-Thinking-v1下載并體驗(yàn)這個(gè)模型,親自感受其在推理任務(wù)上的表現(xiàn)。

Q&A

Q1:AM-Thinking-v1是什么?它有什么特別之處? A:AM-Thinking-v1是貝殼找房開發(fā)的32B參數(shù)推理優(yōu)化語言模型。它的特別之處在于用相對(duì)較小的規(guī)模(320億參數(shù))實(shí)現(xiàn)了媲美甚至超越千億級(jí)大模型的推理能力,在數(shù)學(xué)競(jìng)賽AIME2024上得分85.3,超越了671B的DeepSeek-R1模型。

Q2:這個(gè)模型是怎么訓(xùn)練出來的?普通人能用嗎? A:該模型完全基于開源數(shù)據(jù)和Qwen2.5-32B基礎(chǔ)模型訓(xùn)練,采用監(jiān)督微調(diào)加強(qiáng)化學(xué)習(xí)的兩階段流程。普通人可以通過https://huggingface.co/a-m-team/AM-Thinking-v1免費(fèi)下載使用,但需要一定的技術(shù)背景來部署運(yùn)行。

Q3:32B模型相比更大的模型有什么優(yōu)勢(shì)? A:32B模型的主要優(yōu)勢(shì)是部署簡(jiǎn)單、資源需求低、微調(diào)容易。相比動(dòng)輒幾千億參數(shù)的MoE模型,32B模型可以在普通硬件上運(yùn)行,維護(hù)成本更低,同時(shí)在特定推理任務(wù)上仍能達(dá)到頂級(jí)性能,是效率和能力的最佳平衡點(diǎn)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-