av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 TeleAI團隊重磅發(fā)布TeleChat2、TeleChat2.5和T1:三款大語言模型的全面升級之路

TeleAI團隊重磅發(fā)布TeleChat2、TeleChat2.5和T1:三款大語言模型的全面升級之路

2025-07-29 12:03
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-29 12:03 ? 科技行者

這項由中國電信人工智能研究院TeleAI團隊完成的重要研究發(fā)表于2025年1月,詳細介紹了他們最新開發(fā)的三款大語言模型——TeleChat2、TeleChat2.5和T1的技術(shù)報告。有興趣深入了解技術(shù)細節(jié)的讀者可以通過arXiv:2507.18013v1訪問完整的技術(shù)論文。

在人工智能快速發(fā)展的今天,大語言模型就像是數(shù)字世界中的"萬能助手",它們能夠理解人類語言、回答問題、編寫代碼,甚至進行復(fù)雜的推理。TeleAI團隊在這個充滿競爭的領(lǐng)域中推出了他們的最新作品,這就像是廚師們在同一個廚房里比拼廚藝,每個人都在努力做出最美味的菜肴。

TeleAI團隊此次發(fā)布的三款模型可以說是他們的"招牌菜"。TeleChat2是基礎(chǔ)版本,就像是一道精心調(diào)制的主菜;TeleChat2.5在此基礎(chǔ)上進行了優(yōu)化,追求更快的響應(yīng)速度,如同快手菜;而T1則專門針對復(fù)雜推理任務(wù)進行了特殊調(diào)教,就像是需要精細工藝的法式大餐。這三款模型都提供了35B和115B兩種參數(shù)規(guī)模,就像同一道菜有小份和大份的選擇。

這項研究的特別之處在于,雖然模型的基礎(chǔ)架構(gòu)沒有太大變化,但通過改進訓(xùn)練方法,就像改良烹飪工藝一樣,獲得了顯著的性能提升。研究團隊使用了10萬億個高質(zhì)量數(shù)據(jù)標記進行預(yù)訓(xùn)練,這個數(shù)據(jù)量相當(dāng)于把世界上所有圖書館的藏書都讀了好幾遍。更令人印象深刻的是,T1-115B模型在數(shù)學(xué)推理和編程任務(wù)上的表現(xiàn)甚至超過了OpenAI的o1-mini和GPT-4o等知名模型。

一、模型架構(gòu):在經(jīng)典配方基礎(chǔ)上的精心調(diào)味

TeleAI團隊在設(shè)計這三款模型時,選擇了延續(xù)經(jīng)典而成熟的架構(gòu)配方。就像優(yōu)秀的廚師不會隨意改變傳統(tǒng)菜譜的基本結(jié)構(gòu),而是在細節(jié)上精心調(diào)味一樣,研究團隊保持了TeleChat原有的核心架構(gòu),但在關(guān)鍵地方進行了巧妙的改進。

這些模型都采用了Pre-Norm設(shè)計配合RMSNorm標準化技術(shù),這就像是在烹飪過程中嚴格控制每個步驟的溫度和時間。在激活函數(shù)方面,他們選擇了SwiGLU作為前饋網(wǎng)絡(luò)的激活函數(shù),這個技術(shù)名詞聽起來復(fù)雜,但實際上就像是在菜品中添加特殊的調(diào)料,讓模型的"口感"更加豐富。同時,他們還集成了旋轉(zhuǎn)位置編碼技術(shù),這種技術(shù)幫助模型更好地理解文本中詞語的位置關(guān)系,就像廚師需要知道每種食材在什么時候加入才能達到最佳效果。

在具體的技術(shù)調(diào)整上,研究團隊做了兩個重要改進。首先,對于115B參數(shù)的大模型,他們采用了分組查詢注意力機制,使用8個鍵值頭而不是傳統(tǒng)的多頭注意力。這種改進就像是用更高效的廚具來加快烹飪速度,既能加速訓(xùn)練過程,又能更有效地利用計算資源。其次,他們提高了RoPE基礎(chǔ)頻率參數(shù),這個調(diào)整看似微小,實際上大大增強了模型處理長文本的能力,就像調(diào)整烤箱溫度能讓面包烤得更均勻一樣。

在模型規(guī)模設(shè)計上,35B版本配置了64個層級、6144個模型維度和48個注意力頭,而115B版本則擴展到96個層級、8192個模型維度和64個注意力頭,但鍵值頭數(shù)量精簡到8個。這種設(shè)計就像是為不同用途準備不同大小的餐具,既要保證功能完整,又要考慮實際使用的便利性。

二、預(yù)訓(xùn)練過程:從原料選擇到精心烹制的完整流程

TeleAI團隊的預(yù)訓(xùn)練過程就像是一位大廚從選擇最優(yōu)質(zhì)的原料開始,經(jīng)過精心的準備和烹制,最終呈現(xiàn)出完美菜品的完整過程。整個預(yù)訓(xùn)練分為兩個主要階段:初始預(yù)訓(xùn)練階段和長文本退火階段。

在初始預(yù)訓(xùn)練階段,研究團隊首先要解決的是"原料采購"問題。他們從多個來源收集了豐富多樣的數(shù)據(jù),包括網(wǎng)頁內(nèi)容、書籍、百科全書、新聞文章、社交媒體平臺、學(xué)術(shù)論文、代碼倉庫等通用領(lǐng)域資源,同時還精心收集了來自金融、建筑、醫(yī)療等二十多個專業(yè)領(lǐng)域的特定數(shù)據(jù)。這就像一位大廚不僅要準備基本的米面油鹽,還要搜集各種地方特色食材,確保能烹制出豐富多樣的菜品。

數(shù)據(jù)清洗過程則像是食材的精心處理。研究團隊實施了多層次的去重策略,包括網(wǎng)址級別、文檔級別和段落級別的去重,確保沒有重復(fù)的"食材"混入其中。他們還設(shè)計了啟發(fā)式過濾規(guī)則,比如排除過于簡短或缺乏實質(zhì)信息的文本,過濾掉標點符號異常頻繁的內(nèi)容,清除包含過多敏感詞匯的文本。對于代碼相關(guān)數(shù)據(jù),他們甚至?xí)鶕?jù)源網(wǎng)站的評價標準進行篩選,比如GitHub項目的星標數(shù)量就像是菜品的用戶評分。

更進一步,研究團隊還引入了大語言模型來進行質(zhì)量控制,這就像請專業(yè)品鑒師來把關(guān)食材質(zhì)量。這些模型會評估文本的相關(guān)性、連貫性和流暢性,同時識別和標記可能存在毒性、偏見或不當(dāng)內(nèi)容的材料。對于數(shù)學(xué)和編程相關(guān)的數(shù)據(jù),他們特別重視正確性和可執(zhí)行性,使用自動化腳本和靜態(tài)分析工具來驗證語法正確性,通過代碼執(zhí)行反饋來確保代碼樣本能夠正常運行,使用符號計算工具驗證數(shù)學(xué)問題的準確性。

在確定數(shù)據(jù)配比方面,研究團隊采用了聰明的策略。由于115B這樣的大模型訓(xùn)練成本極高,無法頻繁嘗試不同的數(shù)據(jù)配比,他們先在較小的模型(3B和7B)上進行實驗,就像廚師在制作大餐前先用小份量試驗調(diào)料比例。通過這些實驗,他們發(fā)現(xiàn)英文語料的比例不應(yīng)過度降低,原因有兩個:中文本身的語言復(fù)雜性更高,以及中文語料的整體質(zhì)量相對較低。基于這些洞察,他們預(yù)測了更大模型在不同數(shù)據(jù)配比下的表現(xiàn),從而選擇最有希望的配方進行大規(guī)模訓(xùn)練。

在實際訓(xùn)練過程中,研究團隊采用了課程學(xué)習(xí)策略來動態(tài)調(diào)整不同數(shù)據(jù)類型的比例。在訓(xùn)練初期,他們強調(diào)更簡單、更通用的數(shù)據(jù),幫助模型建立強大的語言理解和基礎(chǔ)推理能力。隨著訓(xùn)練的進展,他們逐漸增加更復(fù)雜、更專業(yè)的數(shù)據(jù)比例,如數(shù)學(xué)問題和代碼相關(guān)任務(wù),讓模型逐步建立高級能力。為了確保平衡學(xué)習(xí),他們每訓(xùn)練1000億個標記就進行一次全面評估,涵蓋所有主要數(shù)據(jù)類型,根據(jù)評估結(jié)果調(diào)整后續(xù)訓(xùn)練階段的數(shù)據(jù)采樣比例,增加模型表現(xiàn)相對較弱領(lǐng)域的數(shù)據(jù)代表性。

在訓(xùn)練的技術(shù)細節(jié)上,他們使用Adam優(yōu)化器,設(shè)置學(xué)習(xí)率參數(shù)為β1=0.9、β2=0.95,并采用余弦學(xué)習(xí)率調(diào)度器。在達到峰值學(xué)習(xí)率后,學(xué)習(xí)率會逐漸衰減到峰值的10%。他們還應(yīng)用了權(quán)重衰減和梯度裁剪等技術(shù)來確保訓(xùn)練穩(wěn)定性,將最大序列長度設(shè)置為8K,在總計10萬億個標記上進行預(yù)訓(xùn)練。

長文本退火階段是整個預(yù)訓(xùn)練過程的精華部分。為了在訓(xùn)練效率和效果之間取得最佳平衡,研究團隊將長文本擴展整合到退火階段。這個階段的目標是讓模型能夠處理更長的文本,同時保持在短文本上的強大性能。他們將TeleBase2-35B的上下文窗口擴展到256K標記,TeleBase2-115B擴展到128K標記,同時確保模型在8K標記長度上的性能不受影響。

在長文本訓(xùn)練的數(shù)據(jù)準備上,他們將訓(xùn)練數(shù)據(jù)按照長度分為五個區(qū)間:0-8K、8K-16K、16K-32K、32K-128K和128K+。在每個區(qū)間內(nèi),數(shù)據(jù)進一步按領(lǐng)域細分,這種結(jié)構(gòu)化方法使得他們能夠進行精細的分析和控制。在退火階段,0-8K區(qū)間的數(shù)據(jù)與其他區(qū)間以7:3的比例混合,優(yōu)先考慮較短序列的同時逐步引入較長上下文。同時,來自重要領(lǐng)域如考試和代碼的高質(zhì)量數(shù)據(jù)在所有長度區(qū)間都被上采樣,確保關(guān)鍵知識源的強大覆蓋。

上下文長度的擴展采用了階段性策略,學(xué)習(xí)率根據(jù)余弦退火依次遞減。第一個退火階段的初始學(xué)習(xí)率等同于8K預(yù)訓(xùn)練期間使用的學(xué)習(xí)率,后續(xù)退火基于前一訓(xùn)練階段三分之一步驟的權(quán)重進行,該時間點的學(xué)習(xí)率作為初始值。由于RoPE基礎(chǔ)參數(shù)是決定大語言模型有效上下文長度的關(guān)鍵因素,他們將RoPE基礎(chǔ)設(shè)置為:32K退火時為1×10^6,128K時為8×10^6,256K時為4×10^7。每個完整退火階段需要500億訓(xùn)練標記。

經(jīng)過多個階段的上下文擴展退火和微調(diào)后,TeleBase2系列模型在4K到128K上下文長度范圍內(nèi)的"大海撈針"測試中表現(xiàn)出色。這個測試就像在一大堆文件中尋找特定信息,模型需要在很長的文本中準確找到關(guān)鍵內(nèi)容。測試結(jié)果顯示,TeleBase2-115B在這項任務(wù)上取得了優(yōu)異的成績,證明了長文本處理能力的顯著提升。

為了增強最終模型的穩(wěn)健性和泛化能力,研究團隊在訓(xùn)練過程結(jié)束后應(yīng)用了檢查點平均技術(shù)。具體來說,他們計算了最后五個檢查點參數(shù)的逐元素平均值。通過平均這些檢查點,他們有效地平滑了參數(shù)分布,提高了模型穩(wěn)定性。這就像是調(diào)制一道復(fù)雜菜品時,最后要統(tǒng)一調(diào)味,確保整體口感的和諧統(tǒng)一。

三、后訓(xùn)練優(yōu)化:從基礎(chǔ)模型到專業(yè)助手的蛻變過程

后訓(xùn)練階段就像是將一個已經(jīng)掌握了基本技能的學(xué)徒培養(yǎng)成為各個領(lǐng)域?qū)<业倪^程。TeleAI團隊設(shè)計了三條不同的發(fā)展路徑:TeleChat2直接在基礎(chǔ)模型上進行監(jiān)督微調(diào)和直接偏好優(yōu)化,而TeleChat2.5和T1則經(jīng)歷了更加復(fù)雜的三階段訓(xùn)練過程。

監(jiān)督微調(diào)階段是整個后訓(xùn)練的基礎(chǔ),就像是為學(xué)徒制定全面的課程表。研究團隊首先開發(fā)了一套標簽系統(tǒng)來系統(tǒng)性地組織和分類監(jiān)督微調(diào)數(shù)據(jù),確保在不同學(xué)科領(lǐng)域的平衡代表性。這個分層系統(tǒng)包括數(shù)學(xué)、編程、推理、對話安全、指令遵循、工具使用等主要類別,每個類別都進一步細分為精細的分類,全面捕獲所需的能力。

在查詢收集方面,研究團隊從廣泛的開源數(shù)據(jù)集中獲取查詢,并采用嚴格的數(shù)據(jù)清理流程來消除重復(fù)或高度相似的條目。為了識別語義關(guān)系,他們將查詢映射到高維嵌入空間,并應(yīng)用K-means聚類算法來有效分組。在清理和組織標簽系統(tǒng)內(nèi)的數(shù)據(jù)后,他們識別出某些類別的空白以及任務(wù)難度分布的不均衡。為了解決這些挑戰(zhàn),他們利用自指導(dǎo)和指令演化技術(shù)生成合成查詢,構(gòu)建一個不僅完全覆蓋知識系統(tǒng)還實現(xiàn)復(fù)雜性和多樣性良好平衡分布的查詢集。

對于不同數(shù)據(jù)類別,研究團隊設(shè)計了單獨的難度評分提示,并利用大語言模型對每個來源內(nèi)的每種數(shù)據(jù)類型進行單獨評分。對于數(shù)學(xué)和代碼等領(lǐng)域,他們采用通過率指標來區(qū)分學(xué)習(xí)難度。對于創(chuàng)意寫作、角色扮演、指令遵循和結(jié)構(gòu)化數(shù)據(jù)生成等某些數(shù)據(jù)類型,他們觀察到開源數(shù)據(jù)集中的難度水平普遍較低。為了解決這個問題,他們手動策劃高質(zhì)量種子示例,并通過指令演化重建數(shù)據(jù)集,確保數(shù)據(jù)難度與實際使用復(fù)雜性密切匹配。

在響應(yīng)生成方面,研究團隊采用了人工標注和合成數(shù)據(jù)生成相結(jié)合的方法。他們組建了一支由內(nèi)部標注員和外部承包商組成的團隊來執(zhí)行手動數(shù)據(jù)標注,標注員在廣泛的學(xué)科領(lǐng)域擁有多樣化的專業(yè)知識。為了解決挑戰(zhàn)當(dāng)前大語言模型的查詢,特別是在數(shù)學(xué)和推理任務(wù)中,他們依靠標注團隊生成高質(zhì)量響應(yīng)。對于創(chuàng)意寫作、角色扮演和開放式問答等非推理任務(wù),他們讓人工標注員驗證合成數(shù)據(jù)的準確性。

對于收集到的查詢,他們首先使用高性能模型進行采樣,并根據(jù)任務(wù)特定的評估標準選擇最優(yōu)答案。具體來說,對于具有可驗證正確性的任務(wù),如數(shù)學(xué)、代碼生成、指令遵循和STEM考試,他們采用基于規(guī)則的獎勵系統(tǒng),通過預(yù)定義指標評估響應(yīng),只保留正確答案。對于主觀任務(wù),如人文學(xué)科、創(chuàng)意寫作、開放式問答,他們利用大語言模型評判框架,獨立的大語言模型基于流暢性、連貫性和相關(guān)性對響應(yīng)進行評分,只保留得分最高的響應(yīng)。

為了進一步確保數(shù)據(jù)準確性,他們實施了一套全面的基于規(guī)則的數(shù)據(jù)驗證機制。在生成過程中,經(jīng)常出現(xiàn)重復(fù)內(nèi)容、截斷輸出和亂碼字符等問題,他們嚴格過濾掉此類錯誤數(shù)據(jù)。他們通過基于規(guī)則的驗證腳本強制約束合規(guī)性,確保遵守格式特定要求,如輸出長度、段落計數(shù)或用戶查詢施加的結(jié)構(gòu)指導(dǎo)原則。他們還使用敏感關(guān)鍵詞數(shù)據(jù)庫實施內(nèi)容過濾器,過濾可能包含安全風(fēng)險的答案,被標記的數(shù)據(jù)隨后由人工標注員執(zhí)行進一步驗證以確保質(zhì)量。

在確定數(shù)據(jù)配比方面,研究團隊采用了一種創(chuàng)新的迭代算法。他們的分析揭示了模型性能與驗證集困惑度之間的潛在負相關(guān)關(guān)系,即在驗證集上實現(xiàn)更好評估性能的模型通常表現(xiàn)出較低的困惑度。然而,當(dāng)驗證集按類別分區(qū)時,并非所有子集都在相同的訓(xùn)練步驟達到最小困惑度。為了解決這個問題,他們設(shè)計了一種迭代調(diào)整訓(xùn)練數(shù)據(jù)內(nèi)每個類別子集代表比例的算法。

在第t輪微調(diào)實驗中,他們將訓(xùn)練數(shù)據(jù)按分類劃分為各種子集,并定期記錄每個子集的困惑度。他們使用三次樣條插值擬合曲線,表示子集i在第t次迭代中困惑度p作為訓(xùn)練步驟s的函數(shù)。類似地,他們根據(jù)每個子集的標記計算困惑度的加權(quán)平均值,并擬合其最低點。新比例的計算采用特定的數(shù)學(xué)公式,其中κ和μ是基于數(shù)據(jù)集特征動態(tài)校準的超參數(shù),在他們的實驗中最優(yōu)值分別為10和15000。

在訓(xùn)練細節(jié)方面,他們通過網(wǎng)格搜索優(yōu)化微調(diào)的超參數(shù),實現(xiàn)特定于模型的訓(xùn)練配置。對于35B變體,余弦衰減學(xué)習(xí)率調(diào)度從3×10^-5開始,逐漸衰減到1×10^-5,批處理大小為8;對于115B變體,學(xué)習(xí)率從1.5×10^-5開始,衰減到1.5×10^-6,批處理大小為16。為了提高訓(xùn)練效率并減少序列填充開銷,他們實施了打包策略,將多個訓(xùn)練樣本連接成單個序列,同時在可能的情況下戰(zhàn)略性地將單輪樣本組合成多輪對話,增強模型的多輪對話能力。

直接偏好優(yōu)化階段是提升模型質(zhì)量的關(guān)鍵步驟,就像是通過不斷的實踐和反饋來完善技能。在偏好數(shù)據(jù)構(gòu)建方面,他們將監(jiān)督微調(diào)提示分為兩部分,將90%分配給監(jiān)督微調(diào)訓(xùn)練,10%分配給直接偏好優(yōu)化。由于他們的監(jiān)督微調(diào)提示提供了對不同領(lǐng)域和不同復(fù)雜性水平的全面覆蓋,直接偏好優(yōu)化提示能夠滿足多樣性和難度平衡的要求。此外,他們整合了新的指令遵循約束來增強模型遵守指令的能力,并引入了基于先前模型弱點的配對,以解決其缺陷。

在響應(yīng)生成環(huán)節(jié),給定提示后,他們首先從一組最先進的開源和專有模型中進行采樣,這些模型在參數(shù)大小和模型系列方面有所不同。他們使用貪婪采樣,每個模型只采樣一次。接下來,他們通過從最新的TeleChat2.5和T1模型采樣完成來整合策略內(nèi)數(shù)據(jù),利用高溫采樣產(chǎn)生多個響應(yīng)。為了提高拒絕采樣的效率,他們采用vllm加速推理過程。

在偏好標注方面,為每個提示生成多個響應(yīng)后,有必要為每個響應(yīng)分配獎勵。對于可驗證的問題,獎勵基于特定標準或規(guī)則確定。例如,在編程問題中,他們評估解決方案是否通過單元測試;在數(shù)學(xué)、推理和標準考試問題中,他們評估生成的答案是否導(dǎo)致正確解決方案;對于指令遵循約束提示,他們驗證生成的答案是否遵循約束。對于具有自由形式答案的開放式問題,他們使用大語言模型評判基于四個不同因素在0到10的尺度上評估每個答案:有用性、指令遵循、完整性和準確性。

偏好配對構(gòu)建遵循幾個關(guān)鍵原則。選中的響應(yīng)專門從得分最高的響應(yīng)中選擇,為了維持響應(yīng)質(zhì)量標準,他們對選中響應(yīng)資格施加得分≥8的最低閾值。當(dāng)多個響應(yīng)達到相同的最高得分時,優(yōu)先考慮TeleChat系列本身生成的響應(yīng),而不是策略外候選者。這種設(shè)計選擇減輕了直接偏好優(yōu)化訓(xùn)練中固有的潛在分布偏移問題。拒絕的響應(yīng)嚴格從TeleChat系列模型自己的生成中采樣,這種方法允許模型通過從自己的錯誤模式中學(xué)習(xí)進行自我糾正。在選中和拒絕配對之間強制執(zhí)行最小絕對得分差異(Δ≥2),這個閾值考慮了大語言模型評判評分的記錄不穩(wěn)定性,有效過濾掉模糊比較,其中微小得分變化可能不反映真正的質(zhì)量差異。

在訓(xùn)練細節(jié)方面,他們?yōu)橹苯悠脙?yōu)化訓(xùn)練一個時期,學(xué)習(xí)率為5×10^-7,批處理大小為256。他們使用學(xué)習(xí)率預(yù)熱和余弦學(xué)習(xí)率調(diào)度器,β超參數(shù)設(shè)置為0.1。他們在長上下文監(jiān)督微調(diào)檢查點上進行直接偏好優(yōu)化訓(xùn)練,但只選擇標記長度短于8192的樣本。他們的觀察表明,在直接偏好優(yōu)化中僅利用短上下文訓(xùn)練數(shù)據(jù)不會對長上下文性能產(chǎn)生負面影響。

在直接偏好優(yōu)化訓(xùn)練期間,他們?yōu)榕鋵僬咛砑恿丝s放系數(shù)為0.2的額外負對數(shù)似然損失項,這對性能也被證明是至關(guān)重要的。此外,他們采用了一種技術(shù),在損失函數(shù)中屏蔽選中和拒絕響應(yīng)的終止標記,以增強直接偏好優(yōu)化訓(xùn)練的穩(wěn)定性。這是必要的,因為選中和拒絕響應(yīng)中共享標記的存在創(chuàng)建了沖突的學(xué)習(xí)目標,要求模型同時增加和減少這些標記的可能性。

模型合并是提升整體性能的重要步驟。在直接偏好優(yōu)化階段期間,他們合并來自涉及不同數(shù)據(jù)版本或超參數(shù)的實驗的模型。特別是,他們通過簡單平均權(quán)重來合并多個模型,并觀察到這種合并過程有利于增強模型的穩(wěn)健性和整體能力。

他們還采用了迭代直接偏好優(yōu)化的方法。離線偏好調(diào)整方法程序的迭代應(yīng)用已被證明是有益的,更新的模型用于構(gòu)建更具信息性并導(dǎo)致進一步改進的新偏好配對。因此,他們在三輪中應(yīng)用這些方法,在每個周期中通過從最新模型采樣合成數(shù)據(jù)來收集新的偏好配對。

強化學(xué)習(xí)階段是整個后訓(xùn)練過程的高級階段,專門針對數(shù)學(xué)推理和代碼生成能力的提升。在數(shù)學(xué)強化學(xué)習(xí)方面,他們從兩個公開可用的來源策劃數(shù)據(jù)集:OpenR1-Math220k和Synthetic-1。為了確保數(shù)據(jù)質(zhì)量,他們過濾掉需要證明的問題以及具有不完整或不一致參考的問題。具體來說,他們只保留可以使用數(shù)學(xué)等式函數(shù)自動驗證的問題,該函數(shù)檢查答案的數(shù)值或分析等價性。對于答案提取,他們提示模型將其最終答案包裝在boxed{}中,并運行驗證過程以確認正確性。

在編程強化學(xué)習(xí)方面,他們從監(jiān)督微調(diào)數(shù)據(jù)集中提取編程問題的子集,只保留能夠執(zhí)行代碼執(zhí)行反饋的樣本。對于單元測試,他們開發(fā)了一個支持多種測試方法的安全本地代碼沙箱環(huán)境,包括標準輸入輸出驗證和基于斷言的驗證。

在工具使用強化學(xué)習(xí)方面,他們采用兩步策略策劃函數(shù)調(diào)用數(shù)據(jù)。首先是初始候選集構(gòu)建,他們選擇一批源自與監(jiān)督微調(diào)數(shù)據(jù)相同來源的函數(shù)調(diào)用數(shù)據(jù)作為候選。隨后,多個大語言模型用于對每個查詢執(zhí)行多個推理,選擇模型間輸出一致的查詢及其相應(yīng)的真實答案作為訓(xùn)練輸入。然后是難度分層和數(shù)據(jù)策劃,目標模型用于對查詢執(zhí)行多個推理,將模型輸出與參考答案進行比較以計算pass@5率。根據(jù)pass@5將查詢分類為難度級別:pass@5=1表示對當(dāng)前模型來說太容易;0<pass@5<1表示模型有潛力正確回答但在這些查詢上表現(xiàn)不穩(wěn)定;pass@5=0表示模型難以正確回答的困難查詢。強化學(xué)習(xí)訓(xùn)練數(shù)據(jù)集由中等和困難數(shù)據(jù)以2:1的比例組成。

對于獎勵函數(shù)設(shè)計,他們根據(jù)數(shù)據(jù)類型實施類別特定處理。具體來說,數(shù)據(jù)分為需要工具和不需要工具的類別。對于需要工具調(diào)用的任務(wù),他們建立二元獎勵:如果模型輸出格式完全正確且工具調(diào)用的特定內(nèi)容與參考答案完全匹配,則獲得全額獎勵(+1);如果輸出格式不正確或工具調(diào)用內(nèi)容偏離參考答案,則給予懲罰(-1)。對于不需要工具調(diào)用的純文本任務(wù),他們采用相對靈活的評分機制:首先,他們使用另一個大語言模型對模型輸出進行質(zhì)量評估,得出原始質(zhì)量得分;然后,他們通過線性變換公式將這個原始得分映射到統(tǒng)一的獎勵值范圍[-1,1],以便與工具調(diào)用任務(wù)的獎勵進行統(tǒng)一比較和優(yōu)化。

他們利用OpenRLHF框架進行訓(xùn)練,并采用reinforce++算法。為了確保穩(wěn)定訓(xùn)練,他們實施動態(tài)采樣,持續(xù)采樣直到批次完全填充準確性既不是0也不是1的示例。對于超參數(shù),他們使用AdamW優(yōu)化器,常數(shù)學(xué)習(xí)率為5×10^-7,結(jié)合20個推出步驟的線性預(yù)熱。在推出階段,提示批處理大小設(shè)置為128,每個提示生成16個響應(yīng)。對于訓(xùn)練,小批處理大小也配置為128。

四、核心能力提升:針對特定技能的專業(yè)化訓(xùn)練

TeleAI團隊不僅要讓他們的模型具備通用能力,還要在特定領(lǐng)域達到專業(yè)水準。就像培養(yǎng)一個全能型人才,既要有廣博的知識基礎(chǔ),還要在某些專業(yè)領(lǐng)域有突出的表現(xiàn)。他們重點加強了四個關(guān)鍵能力:代碼生成、數(shù)學(xué)推理、工具使用和精確指令遵循。

在代碼生成能力提升方面,研究團隊采用了兩階段訓(xùn)練策略,就像先讓學(xué)生掌握編程基礎(chǔ),再進行專業(yè)項目實戰(zhàn)。在第一階段,基礎(chǔ)模型在數(shù)千萬個多樣化指令樣本上進行訓(xùn)練,這些樣本來自大規(guī)模開源數(shù)據(jù)集如CodeAlpaca、CodeSearchNet,以及從GitHub倉庫提取的代碼。這個基礎(chǔ)階段通過暴露模型于廣泛的任務(wù)范圍來拓寬模型能力。在隨后的微調(diào)階段,他們采用高質(zhì)量、精心策劃的指令數(shù)據(jù)集,包括多語言代碼生成任務(wù)、從Codeforces和LeetCode通過網(wǎng)頁爬蟲獲得的編程競賽題目,以及編程教程。對于每個查詢,大語言模型生成多個候選響應(yīng),可驗證的問題使用代碼執(zhí)行反饋進行評估,而不可驗證的問題則利用大語言模型本身來排名和選擇最適合監(jiān)督微調(diào)的示例。

代碼執(zhí)行反饋是確保代碼質(zhì)量的關(guān)鍵機制。對于支持測試用例驗證的問題,他們使用大語言模型自動生成10個測試用例,這些測試用例全面覆蓋正常場景、邊界條件、異常情況和復(fù)雜輸入,以嚴格評估正確性。測試用例按編程語言分類,并在安全沙箱環(huán)境中執(zhí)行。通過運行時執(zhí)行驗證來驗證代碼正確性,由于代碼執(zhí)行中的錯誤而失敗的樣本被過濾掉以確保訓(xùn)練數(shù)據(jù)質(zhì)量。

課程學(xué)習(xí)策略進一步優(yōu)化了代碼訓(xùn)練過程。他們實施了一種模型驅(qū)動的課程學(xué)習(xí)策略,利用模型自身的生成能力在第二訓(xùn)練階段評估提示難度。具體來說,他們使用高采樣溫度為每個提示生成十個響應(yīng),通過率作為難度的代理來計算,動態(tài)構(gòu)建訓(xùn)練課程。最初,模型專注于具有較高通過率的提示,確保穩(wěn)定學(xué)習(xí)和基礎(chǔ)技能獲得。隨著訓(xùn)練進展,它逐漸過渡到具有較低通過率的提示,迭代完善其編程能力,同時系統(tǒng)性地擴展其極限。

在數(shù)學(xué)和推理能力提升方面,研究團隊同樣采用了兩階段微調(diào)策略,從廣泛能力構(gòu)建過渡到深度精確優(yōu)化。在第一階段,基礎(chǔ)模型在超過一千萬個合成樣本上進行訓(xùn)練,這些樣本來自廣泛的開源數(shù)據(jù)集如StackExchange、合成K-12數(shù)學(xué)問題及答案,以及合成大學(xué)教學(xué)材料。所有數(shù)據(jù)都經(jīng)過來源質(zhì)量評估、去重、格式清理、合成數(shù)據(jù)生成和質(zhì)量采樣檢查。第二階段采用較小但更高質(zhì)量的策劃數(shù)據(jù)集,邏輯推理樣本手動收集并帶有真實答案,涵蓋因果推理、運籌學(xué)和博弈論等領(lǐng)域。數(shù)學(xué)數(shù)據(jù)包括高質(zhì)量開源數(shù)據(jù)集、經(jīng)過驗證答案的許可K-12數(shù)學(xué)問題、全球競賽問題,以及少量合成數(shù)據(jù)以平衡分布。所有樣本都經(jīng)過三重驗證:問題質(zhì)量評分、答案一致性檢查和推理過程驗證。難度分級機制確保不同難度級別數(shù)據(jù)的平衡分布。

答案驗證機制是確保數(shù)學(xué)能力訓(xùn)練質(zhì)量的核心。為了驗證數(shù)學(xué)答案的準確性,他們實施了多模型協(xié)作驗證策略,結(jié)合人工監(jiān)督進行共識篩選。具體來說,對于目標數(shù)學(xué)問題集,他們使用多個大模型獨立生成答案,專門的答案一致性判斷機制分析和比較輸出。所有模型輸出完全一致的樣本進行人工抽樣質(zhì)量檢查,而不一致的輸出通過人工標注重新檢查以確保最終答案正確性。

在工具使用能力方面,研究團隊首先收集了主流開源函數(shù)調(diào)用數(shù)據(jù)集,并進行數(shù)據(jù)清理和重構(gòu)。他們的驗證重點關(guān)注兩個關(guān)鍵方面:格式驗證,嚴格檢查工具調(diào)用與提供的函數(shù)列表的對齊,包括驗證工具名稱的正確對應(yīng)、參數(shù)名稱的匹配,以及參數(shù)類型與要求的符合;工具調(diào)用結(jié)果驗證,利用大語言模型評估工具調(diào)用的有效性以及工具名稱和參數(shù)配置的準確性。此外,參考BFCL基準構(gòu)建中使用的方法,他們對收集的函數(shù)調(diào)用數(shù)據(jù)進行分類,以確保訓(xùn)練數(shù)據(jù)集內(nèi)函數(shù)調(diào)用類型的平衡分布。

在清理開源數(shù)據(jù)后,他們收集了大約11萬個樣本。然而,在清理過程中,他們識別出包括中文數(shù)據(jù)不足、對話輪次有限和難度水平較低在內(nèi)的問題。為了解決這些挑戰(zhàn),他們基于API之間的依賴關(guān)系構(gòu)建工具圖結(jié)構(gòu),利用各種圖采樣方法創(chuàng)建具有平衡難度分布的任務(wù)。此外,他們利用工具圖內(nèi)的依賴關(guān)系來促進多輪工具調(diào)用準確性的驗證,這顯示出顯著的優(yōu)化效果。

在精確指令遵循能力方面,研究團隊開發(fā)了一套系統(tǒng)化的監(jiān)督微調(diào)訓(xùn)練數(shù)據(jù)集構(gòu)建流程。在這個過程中,他們通過三個關(guān)鍵階段構(gòu)建高質(zhì)量訓(xùn)練數(shù)據(jù):約束集構(gòu)建、指令演化和帶驗證過濾的響應(yīng)生成。

約束集構(gòu)建遵循IFEval的方法,他們識別代表性應(yīng)用場景,并構(gòu)建完全由可驗證約束組成的約束集,這些約束可以通過自動化腳本進行嚴格驗證。例如,這些約束包括響應(yīng)長度要求、語言規(guī)范、格式指導(dǎo)原則等。通過利用自動化驗證,這種方法消除了手動干預(yù)的需要。

指令演化階段基于約束集,他們提示大語言模型通過明確納入隨機采樣的約束子集來將種子指令演化為新指令。這些約束指導(dǎo)大語言模型生成具有明確操作要求的指令。此外,大語言模型需要明確指定與這些約束對應(yīng)的參數(shù)值,這些參數(shù)值被記錄用于后續(xù)驗證。

響應(yīng)生成和驗證過濾階段,他們利用大語言模型為新構(gòu)建的指令生成響應(yīng)。利用約束定義和參數(shù)值,他們?yōu)槊糠N類型的約束設(shè)計專門的驗證腳本。這些腳本基于執(zhí)行反饋評估模型輸出,并自動過濾掉未能滿足約束的響應(yīng)。這個過程確保生成的指令-響應(yīng)配對始終遵循預(yù)定義的質(zhì)量標準。

五、工程技術(shù)架構(gòu):支撐大規(guī)模訓(xùn)練的技術(shù)基座

在開發(fā)這三款先進的語言模型過程中,TeleAI團隊不僅要解決算法和數(shù)據(jù)問題,還要構(gòu)建強大的技術(shù)基礎(chǔ)設(shè)施來支撐如此大規(guī)模的訓(xùn)練任務(wù)。就像建造一座摩天大樓需要堅實的地基和精密的工程系統(tǒng)一樣,訓(xùn)練萬億參數(shù)規(guī)模的模型需要精心設(shè)計的硬件架構(gòu)和軟件優(yōu)化。

研究團隊將訓(xùn)練環(huán)境從之前的640個NVIDIA A100 GPU集群遷移到了中國電信云計算公司位于上海的計算中心,該中心配備了多達8000個華為昇騰NPU的Atlas 900 A2集群。這種規(guī)模的計算資源就像是從一個中型工廠升級到了一個現(xiàn)代化的大型生產(chǎn)基地,為訓(xùn)練萬億級參數(shù)的模型提供了必要的計算能力。

在計算架構(gòu)方面,集群中的每個節(jié)點都包含8個通過HCCS連接的NPU,訓(xùn)練任務(wù)通過基于MindCluster的平臺進行調(diào)度管理。存儲系統(tǒng)采用了高性能文件系統(tǒng)設(shè)計,包括集群管理節(jié)點、元數(shù)據(jù)服務(wù)器節(jié)點、對象存儲服務(wù)器節(jié)點和被稱為OceanDisk的物理存儲設(shè)備。集群管理節(jié)點通過雙25Gbps鏈路連接到基于云的存儲系統(tǒng),為分布式存儲操作提供管理接口。OceanDisk設(shè)備通過光纖通道網(wǎng)絡(luò)直接連接到元數(shù)據(jù)服務(wù)器和對象存儲服務(wù)器節(jié)點,確保數(shù)據(jù)存儲和檢索的高速低延遲通信。

網(wǎng)絡(luò)架構(gòu)采用了兩層Clos拓撲結(jié)構(gòu),每個訓(xùn)練服務(wù)器通過200GE上行鏈路連接到RoCE交換機,實現(xiàn)處理單元之間的高速200GE RoCE互連。Spine/Leaf層次結(jié)構(gòu)配置為非收斂設(shè)計,確保最大帶寬可用性。參數(shù)通信網(wǎng)絡(luò)整合了網(wǎng)絡(luò)側(cè)負載均衡技術(shù),在大型模型訓(xùn)練期間確保鏈路層的高效負載均衡,這種方法減輕了哈希沖突并提高了計算集群的整體吞吐效率。

分布式訓(xùn)練采用了MindSpore通用大模型并行框架提供的4D并行策略。這個框架設(shè)計用于通過集成四種關(guān)鍵并行策略來支持大規(guī)模模型的高效可擴展訓(xùn)練:數(shù)據(jù)并行、張量并行、管道并行和上下文并行。

數(shù)據(jù)并行就像是讓多個廚師同時制作相同的菜品,輸入數(shù)據(jù)集沿批次維度分區(qū),不同設(shè)備組獨立處理單獨的數(shù)據(jù)批次。在反向傳播期間,跨所有設(shè)備執(zhí)行梯度同步,確保模型參數(shù)的一致更新。這種方法對于擴展到更大數(shù)據(jù)集和提高分布式系統(tǒng)中的硬件利用率特別有效。

張量并行則像是將一個復(fù)雜的任務(wù)分解給多個專家同時處理,模型權(quán)重跨設(shè)備分區(qū)以減少內(nèi)存使用和計算開銷。使用集體通信原語如全收集和歸約分散來交換和聚合中間結(jié)果,實現(xiàn)張量操作的高效分布式計算。

管道并行將模型分為多個層級或階段,每個階段分配給特定的設(shè)備組。前向和后向傳遞以流水線方式執(zhí)行以最大化并行性。為了減輕管道氣泡造成的低效率,采用了負載均衡和虛擬管道調(diào)度等策略。

上下文并行是MindSpore獨有的策略,實現(xiàn)了為有效處理長序列任務(wù)而設(shè)計的3D序列并行方案。通過跨設(shè)備分割序列計算,上下文并行緩解了與大輸入序列相關(guān)的內(nèi)存和計算約束。

為了確定分布式并行的最優(yōu)參數(shù),研究團隊進行了各種配置的廣泛實驗。張量并行由于全收集和歸約分散等操作而產(chǎn)生通信開銷,而管道并行受到氣泡和發(fā)送接收通信引入的低效率影響。通過采用負載均衡和其他優(yōu)化技術(shù)來減少管道氣泡,他們發(fā)現(xiàn)管道并行在效率方面始終優(yōu)于張量并行。經(jīng)過仔細調(diào)整并行配置、硬件資源和軟件優(yōu)化后,他們在不同配置下實現(xiàn)了33.8%到36.3%的模型FLOP利用率。

在大規(guī)模分布式訓(xùn)練中,維持對全局批次大小的精確控制對于確保模型收斂和實現(xiàn)最優(yōu)性能至關(guān)重要。過大的批次大小可能對收斂動態(tài)和最終模型質(zhì)量產(chǎn)生不利影響。出于這個原因,全局批次大小通常在訓(xùn)練初始階段限制在400萬到800萬tokens之間。當(dāng)在4096-NPU集群上訓(xùn)練Telechat-115B時,增加的數(shù)據(jù)并行維度導(dǎo)致每批次tokens更多。為了將每批次tokens限制在400萬,減少了管道中的微批次數(shù)量,這增加了管道氣泡并降低了整體效率。為了解決這個問題,他們利用虛擬管道并行功能來最小化氣泡,實現(xiàn)了33.8%的模型FLOP利用率。當(dāng)擴展到6144-NPU集群時,他們將虛擬管道并行因子增加到3,進一步減少管道氣泡比率并將模型FLOP利用率提高到34.1%。對于序列長度為128K的超長序列訓(xùn)練,他們利用上下文并行來緩解與長序列相關(guān)的內(nèi)存和計算壓力,這種方法使得在4096-NPU集群上訓(xùn)練Telechat-115B成為可能,實現(xiàn)了34.5%的模型FLOP利用率。

除了基礎(chǔ)并行策略之外,Telechat的分布式訓(xùn)練還集成了MindSpore啟用的幾個高級優(yōu)化。選擇性重計算用于通過在反向傳播期間重計算選擇的激活而不是存儲它們來減少內(nèi)存開銷。優(yōu)化器并行通過跨設(shè)備分布優(yōu)化器操作的計算工作負載來增強訓(xùn)練效率。細粒度多副本功能允許計算和通信重疊,有效屏蔽通信延遲并提高端到端吞吐量。此外,管道并行優(yōu)化利用虛擬管道并行,采用1F1B調(diào)度策略結(jié)合管道負載均衡調(diào)整來實現(xiàn)計算資源的更高利用率。

選擇性重計算技術(shù)解決了大規(guī)模模型訓(xùn)練中的內(nèi)存瓶頸問題。在前向傳遞中生成的激活通常存儲用于后向傳遞,導(dǎo)致顯著的內(nèi)存消耗。這個問題在管道并行中加劇,需要存儲來自多個微批次的激活。對于超過70B參數(shù)的模型,常見方法是省略激活存儲并在后向傳遞期間重計算激活,從而減少內(nèi)存使用。然而,這種方法在反向傳播期間引入額外計算,可能降低計算效率。

為了解決這個問題,TeleChat訓(xùn)練利用了MindSpore提供的選擇性重計算能力。這種方法選擇性地對關(guān)鍵操作符應(yīng)用重計算,平衡內(nèi)存節(jié)省與計算開銷。具體來說,他們針對前饋網(wǎng)絡(luò)中的操作符,包括Silu和Mul,以及RMSNorm中的Cast操作符。選擇這些操作符是因為它們的計算成本低且對減少激活分配內(nèi)存的影響顯著。這種策略使他們能夠優(yōu)化內(nèi)存使用同時保持訓(xùn)練效率。

優(yōu)化器并行解決了數(shù)據(jù)并行訓(xùn)練中的另一個效率問題。在數(shù)據(jù)并行訓(xùn)練中,參數(shù)更新在設(shè)備間冗余計算,導(dǎo)致內(nèi)存使用低效和大規(guī)模網(wǎng)絡(luò)中的次優(yōu)性能。優(yōu)化器并行通過跨數(shù)據(jù)并行維度中的設(shè)備分布優(yōu)化器計算來解決這個問題。具體來說,模型參數(shù)和梯度基于設(shè)備ID分為切片,每個設(shè)備獨立更新其分配的切片。更新后,使用通信操作跨設(shè)備聚合參數(shù)。這種方法提供了自然負載均衡的好處,確保每個設(shè)備具有相等的參數(shù)和計算份額。然而,它施加了參數(shù)形狀必須可被設(shè)備數(shù)量整除的約束。

管道并行優(yōu)化針對內(nèi)存不平衡這一突出挑戰(zhàn),特別是前端階段經(jīng)常面臨顯著內(nèi)存壓力。為了解決這個問題,他們實施了結(jié)合調(diào)整分配給每個階段的層數(shù)與差異化重計算策略的優(yōu)化策略。對于經(jīng)歷高內(nèi)存壓力的階段,他們減少分配給這些階段的層數(shù)并對所有層采用選擇性重計算,這種方法在平衡計算權(quán)衡的同時最大化內(nèi)存節(jié)省。相反,內(nèi)存壓力較小的階段被分配額外的層并僅對層子集采用選擇性重計算,在內(nèi)存使用和計算效率之間取得平衡。

虛擬管道并行的采用進一步提升了訓(xùn)練效率。為了確保大規(guī)模模型訓(xùn)練的有效性,批次tokens大小通常受到約束。當(dāng)使用大集群訓(xùn)練時,數(shù)據(jù)并行的顯著增加導(dǎo)致更小的微批次大小。在固定數(shù)量的管道階段下,更小的微批次導(dǎo)致更大的管道氣泡,對訓(xùn)練效率產(chǎn)生負面影響。為了提高管道并行的效率并減少氣泡比例,他們在訓(xùn)練115B參數(shù)的TeleChat2模型期間采用了虛擬管道并行。傳統(tǒng)管道并行通常將連續(xù)層分配給單個階段,而虛擬管道并行調(diào)度在每個階段內(nèi)采用非連續(xù)層的交錯計算。通過增加通信開銷,這種方法顯著減少氣泡比率,從而提高整體訓(xùn)練性能。

長序列優(yōu)化技術(shù)支持了128K到256K tokens長度的長序列訓(xùn)練。他們通過分割查詢、鍵和值張量的序列維度實現(xiàn)了序列并行(也稱為上下文并行),這種方法有效減少內(nèi)存消耗。在注意力計算階段,使用全收集通信重新組裝鍵和值張量的序列維度。為了實現(xiàn)序列負載均衡,他們利用點對點全收集通信在設(shè)備間交換查詢和注意力結(jié)果的序列維度數(shù)據(jù),這使得能夠?qū)⒑笃陔A段的計算密集序列與早期階段的較輕序列交換,確保設(shè)備間的平衡計算負載。

對于更長的序列,他們采用了MindSpore提供的環(huán)注意力算法。這種方法避免在注意力計算期間完全重新組裝鍵和值張量的序列維度,相反,它對本地QKV數(shù)據(jù)執(zhí)行塊狀計算,確保數(shù)學(xué)等價性同時實現(xiàn)完全負載均衡并重疊計算與通信。

在可靠性和挑戰(zhàn)方面,預(yù)訓(xùn)練階段期間硬件故障是服務(wù)中斷的主要原因,包括光模塊、高帶寬內(nèi)存和內(nèi)存組件問題。為了應(yīng)對這些挑戰(zhàn),他們實施了恢復(fù)機制優(yōu)化,通過改進存儲和加載日志、檢查點和數(shù)據(jù)的機制,同時升級訓(xùn)練框架和調(diào)度平臺,優(yōu)化故障恢復(fù)。這些增強顯著減少了中斷后恢復(fù)訓(xùn)練所需的時間,并通過版本檢查主動解決集群環(huán)境問題。他們還加強了關(guān)鍵硬件如高帶寬內(nèi)存、光模塊和內(nèi)存的檢查例程,建立了更嚴格的硬件更換標準,并簡化了硬件問題解決流程。

通過這些努力,預(yù)訓(xùn)練中后期階段的周故障率維持在1%以下。由硬件故障引起的訓(xùn)練中斷顯著減少,核心集群硬件的平均故障間隔時間為4天,最大間隔為21天。集群可用性指標表現(xiàn)強勁,周正常運行時間一致超過99%,最長不間斷訓(xùn)練會話持續(xù)288小時。

六、性能評估:全方位驗證模型能力的測試體系

為了全面評估TeleChat2、TeleChat2.5和T1三款模型的實際能力,研究團隊設(shè)計了一套覆蓋多個維度的測試體系。就像對一名全能型學(xué)生進行綜合考試,需要從不同角度驗證其掌握的知識和技能。

在預(yù)訓(xùn)練模型評估方面,研究團隊重點關(guān)注模型在通用知識、常識推理、邏輯推理、數(shù)學(xué)問題解決和編程能力方面的表現(xiàn)。通用知識基準測試包括C-Eval(零樣本)、MMLU(5樣本)、MMLU-pro(5樣本)、CMMLU(5樣本)、GAOKAO(零樣本)、AGIEval(零樣本)、GPQA(5樣本)和TheoremQA(5樣本)。這些測試就像是涵蓋文理科各個領(lǐng)域的標準化考試,能夠全面檢驗?zāi)P偷闹R儲備。

常識推理能力通過CommonsenseQA(5樣本)和TruthfulQA(零樣本)進行評估,這類似于測試一個人的生活常識和判斷能力。邏輯推理能力則通過BBH(3樣本)和HellaSwag(零樣本)來檢驗,就像測試邏輯思維和推理能力的智力題。數(shù)學(xué)問題解決能力使用GSM8K(4樣本)、MATH(4樣本)和Ape210K(1樣本)進行測試,涵蓋了從基礎(chǔ)算術(shù)到高等數(shù)學(xué)的各個層次。編程能力評估采用HumanEval(零樣本)、MBPP(3樣本)、Humaneval+(零樣本)和MBPP+(3樣本)等基準,就像是程序員的技術(shù)面試題。

測試結(jié)果顯示,TeleBase2-35B在不同上下文長度(8K、32K、256K)的訓(xùn)練下與Qwen2.5-32B-base模型相比表現(xiàn)出色。在多個通用知識測試中,TeleBase2-35B展現(xiàn)了扎實的基礎(chǔ)能力。特別值得注意的是,在數(shù)學(xué)推理任務(wù)如GSM8K和MATH上,TeleBase2-35B的表現(xiàn)顯著超越了對比模型,證明了其在數(shù)學(xué)推理方面的優(yōu)勢。

TeleBase2-115B的表現(xiàn)更加令人印象深刻。在與Qwen2.5-72B基礎(chǔ)模型的對比中,TeleBase2-115B在大多數(shù)評估指標上都顯示出了明顯的優(yōu)勢。特別是在C-Eval測試中,TeleBase2-115B-8K達到了94.0的高分,而Qwen2.5-72B僅為89.5。在數(shù)學(xué)能力方面,TeleBase2-115B在GSM8K上的得分高達90.3,大幅超越了對比模型的76.5分。

在后訓(xùn)練模型評估方面,研究團隊采用了更加針對實際應(yīng)用場景的測試基準。AlignBench是一個全面的多維基準,用于評估中文大語言模型與人類價值觀和現(xiàn)實世界需求的對齊程度,包含8個核心類別、683個真實場景查詢和經(jīng)過人工驗證的參考答案。IFEval評估大語言模型遵循可驗證指令的能力,提供25種指令類型和約500個提示,每個都具有可量化的標準。BFCL是專門設(shè)計用于評估大語言模型函數(shù)調(diào)用和工具使用能力的基準,采用多維評估方法論,包括單輪函數(shù)調(diào)用、多輪函數(shù)調(diào)用和幻覺檢測。MATH500源自原始MATH數(shù)據(jù)集,包含5000個數(shù)學(xué)問題。

對于T1模型,研究團隊使用0.6的采樣溫度、0.95的top-p、50的top-k和1.05的重復(fù)懲罰。對于TeleChat2和TeleChat2.5,模型使用貪婪搜索和1.01的重復(fù)懲罰。對于兩種模式,他們將最大輸出長度設(shè)置為32768個tokens。

評估結(jié)果展現(xiàn)了TeleChat系列模型在思考和非思考模式下的強大能力。T1-115B在思考模式下取得了卓越性能,在MATH500上超越OpenAI o1-mini 4.0分(94.0 vs 90.0),在Alignbench上獲得+0.31的優(yōu)勢(8.22 vs 7.91)。在非思考模式下,TeleChat2.5-115B在MATH500上超越GPT-4o-1120 12.0分(87.0 vs 75.0),在BFCL上展現(xiàn)+4.74的優(yōu)勢(83.39 vs 78.65)。TeleChat2.5-35B變體在同規(guī)模替代方案中也保持競爭力,與Deepseek-R1-Qwen32B-distill相比,TeleChat2.5-35B在IFEval上獲得+5.67分(78.26 vs 73.33),在BFCL上獲得+3.97分(80.11 vs 76.14),在思考模式下展現(xiàn)更強性能。

值得特別關(guān)注的是T1-115B在復(fù)雜推理任務(wù)上的突出表現(xiàn)。在MATH500這個數(shù)學(xué)推理的高難度測試中,T1-115B獲得了94.0的高分,不僅超越了OpenAI的o1-mini,也展現(xiàn)了在數(shù)學(xué)推理方面的強大能力。這個成績證明了研究團隊在強化學(xué)習(xí)階段針對數(shù)學(xué)推理能力優(yōu)化的有效性。

在代碼生成和工具使用能力方面,TeleChat2.5-115B在BFCL基準上的83.39分證明了其在函數(shù)調(diào)用和工具使用方面的專業(yè)水準。這個分數(shù)顯著超越了GPT-4o-1120的78.65分,表明TeleChat2.5在實際應(yīng)用場景中的工具使用能力更加出色。

在指令遵循能力方面,各個模型在IFEval基準上的表現(xiàn)都相當(dāng)不錯,T1-115B達到了80.15分,TeleChat2.5-115B也達到了80.93分。這些分數(shù)反映了模型在理解和執(zhí)行復(fù)雜指令方面的可靠性,這對于實際應(yīng)用部署來說是一個關(guān)鍵指標。

總的來說,整個評估結(jié)果證明了TeleAI團隊在模型開發(fā)上的成功。無論是在基礎(chǔ)能力還是在專業(yè)任務(wù)上,新發(fā)布的三款模型都展現(xiàn)出了相比前代產(chǎn)品的顯著提升,特別是在數(shù)學(xué)推理、代碼生成和工具使用等關(guān)鍵能力方面達到了業(yè)界領(lǐng)先水平。

說到底,TeleAI團隊的這次發(fā)布真正展現(xiàn)了什么叫做"厚積薄發(fā)"。他們沒有急于追求架構(gòu)上的激進創(chuàng)新,而是像一位經(jīng)驗豐富的工匠一樣,在每個細節(jié)上精雕細琢,從數(shù)據(jù)處理到訓(xùn)練策略,從基礎(chǔ)設(shè)施到性能優(yōu)化,每個環(huán)節(jié)都體現(xiàn)了專業(yè)水準。更讓人印象深刻的是,他們不僅在技術(shù)上達到了國際先進水平,還慷慨地將這些模型開源分享,為整個AI社區(qū)的發(fā)展貢獻了寶貴的資源。

TeleChat2、TeleChat2.5和T1的發(fā)布,不僅僅是三款新產(chǎn)品的推出,更像是中國AI研究實力的一次集中展示。特別是T1-115B在數(shù)學(xué)推理上超越OpenAI o1-mini的表現(xiàn),證明了國產(chǎn)AI模型在某些關(guān)鍵能力上已經(jīng)達到甚至超越了國際頂級水準。對于普通用戶來說,這意味著我們很快就能用上更加智能、更加好用的AI助手,無論是幫助解決復(fù)雜的數(shù)學(xué)問題,還是協(xié)助編寫程序代碼,或者是處理各種日常任務(wù)。

更重要的是,這項研究為我們展示了AI技術(shù)發(fā)展的一個重要趨勢:并不總是需要顛覆性的架構(gòu)創(chuàng)新,有時候在成熟技術(shù)基礎(chǔ)上的精細優(yōu)化同樣能帶來突破性的進展。就像烹飪一樣,有時候最美味的菜品來自于對傳統(tǒng)食譜的精心改良,而不是完全的重新發(fā)明。對于那些想要深入了解這項研究技術(shù)細節(jié)的讀者,強烈建議訪問原論文(arXiv:2507.18013v1)獲取更多信息。

Q&A

Q1:TeleChat2、TeleChat2.5和T1有什么區(qū)別?各自適合什么用途?

A:這三款模型就像同一個廚師的不同招牌菜。TeleChat2是基礎(chǔ)版本,提供全面均衡的能力;TeleChat2.5專注于快速響應(yīng),適合需要高效處理的場景;T1則專門針對復(fù)雜推理任務(wù)優(yōu)化,特別在數(shù)學(xué)和編程方面表現(xiàn)突出,適合需要深度思考的復(fù)雜問題。每款都有35B和115B兩種規(guī)模供選擇。

Q2:T1-115B超越OpenAI o1-mini意味著什么?

A:這標志著國產(chǎn)AI模型在某些關(guān)鍵能力上已達到國際領(lǐng)先水平。T1-115B在數(shù)學(xué)推理測試MATH500上獲得94.0分,超越o1-mini的90.0分,證明了中國AI研究團隊在技術(shù)實力上的重大突破。這不僅是技術(shù)成就,更是中國AI產(chǎn)業(yè)發(fā)展的重要里程碑。

Q3:這些模型是否已經(jīng)可以使用?如何獲???

A:是的,TeleAI團隊已經(jīng)將這三款模型完全開源。用戶可以通過ModelScope平臺下載模型文件,GitHub上也提供了完整的代碼庫,包括模型微調(diào)、量化、部署等工具。這種開放策略讓研究者和開發(fā)者都能免費使用這些先進的AI模型。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-