av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 清華大學(xué)和智譜AI聯(lián)手打造355B參數(shù)超級(jí)AI大腦:GLM-4.5如何在推理、編程和智能代理三個(gè)關(guān)鍵領(lǐng)域同時(shí)稱王

清華大學(xué)和智譜AI聯(lián)手打造355B參數(shù)超級(jí)AI大腦:GLM-4.5如何在推理、編程和智能代理三個(gè)關(guān)鍵領(lǐng)域同時(shí)稱王

2025-08-13 10:57
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-13 10:57 ? 科技行者

在人工智能飛速發(fā)展的今天,一個(gè)令人矚目的研究成果從清華大學(xué)和智譜AI的實(shí)驗(yàn)室中誕生了。這項(xiàng)由GLM-4.5團(tuán)隊(duì)完成的研究發(fā)表于2025年8月,完整論文可通過arXiv:2508.06471v1訪問。研究團(tuán)隊(duì)開發(fā)出了GLM-4.5系列模型,這是一個(gè)擁有3550億參數(shù)的開源混合專家(MoE)大語言模型,同時(shí)還推出了更輕量的GLM-4.5-Air版本(1060億參數(shù))。

這項(xiàng)研究的核心突破在于創(chuàng)造了一個(gè)能夠在推理、編程和智能代理三個(gè)關(guān)鍵能力領(lǐng)域都表現(xiàn)出色的統(tǒng)一模型。要理解這個(gè)成就的意義,不妨把它比作培養(yǎng)一個(gè)既是數(shù)學(xué)天才、又是編程高手、還是出色助手的全能型人才。在以往的AI發(fā)展中,大多數(shù)模型往往在某一個(gè)領(lǐng)域特別擅長,但很難在多個(gè)復(fù)雜領(lǐng)域同時(shí)達(dá)到頂尖水平。

GLM-4.5的表現(xiàn)確實(shí)令人印象深刻。在推理能力測試中,它在AIME 24數(shù)學(xué)競賽中獲得了91.0%的成績,在復(fù)雜的科學(xué)問題回答(GPQA)中達(dá)到79.1%的準(zhǔn)確率。在編程能力方面,它在SWE-bench Verified這個(gè)真實(shí)GitHub問題解決測試中取得了64.2%的成功率。而在智能代理任務(wù)中,它在TAU-Bench測試中獲得了70.1%的分?jǐn)?shù)。更重要的是,GLM-4.5在包含12個(gè)基準(zhǔn)測試的綜合評(píng)估中排名第三,在智能代理類任務(wù)中更是排名第二,僅次于OpenAI的o3模型。

特別值得注意的是,GLM-4.5實(shí)現(xiàn)了一種"混合推理模式"的創(chuàng)新設(shè)計(jì)。就像一個(gè)聰明的學(xué)生,它能夠根據(jù)問題的復(fù)雜程度選擇不同的思考方式。對于復(fù)雜的數(shù)學(xué)證明或多步驟編程任務(wù),它會(huì)啟動(dòng)深度思考模式,仔細(xì)分析每個(gè)步驟。而對于日常對話或簡單問題,它則采用直接回答模式,提供快速響應(yīng)。

這項(xiàng)研究的技術(shù)創(chuàng)新不僅體現(xiàn)在模型架構(gòu)上,更體現(xiàn)在訓(xùn)練方法的全面性上。研究團(tuán)隊(duì)采用了多階段訓(xùn)練策略,總共使用了23萬億個(gè)訓(xùn)練數(shù)據(jù)點(diǎn),并通過專家模型迭代和強(qiáng)化學(xué)習(xí)進(jìn)行了全面的后訓(xùn)練優(yōu)化。這種訓(xùn)練方法就像培養(yǎng)一個(gè)學(xué)生從基礎(chǔ)知識(shí)學(xué)習(xí)到專業(yè)技能訓(xùn)練,再到實(shí)際應(yīng)用練習(xí)的完整教育過程。

GLM-4.5系列模型已經(jīng)完全開源,研究團(tuán)隊(duì)將代碼、模型權(quán)重和相關(guān)工具都發(fā)布在了GitHub平臺(tái)上(https://github.com/zai-org/GLM-4.5),希望能推動(dòng)推理和智能代理AI系統(tǒng)的進(jìn)一步研究發(fā)展。

一、模型架構(gòu):構(gòu)建高效的AI大腦結(jié)構(gòu)

GLM-4.5系列模型的核心創(chuàng)新在于采用了混合專家(MoE)架構(gòu),這種設(shè)計(jì)就像建造一座擁有多個(gè)專業(yè)部門的超級(jí)圖書館,每個(gè)部門都有自己的專家,但只有相關(guān)的專家會(huì)被激活來處理特定任務(wù)。

具體來說,GLM-4.5擁有3550億個(gè)總參數(shù),但在處理任何單一任務(wù)時(shí)只激活320億個(gè)參數(shù)。這種設(shè)計(jì)的巧妙之處在于既保持了強(qiáng)大的能力,又控制了計(jì)算成本。就像一個(gè)大型醫(yī)院雖然有各科室的專家,但病人只需要看相關(guān)科室的醫(yī)生一樣,這種按需激活的機(jī)制大大提高了效率。

與其他同類模型相比,GLM-4.5在設(shè)計(jì)理念上有著獨(dú)特的選擇。研究團(tuán)隊(duì)發(fā)現(xiàn),相比于增加模型的"寬度"(即隱藏維度和專家數(shù)量),增加模型的"深度"(即層數(shù))更有利于提升推理能力。因此GLM-4.5采用了相對較少的專家數(shù)量但更深的網(wǎng)絡(luò)結(jié)構(gòu),這就像建造一座細(xì)長的高塔而不是寬闊的平房,雖然占地面積小,但能夠?qū)崿F(xiàn)更復(fù)雜的功能。

在注意力機(jī)制的設(shè)計(jì)上,GLM-4.5采用了分組查詢注意力(Grouped-Query Attention),并使用了2.5倍于常規(guī)數(shù)量的注意力頭。雖然這種設(shè)計(jì)在訓(xùn)練損失上并沒有顯著改善,但在推理基準(zhǔn)測試中consistently顯示出更好的性能。這種現(xiàn)象就像一個(gè)學(xué)生雖然平時(shí)作業(yè)分?jǐn)?shù)沒有明顯提升,但在重要考試中表現(xiàn)更出色一樣。

模型還引入了QK-Norm技術(shù)來穩(wěn)定注意力機(jī)制的數(shù)值范圍,這相當(dāng)于給AI的"大腦"安裝了一個(gè)調(diào)節(jié)器,確保它在處理信息時(shí)不會(huì)出現(xiàn)數(shù)值上的異常波動(dòng)。此外,GLM-4.5還配備了多令牌預(yù)測(MTP)層來支持推理時(shí)的投機(jī)解碼,這就像給汽車安裝了渦輪增壓器,在需要時(shí)能夠提供額外的加速能力。

二、訓(xùn)練數(shù)據(jù):喂養(yǎng)AI大腦的精心配制營養(yǎng)餐

GLM-4.5的訓(xùn)練數(shù)據(jù)收集和處理過程就像為一位學(xué)霸精心設(shè)計(jì)營養(yǎng)均衡的學(xué)習(xí)餐單。研究團(tuán)隊(duì)從互聯(lián)網(wǎng)網(wǎng)頁、社交媒體、書籍、論文和代碼倉庫等多個(gè)渠道收集了海量數(shù)據(jù),總計(jì)達(dá)到23萬億個(gè)訓(xùn)練詞匯。

在網(wǎng)頁數(shù)據(jù)處理方面,研究團(tuán)隊(duì)采用了一種創(chuàng)新的質(zhì)量分層策略。他們將爬取的網(wǎng)頁按照質(zhì)量評(píng)分分成不同的"桶",就像將食材按照新鮮程度分類儲(chǔ)存一樣。高質(zhì)量的內(nèi)容會(huì)被重復(fù)使用超過3.2輪,而最低質(zhì)量的內(nèi)容則被完全丟棄。這種做法確保AI模型能夠重點(diǎn)學(xué)習(xí)高價(jià)值的知識(shí),同時(shí)避免被垃圾信息污染。

針對代碼數(shù)據(jù),研究團(tuán)隊(duì)開發(fā)了一套精細(xì)的三層質(zhì)量評(píng)估系統(tǒng)。他們首先使用基于規(guī)則的過濾方法進(jìn)行初步篩選,然后使用特定于編程語言的質(zhì)量模型將代碼樣本分為高、中、低三個(gè)質(zhì)量等級(jí)。在訓(xùn)練過程中,高質(zhì)量代碼會(huì)被優(yōu)先采用,而低質(zhì)量代碼則被排除。這就像一個(gè)編程導(dǎo)師只選擇最優(yōu)秀的代碼示例來教授學(xué)生一樣。

更有趣的是,研究團(tuán)隊(duì)對所有源代碼數(shù)據(jù)都應(yīng)用了Fill-In-the-Middle訓(xùn)練目標(biāo)。這種技術(shù)就像讓學(xué)生練習(xí)"完形填空",通過隱藏代碼的中間部分讓AI學(xué)會(huì)理解上下文關(guān)系和代碼邏輯,從而提升其代碼理解和生成能力。

為了增強(qiáng)數(shù)學(xué)和科學(xué)推理能力,研究團(tuán)隊(duì)特別收集了大量相關(guān)的網(wǎng)頁、書籍和論文內(nèi)容。他們使用大語言模型來評(píng)估文檔中數(shù)學(xué)和科學(xué)教育內(nèi)容的比例,然后訓(xùn)練一個(gè)小規(guī)模的分類器來預(yù)測這些評(píng)分。那些在數(shù)學(xué)和科學(xué)內(nèi)容方面得分較高的文檔會(huì)在訓(xùn)練中被重點(diǎn)使用。

整個(gè)訓(xùn)練過程分為兩個(gè)主要階段。第一階段主要使用通用網(wǎng)頁內(nèi)容進(jìn)行基礎(chǔ)訓(xùn)練,就像讓學(xué)生先學(xué)習(xí)基礎(chǔ)知識(shí)。第二階段則重點(diǎn)使用來自GitHub的源代碼以及與編程、數(shù)學(xué)、科學(xué)相關(guān)的網(wǎng)頁內(nèi)容,這相當(dāng)于進(jìn)入專業(yè)技能的強(qiáng)化訓(xùn)練階段。

三、中期訓(xùn)練:專業(yè)技能的精準(zhǔn)強(qiáng)化

在完成基礎(chǔ)預(yù)訓(xùn)練后,GLM-4.5進(jìn)入了一個(gè)關(guān)鍵的中期訓(xùn)練階段。這個(gè)階段就像一個(gè)全才學(xué)生在掌握基礎(chǔ)知識(shí)后,開始針對特定領(lǐng)域進(jìn)行深度學(xué)習(xí)和實(shí)踐。

倉庫級(jí)代碼訓(xùn)練是中期訓(xùn)練的重要組成部分。在這個(gè)階段,AI不再僅僅學(xué)習(xí)單個(gè)代碼文件,而是開始理解整個(gè)軟件項(xiàng)目的結(jié)構(gòu)和文件間的依賴關(guān)系。研究團(tuán)隊(duì)將來自同一代碼倉庫的多個(gè)文件串聯(lián)起來,讓模型學(xué)習(xí)跨文件的代碼依賴關(guān)系。為了提升軟件工程能力,他們還加入了經(jīng)過篩選的GitHub問題、拉取請求和提交記錄,這些內(nèi)容以類似代碼差異的格式組織,幫助AI理解軟件開發(fā)的完整流程。

為了容納大型代碼倉庫,訓(xùn)練序列長度從4K擴(kuò)展到32K,這就像給學(xué)生提供更大的畫布來創(chuàng)作更復(fù)雜的作品。這種擴(kuò)展使得模型能夠理解和處理更大規(guī)模的軟件項(xiàng)目。

合成推理數(shù)據(jù)訓(xùn)練是另一個(gè)重要環(huán)節(jié)。研究團(tuán)隊(duì)收集了大量與數(shù)學(xué)、科學(xué)和編程競賽相關(guān)的問題和答案,然后使用推理模型來合成完整的推理過程。這種方法就像讓一位經(jīng)驗(yàn)豐富的老師不僅提供答案,還詳細(xì)展示解題的每一個(gè)思考步驟,幫助AI學(xué)會(huì)如何進(jìn)行復(fù)雜的邏輯推理。

長上下文和智能代理訓(xùn)練是中期訓(xùn)練的第三個(gè)重要方面。為了進(jìn)一步提升模型處理長文檔的能力,訓(xùn)練序列長度從32K繼續(xù)擴(kuò)展到128K。這相當(dāng)于讓AI能夠一次性閱讀和理解一本中等篇幅的書籍。同時(shí),研究團(tuán)隊(duì)還加入了大規(guī)模的合成智能代理軌跡數(shù)據(jù),訓(xùn)練模型如何與外部工具和環(huán)境進(jìn)行交互。

整個(gè)中期訓(xùn)練過程采用了先進(jìn)的優(yōu)化策略。研究團(tuán)隊(duì)使用Muon優(yōu)化器進(jìn)行參數(shù)更新,這種優(yōu)化器能夠加速收斂并容忍更大的批量大小。他們還采用了批量大小預(yù)熱策略,從1600萬個(gè)詞匯逐漸增加到6400萬個(gè)詞匯,這就像讓學(xué)生的學(xué)習(xí)強(qiáng)度逐步提升,避免一開始就承受過大的壓力。

四、后訓(xùn)練:專家級(jí)能力的精雕細(xì)琢

GLM-4.5的后訓(xùn)練過程就像將一個(gè)已經(jīng)很優(yōu)秀的學(xué)生送到最頂尖的專業(yè)訓(xùn)練營,通過專家指導(dǎo)和實(shí)戰(zhàn)演練,將其能力提升到專業(yè)級(jí)水平。這個(gè)過程分為兩個(gè)主要階段:專家訓(xùn)練和統(tǒng)一訓(xùn)練。

在專家訓(xùn)練階段,研究團(tuán)隊(duì)構(gòu)建了三個(gè)專門化的模型:推理專家、智能代理專家和通用對話專家。每個(gè)專家都像一位在特定領(lǐng)域有著深厚造詣的導(dǎo)師,專門負(fù)責(zé)某一類任務(wù)的訓(xùn)練和優(yōu)化。這種專業(yè)化分工確保了每個(gè)領(lǐng)域的能力都能得到充分的發(fā)展和完善。

監(jiān)督微調(diào)是后訓(xùn)練的起始環(huán)節(jié)。研究團(tuán)隊(duì)精心收集了數(shù)百萬個(gè)涵蓋推理任務(wù)、通用對話、智能代理任務(wù)和長文本理解的高質(zhì)量樣本。這些樣本都配有詳細(xì)的思維鏈(Chain-of-Thought)回答,就像為學(xué)生提供了詳細(xì)的解題示例和思路分析。

在推理強(qiáng)化學(xué)習(xí)方面,研究團(tuán)隊(duì)開發(fā)了多項(xiàng)創(chuàng)新技術(shù)。他們采用了基于難度的課程學(xué)習(xí)策略,這就像為學(xué)生設(shè)計(jì)了從簡單到復(fù)雜的漸進(jìn)式學(xué)習(xí)計(jì)劃。在訓(xùn)練初期使用中等難度的問題,當(dāng)模型能力提升后再引入極其困難的問題。這種方法避免了訓(xùn)練早期因問題過難導(dǎo)致的無效學(xué)習(xí),也避免了后期因問題過簡單導(dǎo)致的訓(xùn)練停滯。

特別值得注意的是,研究團(tuán)隊(duì)發(fā)現(xiàn)單階段64K輸出長度的強(qiáng)化學(xué)習(xí)比多階段漸進(jìn)式訓(xùn)練更為有效。傳統(tǒng)方法會(huì)從較短的輸出長度開始,逐步增加到目標(biāo)長度,但這種做法實(shí)際上會(huì)讓模型"遺忘"其長文本生成能力。因此,他們選擇直接在最大目標(biāo)長度下進(jìn)行訓(xùn)練,這就像讓學(xué)生直接在正式比賽的場地上訓(xùn)練,而不是先在小場地適應(yīng)。

動(dòng)態(tài)采樣溫度是另一項(xiàng)重要?jiǎng)?chuàng)新。在強(qiáng)化學(xué)習(xí)過程中,研究團(tuán)隊(duì)會(huì)根據(jù)模型性能動(dòng)態(tài)調(diào)整生成多樣性的控制參數(shù)。當(dāng)模型表現(xiàn)趨于穩(wěn)定時(shí),他們會(huì)提高采樣溫度以鼓勵(lì)更多樣化的探索,但同時(shí)會(huì)通過驗(yàn)證集評(píng)估確保不會(huì)損害模型性能。這種平衡就像教練在訓(xùn)練中既要鼓勵(lì)運(yùn)動(dòng)員嘗試新技術(shù),又要確保基本功不會(huì)退步。

在代碼和科學(xué)推理的強(qiáng)化學(xué)習(xí)中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一些關(guān)鍵的技術(shù)細(xì)節(jié)。對于代碼任務(wù),他們發(fā)現(xiàn)使用基于詞匯加權(quán)的平均損失比傳統(tǒng)的序列平均損失更為有效,這種方法提供了更精細(xì)和穩(wěn)定的梯度信號(hào)。對于科學(xué)推理任務(wù),他們發(fā)現(xiàn)使用專家驗(yàn)證的高質(zhì)量多選題進(jìn)行訓(xùn)練比使用混合質(zhì)量數(shù)據(jù)效果更好,這強(qiáng)調(diào)了數(shù)據(jù)質(zhì)量在強(qiáng)化學(xué)習(xí)中的重要性。

智能代理強(qiáng)化學(xué)習(xí)是GLM-4.5的一大特色。研究團(tuán)隊(duì)專門針對網(wǎng)絡(luò)搜索和代碼生成代理開發(fā)了強(qiáng)化學(xué)習(xí)算法。他們采用結(jié)果監(jiān)督和過程格式懲罰相結(jié)合的獎(jiǎng)勵(lì)機(jī)制,既確保最終任務(wù)的完成,又保證執(zhí)行過程的規(guī)范性。更重要的是,他們發(fā)現(xiàn)智能代理任務(wù)中的測試時(shí)計(jì)算擴(kuò)展效果顯著,通過增加與環(huán)境的交互輪次,模型性能可以獲得平滑的提升。

通用強(qiáng)化學(xué)習(xí)階段則采用多源反饋系統(tǒng),結(jié)合規(guī)則反饋、人類反饋和AI反饋。這種混合方法利用了各種反饋源的優(yōu)勢:規(guī)則反饋提供精確性,人類反饋提供細(xì)致判斷,AI反饋提供可擴(kuò)展性。研究團(tuán)隊(duì)還特別關(guān)注指令遵循能力的提升,構(gòu)建了涵蓋7個(gè)主要類別和151個(gè)細(xì)分約束類型的全面分類體系,確保模型能夠理解和滿足復(fù)雜的指令要求。

五、技術(shù)基礎(chǔ)設(shè)施:支撐超級(jí)AI的強(qiáng)大引擎

GLM-4.5的成功離不開其背后強(qiáng)大的技術(shù)基礎(chǔ)設(shè)施支撐,這套名為Slime的開源框架就像一座精密的工廠,專門為大規(guī)模AI訓(xùn)練和推理服務(wù)設(shè)計(jì)。

Slime框架的核心特色是其靈活的混合訓(xùn)練和數(shù)據(jù)生成架構(gòu)。這個(gè)系統(tǒng)既支持同步集中模式,也支持異步分布模式,就像一個(gè)既能進(jìn)行集體作業(yè)又能支持個(gè)體學(xué)習(xí)的智能教室。對于推理和數(shù)學(xué)等通用強(qiáng)化學(xué)習(xí)任務(wù),系統(tǒng)采用同步模式,訓(xùn)練和推理引擎位于同一工作節(jié)點(diǎn),結(jié)合動(dòng)態(tài)采樣大幅減少GPU空閑時(shí)間。而對于智能代理等復(fù)雜任務(wù),系統(tǒng)采用異步模式,將數(shù)據(jù)生成過程暴露給智能代理環(huán)境,GPU訓(xùn)練和推理可以獨(dú)立調(diào)度,確保代理環(huán)境能夠持續(xù)生成新數(shù)據(jù)而不被訓(xùn)練周期阻塞。

為了加速數(shù)據(jù)生成過程,Slime支持混合精度推理優(yōu)化。系統(tǒng)在訓(xùn)練時(shí)使用BF16精度,但在推理時(shí)動(dòng)態(tài)量化到FP8精度。每次策略更新時(shí),系統(tǒng)都會(huì)對模型參數(shù)進(jìn)行在線的塊級(jí)FP8量化,然后分發(fā)給推理節(jié)點(diǎn)。這種動(dòng)態(tài)量化技術(shù)就像在需要時(shí)自動(dòng)調(diào)整設(shè)備的工作模式,在保證質(zhì)量的同時(shí)大幅提升處理速度。

針對智能代理任務(wù)的特殊需求,Slime設(shè)計(jì)了專門的異步架構(gòu)。智能代理的數(shù)據(jù)生成往往需要與復(fù)雜環(huán)境進(jìn)行長時(shí)間交互,這會(huì)顯著拖慢訓(xùn)練進(jìn)程。為解決這個(gè)問題,系統(tǒng)首先設(shè)計(jì)了高并發(fā)的Docker運(yùn)行時(shí),為每個(gè)任務(wù)提供隔離環(huán)境,大幅降低數(shù)據(jù)生成開銷。然后實(shí)現(xiàn)了完全異步的訓(xùn)練循環(huán),GPU被分割為專門的數(shù)據(jù)生成引擎和訓(xùn)練引擎,前者持續(xù)生成軌跡數(shù)據(jù),后者更新模型權(quán)重并定期同步回?cái)?shù)據(jù)生成引擎。

系統(tǒng)還引入了統(tǒng)一的HTTP接口和集中式數(shù)據(jù)池來處理不同智能代理框架的多樣性。由于大多數(shù)代理框架都以消息列表格式產(chǎn)生數(shù)據(jù),所有軌跡都存儲(chǔ)在這個(gè)數(shù)據(jù)池中,作為訓(xùn)練的共享數(shù)據(jù)源。這種架構(gòu)巧妙地將特定任務(wù)的數(shù)據(jù)生成邏輯與強(qiáng)化學(xué)習(xí)訓(xùn)練過程解耦,支持異構(gòu)智能代理框架的無縫集成,并提供可定制的任務(wù)特定過濾和動(dòng)態(tài)采樣策略。

六、全方位評(píng)估:GLM-4.5的真實(shí)實(shí)力展現(xiàn)

GLM-4.5的評(píng)估就像一場全方位的能力大考,涵蓋了推理、編程和智能代理等12個(gè)核心基準(zhǔn)測試。這些測試不僅驗(yàn)證了模型的理論能力,更重要的是展現(xiàn)了它在實(shí)際應(yīng)用中的表現(xiàn)。

在推理能力評(píng)估中,GLM-4.5在多個(gè)具有挑戰(zhàn)性的基準(zhǔn)測試中表現(xiàn)出色。在AIME 24數(shù)學(xué)競賽中,它獲得了91.0%的成績,甚至超越了OpenAI的o3模型。在GPQA這個(gè)需要研究生水平科學(xué)知識(shí)的問答測試中,GLM-4.5達(dá)到了79.1%的準(zhǔn)確率。在LiveCodeBench的編程競賽問題中,它取得了72.9%的成功率。這些成績就像一個(gè)學(xué)生在各種高難度考試中都能拿到優(yōu)異分?jǐn)?shù),證明了其扎實(shí)的基礎(chǔ)和出色的應(yīng)用能力。

智能代理能力的評(píng)估更是GLM-4.5的一大亮點(diǎn)。在TAU-Bench測試中,GLM-4.5獲得了70.1%的綜合得分,這個(gè)測試模擬真實(shí)的客戶服務(wù)場景,要求AI與用戶進(jìn)行多輪對話來解決復(fù)雜問題。在Berkeley函數(shù)調(diào)用排行榜(BFCL V3)中,GLM-4.5以77.8%的成績位居榜首,展現(xiàn)了其出色的工具使用能力。在網(wǎng)頁瀏覽代理測試BrowseComp中,雖然OpenAI o3的表現(xiàn)最佳(49.7%),但GLM-4.5以26.4%的成績緊隨其后,明顯優(yōu)于Claude Opus 4的18.8%。

編程能力的評(píng)估同樣令人印象深刻。在SWE-bench Verified這個(gè)真實(shí)GitHub問題解決測試中,GLM-4.5取得了64.2%的成功率,超過了GPT-4.1和Gemini-2.5-Pro。在Terminal-Bench終端環(huán)境任務(wù)中,它以37.5%的成績表現(xiàn)出色。這些測試就像讓程序員在真實(shí)的工作環(huán)境中解決實(shí)際問題,GLM-4.5的表現(xiàn)證明了它具備處理復(fù)雜軟件開發(fā)任務(wù)的能力。

為了更貼近真實(shí)使用場景,研究團(tuán)隊(duì)還進(jìn)行了大量的人工評(píng)估。他們構(gòu)建了一個(gè)包含660個(gè)真實(shí)場景用戶提示的數(shù)據(jù)集,涵蓋多種語言和類別。在與DeepSeek-R1和Kimi K2的對比評(píng)估中,GLM-4.5在英語、中文和其他語言的測試中都取得了最高的綜合得分,特別是在數(shù)學(xué)、客觀問答和文本生成方面表現(xiàn)突出。

特別值得關(guān)注的是GLM-4.5在代碼智能代理方面的表現(xiàn)。研究團(tuán)隊(duì)構(gòu)建了CC-Bench基準(zhǔn)測試,包含52個(gè)精心設(shè)計(jì)的編程任務(wù)。在與Claude Sonnet 4的直接對比中,GLM-4.5以40.4%對50%的勝負(fù)比展現(xiàn)了強(qiáng)大的競爭力。更重要的是,GLM-4.5在工具調(diào)用成功率方面達(dá)到了90.6%,高于所有其他模型,證明了其在智能代理執(zhí)行方面的可靠性。

在安全性評(píng)估中,GLM-4.5在SafetyBench綜合測試中獲得了89.87分,與Kimi-K2(90.48)和GPT-4.1(89.71)處于同一水平。在倫理道德、心理健康和身體健康等方面表現(xiàn)尤為出色,分別達(dá)到94.33%、94.67%和96.67%的準(zhǔn)確率。

GLM-4.5還在一個(gè)全新的邏輯推理評(píng)估中接受了考驗(yàn)。為了避免數(shù)據(jù)污染風(fēng)險(xiǎn),研究團(tuán)隊(duì)構(gòu)建了全新的復(fù)雜邏輯推理問題集。在這個(gè)測試中,GLM-4.5獲得62.0分,與Gemini 2.5 Pro(65.8)和DeepSeek-R1(62.1)處于同一水平,展現(xiàn)了其扎實(shí)的邏輯推理基礎(chǔ)。

七、創(chuàng)新突破:重新定義AI能力邊界

GLM-4.5最大的創(chuàng)新突破在于實(shí)現(xiàn)了一種全新的"混合推理模式"。這種設(shè)計(jì)就像培養(yǎng)了一個(gè)既能進(jìn)行深度思考又能快速反應(yīng)的全能型學(xué)生。當(dāng)面對復(fù)雜的數(shù)學(xué)證明或多步驟編程任務(wù)時(shí),GLM-4.5會(huì)自動(dòng)啟動(dòng)"思考模式",詳細(xì)分析每個(gè)步驟和邏輯關(guān)系。而對于日常對話或簡單查詢,它則采用"直接模式",提供即時(shí)響應(yīng)。

這種混合模式的實(shí)現(xiàn)依賴于精心設(shè)計(jì)的訓(xùn)練策略。研究團(tuán)隊(duì)在訓(xùn)練過程中精心平衡了包含完整推理過程的數(shù)據(jù)和不包含顯式思考過程的數(shù)據(jù)。這種平衡讓模型學(xué)會(huì)了何時(shí)需要深度思考,何時(shí)可以直接回答,就像一個(gè)經(jīng)驗(yàn)豐富的專家知道什么問題需要仔細(xì)考慮,什么問題可以憑直覺快速判斷。

另一個(gè)重要?jiǎng)?chuàng)新是GLM-4.5在函數(shù)調(diào)用方面的突破。傳統(tǒng)的AI模型在處理包含代碼段的函數(shù)調(diào)用時(shí),往往需要大量的字符轉(zhuǎn)義,增加了模型的學(xué)習(xí)負(fù)擔(dān)。GLM-4.5創(chuàng)新性地采用了XML風(fēng)格的特殊標(biāo)記模板,將函數(shù)調(diào)用的鍵值對封裝在類似XML的標(biāo)簽中。這種設(shè)計(jì)大幅減少了代碼段中的字符轉(zhuǎn)義需求,讓模型能夠更自然地處理復(fù)雜的函數(shù)調(diào)用場景。

在參數(shù)效率方面,GLM-4.5展現(xiàn)了令人驚喜的表現(xiàn)。雖然總參數(shù)量達(dá)到3550億,但每次推理只激活320億參數(shù),這種設(shè)計(jì)理念就像建造一個(gè)巨大的工具庫,但每次只使用最合適的工具來完成任務(wù)。與DeepSeek-R1的6710億參數(shù)和Kimi K2的10430億參數(shù)相比,GLM-4.5用更少的參數(shù)實(shí)現(xiàn)了相當(dāng)甚至更好的性能,展現(xiàn)了卓越的效率優(yōu)勢。

GLM-4.5在智能代理方面的創(chuàng)新特別值得關(guān)注。研究團(tuán)隊(duì)開發(fā)了完整的智能代理數(shù)據(jù)合成流水線,包括智能代理框架和工具收集、任務(wù)合成、軌跡生成和質(zhì)量過濾四個(gè)步驟。這個(gè)過程就像建立一個(gè)完整的實(shí)訓(xùn)體系,讓AI在各種模擬場景中學(xué)習(xí)如何與工具交互、如何規(guī)劃任務(wù)執(zhí)行、如何處理意外情況。

測試時(shí)計(jì)算擴(kuò)展是GLM-4.5的另一項(xiàng)創(chuàng)新特色。研究發(fā)現(xiàn),通過增加智能代理與環(huán)境的交互輪次,模型性能可以獲得平滑而顯著的提升。這種現(xiàn)象就像給一個(gè)研究人員更多的時(shí)間和資源去深入調(diào)查一個(gè)問題,通常能夠獲得更好的結(jié)果。GLM-4.5能夠通過持續(xù)的環(huán)境交互來提升任務(wù)完成質(zhì)量,這為AI系統(tǒng)的性能優(yōu)化開辟了新的方向。

在訓(xùn)練方法上,GLM-4.5采用了創(chuàng)新的專家模型迭代策略。研究團(tuán)隊(duì)首先訓(xùn)練出推理、智能代理和通用對話三個(gè)專門化的專家模型,然后通過自蒸餾技術(shù)將這些專家的能力整合到一個(gè)統(tǒng)一模型中。這種方法就像讓一個(gè)學(xué)生分別跟隨不同領(lǐng)域的導(dǎo)師學(xué)習(xí)專業(yè)技能,然后將所有技能融會(huì)貫通,形成綜合能力。

GLM-4.5還在翻譯能力方面展現(xiàn)了獨(dú)特優(yōu)勢。現(xiàn)代翻譯已經(jīng)遠(yuǎn)超簡單的文本轉(zhuǎn)換,需要理解網(wǎng)絡(luò)俚語、文化背景和領(lǐng)域特定術(shù)語。在100個(gè)具有挑戰(zhàn)性的真實(shí)翻譯案例測試中,GLM-4.5以1.71分的成績大幅超越專業(yè)翻譯模型,證明了通用大模型在理解文化內(nèi)涵和語境方面的獨(dú)特優(yōu)勢。

八、實(shí)際應(yīng)用:GLM-4.5如何改變我們的工作和生活

GLM-4.5的實(shí)際應(yīng)用潛力就像打開了一扇通往未來工作方式的大門。在軟件開發(fā)領(lǐng)域,GLM-4.5已經(jīng)展現(xiàn)出能夠理解和修改真實(shí)代碼庫的能力。它不僅能夠讀懂現(xiàn)有代碼的邏輯結(jié)構(gòu),還能夠根據(jù)需求描述自動(dòng)生成相應(yīng)的代碼修改。這就像擁有了一個(gè)永遠(yuǎn)不知疲倦、對所有編程語言都精通的超級(jí)程序員助手。

在客戶服務(wù)領(lǐng)域,GLM-4.5的智能代理能力開啟了全新的可能性。它能夠通過多輪對話理解用戶的復(fù)雜需求,調(diào)用各種工具和系統(tǒng)來解決問題,甚至能夠處理那些需要跨部門協(xié)調(diào)的復(fù)雜業(yè)務(wù)場景。這種能力就像培養(yǎng)了一個(gè)既懂技術(shù)又懂業(yè)務(wù)、既有耐心又有效率的全能客服專家。

教育領(lǐng)域是GLM-4.5最有前景的應(yīng)用場景之一。它的混合推理模式特別適合教學(xué)場景,能夠根據(jù)問題的復(fù)雜程度選擇合適的解釋方式。對于基礎(chǔ)概念,它可以提供直接清晰的解釋。對于復(fù)雜的數(shù)學(xué)證明或科學(xué)原理,它會(huì)展示完整的推理過程,就像一個(gè)既能快速答疑又能深入講解的全能教師。

在科學(xué)研究方面,GLM-4.5展現(xiàn)出的強(qiáng)大推理能力可以協(xié)助研究人員處理復(fù)雜的數(shù)據(jù)分析和假設(shè)驗(yàn)證工作。它能夠理解科學(xué)文獻(xiàn)、分析實(shí)驗(yàn)數(shù)據(jù)、提出研究假設(shè),甚至協(xié)助設(shè)計(jì)實(shí)驗(yàn)方案。這就像為每個(gè)研究團(tuán)隊(duì)配備了一個(gè)學(xué)識(shí)淵博、思維敏捷的研究助手。

內(nèi)容創(chuàng)作領(lǐng)域也將因GLM-4.5而發(fā)生重大變化。它不僅能夠生成各種類型的文本內(nèi)容,更重要的是能夠根據(jù)特定需求和風(fēng)格要求進(jìn)行個(gè)性化創(chuàng)作。無論是技術(shù)文檔、營銷文案還是創(chuàng)意故事,GLM-4.5都能夠提供高質(zhì)量的內(nèi)容支持,就像擁有了一個(gè)多才多藝的寫作團(tuán)隊(duì)。

在企業(yè)決策支持方面,GLM-4.5的綜合分析能力可以幫助管理者處理復(fù)雜的商業(yè)問題。它能夠分析市場數(shù)據(jù)、評(píng)估投資風(fēng)險(xiǎn)、優(yōu)化運(yùn)營流程,甚至協(xié)助制定戰(zhàn)略規(guī)劃。這種能力就像為企業(yè)配備了一個(gè)經(jīng)驗(yàn)豐富、知識(shí)全面的高級(jí)顧問。

特別值得注意的是,GLM-4.5的開源特性為這些應(yīng)用提供了更多可能性。開發(fā)者可以根據(jù)具體需求對模型進(jìn)行定制化訓(xùn)練,企業(yè)可以在保護(hù)數(shù)據(jù)隱私的前提下部署私有化服務(wù),研究機(jī)構(gòu)可以基于GLM-4.5進(jìn)行進(jìn)一步的科學(xué)研究。這種開放性就像提供了一個(gè)強(qiáng)大的基礎(chǔ)平臺(tái),讓不同領(lǐng)域的專家都能夠在此基礎(chǔ)上構(gòu)建滿足特定需求的解決方案。

GLM-4.5的多語言能力也為全球化應(yīng)用提供了支持。它不僅能夠處理英語和中文,還支持多種其他語言,這為跨國企業(yè)的溝通協(xié)作、國際項(xiàng)目的管理執(zhí)行提供了強(qiáng)有力的技術(shù)支撐。

從長遠(yuǎn)來看,GLM-4.5代表的技術(shù)趨勢可能會(huì)重新定義人機(jī)協(xié)作的模式。它不是要取代人類工作者,而是要成為每個(gè)人最得力的數(shù)字化助手,幫助人們更高效地處理信息、更準(zhǔn)確地做出決策、更創(chuàng)新地解決問題。這種協(xié)作模式的普及可能會(huì)推動(dòng)社會(huì)生產(chǎn)力的又一次飛躍。

說到底,GLM-4.5的意義不僅在于技術(shù)本身的進(jìn)步,更在于它為我們展示了人工智能發(fā)展的新方向。通過將推理、編程和智能代理三大核心能力統(tǒng)一到一個(gè)模型中,GLM-4.5證明了構(gòu)建通用人工智能的可行性。這項(xiàng)研究不僅推動(dòng)了學(xué)術(shù)界的進(jìn)步,更為整個(gè)AI產(chǎn)業(yè)的發(fā)展提供了新的思路和方向。

隨著GLM-4.5及其完整訓(xùn)練方法的開源釋放,我們有理由相信,這項(xiàng)技術(shù)將催生更多創(chuàng)新應(yīng)用,推動(dòng)人工智能技術(shù)的普及和發(fā)展。對于每個(gè)人來說,這意味著我們即將進(jìn)入一個(gè)AI助手無處不在、人機(jī)協(xié)作更加緊密的新時(shí)代。感興趣的讀者可以通過arXiv:2508.06471v1訪問完整論文,或者直接在GitHub上體驗(yàn)這一革命性的AI模型(https://github.com/zai-org/GLM-4.5)。

Q&A

Q1:GLM-4.5相比其他AI模型有什么特別之處?

A:GLM-4.5最大的特色是同時(shí)在推理、編程和智能代理三個(gè)核心領(lǐng)域都達(dá)到頂尖水平,而大多數(shù)AI模型往往只在某一個(gè)領(lǐng)域特別擅長。它還具有混合推理模式,能夠根據(jù)問題復(fù)雜度選擇深度思考或快速回答,就像一個(gè)既能快速反應(yīng)又能深度分析的全能專家。

Q2:普通用戶如何使用GLM-4.5?需要什么技術(shù)基礎(chǔ)?

A:GLM-4.5已經(jīng)完全開源,代碼和模型都可以通過GitHub免費(fèi)獲取(https://github.com/zai-org/GLM-4.5)。用戶可以通過Z.ai和BigModel.cn等平臺(tái)直接體驗(yàn),也可以在HuggingFace上訪問模型。對于開發(fā)者來說,研究團(tuán)隊(duì)還提供了完整的評(píng)估工具包,確保結(jié)果的可重現(xiàn)性。

Q3:GLM-4.5會(huì)不會(huì)取代程序員和客服人員的工作?

A:GLM-4.5更像是一個(gè)強(qiáng)大的工作助手,而不是工作替代者。它可以幫助程序員更快地理解代碼、自動(dòng)生成基礎(chǔ)代碼、協(xié)助解決技術(shù)問題,幫助客服人員更好地理解用戶需求、提供更準(zhǔn)確的解決方案。這種人機(jī)協(xié)作模式實(shí)際上會(huì)提升工作效率和質(zhì)量,讓人類專注于更有創(chuàng)意和戰(zhàn)略意義的工作。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-