2025年5月15日,由阿里巴巴Qwen團(tuán)隊(duì)發(fā)布的最新技術(shù)報(bào)告介紹了Qwen大模型家族的最新版本——Qwen3。這份題為《Qwen3 Technical Report》的報(bào)告詳細(xì)闡述了這一新一代大模型的技術(shù)創(chuàng)新與性能突破。有興趣深入了解的讀者可以通過(guò)GitHub(https://github.com/QwenLM/Qwen3)、Hugging Face(https://huggingface.co/Qwen)或ModelScope(https://modelscope.cn/organization/qwen)獲取完整模型和技術(shù)細(xì)節(jié)。
一、Qwen3:思考與非思考模式的完美融合
想象一下,你有兩位助手:一位非常擅長(zhǎng)深思熟慮地解決復(fù)雜問(wèn)題,需要時(shí)間但結(jié)果準(zhǔn)確;另一位則善于快速回應(yīng)簡(jiǎn)單問(wèn)題,即時(shí)但可能不夠深入。過(guò)去,你需要根據(jù)問(wèn)題類(lèi)型選擇不同的助手。而Qwen3的核心創(chuàng)新恰恰在于將這兩種能力——"思考模式"和"非思考模式"——融合在了同一個(gè)模型中。
Qwen團(tuán)隊(duì)將這種創(chuàng)新比作給汽車(chē)安裝了兩檔駕駛模式:當(dāng)你面對(duì)復(fù)雜路況時(shí),可以切換到"越野模式"(思考模式)進(jìn)行多步推理;而在平坦道路上,則可以使用"城市模式"(非思考模式)快速前進(jìn)。這意味著用戶(hù)不再需要在不同模型之間切換,如從適合閑聊的GPT-4o切換到專(zhuān)注推理的QwQ-32B,而是可以根據(jù)需求在同一模型中動(dòng)態(tài)調(diào)整模式。
更令人驚喜的是,Qwen3還引入了"思考預(yù)算"機(jī)制。這就像是給汽車(chē)配備了可調(diào)節(jié)的燃油供應(yīng)系統(tǒng)——你可以根據(jù)任務(wù)復(fù)雜度決定投入多少計(jì)算資源。面對(duì)簡(jiǎn)單問(wèn)題時(shí),模型會(huì)快速回應(yīng);而對(duì)于復(fù)雜問(wèn)題,你可以增加"思考預(yù)算",讓模型進(jìn)行更深入的推理。這種機(jī)制巧妙地平衡了響應(yīng)速度與答案質(zhì)量之間的權(quán)衡。
二、模型家族:從輕量級(jí)到旗艦版的全面覆蓋
Qwen3系列覆蓋了從0.6B到235B參數(shù)規(guī)模的多個(gè)模型,滿(mǎn)足不同應(yīng)用場(chǎng)景的需求。這就像一個(gè)汽車(chē)制造商推出從經(jīng)濟(jì)型轎車(chē)到豪華SUV的全系列產(chǎn)品,確保每個(gè)用戶(hù)都能找到適合自己需求的"座駕"。
具體來(lái)說(shuō),Qwen3推出了兩類(lèi)模型架構(gòu):
首先是密集模型(Dense Models),包括Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B和Qwen3-32B。這些模型就像傳統(tǒng)汽車(chē),所有"零部件"(神經(jīng)元)都會(huì)在每次"駕駛"(推理)中全部啟用。
其次是混合專(zhuān)家模型(Mixture-of-Expert Models,簡(jiǎn)稱(chēng)MoE),包括Qwen3-30B-A3B和Qwen3-235B-A22B。這些模型則像是擁有多位專(zhuān)家組成的顧問(wèn)團(tuán),每次只會(huì)激活其中最相關(guān)的專(zhuān)家來(lái)解決特定問(wèn)題。例如,旗艦?zāi)P蚎wen3-235B-A22B雖然總共有235B參數(shù),但每次處理一個(gè)詞時(shí)只會(huì)激活22B參數(shù),大大提高了計(jì)算效率。
最令人印象深刻的是,Qwen團(tuán)隊(duì)通過(guò)"強(qiáng)到弱知識(shí)蒸餾"技術(shù),成功將旗艦?zāi)P偷闹R(shí)傳授給較小模型,顯著減少了構(gòu)建小型模型所需的計(jì)算資源,同時(shí)保證了它們的競(jìng)爭(zhēng)力。這就像一位經(jīng)驗(yàn)豐富的大師能夠高效地將畢生所學(xué)教給年輕學(xué)徒,讓學(xué)徒在短時(shí)間內(nèi)掌握核心技能。
三、訓(xùn)練數(shù)據(jù):36萬(wàn)億詞量的知識(shí)海洋
Qwen3的訓(xùn)練數(shù)據(jù)規(guī)模令人矚目——總計(jì)36萬(wàn)億詞量,覆蓋了119種語(yǔ)言和方言。相比前代Qwen2.5僅支持29種語(yǔ)言,這是一次巨大的飛躍。你可以把這想象成一位語(yǔ)言天才,不僅能說(shuō)英語(yǔ)、中文、法語(yǔ)等主流語(yǔ)言,還掌握了世界各地的許多小語(yǔ)種,使它成為真正的"語(yǔ)言通"。
為了擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模,Qwen團(tuán)隊(duì)采用了多模態(tài)方法:首先利用Qwen2.5-VL模型從PDF文檔中提取文本,然后使用Qwen2.5模型改進(jìn)文本質(zhì)量。此外,他們還利用Qwen2.5-Math生成數(shù)學(xué)內(nèi)容,用Qwen2.5-Coder生成代碼相關(guān)數(shù)據(jù)。這就像是讓專(zhuān)家在各自擅長(zhǎng)的領(lǐng)域編寫(xiě)教材,確保了訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性。
訓(xùn)練過(guò)程分為三個(gè)階段:第一階段在約30萬(wàn)億詞量上訓(xùn)練,建立通用知識(shí)基礎(chǔ);第二階段專(zhuān)注于知識(shí)密集型數(shù)據(jù),增強(qiáng)科學(xué)、技術(shù)、工程、數(shù)學(xué)和編程方面的推理能力;第三階段則針對(duì)長(zhǎng)文本數(shù)據(jù)進(jìn)行訓(xùn)練,將模型的最大上下文長(zhǎng)度從4,096提升至32,768詞。
四、后訓(xùn)練:從思考能力到通用應(yīng)用的四階段優(yōu)化
Qwen3的后訓(xùn)練過(guò)程就像是對(duì)一位已經(jīng)學(xué)習(xí)了大量知識(shí)的學(xué)生進(jìn)行針對(duì)性的能力培養(yǎng),分為四個(gè)精心設(shè)計(jì)的階段:
首先是"長(zhǎng)鏈思考冷啟動(dòng)"階段。這就像是教學(xué)生寫(xiě)詳細(xì)的解題步驟,從簡(jiǎn)單問(wèn)題開(kāi)始,逐步掌握推理的基本模式。模型在這一階段學(xué)習(xí)如何像人類(lèi)一樣一步步思考,為后續(xù)的強(qiáng)化學(xué)習(xí)打下基礎(chǔ)。
接著是"推理強(qiáng)化學(xué)習(xí)"階段。此時(shí),模型像是參加了一個(gè)高強(qiáng)度的解題訓(xùn)練營(yíng),通過(guò)不斷嘗試、犯錯(cuò)和糾正,逐漸提升解決復(fù)雜問(wèn)題的能力。在這個(gè)階段,模型學(xué)會(huì)了更高效地思考,能夠處理數(shù)學(xué)和編程等需要嚴(yán)謹(jǐn)邏輯的任務(wù)。
第三階段是"思考模式融合"。這個(gè)階段很關(guān)鍵,模型學(xué)會(huì)了什么時(shí)候該深思熟慮(思考模式),什么時(shí)候該快速回應(yīng)(非思考模式)。就像一個(gè)人學(xué)會(huì)了何時(shí)該慢下來(lái)仔細(xì)分析,何時(shí)該快速做出直覺(jué)判斷。這種能力使得Qwen3能夠根據(jù)用戶(hù)需求靈活切換思考深度。
最后是"通用強(qiáng)化學(xué)習(xí)"階段。在這個(gè)階段,模型在廣泛的任務(wù)上接受訓(xùn)練,提升在各種情境下的表現(xiàn)。這就像是一位已經(jīng)掌握了專(zhuān)業(yè)技能的人,開(kāi)始在真實(shí)的工作環(huán)境中歷練,學(xué)習(xí)如何應(yīng)對(duì)各種挑戰(zhàn)。
對(duì)于較小的模型,Qwen團(tuán)隊(duì)采用了"強(qiáng)到弱蒸餾"方法,即讓較小的模型向旗艦?zāi)P蛯W(xué)習(xí)。這比直接從頭訓(xùn)練小模型效率高得多,就像是讓初學(xué)者直接向大師學(xué)習(xí)精華,跳過(guò)漫長(zhǎng)的自我探索階段。
五、性能評(píng)估:多領(lǐng)域碾壓式領(lǐng)先
經(jīng)過(guò)全面評(píng)估,Qwen3展現(xiàn)出令人印象深刻的性能。在代碼生成、數(shù)學(xué)推理和智能代理等任務(wù)中,Qwen3取得了領(lǐng)先成績(jī),甚至超越了許多大型MoE模型和閉源模型。
具體來(lái)看,旗艦?zāi)P蚎wen3-235B-A22B在AIME'24數(shù)學(xué)競(jìng)賽中達(dá)到了85.7分,在AIME'25達(dá)到81.5分,在LiveCodeBench v5代碼測(cè)試中得分70.7,在CodeForces編程平臺(tái)上達(dá)到2,056的評(píng)分,在BFCL v3代理任務(wù)上獲得70.8分。這些成績(jī)相當(dāng)于讓一位高中生在奧林匹克數(shù)學(xué)競(jìng)賽和編程比賽中獲得金牌的水平。
此外,研究團(tuán)隊(duì)還發(fā)現(xiàn),增加"思考預(yù)算"可以穩(wěn)定提升模型在各種任務(wù)上的表現(xiàn)。這就像是給學(xué)生提供更多的考慮時(shí)間,能夠幫助他們得出更準(zhǔn)確的答案。
六、多語(yǔ)言能力:從29種語(yǔ)言擴(kuò)展到119種
Qwen3最顯著的進(jìn)步之一是多語(yǔ)言支持的大幅擴(kuò)展,從Qwen2.5支持的29種語(yǔ)言躍升至119種語(yǔ)言和方言。這意味著Qwen3幾乎可以與世界上大部分人口直接用他們的母語(yǔ)交流,大大增強(qiáng)了模型的全球可訪問(wèn)性。
為了評(píng)估這種多語(yǔ)言能力,研究團(tuán)隊(duì)使用了多種多語(yǔ)言基準(zhǔn)測(cè)試,包括指令遵循、知識(shí)問(wèn)答、數(shù)學(xué)和邏輯推理等任務(wù)。結(jié)果表明,Qwen3在多語(yǔ)言任務(wù)上表現(xiàn)出色,無(wú)論是小語(yǔ)種還是主流語(yǔ)言,都能提供高質(zhì)量的理解和生成能力。
這種多語(yǔ)言能力就像是一位能夠在119個(gè)國(guó)家自如交流的外交官,不僅懂得語(yǔ)言本身,還理解各種文化背景和知識(shí)體系,使Qwen3成為真正意義上的全球化AI助手。
七、技術(shù)創(chuàng)新與開(kāi)放貢獻(xiàn)
Qwen3的所有模型都以Apache 2.0許可發(fā)布,這意味著它們完全開(kāi)放供研究和商業(yè)應(yīng)用。這種開(kāi)放態(tài)度為AI社區(qū)提供了寶貴資源,推動(dòng)了透明、協(xié)作和創(chuàng)新。
從技術(shù)架構(gòu)來(lái)看,Qwen3模型采用了多項(xiàng)創(chuàng)新設(shè)計(jì),包括分組查詢(xún)注意力機(jī)制(GQA)、SwiGLU激活函數(shù)、旋轉(zhuǎn)位置嵌入(RoPE)和RMSNorm歸一化等。對(duì)于MoE模型,團(tuán)隊(duì)還實(shí)現(xiàn)了細(xì)粒度專(zhuān)家分割和全局批次負(fù)載平衡損失,以鼓勵(lì)專(zhuān)家特化,從而提高模型效率。
這些技術(shù)創(chuàng)新就像是汽車(chē)引擎的改進(jìn)設(shè)計(jì),雖然普通用戶(hù)看不到,但能明顯感受到性能的提升——更快的響應(yīng)、更準(zhǔn)確的答案和更少的資源消耗。
八、實(shí)際應(yīng)用與未來(lái)展望
Qwen3的實(shí)際應(yīng)用潛力巨大,從代碼輔助開(kāi)發(fā)到數(shù)學(xué)問(wèn)題求解,從多語(yǔ)言翻譯到復(fù)雜推理任務(wù),都能表現(xiàn)出色。其思考與非思考模式的融合特別適合需要不同深度思考的應(yīng)用場(chǎng)景,如教育輔導(dǎo)、研究助手和創(chuàng)意寫(xiě)作等。
未來(lái),Qwen團(tuán)隊(duì)計(jì)劃繼續(xù)擴(kuò)大預(yù)訓(xùn)練規(guī)模,使用更高質(zhì)量、更多樣化的數(shù)據(jù)。同時(shí),他們將致力于改進(jìn)模型架構(gòu)和訓(xùn)練方法,以實(shí)現(xiàn)有效壓縮、擴(kuò)展至超長(zhǎng)上下文等目標(biāo)。此外,團(tuán)隊(duì)還計(jì)劃增加強(qiáng)化學(xué)習(xí)的計(jì)算資源,特別關(guān)注基于環(huán)境反饋的代理型強(qiáng)化學(xué)習(xí)系統(tǒng),以構(gòu)建能夠處理復(fù)雜任務(wù)的智能代理。
總的來(lái)說(shuō),Qwen3代表了大型語(yǔ)言模型發(fā)展的一個(gè)重要里程碑,它不僅在性能上達(dá)到了新高度,還在思考控制、多語(yǔ)言支持和模型效率方面帶來(lái)了創(chuàng)新突破。隨著這些模型的開(kāi)放使用,我們可以期待看到更多創(chuàng)新應(yīng)用在各個(gè)領(lǐng)域涌現(xiàn)。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。