這項由騰訊混元團隊聯(lián)合澳門大學、香港中文大學和東京科學技術研究所共同完成的研究發(fā)表于2025年6月的第42屆國際機器學習會議(ICML 2025)。研究團隊包括孫星武、李帥鵬等多位專家,有興趣深入了解的讀者可以通過論文編號arXiv:2501.02423v3訪問完整論文。
當你用手機拍照時,每張照片都需要大量的數字來記錄顏色和亮度信息。類似地,訓練AI大模型也需要處理海量的數字運算。但是這里有個問題:如果每個數字都用最高精度來處理,就像用最高清的模式拍攝每一張照片一樣,計算機的存儲空間和運算速度都會受到嚴重拖累。
于是工程師們想到了一個聰明的辦法:使用"浮點數"來表示這些數字??梢园迅↑c數想象成科學記數法的數字表示方式,比如把123000寫成1.23×10^5。這種表示方法包含兩個關鍵部分:一個是"尾數"(比如1.23),表示數字的具體數值;另一個是"指數"(比如5),表示數字的大小范圍。在計算機里,這分別對應著"尾數位"和"指數位",它們共同決定了一個浮點數的精度和表示范圍。
然而,這就像烹飪時的調料配比一樣,指數位和尾數位的搭配比例會直接影響最終的"味道"——也就是AI模型的性能。過去的研究主要關注整數量化(相當于用粗糙的調料),對于浮點數量化訓練中這些精細配比的影響卻缺乏深入研究。騰訊混元團隊發(fā)現,現有的預測模型在面對浮點數量化訓練時,就像用錯誤的食譜烹飪一樣,預測結果往往不盡如人意。
于是,研究團隊決定從零開始,系統(tǒng)性地探索浮點數量化訓練的奧秘。他們設計了366組不同的實驗,就像一個超級廚師在廚房里嘗試各種調料配比一樣,測試了不同模型大小、不同數據量、不同指數位和尾數位配置對AI模型性能的影響。
一、發(fā)現浮點數的"黃金配比"
研究團隊首先解決了一個基礎問題:在訓練AI模型時,到底應該對哪些計算環(huán)節(jié)進行量化處理。這就像在做菜時決定哪些步驟可以用簡化工具,哪些步驟必須精工細作。
在AI模型的神經網絡中,每一層都涉及復雜的矩陣運算。研究團隊發(fā)現,這些運算可以分為三個主要階段:前向計算(相當于食材的初步處理)、輸入梯度計算(相當于調整味道)、以及參數梯度計算(相當于總結經驗)。每個階段都有兩個關鍵輸入需要處理。
通過大量實驗,研究團隊發(fā)現了一個有趣的現象:并不是所有的計算環(huán)節(jié)都需要高精度處理。具體來說,對權重、反向傳播中的權重以及激活值的梯度進行量化,對模型性能的影響相對較小,就像烹飪時某些調料的精確度要求沒那么高一樣。但是,如果對輸入激活值進行量化,特別是在計算輸入梯度時,模型性能會顯著下降,損失可能增加多達2%。
這個發(fā)現讓研究團隊意識到,在AI模型訓練中,不同計算環(huán)節(jié)的重要性是不同的。有些環(huán)節(jié)就像烹飪中的主要調料,必須精確控制;有些環(huán)節(jié)則像配菜,可以適當簡化處理。
二、指數位與尾數位的巧妙平衡
接下來,研究團隊深入探究了指數位和尾數位配置的影響。這就像研究糖和鹽的配比對菜品味道的影響一樣,需要找到最佳的平衡點。
傳統(tǒng)觀點認為,指數位和尾數位應該同等重要,就像認為糖和鹽在調味中的作用相當。但研究團隊的實驗結果卻出人意料:指數位對模型性能的貢獻略微大于尾數位。這意味著,在有限的數字位數預算下,稍微多分配一些位數給指數位會得到更好的效果。
具體來說,當總共有4個位數可用時,最佳配置是2個指數位和1個尾數位;8個位數時,最佳配置是4個指數位和3個尾數位;16個位數時,最佳配置是8個指數位和7個尾數位。這個發(fā)現為硬件制造商提供了寶貴的參考,就像為廚具設計師提供了最佳的工具規(guī)格建議。
研究團隊還發(fā)現,這種配比規(guī)律背后有著深層的數學原理。他們通過大量的實驗數據擬合,發(fā)現了一個精確的公式,可以預測在任何給定的位數預算下,應該如何分配指數位和尾數位的數量。
三、數據規(guī)模的"臨界點"現象
在探索過程中,研究團隊發(fā)現了一個令人驚訝的現象:在低精度訓練中,并不是訓練數據越多越好。這就像發(fā)現了"營養(yǎng)過剩"的問題——當攝入的營養(yǎng)超過身體能夠有效吸收的量時,反而可能對健康產生負面影響。
傳統(tǒng)的高精度訓練中,增加訓練數據通常會持續(xù)改善模型性能。但在低精度訓練中,情況完全不同。當訓練數據量超過某個臨界值時,模型性能不但不會繼續(xù)提升,反而會開始下降。
這個臨界值被研究團隊稱為"臨界數據大小"。它的存在可以用"知識密度"的概念來理解。在低精度訓練中,模型就像一個容量有限的容器,當試圖往里面裝入過多信息時,容器就會"溢出",導致已有信息的質量下降。
研究團隊通過數學推導,得出了計算這個臨界數據大小的精確公式。他們發(fā)現,模型規(guī)模越大、訓練精度越高、量化塊大小越小,這個臨界點就會相應推遲出現。這就像更大的容器、更好的材質、更精細的結構都能提高容器的承載能力。
以一個10億參數的模型為例,在BF16精度下訓練時,臨界數據大小高達1730T(萬億個字符),遠超現有數據集規(guī)模,所以我們從未觀察到這種現象。但當使用FP8-E4M3格式訓練時,臨界數據大小降至27T;使用FP4-E2M1格式時,更是銳減到僅0.4T。這解釋了為什么在極低精度訓練中,過多的數據反而會傷害模型性能。
四、計算預算的最優(yōu)分配策略
研究團隊還探索了在固定計算預算下,如何最優(yōu)地分配計算資源。這就像在固定預算下安排一頓大餐,需要在食材質量、菜品數量和烹飪精度之間找到最佳平衡。
當數據量固定時,研究團隊發(fā)現了一個有趣的策略:在訓練初期使用激進的量化策略(如FP8甚至FP4),快速讓模型收斂到較好水平;隨著數據量增加和"知識密度"提高,逐步提升訓練精度到BF16甚至FP32,以維持最佳的訓練效果。這就像做菜時,先用大火快速加熱,然后轉小火慢燉的策略。
當模型大小固定時,研究團隊發(fā)現精度和計算預算之間存在一個冪律關系。通過這個關系,他們可以預測在任何給定的計算預算下,最優(yōu)的量化精度應該是多少。
最重要的是,當同時優(yōu)化模型大小、數據量和精度時,研究團隊發(fā)現了一個關鍵結論:在廣泛的計算預算范圍內(從10^21到10^31次浮點運算),最優(yōu)的成本性能精度始終保持在4-8位之間。這意味著,不管你的計算預算是多少,使用4-8位精度訓練都能獲得最佳的性價比。
五、Capybara縮放定律的誕生
基于所有這些發(fā)現,研究團隊提出了他們的核心貢獻:Capybara縮放定律。這個定律就像一個萬能公式,可以精確預測在任何給定的模型大小、數據量、指數位、尾數位和量化塊大小組合下,AI模型的最終性能。
Capybara這個名字很有寓意。在自然界中,水豚是一種群居動物,但當棲息地變得過于擁擠時,種群密度的增加反而會降低個體的生存質量。這正好類比了研究團隊發(fā)現的現象:在低精度訓練中,過多的數據(相當于過高的"知識密度")反而會損害模型性能。
這個縮放定律的數學表達式看起來復雜,但其核心思想很簡單。它由兩個主要部分組成:一個是傳統(tǒng)的Chinchilla縮放定律部分,描述數據量和模型大小對性能的基礎影響;另一個是新增的精度影響部分,描述低精度訓練帶來的額外性能損失。
精度影響部分可以理解為"知識密度"與"低精度信息損失"的乘積。"知識密度"由數據量與模型大小的比值決定,表示單位模型容量需要處理的信息量;"低精度信息損失"則由指數位、尾數位和量化塊大小共同決定,表示量化過程造成的信息丟失程度。
六、實驗驗證與應用價值
為了驗證Capybara縮放定律的準確性,研究團隊進行了大規(guī)模的實驗驗證。他們訓練了從4100萬到6.79億參數不等的各種模型,使用了從100億到1000億個訓練詞元的不同數據量,測試了36種不同的精度配置組合。
實驗結果令人振奮:與之前的預測方法相比,Capybara縮放定律能夠更準確地預測模型性能,特別是在低精度訓練場景下。之前的方法在面對FP3這樣的極低精度配置時,預測偏差很大,就像用錯誤的食譜做菜,結果往往差強人意。而Capybara縮放定律的預測結果與實際測試結果高度吻合。
更重要的是,研究團隊還驗證了這個定律在更大模型上的適用性。他們測試了12億、70億和700億參數的模型,發(fā)現Capybara縮放定律依然能夠準確預測性能,證明了其在大規(guī)模應用中的可靠性。
這項研究的實用價值巨大。對于AI模型開發(fā)者來說,他們現在可以在開始昂貴的訓練過程之前,就準確預測不同配置下的模型性能,從而選擇最優(yōu)的訓練策略。對于硬件制造商來說,研究提供的最佳浮點格式配置指南可以幫助他們設計更高效的AI訓練芯片。對于研究機構和公司來說,4-8位精度的最優(yōu)成本性能建議可以幫助他們在有限預算下獲得最佳效果。
七、對未來的深遠影響
這項研究的影響遠不止于技術層面。它揭示了AI訓練中一個根本性的權衡:在追求效率的過程中,我們需要在精度、速度、成本和性能之間找到最佳平衡點。
從產業(yè)發(fā)展角度來看,這項研究為AI民主化提供了重要支撐。通過優(yōu)化量化策略,更多的研究機構和小公司可以用較少的計算資源訓練出高質量的AI模型。這就像發(fā)明了更高效的烹飪方法,讓更多人能夠制作出美味的菜肴。
從科學研究角度來看,Capybara縮放定律為理解AI模型的學習機制提供了新的視角。"臨界數據大小"的發(fā)現揭示了模型容量與信息消化能力之間的內在關系,為未來的模型架構設計提供了理論指導。
從環(huán)境保護角度來看,更高效的訓練策略意味著更少的能源消耗。當全球都在關注AI訓練的碳排放問題時,這項研究提供了一個實用的解決方案:通過智能的量化策略,在保持模型性能的同時顯著降低訓練成本。
當然,這項研究也有其局限性。目前的實驗主要基于Transformer架構,對于其他新興架構(如Mamba系列)的適用性還需要進一步驗證。研究重點關注的是經典浮點量化策略,對于其他新型低位量化方法的支持也有待擴展。
說到底,這項研究最重要的價值在于它改變了我們對AI訓練效率的認知。過去我們可能認為,要獲得更好的AI模型就必須使用更高的精度、更多的數據、更強的計算力。但騰訊混元團隊的發(fā)現告訴我們,智慧的策略往往比蠻力更有效。就像優(yōu)秀的廚師不是因為擁有最貴的食材,而是因為掌握了最佳的烹飪技巧。
這項研究為整個AI社區(qū)提供了一個寶貴的工具箱,讓每個開發(fā)者都能根據自己的具體需求和資源限制,找到最適合的訓練策略。在AI技術快速發(fā)展的今天,這樣的研究成果尤其珍貴,因為它不僅推動了技術進步,更讓技術變得更加普惠和可持續(xù)。
有興趣進一步了解技術細節(jié)的讀者,可以通過論文編號arXiv:2501.02423v3查閱完整的研究報告,其中包含了詳細的數學推導、實驗設計和結果分析。
Q&A
Q1:Capybara縮放定律是什么?它能幫助解決什么問題?
A: Capybara縮放定律是騰訊混元團隊提出的一個數學公式,可以精確預測在不同模型大小、數據量和浮點精度配置下AI模型的性能表現。它主要解決了低精度訓練中性能預測不準確的問題,幫助開發(fā)者在開始昂貴的訓練之前就能選擇最優(yōu)配置。
Q2:為什么訓練數據不是越多越好?什么是臨界數據大小?
A:在低精度訓練中存在"臨界數據大小"現象,當訓練數據超過這個臨界值時,模型性能反而會下降。這是因為低精度訓練中模型的信息處理能力有限,就像容量有限的容器,裝入過多信息會導致"溢出",影響已有信息質量。
Q3:浮點數量化訓練中指數位和尾數位應該如何配置?
A:研究發(fā)現指數位比尾數位對模型性能的貢獻略大。最佳配置為:4位總精度時用2個指數位1個尾數位;8位時用4個指數位3個尾數位;16位時用8個指數位7個尾數位。在4-8位精度范圍內能獲得最佳成本性能比。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現AI根據復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數據集和MM-AlignBench評測基準,通過創(chuàng)新的數據生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經網絡技術,通過學習40年歷史數據掌握天氣變化規(guī)律,在極端天氣預測方面表現卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。