av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃，關注公眾號

科技行者
算力行者

見證連接與計算的「力量」

騰訊混元團隊重磅發(fā)現：訓練AI大模型時，浮點數的"配方"原來大有講究！

人工智能浮點數量化縮放定律

騰訊混元團隊重磅發(fā)現：訓練AI大模型時，浮點數的"配方"原來大有講究！

作者：科技行者

2025-09-12 19:47

分享至：

騰訊混元團隊通過366組實驗發(fā)現了AI大模型低精度訓練的關鍵規(guī)律，提出Capybara縮放定律。研究揭示指數位比尾數位更重要，存在訓練數據臨界值現象，4-8位精度具有最佳成本效益。該成果為AI訓練提供精確預測工具，有助于降低訓練成本、提升效率，推動AI技術普及化發(fā)展。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-09-12 19:47 ? 科技行者

這項由騰訊混元團隊聯(lián)合澳門大學、香港中文大學和東京科學技術研究所共同完成的研究發(fā)表于2025年6月的第42屆國際機器學習會議（ICML 2025）。研究團隊包括孫星武、李帥鵬等多位專家，有興趣深入了解的讀者可以通過論文編號arXiv:2501.02423v3訪問完整論文。

當你用手機拍照時，每張照片都需要大量的數字來記錄顏色和亮度信息。類似地，訓練AI大模型也需要處理海量的數字運算。但是這里有個問題：如果每個數字都用最高精度來處理，就像用最高清的模式拍攝每一張照片一樣，計算機的存儲空間和運算速度都會受到嚴重拖累。

于是工程師們想到了一個聰明的辦法：使用"浮點數"來表示這些數字?？梢园迅↑c數想象成科學記數法的數字表示方式，比如把123000寫成1.23×10^5。這種表示方法包含兩個關鍵部分：一個是"尾數"（比如1.23），表示數字的具體數值；另一個是"指數"（比如5），表示數字的大小范圍。在計算機里，這分別對應著"尾數位"和"指數位"，它們共同決定了一個浮點數的精度和表示范圍。

然而，這就像烹飪時的調料配比一樣，指數位和尾數位的搭配比例會直接影響最終的"味道"——也就是AI模型的性能。過去的研究主要關注整數量化（相當于用粗糙的調料），對于浮點數量化訓練中這些精細配比的影響卻缺乏深入研究。騰訊混元團隊發(fā)現，現有的預測模型在面對浮點數量化訓練時，就像用錯誤的食譜烹飪一樣，預測結果往往不盡如人意。

于是，研究團隊決定從零開始，系統(tǒng)性地探索浮點數量化訓練的奧秘。他們設計了366組不同的實驗，就像一個超級廚師在廚房里嘗試各種調料配比一樣，測試了不同模型大小、不同數據量、不同指數位和尾數位配置對AI模型性能的影響。

一、發(fā)現浮點數的"黃金配比"

研究團隊首先解決了一個基礎問題：在訓練AI模型時，到底應該對哪些計算環(huán)節(jié)進行量化處理。這就像在做菜時決定哪些步驟可以用簡化工具，哪些步驟必須精工細作。

在AI模型的神經網絡中，每一層都涉及復雜的矩陣運算。研究團隊發(fā)現，這些運算可以分為三個主要階段：前向計算（相當于食材的初步處理）、輸入梯度計算（相當于調整味道）、以及參數梯度計算（相當于總結經驗）。每個階段都有兩個關鍵輸入需要處理。

通過大量實驗，研究團隊發(fā)現了一個有趣的現象：并不是所有的計算環(huán)節(jié)都需要高精度處理。具體來說，對權重、反向傳播中的權重以及激活值的梯度進行量化，對模型性能的影響相對較小，就像烹飪時某些調料的精確度要求沒那么高一樣。但是，如果對輸入激活值進行量化，特別是在計算輸入梯度時，模型性能會顯著下降，損失可能增加多達2%。

這個發(fā)現讓研究團隊意識到，在AI模型訓練中，不同計算環(huán)節(jié)的重要性是不同的。有些環(huán)節(jié)就像烹飪中的主要調料，必須精確控制；有些環(huán)節(jié)則像配菜，可以適當簡化處理。

二、指數位與尾數位的巧妙平衡

接下來，研究團隊深入探究了指數位和尾數位配置的影響。這就像研究糖和鹽的配比對菜品味道的影響一樣，需要找到最佳的平衡點。

傳統(tǒng)觀點認為，指數位和尾數位應該同等重要，就像認為糖和鹽在調味中的作用相當。但研究團隊的實驗結果卻出人意料：指數位對模型性能的貢獻略微大于尾數位。這意味著，在有限的數字位數預算下，稍微多分配一些位數給指數位會得到更好的效果。

具體來說，當總共有4個位數可用時，最佳配置是2個指數位和1個尾數位；8個位數時，最佳配置是4個指數位和3個尾數位；16個位數時，最佳配置是8個指數位和7個尾數位。這個發(fā)現為硬件制造商提供了寶貴的參考，就像為廚具設計師提供了最佳的工具規(guī)格建議。

研究團隊還發(fā)現，這種配比規(guī)律背后有著深層的數學原理。他們通過大量的實驗數據擬合，發(fā)現了一個精確的公式，可以預測在任何給定的位數預算下，應該如何分配指數位和尾數位的數量。

三、數據規(guī)模的"臨界點"現象

在探索過程中，研究團隊發(fā)現了一個令人驚訝的現象：在低精度訓練中，并不是訓練數據越多越好。這就像發(fā)現了"營養(yǎng)過剩"的問題——當攝入的營養(yǎng)超過身體能夠有效吸收的量時，反而可能對健康產生負面影響。

傳統(tǒng)的高精度訓練中，增加訓練數據通常會持續(xù)改善模型性能。但在低精度訓練中，情況完全不同。當訓練數據量超過某個臨界值時，模型性能不但不會繼續(xù)提升，反而會開始下降。

這個臨界值被研究團隊稱為"臨界數據大小"。它的存在可以用"知識密度"的概念來理解。在低精度訓練中，模型就像一個容量有限的容器，當試圖往里面裝入過多信息時，容器就會"溢出"，導致已有信息的質量下降。

研究團隊通過數學推導，得出了計算這個臨界數據大小的精確公式。他們發(fā)現，模型規(guī)模越大、訓練精度越高、量化塊大小越小，這個臨界點就會相應推遲出現。這就像更大的容器、更好的材質、更精細的結構都能提高容器的承載能力。

以一個10億參數的模型為例，在BF16精度下訓練時，臨界數據大小高達1730T（萬億個字符），遠超現有數據集規(guī)模，所以我們從未觀察到這種現象。但當使用FP8-E4M3格式訓練時，臨界數據大小降至27T；使用FP4-E2M1格式時，更是銳減到僅0.4T。這解釋了為什么在極低精度訓練中，過多的數據反而會傷害模型性能。

四、計算預算的最優(yōu)分配策略

研究團隊還探索了在固定計算預算下，如何最優(yōu)地分配計算資源。這就像在固定預算下安排一頓大餐，需要在食材質量、菜品數量和烹飪精度之間找到最佳平衡。

當數據量固定時，研究團隊發(fā)現了一個有趣的策略：在訓練初期使用激進的量化策略（如FP8甚至FP4），快速讓模型收斂到較好水平；隨著數據量增加和"知識密度"提高，逐步提升訓練精度到BF16甚至FP32，以維持最佳的訓練效果。這就像做菜時，先用大火快速加熱，然后轉小火慢燉的策略。

當模型大小固定時，研究團隊發(fā)現精度和計算預算之間存在一個冪律關系。通過這個關系，他們可以預測在任何給定的計算預算下，最優(yōu)的量化精度應該是多少。

最重要的是，當同時優(yōu)化模型大小、數據量和精度時，研究團隊發(fā)現了一個關鍵結論：在廣泛的計算預算范圍內（從10^21到10^31次浮點運算），最優(yōu)的成本性能精度始終保持在4-8位之間。這意味著，不管你的計算預算是多少，使用4-8位精度訓練都能獲得最佳的性價比。

五、Capybara縮放定律的誕生

基于所有這些發(fā)現，研究團隊提出了他們的核心貢獻：Capybara縮放定律。這個定律就像一個萬能公式，可以精確預測在任何給定的模型大小、數據量、指數位、尾數位和量化塊大小組合下，AI模型的最終性能。

Capybara這個名字很有寓意。在自然界中，水豚是一種群居動物，但當棲息地變得過于擁擠時，種群密度的增加反而會降低個體的生存質量。這正好類比了研究團隊發(fā)現的現象：在低精度訓練中，過多的數據（相當于過高的"知識密度"）反而會損害模型性能。

這個縮放定律的數學表達式看起來復雜，但其核心思想很簡單。它由兩個主要部分組成：一個是傳統(tǒng)的Chinchilla縮放定律部分，描述數據量和模型大小對性能的基礎影響；另一個是新增的精度影響部分，描述低精度訓練帶來的額外性能損失。

精度影響部分可以理解為"知識密度"與"低精度信息損失"的乘積。"知識密度"由數據量與模型大小的比值決定，表示單位模型容量需要處理的信息量；"低精度信息損失"則由指數位、尾數位和量化塊大小共同決定，表示量化過程造成的信息丟失程度。

六、實驗驗證與應用價值

為了驗證Capybara縮放定律的準確性，研究團隊進行了大規(guī)模的實驗驗證。他們訓練了從4100萬到6.79億參數不等的各種模型，使用了從100億到1000億個訓練詞元的不同數據量，測試了36種不同的精度配置組合。

實驗結果令人振奮：與之前的預測方法相比，Capybara縮放定律能夠更準確地預測模型性能，特別是在低精度訓練場景下。之前的方法在面對FP3這樣的極低精度配置時，預測偏差很大，就像用錯誤的食譜做菜，結果往往差強人意。而Capybara縮放定律的預測結果與實際測試結果高度吻合。

更重要的是，研究團隊還驗證了這個定律在更大模型上的適用性。他們測試了12億、70億和700億參數的模型，發(fā)現Capybara縮放定律依然能夠準確預測性能，證明了其在大規(guī)模應用中的可靠性。

這項研究的實用價值巨大。對于AI模型開發(fā)者來說，他們現在可以在開始昂貴的訓練過程之前，就準確預測不同配置下的模型性能，從而選擇最優(yōu)的訓練策略。對于硬件制造商來說，研究提供的最佳浮點格式配置指南可以幫助他們設計更高效的AI訓練芯片。對于研究機構和公司來說，4-8位精度的最優(yōu)成本性能建議可以幫助他們在有限預算下獲得最佳效果。

七、對未來的深遠影響

這項研究的影響遠不止于技術層面。它揭示了AI訓練中一個根本性的權衡：在追求效率的過程中，我們需要在精度、速度、成本和性能之間找到最佳平衡點。

從產業(yè)發(fā)展角度來看，這項研究為AI民主化提供了重要支撐。通過優(yōu)化量化策略，更多的研究機構和小公司可以用較少的計算資源訓練出高質量的AI模型。這就像發(fā)明了更高效的烹飪方法，讓更多人能夠制作出美味的菜肴。

從科學研究角度來看，Capybara縮放定律為理解AI模型的學習機制提供了新的視角。"臨界數據大小"的發(fā)現揭示了模型容量與信息消化能力之間的內在關系，為未來的模型架構設計提供了理論指導。

從環(huán)境保護角度來看，更高效的訓練策略意味著更少的能源消耗。當全球都在關注AI訓練的碳排放問題時，這項研究提供了一個實用的解決方案：通過智能的量化策略，在保持模型性能的同時顯著降低訓練成本。

當然，這項研究也有其局限性。目前的實驗主要基于Transformer架構，對于其他新興架構（如Mamba系列）的適用性還需要進一步驗證。研究重點關注的是經典浮點量化策略，對于其他新型低位量化方法的支持也有待擴展。

說到底，這項研究最重要的價值在于它改變了我們對AI訓練效率的認知。過去我們可能認為，要獲得更好的AI模型就必須使用更高的精度、更多的數據、更強的計算力。但騰訊混元團隊的發(fā)現告訴我們，智慧的策略往往比蠻力更有效。就像優(yōu)秀的廚師不是因為擁有最貴的食材，而是因為掌握了最佳的烹飪技巧。

這項研究為整個AI社區(qū)提供了一個寶貴的工具箱，讓每個開發(fā)者都能根據自己的具體需求和資源限制，找到最適合的訓練策略。在AI技術快速發(fā)展的今天，這樣的研究成果尤其珍貴，因為它不僅推動了技術進步，更讓技術變得更加普惠和可持續(xù)。

有興趣進一步了解技術細節(jié)的讀者，可以通過論文編號arXiv:2501.02423v3查閱完整的研究報告，其中包含了詳細的數學推導、實驗設計和結果分析。

Q&A

Q1：Capybara縮放定律是什么？它能幫助解決什么問題？

A： Capybara縮放定律是騰訊混元團隊提出的一個數學公式，可以精確預測在不同模型大小、數據量和浮點精度配置下AI模型的性能表現。它主要解決了低精度訓練中性能預測不準確的問題，幫助開發(fā)者在開始昂貴的訓練之前就能選擇最優(yōu)配置。

Q2：為什么訓練數據不是越多越好？什么是臨界數據大小？

A：在低精度訓練中存在"臨界數據大小"現象，當訓練數據超過這個臨界值時，模型性能反而會下降。這是因為低精度訓練中模型的信息處理能力有限，就像容量有限的容器，裝入過多信息會導致"溢出"，影響已有信息質量。

Q3：浮點數量化訓練中指數位和尾數位應該如何配置？

A：研究發(fā)現指數位比尾數位對模型性能的貢獻略大。最佳配置為：4位總精度時用2個指數位1個尾數位；8位時用4個指數位3個尾數位；16位時用8個指數位7個尾數位。在4-8位精度范圍內能獲得最佳成本性能比。

人工智能浮點數量化縮放定律

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現AI根據復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術，通過交錯式推理生成、解耦橋接機制和漸進式訓練，能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學習
多模態(tài)學習

2025-09-09 13:57

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術，通過讓AI同時學習外觀和運動信息，顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量，在多項測試中超越包括Sora在內的商業(yè)模型，為AI視頻生成的實用化應用奠定了重要基礎。
多模態(tài)AI
人類價值觀對齊
數據集構建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數據集和MM-AlignBench評測基準，通過創(chuàng)新的數據生成和質量管控方法，讓AI在保持技術能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術路徑。
人工智能
圖神經網絡
天氣預報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型，能夠在不到一分鐘內完成10天全球天氣預報，準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經網絡技術，通過學習40年歷史數據掌握天氣變化規(guī)律，在極端天氣預測方面表現卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學領域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網
管理現代化
和訊IT
TechWeb
第三媒體
速途網
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網安備 11010802021500號

北京第二十六維信息技術有限公司（至頂網）版權所有。 | 聯(lián)絡我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網上有害信息舉報專區(qū)：https://www.12377.cn

<em id="4vpgx"><b id="4vpgx"></b></em>