這項由中國人民大學高瓴人工智能學院的聶晟、朱豐琪、游澤斌等研究者與螞蟻集團聯(lián)合完成的突破性研究發(fā)表于2025年2月,論文標題為《Large Language Diffusion Models》。有興趣深入了解技術細節(jié)的讀者可以通過arXiv:2502.09992訪問完整論文,或訪問項目主頁https://ml-gsai.github.io/LLaDA-demo/獲取更多資源。
當我們談論AI語言模型時,絕大多數(shù)人想到的都是ChatGPT、GPT-4這樣的系統(tǒng)。它們有一個共同特點:就像人類說話一樣,一個詞接一個詞地生成文本。這種方式被稱為"自回歸模型",就好比你在寫作文時,必須按照從左到右的順序,一個字一個字地往下寫,每個新字都基于前面已經(jīng)寫好的內(nèi)容。
然而,中國科學家們提出了一個大膽的問題:AI生成語言真的只能像人類說話那樣按順序進行嗎?能不能讓AI像畫家作畫一樣,先勾勒出大致輪廓,然后逐步填充細節(jié)?這就是擴散模型的核心思想。
擴散模型原本在圖像生成領域大放異彩。想象一下,如果你要畫一幅畫,傳統(tǒng)方法是從左上角開始,一筆一筆按順序畫完。而擴散模型的方法更像是先在整張畫布上隨機撒滿顏料斑點,然后通過一系列"去噪"過程,逐步將這些斑點調(diào)整成一幅完整的畫作。每一步調(diào)整都會讓畫面更加清晰,最終呈現(xiàn)出想要的圖像。
研究團隊面臨的挑戰(zhàn)是:這種原本用于圖像的技術能否成功應用到文本生成上?畢竟,文字和圖像在本質(zhì)上有很大差異。文字是離散的符號,而圖像是連續(xù)的像素點。為了解決這個問題,他們開發(fā)了一個名為LLaDA(Large Language Diffusion with mAsking)的創(chuàng)新系統(tǒng)。
LLaDA的工作原理可以用"填空游戲"來比喻。設想你有一段完整的文章,但其中的某些詞被隨機遮掩了。LLaDA的任務就是根據(jù)沒有被遮掩的詞語,猜出被遮掩的部分應該是什么。在訓練過程中,系統(tǒng)會接觸到大量這樣的"填空題",逐漸學會理解語言的規(guī)律和邏輯。
與傳統(tǒng)的按順序生成不同,LLaDA可以同時考慮文本的前后文信息。這就像一個經(jīng)驗豐富的填字游戲高手,不僅看橫向的線索,還會參考縱向的提示,從多個角度綜合判斷答案。這種雙向理解能力讓LLaDA在處理某些特殊任務時表現(xiàn)出色,特別是那些需要"逆向思維"的任務。
研究團隊進行了一項有趣的實驗來證明這一點。他們讓不同的AI系統(tǒng)完成古詩詞接龍任務,包括正向接龍(給出上句猜下句)和逆向接龍(給出下句猜上句)。結果顯示,包括GPT-4o在內(nèi)的傳統(tǒng)模型在逆向任務上表現(xiàn)糟糕,這被稱為"逆向詛咒"現(xiàn)象。而LLaDA在正向和逆向任務上都保持了穩(wěn)定的表現(xiàn)水平。
為了驗證LLaDA的實際能力,研究團隊將其擴展到了80億參數(shù)的規(guī)模,并在2.3萬億個文本片段上進行訓練。這個訓練規(guī)模相當于讓一個人不間斷閱讀數(shù)千年的文字內(nèi)容。整個訓練過程消耗了13萬小時的H800 GPU計算時間,相當于一臺超級計算機連續(xù)工作15年。
在多項標準測試中,LLaDA 8B展現(xiàn)出了與主流大型語言模型相媲美的性能。在數(shù)學推理任務GSM8K上,它甚至超越了同等規(guī)模的LLaMA3模型。在中文理解任務上,LLaDA也表現(xiàn)出了明顯優(yōu)勢。這些結果證明了擴散模型在語言生成領域的巨大潛力。
研究團隊還開發(fā)了一套完整的訓練和優(yōu)化流程。首先是預訓練階段,LLaDA學會了基礎的語言理解和生成能力。然后是監(jiān)督微調(diào)階段,通過450萬對話數(shù)據(jù)讓模型學會與人類進行自然對話。經(jīng)過這兩個階段的訓練,LLaDA不僅能夠完成各種語言理解任務,還能進行多輪對話,展現(xiàn)出了類似ChatGPT的交互能力。
在技術實現(xiàn)上,LLaDA采用了與主流語言模型類似的Transformer架構,但去掉了單向注意力機制的限制。這讓模型能夠同時關注文本的前后信息,形成更全面的理解。為了優(yōu)化性能,研究團隊還設計了多種采樣策略,包括基于置信度的重新遮掩方法和半自回歸生成方式。
這項研究的意義不僅在于技術創(chuàng)新,更在于它挑戰(zhàn)了一個長期以來的固有觀念:語言AI必須按照人類說話的方式工作。LLaDA證明了,通過不同的生成機制,AI同樣可以達到甚至超越傳統(tǒng)方法的效果。這為未來的AI語言模型發(fā)展開辟了新的道路。
當然,LLaDA也有其局限性。相比傳統(tǒng)的自回歸模型,它在推理時需要更多的計算步驟,生成速度相對較慢。此外,由于這是一個相對新穎的技術路徑,在某些專業(yè)領域的表現(xiàn)還需要進一步優(yōu)化。
展望未來,擴散模型在語言生成領域還有很大的發(fā)展空間。研究團隊提到了幾個重要的改進方向:進一步擴大模型規(guī)模、優(yōu)化訓練效率、增強多模態(tài)能力,以及探索更高效的推理方法。隨著這些技術的不斷完善,我們有理由相信,基于擴散模型的語言AI將在不久的將來成為ChatGPT等傳統(tǒng)模型的有力競爭者。
說到底,LLaDA的出現(xiàn)告訴我們,在AI發(fā)展的道路上,并不存在唯一正確的技術路線。通過創(chuàng)新的思維和大膽的嘗試,科學家們總能找到新的突破點。這項來自中國研究團隊的工作,不僅在技術上取得了重要進展,更重要的是為整個AI社區(qū)提供了新的思路和可能性。對于關注AI發(fā)展的讀者,這項研究值得持續(xù)關注,因為它很可能代表了未來語言AI的一個重要發(fā)展方向。
Q&A
Q1:LLaDA與ChatGPT這樣的傳統(tǒng)語言模型有什么根本區(qū)別?
A:最根本的區(qū)別在于生成方式。ChatGPT等傳統(tǒng)模型像人說話一樣按順序生成文本,必須從左到右一個詞一個詞地輸出。而LLaDA使用擴散模型,更像畫家作畫,可以同時考慮整個文本的前后信息,通過多輪"填空"逐步完善內(nèi)容。這讓LLaDA能夠更好地處理需要逆向思維的任務,比如根據(jù)詩詞下句推測上句。
Q2:LLaDA在哪些方面表現(xiàn)比傳統(tǒng)模型更好?
A:LLaDA最突出的優(yōu)勢是雙向理解能力和逆向推理能力。在古詩詞逆向接龍任務中,LLaDA表現(xiàn)穩(wěn)定,而GPT-4o等傳統(tǒng)模型則出現(xiàn)明顯性能下降。此外,LLaDA在數(shù)學推理和中文理解任務上也表現(xiàn)出色,在某些測試中甚至超越了同等規(guī)模的LLaMA3模型。它還能進行自然的多輪對話,具備與ChatGPT相似的交互能力。
Q3:普通用戶什么時候能使用到LLaDA技術?
A:目前LLaDA還處于研究階段,研究團隊已經(jīng)在項目主頁https://ml-gsai.github.io/LLaDA-demo/提供了演示版本。不過要真正普及到普通用戶還需要時間,主要原因是擴散模型在生成時需要更多計算步驟,速度相對較慢。隨著技術優(yōu)化和硬件提升,預計未來幾年內(nèi)基于擴散模型的語言AI產(chǎn)品會逐步面向消費者市場推出。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。