這項由上海交通大學(xué)鄧志杰教授團隊領(lǐng)導(dǎo)的研究發(fā)表于2025年1月,論文題為《Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing》。有興趣深入了解的讀者可以通過GitHub代碼庫https://github.com/zhijie-group/Discrete-Diffusion-Forcing訪問完整資料,該研究同時得到了加州大學(xué)圣地亞哥分校和上海大學(xué)的合作支持。
人工智能文本生成的速度一直是個大問題。就像以前的打字機需要一個字母一個字母地敲出來一樣,傳統(tǒng)的AI語言模型也必須按順序生成每個詞匯,前一個詞沒寫完,后面的詞就得等著。這種"排隊寫作"的方式雖然準(zhǔn)確,但速度實在太慢了。近年來,研究者們開始嘗試一種叫做"擴散大語言模型"的新技術(shù),就像同時用多支筆并行書寫一樣,理論上可以大大提高生成速度。
然而現(xiàn)實情況卻讓人失望。這些號稱能"并行寫作"的擴散模型在實際應(yīng)用中,速度竟然比傳統(tǒng)的"單線程"模型還要慢。這就像買了一臺據(jù)說很快的新電腦,結(jié)果用起來比老電腦還卡頓。問題出在哪里呢?原來,這些并行模型無法有效利用計算機內(nèi)存中的緩存機制,每次生成文本時都要重新計算很多已經(jīng)算過的東西,白白浪費了大量計算資源。
上海交通大學(xué)的研究團隊決定徹底解決這個問題。他們開發(fā)出一種叫做"離散擴散強制"(簡稱D2F)的全新技術(shù),巧妙地將傳統(tǒng)模型的優(yōu)勢與并行處理的潛力結(jié)合起來。這就像設(shè)計了一條既能保持隊伍秩序、又能讓多個人同時工作的流水線。
這項突破的核心在于重新設(shè)計了AI思考文本的方式。傳統(tǒng)的擴散模型就像一個畫家試圖同時畫完整幅畫的每個部分,結(jié)果反而畫得很亂。而D2F技術(shù)則像一個聰明的畫家,把畫布分成幾個區(qū)塊,先專心畫好左邊的區(qū)塊,同時開始構(gòu)思右邊區(qū)塊的內(nèi)容,等左邊畫得差不多了,就可以利用已完成的部分來指導(dǎo)右邊的創(chuàng)作,這樣既保證了畫面的連貫性,又大大提高了作畫速度。
具體來說,D2F技術(shù)采用了一種"分塊自回歸生成"的策略。它將要生成的文本分成若干個小塊,每個塊內(nèi)部可以并行處理多個詞匯,而塊與塊之間則保持著有序的依賴關(guān)系。這樣既能享受并行處理的速度優(yōu)勢,又能利用傳統(tǒng)模型中高效的緩存機制,避免重復(fù)計算。
更巧妙的是,D2F還實現(xiàn)了"預(yù)測未來"的能力。它不需要等前面的文本塊完全寫完,就可以開始處理后面的內(nèi)容。這就像一個經(jīng)驗豐富的作家,即使前面的段落還沒完全定稿,也能根據(jù)已有的思路開始構(gòu)思后續(xù)章節(jié)。這種"超前思維"讓整個文本生成過程變得更加流暢高效。
在訓(xùn)練這種新模型時,研究團隊采用了一種名為"非對稱蒸餾"的技術(shù)。這個過程就像讓一個學(xué)徒向經(jīng)驗豐富的師傅學(xué)習(xí)寫作。師傅能夠縱觀全局,在看到完整文章大綱的情況下寫出每個段落,而學(xué)徒則需要學(xué)會在只看到部分信息的情況下,也能寫出質(zhì)量相當(dāng)?shù)膬?nèi)容。通過這種訓(xùn)練方式,新模型既學(xué)會了老模型的寫作技巧,又具備了在信息不完整時也能高效工作的能力。
為了在實際應(yīng)用中發(fā)揮最大效果,研究團隊還設(shè)計了一套"流水線并行解碼算法"。這個算法就像一條精心設(shè)計的生產(chǎn)線,能夠動態(tài)調(diào)節(jié)工作節(jié)奏。當(dāng)系統(tǒng)檢測到某個文本塊的完成度達到一定標(biāo)準(zhǔn)時,就會自動啟動下一個文本塊的處理流程。同時,系統(tǒng)還會根據(jù)前面塊的完成情況,調(diào)整后續(xù)塊的工作強度——前面的內(nèi)容越完整,后面的塊就能越放心地"加速工作"。
在性能測試中,D2F技術(shù)展現(xiàn)出了令人震撼的效果。在數(shù)學(xué)推理任務(wù)GSM8K上,使用D2F技術(shù)的Dream-Base-7B模型達到了每秒119.9個詞匯的生成速度,比著名的LLaMA3-Instruct-8B模型快了2.5倍,比Qwen2.5-Base-7B模型快了2.3倍。更令人驚喜的是,這種大幅速度提升幾乎沒有犧牲文本質(zhì)量,生成內(nèi)容的準(zhǔn)確性和流暢度與傳統(tǒng)模型相當(dāng)。
與其他加速技術(shù)相比,D2F的優(yōu)勢更加明顯。以LLaDA-Instruct-8B模型為例,在編程任務(wù)MBPP上,D2F技術(shù)實現(xiàn)了52.9倍的速度提升,從原來的每秒0.9個詞匯躍升至47.6個詞匯,而文本質(zhì)量幾乎沒有下降。相比之下,其他加速方法如Fast-dLLM的最好成績也只是17倍的速度提升。
這種顯著的性能差異源于D2F技術(shù)的根本性創(chuàng)新。傳統(tǒng)的加速方法就像給舊汽車換個更強勁的發(fā)動機,雖然能提高一些速度,但車輛的基本結(jié)構(gòu)限制了提升空間。而D2F技術(shù)則相當(dāng)于重新設(shè)計了整個交通系統(tǒng),不僅車輛本身更高效,道路規(guī)劃也更合理,自然能實現(xiàn)質(zhì)的飛躍。
研究團隊還進行了大量的對比實驗來驗證各個技術(shù)組件的貢獻。他們發(fā)現(xiàn),僅僅啟用緩存機制就能帶來顯著的速度提升,比如在GSM8K任務(wù)上能達到2.4倍的加速效果。而加入并行解碼流水線后,速度提升進一步躍升至7.3倍。這證明了D2F技術(shù)各個組件的協(xié)同效應(yīng)——每個部分都很重要,組合在一起產(chǎn)生的效果遠(yuǎn)超簡單相加。
在實際應(yīng)用中,D2F技術(shù)還提供了靈活的調(diào)節(jié)機制。用戶可以根據(jù)具體需求在速度和質(zhì)量之間找到最佳平衡點。如果優(yōu)先追求速度,可以降低某些質(zhì)量閾值來獲得更快的生成速度;如果更看重內(nèi)容質(zhì)量,則可以提高標(biāo)準(zhǔn)來確保輸出文本的準(zhǔn)確性。這種靈活性使得D2F技術(shù)能夠適應(yīng)不同場景的需求。
從技術(shù)發(fā)展的角度來看,D2F代表了AI文本生成領(lǐng)域的一個重要轉(zhuǎn)折點。它成功打破了長期以來"要么快但不準(zhǔn),要么準(zhǔn)但很慢"的技術(shù)瓶頸,實現(xiàn)了速度與質(zhì)量的雙重突破。這種成功不僅僅是技術(shù)參數(shù)的改進,更是思維方式的根本轉(zhuǎn)變——從線性思維轉(zhuǎn)向并行思維,從局部優(yōu)化轉(zhuǎn)向全局協(xié)調(diào)。
對于普通用戶來說,這項技術(shù)的意義非常直觀。未來的AI寫作助手、智能客服、自動翻譯等應(yīng)用都將因此變得更加高效。原本需要等待幾秒鐘才能生成的回復(fù),現(xiàn)在可能只需要不到一秒就能完成。這種體驗改善將讓AI工具變得更加實用,更貼近人們的日常工作節(jié)奏。
當(dāng)然,這項技術(shù)目前還處于研究階段,要真正走向廣泛應(yīng)用還需要時間。研究團隊已經(jīng)開源了相關(guān)代碼,這意味著全世界的開發(fā)者都可以基于這項技術(shù)進行進一步的優(yōu)化和應(yīng)用開發(fā)。隨著更多研究者的加入,我們有理由相信這種技術(shù)會變得更加成熟和實用。
值得一提的是,D2F技術(shù)的成功還為其他AI領(lǐng)域提供了重要啟示。它證明了通過巧妙的架構(gòu)設(shè)計和訓(xùn)練策略,可以在不顯著增加計算成本的情況下大幅提升系統(tǒng)性能。這種思路對于圖像生成、語音處理等其他AI應(yīng)用同樣具有參考價值。
總的來說,上海交通大學(xué)團隊的這項研究不僅解決了一個具體的技術(shù)難題,更重要的是為AI系統(tǒng)優(yōu)化提供了一種全新的思路。在AI技術(shù)日益成為生產(chǎn)力工具的今天,這樣的突破具有重要的現(xiàn)實意義。它讓我們看到,通過持續(xù)的技術(shù)創(chuàng)新,AI系統(tǒng)的性能邊界還在不斷擴展,未來的應(yīng)用前景值得期待。
Q&A
Q1:D2F技術(shù)是什么?它是如何提高AI文本生成速度的?
A:D2F(離散擴散強制)是上海交通大學(xué)開發(fā)的一種新型AI文本生成技術(shù)。它通過將文本分成多個小塊,每個塊內(nèi)部可以并行處理,塊與塊之間保持有序關(guān)系,同時能預(yù)測未來內(nèi)容而無需等待前面完全完成,從而實現(xiàn)了比傳統(tǒng)模型快2.5倍的生成速度。
Q2:D2F技術(shù)相比其他AI加速方法有什么優(yōu)勢?
A:D2F技術(shù)的最大優(yōu)勢是實現(xiàn)了真正的"又快又好"。相比其他加速方法只能帶來幾倍到十幾倍的速度提升,D2F可以實現(xiàn)50倍以上的加速,同時幾乎不犧牲文本質(zhì)量。這是因為它從根本上重新設(shè)計了AI的思考方式,而不是簡單地在現(xiàn)有技術(shù)上打補丁。
Q3:普通用戶什么時候能體驗到D2F技術(shù)帶來的改進?
A:目前D2F技術(shù)還處于研究階段,研究團隊已經(jīng)在GitHub上開源了相關(guān)代碼,供全球開發(fā)者使用和改進。隨著更多研究者和公司的參與優(yōu)化,預(yù)計未來1-2年內(nèi)就能在各種AI寫作助手、智能客服、自動翻譯等應(yīng)用中看到這項技術(shù)的實際應(yīng)用。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。