這項(xiàng)由韓國科學(xué)技術(shù)院(KAIST)的趙在亨(Jaehyeong Jo)和黃成柱(Sung Ju Hwang)教授共同領(lǐng)導(dǎo)的研究發(fā)表于2025年2月的預(yù)印本論文中,有興趣深入了解的讀者可以通過GitHub代碼庫https://github.com/harryjo97/RDLM訪問相關(guān)資源。黃成柱教授同時(shí)隸屬于DeepAuto.ai公司,這項(xiàng)研究代表了語言生成AI技術(shù)的一個(gè)重要突破。
當(dāng)我們使用ChatGPT或其他AI聊天工具時(shí),這些系統(tǒng)通常采用"自回歸"的方式生成文本——就像一個(gè)作家必須從左到右、一個(gè)字接一個(gè)字地寫作一樣。這種方式雖然有效,但存在明顯局限:無法回過頭修改之前的內(nèi)容,也無法并行處理多個(gè)部分。近年來,研究人員開始探索"擴(kuò)散模型"這種新方法,它最初在圖像生成領(lǐng)域大放異彩,能夠像藝術(shù)家反復(fù)修改畫作一樣逐步完善生成結(jié)果。
傳統(tǒng)的擴(kuò)散模型在處理文字時(shí)遇到了一個(gè)根本問題。文字是離散的符號——要么是"貓",要么是"狗",中間沒有過渡狀態(tài)。而擴(kuò)散模型的核心優(yōu)勢在于能夠在連續(xù)的空間中進(jìn)行精細(xì)調(diào)整,就像調(diào)色師能在紅色和藍(lán)色之間找到無數(shù)種紫色的變化。當(dāng)這種連續(xù)性遇上文字的離散性時(shí),就產(chǎn)生了矛盾。
現(xiàn)有的離散擴(kuò)散模型試圖直接在文字符號之間進(jìn)行"跳躍",但這種跳躍一旦發(fā)生就無法撤回,限制了模型的表現(xiàn)。而之前的連續(xù)擴(kuò)散方法雖然試圖解決這個(gè)問題,但效果并不理想,遠(yuǎn)不如傳統(tǒng)的自回歸模型或離散擴(kuò)散模型。這就像試圖用水彩畫的技法來寫毛筆字——工具與任務(wù)不匹配。
KAIST研究團(tuán)隊(duì)提出的"黎曼擴(kuò)散語言模型"(RDLM)巧妙地解決了這個(gè)難題。他們的核心洞察是:雖然文字本身是離散的,但表示這些文字的概率分布卻是連續(xù)的。這就像雖然硬幣的結(jié)果只有正面或反面,但我們可以用連續(xù)的概率值來描述拋出正面的可能性——比如60%的正面概率。
研究團(tuán)隊(duì)將每個(gè)文字標(biāo)記映射到一個(gè)特殊的幾何空間——統(tǒng)計(jì)流形上的超球面。這聽起來很抽象,但可以這樣理解:把所有可能的文字選擇想象成球面上的點(diǎn),每個(gè)點(diǎn)代表一個(gè)詞匯的概率分布。這樣,原本離散的文字跳躍就轉(zhuǎn)化為球面上的平滑移動,就像從地球的一個(gè)城市沿著大圓弧線平滑地移動到另一個(gè)城市。
在這個(gè)框架下,生成文字的過程變成了在球面上的優(yōu)雅"旅行"。模型從一個(gè)表示"不確定狀態(tài)"的起始點(diǎn)開始,逐步向目標(biāo)文字對應(yīng)的點(diǎn)移動。這種移動不是突然的跳躍,而是連續(xù)的、可控的過程,就像GPS導(dǎo)航中的路徑規(guī)劃一樣精確而平滑。
更巧妙的是,研究團(tuán)隊(duì)發(fā)現(xiàn)了離散擴(kuò)散模型和連續(xù)流動之間的深層聯(lián)系。他們證明了傳統(tǒng)離散擴(kuò)散的轉(zhuǎn)移分布實(shí)際上可以用統(tǒng)計(jì)流形上的概率路徑來建模。這個(gè)發(fā)現(xiàn)就像發(fā)現(xiàn)了兩種看似不同的語言實(shí)際上有共同的語法結(jié)構(gòu),為統(tǒng)一這兩種方法提供了理論基礎(chǔ)。
為了讓這個(gè)方法在實(shí)際中可行,研究團(tuán)隊(duì)開發(fā)了一套基于"徑向?qū)ΨQ性"的無仿真訓(xùn)練框架。傳統(tǒng)方法需要通過復(fù)雜的數(shù)值模擬來訓(xùn)練模型,就像要親自走遍每條路才能制作地圖。而新方法利用球面的對稱性質(zhì),可以通過分析投影過程來近似這些復(fù)雜的分布,大大降低了計(jì)算成本,實(shí)現(xiàn)了50倍的訓(xùn)練加速。
針對大詞匯量帶來的高維度挑戰(zhàn),研究團(tuán)隊(duì)引入了"維度分割"技術(shù)。當(dāng)詞匯表過大時(shí),對應(yīng)的幾何空間維度會變得非常高,導(dǎo)致模型難以訓(xùn)練。維度分割將高維空間巧妙地分解為多個(gè)低維空間的組合,就像將一個(gè)復(fù)雜的立體拼圖分解為多個(gè)簡單的平面拼圖,每個(gè)都更容易處理。
在實(shí)際應(yīng)用中,RDLM展現(xiàn)了強(qiáng)大的性能。在Text8字符級語言建模任務(wù)中,該模型達(dá)到了1.32的比特每字符(BPC)分?jǐn)?shù),超越了所有現(xiàn)有的擴(kuò)散模型,甚至接近了最先進(jìn)的自回歸模型的性能。在更具挑戰(zhàn)性的One Billion Words數(shù)據(jù)集上,RDLM實(shí)現(xiàn)了29.72的困惑度分?jǐn)?shù),顯著優(yōu)于之前的連續(xù)擴(kuò)散方法。
研究團(tuán)隊(duì)還將這個(gè)框架擴(kuò)展到了其他領(lǐng)域。在像素級圖像建模中,RDLM在CIFAR-10數(shù)據(jù)集上達(dá)到了2.74的比特每維度分?jǐn)?shù),超越了離散擴(kuò)散模型和自回歸模型。在生物序列設(shè)計(jì)任務(wù)中,該模型在DNA啟動子序列生成中實(shí)現(xiàn)了0.027的最低均方誤差,展現(xiàn)了跨領(lǐng)域的適用性。
特別值得注意的是,RDLM支持混合路徑技術(shù)。研究團(tuán)隊(duì)發(fā)現(xiàn),遮掩擴(kuò)散(從遮掩狀態(tài)開始)和均勻擴(kuò)散(從均勻分布開始)各有優(yōu)勢:前者在后期階段表現(xiàn)更好,后者在早期階段更優(yōu)。通過智能地混合這兩種路徑,模型能夠在整個(gè)生成過程中保持最佳性能,就像一個(gè)經(jīng)驗(yàn)豐富的廚師知道何時(shí)使用不同的烹飪技法。
從技術(shù)實(shí)現(xiàn)角度看,RDLM使用了基于交叉熵的訓(xùn)練目標(biāo),這比傳統(tǒng)的均方誤差方法收斂更快,性能更好。研究團(tuán)隊(duì)還引入了重要性采樣技術(shù),讓模型在訓(xùn)練過程中更關(guān)注那些困難的時(shí)間點(diǎn),提高了整體效果。
這項(xiàng)研究的意義不僅在于技術(shù)突破,更在于為語言生成AI的發(fā)展開辟了新方向。傳統(tǒng)自回歸模型的串行生成方式限制了并行化處理的可能性,而RDLM的并行生成特性為更快、更靈活的文本生成鋪平了道路。同時(shí),連續(xù)空間的特性也為可控文本生成提供了新的可能性——用戶可能能夠更精細(xì)地調(diào)節(jié)生成內(nèi)容的風(fēng)格和特征。
當(dāng)然,這項(xiàng)研究也面臨一些挑戰(zhàn)。高維度空間的處理仍然是一個(gè)技術(shù)難題,盡管維度分割提供了解決方案,但在超大詞匯量的實(shí)際應(yīng)用中仍需要進(jìn)一步優(yōu)化。另外,雖然理論框架很優(yōu)雅,但在實(shí)際部署中的計(jì)算效率和資源消耗還需要更多驗(yàn)證。
展望未來,RDLM為多個(gè)研究方向提供了基礎(chǔ)。研究團(tuán)隊(duì)建議可以探索將該框架擴(kuò)展到圖生成、分子合成等其他離散數(shù)據(jù)領(lǐng)域。同時(shí),通過控制噪聲調(diào)度,可能實(shí)現(xiàn)類似自回歸的有序生成模式,結(jié)合兩種方法的優(yōu)勢。
總的來說,這項(xiàng)研究代表了語言生成AI領(lǐng)域的一個(gè)重要進(jìn)展。通過巧妙地結(jié)合幾何學(xué)、概率論和深度學(xué)習(xí),KAIST研究團(tuán)隊(duì)不僅解決了離散數(shù)據(jù)連續(xù)建模的技術(shù)難題,還為未來的AI文本生成技術(shù)提供了新的理論基礎(chǔ)和實(shí)用方法。對于普通用戶而言,這意味著未來的AI寫作助手可能會變得更快、更靈活,能夠更好地理解和響應(yīng)復(fù)雜的創(chuàng)作需求。
Q&A
Q1:什么是黎曼擴(kuò)散語言模型?它與傳統(tǒng)AI寫作工具有什么不同?
A:黎曼擴(kuò)散語言模型(RDLM)是KAIST開發(fā)的一種新型AI文本生成技術(shù)。與傳統(tǒng)AI工具逐字生成文本不同,RDLM將文字映射到幾何空間中,通過連續(xù)的、可控的"路徑規(guī)劃"來生成文本,就像在球面上平滑移動而不是跳躍。這使得它能夠并行處理多個(gè)部分,生成質(zhì)量更高,速度也更快。
Q2:RDLM的維度分割技術(shù)解決了什么問題?
A:當(dāng)詞匯表很大時(shí),對應(yīng)的幾何空間維度會變得極高,導(dǎo)致模型訓(xùn)練困難。維度分割技術(shù)將高維空間分解為多個(gè)低維空間的組合,就像把復(fù)雜的立體拼圖分解為多個(gè)簡單的平面拼圖。這樣每個(gè)部分都更容易處理,大大提高了模型在大詞匯量任務(wù)中的表現(xiàn)。
Q3:普通用戶什么時(shí)候能用上這種技術(shù)?
A:目前RDLM還處于研究階段,代碼已在GitHub開源供研究人員使用。要成為普通用戶可以直接使用的產(chǎn)品,還需要進(jìn)一步優(yōu)化計(jì)算效率和用戶界面開發(fā)。不過考慮到其在多個(gè)測試中的優(yōu)異表現(xiàn),預(yù)計(jì)未來2-3年內(nèi)可能會集成到商業(yè)AI寫作工具中。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。