這項(xiàng)由香港理工大學(xué)李鵬祥、達(dá)特茅斯學(xué)院周葉凡、薩里大學(xué)殷璐等多位研究者組成的國(guó)際團(tuán)隊(duì)完成的研究,發(fā)表于2025年8月27日的arXiv預(yù)印本平臺(tái)。有興趣深入了解的讀者可以通過(guò)論文編號(hào)arXiv:2508.19982v1訪問(wèn)完整論文,同時(shí)研究代碼已在GitHub平臺(tái)公開(kāi)發(fā)布。
人工智能文本生成技術(shù)正在經(jīng)歷一場(chǎng)變革。過(guò)去我們熟悉的AI聊天機(jī)器人,就像是一個(gè)一字一句慢慢說(shuō)話的人,必須等前面的字說(shuō)完才能說(shuō)下一個(gè)字。但現(xiàn)在有一種新技術(shù)叫做擴(kuò)散語(yǔ)言模型,它能夠同時(shí)處理多個(gè)位置的文字,就像一個(gè)能同時(shí)在黑板上多個(gè)位置寫(xiě)字的老師。然而,這種看似更先進(jìn)的技術(shù)卻面臨著一個(gè)意外的問(wèn)題:雖然理論上應(yīng)該更快,但實(shí)際使用時(shí)反而比傳統(tǒng)方法慢了許多。
研究團(tuán)隊(duì)在深入分析這個(gè)問(wèn)題時(shí),發(fā)現(xiàn)了一個(gè)令人驚訝的現(xiàn)象:這些擴(kuò)散語(yǔ)言模型其實(shí)早就"知道"正確答案了,只是它們一直在做無(wú)用功。就好比一個(gè)學(xué)生在考試時(shí),其實(shí)在答題過(guò)程中途就已經(jīng)想到了正確答案,但還是要把整張?jiān)嚲砣刻钔瓴沤痪?。研究人員發(fā)現(xiàn),在GSM8K數(shù)學(xué)問(wèn)題數(shù)據(jù)集上,高達(dá)97%的問(wèn)題其實(shí)在推理過(guò)程進(jìn)行到一半時(shí)就已經(jīng)得出了正確答案。在MMLU綜合能力測(cè)試中,這個(gè)比例更是達(dá)到了驚人的99%。
基于這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為"Prophet"的新方法。這個(gè)方法就像給AI裝上了一個(gè)智能的"提前交卷"系統(tǒng)。它會(huì)實(shí)時(shí)監(jiān)控AI在生成文本過(guò)程中的信心程度,一旦發(fā)現(xiàn)答案已經(jīng)足夠穩(wěn)定可靠,就會(huì)果斷停止繼續(xù)推理,直接輸出最終結(jié)果。這樣做的效果非常顯著:在保持答案質(zhì)量幾乎不變的情況下,推理速度提升了多達(dá)3.4倍。
一、擴(kuò)散語(yǔ)言模型的工作原理:像拼圖游戲一樣的文本生成
要理解這項(xiàng)研究的意義,我們首先需要了解擴(kuò)散語(yǔ)言模型是如何工作的。傳統(tǒng)的AI文本生成就像寫(xiě)作文一樣,必須從第一個(gè)字開(kāi)始,一個(gè)字接一個(gè)字地往下寫(xiě)。而擴(kuò)散語(yǔ)言模型的工作方式更像是在玩一個(gè)特殊的拼圖游戲。
在這個(gè)"拼圖游戲"中,AI開(kāi)始時(shí)看到的是一個(gè)布滿遮罩標(biāo)記的句子,就像一個(gè)填字游戲的模板。然后它開(kāi)始逐步揭開(kāi)這些遮罩,填入合適的詞語(yǔ)。但與傳統(tǒng)方法不同的是,它可以同時(shí)在多個(gè)位置工作,就像有多只手同時(shí)在不同位置拼裝拼圖塊。
這個(gè)過(guò)程分為兩個(gè)關(guān)鍵步驟,不斷循環(huán)進(jìn)行。第一步是"預(yù)測(cè)步驟",AI會(huì)根據(jù)當(dāng)前看到的部分信息,猜測(cè)那些被遮罩位置應(yīng)該填什么詞。第二步是"重新遮罩步驟",AI會(huì)根據(jù)自己的信心程度,選擇保留一些已經(jīng)確定的詞,同時(shí)重新遮罩一些不太確定的位置,為下一輪預(yù)測(cè)做準(zhǔn)備。
這種工作方式理論上應(yīng)該比傳統(tǒng)的逐字生成更高效,因?yàn)樗懿⑿刑幚矶鄠€(gè)位置。然而在實(shí)際應(yīng)用中,擴(kuò)散語(yǔ)言模型卻面臨著效率問(wèn)題。由于需要雙向關(guān)注所有位置的信息,無(wú)法使用傳統(tǒng)的緩存優(yōu)化技術(shù),加上需要多輪迭代才能得到高質(zhì)量結(jié)果,實(shí)際推理速度反而變慢了。
二、意外發(fā)現(xiàn):AI其實(shí)早就知道答案
研究團(tuán)隊(duì)在分析擴(kuò)散語(yǔ)言模型的工作過(guò)程時(shí),意外發(fā)現(xiàn)了一個(gè)有趣現(xiàn)象。他們仔細(xì)觀察了模型在解決數(shù)學(xué)問(wèn)題時(shí)每一步的推理過(guò)程,發(fā)現(xiàn)了一個(gè)類(lèi)似"未卜先知"的能力:在很多情況下,正確答案早在推理過(guò)程的中途就已經(jīng)出現(xiàn)了,但模型卻繼續(xù)進(jìn)行著看似不必要的精細(xì)化步驟。
研究團(tuán)隊(duì)選擇了兩個(gè)具有代表性的測(cè)試數(shù)據(jù)集進(jìn)行深入分析。GSM8K是一個(gè)包含小學(xué)數(shù)學(xué)應(yīng)用題的數(shù)據(jù)集,而MMLU則是一個(gè)涵蓋多個(gè)學(xué)科知識(shí)的綜合性測(cè)試。他們使用LLaDA-8B模型進(jìn)行實(shí)驗(yàn),跟蹤每個(gè)推理步驟中最有可能被選擇的詞匯,觀察這些詞匯何時(shí)開(kāi)始與最終的正確答案匹配。
結(jié)果令人震驚。在使用"低置信度重遮罩"策略時(shí),即使不使用任何特殊的提示詞,仍然有24.2%的樣本在推理過(guò)程進(jìn)行到一半時(shí)就已經(jīng)得出了正確答案,7.9%的樣本甚至在前四分之一的推理步驟中就找到了答案。當(dāng)研究團(tuán)隊(duì)在問(wèn)題末尾添加"Answer:"這樣的提示詞后,效果更加顯著:一半推理步驟內(nèi)正確的樣本比例躍升至75.8%,四分之一步驟內(nèi)正確的比例達(dá)到59.7%。
更令人驚訝的是,當(dāng)使用"隨機(jī)重遮罩"策略時(shí),早期收斂的現(xiàn)象變得更加明顯。在不使用提示詞的情況下,97.2%的樣本在一半推理步驟內(nèi)就能得出正確答案,88.5%的樣本在四分之一步驟內(nèi)就已經(jīng)正確。加上提示詞后,這些數(shù)字分別提升到97.3%和94.6%。
研究團(tuán)隊(duì)還仔細(xì)觀察了推理過(guò)程中的動(dòng)態(tài)變化。他們發(fā)現(xiàn),對(duì)于需要復(fù)雜推理的數(shù)學(xué)問(wèn)題,雖然推理鏈中的中間步驟會(huì)頻繁變化和調(diào)整,但最終答案部分往往會(huì)在某個(gè)時(shí)刻突然穩(wěn)定下來(lái),并在之后的所有推理步驟中保持不變。這就像是一個(gè)學(xué)生在草稿紙上反復(fù)計(jì)算中間過(guò)程,但心里其實(shí)早就知道最終答案是多少。
三、Prophet方法:智能的"提前交卷"系統(tǒng)
基于這個(gè)重要發(fā)現(xiàn),研究團(tuán)隊(duì)開(kāi)發(fā)了Prophet方法。這個(gè)方法的核心思想非常直觀:既然AI經(jīng)常在推理中途就已經(jīng)找到了正確答案,為什么不讓它提前"交卷"呢?就像一個(gè)聰明的學(xué)生,當(dāng)確信自己的答案正確時(shí),沒(méi)必要繼續(xù)在考場(chǎng)里浪費(fèi)時(shí)間反復(fù)檢查。
Prophet方法的關(guān)鍵在于一個(gè)名為"信心差距"的度量標(biāo)準(zhǔn)。在每一個(gè)推理步驟中,AI都會(huì)為每個(gè)待填入位置的所有可能詞匯分配一個(gè)概率分?jǐn)?shù)。信心差距就是最高分詞匯與第二高分詞匯之間的分?jǐn)?shù)差。當(dāng)這個(gè)差距很大時(shí),說(shuō)明AI對(duì)自己的選擇非常確信;當(dāng)差距較小時(shí),說(shuō)明AI還在兩個(gè)選項(xiàng)之間猶豫不決。
然而,僅僅依靠信心差距還不夠。研究團(tuán)隊(duì)發(fā)現(xiàn),在推理的不同階段,同樣的信心差距代表的可靠程度是不同的。在推理初期,即使差距很大,也可能是因?yàn)樾畔⒉蛔銓?dǎo)致的虛假信心;而在推理后期,相對(duì)較小的差距也可能代表著可靠的判斷。
為了解決這個(gè)問(wèn)題,Prophet采用了一個(gè)動(dòng)態(tài)調(diào)整的閾值策略。這個(gè)策略將整個(gè)推理過(guò)程分為三個(gè)階段,每個(gè)階段使用不同的信心差距要求。在推理的前三分之一階段,Prophet采用"高度謹(jǐn)慎"模式,要求極高的信心差距才允許提前結(jié)束,這相當(dāng)于要求AI必須"胸有成竹"才能提前交卷。在中間三分之一階段,要求適中的信心差距。而在最后三分之一階段,Prophet變得更加"寬容",只需要相對(duì)較低的信心差距就可以結(jié)束推理。
這種設(shè)計(jì)體現(xiàn)了一種時(shí)變的風(fēng)險(xiǎn)管理策略。早期階段風(fēng)險(xiǎn)較高,因?yàn)檫€有很大的改進(jìn)空間,所以Prophet表現(xiàn)得很保守;隨著推理的深入,繼續(xù)下去的邊際收益遞減,而提前結(jié)束的計(jì)算成本節(jié)約變得更有價(jià)值,所以Prophet逐漸變得更愿意承擔(dān)風(fēng)險(xiǎn)。
Prophet的實(shí)現(xiàn)非常簡(jiǎn)潔高效。它只需要在現(xiàn)有擴(kuò)散語(yǔ)言模型的推理循環(huán)中添加一個(gè)簡(jiǎn)單的檢查步驟,監(jiān)控答案區(qū)域的平均信心差距。一旦滿足當(dāng)前階段的閾值要求,Prophet就會(huì)觸發(fā)"全力沖刺"模式:停止逐步細(xì)化的過(guò)程,直接將所有剩余的遮罩位置一次性填充完整,輸出最終答案。
四、實(shí)驗(yàn)驗(yàn)證:在多個(gè)任務(wù)上的卓越表現(xiàn)
為了驗(yàn)證Prophet方法的有效性,研究團(tuán)隊(duì)在多個(gè)不同類(lèi)型的任務(wù)上進(jìn)行了全面測(cè)試。他們選擇了兩個(gè)具有代表性的擴(kuò)散語(yǔ)言模型:LLaDA-8B和Dream-7B,并設(shè)計(jì)了三種不同的解碼策略進(jìn)行對(duì)比。
第一種是"完整預(yù)算"策略,使用標(biāo)準(zhǔn)的50步擴(kuò)散解碼,這代表了傳統(tǒng)方法的性能上限。第二種是"減半預(yù)算"策略,簡(jiǎn)單粗暴地將解碼步數(shù)減少到25步,這代表了一種樸素的加速基線方法。第三種就是Prophet方法,使用動(dòng)態(tài)閾值調(diào)度進(jìn)行早期提交解碼。
實(shí)驗(yàn)涵蓋了三個(gè)主要能力領(lǐng)域。在通用推理能力測(cè)試中,包括MMLU綜合知識(shí)測(cè)試、ARC-Challenge科學(xué)推理、HellaSwag常識(shí)推理、TruthfulQA事實(shí)準(zhǔn)確性、WinoGrande語(yǔ)言理解和PIQA物理常識(shí)等多個(gè)標(biāo)準(zhǔn)測(cè)試。數(shù)學(xué)和科學(xué)推理能力通過(guò)GSM8K數(shù)學(xué)應(yīng)用題和GPQA研究生水平問(wèn)答進(jìn)行評(píng)估。規(guī)劃能力則通過(guò)Countdown數(shù)字游戲和Sudoku數(shù)獨(dú)puzzle進(jìn)行測(cè)試。
實(shí)驗(yàn)結(jié)果令人印象深刻。在LLaDA-8B模型上,Prophet在MMLU測(cè)試中達(dá)到54.0%的準(zhǔn)確率,與完整預(yù)算方法的54.1%幾乎相等,但推理速度提升了2.34倍。在ARC-Challenge測(cè)試中,Prophet甚至取得了83.5%的準(zhǔn)確率,略高于完整預(yù)算方法的83.2%,同時(shí)獲得1.88倍的速度提升。更有趣的是,在HellaSwag測(cè)試中,Prophet的表現(xiàn)(70.9%)不僅超過(guò)了完整預(yù)算基線(68.7%),也超過(guò)了減半預(yù)算基線(70.5%),這表明適時(shí)停止推理實(shí)際上能夠防止模型在后期步驟中"過(guò)度思考"而破壞已經(jīng)正確的答案。
在數(shù)學(xué)推理任務(wù)上,Prophet繼續(xù)展現(xiàn)出色性能。GSM8K數(shù)學(xué)問(wèn)題上,Prophet獲得76.8%的準(zhǔn)確率,與完整預(yù)算的77.1%非常接近,同時(shí)實(shí)現(xiàn)1.69倍速度提升。在更困難的GPQA測(cè)試中,Prophet的優(yōu)勢(shì)更加明顯:當(dāng)簡(jiǎn)單的減半策略導(dǎo)致性能從25.2%下降到21.2%時(shí),Prophet成功保持了25.7%的高準(zhǔn)確率,證明了其相對(duì)于簡(jiǎn)單截?cái)嗖呗缘娘@著優(yōu)勢(shì)。
Dream-7B模型上的實(shí)驗(yàn)結(jié)果同樣令人鼓舞。在各項(xiàng)測(cè)試中,Prophet都能在保持準(zhǔn)確率的同時(shí)獲得顯著的速度提升,證明了這種方法的普適性。特別值得注意的是,在某些任務(wù)上,Prophet甚至能夠?qū)崿F(xiàn)高達(dá)3.4倍的速度提升,這對(duì)于實(shí)際應(yīng)用具有重要意義。
五、深層機(jī)制分析:為什么會(huì)有早期收斂現(xiàn)象
研究團(tuán)隊(duì)進(jìn)一步探索了早期收斂現(xiàn)象背后的深層機(jī)制。通過(guò)詳細(xì)分析推理過(guò)程中的動(dòng)態(tài)變化模式,他們發(fā)現(xiàn)了一些有趣的規(guī)律。
在數(shù)學(xué)問(wèn)題求解過(guò)程中,擴(kuò)散語(yǔ)言模型展現(xiàn)出一種"分層穩(wěn)定化"的特征。推理鏈中的不同部分以不同的速度趨于穩(wěn)定。通常情況下,問(wèn)題分析和中間計(jì)算步驟會(huì)持續(xù)變化和調(diào)整,就像一個(gè)學(xué)生在草稿紙上反復(fù)修改計(jì)算過(guò)程。但最終的數(shù)值答案往往會(huì)在某個(gè)關(guān)鍵時(shí)刻突然"鎖定",并在之后的所有推理步驟中保持完全一致。
這種現(xiàn)象特別在使用了提示詞的情況下更加明顯。當(dāng)在問(wèn)題末尾添加"Answer:"這樣的標(biāo)記時(shí),模型似乎能更早地識(shí)別出答案區(qū)域,并將注意力集中在最終結(jié)果的確定上。這就像是給學(xué)生明確指出了"請(qǐng)?jiān)谶@里寫(xiě)下最終答案",幫助他們更快地聚焦到關(guān)鍵信息上。
研究團(tuán)隊(duì)還觀察到,不同的重遮罩策略對(duì)早期收斂的影響截然不同。低置信度重遮罩策略傾向于保留那些模型最確信的詞匯,這種保守的策略確保了高質(zhì)量但可能需要更多步驟。而隨機(jī)重遮罩策略在每一步都會(huì)隨機(jī)選擇一部分位置進(jìn)行重新預(yù)測(cè),這種看似"粗暴"的方法實(shí)際上能夠更快地收斂到正確答案。
這個(gè)發(fā)現(xiàn)揭示了擴(kuò)散語(yǔ)言模型工作機(jī)制中的一個(gè)重要特性:它們具有一種內(nèi)在的"答案吸引力"。一旦模型在某個(gè)推理步驟中捕捉到了正確的答案模式,這個(gè)答案就會(huì)在后續(xù)步驟中表現(xiàn)出強(qiáng)烈的穩(wěn)定性。這類(lèi)似于物理學(xué)中的"吸引子"概念,系統(tǒng)一旦進(jìn)入某個(gè)穩(wěn)定狀態(tài),就會(huì)自然地保持在那里。
六、技術(shù)實(shí)現(xiàn)細(xì)節(jié):簡(jiǎn)潔而高效的算法設(shè)計(jì)
Prophet方法的一大優(yōu)勢(shì)在于其實(shí)現(xiàn)的簡(jiǎn)潔性和通用性。整個(gè)算法可以作為一個(gè)輕量級(jí)的"包裝器",無(wú)縫集成到現(xiàn)有的擴(kuò)散語(yǔ)言模型推理流程中,無(wú)需任何模型重訓(xùn)練或架構(gòu)修改。
算法的核心循環(huán)非常直觀。在標(biāo)準(zhǔn)的擴(kuò)散解碼過(guò)程中,每一步都包括兩個(gè)階段:首先計(jì)算當(dāng)前狀態(tài)下的詞匯概率分布,然后根據(jù)重遮罩策略決定下一步的操作。Prophet在這個(gè)循環(huán)中插入了一個(gè)輕量級(jí)的檢查步驟:計(jì)算答案區(qū)域的平均信心差距,并與當(dāng)前階段的動(dòng)態(tài)閾值進(jìn)行比較。
信心差距的計(jì)算非常高效。對(duì)于每個(gè)答案位置,算法提取出概率分布中的最高值和次高值,計(jì)算它們的差值。然后對(duì)所有答案位置的差值進(jìn)行平均,得到整體的信心差距指標(biāo)。這個(gè)計(jì)算過(guò)程的時(shí)間復(fù)雜度是線性的,對(duì)整體推理時(shí)間的影響微乎其微。
動(dòng)態(tài)閾值的設(shè)計(jì)體現(xiàn)了算法的智能化。閾值函數(shù)根據(jù)推理進(jìn)度(定義為已完成步數(shù)占總步數(shù)的比例)分為三個(gè)區(qū)間。早期區(qū)間(0-33%進(jìn)度)使用高閾值8.0,中期區(qū)間(33%-67%進(jìn)度)使用中等閾值5.0,后期區(qū)間(67%-100%進(jìn)度)使用低閾值3.0。這種分段式的設(shè)計(jì)既保證了早期的保守性,又允許后期的靈活性。
一旦觸發(fā)早期提交條件,算法會(huì)立即進(jìn)入"全力沖刺"模式。此時(shí),所有剩余的遮罩位置都會(huì)根據(jù)當(dāng)前的概率分布進(jìn)行一次性填充,使用簡(jiǎn)單的argmax操作選擇每個(gè)位置的最高概率詞匯。這個(gè)過(guò)程非常高效,因?yàn)楸苊饬撕罄m(xù)多步迭代的計(jì)算開(kāi)銷(xiāo)。
研究團(tuán)隊(duì)特別強(qiáng)調(diào)了Prophet的模型無(wú)關(guān)性。無(wú)論是LLaDA、Dream還是其他擴(kuò)散語(yǔ)言模型,只要遵循標(biāo)準(zhǔn)的遮罩-預(yù)測(cè)-重遮罩范式,都可以直接應(yīng)用Prophet方法。這種通用性使得Prophet具有很強(qiáng)的實(shí)用價(jià)值,可以作為一個(gè)即插即用的加速工具。
七、與現(xiàn)有加速方法的比較:互補(bǔ)而非競(jìng)爭(zhēng)
研究團(tuán)隊(duì)將Prophet定位為一種與現(xiàn)有加速技術(shù)互補(bǔ)的方法,而非簡(jiǎn)單的替代方案。當(dāng)前的擴(kuò)散語(yǔ)言模型加速研究主要集中在兩個(gè)方向:KV緩存優(yōu)化和采樣方法改進(jìn)。
KV緩存優(yōu)化方法試圖解決擴(kuò)散模型無(wú)法使用傳統(tǒng)緩存機(jī)制的問(wèn)題。這類(lèi)方法通過(guò)觀察到連續(xù)推理步驟間隱藏狀態(tài)的高相似性,實(shí)現(xiàn)近似緩存,或者通過(guò)重構(gòu)推理過(guò)程為半自回歸模式,使部分計(jì)算可以復(fù)用之前的結(jié)果。這些方法主要針對(duì)計(jì)算復(fù)用和內(nèi)存優(yōu)化。
采樣方法改進(jìn)則關(guān)注如何在每個(gè)推理步驟中解碼更多詞匯,通過(guò)動(dòng)態(tài)調(diào)整并行解碼的詞匯數(shù)量或使用統(tǒng)計(jì)度量指導(dǎo)解碼策略,來(lái)減少總的推理輪數(shù)。這些方法主要針對(duì)單步效率的提升。
Prophet與這些方法的根本不同在于,它不是試圖優(yōu)化現(xiàn)有推理過(guò)程的效率,而是智能地決定何時(shí)可以安全地停止推理。這種"何時(shí)停止"的視角為擴(kuò)散語(yǔ)言模型加速開(kāi)辟了一個(gè)全新的方向。更重要的是,Prophet可以與現(xiàn)有的加速技術(shù)疊加使用,實(shí)現(xiàn)更大的整體加速效果。
例如,在使用KV緩存優(yōu)化的基礎(chǔ)上應(yīng)用Prophet,可以同時(shí)獲得計(jì)算復(fù)用和早期停止的雙重收益。在改進(jìn)采樣方法的基礎(chǔ)上應(yīng)用Prophet,可以在提高單步效率的同時(shí)減少總步數(shù)。這種組合使用的潛力使得Prophet成為一個(gè)極具價(jià)值的通用加速工具。
此外,Prophet的訓(xùn)練無(wú)關(guān)性也是其重要優(yōu)勢(shì)。許多現(xiàn)有的加速方法需要額外的訓(xùn)練步驟、模型修改或?qū)iT(mén)的數(shù)據(jù)準(zhǔn)備。而Prophet完全基于推理時(shí)的動(dòng)態(tài)信息做決策,不需要任何預(yù)訓(xùn)練或微調(diào),大大降低了部署成本和技術(shù)門(mén)檻。
八、潛在應(yīng)用與未來(lái)影響
Prophet方法的成功不僅僅是一個(gè)技術(shù)優(yōu)化,更代表了對(duì)擴(kuò)散語(yǔ)言模型內(nèi)在機(jī)制的深刻理解。這種理解為未來(lái)的研究和應(yīng)用開(kāi)辟了多個(gè)有前景的方向。
在實(shí)際應(yīng)用層面,Prophet的即時(shí)可用性使其特別適合部署在資源受限的環(huán)境中。對(duì)于移動(dòng)設(shè)備、邊緣計(jì)算節(jié)點(diǎn)或需要處理大量并發(fā)請(qǐng)求的服務(wù)器,Prophet提供的3倍多速度提升可以顯著改善用戶體驗(yàn)和系統(tǒng)吞吐量。特別是在對(duì)話系統(tǒng)、代碼生成、創(chuàng)意寫(xiě)作等需要快速響應(yīng)的應(yīng)用場(chǎng)景中,這種加速效果具有直接的商業(yè)價(jià)值。
從科研角度看,Prophet揭示的早期收斂現(xiàn)象為理解大語(yǔ)言模型的內(nèi)在工作機(jī)制提供了新的視角。傳統(tǒng)觀點(diǎn)認(rèn)為,更多的推理步驟總是能帶來(lái)更好的結(jié)果,但Prophet的發(fā)現(xiàn)表明,在很多情況下,模型在早期就已經(jīng)"知道"了正確答案,后續(xù)的推理更多是在做無(wú)用功甚至可能引入錯(cuò)誤。這個(gè)發(fā)現(xiàn)可能會(huì)促使研究者重新思考模型訓(xùn)練和推理的優(yōu)化策略。
研究團(tuán)隊(duì)特別提到了與一項(xiàng)并發(fā)工作的有趣對(duì)比。另一個(gè)研究團(tuán)隊(duì)也發(fā)現(xiàn)了早期答案收斂的現(xiàn)象,但他們選擇了通過(guò)平均多個(gè)推理步驟的預(yù)測(cè)結(jié)果來(lái)提高準(zhǔn)確性。而Prophet選擇了相反的路徑:利用這種收斂特性來(lái)減少計(jì)算消耗。這種對(duì)比展現(xiàn)了同一科學(xué)發(fā)現(xiàn)可以帶來(lái)完全不同的技術(shù)路線,也說(shuō)明了這個(gè)領(lǐng)域還有很大的探索空間。
Prophet方法也為擴(kuò)散語(yǔ)言模型的理論研究提供了新的思考角度。傳統(tǒng)的擴(kuò)散過(guò)程被認(rèn)為是一個(gè)逐步去噪的過(guò)程,但Prophet的成功表明,在語(yǔ)言任務(wù)中,這個(gè)過(guò)程可能具有不同于圖像生成的特殊性質(zhì)。語(yǔ)言的離散性和結(jié)構(gòu)化特征可能使得擴(kuò)散過(guò)程在達(dá)到某個(gè)臨界點(diǎn)后就具有了強(qiáng)烈的穩(wěn)定性。
說(shuō)到底,這項(xiàng)研究最令人興奮的地方在于它改變了我們對(duì)AI推理過(guò)程的理解。過(guò)去我們總以為AI需要"深思熟慮"才能給出好答案,但Prophet告訴我們,有時(shí)候AI的"第一直覺(jué)"就是對(duì)的,過(guò)度思考反而可能幫倒忙。這不僅為技術(shù)優(yōu)化指明了方向,也為我們理解智能系統(tǒng)的工作原理提供了新的啟發(fā)。
這個(gè)發(fā)現(xiàn)的影響可能遠(yuǎn)不止于技術(shù)層面。在教育領(lǐng)域,它可能啟發(fā)我們重新思考學(xué)習(xí)和解題的最優(yōu)策略。在決策科學(xué)中,它可能為理解人類(lèi)的直覺(jué)判斷提供新的視角。而在更廣闊的人工智能發(fā)展道路上,Prophet方法代表的"適時(shí)停止"哲學(xué),可能會(huì)成為構(gòu)建更高效、更智能系統(tǒng)的重要原則。歸根結(jié)底,Prophet不僅僅是讓AI跑得更快的工具,更是讓我們更深刻理解智能本質(zhì)的一扇窗戶。
Q&A
Q1:Prophet方法是什么?它是如何讓擴(kuò)散語(yǔ)言模型變快的?
A:Prophet是一種讓AI文本生成提速的智能方法。它的核心思想是監(jiān)控AI在推理過(guò)程中的信心程度,一旦發(fā)現(xiàn)AI對(duì)答案足夠確信,就讓它提前"交卷"而不用完成全部推理步驟。這種方法可以將推理速度提升多達(dá)3.4倍,同時(shí)保持答案質(zhì)量幾乎不變。
Q2:為什么擴(kuò)散語(yǔ)言模型會(huì)出現(xiàn)早期收斂現(xiàn)象?
A:研究發(fā)現(xiàn)擴(kuò)散語(yǔ)言模型具有"答案吸引力"特性。一旦模型在推理過(guò)程中捕捉到正確答案模式,這個(gè)答案就會(huì)表現(xiàn)出強(qiáng)烈的穩(wěn)定性。就像學(xué)生做題時(shí)心里其實(shí)早就知道答案,但還在反復(fù)檢查計(jì)算過(guò)程一樣。在GSM8K和MMLU測(cè)試中,分別有97%和99%的問(wèn)題在推理進(jìn)行到一半時(shí)就已經(jīng)得出正確答案。
Q3:Prophet方法可以應(yīng)用到哪些場(chǎng)景?有什么限制嗎?
A:Prophet適用于所有遵循標(biāo)準(zhǔn)遮罩-預(yù)測(cè)-重遮罩范式的擴(kuò)散語(yǔ)言模型,無(wú)需重新訓(xùn)練即可使用。特別適合對(duì)話系統(tǒng)、代碼生成、數(shù)學(xué)問(wèn)題求解等需要快速響應(yīng)的應(yīng)用。目前主要在LLaDA-8B和Dream-7B等模型上驗(yàn)證過(guò)效果,可以與現(xiàn)有的KV緩存等加速技術(shù)疊加使用。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。