這項由浙江大學(xué)王文、方博真等研究者領(lǐng)導(dǎo),聯(lián)合螞蟻集團(tuán)、浙江工業(yè)大學(xué)和斯坦福大學(xué)共同完成的研究發(fā)表于2025年1月,論文題目為《Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models》。有興趣深入了解的讀者可以通過項目網(wǎng)頁https://aim-uofa.github.io/dLLM-MidTruth訪問完整研究。
在人工智能寫作領(lǐng)域,一個令人驚訝的現(xiàn)象被發(fā)現(xiàn)了:就像一個學(xué)生在考試時,草稿紙上的答案可能比最終交上去的答案更正確。研究團(tuán)隊在分析最新的擴(kuò)散語言模型時發(fā)現(xiàn),這些AI系統(tǒng)在生成文本的中間步驟往往產(chǎn)生正確答案,但在最終輸出時卻被錯誤答案覆蓋了。
這種現(xiàn)象被研究者命名為"時間振蕩"。就好比一個廚師在烹飪過程中,中途嘗味道時調(diào)料搭配剛好,但繼續(xù)調(diào)味后反而變得不好吃了。在數(shù)學(xué)問題求解中,研究團(tuán)隊發(fā)現(xiàn)AI模型在中間步驟給出正確答案"25",但到了最后一步卻改成了錯誤的"2"。
為了解決這個問題,研究團(tuán)隊提出了兩種巧妙的解決方案。第一種方法叫做"時間自一致性投票",就像讓所有中間步驟的答案進(jìn)行民主投票,選出出現(xiàn)最多次的答案作為最終結(jié)果。這種方法不需要額外的計算成本,就像在現(xiàn)有的烹飪過程中增加了品嘗環(huán)節(jié)。
第二種方法更加深入,叫做"時間一致性強化"。研究團(tuán)隊發(fā)明了一個新的評估標(biāo)準(zhǔn)——"時間語義熵",用來衡量AI在生成過程中答案的穩(wěn)定性。如果把AI的思考過程比作一條河流,那么這個指標(biāo)就是用來測量河水是平靜流淌還是波濤洶涌的工具。
**一、發(fā)現(xiàn)意外的"時間振蕩"現(xiàn)象**
研究團(tuán)隊在測試兩個主要的擴(kuò)散語言模型LLaDA-8B-Instruct和LLaDA-1.5時,意外發(fā)現(xiàn)了一個違背常理的現(xiàn)象。他們選擇了四個經(jīng)典的數(shù)學(xué)推理數(shù)據(jù)集進(jìn)行測試:GSM8K包含小學(xué)數(shù)學(xué)應(yīng)用題,MATH500是高中競賽數(shù)學(xué)題,SVAMP是基礎(chǔ)數(shù)學(xué)文字題,而Countdown則是數(shù)字組合游戲。
測試結(jié)果讓人大跌眼鏡。以GSM8K數(shù)據(jù)集為例,AI模型最終答案的準(zhǔn)確率只有68.5%,但如果考察整個生成過程中是否曾經(jīng)出現(xiàn)過正確答案,準(zhǔn)確率竟然高達(dá)80.5%。這意味著有12%的問題,AI實際上知道正確答案,只是在最后關(guān)頭改錯了。
這種現(xiàn)象就像一個象棋高手在比賽中,中盤時找到了獲勝的走法,但在后面的步驟中卻走錯了棋而敗北。研究團(tuán)隊通過大量案例分析發(fā)現(xiàn),這種"聰明反被聰明誤"的情況在所有測試的數(shù)學(xué)問題中都普遍存在。
在一個典型的例子中,AI需要計算植物問題:有100株植物,四分之一是室內(nèi)植物,剩余的三分之二是室外植物,其余是開花植物,問開花植物占總數(shù)的百分之幾。在第55步時,AI正確計算出答案是25%,但到了第64步,最終答案卻變成了錯誤的2%。
這種現(xiàn)象的發(fā)現(xiàn)徹底顛覆了人們對AI推理過程的認(rèn)知。傳統(tǒng)觀念認(rèn)為,AI模型經(jīng)過更多輪次的優(yōu)化后會給出更準(zhǔn)確的答案,但現(xiàn)實卻是中間過程的智慧被后續(xù)步驟的"愚蠢"所掩蓋。
**二、深入分析背后的數(shù)學(xué)原理**
為了理解這個奇怪現(xiàn)象的本質(zhì),研究團(tuán)隊從多個角度進(jìn)行了深入分析。他們首先觀察了準(zhǔn)確率在整個生成過程中的變化趨勢,發(fā)現(xiàn)不同復(fù)雜程度的任務(wù)表現(xiàn)出截然不同的模式。
對于相對簡單的任務(wù)如SVAMP,AI在早期步驟就能達(dá)到較高準(zhǔn)確率,后續(xù)過程更多是在已有正確答案基礎(chǔ)上進(jìn)行微調(diào)。但對于復(fù)雜任務(wù)如Countdown,AI在初期準(zhǔn)確率很低,需要通過多輪迭代才能逐步接近正確答案,然而這個"接近"過程往往過頭了,導(dǎo)致最終偏離正確軌道。
研究團(tuán)隊還分析了生成過程中的熵值變化。熵值就像測量系統(tǒng)混亂程度的溫度計,數(shù)值越高表示AI越不確定。他們發(fā)現(xiàn),在整個生成過程中,AI的不確定性總體上是遞減的,但那些最終答錯的問題往往在中間過程顯示出更高的不確定性波動。
更有趣的是,研究者將問題分為三類來分析:最終答對的問題、中間答對但最終答錯的問題,以及始終答錯的問題。結(jié)果顯示,中間答對但最終答錯的問題在早期顯示出相對較低的不確定性,這表明AI確實在某個時點"知道"了正確答案,但后續(xù)的"多此一舉"破壞了這個正確狀態(tài)。
**三、創(chuàng)新的"時間語義熵"評估體系**
基于對時間振蕩現(xiàn)象的深度理解,研究團(tuán)隊提出了一個全新的評估概念——時間語義熵(TSE)。這個概念的核心思想是測量AI在整個生成過程中答案含義的穩(wěn)定性,而不僅僅關(guān)注最終結(jié)果。
時間語義熵的計算過程可以用整理書架的例子來理解。假設(shè)你要整理一個書架,每次重新擺放后都會產(chǎn)生一個新的排列方案。如果你每次擺放的結(jié)果都很相似,那么你的"整理熵"就很低,說明你有明確的目標(biāo)。但如果每次擺放結(jié)果都大不相同,那么熵值就很高,說明你對最終目標(biāo)并不明確。
具體計算時,研究團(tuán)隊首先收集AI在所有中間步驟產(chǎn)生的答案,然后根據(jù)語義相似性將這些答案分組。同樣意思的答案歸為一類,不同意思的答案分別成組。接著計算這些語義組的分布均勻程度,如果答案含義高度集中,熵值就低;如果含義分散,熵值就高。
實驗結(jié)果驗證了時間語義熵的有效性。在所有測試的數(shù)據(jù)集中,最終答對的問題確實顯示出更低的時間語義熵,這意味著這些問題的答案在整個生成過程中保持了較高的語義一致性。相比之下,答錯的問題往往表現(xiàn)出更高的語義波動,就像一個人在做決定時搖擺不定,最終做出了錯誤選擇。
這個發(fā)現(xiàn)為評估AI系統(tǒng)的可靠性提供了一個全新角度。傳統(tǒng)評估只看最終答案的對錯,但時間語義熵讓我們能夠評估AI思考過程的穩(wěn)定性和可信度,這對于需要高可靠性的應(yīng)用場景具有重要意義。
**四、巧妙的"時間自一致性投票"解決方案**
基于對時間振蕩現(xiàn)象的理解,研究團(tuán)隊提出了第一個解決方案:時間自一致性投票。這個方法的核心思想非常直觀——讓AI在生成過程中的所有中間答案進(jìn)行民主投票,選出得票最多的答案作為最終結(jié)果。
這種方法就像在一個會議中,與其只聽最后一個發(fā)言者的意見,不如綜合考慮所有與會者的觀點,通過投票找出大家最認(rèn)同的方案。在AI生成文本的過程中,每個中間步驟都相當(dāng)于一個"專家意見",雖然單獨看可能有誤,但集體智慧往往更可靠。
為了讓這個投票過程更科學(xué),研究團(tuán)隊還設(shè)計了不同的權(quán)重分配策略。第一種是平等投票,每個中間步驟的意見權(quán)重相同。第二種是線性加權(quán),越接近最終步驟的答案權(quán)重越高,體現(xiàn)了"越想越準(zhǔn)確"的傳統(tǒng)觀念。第三種是指數(shù)加權(quán),同樣給后期步驟更高權(quán)重,但變化更平滑。
實驗結(jié)果顯示,指數(shù)加權(quán)策略效果最佳。這種策略既承認(rèn)了后期步驟可能更成熟的判斷,又不完全忽視早期步驟的智慧,在平衡中找到了最優(yōu)解。以LLaDA-8B-Instruct模型為例,使用指數(shù)加權(quán)的時間自一致性投票后,GSM8K數(shù)據(jù)集的準(zhǔn)確率從68.5%提升到70.1%,MATH500從27.4%提升到28.4%。
這種方法的最大優(yōu)勢是幾乎沒有額外的計算成本。就像在現(xiàn)有的烹飪過程中增加品嘗環(huán)節(jié)一樣,不需要重新開始,只是更好地利用了已有的信息。這對于實際應(yīng)用具有重要意義,因為它可以直接集成到現(xiàn)有的AI系統(tǒng)中,立即提升性能而無需重新訓(xùn)練模型。
**五、深層次的"時間一致性強化"訓(xùn)練方法**
除了在推理階段的投票方法,研究團(tuán)隊還提出了一個更深層次的解決方案:時間一致性強化訓(xùn)練。這個方法的核心是在AI的學(xué)習(xí)過程中就教會它保持答案的時間一致性,而不是事后補救。
這種訓(xùn)練方法使用了前面提到的時間語義熵作為獎勵信號。在強化學(xué)習(xí)的框架下,AI每次生成文本時都會根據(jù)答案的時間穩(wěn)定性獲得相應(yīng)的獎勵或懲罰。如果AI在生成過程中保持了語義一致性(低時間語義熵),就會得到正面反饋;如果答案搖擺不定(高時間語義熵),就會收到負(fù)面信號。
這個過程就像訓(xùn)練一個學(xué)生養(yǎng)成深思熟慮的習(xí)慣。不是單純地獎勵正確答案,而是獎勵思維過程的一致性和穩(wěn)定性。通過這種訓(xùn)練,AI學(xué)會了在推理過程中保持更高的內(nèi)在一致性,避免了"朝令夕改"的問題。
更令人驚喜的是,這種方法甚至不需要正確答案作為監(jiān)督信號。傳統(tǒng)的AI訓(xùn)練需要大量標(biāo)注好的正確答案來指導(dǎo)學(xué)習(xí),但時間一致性強化只需要AI自己生成的中間過程就能進(jìn)行自我改進(jìn)。這就像一個學(xué)生通過反思自己的思維過程來提升邏輯能力,無需老師提供標(biāo)準(zhǔn)答案。
實驗結(jié)果證明了這種方法的威力。僅使用時間語義熵作為獎勵信號,在Countdown數(shù)據(jù)集上就實現(xiàn)了24.7%的平均性能提升。當(dāng)將時間語義熵與傳統(tǒng)的準(zhǔn)確性獎勵結(jié)合使用時,效果更加顯著:GSM8K提升2.0%,MATH500提升4.3%,SVAMP提升6.6%,Countdown更是達(dá)到了25.3%的驚人提升。
**六、實驗驗證與實際效果**
為了全面驗證提出方法的有效性,研究團(tuán)隊進(jìn)行了大規(guī)模的實驗驗證。他們不僅測試了不同的數(shù)據(jù)集,還考察了不同文本長度、不同模型架構(gòu)的表現(xiàn),確保方法的普適性和魯棒性。
在時間自一致性投票的實驗中,研究團(tuán)隊發(fā)現(xiàn)權(quán)重函數(shù)的選擇對結(jié)果有重要影響。他們測試了不同的指數(shù)衰減參數(shù),發(fā)現(xiàn)當(dāng)參數(shù)設(shè)為5時效果最佳,這個參數(shù)在各個數(shù)據(jù)集上都能取得平均1.5%的性能提升。這個發(fā)現(xiàn)為方法的實際應(yīng)用提供了重要的參數(shù)配置指導(dǎo)。
在時間一致性強化訓(xùn)練的實驗中,研究團(tuán)隊還分析了訓(xùn)練后模型的行為變化。他們發(fā)現(xiàn),經(jīng)過強化訓(xùn)練的模型確實表現(xiàn)出更低的時間語義熵,證明訓(xùn)練目標(biāo)得到了有效實現(xiàn)。同時,模型生成的文本長度有所減少,研究者推測這可能是因為更簡潔的回答更不容易出現(xiàn)內(nèi)在矛盾。
特別值得注意的是,即使在經(jīng)過時間一致性強化訓(xùn)練之后,時間自一致性投票仍然能夠帶來額外的性能提升。這表明兩種方法是互補的,可以疊加使用來獲得更好的效果。這就像一個學(xué)生既要培養(yǎng)良好的思維習(xí)慣,同時在考試時也要運用檢查技巧來避免失誤。
**七、方法的局限性與適用范圍**
盡管取得了顯著成果,研究團(tuán)隊也誠實地指出了方法的局限性。這些方法的有效性在很大程度上依賴于AI模型本身具有一定的基礎(chǔ)能力。如果模型在整個生成過程中都很少產(chǎn)生正確答案,那么無論如何投票或強化訓(xùn)練都難以產(chǎn)生好的效果。
研究團(tuán)隊用數(shù)獨游戲作為反例進(jìn)行了測試。在數(shù)獨任務(wù)中,模型在所有中間步驟的平均準(zhǔn)確率都低于5%,這種情況下時間自一致性投票反而會降低性能,因為投票池中幾乎都是錯誤答案。這個發(fā)現(xiàn)提醒我們,方法的適用性是有邊界的,不能盲目應(yīng)用到所有場景。
另一個局限是計算資源的考慮。雖然時間自一致性投票幾乎沒有額外計算成本,但時間一致性強化訓(xùn)練需要重新訓(xùn)練模型,這在某些資源受限的環(huán)境下可能不太現(xiàn)實。研究團(tuán)隊建議在不同場景下選擇合適的方法組合。
此外,研究主要集中在數(shù)學(xué)推理任務(wù)上,對于其他類型的任務(wù)如創(chuàng)意寫作、對話生成等,方法的效果還需要進(jìn)一步驗證。不同任務(wù)對答案一致性的要求可能不同,創(chuàng)意任務(wù)甚至可能需要一定程度的"不一致性"來保持新穎性和多樣性。
**八、對AI發(fā)展的深遠(yuǎn)意義**
這項研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)改進(jìn)本身,它為我們理解AI系統(tǒng)的工作機制提供了全新視角。傳統(tǒng)上,我們更多關(guān)注AI的最終輸出,但這項研究表明,AI的中間過程蘊含著豐富的信息,這些信息如果被充分利用,能夠顯著提升系統(tǒng)性能。
從更廣闊的角度看,這項研究提出了"時間即特征"的重要理念。在AI系統(tǒng)中,時間不僅僅是計算的維度,更是信息和智慧的載體。這種理念可能會影響未來AI系統(tǒng)的設(shè)計思路,促使研究者更多地關(guān)注動態(tài)過程而非靜態(tài)結(jié)果。
對于AI安全和可靠性領(lǐng)域,時間語義熵提供了一個新的評估工具。通過監(jiān)測AI系統(tǒng)在推理過程中的一致性,我們能夠更好地判斷其輸出的可信度,這對于醫(yī)療診斷、法律分析等高風(fēng)險應(yīng)用場景具有重要價值。
這項研究也為AI系統(tǒng)的可解釋性提供了新思路。通過分析AI在不同時間步驟的輸出變化,我們能夠更好地理解其"思維過程",這有助于提升AI系統(tǒng)的透明度和用戶信任度。
說到底,這項研究揭示了一個看似違反直覺但實際上很有道理的現(xiàn)象:有時候,我們的第一直覺或中間想法可能比經(jīng)過反復(fù)思考后的最終結(jié)論更準(zhǔn)確。這不僅適用于AI系統(tǒng),在人類決策中也經(jīng)常出現(xiàn)。研究團(tuán)隊的貢獻(xiàn)在于不僅發(fā)現(xiàn)了這個現(xiàn)象,還提供了有效利用這一特性的具體方法。
歸根結(jié)底,這項研究為我們展示了AI系統(tǒng)的一個新維度——時間維度的智慧。通過深入挖掘和有效利用AI生成過程中的時間信息,我們不僅能夠提升當(dāng)前系統(tǒng)的性能,更重要的是為未來開發(fā)更智能、更可靠的AI系統(tǒng)指明了方向。對于任何關(guān)注AI技術(shù)發(fā)展的人來說,這都是一個值得深入思考的研究成果。
Q&A
Q1:什么是時間振蕩現(xiàn)象?為什么會出現(xiàn)這種情況?
A:時間振蕩是指AI在生成文本過程中,中間步驟的答案比最終答案更準(zhǔn)確的現(xiàn)象。就像學(xué)生考試時草稿紙上的答案對了,但最終交卷時卻改錯了。這是因為AI在迭代生成過程中,后續(xù)步驟的"優(yōu)化"有時會破壞前面已經(jīng)正確的結(jié)果。
Q2:時間自一致性投票方法是如何工作的?
A:這種方法讓AI生成過程中的所有中間答案進(jìn)行投票,選出出現(xiàn)次數(shù)最多的答案作為最終結(jié)果。采用指數(shù)加權(quán)策略,給后期步驟更高權(quán)重,既不完全忽視早期智慧,又承認(rèn)后期判斷可能更成熟。這種方法幾乎沒有額外計算成本,可以直接應(yīng)用到現(xiàn)有系統(tǒng)。
Q3:時間語義熵是什么?它如何幫助改善AI性能?
A:時間語義熵是衡量AI在生成過程中答案語義穩(wěn)定性的新指標(biāo)。如果AI的答案在整個過程中含義一致,熵值就低;如果含義搖擺不定,熵值就高。通過將低熵作為獎勵信號訓(xùn)練AI,可以教會它保持推理過程的一致性,避免"朝令夕改"的問題。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。