這項由微軟亞洲研究院和臺灣大學(xué)聯(lián)合完成的研究發(fā)表于2025年7月,研究團隊包括蔣程瀚、王小飛、李林杰等多位學(xué)者。這一開創(chuàng)性成果通過論文《STITCH: 同步思考與對話的分塊推理語音模型》向?qū)W界公開,感興趣的讀者可以通過論文編號arXiv:2507.15375獲取完整研究資料,項目演示頁面可訪問https://d223302.github.io/STITCH。
人類在對話時有一個很自然的能力:我們可以一邊說話,一邊在腦海里思考接下來要說什么。比如你在解數(shù)學(xué)題的時候,嘴里可能在說"首先我們需要計算這個值",但大腦已經(jīng)在琢磨后面幾步的計算過程了。然而,現(xiàn)有的AI語音助手卻做不到這一點——它們要么像背書一樣直接回答,要么需要先完整地"想"完整個答案再開口說話,這就像一個人必須把整篇演講稿在心里默念完才能開始講話一樣。
微軟研究團隊注意到了這個問題?,F(xiàn)在的語音大模型雖然能夠聽懂人話并用語音回答,但它們?nèi)鄙偃祟惸欠N內(nèi)在的思考過程。當(dāng)你問它一個復(fù)雜的數(shù)學(xué)題時,它往往會立即給出答案,沒有展現(xiàn)出推理和思考的過程。更糟糕的是,如果讓AI先進行完整的思考再回答,用戶就得等很長時間才能聽到回應(yīng),這在實際對話中是不可接受的。
為了解決這個問題,研究團隊開發(fā)了一個叫做STITCH的新系統(tǒng),這個名字代表"同步思考與對話的分塊推理"。這個系統(tǒng)的巧妙之處在于,它利用了一個簡單但重要的時間差:當(dāng)AI生成一小段語音并播放給用戶聽的時候,播放這段音頻需要的時間(比如2秒)遠比AI生成對應(yīng)文字內(nèi)容的時間(可能只需要0.5秒)要長得多。那么剩下的1.5秒時間里,AI能做什么呢?STITCH的答案是:思考!
這就像一個經(jīng)驗豐富的播音員,當(dāng)他在播報第一條新聞的時候,眼睛已經(jīng)在瀏覽第二條新聞的內(nèi)容,腦子里在組織第三條新聞的語言。STITCH讓AI學(xué)會了類似的多線程處理能力。
一、讓AI學(xué)會分段思考
STITCH系統(tǒng)的核心創(chuàng)新在于將AI的思考過程切分成小塊,就像把一個大蛋糕切成許多小片一樣。傳統(tǒng)的AI要么完全不思考就回答,要么必須把整個思考過程完成后才開始說話。而STITCH采用了第三種方式:思考一小段、說一小段、再思考一小段、再說一小段。
為了更好地理解這個過程,可以把它想象成一個廚師在直播做菜。傳統(tǒng)的AI就像一個廚師要么不準(zhǔn)備就開始做菜(結(jié)果可能一團糟),要么把所有準(zhǔn)備工作都做完才開始直播(觀眾等得不耐煩)。而STITCH就像一個聰明的廚師,一邊做菜一邊介紹,同時腦子里還在想接下來的步驟。
具體來說,當(dāng)用戶提出一個數(shù)學(xué)問題時,STITCH會先進行一小段推理(比如100個思考步驟),然后說出一小段回答,在播放這段回答的過程中,它又開始下一輪的推理。這樣循環(huán)下去,直到完整地回答了用戶的問題。
研究團隊設(shè)計了兩個版本的STITCH。第一個版本叫STITCH-R(R代表推理優(yōu)先),它會先思考一小段再開口說話,所以第一次響應(yīng)會有一點延遲。第二個版本叫STITCH-S(S代表說話優(yōu)先),它會立即開始回答,然后在說話的過程中進行思考,這樣就完全沒有額外的延遲了。
二、技術(shù)實現(xiàn)的巧思
要讓這個系統(tǒng)工作起來,研究團隊需要解決幾個技術(shù)挑戰(zhàn)。首先是如何訓(xùn)練AI學(xué)會這種"邊說邊想"的能力。他們采用了一個很聰明的方法:把原本完整的推理過程打碎,然后重新組合成交替的形式。
比如原本的訓(xùn)練數(shù)據(jù)可能是這樣的:完整推理過程 + 完整回答?,F(xiàn)在他們把它改造成:推理片段1 + 回答片段1 + 推理片段2 + 回答片段2 + 推理片段3 + 回答片段3...
這就像把一本書的章節(jié)重新排列:原來是"思考篇"全部寫完再寫"行動篇",現(xiàn)在改成"思考1 + 行動1 + 思考2 + 行動2..."的形式。AI通過學(xué)習(xí)這種新的模式,掌握了在說話和思考之間切換的能力。
為了確保系統(tǒng)的時間同步,研究團隊還精確計算了各種時間參數(shù)。他們發(fā)現(xiàn),在A100-80G這樣的GPU上,AI每秒能夠生成大約80個詞匯單元。而播放26個語音單元(大約對應(yīng)13個文字詞匯)需要約2秒時間。這意味著在播放語音的2秒內(nèi),AI可以生成160個詞匯單元,減去必需的39個詞匯單元用于下一段話的準(zhǔn)備,還剩余121個詞匯單元的"思考時間"。研究團隊保守地將每次思考設(shè)定為100個詞匯單元,確保系統(tǒng)的穩(wěn)定運行。
三、實驗驗證與效果評估
為了驗證STITCH的效果,研究團隊進行了大量實驗。他們使用了多種數(shù)學(xué)推理數(shù)據(jù)集,包括AddSub、MultiArith、SinglEq、SVAMP和GSM8K,這些都是評估AI數(shù)學(xué)能力的標(biāo)準(zhǔn)測試。結(jié)果顯示,STITCH在數(shù)學(xué)推理任務(wù)上的表現(xiàn)顯著超越了不進行推理的基準(zhǔn)模型。
在最具挑戰(zhàn)性的GSM8K數(shù)學(xué)題目中,STITCH-S的準(zhǔn)確率達到了56.72%,而不進行推理的基準(zhǔn)模型只有35.73%,提升幅度接近60%。這個結(jié)果特別令人鼓舞,因為STITCH-S的響應(yīng)延遲與基準(zhǔn)模型完全相同,也就是說,在不增加任何等待時間的情況下,獲得了顯著的性能提升。
更有趣的是,研究團隊還測試了STITCH在非數(shù)學(xué)任務(wù)上的表現(xiàn),比如知識問答和日常對話。結(jié)果發(fā)現(xiàn),即使在不需要復(fù)雜推理的任務(wù)上,STITCH的表現(xiàn)也與基準(zhǔn)模型相當(dāng),并沒有因為增加了推理過程而變差。這說明這種"邊想邊說"的能力不會干擾AI在簡單任務(wù)上的表現(xiàn)。
研究團隊還進行了一個有趣的實驗:測試STITCH能否在推理過程中調(diào)整思考的"深度"。他們發(fā)現(xiàn),可以在不重新訓(xùn)練模型的情況下,調(diào)整每次思考的詞匯數(shù)量(從60到100個詞匯單元)。當(dāng)思考時間減少時,性能會有所下降,但仍然比完全不思考的模型要好很多。這種靈活性對實際應(yīng)用很有價值,因為不同的硬件條件可能需要不同的配置。
四、質(zhì)量評估與用戶體驗
除了客觀的準(zhǔn)確率測試,研究團隊還評估了STITCH生成語音的質(zhì)量。他們使用了UTMOSv2這個專門評估語音質(zhì)量的工具,發(fā)現(xiàn)STITCH生成的語音在感知質(zhì)量上與基準(zhǔn)模型沒有差別,都維持在3分以上的良好水平(滿分5分)。同時,通過GPT-4o評估文本的流暢度,STITCH的表現(xiàn)也很理想,說明這種"切塊"的思考和表達方式并沒有影響語言的自然度。
從用戶體驗的角度來看,STITCH帶來了質(zhì)的提升。以往用戶向AI提問復(fù)雜問題時,要么得到一個快速但可能錯誤的答案,要么需要等待很長時間才能得到經(jīng)過深思熟慮的回答。STITCH找到了這兩者之間的平衡點:用戶幾乎不需要額外等待,就能獲得經(jīng)過推理的、更加準(zhǔn)確的答案。
五、技術(shù)細節(jié)與創(chuàng)新突破
STITCH的訓(xùn)練過程采用了GLM-4-Voice-9B作為基礎(chǔ)模型,這是一個已經(jīng)具備語音理解和生成能力的大型AI系統(tǒng)。研究團隊在此基礎(chǔ)上增加了推理能力,使用了大約40萬個訓(xùn)練樣本,涵蓋了日常對話、數(shù)學(xué)推理和知識問答三類任務(wù)。
在具體的實現(xiàn)中,系統(tǒng)使用了特殊的標(biāo)記符號來區(qū)分不同類型的內(nèi)容。推理內(nèi)容被[SOPR](開始部分推理)和[EOPR](結(jié)束部分推理)標(biāo)記包圍,當(dāng)整個推理完成時會出現(xiàn)[EOR](結(jié)束推理)標(biāo)記。這些標(biāo)記就像交通信號燈一樣,告訴AI什么時候應(yīng)該思考,什么時候應(yīng)該說話。
研究團隊還探索了使用外部模型來輔助推理的可能性。他們發(fā)現(xiàn),可以用其他專門的推理模型(如GPT-4、Llama系列模型)來生成推理內(nèi)容,然后讓STITCH基于這些推理來組織回答。這種方式在某些情況下能進一步提升回答的質(zhì)量,特別是當(dāng)推理輔助模型比STITCH本身更強大時。
六、實際應(yīng)用場景與意義
STITCH的突破性意義不僅僅在于技術(shù)本身,更在于它為AI助手的實際應(yīng)用開辟了新的可能性。在教育場景中,一個能夠展現(xiàn)推理過程的AI老師可以更好地幫助學(xué)生理解問題的解決思路。學(xué)生不僅能得到正確答案,還能觀察到AI是如何一步步分析和推理的,這對培養(yǎng)學(xué)生的思維能力很有價值。
在客戶服務(wù)領(lǐng)域,STITCH技術(shù)能夠讓AI客服在處理復(fù)雜問題時表現(xiàn)得更像人類專家。當(dāng)客戶提出一個涉及多個環(huán)節(jié)的問題時,AI可以一邊分析情況一邊與客戶溝通,而不是讓客戶干等或給出草率的回答。
對于需要實時交互的應(yīng)用場景,比如智能汽車的語音助手或家庭智能設(shè)備,STITCH技術(shù)能夠在不影響響應(yīng)速度的前提下提供更可靠的服務(wù)。司機在駕駛過程中詢問復(fù)雜的導(dǎo)航或計算問題時,能夠快速得到經(jīng)過推理的準(zhǔn)確回答,而不會影響行車安全。
七、局限性與未來發(fā)展
雖然STITCH取得了顯著進展,但研究團隊也坦誠地指出了當(dāng)前系統(tǒng)的局限性。首先,系統(tǒng)的推理能力仍然受到基礎(chǔ)模型能力的限制。雖然STITCH改進了推理的組織方式,但如果基礎(chǔ)模型本身在某個領(lǐng)域的知識有限,STITCH也無法創(chuàng)造出不存在的知識。
其次,當(dāng)前的實現(xiàn)主要針對數(shù)學(xué)推理等相對結(jié)構(gòu)化的問題。對于更加開放性的創(chuàng)意任務(wù)或情感理解任務(wù),STITCH的優(yōu)勢可能沒有那么明顯。這是因為這些任務(wù)的推理過程往往更加靈活和非線性,不太適合分塊處理。
在技術(shù)層面,STITCH對硬件性能有一定要求。雖然研究團隊已經(jīng)優(yōu)化了時間配置,但在性能較低的設(shè)備上,可能需要進一步調(diào)整推理塊的大小,這可能會影響推理的深度和準(zhǔn)確性。
未來的發(fā)展方向包括幾個方面。研究團隊正在探索如何讓STITCH適應(yīng)更多類型的任務(wù),特別是那些需要創(chuàng)造性思維的任務(wù)。他們也在研究如何動態(tài)調(diào)整推理的深度,根據(jù)問題的復(fù)雜程度自動決定需要多少思考時間。
另一個有趣的發(fā)展方向是多模態(tài)推理。目前STITCH主要處理語音和文字,未來可能擴展到圖像、視頻等其他模態(tài),讓AI能夠在處理多媒體內(nèi)容時也展現(xiàn)出類似的同步思考能力。
八、對AI發(fā)展的啟示
STITCH的成功揭示了AI系統(tǒng)設(shè)計中一個重要的原則:模仿人類認(rèn)知過程的自然節(jié)奏往往能帶來更好的用戶體驗。人類的思維本身就是多線程的——我們可以一邊說話一邊思考,一邊聽別人說話一邊準(zhǔn)備自己的回應(yīng)。AI系統(tǒng)如果能夠捕捉到這種自然的認(rèn)知流程,就能提供更加流暢和智能的交互體驗。
這項研究也說明了在AI系統(tǒng)優(yōu)化中,時間維度的重要性經(jīng)常被忽視。很多AI研究專注于提高模型的準(zhǔn)確性或減少計算量,但較少考慮如何優(yōu)化時間的使用效率。STITCH通過巧妙地利用語音播放的時間間隙,在不增加總體延遲的情況下顯著提升了系統(tǒng)性能,這種"時間套利"的思路值得在其他AI應(yīng)用中借鑒。
從更廣泛的角度來看,STITCH代表了AI系統(tǒng)從"單步處理"向"流水線處理"的演進。就像現(xiàn)代工廠的生產(chǎn)線一樣,不同的處理步驟可以同時進行,而不必等待前一個步驟完全結(jié)束。這種并行化的思維方式可能會成為未來AI系統(tǒng)設(shè)計的重要范式。
歸根結(jié)底,STITCH的價值不僅在于技術(shù)創(chuàng)新,更在于它讓AI助手變得更像一個真正的對話伙伴。當(dāng)AI能夠展現(xiàn)出思考的過程,能夠在交流中體現(xiàn)出智慧的深度,人機交互就會變得更加自然和富有意義。雖然我們還沒有達到科幻電影中那種完美的AI伙伴,但STITCH無疑是朝著這個方向邁出的重要一步。
研究團隊在論文中還提到,他們已經(jīng)將相關(guān)代碼和演示系統(tǒng)開放給學(xué)術(shù)界和開發(fā)者社區(qū),希望更多的研究者能夠基于這項工作進行進一步的創(chuàng)新。這種開放的態(tài)度也體現(xiàn)了現(xiàn)代AI研究的協(xié)作精神,通過分享和合作,加速整個領(lǐng)域的發(fā)展進程。
對于普通用戶來說,STITCH技術(shù)的普及意味著我們即將迎來一個新的AI交互時代。不久的將來,當(dāng)你向手機或智能音箱提出復(fù)雜問題時,你會發(fā)現(xiàn)它們的回答不僅更加準(zhǔn)確,而且響應(yīng)速度依然很快。這種技術(shù)進步最終會讓AI助手從簡單的工具變成真正的智能伙伴,能夠陪伴我們思考、學(xué)習(xí)和解決問題。
Q&A
Q1:STITCH是什么?它和普通AI語音助手有什么區(qū)別? A:STITCH是微軟開發(fā)的一種新型AI語音技術(shù),讓AI能夠像人類一樣邊說話邊思考。普通AI要么直接回答(可能不夠準(zhǔn)確),要么先想完再說(用戶等待時間長)。而STITCH能在播放語音的同時進行推理思考,既保證了回答質(zhì)量又不增加等待時間。
Q2:這項技術(shù)會讓AI變得更聰明嗎? A:是的,特別是在需要推理的任務(wù)上。實驗顯示,STITCH在數(shù)學(xué)題上的準(zhǔn)確率比普通AI提高了近60%,而且響應(yīng)速度沒有變慢。它讓AI能夠展現(xiàn)思考過程,回答更加深思熟慮。
Q3:普通人什么時候能用上這種技術(shù)? A:目前STITCH還處于研究階段,研究團隊已經(jīng)開放了技術(shù)資料和演示系統(tǒng)。雖然還沒有商業(yè)化產(chǎn)品,但考慮到微軟等大公司的推廣能力,預(yù)計在不久的將來就會集成到實際的AI助手產(chǎn)品中。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。