av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<tt id="jf0kv"></tt>

<dfn id="jf0kv"><strong id="jf0kv"></strong></dfn>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

微軟最新突破：AI語音助手終于學(xué)會邊思考邊說話了！

人工智能語音交互推理優(yōu)化

微軟最新突破：AI語音助手終于學(xué)會邊思考邊說話了！

作者：科技行者

2025-07-24 16:27

分享至：

微軟研究團隊開發(fā)了STITCH技術(shù)，讓AI語音助手首次具備了邊說話邊思考的能力。該系統(tǒng)巧妙利用語音播放時間進行推理計算，在不增加響應(yīng)延遲的情況下，將數(shù)學(xué)推理準(zhǔn)確率提升近60%。這項突破模仿了人類自然的認(rèn)知節(jié)奏，為AI交互體驗帶來質(zhì)的飛躍，預(yù)示著更智能、更自然的人機對話時代即將到來。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-24 16:27 ? 科技行者

這項由微軟亞洲研究院和臺灣大學(xué)聯(lián)合完成的研究發(fā)表于2025年7月，研究團隊包括蔣程瀚、王小飛、李林杰等多位學(xué)者。這一開創(chuàng)性成果通過論文《STITCH: 同步思考與對話的分塊推理語音模型》向?qū)W界公開，感興趣的讀者可以通過論文編號arXiv:2507.15375獲取完整研究資料，項目演示頁面可訪問https://d223302.github.io/STITCH。

人類在對話時有一個很自然的能力：我們可以一邊說話，一邊在腦海里思考接下來要說什么。比如你在解數(shù)學(xué)題的時候，嘴里可能在說"首先我們需要計算這個值"，但大腦已經(jīng)在琢磨后面幾步的計算過程了。然而，現(xiàn)有的AI語音助手卻做不到這一點——它們要么像背書一樣直接回答，要么需要先完整地"想"完整個答案再開口說話，這就像一個人必須把整篇演講稿在心里默念完才能開始講話一樣。

微軟研究團隊注意到了這個問題?，F(xiàn)在的語音大模型雖然能夠聽懂人話并用語音回答，但它們?nèi)鄙偃祟惸欠N內(nèi)在的思考過程。當(dāng)你問它一個復(fù)雜的數(shù)學(xué)題時，它往往會立即給出答案，沒有展現(xiàn)出推理和思考的過程。更糟糕的是，如果讓AI先進行完整的思考再回答，用戶就得等很長時間才能聽到回應(yīng)，這在實際對話中是不可接受的。

為了解決這個問題，研究團隊開發(fā)了一個叫做STITCH的新系統(tǒng)，這個名字代表"同步思考與對話的分塊推理"。這個系統(tǒng)的巧妙之處在于，它利用了一個簡單但重要的時間差：當(dāng)AI生成一小段語音并播放給用戶聽的時候，播放這段音頻需要的時間（比如2秒）遠比AI生成對應(yīng)文字內(nèi)容的時間（可能只需要0.5秒）要長得多。那么剩下的1.5秒時間里，AI能做什么呢？STITCH的答案是：思考！

這就像一個經(jīng)驗豐富的播音員，當(dāng)他在播報第一條新聞的時候，眼睛已經(jīng)在瀏覽第二條新聞的內(nèi)容，腦子里在組織第三條新聞的語言。STITCH讓AI學(xué)會了類似的多線程處理能力。

一、讓AI學(xué)會分段思考

STITCH系統(tǒng)的核心創(chuàng)新在于將AI的思考過程切分成小塊，就像把一個大蛋糕切成許多小片一樣。傳統(tǒng)的AI要么完全不思考就回答，要么必須把整個思考過程完成后才開始說話。而STITCH采用了第三種方式：思考一小段、說一小段、再思考一小段、再說一小段。

為了更好地理解這個過程，可以把它想象成一個廚師在直播做菜。傳統(tǒng)的AI就像一個廚師要么不準(zhǔn)備就開始做菜（結(jié)果可能一團糟），要么把所有準(zhǔn)備工作都做完才開始直播（觀眾等得不耐煩）。而STITCH就像一個聰明的廚師，一邊做菜一邊介紹，同時腦子里還在想接下來的步驟。

具體來說，當(dāng)用戶提出一個數(shù)學(xué)問題時，STITCH會先進行一小段推理（比如100個思考步驟），然后說出一小段回答，在播放這段回答的過程中，它又開始下一輪的推理。這樣循環(huán)下去，直到完整地回答了用戶的問題。

研究團隊設(shè)計了兩個版本的STITCH。第一個版本叫STITCH-R（R代表推理優(yōu)先），它會先思考一小段再開口說話，所以第一次響應(yīng)會有一點延遲。第二個版本叫STITCH-S（S代表說話優(yōu)先），它會立即開始回答，然后在說話的過程中進行思考，這樣就完全沒有額外的延遲了。

二、技術(shù)實現(xiàn)的巧思

要讓這個系統(tǒng)工作起來，研究團隊需要解決幾個技術(shù)挑戰(zhàn)。首先是如何訓(xùn)練AI學(xué)會這種"邊說邊想"的能力。他們采用了一個很聰明的方法：把原本完整的推理過程打碎，然后重新組合成交替的形式。

比如原本的訓(xùn)練數(shù)據(jù)可能是這樣的：完整推理過程 + 完整回答?，F(xiàn)在他們把它改造成：推理片段1 + 回答片段1 + 推理片段2 + 回答片段2 + 推理片段3 + 回答片段3...

這就像把一本書的章節(jié)重新排列：原來是"思考篇"全部寫完再寫"行動篇"，現(xiàn)在改成"思考1 + 行動1 + 思考2 + 行動2..."的形式。AI通過學(xué)習(xí)這種新的模式，掌握了在說話和思考之間切換的能力。

為了確保系統(tǒng)的時間同步，研究團隊還精確計算了各種時間參數(shù)。他們發(fā)現(xiàn)，在A100-80G這樣的GPU上，AI每秒能夠生成大約80個詞匯單元。而播放26個語音單元（大約對應(yīng)13個文字詞匯）需要約2秒時間。這意味著在播放語音的2秒內(nèi)，AI可以生成160個詞匯單元，減去必需的39個詞匯單元用于下一段話的準(zhǔn)備，還剩余121個詞匯單元的"思考時間"。研究團隊保守地將每次思考設(shè)定為100個詞匯單元，確保系統(tǒng)的穩(wěn)定運行。

三、實驗驗證與效果評估

為了驗證STITCH的效果，研究團隊進行了大量實驗。他們使用了多種數(shù)學(xué)推理數(shù)據(jù)集，包括AddSub、MultiArith、SinglEq、SVAMP和GSM8K，這些都是評估AI數(shù)學(xué)能力的標(biāo)準(zhǔn)測試。結(jié)果顯示，STITCH在數(shù)學(xué)推理任務(wù)上的表現(xiàn)顯著超越了不進行推理的基準(zhǔn)模型。

在最具挑戰(zhàn)性的GSM8K數(shù)學(xué)題目中，STITCH-S的準(zhǔn)確率達到了56.72%，而不進行推理的基準(zhǔn)模型只有35.73%，提升幅度接近60%。這個結(jié)果特別令人鼓舞，因為STITCH-S的響應(yīng)延遲與基準(zhǔn)模型完全相同，也就是說，在不增加任何等待時間的情況下，獲得了顯著的性能提升。

更有趣的是，研究團隊還測試了STITCH在非數(shù)學(xué)任務(wù)上的表現(xiàn)，比如知識問答和日常對話。結(jié)果發(fā)現(xiàn)，即使在不需要復(fù)雜推理的任務(wù)上，STITCH的表現(xiàn)也與基準(zhǔn)模型相當(dāng)，并沒有因為增加了推理過程而變差。這說明這種"邊想邊說"的能力不會干擾AI在簡單任務(wù)上的表現(xiàn)。

研究團隊還進行了一個有趣的實驗：測試STITCH能否在推理過程中調(diào)整思考的"深度"。他們發(fā)現(xiàn)，可以在不重新訓(xùn)練模型的情況下，調(diào)整每次思考的詞匯數(shù)量（從60到100個詞匯單元）。當(dāng)思考時間減少時，性能會有所下降，但仍然比完全不思考的模型要好很多。這種靈活性對實際應(yīng)用很有價值，因為不同的硬件條件可能需要不同的配置。

四、質(zhì)量評估與用戶體驗

除了客觀的準(zhǔn)確率測試，研究團隊還評估了STITCH生成語音的質(zhì)量。他們使用了UTMOSv2這個專門評估語音質(zhì)量的工具，發(fā)現(xiàn)STITCH生成的語音在感知質(zhì)量上與基準(zhǔn)模型沒有差別，都維持在3分以上的良好水平（滿分5分）。同時，通過GPT-4o評估文本的流暢度，STITCH的表現(xiàn)也很理想，說明這種"切塊"的思考和表達方式并沒有影響語言的自然度。

從用戶體驗的角度來看，STITCH帶來了質(zhì)的提升。以往用戶向AI提問復(fù)雜問題時，要么得到一個快速但可能錯誤的答案，要么需要等待很長時間才能得到經(jīng)過深思熟慮的回答。STITCH找到了這兩者之間的平衡點：用戶幾乎不需要額外等待，就能獲得經(jīng)過推理的、更加準(zhǔn)確的答案。

五、技術(shù)細節(jié)與創(chuàng)新突破

STITCH的訓(xùn)練過程采用了GLM-4-Voice-9B作為基礎(chǔ)模型，這是一個已經(jīng)具備語音理解和生成能力的大型AI系統(tǒng)。研究團隊在此基礎(chǔ)上增加了推理能力，使用了大約40萬個訓(xùn)練樣本，涵蓋了日常對話、數(shù)學(xué)推理和知識問答三類任務(wù)。

在具體的實現(xiàn)中，系統(tǒng)使用了特殊的標(biāo)記符號來區(qū)分不同類型的內(nèi)容。推理內(nèi)容被[SOPR]（開始部分推理）和[EOPR]（結(jié)束部分推理）標(biāo)記包圍，當(dāng)整個推理完成時會出現(xiàn)[EOR]（結(jié)束推理）標(biāo)記。這些標(biāo)記就像交通信號燈一樣，告訴AI什么時候應(yīng)該思考，什么時候應(yīng)該說話。

研究團隊還探索了使用外部模型來輔助推理的可能性。他們發(fā)現(xiàn)，可以用其他專門的推理模型（如GPT-4、Llama系列模型）來生成推理內(nèi)容，然后讓STITCH基于這些推理來組織回答。這種方式在某些情況下能進一步提升回答的質(zhì)量，特別是當(dāng)推理輔助模型比STITCH本身更強大時。

六、實際應(yīng)用場景與意義

STITCH的突破性意義不僅僅在于技術(shù)本身，更在于它為AI助手的實際應(yīng)用開辟了新的可能性。在教育場景中，一個能夠展現(xiàn)推理過程的AI老師可以更好地幫助學(xué)生理解問題的解決思路。學(xué)生不僅能得到正確答案，還能觀察到AI是如何一步步分析和推理的，這對培養(yǎng)學(xué)生的思維能力很有價值。

在客戶服務(wù)領(lǐng)域，STITCH技術(shù)能夠讓AI客服在處理復(fù)雜問題時表現(xiàn)得更像人類專家。當(dāng)客戶提出一個涉及多個環(huán)節(jié)的問題時，AI可以一邊分析情況一邊與客戶溝通，而不是讓客戶干等或給出草率的回答。

對于需要實時交互的應(yīng)用場景，比如智能汽車的語音助手或家庭智能設(shè)備，STITCH技術(shù)能夠在不影響響應(yīng)速度的前提下提供更可靠的服務(wù)。司機在駕駛過程中詢問復(fù)雜的導(dǎo)航或計算問題時，能夠快速得到經(jīng)過推理的準(zhǔn)確回答，而不會影響行車安全。

七、局限性與未來發(fā)展

雖然STITCH取得了顯著進展，但研究團隊也坦誠地指出了當(dāng)前系統(tǒng)的局限性。首先，系統(tǒng)的推理能力仍然受到基礎(chǔ)模型能力的限制。雖然STITCH改進了推理的組織方式，但如果基礎(chǔ)模型本身在某個領(lǐng)域的知識有限，STITCH也無法創(chuàng)造出不存在的知識。

其次，當(dāng)前的實現(xiàn)主要針對數(shù)學(xué)推理等相對結(jié)構(gòu)化的問題。對于更加開放性的創(chuàng)意任務(wù)或情感理解任務(wù)，STITCH的優(yōu)勢可能沒有那么明顯。這是因為這些任務(wù)的推理過程往往更加靈活和非線性，不太適合分塊處理。

在技術(shù)層面，STITCH對硬件性能有一定要求。雖然研究團隊已經(jīng)優(yōu)化了時間配置，但在性能較低的設(shè)備上，可能需要進一步調(diào)整推理塊的大小，這可能會影響推理的深度和準(zhǔn)確性。

未來的發(fā)展方向包括幾個方面。研究團隊正在探索如何讓STITCH適應(yīng)更多類型的任務(wù)，特別是那些需要創(chuàng)造性思維的任務(wù)。他們也在研究如何動態(tài)調(diào)整推理的深度，根據(jù)問題的復(fù)雜程度自動決定需要多少思考時間。

另一個有趣的發(fā)展方向是多模態(tài)推理。目前STITCH主要處理語音和文字，未來可能擴展到圖像、視頻等其他模態(tài)，讓AI能夠在處理多媒體內(nèi)容時也展現(xiàn)出類似的同步思考能力。

八、對AI發(fā)展的啟示

STITCH的成功揭示了AI系統(tǒng)設(shè)計中一個重要的原則：模仿人類認(rèn)知過程的自然節(jié)奏往往能帶來更好的用戶體驗。人類的思維本身就是多線程的——我們可以一邊說話一邊思考，一邊聽別人說話一邊準(zhǔn)備自己的回應(yīng)。AI系統(tǒng)如果能夠捕捉到這種自然的認(rèn)知流程，就能提供更加流暢和智能的交互體驗。

這項研究也說明了在AI系統(tǒng)優(yōu)化中，時間維度的重要性經(jīng)常被忽視。很多AI研究專注于提高模型的準(zhǔn)確性或減少計算量，但較少考慮如何優(yōu)化時間的使用效率。STITCH通過巧妙地利用語音播放的時間間隙，在不增加總體延遲的情況下顯著提升了系統(tǒng)性能，這種"時間套利"的思路值得在其他AI應(yīng)用中借鑒。

從更廣泛的角度來看，STITCH代表了AI系統(tǒng)從"單步處理"向"流水線處理"的演進。就像現(xiàn)代工廠的生產(chǎn)線一樣，不同的處理步驟可以同時進行，而不必等待前一個步驟完全結(jié)束。這種并行化的思維方式可能會成為未來AI系統(tǒng)設(shè)計的重要范式。

歸根結(jié)底，STITCH的價值不僅在于技術(shù)創(chuàng)新，更在于它讓AI助手變得更像一個真正的對話伙伴。當(dāng)AI能夠展現(xiàn)出思考的過程，能夠在交流中體現(xiàn)出智慧的深度，人機交互就會變得更加自然和富有意義。雖然我們還沒有達到科幻電影中那種完美的AI伙伴，但STITCH無疑是朝著這個方向邁出的重要一步。

研究團隊在論文中還提到，他們已經(jīng)將相關(guān)代碼和演示系統(tǒng)開放給學(xué)術(shù)界和開發(fā)者社區(qū)，希望更多的研究者能夠基于這項工作進行進一步的創(chuàng)新。這種開放的態(tài)度也體現(xiàn)了現(xiàn)代AI研究的協(xié)作精神，通過分享和合作，加速整個領(lǐng)域的發(fā)展進程。

對于普通用戶來說，STITCH技術(shù)的普及意味著我們即將迎來一個新的AI交互時代。不久的將來，當(dāng)你向手機或智能音箱提出復(fù)雜問題時，你會發(fā)現(xiàn)它們的回答不僅更加準(zhǔn)確，而且響應(yīng)速度依然很快。這種技術(shù)進步最終會讓AI助手從簡單的工具變成真正的智能伙伴，能夠陪伴我們思考、學(xué)習(xí)和解決問題。

Q&A

Q1：STITCH是什么？它和普通AI語音助手有什么區(qū)別？ A：STITCH是微軟開發(fā)的一種新型AI語音技術(shù)，讓AI能夠像人類一樣邊說話邊思考。普通AI要么直接回答（可能不夠準(zhǔn)確），要么先想完再說（用戶等待時間長）。而STITCH能在播放語音的同時進行推理思考，既保證了回答質(zhì)量又不增加等待時間。

Q2：這項技術(shù)會讓AI變得更聰明嗎？ A：是的，特別是在需要推理的任務(wù)上。實驗顯示，STITCH在數(shù)學(xué)題上的準(zhǔn)確率比普通AI提高了近60%，而且響應(yīng)速度沒有變慢。它讓AI能夠展現(xiàn)思考過程，回答更加深思熟慮。

Q3：普通人什么時候能用上這種技術(shù)？ A：目前STITCH還處于研究階段，研究團隊已經(jīng)開放了技術(shù)資料和演示系統(tǒng)。雖然還沒有商業(yè)化產(chǎn)品，但考慮到微軟等大公司的推廣能力，預(yù)計在不久的將來就會集成到實際的AI助手產(chǎn)品中。

人工智能語音交互推理優(yōu)化

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運動信息，顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn