av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

阿里巴巴推出ThinkSound：讓AI像音效師一樣"思考"創(chuàng)造聲音

人工智能音頻生成思維鏈推理

阿里巴巴推出ThinkSound：讓AI像音效師一樣"思考"創(chuàng)造聲音

作者：科技行者

2025-07-02 11:24

分享至：

阿里巴巴聯(lián)合香港科技大學(xué)和浙江大學(xué)開(kāi)發(fā)的ThinkSound系統(tǒng)，通過(guò)引入思維鏈推理讓AI學(xué)會(huì)像專業(yè)音效師一樣思考和創(chuàng)作。該系統(tǒng)采用三步式交互流程，支持基礎(chǔ)音景生成、物體定制和語(yǔ)言編輯，在多項(xiàng)評(píng)測(cè)中表現(xiàn)優(yōu)異，有望降低音效制作門(mén)檻并提升創(chuàng)作效率。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-02 11:24 ? 科技行者

這項(xiàng)由阿里巴巴通義實(shí)驗(yàn)室的劉華戴博士領(lǐng)導(dǎo)，聯(lián)合香港科技大學(xué)和浙江大學(xué)共同完成的突破性研究，于2025年6月26日發(fā)表在arXiv預(yù)印本平臺(tái)。有興趣深入了解的讀者可以通過(guò)論文編號(hào)arXiv:2506.21448v1訪問(wèn)完整論文，演示頁(yè)面也可在https://ThinkSound-Demo.github.io查看。

當(dāng)你看電影時(shí)，是否想過(guò)那些逼真的音效是如何產(chǎn)生的？當(dāng)汽車(chē)在銀幕上疾馳而過(guò)，你聽(tīng)到的引擎轟鳴聲；當(dāng)樹(shù)葉在風(fēng)中搖擺，你聽(tīng)到的沙沙聲；當(dāng)腳步聲在走廊中回響，你聽(tīng)到的每一聲腳步——這些聲音并非都是現(xiàn)場(chǎng)錄制的，而是由專業(yè)音效師精心制作的?，F(xiàn)在，阿里巴巴的研究團(tuán)隊(duì)正試圖讓人工智能學(xué)會(huì)這門(mén)藝術(shù)。

傳統(tǒng)的視頻配音系統(tǒng)就像一個(gè)只會(huì)照本宣科的學(xué)生，看到畫(huà)面后直接生成聲音，但往往缺乏細(xì)致入微的思考。而ThinkSound則像一位經(jīng)驗(yàn)豐富的音效師，會(huì)先仔細(xì)觀察畫(huà)面，分析每個(gè)細(xì)節(jié)，思考聲音應(yīng)該如何產(chǎn)生，然后一步步創(chuàng)造出完美匹配的音效。這種"思考"過(guò)程被研究團(tuán)隊(duì)稱為"思維鏈推理"，正如一位廚師在烹飪前會(huì)先考慮食材搭配、火候控制和調(diào)味時(shí)機(jī)一樣。

研究團(tuán)隊(duì)開(kāi)發(fā)的這套系統(tǒng)不僅能自動(dòng)為視頻生成音效，還能讓用戶像指揮樂(lè)隊(duì)一樣精確控制每個(gè)聲音元素。你可以點(diǎn)擊畫(huà)面中的特定物體來(lái)增強(qiáng)或調(diào)整它的聲音，也可以用自然語(yǔ)言告訴系統(tǒng)你想要什么樣的音效調(diào)整。更令人驚訝的是，系統(tǒng)能夠理解視頻中復(fù)雜的時(shí)間關(guān)系和因果聯(lián)系——比如它知道貓頭鷹先是在樹(shù)枝上鳴叫，然后展翅飛走，最后樹(shù)枝因?yàn)檎駝?dòng)而發(fā)出搖擺聲。

為了訓(xùn)練這個(gè)智能音效師，研究團(tuán)隊(duì)還創(chuàng)建了一個(gè)名為AudioCoT的龐大數(shù)據(jù)集，包含了超過(guò)2500小時(shí)的音頻素材和相應(yīng)的"思考"注解。這就像給AI準(zhǔn)備了一本詳盡的音效制作教科書(shū)，不僅告訴它什么聲音配什么畫(huà)面，更重要的是解釋了為什么要這樣配音、怎樣配音才最逼真。

實(shí)驗(yàn)結(jié)果顯示，ThinkSound在各項(xiàng)評(píng)測(cè)中都超越了現(xiàn)有的頂尖系統(tǒng)。無(wú)論是音質(zhì)的清晰度、與畫(huà)面的同步性，還是語(yǔ)義的準(zhǔn)確性，這個(gè)會(huì)"思考"的AI音效師都表現(xiàn)出色。更令人興奮的是，它還能在從未見(jiàn)過(guò)的視頻類型上保持優(yōu)異表現(xiàn)，展現(xiàn)出強(qiáng)大的適應(yīng)能力。

一、會(huì)思考的AI音效師是如何誕生的

當(dāng)我們觀看一部精彩的電影時(shí)，往往會(huì)被視覺(jué)效果所震撼，卻很少注意到那些恰到好處的音效是多么重要。實(shí)際上，專業(yè)的音效制作是一門(mén)極其復(fù)雜的藝術(shù)，需要音效師具備敏銳的觀察力、豐富的想象力和精確的技術(shù)執(zhí)行能力。

傳統(tǒng)的AI視頻配音系統(tǒng)就像一個(gè)初學(xué)者，看到畫(huà)面后會(huì)直接生成對(duì)應(yīng)的聲音，但這種簡(jiǎn)單粗暴的方式往往會(huì)產(chǎn)生很多問(wèn)題。比如，當(dāng)系統(tǒng)看到一只鳥(niǎo)在畫(huà)面中時(shí)，它可能會(huì)生成鳥(niǎo)叫聲，但它不知道這只鳥(niǎo)是在休息時(shí)輕柔地啁啾，還是在受到驚擾時(shí)急促地鳴叫，更不用說(shuō)理解鳥(niǎo)兒振翅高飛時(shí)翅膀拍打空氣的聲音應(yīng)該如何與畫(huà)面動(dòng)作精確同步。

ThinkSound的革命性之處在于引入了"思維鏈推理"的概念。這就像讓AI學(xué)會(huì)了一位資深音效師的工作方式：首先細(xì)致觀察畫(huà)面，分析每個(gè)視覺(jué)元素的特點(diǎn)和它們之間的關(guān)系；然后思考這些元素可能產(chǎn)生什么樣的聲音，聲音之間又是如何相互影響的；最后制定一個(gè)詳細(xì)的聲音制作方案，確保每個(gè)音效都能完美融入整體音景。

舉個(gè)具體例子，當(dāng)系統(tǒng)遇到一個(gè)汽車(chē)門(mén)開(kāi)關(guān)的場(chǎng)景時(shí)，傳統(tǒng)AI可能只是簡(jiǎn)單地播放一個(gè)"咔嚓"聲。但ThinkSound會(huì)像這樣思考：首先分析畫(huà)面顯示汽車(chē)門(mén)當(dāng)前是關(guān)閉狀態(tài)，然后有人拉動(dòng)門(mén)把手，車(chē)門(mén)緩緩打開(kāi)，停留幾秒后又被推關(guān)?；谶@個(gè)分析，系統(tǒng)會(huì)生成一個(gè)完整的聲音序列：先是門(mén)把手被拉動(dòng)的輕微咔嚓聲，接著是車(chē)門(mén)打開(kāi)時(shí)鉸鏈的吱呀聲和密封條分離的細(xì)微摩擦聲，然后是短暫的安靜，最后是車(chē)門(mén)關(guān)閉時(shí)的厚重撞擊聲。

這種思考過(guò)程不是憑空產(chǎn)生的，而是通過(guò)大量訓(xùn)練數(shù)據(jù)學(xué)習(xí)得來(lái)的。研究團(tuán)隊(duì)為每個(gè)音頻片段都標(biāo)注了詳細(xì)的"思考"過(guò)程，就像給AI提供了無(wú)數(shù)個(gè)音效師的工作筆記。這些筆記不僅描述了最終的聲音效果，更重要的是解釋了產(chǎn)生這種效果的邏輯思路和制作步驟。

更令人印象深刻的是，ThinkSound還能處理多個(gè)聲音事件同時(shí)發(fā)生的復(fù)雜情況。比如在一個(gè)公園場(chǎng)景中，可能同時(shí)有孩子們的歡笑聲、狗吠聲、樹(shù)葉摩擦聲和遠(yuǎn)處汽車(chē)經(jīng)過(guò)的聲音。系統(tǒng)需要理解這些聲音在空間上的分布、在時(shí)間上的重疊關(guān)系，以及它們?nèi)绾喂餐瑺I(yíng)造出一個(gè)真實(shí)的環(huán)境氛圍。這就像一位音響工程師在混音時(shí)需要平衡各種樂(lè)器的音量和頻率，確保整體效果既豐富又不混亂。

二、三步走的互動(dòng)音效創(chuàng)作流程

ThinkSound最吸引人的特點(diǎn)之一是它將復(fù)雜的音效制作過(guò)程分解為三個(gè)漸進(jìn)式的步驟，讓用戶能夠像導(dǎo)演一樣精確控制每個(gè)音效細(xì)節(jié)。這種設(shè)計(jì)理念就像一位經(jīng)驗(yàn)豐富的室內(nèi)設(shè)計(jì)師，先搭建整體框架，再添加重點(diǎn)裝飾，最后進(jìn)行精細(xì)調(diào)整。

第一步是基礎(chǔ)音景創(chuàng)建，相當(dāng)于為整個(gè)視頻搭建一個(gè)聲音的"骨架"。在這個(gè)階段，AI會(huì)像一位初到陌生城市的游客一樣，仔細(xì)觀察視頻中的每一個(gè)畫(huà)面，識(shí)別出所有可能產(chǎn)生聲音的元素：人物、動(dòng)物、交通工具、自然環(huán)境等等。然后，它會(huì)運(yùn)用之前學(xué)到的"思考"能力，分析這些元素在時(shí)間軸上是如何變化的，它們之間存在什么樣的因果關(guān)系。

比如在一段廚房做飯的視頻中，AI會(huì)注意到畫(huà)面中出現(xiàn)了切菜板、刀具、蔬菜、爐灶和鍋具等元素。它不會(huì)簡(jiǎn)單地為每個(gè)物體分配一個(gè)固定的聲音，而是會(huì)理解整個(gè)烹飪過(guò)程的時(shí)間順序：首先是清洗蔬菜的流水聲，然后是刀切在案板上的有節(jié)奏敲擊聲，接著是爐火點(diǎn)燃的"呼"聲，油倒入鍋中的滋滋聲，最后是食材下鍋時(shí)的爆炒聲。這種基于邏輯思考的聲音編排，使得生成的音效不僅逼真，而且具有很強(qiáng)的敘事性。

第二步是精確的物體定制功能，這就像給用戶一支魔法畫(huà)筆，可以點(diǎn)擊畫(huà)面中的任何物體來(lái)調(diào)整它的聲音表現(xiàn)。當(dāng)用戶對(duì)某個(gè)特定元素的音效不滿意時(shí)，只需要輕點(diǎn)鼠標(biāo)，系統(tǒng)就會(huì)重新關(guān)注這個(gè)物體，分析它在整個(gè)場(chǎng)景中的作用和特點(diǎn)，然后生成更加精準(zhǔn)的音效。

這個(gè)功能的智能之處在于，它不是簡(jiǎn)單地替換某個(gè)音效，而是會(huì)考慮這個(gè)調(diào)整對(duì)整體音景的影響。就像調(diào)音師在調(diào)整樂(lè)隊(duì)中某個(gè)樂(lè)器的音量時(shí)，需要確保它既突出了想要的效果，又不會(huì)破壞整體的和諧。比如，當(dāng)你點(diǎn)擊視頻中的一只鳥(niǎo)時(shí)，系統(tǒng)不僅會(huì)增強(qiáng)這只鳥(niǎo)的叫聲，還會(huì)相應(yīng)地調(diào)整其他環(huán)境音的比例，確保整個(gè)音景仍然自然平衡。

第三步是基于自然語(yǔ)言的智能編輯，這個(gè)功能就像擁有了一位隨時(shí)待命的專業(yè)助手，你只需要用日常語(yǔ)言描述想要的效果，它就能理解并執(zhí)行。你可以說(shuō)"讓這段音頻更安靜一些"、"在15秒的位置添加一些鳥(niǎo)叫聲"、"去掉背景中的汽車(chē)噪音"，系統(tǒng)都能準(zhǔn)確理解并執(zhí)行這些指令。

這種自然語(yǔ)言交互的強(qiáng)大之處在于，它能夠理解模糊的、主觀的描述，并將其轉(zhuǎn)化為具體的技術(shù)操作。當(dāng)你說(shuō)"讓這段音頻聽(tīng)起來(lái)更溫暖"時(shí)，系統(tǒng)能夠理解"溫暖"在音頻語(yǔ)境中意味著增加低頻成分、減少尖銳的高頻、添加一些柔和的環(huán)境音等等。這種理解能力來(lái)自于大量的訓(xùn)練，讓AI學(xué)會(huì)了人類在描述聲音時(shí)常用的各種比喻和形容詞。

三個(gè)步驟的巧妙之處在于它們可以循環(huán)進(jìn)行。用戶可以先生成基礎(chǔ)音景，然后點(diǎn)擊調(diào)整特定物體的聲音，再用語(yǔ)言指令進(jìn)行細(xì)節(jié)優(yōu)化，如果還不滿意，可以重新點(diǎn)擊其他物體或給出新的語(yǔ)言指令。這種靈活的工作流程讓專業(yè)音效師和普通用戶都能找到適合自己的使用方式。

三、AudioCoT數(shù)據(jù)集：AI音效師的訓(xùn)練教材

要讓AI學(xué)會(huì)像人類音效師一樣思考，最關(guān)鍵的是要有足夠豐富和高質(zhì)量的訓(xùn)練素材。研究團(tuán)隊(duì)為此專門(mén)構(gòu)建了AudioCoT數(shù)據(jù)集，這就像為AI準(zhǔn)備了一套完整的音效制作教程，不僅包含了大量的視頻和音頻素材，更重要的是包含了詳細(xì)的"思考"過(guò)程記錄。

這個(gè)數(shù)據(jù)集的規(guī)模令人印象深刻，總計(jì)包含超過(guò)2500小時(shí)的音頻內(nèi)容，涵蓋了從日常生活場(chǎng)景到專業(yè)制作場(chǎng)景的各種音效類型。數(shù)據(jù)來(lái)源非常多樣化，包括了著名的VGGSound視頻數(shù)據(jù)庫(kù)、AudioSet音頻數(shù)據(jù)集，以及BBC音效庫(kù)等權(quán)威資源。這種多樣性確保了AI能夠接觸到盡可能豐富的聲音世界，就像一位音樂(lè)學(xué)院的學(xué)生需要學(xué)習(xí)古典、爵士、搖滾等各種音樂(lè)風(fēng)格一樣。

但AudioCoT數(shù)據(jù)集的真正創(chuàng)新之處不在于規(guī)模，而在于它獨(dú)特的注解方式。傳統(tǒng)的音頻數(shù)據(jù)集通常只會(huì)標(biāo)注"這是什么聲音"，比如"狗叫聲"或"汽車(chē)引擎聲"。而AudioCoT不僅告訴AI這是什么聲音，更重要的是解釋了為什么會(huì)有這樣的聲音、這個(gè)聲音是如何產(chǎn)生的、它與畫(huà)面中其他元素的關(guān)系是什么。

舉個(gè)例子，對(duì)于一段煙花綻放的視頻，傳統(tǒng)標(biāo)注可能只是簡(jiǎn)單地寫(xiě)著"煙花爆炸聲"。但在AudioCoT中，標(biāo)注會(huì)是這樣的："視頻開(kāi)始時(shí)背景相對(duì)安靜，只有微弱的環(huán)境音。隨著第一枚煙花升空，可以聽(tīng)到火箭發(fā)射時(shí)的嗖嗖聲。緊接著是一聲響亮的爆炸聲，伴隨著色彩絢爛的火花散開(kāi)。爆炸聲在夜空中回蕩，形成回音效果。隨后更多煙花相繼綻放，聲音層層疊疊，營(yíng)造出熱鬧的節(jié)慶氛圍。"

這種詳細(xì)的描述不僅幫助AI理解聲音的時(shí)間順序，更重要的是讓它學(xué)會(huì)了因果關(guān)系的推理。AI開(kāi)始明白，不是簡(jiǎn)單地在看到煙花時(shí)播放爆炸聲，而是要理解整個(gè)事件的發(fā)展過(guò)程：發(fā)射、上升、爆炸、回聲、多重疊加等等。

為了確保數(shù)據(jù)質(zhì)量，研究團(tuán)隊(duì)建立了嚴(yán)格的質(zhì)量控制流程。他們使用先進(jìn)的AI模型來(lái)自動(dòng)生成初始的思考鏈注解，然后通過(guò)多重驗(yàn)證來(lái)確保準(zhǔn)確性。比如，他們會(huì)計(jì)算音頻和文字描述之間的匹配度，如果匹配度太低，就會(huì)重新生成描述。他們還會(huì)檢查視頻中物體的連續(xù)性，確保被標(biāo)注的聲音源在整個(gè)視頻片段中都是可見(jiàn)的。

更有趣的是，數(shù)據(jù)集還包含了互動(dòng)場(chǎng)景的標(biāo)注。當(dāng)用戶點(diǎn)擊畫(huà)面中的特定物體時(shí)，系統(tǒng)需要知道如何調(diào)整音效。為此，研究團(tuán)隊(duì)創(chuàng)建了大量的"對(duì)比"樣本，同一個(gè)視頻片段會(huì)有多種不同的音效版本，分別強(qiáng)調(diào)不同的音頻元素。這就像一位鋼琴教師為學(xué)生準(zhǔn)備的練習(xí)曲，同一首曲子有強(qiáng)調(diào)旋律的版本、強(qiáng)調(diào)低音的版本、強(qiáng)調(diào)和聲的版本等等。

數(shù)據(jù)集的另一個(gè)創(chuàng)新特點(diǎn)是包含了編輯指令的標(biāo)注。研究團(tuán)隊(duì)收集了大量的音頻編輯需求，比如"讓背景音樂(lè)更輕柔"、"增加一些雨聲"、"去掉刺耳的噪音"等等，然后為每個(gè)指令標(biāo)注了相應(yīng)的技術(shù)實(shí)現(xiàn)方法。這樣，AI不僅學(xué)會(huì)了理解人類的編輯意圖，還學(xué)會(huì)了如何將這些抽象的要求轉(zhuǎn)化為具體的音頻處理操作。

四、技術(shù)架構(gòu)：多模態(tài)AI的精妙設(shè)計(jì)

ThinkSound的技術(shù)架構(gòu)就像一座精心設(shè)計(jì)的現(xiàn)代化工廠，每個(gè)組件都有明確的分工，同時(shí)又能協(xié)調(diào)配合，共同完成復(fù)雜的音效制作任務(wù)。整個(gè)系統(tǒng)的核心包含兩個(gè)主要部分：一個(gè)負(fù)責(zé)"思考"的多模態(tài)大語(yǔ)言模型，和一個(gè)負(fù)責(zé)"創(chuàng)作"的統(tǒng)一音頻基礎(chǔ)模型。

負(fù)責(zé)思考的部分基于VideoLLaMA2模型進(jìn)行了專門(mén)的優(yōu)化改進(jìn)。這個(gè)模型就像一位具有豐富經(jīng)驗(yàn)的音效師大腦，能夠同時(shí)處理視頻、音頻和文字三種不同類型的信息。當(dāng)它接收到一段視頻時(shí)，不會(huì)簡(jiǎn)單地識(shí)別出"這里有一輛汽車(chē)，那里有一棵樹(shù)"，而是會(huì)進(jìn)行更深層次的分析：汽車(chē)正在加速還是減速？樹(shù)葉是在微風(fēng)中輕擺還是在強(qiáng)風(fēng)中劇烈搖擺？這些細(xì)節(jié)對(duì)于生成逼真的音效至關(guān)重要。

模型的訓(xùn)練過(guò)程就像培養(yǎng)一位專業(yè)音效師的過(guò)程。研究團(tuán)隊(duì)使用AudioCoT數(shù)據(jù)集對(duì)VideoLLaMA2進(jìn)行了精細(xì)調(diào)優(yōu)，讓它學(xué)會(huì)了三種核心能力。第一是音頻中心的理解能力，模型需要學(xué)會(huì)從聲學(xué)角度思考問(wèn)題，理解聲音的傳播特性、不同材質(zhì)的聲學(xué)特點(diǎn)、以及各種音頻事件之間的時(shí)間和因果關(guān)系。第二是結(jié)構(gòu)化的思考分解能力，模型要學(xué)會(huì)將復(fù)雜的音效制作任務(wù)分解為一系列可執(zhí)行的具體步驟。第三是多模態(tài)指令跟隨能力，模型需要能夠準(zhǔn)確理解和執(zhí)行各種類型的指令，無(wú)論是來(lái)自視頻內(nèi)容的隱含要求，還是用戶明確給出的編輯指令。

負(fù)責(zé)創(chuàng)作的統(tǒng)一音頻基礎(chǔ)模型則像一位技藝精湛的工匠，能夠根據(jù)"思考"模塊給出的詳細(xì)方案，精確地制作出高質(zhì)量的音效。這個(gè)模型采用了先進(jìn)的流匹配技術(shù)，相比傳統(tǒng)的擴(kuò)散模型，在生成速度和音質(zhì)方面都有顯著提升。

模型的架構(gòu)設(shè)計(jì)特別巧妙，采用了多流和單流相結(jié)合的transformer結(jié)構(gòu)。多流部分就像工廠中的多條生產(chǎn)線，分別處理視頻、文字和音頻等不同類型的輸入信息，每條流水線都有專門(mén)的參數(shù)來(lái)處理特定類型的數(shù)據(jù)，同時(shí)又通過(guò)注意力機(jī)制保持彼此之間的信息交流。單流部分則像最終的裝配車(chē)間，將來(lái)自各個(gè)生產(chǎn)線的半成品組合成最終的音頻產(chǎn)品。

為了支持用戶的互動(dòng)操作，模型采用了分類器自由引導(dǎo)的訓(xùn)練策略。在訓(xùn)練過(guò)程中，系統(tǒng)會(huì)隨機(jī)丟棄某些輸入條件，這樣模型就學(xué)會(huì)了如何在信息不完整的情況下仍然能夠工作。這種設(shè)計(jì)使得用戶可以提供任意組合的輸入：可以只給視頻，也可以給視頻加文字描述，還可以再加上現(xiàn)有的音頻作為參考。這種靈活性對(duì)于實(shí)際應(yīng)用來(lái)說(shuō)非常重要。

模型還有一個(gè)特殊的視頻-音頻融合機(jī)制。系統(tǒng)不是簡(jiǎn)單地將視頻信息作為附加條件，而是將視頻特征直接融合到音頻的潛在空間中。這就像在調(diào)色板上直接混合顏料，而不是在畫(huà)布上層層疊加。這種深度融合確保了生成的音頻能夠捕捉到視頻中的細(xì)微視覺(jué)線索，比如物體材質(zhì)的差異、運(yùn)動(dòng)速度的變化等等。

整個(gè)系統(tǒng)的訓(xùn)練過(guò)程分為兩個(gè)階段。第一階段是基礎(chǔ)能力訓(xùn)練，使用大規(guī)模的多模態(tài)數(shù)據(jù)讓模型學(xué)會(huì)處理視頻、音頻、文字之間的基本對(duì)應(yīng)關(guān)系。第二階段是任務(wù)特定的精調(diào)，使用AudioCoT數(shù)據(jù)集讓模型學(xué)會(huì)具體的音效制作技能。這種分階段訓(xùn)練就像培養(yǎng)一位音樂(lè)家，先要學(xué)會(huì)基本的樂(lè)理知識(shí)和演奏技巧，然后再專門(mén)練習(xí)特定的演奏風(fēng)格。

五、實(shí)驗(yàn)驗(yàn)證：全方位的性能評(píng)估

為了驗(yàn)證ThinkSound的實(shí)際效果，研究團(tuán)隊(duì)設(shè)計(jì)了一系列全面的測(cè)試，就像汽車(chē)制造商會(huì)對(duì)新車(chē)型進(jìn)行各種路況測(cè)試一樣。這些測(cè)試不僅要檢驗(yàn)系統(tǒng)的基本功能，還要確保它在各種復(fù)雜情況下都能保持穩(wěn)定的性能表現(xiàn)。

測(cè)試采用了多個(gè)維度的評(píng)估指標(biāo)。在客觀指標(biāo)方面，研究團(tuán)隊(duì)使用了音頻領(lǐng)域的標(biāo)準(zhǔn)評(píng)估方法，包括音質(zhì)的保真度、音頻內(nèi)容與原始標(biāo)簽的一致性、以及音視頻同步的精確性。這些指標(biāo)就像體檢中的各項(xiàng)檢查數(shù)值，能夠客觀地反映系統(tǒng)的技術(shù)水平。在主觀指標(biāo)方面，團(tuán)隊(duì)邀請(qǐng)了專業(yè)評(píng)估人員對(duì)生成音頻的質(zhì)量和與視頻內(nèi)容的匹配度進(jìn)行人工評(píng)分，這就像請(qǐng)美食評(píng)論家品嘗新菜品一樣，能夠從人類感知的角度評(píng)判效果。

測(cè)試結(jié)果令人印象深刻。在VGGSound數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)中，ThinkSound在幾乎所有指標(biāo)上都超越了現(xiàn)有的最佳系統(tǒng)。特別是在音頻質(zhì)量指標(biāo)上，ThinkSound的表現(xiàn)比之前最好的MMAudio系統(tǒng)還要優(yōu)秀，這相當(dāng)于在一場(chǎng)音樂(lè)比賽中不僅獲得了冠軍，而且分?jǐn)?shù)明顯領(lǐng)先第二名。

更有說(shuō)服力的是跨領(lǐng)域測(cè)試的結(jié)果。研究團(tuán)隊(duì)在MovieGen Audio Bench這個(gè)完全不同的測(cè)試集上驗(yàn)證了系統(tǒng)的泛化能力。這就像讓一位在中餐廳培訓(xùn)的廚師去制作西餐，結(jié)果證明ThinkSound仍然能夠保持優(yōu)秀的表現(xiàn)，說(shuō)明它學(xué)到的不是簡(jiǎn)單的模式記憶，而是真正理解了音效制作的核心原理。

特別值得關(guān)注的是思維鏈推理的貢獻(xiàn)度測(cè)試。研究團(tuán)隊(duì)專門(mén)做了對(duì)比實(shí)驗(yàn)，比較了有無(wú)思維鏈推理的系統(tǒng)性能差異。結(jié)果顯示，移除思維鏈推理后，系統(tǒng)在各項(xiàng)指標(biāo)上都出現(xiàn)了明顯下降，特別是在語(yǔ)義匹配度方面，下降幅度達(dá)到了10%以上。這就像取掉了大廚的菜譜，雖然仍然能做菜，但質(zhì)量明顯不如之前。

在互動(dòng)功能的測(cè)試中，物體定制和語(yǔ)言編輯功能也展現(xiàn)出了出色的效果。當(dāng)用戶點(diǎn)擊畫(huà)面中的特定物體時(shí)，系統(tǒng)能夠準(zhǔn)確地增強(qiáng)或調(diào)整對(duì)應(yīng)的音效，而不會(huì)影響其他音頻元素。語(yǔ)言編輯功能則能夠理解諸如"讓音頻更溫暖"、"增加一些自然環(huán)境音"等抽象描述，并轉(zhuǎn)化為具體的音頻調(diào)整操作。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)，逐一驗(yàn)證了各個(gè)技術(shù)組件的有效性。比如，他們發(fā)現(xiàn)雙重文本編碼策略（同時(shí)使用CLIP和T5編碼器）比單一編碼器效果更好，因?yàn)镃LIP善于處理視覺(jué)-文字對(duì)應(yīng)關(guān)系，而T5更擅長(zhǎng)理解復(fù)雜的語(yǔ)言邏輯。他們還發(fā)現(xiàn)，門(mén)控融合機(jī)制比簡(jiǎn)單的特征拼接更有效，因?yàn)樗軌蜃赃m應(yīng)地決定在不同情況下應(yīng)該更多地依賴視覺(jué)信息還是音頻信息。

在不同難度級(jí)別的測(cè)試中，系統(tǒng)都保持了相對(duì)穩(wěn)定的性能優(yōu)勢(shì)。研究團(tuán)隊(duì)將測(cè)試樣本按照音視頻關(guān)系的復(fù)雜程度分為簡(jiǎn)單、中等和困難三個(gè)級(jí)別。結(jié)果顯示，雖然所有系統(tǒng)的性能都隨著難度增加而下降，但ThinkSound在各個(gè)難度級(jí)別上都保持了對(duì)比基線的優(yōu)勢(shì)，說(shuō)明其技術(shù)方案具有良好的魯棒性。

最后，研究團(tuán)隊(duì)還進(jìn)行了效率測(cè)試。ThinkSound在保證高質(zhì)量輸出的同時(shí)，生成速度也達(dá)到了實(shí)用化的水平，平均每秒鐘的音頻只需要約1秒的計(jì)算時(shí)間，這使得它有可能被應(yīng)用到實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的應(yīng)用場(chǎng)景中。

六、實(shí)際應(yīng)用案例：從理論到實(shí)踐的轉(zhuǎn)化

為了更直觀地展示ThinkSound的實(shí)際效果，研究團(tuán)隊(duì)提供了幾個(gè)典型的應(yīng)用案例，這些例子就像產(chǎn)品說(shuō)明書(shū)中的使用示范，讓人們能夠具體理解這項(xiàng)技術(shù)的價(jià)值和潛力。

第一個(gè)案例是汽車(chē)門(mén)開(kāi)關(guān)的場(chǎng)景。在這個(gè)看似簡(jiǎn)單的視頻片段中，畫(huà)面顯示了一輛汽車(chē)的車(chē)門(mén)從關(guān)閉狀態(tài)打開(kāi)，停留幾秒后再次關(guān)閉的過(guò)程。傳統(tǒng)的音效生成系統(tǒng)往往會(huì)在開(kāi)頭就播放一個(gè)開(kāi)門(mén)聲，這顯然不符合視覺(jué)邏輯，因?yàn)橐曨l開(kāi)始時(shí)車(chē)門(mén)明明是關(guān)著的。

ThinkSound則展現(xiàn)出了完全不同的處理方式。它首先分析了整個(gè)視頻的時(shí)間線，識(shí)別出車(chē)門(mén)在不同時(shí)刻的狀態(tài)變化，然后生成了一個(gè)完整的音效序列：開(kāi)始時(shí)是安靜的環(huán)境音，隨著車(chē)門(mén)把手被拉動(dòng)，出現(xiàn)輕微的機(jī)械響聲，接著是車(chē)門(mén)打開(kāi)時(shí)鉸鏈的吱呀聲和橡膠密封條分離的細(xì)微摩擦聲，中間有一段相對(duì)安靜的時(shí)期，最后是車(chē)門(mén)關(guān)閉時(shí)的厚重撞擊聲和鎖扣歸位的咔嚓聲。這種按照真實(shí)時(shí)間順序生成的音效，使得整個(gè)聽(tīng)覺(jué)體驗(yàn)變得非常自然和可信。

第二個(gè)案例是野外環(huán)境中的動(dòng)物活動(dòng)場(chǎng)景。視頻顯示一只野雞在草地上活動(dòng)，先是安靜地覓食，然后突然受到驚擾，發(fā)出叫聲并拍打翅膀。這種場(chǎng)景對(duì)AI來(lái)說(shuō)是一個(gè)很大的挑戰(zhàn)，因?yàn)樗枰獏^(qū)分同一個(gè)動(dòng)物在不同狀態(tài)下應(yīng)該產(chǎn)生什么樣的聲音。

ThinkSound通過(guò)細(xì)致的場(chǎng)景分析，成功地生成了層次豐富的音效。背景音以輕柔的自然環(huán)境音為主，包括微風(fēng)吹過(guò)草地的沙沙聲和遠(yuǎn)處其他鳥(niǎo)類的輕柔啁啾聲。當(dāng)野雞開(kāi)始活動(dòng)時(shí)，加入了它在草地上行走時(shí)的輕微腳步聲。關(guān)鍵時(shí)刻是當(dāng)野雞受到驚擾時(shí)，系統(tǒng)準(zhǔn)確地識(shí)別了這個(gè)轉(zhuǎn)折點(diǎn)，立即增加了尖銳的鳴叫聲和翅膀快速拍打的聲音。整個(gè)音效的變化過(guò)程與畫(huà)面中動(dòng)物的行為變化完美同步，展現(xiàn)出了AI對(duì)動(dòng)物行為邏輯的深度理解。

在互動(dòng)功能的演示中，研究團(tuán)隊(duì)展示了用戶如何通過(guò)點(diǎn)擊和語(yǔ)言指令來(lái)精細(xì)調(diào)整音效。比如，在一個(gè)包含多種聲音元素的復(fù)雜場(chǎng)景中，用戶如果覺(jué)得鳥(niǎo)叫聲太突兀，可以點(diǎn)擊畫(huà)面中的鳥(niǎo)類，系統(tǒng)就會(huì)重新分析這個(gè)元素在整體環(huán)境中的作用，生成更加和諧的鳥(niǎo)叫聲音效。如果用戶想要增加更多的自然氛圍，只需要說(shuō)"添加一些其他鳥(niǎo)類的叫聲"，系統(tǒng)就能理解這個(gè)要求，并在保持原有音效特色的基礎(chǔ)上，適度地增加其他鳥(niǎo)類的背景音。

語(yǔ)言編輯功能的強(qiáng)大之處在一個(gè)廚房場(chǎng)景的例子中得到了充分體現(xiàn)。原始音效包含了切菜聲、水流聲、炒菜聲等各種廚房活動(dòng)的聲音。當(dāng)用戶輸入"讓這段音頻聽(tīng)起來(lái)更溫馨一些"這樣的抽象指令時(shí)，系統(tǒng)能夠理解"溫馨"在廚房環(huán)境中的含義：適當(dāng)降低刀具碰撞的尖銳聲，增加一些柔和的背景音（比如輕微的通風(fēng)聲或遠(yuǎn)處的輕音樂(lè)），調(diào)整各種聲音的音量比例使整體聽(tīng)起來(lái)更加和諧。這種從抽象描述到具體音頻調(diào)整的轉(zhuǎn)換能力，展現(xiàn)了AI對(duì)人類情感表達(dá)的深度理解。

更有趣的是，系統(tǒng)還能處理一些創(chuàng)意性的編輯要求。比如，用戶可以要求"讓這個(gè)場(chǎng)景聽(tīng)起來(lái)像在電影中一樣戲劇化"，系統(tǒng)會(huì)增強(qiáng)某些關(guān)鍵音效的表現(xiàn)力，添加適當(dāng)?shù)幕芈曅Ч?，調(diào)整音效的動(dòng)態(tài)范圍，使整體效果更具戲劇張力。這種創(chuàng)意性編輯能力，使得ThinkSound不僅是一個(gè)技術(shù)工具，更像是一位具有藝術(shù)感覺(jué)的創(chuàng)作伙伴。

七、技術(shù)創(chuàng)新與行業(yè)影響的深遠(yuǎn)意義

ThinkSound所代表的技術(shù)創(chuàng)新遠(yuǎn)不止是簡(jiǎn)單的音效生成工具升級(jí)，它實(shí)際上開(kāi)創(chuàng)了一種全新的人機(jī)協(xié)作創(chuàng)作模式，這種模式可能會(huì)深刻改變整個(gè)音頻制作行業(yè)的生態(tài)格局。

從技術(shù)角度來(lái)看，ThinkSound最大的突破在于將抽象的"思維"過(guò)程具象化為可計(jì)算的推理鏈條。傳統(tǒng)的AI系統(tǒng)往往被視為"黑盒子"，輸入數(shù)據(jù)后直接產(chǎn)出結(jié)果，中間的處理過(guò)程對(duì)用戶來(lái)說(shuō)是完全不可見(jiàn)的。而ThinkSound則像一位善于表達(dá)的音效師，不僅能夠產(chǎn)出高質(zhì)量的作品，還能清楚地解釋自己的創(chuàng)作思路和制作過(guò)程。

這種"可解釋性"的價(jià)值不僅在于滿足用戶的好奇心，更重要的是它為人機(jī)協(xié)作創(chuàng)造了可能。當(dāng)用戶能夠理解AI的思考過(guò)程時(shí)，就能夠更精準(zhǔn)地指導(dǎo)AI的工作方向，提出更有針對(duì)性的修改意見(jiàn)。這就像導(dǎo)演和攝影師之間的合作關(guān)系，導(dǎo)演不需要親自操作攝像機(jī)，但需要能夠與攝影師有效溝通，傳達(dá)自己的創(chuàng)作意圖。

在實(shí)際應(yīng)用層面，ThinkSound有望顯著降低專業(yè)音效制作的門(mén)檻。傳統(tǒng)的音效制作不僅需要昂貴的設(shè)備和軟件，更需要制作者具備深厚的音頻工程知識(shí)和豐富的實(shí)踐經(jīng)驗(yàn)。而ThinkSound則讓普通用戶也能夠通過(guò)簡(jiǎn)單的點(diǎn)擊和自然語(yǔ)言交流，創(chuàng)作出專業(yè)級(jí)別的音效作品。這種民主化的趨勢(shì)，可能會(huì)催生出一批新的內(nèi)容創(chuàng)作者，就像智能手機(jī)的普及催生了短視頻創(chuàng)作浪潮一樣。

對(duì)于專業(yè)音效師來(lái)說(shuō)，ThinkSound不是威脅，而是強(qiáng)有力的創(chuàng)作助手。它可以處理那些重復(fù)性、技術(shù)性的基礎(chǔ)工作，讓音效師能夠?qū)⒏嗑ν度氲絼?chuàng)意構(gòu)思和藝術(shù)表達(dá)上。比如，在制作一部電影的音效時(shí)，音效師可以使用ThinkSound快速生成基礎(chǔ)音景，然后在此基礎(chǔ)上進(jìn)行藝術(shù)化的調(diào)整和創(chuàng)新，這樣既保證了效率，又保持了創(chuàng)作的獨(dú)特性。

從商業(yè)角度來(lái)看，ThinkSound的應(yīng)用前景非常廣闊。在影視制作行業(yè)，它可以大大縮短后期制作的周期，降低制作成本。對(duì)于獨(dú)立制片人或小規(guī)模制作團(tuán)隊(duì)來(lái)說(shuō)，這意味著他們能夠以更低的成本制作出具有專業(yè)水準(zhǔn)的作品。在游戲開(kāi)發(fā)領(lǐng)域，ThinkSound可以幫助開(kāi)發(fā)者快速為各種游戲場(chǎng)景生成音效，特別是對(duì)于那些需要大量環(huán)境音效的開(kāi)放世界游戲來(lái)說(shuō)，這種技術(shù)的價(jià)值尤為突出。

教育領(lǐng)域也是一個(gè)重要的應(yīng)用方向。ThinkSound可以作為音頻制作教學(xué)的輔助工具，幫助學(xué)生更好地理解音效設(shè)計(jì)的原理和技巧。通過(guò)觀察AI的思考過(guò)程，學(xué)生可以學(xué)習(xí)如何分析場(chǎng)景、如何選擇合適的音效元素、如何處理不同音效之間的關(guān)系等等。這種交互式的學(xué)習(xí)方式，比傳統(tǒng)的理論教學(xué)更加直觀和有效。

在無(wú)障礙技術(shù)方面，ThinkSound也有著特殊的意義。對(duì)于聽(tīng)障人士來(lái)說(shuō)，它可以幫助他們更好地理解視頻內(nèi)容，通過(guò)將視覺(jué)信息轉(zhuǎn)換為詳細(xì)的音頻描述。對(duì)于視障人士來(lái)說(shuō)，它可以為靜默的視頻添加豐富的音效，幫助他們通過(guò)聽(tīng)覺(jué)獲得更完整的信息。

然而，這項(xiàng)技術(shù)的發(fā)展也帶來(lái)了一些需要謹(jǐn)慎思考的問(wèn)題。隨著AI生成音效質(zhì)量的不斷提升，如何確保內(nèi)容的真實(shí)性和防止惡意使用變得越來(lái)越重要。比如，這種技術(shù)可能被用來(lái)制作虛假的音頻證據(jù)，或者生成誤導(dǎo)性的音效內(nèi)容。因此，在技術(shù)發(fā)展的同時(shí)，建立相應(yīng)的倫理規(guī)范和檢測(cè)機(jī)制也變得至關(guān)重要。

另一個(gè)值得關(guān)注的問(wèn)題是技術(shù)的標(biāo)準(zhǔn)化和開(kāi)放性。目前ThinkSound還處于研究階段，如果這類技術(shù)能夠建立起開(kāi)放的標(biāo)準(zhǔn)和接口，就能夠更好地促進(jìn)整個(gè)行業(yè)的發(fā)展，避免技術(shù)孤島的出現(xiàn)。這需要學(xué)術(shù)界、工業(yè)界和政策制定者的共同努力。

Q&A

Q1：ThinkSound和傳統(tǒng)的AI音效生成有什么根本區(qū)別？ A：傳統(tǒng)AI音效生成就像看圖說(shuō)話，看到什么直接生成對(duì)應(yīng)聲音。而ThinkSound像專業(yè)音效師一樣會(huì)先"思考"：分析畫(huà)面細(xì)節(jié)、理解時(shí)間順序、考慮因果關(guān)系，然后制定詳細(xì)的音效制作方案。這種思維鏈推理讓生成的音效更逼真、更有邏輯性。

Q2：普通用戶能直接使用ThinkSound嗎？需要什么技術(shù)基礎(chǔ)？ A：ThinkSound的設(shè)計(jì)理念就是降低使用門(mén)檻。用戶只需要會(huì)點(diǎn)擊鼠標(biāo)和用自然語(yǔ)言描述需求即可，不需要任何音頻制作的專業(yè)知識(shí)。系統(tǒng)支持三步式操作：自動(dòng)生成基礎(chǔ)音效、點(diǎn)擊調(diào)整特定物體聲音、用語(yǔ)言指令進(jìn)行精細(xì)編輯，整個(gè)過(guò)程非常直觀。

Q3：ThinkSound會(huì)不會(huì)取代專業(yè)音效師的工作？ A：不會(huì)取代，而是成為強(qiáng)有力的創(chuàng)作助手。ThinkSound主要處理重復(fù)性的基礎(chǔ)工作，讓音效師能將更多精力投入創(chuàng)意構(gòu)思和藝術(shù)表達(dá)。就像攝影師使用自動(dòng)對(duì)焦相機(jī)一樣，工具的進(jìn)步讓專業(yè)人士能專注于更高層次的創(chuàng)作，而不是被技術(shù)細(xì)節(jié)所束縛。

人工智能音頻生成思維鏈推理

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語(yǔ)言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù)，通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開(kāi)辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<li id="o64s7"><video id="o64s7"><delect id="o64s7"></delect></video></li>