av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<style id="x5zz0"></style>

<blockquote id="x5zz0"><p id="x5zz0"></p></blockquote>

<sup id="x5zz0"><rt id="x5zz0"><form id="x5zz0"></form></rt></sup>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

VITA-1.5：讓計算機像人一樣同時"看"和"說話"的革命性突破

多模態(tài)人工智能語音交互技術(shù)實時視覺處理

VITA-1.5：讓計算機像人一樣同時"看"和"說話"的革命性突破

作者：科技行者

2025-09-16 13:03

分享至：

VITA-1.5是首個實現(xiàn)GPT-4o級別實時視覺語音交互的開源多模態(tài)大語言模型。通過創(chuàng)新的三階段訓(xùn)練策略，系統(tǒng)能夠同時處理圖像、視頻和語音信息，實現(xiàn)端到端的語音對話，無需外部ASR或TTS模塊。在多項基準測試中表現(xiàn)優(yōu)異，語音識別準確率達到97.8%以上，為多模態(tài)人機交互開辟了新的可能性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-09-16 13:03 ? 科技行者

這項由南京大學(xué)、騰訊優(yōu)圖實驗室、廈門大學(xué)等多家機構(gòu)聯(lián)合完成的研究發(fā)表于2025年1月21日，論文題為《VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction》。有興趣深入了解的讀者可以通過GitHub開源項目（https://github.com/VITA-MLLM/VITA）獲取完整的代碼和研究資料，該項目目前已獲得超過2000個星標(biāo)。

現(xiàn)在，請你閉上眼睛，設(shè)想這樣一個場景：你正在廚房里準備晚餐，雙手忙著切菜，突然想要查詢某道菜的做法。你只需要對著手機說話，同時用手機攝像頭對準你面前的食材，一個智能助手就能立刻理解你在做什么，然后用清晰的語音告訴你接下來該怎么做。這不是科幻電影，而是VITA-1.5這個新系統(tǒng)正在實現(xiàn)的能力。

過去，計算機要想同時處理視覺信息和語音對話是極其困難的。就像一個人要同時用左手畫畫、右手彈琴，還要唱歌一樣，每項技能都需要大腦的不同區(qū)域協(xié)調(diào)工作。傳統(tǒng)的人工智能系統(tǒng)通常只能專注于一種能力，要么是看圖識別，要么是語音對話，很少能像人類一樣自然地結(jié)合這些技能。

VITA-1.5的突破性在于它能夠像人類一樣，同時運用視覺和聽覺進行自然對話。這個系統(tǒng)不需要先把語音轉(zhuǎn)成文字，再把回答轉(zhuǎn)成語音這樣繁瑣的步驟，而是能夠直接進行語音到語音的交流。這就好比過去的翻譯需要先把中文寫在紙上，翻譯成英文，再讀出來；而現(xiàn)在可以直接進行同聲傳譯一樣流暢。

研究團隊面臨的最大挑戰(zhàn)是如何讓一個系統(tǒng)同時掌握看圖和說話這兩種完全不同的能力。視覺信息就像是一幅靜態(tài)的畫，包含空間和細節(jié)信息；而語音信息則像是流動的音樂，包含時間序列和韻律變化。這兩種信息的處理方式截然不同，強行讓系統(tǒng)同時學(xué)習(xí)往往會造成"顧此失彼"的問題，就像讓一個學(xué)生同時學(xué)習(xí)數(shù)學(xué)和音樂，可能兩樣都學(xué)不好。

一、循序漸進的三階段訓(xùn)練策略：從基礎(chǔ)到精通的學(xué)習(xí)之路

VITA-1.5的成功秘訣在于它采用了一種非常聰明的分階段訓(xùn)練方法，就像培養(yǎng)一個全能型人才一樣，先讓他掌握基礎(chǔ)技能，再逐步添加新能力。

第一階段是建立視覺理解的基礎(chǔ)。研究團隊首先讓系統(tǒng)學(xué)會"看懂"圖片和視頻。這個過程就像教一個孩子認識世界一樣，從簡單的物體識別開始，逐漸學(xué)會理解復(fù)雜的場景。系統(tǒng)使用了一個名為InternViT-300M的視覺編碼器作為"眼睛"，能夠?qū)?48×448像素的圖像轉(zhuǎn)換成256個視覺標(biāo)記。對于高分辨率圖像，系統(tǒng)還采用了動態(tài)分塊策略，就像用放大鏡仔細觀察圖片的每個細節(jié)一樣。

在處理視頻時，VITA-1.5采用了智能的幀采樣策略。如果視頻短于4秒，系統(tǒng)會均勻采樣4幀；如果視頻長度在4-16秒之間，則每秒采樣一幀；對于超過16秒的長視頻，系統(tǒng)會均勻采樣16幀。這種策略確保了系統(tǒng)既能捕捉到視頻的關(guān)鍵信息，又不會因為處理過多幀而影響效率。

這個階段分為三個小步驟。首先是視覺對齊訓(xùn)練，系統(tǒng)學(xué)習(xí)如何將視覺特征與語言模型連接起來，只有視覺適配器是可訓(xùn)練的，其他模塊保持凍結(jié)狀態(tài)。接著是視覺理解訓(xùn)練，系統(tǒng)學(xué)會生成圖像描述，這時視覺模塊和語言模型都參與訓(xùn)練。最后是視覺指令調(diào)優(yōu)，系統(tǒng)學(xué)會回答關(guān)于圖像的各種問題，同時保留部分描述數(shù)據(jù)以增加訓(xùn)練的多樣性。

第二階段引入了音頻理解能力。就像一個已經(jīng)會看的孩子開始學(xué)會聽和理解語音一樣。系統(tǒng)的音頻編碼模塊包含多個下采樣卷積層和24個Transformer塊，擁有約3.5億個參數(shù)，輸出幀率為12.5Hz。輸入采用梅爾濾波器組特征，窗口大小為25毫秒，位移為10毫秒。

音頻對齊訓(xùn)練使用了11萬小時的內(nèi)部語音轉(zhuǎn)錄配對數(shù)據(jù)，覆蓋中英文兩種語言。研究團隊采用兩步法：首先訓(xùn)練語音編碼器，使用常見語音識別系統(tǒng)的連接時序分類損失函數(shù)來預(yù)測轉(zhuǎn)錄文本；然后訓(xùn)練語音適配器，將音頻編碼器與語言模型集成，同時引入特殊的可訓(xùn)練輸入標(biāo)記來指導(dǎo)語音理解過程。

音頻指令調(diào)優(yōu)階段，系統(tǒng)學(xué)會處理語音問答任務(wù)。研究團隊采樣了4%的描述數(shù)據(jù)和20%的問答數(shù)據(jù)，約一半的文本問題被隨機替換為相應(yīng)的語音版本。系統(tǒng)還添加了分類頭來區(qū)分輸入是來自語音還是文本，使模型能夠更準確地處理不同類型的輸入。

第三階段是最關(guān)鍵的音頻輸出訓(xùn)練。前兩個階段讓系統(tǒng)學(xué)會了"看"和"聽"，現(xiàn)在要教它"說話"。系統(tǒng)使用TiCodec作為編解碼模型，定制了單一碼本設(shè)計，碼本大小為1024，簡化了推理階段的解碼過程。編解碼模型負責(zé)將連續(xù)語音信號編碼為離散語音標(biāo)記，頻率為40Hz，同時具備將這些標(biāo)記解碼回采樣率為24000Hz語音信號的能力。

為了讓系統(tǒng)能夠輸出語音，研究團隊在文本標(biāo)記后添加了兩個語音解碼器：非自回歸語音解碼器負責(zé)處理全局文本標(biāo)記并建模語義特征，目標(biāo)是生成語音標(biāo)記的初始分布；自回歸語音解碼器則基于非自回歸解碼器產(chǎn)生的信息逐步生成更高質(zhì)量的語音標(biāo)記。這種設(shè)計就像先有一個大概的輪廓，然后逐步細化成清晰的畫面一樣。

編解碼訓(xùn)練使用3000小時的文本-語音配對數(shù)據(jù)訓(xùn)練編解碼模型，而解碼器訓(xùn)練階段，文本通過分詞器和語言模型的嵌入層獲得嵌入向量，語音通過編解碼模型編碼器獲得語音標(biāo)記。文本嵌入向量被發(fā)送到非自回歸語音解碼器獲得全局語義特征，然后這些特征被送到自回歸語音解碼器預(yù)測相應(yīng)的語音標(biāo)記。重要的是，在這個階段語言模型保持凍結(jié)狀態(tài)，因此不會影響多模態(tài)性能。

二、強大的多模態(tài)架構(gòu)設(shè)計：統(tǒng)一而高效的信息處理中心

VITA-1.5的整體架構(gòu)就像一個高度協(xié)調(diào)的管弦樂團，每個組件都有自己的職責(zé)，但能夠完美地協(xié)同工作。輸入端采用了"多模態(tài)編碼器-適配器-語言模型"的配置，將視覺和音頻變換器與多層連接器結(jié)合，目標(biāo)是增強對視覺、語言和音頻的統(tǒng)一理解。

在視覺處理方面，系統(tǒng)的"眼睛"采用InternViT-300M作為視覺編碼器，輸入圖像尺寸為448×448像素，每張圖像生成256個視覺標(biāo)記。對于需要精細處理的高分辨率圖像，系統(tǒng)采用動態(tài)分塊策略來捕獲局部細節(jié)，提高圖像理解的準確性。視頻被視為特殊的多圖像輸入進行處理。為避免產(chǎn)生過多可能阻礙處理效率的視覺標(biāo)記，視頻幀不應(yīng)用動態(tài)分塊處理。視覺適配器采用兩層多層感知機結(jié)構(gòu)，將視覺特征映射為適合語言模型理解的視覺標(biāo)記。

音頻處理模塊的設(shè)計同樣精巧。語音編碼器由多個4倍下采樣卷積層和24個Transformer塊組成，隱藏層大小為1024。下采樣層幫助降低音頻特征的幀率，提高語言模型的處理速度。語音適配器包含多個2倍下采樣的卷積層。整個音頻編碼模塊約有3.5億參數(shù)，輸出幀率為12.5Hz，確保了高效的音頻處理能力。

語音解碼器部分采用了創(chuàng)新的雙重解碼設(shè)計。TiCodec被用作編解碼模型，定制了單一碼本設(shè)計，碼本大小為1024，這種設(shè)計簡化了推理階段的解碼過程。編解碼模型能夠?qū)⑦B續(xù)語音信號編碼為40Hz頻率的離散語音標(biāo)記，同時具備將這些標(biāo)記解碼回24000Hz采樣率語音信號的能力。

當(dāng)前的語言模型只能輸出文本標(biāo)記，要獲得語音生成能力需要讓語言模型能夠輸出語音標(biāo)記。研究團隊在文本標(biāo)記后添加了兩個語音解碼器：非自回歸語音解碼器全局處理文本標(biāo)記并建模語義特征，目標(biāo)是生成語音標(biāo)記的初始分布；自回歸語音解碼器基于非自回歸解碼器產(chǎn)生的語音信息逐步生成更高質(zhì)量的語音標(biāo)記。最終的語音標(biāo)記序列通過編解碼模型的語音解碼器轉(zhuǎn)換為連續(xù)語音信號流。兩個解碼器都采用4層LLaMA解碼器結(jié)構(gòu)，隱藏層大小為896，參數(shù)量約為1.2億。

三、豐富多樣的訓(xùn)練數(shù)據(jù)：涵蓋多語言多場景的學(xué)習(xí)素材

VITA-1.5的訓(xùn)練就像培養(yǎng)一個博學(xué)的學(xué)者，需要大量豐富多樣的學(xué)習(xí)材料。整個訓(xùn)練數(shù)據(jù)集包含約2.21萬個問題，涵蓋中英文兩種語言，確保系統(tǒng)能夠處理不同語言環(huán)境下的多模態(tài)交互。

圖像描述數(shù)據(jù)是系統(tǒng)學(xué)習(xí)視覺理解的基礎(chǔ)。ShareGPT4V提供了9.95萬個英文圖像描述問題，ALLaVA-Caption貢獻了69.74萬個英文描述，SharedGPT4o-Image增加了5.55萬個英文樣本，還有59.37萬個中文合成數(shù)據(jù)。這些數(shù)據(jù)教會系統(tǒng)如何用自然語言描述圖像內(nèi)容，就像訓(xùn)練一個解說員學(xué)會生動地描述所看到的場景。

圖像問答數(shù)據(jù)進一步提升了系統(tǒng)的推理能力。LLaVA-150K提供了21.84萬個中文問答對，LLaVA-Mixture-sample貢獻了187.21萬個英文樣本，LVIS-Instruct增加了93.94萬個英文問答，ScienceQA提供了1.27萬個英文科學(xué)問題，ChatQA貢獻了7390個英文對話問答。這些數(shù)據(jù)涵蓋了從一般圖像問答到數(shù)學(xué)推理的各種任務(wù)，讓系統(tǒng)學(xué)會在不同情境下進行視覺推理。

文字識別和圖表理解數(shù)據(jù)幫助系統(tǒng)掌握更精細的視覺技能。Anyword-3M提供了170.93萬個中文文字識別樣本，ICDAR2019-LSVT貢獻了36.63萬個中文樣本，UReader和SynDOG分別提供了英文文字識別訓(xùn)練數(shù)據(jù)。這些數(shù)據(jù)讓系統(tǒng)能夠識別圖像中的文字內(nèi)容，理解圖表和文檔，就像訓(xùn)練一個既能看圖又能讀字的助手。

視頻理解數(shù)據(jù)讓系統(tǒng)學(xué)會處理動態(tài)視覺信息。ShareGemini提供了20.57萬個中文視頻描述樣本，合成數(shù)據(jù)貢獻了56.94萬個中英文視頻樣本和433.63萬個中英文視頻問答對。這些數(shù)據(jù)教會系統(tǒng)理解視頻中的動作、場景變化和時間關(guān)系。

純文本數(shù)據(jù)確保系統(tǒng)保持強大的語言理解和生成能力。157.42萬個中英文合成文本問答對幫助系統(tǒng)在處理多模態(tài)信息的同時，不丟失原有的文本處理能力。

除了這些圖像和視頻數(shù)據(jù)，系統(tǒng)還使用了11萬小時的內(nèi)部語音轉(zhuǎn)錄配對數(shù)據(jù)進行音頻編碼器訓(xùn)練和音頻編碼器與語言模型的對齊，涵蓋中英文兩種語言。另外，3000小時由文本到語音系統(tǒng)生成的文本-語音配對數(shù)據(jù)用于訓(xùn)練語音解碼器，確保系統(tǒng)能夠生成自然流暢的語音回復(fù)。

四、全面的性能評估：與頂級模型的正面較量

為了驗證VITA-1.5的實際能力，研究團隊進行了全方位的性能測試，就像給一個全能運動員安排各種比賽項目一樣。

在圖像理解能力測試中，VITA-1.5與多個開源和閉源模型進行了對比。測試采用了九個權(quán)威評估基準，包括MME、MMBench、MMStar、MMMU、MathVista、HallusionBench、AI2D、OCRBench和MMVet。這些基準覆蓋了通用多模態(tài)能力、數(shù)學(xué)推理、幻覺檢測、圖表理解和文字識別等多個方面。

結(jié)果顯示，VITA-1.5在完成三個階段訓(xùn)練后，平均得分達到66.8，表現(xiàn)可比肩領(lǐng)先的圖像視頻多模態(tài)大語言模型。特別值得注意的是，在完成第二階段（音頻輸入調(diào)優(yōu)）和第三階段（音頻輸出調(diào)優(yōu)）訓(xùn)練后，VITA-1.5幾乎完全保持了第一階段（視覺語言訓(xùn)練）的原始視覺語言能力，這證明了分階段訓(xùn)練策略的有效性。

與閉源模型相比，VITA-1.5的表現(xiàn)同樣令人印象深刻。在某些指標(biāo)上，它甚至超越了GPT-4V和GPT-4o-mini等知名模型。例如，在OCRBench測試中，VITA-1.5得分732，超過了GPT-4V的678分。在MME綜合評估中，VITA-1.5獲得2352分，表現(xiàn)穩(wěn)定可靠。

視頻理解能力測試采用了Video-MME、MVBench和TempCompass等基準。盡管VITA-1.5在某些視頻理解任務(wù)上仍落后于GPT-4o和Gemini-1.5-Pro等頂級閉源模型，但它與許多開源模型的表現(xiàn)相當(dāng)，顯示出良好的視頻處理能力。在TempCompass基準上，VITA-1.5得分66.7，接近InternLM-XComposer-2.5的62.1分和MiniCPM-V-2.6的66.3分。

語音識別能力的測試結(jié)果尤其令人鼓舞。在中文語音識別方面，VITA-1.5在aishell-1測試集上的字符錯誤率僅為2.2%，在test net上為8.4%，在test meeting上為10.0%，均顯著優(yōu)于VITA-1.0的表現(xiàn)。在英文語音識別方面，系統(tǒng)在dev-clean上的詞錯誤率為3.3%，在dev-other上為7.2%，在test-clean上為3.4%，在test-other上為7.5%，表現(xiàn)同樣出色。

這些測試結(jié)果不僅超越了專門的語音模型如Wav2vec2-base，還優(yōu)于其他多模態(tài)模型如Mini-Omini2和Freeze-Omini。這證明VITA-1.5成功地整合了先進的語音能力，能夠支持高質(zhì)量的多模態(tài)交互。

五、技術(shù)創(chuàng)新與實際應(yīng)用：從實驗室到現(xiàn)實生活的跨越

VITA-1.5的技術(shù)創(chuàng)新不僅體現(xiàn)在性能數(shù)據(jù)上，更重要的是它為實際應(yīng)用開辟了新的可能性。這個系統(tǒng)實現(xiàn)了真正的端到端語音到語音對話，無需依賴外部的語音識別或文本轉(zhuǎn)語音模塊，這大大降低了延遲，提高了交互的自然性。

在實際使用場景中，VITA-1.5展現(xiàn)出了接近實時的交互能力。用戶可以打開攝像頭，進行流暢的語音對話，系統(tǒng)能夠同時理解視覺信息和語音指令，然后直接用語音回應(yīng)。這種能力在多個領(lǐng)域具有巨大的應(yīng)用潛力。

在教育領(lǐng)域，VITA-1.5可以作為智能輔導(dǎo)助手，學(xué)生可以通過語音提問，同時展示作業(yè)或?qū)W習(xí)材料，系統(tǒng)能夠理解具體問題并提供針對性的語音解答。在醫(yī)療保健領(lǐng)域，它可以協(xié)助醫(yī)生進行病例分析，通過語音描述癥狀的同時展示影像資料，獲得初步的診斷建議。

在客戶服務(wù)方面，VITA-1.5可以提供更加自然和高效的服務(wù)體驗?？蛻艨梢酝ㄟ^語音描述問題，同時展示相關(guān)產(chǎn)品或文檔，系統(tǒng)能夠準確理解情況并提供相應(yīng)的解決方案。在無障礙技術(shù)領(lǐng)域，這個系統(tǒng)可以為視覺或聽覺障礙人士提供更好的信息獲取和交流方式。

研究團隊已經(jīng)將VITA-1.5的訓(xùn)練和推理代碼在GitHub上開源，項目地址為https://github.com/VITA-MLLM/VITA，目前已獲得超過2000個星標(biāo)，這表明了學(xué)術(shù)界和工業(yè)界對這項技術(shù)的高度關(guān)注。開源發(fā)布降低了技術(shù)門檻，使更多研究者和開發(fā)者能夠基于VITA-1.5進行進一步的研究和應(yīng)用開發(fā)。

與傳統(tǒng)的多模態(tài)系統(tǒng)相比，VITA-1.5的主要優(yōu)勢在于其統(tǒng)一的端到端架構(gòu)。傳統(tǒng)系統(tǒng)通常需要多個獨立模塊的協(xié)作，例如先用自動語音識別將語音轉(zhuǎn)為文本，然后用文本到語音系統(tǒng)生成回復(fù)語音，這種流水線式的處理方式不僅增加了延遲，還可能在各個環(huán)節(jié)引入錯誤。VITA-1.5通過統(tǒng)一的訓(xùn)練策略，讓所有模態(tài)在同一個框架下協(xié)同工作，實現(xiàn)了更加自然和高效的交互。

系統(tǒng)的另一個重要特點是其可擴展性。三階段訓(xùn)練策略不僅解決了多模態(tài)沖突問題，還為未來集成更多模態(tài)（如觸覺、嗅覺等）提供了框架參考。這種漸進式的能力擴展方法可能成為構(gòu)建更加全面的人工智能系統(tǒng)的標(biāo)準范式。

從技術(shù)發(fā)展的角度來看，VITA-1.5代表了多模態(tài)人工智能從專業(yè)工具向日常助手轉(zhuǎn)變的重要一步。它展示了如何通過精心設(shè)計的訓(xùn)練策略和架構(gòu)，讓人工智能系統(tǒng)具備更加接近人類的感知和交流能力。這不僅推進了人工智能技術(shù)的發(fā)展，也為構(gòu)建更加智能和便民的數(shù)字社會提供了重要支撐。

說到底，VITA-1.5的出現(xiàn)標(biāo)志著我們正在進入一個全新的人機交互時代。過去，我們需要學(xué)習(xí)如何與計算機"對話"，使用特定的命令和界面；現(xiàn)在，計算機開始學(xué)習(xí)如何像人一樣與我們交流，能看能聽能說，理解我們的意圖和需求。這種轉(zhuǎn)變不僅會改變我們使用技術(shù)的方式，更會重新定義人與機器之間的關(guān)系。

雖然VITA-1.5目前在某些復(fù)雜的視頻理解任務(wù)上仍有提升空間，但它已經(jīng)展現(xiàn)出了巨大的潛力和價值。隨著技術(shù)的不斷完善和應(yīng)用場景的不斷擴展，我們有理由相信，這樣的多模態(tài)智能系統(tǒng)將在不久的將來成為我們?nèi)粘Ｉ钪胁豢苫蛉钡闹?，讓人工智能真正服?wù)于人類的美好生活。

對于那些關(guān)注人工智能發(fā)展趨勢的讀者，VITA-1.5的成功經(jīng)驗提供了寶貴的啟示：技術(shù)突破往往不是一蹴而就的，而是需要通過精心設(shè)計的策略和持續(xù)的努力來實現(xiàn)。對于想要了解更多技術(shù)細節(jié)的研究者和開發(fā)者，可以通過訪問GitHub項目頁面（https://github.com/VITA-MLLM/VITA）獲取完整的代碼和文檔資源。

Q&A

Q1：VITA-1.5和其他AI語音助手有什么區(qū)別？

A：VITA-1.5最大的區(qū)別是能同時處理視覺和語音信息進行實時對話。傳統(tǒng)AI助手要么只能聽語音，要么只能看圖片，而VITA-1.5可以一邊看攝像頭畫面一邊進行語音對話，就像真人一樣同時用眼睛和耳朵理解你的需求，然后直接用語音回答，不需要先轉(zhuǎn)成文字再轉(zhuǎn)成語音的中間步驟。

Q2：普通人什么時候能用上VITA-1.5？

A：目前VITA-1.5還主要是研究階段的技術(shù)，研究團隊已經(jīng)在GitHub上開源了代碼，但普通用戶直接使用還需要一定的技術(shù)門檻。不過隨著技術(shù)成熟和產(chǎn)業(yè)化推進，預(yù)計未來1-2年內(nèi)可能會有基于這種技術(shù)的商業(yè)產(chǎn)品出現(xiàn)，讓普通人也能體驗到這種多模態(tài)AI交互。

Q3：VITA-1.5的語音對話質(zhì)量怎么樣？

A：根據(jù)測試結(jié)果，VITA-1.5在中英文語音識別方面表現(xiàn)出色，中文字符錯誤率低至2.2%，英文詞錯誤率為3.3-7.5%，超越了許多專門的語音識別系統(tǒng)。它能夠進行接近實時的語音交互，語音質(zhì)量自然流暢，在保持強大視覺理解能力的同時實現(xiàn)了高質(zhì)量的語音對話功能。

多模態(tài)人工智能語音交互技術(shù)實時視覺處理

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運動信息，顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<abbr id="2ugvu"></abbr>