av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 VITA-1.5:讓計算機像人一樣同時"看"和"說話"的革命性突破

VITA-1.5:讓計算機像人一樣同時"看"和"說話"的革命性突破

2025-09-16 13:03
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-16 13:03 ? 科技行者

這項由南京大學(xué)、騰訊優(yōu)圖實驗室、廈門大學(xué)等多家機構(gòu)聯(lián)合完成的研究發(fā)表于2025年1月21日,論文題為《VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction》。有興趣深入了解的讀者可以通過GitHub開源項目(https://github.com/VITA-MLLM/VITA)獲取完整的代碼和研究資料,該項目目前已獲得超過2000個星標(biāo)。

現(xiàn)在,請你閉上眼睛,設(shè)想這樣一個場景:你正在廚房里準備晚餐,雙手忙著切菜,突然想要查詢某道菜的做法。你只需要對著手機說話,同時用手機攝像頭對準你面前的食材,一個智能助手就能立刻理解你在做什么,然后用清晰的語音告訴你接下來該怎么做。這不是科幻電影,而是VITA-1.5這個新系統(tǒng)正在實現(xiàn)的能力。

過去,計算機要想同時處理視覺信息和語音對話是極其困難的。就像一個人要同時用左手畫畫、右手彈琴,還要唱歌一樣,每項技能都需要大腦的不同區(qū)域協(xié)調(diào)工作。傳統(tǒng)的人工智能系統(tǒng)通常只能專注于一種能力,要么是看圖識別,要么是語音對話,很少能像人類一樣自然地結(jié)合這些技能。

VITA-1.5的突破性在于它能夠像人類一樣,同時運用視覺和聽覺進行自然對話。這個系統(tǒng)不需要先把語音轉(zhuǎn)成文字,再把回答轉(zhuǎn)成語音這樣繁瑣的步驟,而是能夠直接進行語音到語音的交流。這就好比過去的翻譯需要先把中文寫在紙上,翻譯成英文,再讀出來;而現(xiàn)在可以直接進行同聲傳譯一樣流暢。

研究團隊面臨的最大挑戰(zhàn)是如何讓一個系統(tǒng)同時掌握看圖和說話這兩種完全不同的能力。視覺信息就像是一幅靜態(tài)的畫,包含空間和細節(jié)信息;而語音信息則像是流動的音樂,包含時間序列和韻律變化。這兩種信息的處理方式截然不同,強行讓系統(tǒng)同時學(xué)習(xí)往往會造成"顧此失彼"的問題,就像讓一個學(xué)生同時學(xué)習(xí)數(shù)學(xué)和音樂,可能兩樣都學(xué)不好。

一、循序漸進的三階段訓(xùn)練策略:從基礎(chǔ)到精通的學(xué)習(xí)之路

VITA-1.5的成功秘訣在于它采用了一種非常聰明的分階段訓(xùn)練方法,就像培養(yǎng)一個全能型人才一樣,先讓他掌握基礎(chǔ)技能,再逐步添加新能力。

第一階段是建立視覺理解的基礎(chǔ)。研究團隊首先讓系統(tǒng)學(xué)會"看懂"圖片和視頻。這個過程就像教一個孩子認識世界一樣,從簡單的物體識別開始,逐漸學(xué)會理解復(fù)雜的場景。系統(tǒng)使用了一個名為InternViT-300M的視覺編碼器作為"眼睛",能夠?qū)?48×448像素的圖像轉(zhuǎn)換成256個視覺標(biāo)記。對于高分辨率圖像,系統(tǒng)還采用了動態(tài)分塊策略,就像用放大鏡仔細觀察圖片的每個細節(jié)一樣。

在處理視頻時,VITA-1.5采用了智能的幀采樣策略。如果視頻短于4秒,系統(tǒng)會均勻采樣4幀;如果視頻長度在4-16秒之間,則每秒采樣一幀;對于超過16秒的長視頻,系統(tǒng)會均勻采樣16幀。這種策略確保了系統(tǒng)既能捕捉到視頻的關(guān)鍵信息,又不會因為處理過多幀而影響效率。

這個階段分為三個小步驟。首先是視覺對齊訓(xùn)練,系統(tǒng)學(xué)習(xí)如何將視覺特征與語言模型連接起來,只有視覺適配器是可訓(xùn)練的,其他模塊保持凍結(jié)狀態(tài)。接著是視覺理解訓(xùn)練,系統(tǒng)學(xué)會生成圖像描述,這時視覺模塊和語言模型都參與訓(xùn)練。最后是視覺指令調(diào)優(yōu),系統(tǒng)學(xué)會回答關(guān)于圖像的各種問題,同時保留部分描述數(shù)據(jù)以增加訓(xùn)練的多樣性。

第二階段引入了音頻理解能力。就像一個已經(jīng)會看的孩子開始學(xué)會聽和理解語音一樣。系統(tǒng)的音頻編碼模塊包含多個下采樣卷積層和24個Transformer塊,擁有約3.5億個參數(shù),輸出幀率為12.5Hz。輸入采用梅爾濾波器組特征,窗口大小為25毫秒,位移為10毫秒。

音頻對齊訓(xùn)練使用了11萬小時的內(nèi)部語音轉(zhuǎn)錄配對數(shù)據(jù),覆蓋中英文兩種語言。研究團隊采用兩步法:首先訓(xùn)練語音編碼器,使用常見語音識別系統(tǒng)的連接時序分類損失函數(shù)來預(yù)測轉(zhuǎn)錄文本;然后訓(xùn)練語音適配器,將音頻編碼器與語言模型集成,同時引入特殊的可訓(xùn)練輸入標(biāo)記來指導(dǎo)語音理解過程。

音頻指令調(diào)優(yōu)階段,系統(tǒng)學(xué)會處理語音問答任務(wù)。研究團隊采樣了4%的描述數(shù)據(jù)和20%的問答數(shù)據(jù),約一半的文本問題被隨機替換為相應(yīng)的語音版本。系統(tǒng)還添加了分類頭來區(qū)分輸入是來自語音還是文本,使模型能夠更準確地處理不同類型的輸入。

第三階段是最關(guān)鍵的音頻輸出訓(xùn)練。前兩個階段讓系統(tǒng)學(xué)會了"看"和"聽",現(xiàn)在要教它"說話"。系統(tǒng)使用TiCodec作為編解碼模型,定制了單一碼本設(shè)計,碼本大小為1024,簡化了推理階段的解碼過程。編解碼模型負責(zé)將連續(xù)語音信號編碼為離散語音標(biāo)記,頻率為40Hz,同時具備將這些標(biāo)記解碼回采樣率為24000Hz語音信號的能力。

為了讓系統(tǒng)能夠輸出語音,研究團隊在文本標(biāo)記后添加了兩個語音解碼器:非自回歸語音解碼器負責(zé)處理全局文本標(biāo)記并建模語義特征,目標(biāo)是生成語音標(biāo)記的初始分布;自回歸語音解碼器則基于非自回歸解碼器產(chǎn)生的信息逐步生成更高質(zhì)量的語音標(biāo)記。這種設(shè)計就像先有一個大概的輪廓,然后逐步細化成清晰的畫面一樣。

編解碼訓(xùn)練使用3000小時的文本-語音配對數(shù)據(jù)訓(xùn)練編解碼模型,而解碼器訓(xùn)練階段,文本通過分詞器和語言模型的嵌入層獲得嵌入向量,語音通過編解碼模型編碼器獲得語音標(biāo)記。文本嵌入向量被發(fā)送到非自回歸語音解碼器獲得全局語義特征,然后這些特征被送到自回歸語音解碼器預(yù)測相應(yīng)的語音標(biāo)記。重要的是,在這個階段語言模型保持凍結(jié)狀態(tài),因此不會影響多模態(tài)性能。

二、強大的多模態(tài)架構(gòu)設(shè)計:統(tǒng)一而高效的信息處理中心

VITA-1.5的整體架構(gòu)就像一個高度協(xié)調(diào)的管弦樂團,每個組件都有自己的職責(zé),但能夠完美地協(xié)同工作。輸入端采用了"多模態(tài)編碼器-適配器-語言模型"的配置,將視覺和音頻變換器與多層連接器結(jié)合,目標(biāo)是增強對視覺、語言和音頻的統(tǒng)一理解。

在視覺處理方面,系統(tǒng)的"眼睛"采用InternViT-300M作為視覺編碼器,輸入圖像尺寸為448×448像素,每張圖像生成256個視覺標(biāo)記。對于需要精細處理的高分辨率圖像,系統(tǒng)采用動態(tài)分塊策略來捕獲局部細節(jié),提高圖像理解的準確性。視頻被視為特殊的多圖像輸入進行處理。為避免產(chǎn)生過多可能阻礙處理效率的視覺標(biāo)記,視頻幀不應(yīng)用動態(tài)分塊處理。視覺適配器采用兩層多層感知機結(jié)構(gòu),將視覺特征映射為適合語言模型理解的視覺標(biāo)記。

音頻處理模塊的設(shè)計同樣精巧。語音編碼器由多個4倍下采樣卷積層和24個Transformer塊組成,隱藏層大小為1024。下采樣層幫助降低音頻特征的幀率,提高語言模型的處理速度。語音適配器包含多個2倍下采樣的卷積層。整個音頻編碼模塊約有3.5億參數(shù),輸出幀率為12.5Hz,確保了高效的音頻處理能力。

語音解碼器部分采用了創(chuàng)新的雙重解碼設(shè)計。TiCodec被用作編解碼模型,定制了單一碼本設(shè)計,碼本大小為1024,這種設(shè)計簡化了推理階段的解碼過程。編解碼模型能夠?qū)⑦B續(xù)語音信號編碼為40Hz頻率的離散語音標(biāo)記,同時具備將這些標(biāo)記解碼回24000Hz采樣率語音信號的能力。

當(dāng)前的語言模型只能輸出文本標(biāo)記,要獲得語音生成能力需要讓語言模型能夠輸出語音標(biāo)記。研究團隊在文本標(biāo)記后添加了兩個語音解碼器:非自回歸語音解碼器全局處理文本標(biāo)記并建模語義特征,目標(biāo)是生成語音標(biāo)記的初始分布;自回歸語音解碼器基于非自回歸解碼器產(chǎn)生的語音信息逐步生成更高質(zhì)量的語音標(biāo)記。最終的語音標(biāo)記序列通過編解碼模型的語音解碼器轉(zhuǎn)換為連續(xù)語音信號流。兩個解碼器都采用4層LLaMA解碼器結(jié)構(gòu),隱藏層大小為896,參數(shù)量約為1.2億。

三、豐富多樣的訓(xùn)練數(shù)據(jù):涵蓋多語言多場景的學(xué)習(xí)素材

VITA-1.5的訓(xùn)練就像培養(yǎng)一個博學(xué)的學(xué)者,需要大量豐富多樣的學(xué)習(xí)材料。整個訓(xùn)練數(shù)據(jù)集包含約2.21萬個問題,涵蓋中英文兩種語言,確保系統(tǒng)能夠處理不同語言環(huán)境下的多模態(tài)交互。

圖像描述數(shù)據(jù)是系統(tǒng)學(xué)習(xí)視覺理解的基礎(chǔ)。ShareGPT4V提供了9.95萬個英文圖像描述問題,ALLaVA-Caption貢獻了69.74萬個英文描述,SharedGPT4o-Image增加了5.55萬個英文樣本,還有59.37萬個中文合成數(shù)據(jù)。這些數(shù)據(jù)教會系統(tǒng)如何用自然語言描述圖像內(nèi)容,就像訓(xùn)練一個解說員學(xué)會生動地描述所看到的場景。

圖像問答數(shù)據(jù)進一步提升了系統(tǒng)的推理能力。LLaVA-150K提供了21.84萬個中文問答對,LLaVA-Mixture-sample貢獻了187.21萬個英文樣本,LVIS-Instruct增加了93.94萬個英文問答,ScienceQA提供了1.27萬個英文科學(xué)問題,ChatQA貢獻了7390個英文對話問答。這些數(shù)據(jù)涵蓋了從一般圖像問答到數(shù)學(xué)推理的各種任務(wù),讓系統(tǒng)學(xué)會在不同情境下進行視覺推理。

文字識別和圖表理解數(shù)據(jù)幫助系統(tǒng)掌握更精細的視覺技能。Anyword-3M提供了170.93萬個中文文字識別樣本,ICDAR2019-LSVT貢獻了36.63萬個中文樣本,UReader和SynDOG分別提供了英文文字識別訓(xùn)練數(shù)據(jù)。這些數(shù)據(jù)讓系統(tǒng)能夠識別圖像中的文字內(nèi)容,理解圖表和文檔,就像訓(xùn)練一個既能看圖又能讀字的助手。

視頻理解數(shù)據(jù)讓系統(tǒng)學(xué)會處理動態(tài)視覺信息。ShareGemini提供了20.57萬個中文視頻描述樣本,合成數(shù)據(jù)貢獻了56.94萬個中英文視頻樣本和433.63萬個中英文視頻問答對。這些數(shù)據(jù)教會系統(tǒng)理解視頻中的動作、場景變化和時間關(guān)系。

純文本數(shù)據(jù)確保系統(tǒng)保持強大的語言理解和生成能力。157.42萬個中英文合成文本問答對幫助系統(tǒng)在處理多模態(tài)信息的同時,不丟失原有的文本處理能力。

除了這些圖像和視頻數(shù)據(jù),系統(tǒng)還使用了11萬小時的內(nèi)部語音轉(zhuǎn)錄配對數(shù)據(jù)進行音頻編碼器訓(xùn)練和音頻編碼器與語言模型的對齊,涵蓋中英文兩種語言。另外,3000小時由文本到語音系統(tǒng)生成的文本-語音配對數(shù)據(jù)用于訓(xùn)練語音解碼器,確保系統(tǒng)能夠生成自然流暢的語音回復(fù)。

四、全面的性能評估:與頂級模型的正面較量

為了驗證VITA-1.5的實際能力,研究團隊進行了全方位的性能測試,就像給一個全能運動員安排各種比賽項目一樣。

在圖像理解能力測試中,VITA-1.5與多個開源和閉源模型進行了對比。測試采用了九個權(quán)威評估基準,包括MME、MMBench、MMStar、MMMU、MathVista、HallusionBench、AI2D、OCRBench和MMVet。這些基準覆蓋了通用多模態(tài)能力、數(shù)學(xué)推理、幻覺檢測、圖表理解和文字識別等多個方面。

結(jié)果顯示,VITA-1.5在完成三個階段訓(xùn)練后,平均得分達到66.8,表現(xiàn)可比肩領(lǐng)先的圖像視頻多模態(tài)大語言模型。特別值得注意的是,在完成第二階段(音頻輸入調(diào)優(yōu))和第三階段(音頻輸出調(diào)優(yōu))訓(xùn)練后,VITA-1.5幾乎完全保持了第一階段(視覺語言訓(xùn)練)的原始視覺語言能力,這證明了分階段訓(xùn)練策略的有效性。

與閉源模型相比,VITA-1.5的表現(xiàn)同樣令人印象深刻。在某些指標(biāo)上,它甚至超越了GPT-4V和GPT-4o-mini等知名模型。例如,在OCRBench測試中,VITA-1.5得分732,超過了GPT-4V的678分。在MME綜合評估中,VITA-1.5獲得2352分,表現(xiàn)穩(wěn)定可靠。

視頻理解能力測試采用了Video-MME、MVBench和TempCompass等基準。盡管VITA-1.5在某些視頻理解任務(wù)上仍落后于GPT-4o和Gemini-1.5-Pro等頂級閉源模型,但它與許多開源模型的表現(xiàn)相當(dāng),顯示出良好的視頻處理能力。在TempCompass基準上,VITA-1.5得分66.7,接近InternLM-XComposer-2.5的62.1分和MiniCPM-V-2.6的66.3分。

語音識別能力的測試結(jié)果尤其令人鼓舞。在中文語音識別方面,VITA-1.5在aishell-1測試集上的字符錯誤率僅為2.2%,在test net上為8.4%,在test meeting上為10.0%,均顯著優(yōu)于VITA-1.0的表現(xiàn)。在英文語音識別方面,系統(tǒng)在dev-clean上的詞錯誤率為3.3%,在dev-other上為7.2%,在test-clean上為3.4%,在test-other上為7.5%,表現(xiàn)同樣出色。

這些測試結(jié)果不僅超越了專門的語音模型如Wav2vec2-base,還優(yōu)于其他多模態(tài)模型如Mini-Omini2和Freeze-Omini。這證明VITA-1.5成功地整合了先進的語音能力,能夠支持高質(zhì)量的多模態(tài)交互。

五、技術(shù)創(chuàng)新與實際應(yīng)用:從實驗室到現(xiàn)實生活的跨越

VITA-1.5的技術(shù)創(chuàng)新不僅體現(xiàn)在性能數(shù)據(jù)上,更重要的是它為實際應(yīng)用開辟了新的可能性。這個系統(tǒng)實現(xiàn)了真正的端到端語音到語音對話,無需依賴外部的語音識別或文本轉(zhuǎn)語音模塊,這大大降低了延遲,提高了交互的自然性。

在實際使用場景中,VITA-1.5展現(xiàn)出了接近實時的交互能力。用戶可以打開攝像頭,進行流暢的語音對話,系統(tǒng)能夠同時理解視覺信息和語音指令,然后直接用語音回應(yīng)。這種能力在多個領(lǐng)域具有巨大的應(yīng)用潛力。

在教育領(lǐng)域,VITA-1.5可以作為智能輔導(dǎo)助手,學(xué)生可以通過語音提問,同時展示作業(yè)或?qū)W習(xí)材料,系統(tǒng)能夠理解具體問題并提供針對性的語音解答。在醫(yī)療保健領(lǐng)域,它可以協(xié)助醫(yī)生進行病例分析,通過語音描述癥狀的同時展示影像資料,獲得初步的診斷建議。

在客戶服務(wù)方面,VITA-1.5可以提供更加自然和高效的服務(wù)體驗??蛻艨梢酝ㄟ^語音描述問題,同時展示相關(guān)產(chǎn)品或文檔,系統(tǒng)能夠準確理解情況并提供相應(yīng)的解決方案。在無障礙技術(shù)領(lǐng)域,這個系統(tǒng)可以為視覺或聽覺障礙人士提供更好的信息獲取和交流方式。

研究團隊已經(jīng)將VITA-1.5的訓(xùn)練和推理代碼在GitHub上開源,項目地址為https://github.com/VITA-MLLM/VITA,目前已獲得超過2000個星標(biāo),這表明了學(xué)術(shù)界和工業(yè)界對這項技術(shù)的高度關(guān)注。開源發(fā)布降低了技術(shù)門檻,使更多研究者和開發(fā)者能夠基于VITA-1.5進行進一步的研究和應(yīng)用開發(fā)。

與傳統(tǒng)的多模態(tài)系統(tǒng)相比,VITA-1.5的主要優(yōu)勢在于其統(tǒng)一的端到端架構(gòu)。傳統(tǒng)系統(tǒng)通常需要多個獨立模塊的協(xié)作,例如先用自動語音識別將語音轉(zhuǎn)為文本,然后用文本到語音系統(tǒng)生成回復(fù)語音,這種流水線式的處理方式不僅增加了延遲,還可能在各個環(huán)節(jié)引入錯誤。VITA-1.5通過統(tǒng)一的訓(xùn)練策略,讓所有模態(tài)在同一個框架下協(xié)同工作,實現(xiàn)了更加自然和高效的交互。

系統(tǒng)的另一個重要特點是其可擴展性。三階段訓(xùn)練策略不僅解決了多模態(tài)沖突問題,還為未來集成更多模態(tài)(如觸覺、嗅覺等)提供了框架參考。這種漸進式的能力擴展方法可能成為構(gòu)建更加全面的人工智能系統(tǒng)的標(biāo)準范式。

從技術(shù)發(fā)展的角度來看,VITA-1.5代表了多模態(tài)人工智能從專業(yè)工具向日常助手轉(zhuǎn)變的重要一步。它展示了如何通過精心設(shè)計的訓(xùn)練策略和架構(gòu),讓人工智能系統(tǒng)具備更加接近人類的感知和交流能力。這不僅推進了人工智能技術(shù)的發(fā)展,也為構(gòu)建更加智能和便民的數(shù)字社會提供了重要支撐。

說到底,VITA-1.5的出現(xiàn)標(biāo)志著我們正在進入一個全新的人機交互時代。過去,我們需要學(xué)習(xí)如何與計算機"對話",使用特定的命令和界面;現(xiàn)在,計算機開始學(xué)習(xí)如何像人一樣與我們交流,能看能聽能說,理解我們的意圖和需求。這種轉(zhuǎn)變不僅會改變我們使用技術(shù)的方式,更會重新定義人與機器之間的關(guān)系。

雖然VITA-1.5目前在某些復(fù)雜的視頻理解任務(wù)上仍有提升空間,但它已經(jīng)展現(xiàn)出了巨大的潛力和價值。隨著技術(shù)的不斷完善和應(yīng)用場景的不斷擴展,我們有理由相信,這樣的多模態(tài)智能系統(tǒng)將在不久的將來成為我們?nèi)粘I钪胁豢苫蛉钡闹?,讓人工智能真正服?wù)于人類的美好生活。

對于那些關(guān)注人工智能發(fā)展趨勢的讀者,VITA-1.5的成功經(jīng)驗提供了寶貴的啟示:技術(shù)突破往往不是一蹴而就的,而是需要通過精心設(shè)計的策略和持續(xù)的努力來實現(xiàn)。對于想要了解更多技術(shù)細節(jié)的研究者和開發(fā)者,可以通過訪問GitHub項目頁面(https://github.com/VITA-MLLM/VITA)獲取完整的代碼和文檔資源。

Q&A

Q1:VITA-1.5和其他AI語音助手有什么區(qū)別?

A:VITA-1.5最大的區(qū)別是能同時處理視覺和語音信息進行實時對話。傳統(tǒng)AI助手要么只能聽語音,要么只能看圖片,而VITA-1.5可以一邊看攝像頭畫面一邊進行語音對話,就像真人一樣同時用眼睛和耳朵理解你的需求,然后直接用語音回答,不需要先轉(zhuǎn)成文字再轉(zhuǎn)成語音的中間步驟。

Q2:普通人什么時候能用上VITA-1.5?

A:目前VITA-1.5還主要是研究階段的技術(shù),研究團隊已經(jīng)在GitHub上開源了代碼,但普通用戶直接使用還需要一定的技術(shù)門檻。不過隨著技術(shù)成熟和產(chǎn)業(yè)化推進,預(yù)計未來1-2年內(nèi)可能會有基于這種技術(shù)的商業(yè)產(chǎn)品出現(xiàn),讓普通人也能體驗到這種多模態(tài)AI交互。

Q3:VITA-1.5的語音對話質(zhì)量怎么樣?

A:根據(jù)測試結(jié)果,VITA-1.5在中英文語音識別方面表現(xiàn)出色,中文字符錯誤率低至2.2%,英文詞錯誤率為3.3-7.5%,超越了許多專門的語音識別系統(tǒng)。它能夠進行接近實時的語音交互,語音質(zhì)量自然流暢,在保持強大視覺理解能力的同時實現(xiàn)了高質(zhì)量的語音對話功能。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-