av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 阿里Qwen團隊重磅發(fā)布:一個AI助手同時懂看聽說,還能實時"思考+說話"

阿里Qwen團隊重磅發(fā)布:一個AI助手同時懂看聽說,還能實時"思考+說話"

2025-08-04 13:32
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-04 13:32 ? 科技行者

這項由阿里巴巴Qwen團隊開發(fā)的突破性研究發(fā)表于2025年3月27日,名為《Qwen2.5-Omni Technical Report》。有興趣深入了解的讀者可以通過arXiv:2503.20215v1訪問完整論文,或者在Hugging Face、ModelScope和GitHub上找到相關(guān)代碼和模型。

人類在日常生活中能夠同時看到畫面、聽到聲音,然后用語言或表情來回應(yīng)——這看起來很自然的能力,對于人工智能來說卻是一個巨大的挑戰(zhàn)。就像讓一個機器人同時學會聽音樂、看電影,還要能即時發(fā)表感想一樣困難。不過,阿里巴巴的Qwen團隊剛剛在這個方向上取得了重大突破,他們開發(fā)出了一個名為Qwen2.5-Omni的AI模型,這個"全能型選手"不僅能同時理解文字、圖片、音頻和視頻,還能像人類一樣實時地用文字和語音來回應(yīng)。

這項研究的創(chuàng)新之處在于解決了一個關(guān)鍵問題:如何讓AI同時處理多種信息輸入,并且能夠流暢地進行"思考"和"說話"。以往的AI要么擅長看圖片,要么擅長聽聲音,很少有能同時做好這些事情的。而Qwen2.5-Omni就像一個真正的"多面手",能夠在觀看視頻的同時聽取音頻內(nèi)容,然后實時地用自然語言回應(yīng)用戶的問題。更令人印象深刻的是,它能夠同時生成文字回答和語音回答,就像人類大腦指揮嘴巴說話的同時,手也能寫字一樣。

一、破解多模態(tài)理解的時間同步難題

當我們看電影時,畫面和聲音是完美同步的——演員說話時嘴唇的動作和聲音完全對應(yīng)。但對AI來說,要做到這種同步理解卻不簡單。Qwen團隊首先要解決的就是如何讓AI正確理解視頻中的畫面和音頻之間的時間關(guān)系。

研究團隊提出了一個叫做TMRoPE(Time-aligned Multimodal RoPE)的新方法。用一個簡單的比喻來說,這就像給AI裝上了一塊精準的時鐘,讓它能夠準確記錄每個畫面和每個聲音出現(xiàn)的具體時間。傳統(tǒng)的AI處理視頻時,往往把畫面和聲音分開處理,就像兩個人分別看無聲電影和聽廣播劇,然后試圖拼湊出完整故事一樣。而TMRoPE技術(shù)讓AI能夠像人類一樣,同時感知畫面和聲音,并且清楚地知道它們之間的對應(yīng)關(guān)系。

具體來說,這個技術(shù)把時間信息分解成三個維度:時間位置、畫面高度和畫面寬度。對于文字輸入,這三個維度使用相同的位置標識,就像給每個字詞貼上相同的時間標簽。對于音頻,系統(tǒng)每40毫秒設(shè)置一個時間點,確保音頻處理的精確性。當處理圖片時,時間位置保持不變,但會根據(jù)圖片中每個區(qū)域的位置分配不同的高度和寬度標識。最有趣的是處理帶音頻的視頻:系統(tǒng)會動態(tài)調(diào)整每一幀的時間標識,確保一個時間單位始終對應(yīng)40毫秒的真實時間。

為了讓AI能夠同時接收視覺和聽覺信息,研究團隊還設(shè)計了一種"時間交錯"的處理方法。他們將視頻按照2秒鐘為單位進行分段,在每個2秒的片段中,先處理視覺信息,再處理音頻信息,然后將兩者交錯排列。這就像閱讀一本交替出現(xiàn)圖片和文字說明的雜志,AI能夠自然地理解兩者之間的關(guān)聯(lián)。

二、"思考者-說話者"架構(gòu):模擬人類大腦分工

人類能夠同時思考和說話,這得益于大腦的精妙分工。當我們回答問題時,大腦的某個區(qū)域負責思考和組織語言,另一個區(qū)域則控制發(fā)聲器官。Qwen團隊受到這種自然分工的啟發(fā),設(shè)計了一個叫做"Thinker-Talker"(思考者-說話者)的架構(gòu)。

在這個架構(gòu)中,"Thinker"就像人類的大腦,負責處理和理解來自文字、音頻、圖片和視頻的各種信息,然后生成高級的語義表示和相應(yīng)的文字回答。它使用的是類似現(xiàn)有大語言模型的Transformer解碼器結(jié)構(gòu),配備了專門的音頻和圖像編碼器來提取信息。

"Talker"則像人類的發(fā)聲系統(tǒng),專門負責將"Thinker"產(chǎn)生的高級表示轉(zhuǎn)換成流暢的語音。它采用雙軌自回歸Transformer解碼器架構(gòu),這個設(shè)計靈感來自Mini-Omni模型。在訓練和推理過程中,"Talker"直接接收來自"Thinker"的高維表示,并且共享"Thinker"的所有歷史上下文信息。這樣,整個架構(gòu)就像一個統(tǒng)一的大腦,能夠進行端到端的訓練和推理。

這種設(shè)計的巧妙之處在于,"Thinker"和"Talker"雖然分工不同,但它們通過共享信息緊密協(xié)作。當用戶提出問題時,"Thinker"不僅要生成文字答案,還要為"Talker"提供足夠的語義信息,讓它能夠以合適的語調(diào)、情感和節(jié)奏來"說出"答案。這就像一個人在回答問題時,大腦不僅要組織語言內(nèi)容,還要考慮用什么樣的語氣來表達。

三、實現(xiàn)真正的流式處理和低延遲

在實際應(yīng)用中,用戶希望AI能夠像真人對話一樣,問題剛提出就能立即開始回答,而不是等待很長時間后才給出完整回復。這就要求AI具備"流式處理"的能力——能夠邊接收信息邊處理,邊思考邊回答。

為了實現(xiàn)這種能力,研究團隊對所有的多模態(tài)編碼器都進行了改進,采用"塊級流式處理"的方法。這就像將一本厚書分成若干章節(jié),AI不需要讀完整本書才開始理解,而是讀完一章就能理解一章的內(nèi)容。具體來說,音頻編碼器從原來的對整段音頻進行完整處理,改為每2秒為一個處理塊進行注意力計算。視覺編碼器則利用高效的flash attention技術(shù),配合簡單的MLP層將相鄰的2×2圖像區(qū)域合并成單個標記,讓不同分辨率的圖像都能被有效處理。

在語音生成方面,團隊設(shè)計了一個高效的語音編解碼器qwen-tts-tokenizer。這個編解碼器能夠高效地表示語音的關(guān)鍵信息,并且能夠通過因果音頻解碼器以流式方式解碼成語音。語音生成不需要與文字進行詞級別或時間戳級別的對齊,這大大簡化了訓練數(shù)據(jù)的要求和推理過程。

為了進一步降低延遲,研究團隊還提出了滑動窗口機制的DiT模型。這個機制限制了當前標記能訪問的上下文范圍,專門用于將音頻代碼轉(zhuǎn)換為波形。他們將相鄰的代碼分組成塊,限制DiT的感受野為4個塊(包括向前看2個塊和向后看1個塊)。在解碼過程中,使用Flow Matching技術(shù)分塊生成梅爾頻譜圖,確保每個代碼塊都能訪問必要的上下文信息。這種方法通過維持上下文信息來提高流式輸出的質(zhì)量。

四、三階段訓練策略:從基礎(chǔ)到精通

要訓練出這樣一個"全能選手",需要循序漸進的策略。Qwen團隊設(shè)計了三個訓練階段,就像培養(yǎng)一個學生從入門到精通的過程。

第一階段類似于"打基礎(chǔ)"。研究團隊鎖定大語言模型的參數(shù),專門訓練視覺編碼器和音頻編碼器。這個階段使用大量的音頻-文字和圖像-文字配對數(shù)據(jù),讓AI學會基本的視覺和聽覺理解能力。就像先讓學生分別學好看圖說話和聽音識字,為后續(xù)的綜合學習做準備。模型的LLM部分使用Qwen2.5的參數(shù)進行初始化,視覺編碼器與Qwen2.5-VL相同,音頻編碼器則用Whisper-large-v3進行初始化。兩個編碼器在固定的LLM上分別訓練,首先訓練各自的適配器,然后再訓練編碼器本身。

第二階段是"融會貫通"的過程。團隊解凍所有參數(shù),使用更廣泛的多模態(tài)數(shù)據(jù)進行訓練。這個階段引入了800億個圖像和視頻相關(guān)的標記、300億個音頻相關(guān)的標記,以及100億個視頻音頻相關(guān)的標記。這個階段的目標是讓模型學會同時處理多種模態(tài)的任務(wù),增強聽覺、視覺和文本信息之間的交互和理解。就像讓學生學會同時看圖、聽音、閱讀,并且能夠綜合這些信息來回答復雜問題。

第三階段是"登峰造極"的訓練。團隊使用序列長度為32k的數(shù)據(jù)來增強模型理解復雜長序列數(shù)據(jù)的能力。在前兩個階段中,為了提高訓練效率,最大標記長度被限制在8192個標記。在這個階段,研究者加入了長音頻和長視頻數(shù)據(jù),并將原有的文本、音頻、圖像和視頻數(shù)據(jù)擴展到32768個標記進行訓練。實驗結(jié)果表明,這種數(shù)據(jù)在支持長序列數(shù)據(jù)方面顯示出顯著改進。

五、讓AI也能"說話":語音生成的三步走

除了理解多種輸入,Qwen2.5-Omni還需要學會"說話"。這個過程也分為三個階段,就像訓練一個播音員一樣。

第一階段是"模仿學習"。在這個上下文學習(ICL)訓練階段,除了使用類似"Thinker"的文本監(jiān)督外,系統(tǒng)還通過下一個標記預測來執(zhí)行語音延續(xù)任務(wù)。團隊使用包含多模態(tài)上下文和語音回答的大量對話數(shù)據(jù)集。"Talker"學會建立從語義表示到語音的單調(diào)映射,同時學會表達適合上下文的多樣化語音屬性,如韻律、情感和口音。此外,團隊還實施了音色分離技術(shù),防止模型將特定聲音與不常見的文本模式關(guān)聯(lián)起來。

第二階段是"糾錯改進"。由于預訓練數(shù)據(jù)不可避免地包含標簽噪音和發(fā)音錯誤,導致模型產(chǎn)生幻覺,團隊引入了強化學習階段來提高語音生成的穩(wěn)定性。具體來說,對于每個請求和回答文本以及參考語音,他們構(gòu)建一個包含三元組數(shù)據(jù)(x, yw, yl)的數(shù)據(jù)集D,其中x是包含輸入文本的輸入序列,yw和yl分別是好的和壞的生成語音序列。團隊根據(jù)與詞錯誤率(WER)和標點暫停錯誤率相關(guān)的獎勵分數(shù)對這些樣本進行排名,使用DPO算法來優(yōu)化模型。

第三階段是"個性化定制"。團隊在前述基礎(chǔ)模型上執(zhí)行說話人微調(diào),使"Talker"能夠采用特定的聲音并提高其自然度。這就像讓AI學會模仿不同人的說話風格和聲音特色,使生成的語音更加多樣化和自然。

六、性能表現(xiàn):全方位的能力驗證

要驗證Qwen2.5-Omni的實際能力,研究團隊進行了全面的測試,涵蓋了理解和生成兩大方面。

在理解能力方面,Qwen2.5-Omni在多個維度都表現(xiàn)出色。在文本理解方面,模型在MMLU-Pro、GSM8K、MATH等基準測試中的表現(xiàn)介于Qwen2-7B和Qwen2.5-7B之間,在大多數(shù)基準測試中都超過了Qwen2-7B。在音頻理解方面,模型在自動語音識別(ASR)和語音到文本翻譯(S2TT)任務(wù)上表現(xiàn)優(yōu)異,在Fleurs_zh、CommonVoice_en等測試集上超越了之前的最先進模型如Whisper-large-v3和Qwen2Audio。

特別值得關(guān)注的是,Qwen2.5-Omni在端到端語音指令跟隨方面的表現(xiàn)與其處理文本輸入的能力相當。在將文本指令轉(zhuǎn)換為語音指令的測試中,Qwen2.5-Omni顯著縮小了與使用文本指令的Qwen2-7B之間的性能差距。例如,在MMLU測試中,使用文本指令的Qwen2-7B得分為69.3,而Qwen2.5-Omni使用語音指令的得分達到了65.6,這表明模型在語音理解方面取得了實質(zhì)性進展。

在圖像理解方面,Qwen2.5-Omni與Qwen2.5-VL-7B的性能相當,在MMMU、MathVision、MMBench-V1.1-EN等基準測試中表現(xiàn)出色。在視頻理解任務(wù)中,模型在Video-MME、MVBench和EgoSchema等代表性測試中都超越了其他同類開源模型和GPT-4o-Mini。

在多模態(tài)理解方面,Qwen2.5-Omni在OmniBench基準測試中達到了最先進的性能,平均得分56.13%,遠超其他Omni模型。這個基準測試專門評估模型處理混合模態(tài)(圖像、音頻和文本)提示的能力。

在語音生成方面,Qwen2.5-Omni也表現(xiàn)出色。在SEED測試集上,模型在零樣本語音生成任務(wù)中表現(xiàn)出高度競爭力的性能。在內(nèi)容一致性方面,Qwen2.5-Omni經(jīng)過強化學習優(yōu)化后,在test-zh、test-en和test-hard測試集上的詞錯誤率分別為1.42%、2.33%和6.54%,超越了MaskGCT和CosyVoice 2等現(xiàn)有模型。在說話人相似度方面,模型也保持了良好的性能。

七、技術(shù)創(chuàng)新的深層意義

Qwen2.5-Omni的技術(shù)創(chuàng)新不僅僅體現(xiàn)在性能指標上,更重要的是它代表了AI發(fā)展的一個重要方向轉(zhuǎn)變。傳統(tǒng)的AI系統(tǒng)往往是"專才"——要么擅長處理文本,要么擅長處理圖像或音頻。而這個模型展示了AI向"通才"發(fā)展的可能性。

TMRoPE技術(shù)的提出解決了多模態(tài)AI面臨的一個核心問題:如何準確理解不同模態(tài)信息之間的時間關(guān)系。這個技術(shù)不僅適用于視頻理解,還可以擴展到其他需要時序?qū)R的應(yīng)用場景,比如同聲傳譯、多媒體內(nèi)容分析等。

"Thinker-Talker"架構(gòu)的設(shè)計體現(xiàn)了對人類認知機制的深度理解和模擬。這種架構(gòu)不僅提高了AI的處理效率,還為未來開發(fā)更復雜的多模態(tài)AI系統(tǒng)提供了新的思路。通過將理解和表達功能進行合理分工,AI能夠更好地模擬人類的交流方式。

流式處理能力的實現(xiàn)讓AI能夠進行更自然的實時交互。這對于語音助手、在線客服、教育應(yīng)用等場景具有重要意義。用戶不再需要等待AI處理完所有信息后才得到回應(yīng),而是能夠體驗到更接近人類對話的交互方式。

八、實際應(yīng)用前景與挑戰(zhàn)

Qwen2.5-Omni的能力為許多實際應(yīng)用場景帶來了新的可能性。在教育領(lǐng)域,這種多模態(tài)AI可以同時分析學生的語音提問、書面作業(yè)和視頻表現(xiàn),提供更全面的學習支持。在客服領(lǐng)域,AI能夠同時理解用戶的語音描述、屏幕截圖和操作視頻,提供更精準的技術(shù)支持。

在內(nèi)容創(chuàng)作方面,Qwen2.5-Omni可以協(xié)助創(chuàng)作者進行視頻解說、音頻制作和多媒體內(nèi)容編輯。它能夠理解視頻內(nèi)容,生成相應(yīng)的解說詞,并用自然的語音進行播報,大大提高了內(nèi)容創(chuàng)作的效率。

在無障礙技術(shù)方面,這個模型可以為視障或聽障用戶提供更好的輔助服務(wù)。它可以將視覺信息轉(zhuǎn)換為語音描述,或者將音頻內(nèi)容轉(zhuǎn)換為文字顯示,幫助不同能力的用戶更好地獲取信息。

然而,這種技術(shù)的發(fā)展也面臨一些挑戰(zhàn)。首先是計算資源的需求。同時處理多種模態(tài)的信息需要大量的計算能力,這可能限制了模型在移動設(shè)備或邊緣計算環(huán)境中的應(yīng)用。其次是數(shù)據(jù)質(zhì)量和標注的問題。訓練這樣的多模態(tài)模型需要大量高質(zhì)量的多模態(tài)數(shù)據(jù),而這些數(shù)據(jù)的獲取和標注成本很高。

此外,隨著AI能夠生成越來越逼真的語音和理解越來越復雜的多媒體內(nèi)容,如何確保技術(shù)的負責任使用也成為一個重要考量。需要建立相應(yīng)的安全機制和使用規(guī)范,防止技術(shù)被惡意利用。

九、未來發(fā)展方向

研究團隊在論文中也指出了一些在模型開發(fā)過程中發(fā)現(xiàn)的關(guān)鍵問題,這些問題為未來的研究方向提供了指引。例如,視頻OCR(光學字符識別)和音視頻協(xié)同理解等問題在以往的學術(shù)研究中經(jīng)常被忽視,但對于實際應(yīng)用卻至關(guān)重要。

團隊認為,解決這些挑戰(zhàn)需要學術(shù)界和工業(yè)界的密切合作,特別是在構(gòu)建全面的評估基準和研究數(shù)據(jù)集方面。他們相信Qwen2.5-Omni代表了向人工通用智能(AGI)邁進的重要一步。

未來的目標包括開發(fā)更加穩(wěn)健和快速的模型,擴展輸出能力到其他模態(tài),如圖像、視頻和音樂生成。這意味著AI不僅能夠理解多種形式的輸入,還能夠創(chuàng)造多種形式的輸出,真正實現(xiàn)全方位的智能交互。

研究團隊還計劃繼續(xù)優(yōu)化模型的效率和準確性,使其能夠在更多的實際場景中得到應(yīng)用。他們希望通過持續(xù)的技術(shù)創(chuàng)新和優(yōu)化,讓這種多模態(tài)AI技術(shù)能夠真正服務(wù)于人類的日常生活和工作。

說到底,Qwen2.5-Omni的出現(xiàn)標志著AI技術(shù)發(fā)展的一個重要里程碑。它展示了AI從單一功能向綜合能力發(fā)展的可能性,為我們描繪了一個AI能夠更自然、更全面地理解和響應(yīng)人類需求的未來。雖然還有許多技術(shù)挑戰(zhàn)需要克服,但這項研究為多模態(tài)AI的發(fā)展開辟了新的道路,也為我們思考AI與人類交互的未來方式提供了寶貴的啟示。對于普通用戶來說,這意味著未來的AI助手將能夠更好地理解我們的多種表達方式,并以更自然的方式與我們交流,真正成為我們生活和工作中的智能伙伴。

Q&A

Q1:Qwen2.5-Omni和普通的AI助手有什么區(qū)別? A:最大的區(qū)別是Qwen2.5-Omni能同時理解文字、圖片、音頻和視頻,并且能實時用文字和語音回答。普通AI助手通常只能處理一種輸入方式,比如只能聊天或只能看圖。而Qwen2.5-Omni就像一個真正的"全能助手",你可以給它看視頻、說話、發(fā)圖片,它都能理解并自然回應(yīng)。

Q2:這個AI的語音生成效果怎么樣?會不會很機械? A:根據(jù)測試結(jié)果,Qwen2.5-Omni的語音生成效果相當不錯。在專業(yè)測試中,它的詞錯誤率只有1.42%-6.54%,說話人相似度也很高。更重要的是,它能根據(jù)對話內(nèi)容調(diào)整語調(diào)和情感,不會像傳統(tǒng)語音合成那樣機械。而且它支持流式生成,能邊思考邊說話,更接近人類的對話方式。

Q3:普通人現(xiàn)在能使用Qwen2.5-Omni嗎? A:目前Qwen2.5-Omni主要還是研究階段的技術(shù)展示,論文和代碼已經(jīng)在GitHub、Hugging Face等平臺開源。普通用戶可以通過這些平臺了解技術(shù)細節(jié),但要真正使用可能需要一定的技術(shù)背景。不過,相信不久的將來會有基于這項技術(shù)的產(chǎn)品化應(yīng)用出現(xiàn),讓普通用戶也能體驗到這種多模態(tài)AI的強大能力。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-