av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<ruby id="fnlch"></ruby>

<var id="fnlch"><strong id="fnlch"><cite id="fnlch"></cite></strong></var><pre id="fnlch"><strike id="fnlch"></strike></pre>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

阿里Qwen團隊重磅發(fā)布：一個AI助手同時懂看聽說，還能實時"思考+說話"

多模態(tài)人工智能語音生成技術(shù)實時交互系統(tǒng)

阿里Qwen團隊重磅發(fā)布：一個AI助手同時懂看聽說，還能實時"思考+說話"

作者：科技行者

2025-08-04 13:32

分享至：

阿里Qwen團隊發(fā)布了突破性多模態(tài)AI模型Qwen2.5-Omni，能同時理解文字、圖片、音頻和視頻輸入，并實時生成文字和語音回應(yīng)。該模型采用創(chuàng)新的TMRoPE時間對齊技術(shù)和Thinker-Talker架構(gòu)，實現(xiàn)了真正的流式多模態(tài)交互，在多項基準測試中達到最先進性能。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-08-04 13:32 ? 科技行者

這項由阿里巴巴Qwen團隊開發(fā)的突破性研究發(fā)表于2025年3月27日，名為《Qwen2.5-Omni Technical Report》。有興趣深入了解的讀者可以通過arXiv:2503.20215v1訪問完整論文，或者在Hugging Face、ModelScope和GitHub上找到相關(guān)代碼和模型。

人類在日常生活中能夠同時看到畫面、聽到聲音，然后用語言或表情來回應(yīng)——這看起來很自然的能力，對于人工智能來說卻是一個巨大的挑戰(zhàn)。就像讓一個機器人同時學會聽音樂、看電影，還要能即時發(fā)表感想一樣困難。不過，阿里巴巴的Qwen團隊剛剛在這個方向上取得了重大突破，他們開發(fā)出了一個名為Qwen2.5-Omni的AI模型，這個"全能型選手"不僅能同時理解文字、圖片、音頻和視頻，還能像人類一樣實時地用文字和語音來回應(yīng)。

這項研究的創(chuàng)新之處在于解決了一個關(guān)鍵問題：如何讓AI同時處理多種信息輸入，并且能夠流暢地進行"思考"和"說話"。以往的AI要么擅長看圖片，要么擅長聽聲音，很少有能同時做好這些事情的。而Qwen2.5-Omni就像一個真正的"多面手"，能夠在觀看視頻的同時聽取音頻內(nèi)容，然后實時地用自然語言回應(yīng)用戶的問題。更令人印象深刻的是，它能夠同時生成文字回答和語音回答，就像人類大腦指揮嘴巴說話的同時，手也能寫字一樣。

一、破解多模態(tài)理解的時間同步難題

當我們看電影時，畫面和聲音是完美同步的——演員說話時嘴唇的動作和聲音完全對應(yīng)。但對AI來說，要做到這種同步理解卻不簡單。Qwen團隊首先要解決的就是如何讓AI正確理解視頻中的畫面和音頻之間的時間關(guān)系。

研究團隊提出了一個叫做TMRoPE（Time-aligned Multimodal RoPE）的新方法。用一個簡單的比喻來說，這就像給AI裝上了一塊精準的時鐘，讓它能夠準確記錄每個畫面和每個聲音出現(xiàn)的具體時間。傳統(tǒng)的AI處理視頻時，往往把畫面和聲音分開處理，就像兩個人分別看無聲電影和聽廣播劇，然后試圖拼湊出完整故事一樣。而TMRoPE技術(shù)讓AI能夠像人類一樣，同時感知畫面和聲音，并且清楚地知道它們之間的對應(yīng)關(guān)系。

具體來說，這個技術(shù)把時間信息分解成三個維度：時間位置、畫面高度和畫面寬度。對于文字輸入，這三個維度使用相同的位置標識，就像給每個字詞貼上相同的時間標簽。對于音頻，系統(tǒng)每40毫秒設(shè)置一個時間點，確保音頻處理的精確性。當處理圖片時，時間位置保持不變，但會根據(jù)圖片中每個區(qū)域的位置分配不同的高度和寬度標識。最有趣的是處理帶音頻的視頻：系統(tǒng)會動態(tài)調(diào)整每一幀的時間標識，確保一個時間單位始終對應(yīng)40毫秒的真實時間。

為了讓AI能夠同時接收視覺和聽覺信息，研究團隊還設(shè)計了一種"時間交錯"的處理方法。他們將視頻按照2秒鐘為單位進行分段，在每個2秒的片段中，先處理視覺信息，再處理音頻信息，然后將兩者交錯排列。這就像閱讀一本交替出現(xiàn)圖片和文字說明的雜志，AI能夠自然地理解兩者之間的關(guān)聯(lián)。

二、"思考者-說話者"架構(gòu)：模擬人類大腦分工

人類能夠同時思考和說話，這得益于大腦的精妙分工。當我們回答問題時，大腦的某個區(qū)域負責思考和組織語言，另一個區(qū)域則控制發(fā)聲器官。Qwen團隊受到這種自然分工的啟發(fā)，設(shè)計了一個叫做"Thinker-Talker"（思考者-說話者）的架構(gòu)。

在這個架構(gòu)中，"Thinker"就像人類的大腦，負責處理和理解來自文字、音頻、圖片和視頻的各種信息，然后生成高級的語義表示和相應(yīng)的文字回答。它使用的是類似現(xiàn)有大語言模型的Transformer解碼器結(jié)構(gòu)，配備了專門的音頻和圖像編碼器來提取信息。

"Talker"則像人類的發(fā)聲系統(tǒng)，專門負責將"Thinker"產(chǎn)生的高級表示轉(zhuǎn)換成流暢的語音。它采用雙軌自回歸Transformer解碼器架構(gòu)，這個設(shè)計靈感來自Mini-Omni模型。在訓練和推理過程中，"Talker"直接接收來自"Thinker"的高維表示，并且共享"Thinker"的所有歷史上下文信息。這樣，整個架構(gòu)就像一個統(tǒng)一的大腦，能夠進行端到端的訓練和推理。

這種設(shè)計的巧妙之處在于，"Thinker"和"Talker"雖然分工不同，但它們通過共享信息緊密協(xié)作。當用戶提出問題時，"Thinker"不僅要生成文字答案，還要為"Talker"提供足夠的語義信息，讓它能夠以合適的語調(diào)、情感和節(jié)奏來"說出"答案。這就像一個人在回答問題時，大腦不僅要組織語言內(nèi)容，還要考慮用什么樣的語氣來表達。

三、實現(xiàn)真正的流式處理和低延遲

在實際應(yīng)用中，用戶希望AI能夠像真人對話一樣，問題剛提出就能立即開始回答，而不是等待很長時間后才給出完整回復。這就要求AI具備"流式處理"的能力——能夠邊接收信息邊處理，邊思考邊回答。

為了實現(xiàn)這種能力，研究團隊對所有的多模態(tài)編碼器都進行了改進，采用"塊級流式處理"的方法。這就像將一本厚書分成若干章節(jié)，AI不需要讀完整本書才開始理解，而是讀完一章就能理解一章的內(nèi)容。具體來說，音頻編碼器從原來的對整段音頻進行完整處理，改為每2秒為一個處理塊進行注意力計算。視覺編碼器則利用高效的flash attention技術(shù)，配合簡單的MLP層將相鄰的2×2圖像區(qū)域合并成單個標記，讓不同分辨率的圖像都能被有效處理。

在語音生成方面，團隊設(shè)計了一個高效的語音編解碼器qwen-tts-tokenizer。這個編解碼器能夠高效地表示語音的關(guān)鍵信息，并且能夠通過因果音頻解碼器以流式方式解碼成語音。語音生成不需要與文字進行詞級別或時間戳級別的對齊，這大大簡化了訓練數(shù)據(jù)的要求和推理過程。

為了進一步降低延遲，研究團隊還提出了滑動窗口機制的DiT模型。這個機制限制了當前標記能訪問的上下文范圍，專門用于將音頻代碼轉(zhuǎn)換為波形。他們將相鄰的代碼分組成塊，限制DiT的感受野為4個塊（包括向前看2個塊和向后看1個塊）。在解碼過程中，使用Flow Matching技術(shù)分塊生成梅爾頻譜圖，確保每個代碼塊都能訪問必要的上下文信息。這種方法通過維持上下文信息來提高流式輸出的質(zhì)量。

四、三階段訓練策略：從基礎(chǔ)到精通

要訓練出這樣一個"全能選手"，需要循序漸進的策略。Qwen團隊設(shè)計了三個訓練階段，就像培養(yǎng)一個學生從入門到精通的過程。

第一階段類似于"打基礎(chǔ)"。研究團隊鎖定大語言模型的參數(shù)，專門訓練視覺編碼器和音頻編碼器。這個階段使用大量的音頻-文字和圖像-文字配對數(shù)據(jù)，讓AI學會基本的視覺和聽覺理解能力。就像先讓學生分別學好看圖說話和聽音識字，為后續(xù)的綜合學習做準備。模型的LLM部分使用Qwen2.5的參數(shù)進行初始化，視覺編碼器與Qwen2.5-VL相同，音頻編碼器則用Whisper-large-v3進行初始化。兩個編碼器在固定的LLM上分別訓練，首先訓練各自的適配器，然后再訓練編碼器本身。

第二階段是"融會貫通"的過程。團隊解凍所有參數(shù)，使用更廣泛的多模態(tài)數(shù)據(jù)進行訓練。這個階段引入了800億個圖像和視頻相關(guān)的標記、300億個音頻相關(guān)的標記，以及100億個視頻音頻相關(guān)的標記。這個階段的目標是讓模型學會同時處理多種模態(tài)的任務(wù)，增強聽覺、視覺和文本信息之間的交互和理解。就像讓學生學會同時看圖、聽音、閱讀，并且能夠綜合這些信息來回答復雜問題。

第三階段是"登峰造極"的訓練。團隊使用序列長度為32k的數(shù)據(jù)來增強模型理解復雜長序列數(shù)據(jù)的能力。在前兩個階段中，為了提高訓練效率，最大標記長度被限制在8192個標記。在這個階段，研究者加入了長音頻和長視頻數(shù)據(jù)，并將原有的文本、音頻、圖像和視頻數(shù)據(jù)擴展到32768個標記進行訓練。實驗結(jié)果表明，這種數(shù)據(jù)在支持長序列數(shù)據(jù)方面顯示出顯著改進。

五、讓AI也能"說話"：語音生成的三步走

除了理解多種輸入，Qwen2.5-Omni還需要學會"說話"。這個過程也分為三個階段，就像訓練一個播音員一樣。

第一階段是"模仿學習"。在這個上下文學習（ICL）訓練階段，除了使用類似"Thinker"的文本監(jiān)督外，系統(tǒng)還通過下一個標記預測來執(zhí)行語音延續(xù)任務(wù)。團隊使用包含多模態(tài)上下文和語音回答的大量對話數(shù)據(jù)集。"Talker"學會建立從語義表示到語音的單調(diào)映射，同時學會表達適合上下文的多樣化語音屬性，如韻律、情感和口音。此外，團隊還實施了音色分離技術(shù)，防止模型將特定聲音與不常見的文本模式關(guān)聯(lián)起來。

第二階段是"糾錯改進"。由于預訓練數(shù)據(jù)不可避免地包含標簽噪音和發(fā)音錯誤，導致模型產(chǎn)生幻覺，團隊引入了強化學習階段來提高語音生成的穩(wěn)定性。具體來說，對于每個請求和回答文本以及參考語音，他們構(gòu)建一個包含三元組數(shù)據(jù)(x, yw, yl)的數(shù)據(jù)集D，其中x是包含輸入文本的輸入序列，yw和yl分別是好的和壞的生成語音序列。團隊根據(jù)與詞錯誤率（WER）和標點暫停錯誤率相關(guān)的獎勵分數(shù)對這些樣本進行排名，使用DPO算法來優(yōu)化模型。

第三階段是"個性化定制"。團隊在前述基礎(chǔ)模型上執(zhí)行說話人微調(diào)，使"Talker"能夠采用特定的聲音并提高其自然度。這就像讓AI學會模仿不同人的說話風格和聲音特色，使生成的語音更加多樣化和自然。

六、性能表現(xiàn)：全方位的能力驗證

要驗證Qwen2.5-Omni的實際能力，研究團隊進行了全面的測試，涵蓋了理解和生成兩大方面。

在理解能力方面，Qwen2.5-Omni在多個維度都表現(xiàn)出色。在文本理解方面，模型在MMLU-Pro、GSM8K、MATH等基準測試中的表現(xiàn)介于Qwen2-7B和Qwen2.5-7B之間，在大多數(shù)基準測試中都超過了Qwen2-7B。在音頻理解方面，模型在自動語音識別（ASR）和語音到文本翻譯（S2TT）任務(wù)上表現(xiàn)優(yōu)異，在Fleurs_zh、CommonVoice_en等測試集上超越了之前的最先進模型如Whisper-large-v3和Qwen2Audio。

特別值得關(guān)注的是，Qwen2.5-Omni在端到端語音指令跟隨方面的表現(xiàn)與其處理文本輸入的能力相當。在將文本指令轉(zhuǎn)換為語音指令的測試中，Qwen2.5-Omni顯著縮小了與使用文本指令的Qwen2-7B之間的性能差距。例如，在MMLU測試中，使用文本指令的Qwen2-7B得分為69.3，而Qwen2.5-Omni使用語音指令的得分達到了65.6，這表明模型在語音理解方面取得了實質(zhì)性進展。

在圖像理解方面，Qwen2.5-Omni與Qwen2.5-VL-7B的性能相當，在MMMU、MathVision、MMBench-V1.1-EN等基準測試中表現(xiàn)出色。在視頻理解任務(wù)中，模型在Video-MME、MVBench和EgoSchema等代表性測試中都超越了其他同類開源模型和GPT-4o-Mini。

在多模態(tài)理解方面，Qwen2.5-Omni在OmniBench基準測試中達到了最先進的性能，平均得分56.13%，遠超其他Omni模型。這個基準測試專門評估模型處理混合模態(tài)（圖像、音頻和文本）提示的能力。

在語音生成方面，Qwen2.5-Omni也表現(xiàn)出色。在SEED測試集上，模型在零樣本語音生成任務(wù)中表現(xiàn)出高度競爭力的性能。在內(nèi)容一致性方面，Qwen2.5-Omni經(jīng)過強化學習優(yōu)化后，在test-zh、test-en和test-hard測試集上的詞錯誤率分別為1.42%、2.33%和6.54%，超越了MaskGCT和CosyVoice 2等現(xiàn)有模型。在說話人相似度方面，模型也保持了良好的性能。

七、技術(shù)創(chuàng)新的深層意義

Qwen2.5-Omni的技術(shù)創(chuàng)新不僅僅體現(xiàn)在性能指標上，更重要的是它代表了AI發(fā)展的一個重要方向轉(zhuǎn)變。傳統(tǒng)的AI系統(tǒng)往往是"專才"——要么擅長處理文本，要么擅長處理圖像或音頻。而這個模型展示了AI向"通才"發(fā)展的可能性。

TMRoPE技術(shù)的提出解決了多模態(tài)AI面臨的一個核心問題：如何準確理解不同模態(tài)信息之間的時間關(guān)系。這個技術(shù)不僅適用于視頻理解，還可以擴展到其他需要時序?qū)R的應(yīng)用場景，比如同聲傳譯、多媒體內(nèi)容分析等。

"Thinker-Talker"架構(gòu)的設(shè)計體現(xiàn)了對人類認知機制的深度理解和模擬。這種架構(gòu)不僅提高了AI的處理效率，還為未來開發(fā)更復雜的多模態(tài)AI系統(tǒng)提供了新的思路。通過將理解和表達功能進行合理分工，AI能夠更好地模擬人類的交流方式。

流式處理能力的實現(xiàn)讓AI能夠進行更自然的實時交互。這對于語音助手、在線客服、教育應(yīng)用等場景具有重要意義。用戶不再需要等待AI處理完所有信息后才得到回應(yīng)，而是能夠體驗到更接近人類對話的交互方式。

八、實際應(yīng)用前景與挑戰(zhàn)

Qwen2.5-Omni的能力為許多實際應(yīng)用場景帶來了新的可能性。在教育領(lǐng)域，這種多模態(tài)AI可以同時分析學生的語音提問、書面作業(yè)和視頻表現(xiàn)，提供更全面的學習支持。在客服領(lǐng)域，AI能夠同時理解用戶的語音描述、屏幕截圖和操作視頻，提供更精準的技術(shù)支持。

在內(nèi)容創(chuàng)作方面，Qwen2.5-Omni可以協(xié)助創(chuàng)作者進行視頻解說、音頻制作和多媒體內(nèi)容編輯。它能夠理解視頻內(nèi)容，生成相應(yīng)的解說詞，并用自然的語音進行播報，大大提高了內(nèi)容創(chuàng)作的效率。

在無障礙技術(shù)方面，這個模型可以為視障或聽障用戶提供更好的輔助服務(wù)。它可以將視覺信息轉(zhuǎn)換為語音描述，或者將音頻內(nèi)容轉(zhuǎn)換為文字顯示，幫助不同能力的用戶更好地獲取信息。

然而，這種技術(shù)的發(fā)展也面臨一些挑戰(zhàn)。首先是計算資源的需求。同時處理多種模態(tài)的信息需要大量的計算能力，這可能限制了模型在移動設(shè)備或邊緣計算環(huán)境中的應(yīng)用。其次是數(shù)據(jù)質(zhì)量和標注的問題。訓練這樣的多模態(tài)模型需要大量高質(zhì)量的多模態(tài)數(shù)據(jù)，而這些數(shù)據(jù)的獲取和標注成本很高。

此外，隨著AI能夠生成越來越逼真的語音和理解越來越復雜的多媒體內(nèi)容，如何確保技術(shù)的負責任使用也成為一個重要考量。需要建立相應(yīng)的安全機制和使用規(guī)范，防止技術(shù)被惡意利用。

九、未來發(fā)展方向

研究團隊在論文中也指出了一些在模型開發(fā)過程中發(fā)現(xiàn)的關(guān)鍵問題，這些問題為未來的研究方向提供了指引。例如，視頻OCR（光學字符識別）和音視頻協(xié)同理解等問題在以往的學術(shù)研究中經(jīng)常被忽視，但對于實際應(yīng)用卻至關(guān)重要。

團隊認為，解決這些挑戰(zhàn)需要學術(shù)界和工業(yè)界的密切合作，特別是在構(gòu)建全面的評估基準和研究數(shù)據(jù)集方面。他們相信Qwen2.5-Omni代表了向人工通用智能（AGI）邁進的重要一步。

未來的目標包括開發(fā)更加穩(wěn)健和快速的模型，擴展輸出能力到其他模態(tài)，如圖像、視頻和音樂生成。這意味著AI不僅能夠理解多種形式的輸入，還能夠創(chuàng)造多種形式的輸出，真正實現(xiàn)全方位的智能交互。

研究團隊還計劃繼續(xù)優(yōu)化模型的效率和準確性，使其能夠在更多的實際場景中得到應(yīng)用。他們希望通過持續(xù)的技術(shù)創(chuàng)新和優(yōu)化，讓這種多模態(tài)AI技術(shù)能夠真正服務(wù)于人類的日常生活和工作。

說到底，Qwen2.5-Omni的出現(xiàn)標志著AI技術(shù)發(fā)展的一個重要里程碑。它展示了AI從單一功能向綜合能力發(fā)展的可能性，為我們描繪了一個AI能夠更自然、更全面地理解和響應(yīng)人類需求的未來。雖然還有許多技術(shù)挑戰(zhàn)需要克服，但這項研究為多模態(tài)AI的發(fā)展開辟了新的道路，也為我們思考AI與人類交互的未來方式提供了寶貴的啟示。對于普通用戶來說，這意味著未來的AI助手將能夠更好地理解我們的多種表達方式，并以更自然的方式與我們交流，真正成為我們生活和工作中的智能伙伴。

Q&A

Q1：Qwen2.5-Omni和普通的AI助手有什么區(qū)別？ A：最大的區(qū)別是Qwen2.5-Omni能同時理解文字、圖片、音頻和視頻，并且能實時用文字和語音回答。普通AI助手通常只能處理一種輸入方式，比如只能聊天或只能看圖。而Qwen2.5-Omni就像一個真正的"全能助手"，你可以給它看視頻、說話、發(fā)圖片，它都能理解并自然回應(yīng)。

Q2：這個AI的語音生成效果怎么樣？會不會很機械？ A：根據(jù)測試結(jié)果，Qwen2.5-Omni的語音生成效果相當不錯。在專業(yè)測試中，它的詞錯誤率只有1.42%-6.54%，說話人相似度也很高。更重要的是，它能根據(jù)對話內(nèi)容調(diào)整語調(diào)和情感，不會像傳統(tǒng)語音合成那樣機械。而且它支持流式生成，能邊思考邊說話，更接近人類的對話方式。

Q3：普通人現(xiàn)在能使用Qwen2.5-Omni嗎？ A：目前Qwen2.5-Omni主要還是研究階段的技術(shù)展示，論文和代碼已經(jīng)在GitHub、Hugging Face等平臺開源。普通用戶可以通過這些平臺了解技術(shù)細節(jié)，但要真正使用可能需要一定的技術(shù)背景。不過，相信不久的將來會有基于這項技術(shù)的產(chǎn)品化應(yīng)用出現(xiàn)，讓普通用戶也能體驗到這種多模態(tài)AI的強大能力。

多模態(tài)人工智能語音生成技術(shù)實時交互系統(tǒng)

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機制和漸進式訓練，能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學習
多模態(tài)學習

2025-09-09 13:57

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學習外觀和運動信息，顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預報，準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<ruby id="nay32"><tr id="nay32"><abbr id="nay32"></abbr></tr></ruby>