av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<sup id="gkah9"></sup>

<abbr id="gkah9"></abbr>

<abbr id="gkah9"><rp id="gkah9"></rp></abbr>

<pre id="gkah9"></pre>

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

當(dāng)TikTok遇上AI：布里斯托大學(xué)團(tuán)隊(duì)如何讓機(jī)器真正"看懂"短視頻的聲音與畫面

短視頻AI理解音畫同步分析多模態(tài)大語言模型

當(dāng)TikTok遇上AI：布里斯托大學(xué)團(tuán)隊(duì)如何讓機(jī)器真正"看懂"短視頻的聲音與畫面

作者：科技行者

2025-07-22 13:22

分享至：

布里斯托大學(xué)和Memories.ai Research聯(lián)合開發(fā)了UGC-VideoCaptioner，這是首個(gè)專門針對(duì)短視頻音畫同步理解的AI系統(tǒng)。該研究構(gòu)建了包含1000個(gè)TikTok視頻的基準(zhǔn)測(cè)試，采用創(chuàng)新的兩階段訓(xùn)練策略，僅用2000個(gè)樣本就達(dá)到了傳統(tǒng)方法需要20000個(gè)樣本的效果。實(shí)驗(yàn)顯示該模型在音頻理解、視覺識(shí)別和綜合描述生成方面都有顯著提升。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-22 13:22 ? 科技行者

這項(xiàng)由英國(guó)布里斯托大學(xué)和Memories.ai Research共同完成的研究發(fā)表于2025年7月，研究團(tuán)隊(duì)包括吳佩然、劉云澤、朱正棟、周恩民和沈肖恩。論文標(biāo)題為"UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks"，對(duì)于想要深入了解技術(shù)細(xì)節(jié)的讀者，可以通過arXiv:2507.11336v1訪問完整論文。

每當(dāng)你刷TikTok時(shí)，是否想過為什么有些視頻即使沒有字幕，你也能完全理解其中的精彩內(nèi)容？這是因?yàn)槲覀兊拇竽X能夠同時(shí)處理視覺和聽覺信息，將看到的畫面和聽到的聲音完美融合在一起。然而，對(duì)于人工智能來說，這卻是一個(gè)極大的挑戰(zhàn)。

想象一下，你讓一個(gè)只會(huì)看圖片的人去描述一段音樂視頻，他可能會(huì)說"我看到一個(gè)人在動(dòng)嘴，背景有樂器"，但完全錯(cuò)過了音樂的節(jié)奏感和情緒表達(dá)。這就是目前大多數(shù)AI視頻理解系統(tǒng)面臨的困境——它們就像"聾子"一樣，只能通過視覺信息來理解視頻內(nèi)容。

當(dāng)前的AI視頻理解技術(shù)就像一個(gè)色盲的畫家，只能看到黑白世界卻要描述彩色畫作?，F(xiàn)有的視頻分析系統(tǒng)主要依賴視覺信息，完全忽略了音頻在視頻理解中的關(guān)鍵作用。這種局限性在用戶生成內(nèi)容（UGC）平臺(tái)上尤為明顯，因?yàn)門ikTok、YouTube等平臺(tái)上的視頻往往音畫并茂，缺少任何一個(gè)維度都無法完整理解視頻內(nèi)容。

研究團(tuán)隊(duì)發(fā)現(xiàn)，現(xiàn)有的視頻理解基準(zhǔn)測(cè)試就像只考語文不考數(shù)學(xué)的綜合考試，無法全面評(píng)估AI的真實(shí)能力。即使是最先進(jìn)的大型語言模型，在處理音頻和視頻結(jié)合的內(nèi)容時(shí)也顯得力不從心。更重要的是，市面上缺乏專門針對(duì)短視頻場(chǎng)景的高質(zhì)量數(shù)據(jù)集，這就像想要訓(xùn)練一個(gè)廚師卻沒有提供任何食譜一樣。

為了解決這個(gè)問題，研究團(tuán)隊(duì)開發(fā)了一個(gè)名為"UGC-VideoCap"的全新基準(zhǔn)測(cè)試系統(tǒng)，同時(shí)創(chuàng)建了一個(gè)能夠同時(shí)理解音頻和視頻的AI模型"UGC-VideoCaptioner"。這就像為AI裝上了一雙"慧眼"和一對(duì)"靈耳"，讓它能夠像人類一樣全面理解視頻內(nèi)容。

一、重新定義視頻理解的標(biāo)準(zhǔn)

傳統(tǒng)的視頻理解評(píng)估就像只看菜品外觀不品嘗味道的美食評(píng)審，無法全面評(píng)判作品質(zhì)量。研究團(tuán)隊(duì)構(gòu)建的UGC-VideoCap基準(zhǔn)測(cè)試系統(tǒng)徹底改變了這種局面，它包含了1000個(gè)精心選擇的TikTok短視頻，每個(gè)視頻都不超過60秒，但包含至少5秒的有意義音頻內(nèi)容。

這個(gè)基準(zhǔn)測(cè)試的構(gòu)建過程就像制作一道精美的料理，需要經(jīng)過三個(gè)精心設(shè)計(jì)的步驟。首先是"音頻調(diào)味"階段，研究人員專門分析視頻中的音頻元素，包括說話人的數(shù)量、性別、語音語調(diào)、背景音樂類型和音效等。接著是"視覺擺盤"階段，團(tuán)隊(duì)詳細(xì)標(biāo)注視頻中的視覺元素，包括文字內(nèi)容、背景變化、動(dòng)作動(dòng)態(tài)和物體類型等。最后是"綜合品鑒"階段，將音頻和視覺信息完美融合，生成一個(gè)完整而連貫的視頻描述。

整個(gè)標(biāo)注過程耗費(fèi)了超過350個(gè)小時(shí)的人工工作，就像手工制作一件藝術(shù)品一樣精細(xì)。每批50個(gè)視頻樣本都要經(jīng)過兩位專家的獨(dú)立審核，如果錯(cuò)誤率超過3%，整批樣本就會(huì)被退回重新標(biāo)注。這種嚴(yán)格的質(zhì)量控制確保了數(shù)據(jù)的準(zhǔn)確性和可靠性。

基準(zhǔn)測(cè)試包含了約4000個(gè)高質(zhì)量的問答對(duì)，涵蓋三個(gè)主要類別。視覺問答關(guān)注場(chǎng)景動(dòng)態(tài)、物體存在、文字內(nèi)容和背景變化。音頻問答包括說話人特征、聲學(xué)特性和環(huán)境聲音。綜合問答則要求AI系統(tǒng)能夠綜合音頻和視覺信息，生成完整的視頻描述。

二、突破性的雙模態(tài)AI模型

UGC-VideoCaptioner就像一個(gè)同時(shí)具備藝術(shù)家眼光和音樂家聽覺的全能創(chuàng)作者。這個(gè)模型基于30億參數(shù)的Qwen2.5-Omni架構(gòu)，通過創(chuàng)新的兩階段訓(xùn)練策略實(shí)現(xiàn)了卓越的性能。

模型的訓(xùn)練過程就像培養(yǎng)一個(gè)全能的視頻解說員。第一階段采用"知識(shí)蒸餾"方法，讓小模型向大模型學(xué)習(xí)。研究團(tuán)隊(duì)使用強(qiáng)大的Gemini-2.5-Flash模型作為"老師"，為20000個(gè)TikTok視頻生成詳細(xì)的描述，然后讓UGC-VideoCaptioner這個(gè)"學(xué)生"模型學(xué)習(xí)如何生成類似質(zhì)量的內(nèi)容。

第二階段采用了一種叫做"群體相對(duì)策略優(yōu)化"（GRPO）的強(qiáng)化學(xué)習(xí)方法。這個(gè)過程就像讓AI參加一個(gè)視頻描述比賽，每次生成多個(gè)候選答案，然后根據(jù)質(zhì)量評(píng)分來調(diào)整生成策略。研究團(tuán)隊(duì)設(shè)計(jì)了專門的獎(jiǎng)勵(lì)機(jī)制，包括基于大語言模型的綜合評(píng)分和長(zhǎng)度控制獎(jiǎng)勵(lì)。

獎(jiǎng)勵(lì)機(jī)制的設(shè)計(jì)極其精細(xì)，就像制定一個(gè)完美的考試評(píng)分標(biāo)準(zhǔn)。LLM獎(jiǎng)勵(lì)從五個(gè)維度評(píng)估視頻描述的質(zhì)量：場(chǎng)景背景的準(zhǔn)確性、人物對(duì)象的描述、音頻線索的捕捉、屏幕文字的識(shí)別和整體主題的把握。長(zhǎng)度獎(jiǎng)勵(lì)則確保生成的描述既不過于簡(jiǎn)短也不過于冗長(zhǎng)，達(dá)到最佳的信息密度。

三、令人矚目的實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果就像一場(chǎng)精彩的體育競(jìng)賽，展現(xiàn)了不同AI模型在視頻理解任務(wù)上的表現(xiàn)差異。Gemini系列模型仍然占據(jù)領(lǐng)先地位，其中Gemini-2.5 Flash達(dá)到了76.73的綜合得分，而Gemini-2.5-pro緊隨其后，得分為73.78。

開源模型的表現(xiàn)則呈現(xiàn)出有趣的分化現(xiàn)象。Qwen2.5-Omni-7B在音頻理解方面表現(xiàn)出色，得分達(dá)到86.6，但在視覺細(xì)節(jié)識(shí)別上相對(duì)較弱。MiniCPM-o-2.6-8B在視覺任務(wù)上表現(xiàn)不錯(cuò)，得分為70.4，但音頻理解能力有限。這種現(xiàn)象就像不同的專業(yè)運(yùn)動(dòng)員在各自擅長(zhǎng)的項(xiàng)目上表現(xiàn)突出，但在綜合項(xiàng)目上就顯得力不從心。

最令人印象深刻的是訓(xùn)練效率的突破。傳統(tǒng)方法需要20000個(gè)樣本才能達(dá)到的性能，新的兩階段訓(xùn)練策略僅用2000個(gè)樣本（1000個(gè)用于監(jiān)督學(xué)習(xí)，1000個(gè)用于強(qiáng)化學(xué)習(xí)）就能實(shí)現(xiàn)相近的效果。這就像找到了一條學(xué)習(xí)的捷徑，大大提高了訓(xùn)練效率。

具體來說，使用1000個(gè)樣本進(jìn)行監(jiān)督學(xué)習(xí)的模型比基線模型提高了6.78分，使用10000個(gè)樣本提高了7.69分，使用20000個(gè)樣本提高了8.32分。但更重要的是，結(jié)合1000個(gè)樣本的監(jiān)督學(xué)習(xí)和1000個(gè)樣本的強(qiáng)化學(xué)習(xí)，模型性能提高了7.83分，幾乎達(dá)到了使用20000個(gè)樣本的效果。

四、技術(shù)創(chuàng)新的深層解讀

這項(xiàng)研究的技術(shù)創(chuàng)新就像在傳統(tǒng)的單聲道音響系統(tǒng)上升級(jí)到了立體聲環(huán)繞音響。傳統(tǒng)的視頻理解系統(tǒng)只能"看"不能"聽"，而新系統(tǒng)實(shí)現(xiàn)了真正的音畫同步理解。

模型架構(gòu)的設(shè)計(jì)采用了端到端的學(xué)習(xí)方式，就像訓(xùn)練一個(gè)同時(shí)會(huì)看、會(huì)聽、會(huì)說的機(jī)器人。輸入的視頻以每秒1幀的速率處理，最多32幀，每幀像素不超過100176。音頻和視頻信號(hào)經(jīng)過特殊的編碼器處理后，被送入統(tǒng)一的語言模型進(jìn)行理解和生成。

強(qiáng)化學(xué)習(xí)部分的設(shè)計(jì)特別巧妙，采用了無需價(jià)值函數(shù)的策略優(yōu)化方法。這就像讓AI自己學(xué)會(huì)判斷什么是好的視頻描述，而不需要額外的"評(píng)審團(tuán)"。模型為每個(gè)輸入視頻生成多個(gè)候選描述，然后通過比較它們的質(zhì)量來調(diào)整生成策略。

獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)考慮了視頻描述的多個(gè)維度。場(chǎng)景背景獎(jiǎng)勵(lì)確保AI能準(zhǔn)確識(shí)別視頻的主要場(chǎng)景和背景設(shè)置。人物對(duì)象獎(jiǎng)勵(lì)關(guān)注關(guān)鍵人物或物品及其行為互動(dòng)。音頻線索獎(jiǎng)勵(lì)評(píng)估對(duì)語音、背景音樂、音效及其情感色彩的理解。文字識(shí)別獎(jiǎng)勵(lì)針對(duì)屏幕上的文字內(nèi)容及其語境作用。主題目的獎(jiǎng)勵(lì)則評(píng)估對(duì)視頻整體主題或目的的把握。

五、實(shí)際應(yīng)用的廣闊前景

這項(xiàng)技術(shù)的應(yīng)用前景就像打開了一扇通往未來的大門。在社交媒體平臺(tái)上，這種技術(shù)可以自動(dòng)為大量用戶生成的視頻添加詳細(xì)的描述和字幕，大大提高內(nèi)容的可訪問性。對(duì)于視障人士來說，這更是一個(gè)福音，他們可以通過AI生成的詳細(xì)描述來"觀看"視頻內(nèi)容。

在教育領(lǐng)域，這種技術(shù)可以自動(dòng)分析在線課程視頻，生成詳細(xì)的內(nèi)容摘要和關(guān)鍵點(diǎn)提煉。想象一下，學(xué)生可以快速了解一個(gè)小時(shí)的講座內(nèi)容，而不需要完整觀看整個(gè)視頻。在企業(yè)培訓(xùn)中，這種技術(shù)也可以幫助快速分析和分類大量的培訓(xùn)視頻。

內(nèi)容創(chuàng)作者可以利用這種技術(shù)來優(yōu)化他們的視頻內(nèi)容。AI可以分析視頻的音頻和視覺元素，提供改進(jìn)建議，幫助創(chuàng)作者制作更吸引人的內(nèi)容。平臺(tái)方也可以使用這種技術(shù)來改進(jìn)推薦算法，更準(zhǔn)確地理解用戶偏好。

在娛樂產(chǎn)業(yè)，這種技術(shù)可以用于電影和電視劇的自動(dòng)字幕生成、內(nèi)容分析和觀眾反饋收集。制片人可以通過AI分析來了解哪些場(chǎng)景最吸引觀眾，哪些對(duì)話最有影響力。

六、面臨的挑戰(zhàn)與未來發(fā)展

盡管這項(xiàng)研究取得了顯著進(jìn)展，但仍面臨一些挑戰(zhàn)，就像攀登高山時(shí)遇到的各種障礙。首先是計(jì)算資源的需求。訓(xùn)練這樣一個(gè)復(fù)雜的模型需要大量的計(jì)算資源，實(shí)驗(yàn)使用了8塊H200-144GB GPU，這對(duì)于普通研究機(jī)構(gòu)來說是一個(gè)不小的投入。

數(shù)據(jù)質(zhì)量和標(biāo)注成本也是一個(gè)重要考慮因素。雖然研究團(tuán)隊(duì)已經(jīng)建立了嚴(yán)格的質(zhì)量控制流程，但人工標(biāo)注仍然是一個(gè)耗時(shí)且昂貴的過程。如何在保證質(zhì)量的同時(shí)降低標(biāo)注成本，是未來需要解決的問題。

模型的泛化能力也需要進(jìn)一步提升。目前的模型主要在TikTok類型的短視頻上訓(xùn)練，對(duì)于其他類型的視頻內(nèi)容，如長(zhǎng)視頻、紀(jì)錄片或電影，可能需要額外的適應(yīng)性訓(xùn)練。

隱私和倫理問題也不容忽視。AI系統(tǒng)能夠詳細(xì)分析視頻內(nèi)容，包括識(shí)別人物、理解對(duì)話內(nèi)容等，這可能涉及用戶隱私保護(hù)問題。如何在提供有用服務(wù)的同時(shí)保護(hù)用戶隱私，是技術(shù)發(fā)展過程中必須考慮的重要議題。

研究團(tuán)隊(duì)已經(jīng)提出了幾個(gè)未來發(fā)展方向。首先是集成自動(dòng)音頻事件檢測(cè)和聲音分離技術(shù)，這可以進(jìn)一步豐富音頻分析的深度。其次是增加多語言音頻和文本處理能力，使系統(tǒng)能夠處理更廣泛的全球內(nèi)容。最后是探索自適應(yīng)推理策略和模態(tài)感知注意機(jī)制，以更好地處理UGC內(nèi)容的嘈雜和異構(gòu)特性。

說到底，這項(xiàng)研究就像為AI裝上了一雙"慧眼"和一對(duì)"靈耳"，讓機(jī)器能夠像人類一樣全面理解視頻內(nèi)容。雖然目前的技術(shù)還不能完全替代人類的理解能力，但它已經(jīng)在很多方面展現(xiàn)出了超越傳統(tǒng)方法的潛力。

對(duì)于普通用戶來說，這意味著未來的視頻平臺(tái)將變得更加智能和人性化。你可能不再需要手動(dòng)添加字幕或標(biāo)簽，AI會(huì)自動(dòng)理解你的視頻內(nèi)容并提供相應(yīng)的服務(wù)。對(duì)于內(nèi)容創(chuàng)作者來說，這是一個(gè)強(qiáng)大的工具，可以幫助他們更好地分析和優(yōu)化自己的作品。

這項(xiàng)研究的意義不僅在于技術(shù)本身的突破，更在于它為整個(gè)人工智能領(lǐng)域開辟了一個(gè)新的研究方向。隨著短視頻內(nèi)容的爆發(fā)式增長(zhǎng)，能夠真正理解音畫結(jié)合內(nèi)容的AI系統(tǒng)將變得越來越重要。這不僅是技術(shù)的進(jìn)步，更是向真正智能化的重要一步。

對(duì)于那些對(duì)技術(shù)細(xì)節(jié)感興趣的讀者，完整的研究論文可以通過arXiv:2507.11336v1獲取，其中包含了詳細(xì)的實(shí)驗(yàn)數(shù)據(jù)、技術(shù)實(shí)現(xiàn)細(xì)節(jié)和更深入的分析。這項(xiàng)研究為我們展示了人工智能在多模態(tài)理解方面的巨大潛力，也為未來的相關(guān)研究提供了寶貴的基礎(chǔ)。

Q&A

Q1：UGC-VideoCaptioner能處理什么類型的視頻？ A：UGC-VideoCaptioner主要針對(duì)1分鐘以內(nèi)的短視頻，特別是TikTok類型的用戶生成內(nèi)容。它要求視頻包含至少5秒的有意義音頻內(nèi)容，能夠同時(shí)分析視覺畫面和音頻信息，生成詳細(xì)的視頻描述。

Q2：這個(gè)AI模型會(huì)不會(huì)取代人工視頻標(biāo)注？ A：目前不會(huì)完全取代，但會(huì)大大提高效率。研究顯示，使用AI輔助標(biāo)注可以減少人工工作量，但仍需要人工參與質(zhì)量控制。這更像是讓AI成為人類的助手，而不是完全替代人類的判斷。

Q3：普通用戶如何使用這項(xiàng)技術(shù)？ A：目前這項(xiàng)技術(shù)主要面向研究和企業(yè)應(yīng)用，普通用戶還不能直接使用。但隨著技術(shù)的發(fā)展，未來可能會(huì)集成到視頻平臺(tái)的自動(dòng)字幕生成、內(nèi)容推薦等功能中，讓用戶在不知不覺中享受到技術(shù)帶來的便利。

短視頻AI理解音畫同步分析多模態(tài)大語言模型

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<table id="soogw"></table>