av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<cite id="vmlic"><track id="vmlic"></track></cite>

<blockquote id="vmlic"></blockquote>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

EarthMind：基于大型多模態(tài)模型的多尺度多傳感器地球觀測系統(tǒng)

人工智能多模態(tài)融合地球觀測

EarthMind：基于大型多模態(tài)模型的多尺度多傳感器地球觀測系統(tǒng)

作者：科技行者

2025-06-06 09:16

分享至：

EarthMind是一個創(chuàng)新的視覺-語言框架，專為解決地球觀測領(lǐng)域的多尺度和多傳感器理解挑戰(zhàn)而設(shè)計。由多所國際知名大學(xué)聯(lián)合開發(fā)的這一系統(tǒng)引入了兩項關(guān)鍵技術(shù)：空間注意力提示(SAP)機制重新分配大型語言模型內(nèi)部的注意力，增強像素級理解；跨模態(tài)融合機制則將異構(gòu)模態(tài)如光學(xué)和雷達數(shù)據(jù)對齊并智能融合。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-06 09:16 ? 科技行者

近日，一項由多所國際知名學(xué)府聯(lián)合開展的研究成果引起了地球觀測領(lǐng)域的廣泛關(guān)注。這項名為"EarthMind: Towards Multi-Granular and Multi-Sensor Earth Observation with Large Multimodal Models"的研究由意大利特倫托大學(xué)的Yan Shu、Bin Ren、Nicu Sebe和Paolo Rota，德國柏林工業(yè)大學(xué)的Begüm Demir，德國慕尼黑工業(yè)大學(xué)的Zhitong Xiong，以及保加利亞索非亞大學(xué)"St. Kliment Ohridski"的INSAIT研究所的Danda Pani Paudel和Luc Van Gool共同完成。該研究已于2025年6月2日在arXiv上發(fā)表（arXiv:2506.01667v1），目前正在接受同行評審。研究代碼已開源，感興趣的讀者可以通過https://github.com/shuyansy/EarthMind獲取更多信息。

一、為什么我們需要更智能的"地球觀察員"？

想象一下，如果你需要實時監(jiān)測一片廣袤的森林以防火災(zāi)，或者評估洪水后的受災(zāi)情況，你會怎么做？傳統(tǒng)方法可能需要派出大量人員實地勘察，耗時費力且效率低下。而衛(wèi)星遙感技術(shù)的出現(xiàn)，讓我們能夠從太空中獲取地球表面的大量圖像數(shù)據(jù)，猶如擁有了一雙永不疲倫的"天眼"。

但是，獲取數(shù)據(jù)只是第一步。如何理解并利用這些海量的地球觀測(Earth Observation, EO)數(shù)據(jù)，才是真正的挑戰(zhàn)。特別是當(dāng)這些數(shù)據(jù)來自不同類型的傳感器，呈現(xiàn)不同的尺度和特征時，傳統(tǒng)的計算機視覺模型往往難以應(yīng)對。

近年來，大型多模態(tài)模型(Large Multimodal Models, LMMs)在圖像理解和自然語言處理方面取得了驚人的進步。這些模型能夠同時處理圖像和文本，完成圖像描述、視覺問答和目標(biāo)定位等任務(wù)。然而，當(dāng)面對地球觀測數(shù)據(jù)時，這些模型卻表現(xiàn)不佳。這主要是因為地球觀測數(shù)據(jù)與普通圖像存在顯著差異，包括視角（從太空俯瞰）、尺度（覆蓋范圍廣泛）以及數(shù)據(jù)類型（包括光學(xué)、雷達、多光譜等）的不同。

正是針對這一挑戰(zhàn)，研究團隊開發(fā)了EarthMind，這是一個專門為地球觀測數(shù)據(jù)設(shè)計的視覺-語言框架。與現(xiàn)有方法不同，EarthMind能夠同時處理多尺度（從像素級到區(qū)域級再到圖像級）和多傳感器（如光學(xué)RGB和合成孔徑雷達SAR）的地球觀測數(shù)據(jù)。就像一個經(jīng)驗豐富的地理分析師，EarthMind不僅能看懂普通的衛(wèi)星照片，還能理解雷達圖像，并將不同來源的信息整合起來，提供更全面、更準(zhǔn)確的分析結(jié)果。

二、EarthMind：一個會"看"又會"思考"的地球觀測系統(tǒng)

那么，EarthMind究竟是如何工作的呢？想象一下，EarthMind就像一個擁有超能力的地球觀察員，它不僅有一雙能看穿云層的眼睛，還有一個能夠同時處理多種信息的大腦。

EarthMind的核心設(shè)計包含兩個關(guān)鍵組件：空間注意力提示(Spatial Attention Prompting, SAP)和跨模態(tài)融合(Cross-modal Fusion)。

### 空間注意力提示：引導(dǎo)模型關(guān)注重點區(qū)域

首先，讓我們了解空間注意力提示機制。想象你在尋找一幅衛(wèi)星圖像中的某個特定建筑物。傳統(tǒng)模型可能會"走神"，注意力分散到其他不相關(guān)的區(qū)域。而EarthMind的空間注意力提示機制則像一個專注的導(dǎo)游，能夠準(zhǔn)確地將注意力引導(dǎo)到我們感興趣的目標(biāo)區(qū)域。

具體來說，當(dāng)我們要求EarthMind識別圖像中的某個對象（比如"請找出圖像中的道路"）時，模型會在處理過程中生成一個特殊的"[SEG]"（分割）標(biāo)記。這個標(biāo)記就像模型內(nèi)部的一個探針，負(fù)責(zé)尋找目標(biāo)對象。然而，在復(fù)雜的地球觀測圖像中，由于目標(biāo)邊界模糊、尺度不均衡等問題，這個探針可能會"迷路"，注意力偏離目標(biāo)區(qū)域。

為了解決這個問題，研究團隊引入了一種基于KL散度（一種衡量兩個概率分布差異的方法）的監(jiān)督信號。簡單來說，他們利用已知的目標(biāo)掩碼（如道路的確切位置）來指導(dǎo)模型的注意力分配。就像教導(dǎo)一個孩子識別物體一樣，通過反復(fù)強調(diào)"看這里，這是道路"，模型逐漸學(xué)會將注意力集中在正確的區(qū)域。

這種機制顯著提升了EarthMind在像素級任務(wù)（如對象分割）中的表現(xiàn)，使模型能夠精確地定位和識別地球觀測圖像中的復(fù)雜目標(biāo)。

### 跨模態(tài)融合：整合不同傳感器的信息

第二個關(guān)鍵組件是跨模態(tài)融合機制。想象你同時擁有一副普通眼鏡和一副夜視眼鏡。在白天，普通眼鏡（類比光學(xué)RGB圖像）可以清晰地顯示顏色和紋理；而在夜晚或濃霧中，夜視眼鏡（類比SAR雷達圖像）則能穿透障礙看到物體的輪廓。如果你能同時利用這兩種"視覺"，無疑會獲得更全面的信息。

EarthMind正是通過跨模態(tài)融合機制實現(xiàn)了這一點。這個機制包含兩個關(guān)鍵步驟：模態(tài)對齊(Modality Alignment)和模態(tài)互注意力(Modality Mutual Attention)。

模態(tài)對齊使用對比學(xué)習(xí)策略，將非光學(xué)特征（如SAR）與光學(xué)（RGB）特征空間對齊。這就像教會一個只懂英語的人理解法語——通過建立兩種語言之間的對應(yīng)關(guān)系，使他們能夠?qū)⒎ㄕZ單詞映射到已知的英語概念上。

模態(tài)互注意力則進一步評估每個模態(tài)中信息的重要性，動態(tài)地突出最有價值的特征。例如，在多云天氣下，SAR圖像中的道路輪廓可能比模糊的光學(xué)圖像更可靠；而在晴天，光學(xué)圖像中的植被顏色信息可能更加重要。通過這種機制，EarthMind能夠智能地平衡和整合不同模態(tài)的信息，提供更準(zhǔn)確、更全面的分析結(jié)果。

### EarthMind的整體架構(gòu)

將這些組件整合起來，EarthMind的工作流程如下：

首先，不同的編碼器處理輸入圖像，生成多層次的表示：視覺編碼器負(fù)責(zé)全局語義感知，區(qū)域編碼器負(fù)責(zé)對象級理解，基礎(chǔ)編碼器負(fù)責(zé)細(xì)粒度的空間分割。這些表示通過視覺-語言投影器轉(zhuǎn)換為一系列視覺標(biāo)記。

同時，系統(tǒng)還生成一組可學(xué)習(xí)的分割標(biāo)記，用于捕捉空間布局的特定方面。視覺標(biāo)記、分割標(biāo)記和文本查詢一起輸入到大型語言模型中，進行聯(lián)合跨模態(tài)推理。

對于多傳感器輸入，EarthMind采用了類似視頻處理的策略：將非光學(xué)圖像（如SAR或多光譜數(shù)據(jù)）轉(zhuǎn)換為"偽RGB"幀，構(gòu)成時序多幀序列。這些序列通過共享編碼器處理，使模型能夠利用跨幀依賴關(guān)系和光譜互補性。

最后，借助空間注意力提示和跨模態(tài)融合機制，EarthMind能夠在多尺度和多傳感器條件下提供準(zhǔn)確的理解和分析。

三、EarthMind-Bench：一個全面的多傳感器評估基準(zhǔn)

為了評估EarthMind的性能，研究團隊還創(chuàng)建了一個名為EarthMind-Bench的新基準(zhǔn)數(shù)據(jù)集。這個基準(zhǔn)數(shù)據(jù)集就像一套全面的考試題，專門設(shè)計用來測試模型在地球觀測領(lǐng)域的多方面能力。

EarthMind-Bench包含超過2,000對人工標(biāo)注的多傳感器圖像-問題對，涵蓋了從基礎(chǔ)感知到高級推理的各種任務(wù)。與現(xiàn)有基準(zhǔn)不同，EarthMind-Bench具有三個獨特特點：

首先，它支持多尺度任務(wù)評估，從粗粒度的圖像理解到細(xì)粒度的分割。就像一個地理專家不僅能說出"這是一個城市"，還能指出"這里是一條河流，它旁邊有三座橋"，甚至精確地劃出"這是一片農(nóng)田的邊界"。

其次，它引入了多傳感器數(shù)據(jù)，特別是配對的RGB-SAR圖像，使我們能夠評估模型融合不同模態(tài)信息的能力。這就像同時測試一個人在正常光線和暗光條件下的視覺能力。

第三，它涵蓋了多層次問題，從低級感知（如"圖像中有幾艘船？"）到高級推理（如"這個地區(qū)適合城市發(fā)展嗎？為什么？"）。

具體來說，EarthMind-Bench包含以下10個任務(wù)：

感知任務(wù)包括場景分類（判斷圖像屬于哪種類型的場景）、物體存在性檢測（判斷圖像中是否存在某種物體）、幻覺檢測（檢測模型是否錯誤識別不存在的物體）、物體計數(shù)（計算圖像中特定類別物體的數(shù)量）、圖像描述（生成描述圖像內(nèi)容的文本）和引用表達式分割（根據(jù)自然語言描述在圖像中分割對應(yīng)區(qū)域）。

推理任務(wù)則包括空間關(guān)系推理（推斷給定物體之間的相對位置）、路線規(guī)劃（生成從起點到終點的可行路徑）、災(zāi)害預(yù)測（評估特定地區(qū)發(fā)生自然災(zāi)害的可能性）和城市發(fā)展評估（評估一個區(qū)域是否適合城市開發(fā)）。

所有任務(wù)都被格式化為多項選擇題或開放式問題。對于多項選擇題，評估指標(biāo)是平均準(zhǔn)確率；對于開放式問題，研究團隊采用了基于GPT的評分機制來評估生成回答的質(zhì)量。

四、實驗結(jié)果：EarthMind表現(xiàn)如何？

那么，EarthMind的表現(xiàn)如何呢？研究團隊在三個方面進行了全面評估：EarthMind-Bench多傳感器評估、公共基準(zhǔn)評估以及消融實驗。

### EarthMind-Bench評估結(jié)果

在EarthMind-Bench上，研究團隊比較了EarthMind與現(xiàn)有最先進的地球觀測專用大型多模態(tài)模型（如GeoChat、LHRS-bot、Skysensegpt、GeoPixel等）以及通用專有模型（如GPT-4V和GPT-4o）的性能。

結(jié)果令人驚訝：盡管EarthMind只有4B參數(shù)（相對較?。?，但它在多項選擇題和開放式問題上的表現(xiàn)都超過了所有基線模型，包括規(guī)模更大的GPT-4o。具體來說，在RGB圖像上，EarthMind的多項選擇題平均準(zhǔn)確率達到69.0%，開放式問題平均得分為2.82（滿分5分）；在SAR圖像上，這兩個指標(biāo)分別為67.5%和2.64；最令人印象深刻的是，在RGB-SAR融合設(shè)置下，EarthMind的性能進一步提升至70.6%和3.02。

這一結(jié)果表明，與簡單地將不同模態(tài)圖像作為多圖輸入（如GPT-4模型所采用的方式）相比，EarthMind的跨模態(tài)融合機制能夠更有效地捕捉模態(tài)互補性。特別是在精細(xì)任務(wù)（如路線規(guī)劃、物體計數(shù)和空間關(guān)系理解）上，EarthMind展現(xiàn)出顯著的優(yōu)勢，因為這些任務(wù)往往需要同時利用光學(xué)圖像的紋理信息和SAR圖像的結(jié)構(gòu)線索。

### 公共基準(zhǔn)評估

除了EarthMind-Bench，研究團隊還在多個主流地球觀測基準(zhǔn)上評估了EarthMind的性能。這些基準(zhǔn)涵蓋了圖像級、區(qū)域級和像素級任務(wù)，以及多傳感器理解能力。

在圖像級任務(wù)（如AID和UC-Merced上的場景分類、RSVQA-HRBEN和VRSBench-VQA上的視覺問答）上，EarthMind顯著優(yōu)于之前的模型，包括GPT-4o。例如，在AID數(shù)據(jù)集上，EarthMind的準(zhǔn)確率達到97.2%，而GPT-4o為74.7%。

在區(qū)域級任務(wù)中，EarthMind在DIOR-RSVG上的CIDEr得分達到428.2，在VRSBench視覺定位任務(wù)上的準(zhǔn)確率達到55.6%，超過了基于視覺提示的方法。

最令人驚訝的是，在像素級基準(zhǔn)上，EarthMind在RRSIS-D和RefSegRS上都取得了最佳結(jié)果，甚至超過了專門的分割模型和地球觀測專用的大型多模態(tài)模型。例如，在RRSIS-D上，EarthMind的mIoU（平均交并比，一種評估分割準(zhǔn)確性的指標(biāo)）達到82.2%，而之前最好的模型GeoPixel為67.3%。

此外，EarthMind在多傳感器理解方面也表現(xiàn)出色。在BigEarthNet多光譜數(shù)據(jù)集上，EarthMind的準(zhǔn)確率達到70.4%，接近專門針對多光譜數(shù)據(jù)訓(xùn)練的EarthDial模型（69.9%）。在SAR船只檢測任務(wù)上，EarthMind也優(yōu)于之前的方法，特別是在檢測大型和中型船只方面。

### 消融實驗

為了深入了解EarthMind各組件的貢獻，研究團隊進行了一系列消融實驗。

首先，對于空間注意力提示（SAP）機制，實驗表明它顯著提升了分割性能。例如，在RRSIS-D數(shù)據(jù)集上，加入SAP使mIoU從67.5%提高到72.0%。可視化結(jié)果更直觀地展示了SAP的效果：沒有SAP時，模型的注意力往往偏離目標(biāo)區(qū)域；而加入SAP后，注意力能夠準(zhǔn)確地重新分配到與查詢對象對應(yīng)的區(qū)域。

其次，對于跨模態(tài)融合機制，實驗比較了三種配置：不使用模態(tài)對齊、簡單連接不同模態(tài)的視覺標(biāo)記、使用基于余弦相似度的簡單注意力機制。結(jié)果表明，完整的EarthMind模型（包括模態(tài)對齊和模態(tài)互注意力）在多項選擇準(zhǔn)確率和引用表達式分割上都顯著優(yōu)于這些基線。

此外，研究團隊還進行了"標(biāo)記丟棄"研究，比較了不同標(biāo)記保留策略的效果。結(jié)果表明，即使在相同的保留率下，EarthMind的模態(tài)互注意力機制也能保留更多信息內(nèi)容，導(dǎo)致更好的性能。這證明了該方法確實能夠保留不同模態(tài)之間最互補的信息。

五、技術(shù)細(xì)節(jié)：EarthMind是如何實現(xiàn)的？

讓我們深入了解EarthMind的一些技術(shù)細(xì)節(jié)。EarthMind基于Qwen-2.5-3B模型構(gòu)建，采用了三階段的課程學(xué)習(xí)策略進行微調(diào)。

在第一階段，研究團隊使用170萬通用圖像-文本數(shù)據(jù)來增強模型的指令遵循能力。這些數(shù)據(jù)涵蓋了圖像級描述、視覺問答、區(qū)域級對象理解和文本驅(qū)動分割。

在第二階段，研究團隊引入了100萬地球觀測特定的多模態(tài)數(shù)據(jù)，以使EarthMind適應(yīng)遙感領(lǐng)域。

在第三階段，他們使用自己合成的多傳感器對話語料，并有選擇地保留前期階段的示例以減輕災(zāi)難性遺忘。

EarthMind的訓(xùn)練使用4e-5的學(xué)習(xí)率和2的批量大小，只訓(xùn)練視覺-語言投影器、通過LoRA技術(shù)微調(diào)大型語言模型，以及掩碼解碼器。所有實驗都在8臺NVIDIA A100-80G GPU上進行。

訓(xùn)練數(shù)據(jù)集包括自然圖像數(shù)據(jù)集（如LLaVA-665K、引用表達式數(shù)據(jù)和定位對話生成樣本）和地球觀測特定數(shù)據(jù)（如來自EarthGPT的100萬VQA數(shù)據(jù)、來自VRSBench的14.2萬地球觀測對話、來自DIOR-RSVG的3.1萬區(qū)域級描述等）。此外，研究團隊還合成了2萬RGB-SAR配對對話，進一步增強了模型的多傳感器理解能力。

六、EarthMind的局限性與未來方向

盡管EarthMind取得了令人印象深刻的成果，但研究團隊也坦誠地指出了其局限性。

首先，訓(xùn)練EarthMind需要大量計算資源，這主要是因為它使用了多個視覺編碼器來實現(xiàn)多層次理解。一個有前途的方向是通過混合專家(Mixture-of-Experts)或知識蒸餾技術(shù)優(yōu)化架構(gòu)，減少冗余。

其次，開發(fā)一個能夠?qū)悩?gòu)傳感器輸入聯(lián)合嵌入到共享語義空間的模態(tài)對齊編碼器，可以進一步提高效率。

此外，EarthMind-Bench目前僅包含配對的光學(xué)(RGB)和合成孔徑雷達(SAR)模態(tài)。未來的擴展應(yīng)該納入更多的傳感模態(tài)，如多光譜、高光譜和紅外圖像，以更全面地評估大型多模態(tài)模型在地球觀測領(lǐng)域的融合能力。

七、總結(jié)：EarthMind的意義與影響

歸根結(jié)底，EarthMind代表了地球觀測領(lǐng)域的一個重要里程碑。它不僅提供了一個統(tǒng)一的框架來處理多尺度和多傳感器的地球觀測數(shù)據(jù)，還創(chuàng)建了一個全面的基準(zhǔn)來評估這些能力。

對于普通人來說，EarthMind的出現(xiàn)意味著我們可以更好地理解和利用衛(wèi)星圖像。無論是環(huán)境監(jiān)測、城市規(guī)劃、農(nóng)業(yè)管理還是災(zāi)害應(yīng)對，更準(zhǔn)確、更全面的地球觀測數(shù)據(jù)分析都能夠提供寶貴的決策支持。

例如，在災(zāi)害響應(yīng)中，EarthMind可以同時分析光學(xué)圖像和雷達圖像，即使在云層覆蓋或夜間條件下，也能準(zhǔn)確識別受災(zāi)區(qū)域，評估損失程度，并規(guī)劃救援路線。

在環(huán)境保護方面，EarthMind可以監(jiān)測森林砍伐、冰川融化、城市擴張等現(xiàn)象，提供從全局到局部的多尺度分析，幫助我們更好地理解人類活動對地球的影響。

總之，EarthMind的研究成果不僅推動了人工智能技術(shù)在地球觀測領(lǐng)域的應(yīng)用，也為我們提供了一個更強大的工具來觀察、理解和保護我們共同的家園——地球。

如果你對這項研究感興趣，可以訪問https://github.com/shuyansy/EarthMind獲取更多信息和代碼資源。

人工智能多模態(tài)融合地球觀測

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運動信息，顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<acronym id="6rn9z"></acronym><ruby id="6rn9z"></ruby>