av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<del id="3bevr"></del>

<big id="3bevr"><samp id="3bevr"><meter id="3bevr"></meter></samp></big>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計(jì)算的「力量」

雙域穩(wěn)健性：CLIP模型需要一個穩(wěn)健的文本編碼器

多模態(tài)模型對抗魯棒性文本編碼器

雙域穩(wěn)健性：CLIP模型需要一個穩(wěn)健的文本編碼器

作者：科技行者

2025-06-08 16:44

分享至：

這篇研究首次關(guān)注了CLIP模型文本編碼器的對抗魯棒性問題，提出了LEAF方法（Levenshtein高效對抗性微調(diào)）來增強(qiáng)文本編碼器的穩(wěn)健性。實(shí)驗(yàn)表明，LEAF顯著提高了模型在面對文本擾動時的性能，在AG-News數(shù)據(jù)集上將對抗準(zhǔn)確率從44.5%提升至63.3%。當(dāng)集成到Stable Diffusion等文本到圖像生成模型中時，LEAF顯著提高了對抗噪聲下的生成質(zhì)量；在多模態(tài)檢索任務(wù)中，它平均提高了10個百分點(diǎn)的召回率。此外，LEAF還增強(qiáng)了模型的可解釋性，使文本嵌入的反演更加準(zhǔn)確。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-08 16:44 ? 科技行者

在當(dāng)今人工智能發(fā)展迅速的時代，多模態(tài)模型因其同時處理文本和圖像的能力而廣受關(guān)注。其中，CLIP（Contrastive Language-Image Pretraining）模型以其簡單而強(qiáng)大的設(shè)計(jì)成為眾多視覺-語言任務(wù)的基礎(chǔ)工具。這項(xiàng)由瑞士洛桑聯(lián)邦理工學(xué)院（EPFL）的Elias Abad Rocamora、Yongtao Wu和Volkan Cevher，以及德國圖賓根大學(xué)的Christian Schlarmann、Naman Deep Singh和Matthias Hein共同完成的研究，發(fā)表于2025年6月3日的arXiv預(yù)印本（arXiv:2506.03355v1 [cs.LG]），首次深入探討了CLIP模型文本編碼器的對抗魯棒性問題。

想象一下，你在使用一個能同時理解圖片和文字的AI系統(tǒng)。它看起來工作得很好，直到有人稍微改變了一張圖片或一句話中的一個字符，突然間，這個系統(tǒng)就完全被"迷惑"了，給出了荒謬的回答。這就是對抗攻擊的威力，而本研究正是致力于解決這個問題，特別是針對文本部分的對抗攻擊。

在過去，研究人員已經(jīng)開始關(guān)注如何讓CLIP模型的圖像編碼器更加穩(wěn)健，能夠抵抗圖像對抗攻擊。然而，文本編碼器的穩(wěn)健性卻一直被忽視。想象一下，如果一個惡意用戶只是改變了"bear"（熊）這個詞中的一個字母，變成了"beer"（啤酒），文本到圖像生成模型可能就會生成完全不同的圖像。這不僅是一個理論問題，更是一個實(shí)際的安全隱患，特別是對于那些集成了CLIP模型的下游應(yīng)用，如文本到圖像生成模型或大型視覺語言模型。

研究團(tuán)隊(duì)提出了一種名為LEAF（Levenshtein Efficient Adversarial Finetuning）的方法，這是一種高效的對抗性微調(diào)方法，專門針對文本域設(shè)計(jì)，并且能夠擴(kuò)展到大型CLIP模型。就像為房子增加防盜系統(tǒng)一樣，LEAF能夠顯著提高CLIP模型在文本域面對對抗攻擊時的零樣本準(zhǔn)確率，同時保持由穩(wěn)健圖像編碼器提供的視覺性能。

當(dāng)與文本到圖像擴(kuò)散模型（如Stable Diffusion）結(jié)合時，LEAF能夠提高在對抗噪聲下的生成質(zhì)量。當(dāng)在多模態(tài)檢索任務(wù)中使用時，穩(wěn)健的CLIP編碼器能夠提高對抗噪聲下的召回率。更有趣的是，穩(wěn)健的文本編碼器還能促進(jìn)通過直接優(yōu)化從其嵌入中更好地重構(gòu)輸入文本，使模型更加可解釋。

這項(xiàng)研究填補(bǔ)了CLIP模型穩(wěn)健性研究的重要空白，為構(gòu)建更安全、更可靠的多模態(tài)AI系統(tǒng)提供了關(guān)鍵技術(shù)。接下來，讓我們深入了解這項(xiàng)研究的細(xì)節(jié)，看看研究團(tuán)隊(duì)是如何讓CLIP模型在文字和圖像兩個領(lǐng)域都變得更加堅(jiān)固的。

一、CLIP模型及其脆弱性：為什么我們需要穩(wěn)健的文本編碼器？

CLIP模型是一個將圖像和文字映射到同一共享空間的強(qiáng)大工具，它由OpenAI在2021年推出。簡單來說，CLIP就像是一個翻譯官，能夠?qū)D片和文字翻譯成同一種"語言"（即向量表示），這樣我們就能比較它們的相似度。這種能力使CLIP成為多種多模態(tài)任務(wù)的基石，包括圖文檢索（根據(jù)文字找圖片或根據(jù)圖片找文字）、大型多模態(tài)模型（如能夠理解圖片并給出文字回應(yīng)的AI）以及文本到圖像生成模型（如根據(jù)文字描述生成圖片的Stable Diffusion）。

然而，正如一棟漂亮的房子可能因?yàn)橐粋€小小的漏洞而被闖入，CLIP模型也存在安全隱患。研究人員發(fā)現(xiàn)，對輸入的微小擾動（無論是圖像還是文本）都可能導(dǎo)致CLIP嵌入的顯著偏移。想象一下，如果你只是改變了句子中的一個字母，比如將"A big burly grizzly bear"（一只大壯碩的灰熊）變成"A big burly grizzly beer"（一只大壯碩的灰熊啤酒？），CLIP可能會將這兩個完全不同含義的句子映射到相似的空間，或者將原本應(yīng)該相似的內(nèi)容映射到完全不同的空間。

這種脆弱性不僅僅是理論上的問題。當(dāng)CLIP被集成到下游任務(wù)中時，如文本到圖像生成模型或大型視覺語言模型，這種脆弱性可能被惡意利用，導(dǎo)致模型產(chǎn)生意料之外的、甚至可能有害的輸出。例如，一個惡意用戶可能通過精心設(shè)計(jì)的文本擾動，誘導(dǎo)文本到圖像生成模型生成不適當(dāng)?shù)膬?nèi)容，盡管用戶的原始提示看起來完全無害。

在過去，研究人員主要關(guān)注如何提高CLIP圖像編碼器的穩(wěn)健性。例如，Mao等人在2023年提出了TeCoA方法，通過對抗性微調(diào)使圖像編碼器對視覺對抗攻擊更具魯棒性。隨后，Schlarmann等人在2024年提出了FARE方法，這是一種無監(jiān)督的魯棒性微調(diào)方法，旨在保留原始圖像嵌入同時增強(qiáng)魯棒性。這些方法使得集成CLIP的大型語言模型能夠更好地抵抗視覺對抗攻擊。

然而，CLIP的文本編碼器穩(wěn)健性卻一直被忽視。這就像只給房子的正門安裝了安全系統(tǒng)，卻忽略了后門和窗戶的安全。本研究正是填補(bǔ)了這一空白，提出了LEAF方法，這是第一個專門針對CLIP文本編碼器的對抗性微調(diào)方法。

二、LEAF方法：如何打造穩(wěn)健的文本編碼器？

想象一下你正在訓(xùn)練一只狗識別各種命令，而不僅僅是精確的標(biāo)準(zhǔn)命令，還包括那些發(fā)音略有不同但意思相同的變體。LEAF方法就像是這樣一種訓(xùn)練過程，它教會CLIP的文本編碼器在面對微小的文本變化時保持穩(wěn)定的理解。

LEAF的核心思想是受到Schlarmann等人2024年提出的FARE方法的啟發(fā)。FARE方法旨在通過對抗性微調(diào)使圖像編碼器在面對擾動時產(chǎn)生接近原始圖像嵌入的輸出。類似地，LEAF方法針對文本編碼器進(jìn)行對抗性微調(diào)，使其在面對文本擾動時產(chǎn)生接近原始文本嵌入的輸出。

具體來說，LEAF方法優(yōu)化以下目標(biāo)函數(shù)：

min_θ Σ_i max_{S'_i:dLev(S_i,S'_i)≤k∧S'_i∈C(S_i)} ||f_θCLIP(S_i) - f_θ(S'_i)||^2_2

這個看起來復(fù)雜的公式實(shí)際上描述了一個簡單的想法：我們希望微調(diào)后的文本編碼器f_θ在處理擾動后的文本S'_i時，產(chǎn)生的嵌入盡可能接近原始CLIP文本編碼器f_θCLIP處理原始文本S_i時產(chǎn)生的嵌入。其中，dLev表示Levenshtein距離（衡量兩個字符串之間的編輯距離），k是允許的最大擾動數(shù)量，C(S_i)是滿足語義約束的句子集合。

為了實(shí)現(xiàn)這一目標(biāo)，研究團(tuán)隊(duì)面臨兩個主要挑戰(zhàn)：

首先，如何高效地生成對抗性文本擾動。在圖像領(lǐng)域，研究人員通常使用投影梯度下降（PGD）生成對抗性擾動。然而，文本是離散的，無法直接應(yīng)用梯度下降。此前的工作如Abad Rocamora等人2024年提出的Charmer方法可以生成有效的文本對抗樣本，但計(jì)算成本高，特別是當(dāng)句子長度增加時。

為解決這個問題，研究團(tuán)隊(duì)提出了LEAF的核心創(chuàng)新：一種可以在訓(xùn)練批次內(nèi)并行化的攻擊方法。與Charmer相比，LEAF將計(jì)算時間減少了一個數(shù)量級，同時幾乎不損失性能。LEAF攻擊的工作原理如下：

1. 首先，隨機(jī)選擇ρ個位置，將這些位置的字符替換為空格，然后選擇損失最高的位置。 2. 然后，隨機(jī)選擇ρ個字符，將它們放在上一步選擇的位置上，再次選擇損失最高的字符作為最終擾動。

這種方法允許在每次前向傳播中評估ρ×B個句子，其中B是批次大小。這大大加速了對抗性訓(xùn)練過程。

第二個挑戰(zhàn)是確保生成的對抗性擾動保持語義一致性。為此，研究團(tuán)隊(duì)采用了Chanakya等人2024年提出的語義約束，即不允許擾動生成新的英語單詞。例如，將"bear"（熊）改為"beer"（啤酒）會改變句子的語義，因此應(yīng)該被禁止。這些約束對于文本到圖像生成任務(wù)尤為重要，因?yàn)檎Z義的微小變化可能導(dǎo)致生成完全不同的圖像。

通過實(shí)驗(yàn)，研究團(tuán)隊(duì)確定了LEAF方法的最佳超參數(shù)：ρ=50（每次評估50個候選擾動），k=1（允許一個字符的擾動），并使用語義約束。這種配置在提高文本領(lǐng)域魯棒性的同時，對圖像領(lǐng)域的性能影響最小。

三、實(shí)驗(yàn)結(jié)果：LEAF在多種任務(wù)上的表現(xiàn)

研究團(tuán)隊(duì)對LEAF方法進(jìn)行了全面的評估，探索了它在多種下游任務(wù)中的表現(xiàn)。實(shí)驗(yàn)使用了CLIP-ViT-L/14、OpenCLIP-ViT-H/14、OpenCLIP-ViT-g/14和OpenCLIP-ViT-bigG/14等多種CLIP模型。在視覺方面，他們將Schlarmann等人的FARE方法擴(kuò)展到ViT-H/14和ViT-g/14模型。所有模型都在DataComp-small數(shù)據(jù)集的前80,000個樣本上訓(xùn)練了30個周期。

### 零樣本分類任務(wù)

首先，研究團(tuán)隊(duì)評估了LEAF方法在零樣本分類任務(wù)上的表現(xiàn)。零樣本分類是指模型能夠在沒有見過任何訓(xùn)練樣本的情況下對新類別進(jìn)行分類的能力。

在AG-News數(shù)據(jù)集上，使用LEAF微調(diào)的文本編碼器將對抗性準(zhǔn)確率從44.5%提高到了63.3%（在k=1，即允許一個字符變化的情況下）。同時，在ImageNet數(shù)據(jù)集上，結(jié)合FARE微調(diào)的圖像編碼器和LEAF微調(diào)的文本編碼器，模型能夠在兩個域都保持較高的對抗性準(zhǔn)確率。

更令人印象深刻的是，盡管LEAF方法只在k=1的情況下進(jìn)行訓(xùn)練，但它能夠泛化到更大的擾動。在k=5的情況下（允許5個字符的變化），LEAF微調(diào)的模型仍然保持了明顯高于基線模型的性能。

### 文本到圖像生成

接下來，研究團(tuán)隊(duì)將LEAF微調(diào)的文本編碼器集成到Stable Diffusion（SD-1.5）和SDXL等文本到圖像生成模型中。

實(shí)驗(yàn)結(jié)果表明，使用LEAF微調(diào)的文本編碼器能夠顯著提高對抗噪聲下的生成質(zhì)量。例如，在MS-COCO數(shù)據(jù)集上，使用k=2的對抗性擾動時，LEAF微調(diào)的文本編碼器生成的圖像CLIPScore比原始模型高2.27分。視覺上，使用原始文本編碼器的模型在面對文本擾動時可能生成完全不相關(guān)的圖像（如將描述熊的文本生成足球運(yùn)動員的圖像），而LEAF微調(diào)的模型能夠保持更好的語義一致性。

更有趣的是，盡管SafeCLIP專門設(shè)計(jì)用于避免生成NSFW內(nèi)容，但在MS-COCO數(shù)據(jù)集的k=2和k=4擾動下，LEAF微調(diào)的文本編碼器觸發(fā)NSFW過濾器的頻率甚至低于SafeCLIP。

### 文本-圖像檢索

CLIP模型常用于檢索任務(wù)，如基于文本查找相關(guān)圖像或基于圖像查找相關(guān)文本。這些應(yīng)用在數(shù)據(jù)集/內(nèi)容過濾和NSFW檢測等場景中尤為重要。

研究團(tuán)隊(duì)在MS-COCO數(shù)據(jù)集上評估了LEAF微調(diào)的模型在檢索任務(wù)中的表現(xiàn)。結(jié)果顯示，在k=2的對抗性擾動下，使用LEAF微調(diào)的文本編碼器的模型比原始CLIP模型平均高出10個百分點(diǎn)的召回率。

視覺上，當(dāng)輸入查詢受到對抗性擾動時，原始模型可能檢索到完全不相關(guān)的圖像，而穩(wěn)健模型能夠保持檢索結(jié)果的語義相關(guān)性。例如，當(dāng)"a gaggle of geese swim in a body of water"（一群鵝在水中游泳）被擾動為"a gaggle of geesexswim in a body of wa2er"時，原始模型檢索到了與卡車和人物相關(guān)的圖像，而穩(wěn)健模型仍然能夠檢索到與鵝和水相關(guān)的圖像。

### 文本嵌入反演

最后，研究團(tuán)隊(duì)探索了文本嵌入反演，即從文本嵌入重構(gòu)原始文本的能力。這是一個重要的實(shí)驗(yàn)，因?yàn)樗@示了模型的可解釋性和語義保留能力。

研究人員從MS-COCO隨機(jī)抽取100個標(biāo)題，通過原始和穩(wěn)健的文本編碼器生成嵌入，然后嘗試通過直接優(yōu)化重構(gòu)原始文本。結(jié)果顯示，使用LEAF微調(diào)的文本編碼器能夠更好地保留語義信息，使得重構(gòu)更加準(zhǔn)確。例如，在ViT-L/14模型上，使用穩(wěn)健文本編碼器的單詞召回率從34.4%提高到了46.4%。

這些結(jié)果表明，LEAF不僅提高了模型的對抗魯棒性，還增強(qiáng)了其語義保留能力和可解釋性。

四、LEAF的工作原理及優(yōu)勢

為了更好地理解LEAF的工作原理，我們可以將其比作一種"免疫訓(xùn)練"。就像人體通過接觸弱化的病原體來建立免疫系統(tǒng)一樣，LEAF通過讓文本編碼器接觸各種可能的文本擾動來增強(qiáng)其魯棒性。

LEAF方法的核心是一種高效的對抗性訓(xùn)練策略，它包含兩個關(guān)鍵創(chuàng)新：

首先，LEAF采用了一種可并行化的文本攻擊方法，大大提高了訓(xùn)練效率。傳統(tǒng)的文本對抗攻擊方法，如Charmer，需要評估與句子長度相關(guān)的大量擾動，這在批處理訓(xùn)練中效率低下。相比之下，LEAF只評估固定數(shù)量（ρ）的擾動，無論句子長度如何。這使得LEAF在訓(xùn)練時比最快的Charmer變體快10倍以上，同時幾乎不損失性能。

其次，LEAF引入了語義約束，確保生成的對抗性擾動不會改變句子的原始含義。這一點(diǎn)對于下游任務(wù)如文本到圖像生成尤為重要，因?yàn)檎Z義的微小變化可能導(dǎo)致生成完全不同的圖像。

LEAF的這些創(chuàng)新使其具有以下優(yōu)勢：

1. 高效性：LEAF比傳統(tǒng)方法快一個數(shù)量級，使其能夠擴(kuò)展到大型CLIP模型。

2. 泛化能力：雖然LEAF只在k=1的擾動下訓(xùn)練，但它能夠泛化到更大的擾動（如k=5），顯示出良好的泛化能力。

3. 多任務(wù)適應(yīng)性：LEAF微調(diào)的文本編碼器可以無縫集成到多種下游任務(wù)中，如零樣本分類、文本到圖像生成和檢索，顯著提高這些任務(wù)在對抗環(huán)境下的性能。

4. 可解釋性增強(qiáng)：LEAF不僅提高了模型的對抗魯棒性，還增強(qiáng)了其語義保留能力和可解釋性，使得從嵌入重構(gòu)原始文本更加準(zhǔn)確。

5. 與圖像魯棒性的互補(bǔ)性：LEAF與FARE等圖像對抗性微調(diào)方法互補(bǔ)，共同構(gòu)建了在兩個域都具有魯棒性的CLIP模型。

值得注意的是，LEAF方法的訓(xùn)練目標(biāo)與FARE類似，旨在保留原始CLIP編碼器的語義空間，同時增強(qiáng)對對抗擾動的魯棒性。這使得LEAF微調(diào)的文本編碼器可以直接替換現(xiàn)有系統(tǒng)中的原始編碼器，而無需重新訓(xùn)練整個流水線。

五、研究意義與未來方向

這項(xiàng)研究的意義遠(yuǎn)超過技術(shù)創(chuàng)新，它為構(gòu)建更安全、更可靠的多模態(tài)AI系統(tǒng)提供了關(guān)鍵技術(shù)。

首先，通過同時增強(qiáng)CLIP模型在文本和圖像兩個域的魯棒性，研究團(tuán)隊(duì)打造了一個更全面的防御系統(tǒng)。這就像同時加固房子的所有入口，而不僅僅是前門。這種全面的防御對于依賴CLIP的關(guān)鍵應(yīng)用，如內(nèi)容過濾和NSFW檢測，尤為重要，因?yàn)檫@些應(yīng)用的失效可能導(dǎo)致嚴(yán)重后果。

其次，LEAF方法的高效性使其能夠擴(kuò)展到大型CLIP模型，這對于跟上AI快速發(fā)展的步伐至關(guān)重要。隨著模型規(guī)模的不斷增加，高效的對抗性訓(xùn)練方法變得越來越重要。

第三，LEAF方法在多種下游任務(wù)中的優(yōu)越表現(xiàn)表明，它不僅是一種技術(shù)改進(jìn)，還是一種能夠在實(shí)際應(yīng)用中產(chǎn)生實(shí)質(zhì)性影響的方法。無論是提高文本到圖像生成的質(zhì)量，增強(qiáng)檢索系統(tǒng)的可靠性，還是提升模型的可解釋性，LEAF都展示了廣泛的應(yīng)用價值。

當(dāng)然，這項(xiàng)研究也有一些限制。首先，雖然文本和圖像編碼器都經(jīng)過了對抗性微調(diào)，但它們是獨(dú)立訓(xùn)練的，可能仍然存在聯(lián)合優(yōu)化的對抗攻擊。其次，研究主要關(guān)注字符級的魯棒性，而沒有研究詞元級的魯棒性，因?yàn)樵~元級攻擊通常會改變句子的語義。此外，由于計(jì)算資源的限制，研究團(tuán)隊(duì)沒有訓(xùn)練最大的圖像編碼器（OpenCLIP-ViT-bigG）或最新的EVA-CLIP模型。

未來的研究方向可能包括：

1. 探索文本和圖像編碼器的聯(lián)合對抗性微調(diào)，以構(gòu)建對聯(lián)合攻擊更加魯棒的CLIP模型。

2. 在保持語義一致性的前提下，研究詞元級的魯棒性，可能需要更復(fù)雜的語義約束。

3. 將LEAF方法擴(kuò)展到更大的模型和其他使用文本編碼器的任務(wù)，如檢索增強(qiáng)生成（RAG）。

4. 探索更高效的對抗性訓(xùn)練方法，進(jìn)一步減少計(jì)算成本，使其能夠應(yīng)用于更廣泛的場景。

總的來說，這項(xiàng)研究為構(gòu)建更加穩(wěn)健的多模態(tài)AI系統(tǒng)邁出了重要一步，為未來的研究和應(yīng)用提供了寶貴的見解和工具。就像建筑師不僅關(guān)注建筑的美觀，還關(guān)注其安全性和耐久性一樣，AI研究人員也需要同時關(guān)注模型的性能和魯棒性。LEAF方法就是這種平衡的一個絕佳例子，它在提高模型魯棒性的同時，保持甚至增強(qiáng)了其在多種任務(wù)上的性能。

多模態(tài)模型對抗魯棒性文本編碼器

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息，顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量，在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn