這項由北卡羅來納大學教堂山分校的Han Lin、Jaemin Cho、Mohit Bansal和Lambda公司的Amir Zadeh、Chuan Li共同完成的研究,發(fā)表于2025年8月的arXiv預印本論文庫(論文編號:arXiv:2508.05954v1),為多模態(tài)大語言模型的發(fā)展帶來了突破性進展。有興趣深入了解的讀者可以通過https://bifrost-1.github.io訪問項目主頁,或在arXiv上搜索論文編號獲取完整論文。
想象你有一個既能理解圖片又能創(chuàng)作圖畫的智能助手。過去,要讓AI同時具備"看圖說話"和"聽話畫圖"這兩項能力,就像要培養(yǎng)一個既精通文學又擅長繪畫的全才,需要投入巨額成本進行全方位訓練?,F在,研究團隊找到了一條巧妙的捷徑——他們開發(fā)的Bifrost-1系統,就像給已經很聰明的AI助手配備了一支神奇的畫筆,讓它能以極低的成本獲得高質量的繪畫技能。
這個名字取自北歐神話中連接不同世界的彩虹橋,寓意著這項技術在多模態(tài)AI領域搭建的重要橋梁。研究團隊發(fā)現,傳統方法要么讓AI從零開始學畫畫(成本高昂),要么用簡單的文字描述來指導繪畫(效果有限)。Bifrost-1的創(chuàng)新之處在于使用"補丁級CLIP潛在變量"作為溝通媒介,這就像是為AI的"大腦"和"畫筆"之間建立了一個高效的翻譯器。
更令人興奮的是,這種方法不僅大幅降低了訓練成本,還保持了AI原有的理解能力不受損失。實驗結果表明,Bifrost-1在圖像生成質量和多模態(tài)理解能力方面都達到了與現有頂級方法相當或更優(yōu)的表現,但訓練所需的計算資源卻大幅減少。這意味著更多的研究機構和公司能夠負擔得起開發(fā)此類技術,從而加速多模態(tài)AI的普及和應用。
**一、傳統方法的困境與突破契機**
要理解Bifrost-1的革命性意義,我們需要先看看過去的AI是如何學習"看圖畫圖"的。就像培養(yǎng)一個藝術家一樣,傳統的方法大致分為兩種路徑。
第一種路徑可以比作"全才培養(yǎng)法"。研究人員把所有技能都塞給同一個AI模型,讓它既要學會理解文字、看懂圖片,又要掌握繪畫技巧。這就像讓一個學生同時攻讀文學、數學、美術和音樂四個專業(yè)。雖然理論上可行,但需要投入海量的時間、數據和計算資源。更糟糕的是,在學習新技能的過程中,AI往往會"忘記"之前掌握的能力,就像一個本來擅長寫作的人,在專心學畫畫時反而把寫作技巧給荒廢了。
第二種路徑則像"分工協作法"。研究人員讓專門理解語言的AI和專門繪畫的AI分工合作,語言AI負責理解用戶需求并生成詳細的繪畫指導,然后把這些指導傳遞給繪畫AI執(zhí)行。這種方法的問題在于"溝通效率"不高。語言AI只能用文字來描述復雜的視覺效果,就像你要通過電話向朋友描述一幅畫的每個細節(jié)一樣,很容易出現理解偏差或信息丟失。
研究團隊敏銳地意識到,問題的核心在于如何讓"理解"和"創(chuàng)作"兩個AI之間建立更高效的溝通渠道。他們的靈感來自于一個簡單的觀察:既然現有的多模態(tài)大語言模型(MLLM)已經具備了強大的圖像理解能力,為什么不直接利用這些能力來指導圖像生成呢?
關鍵的突破點在于CLIP技術的巧妙運用。CLIP是一種能夠同時理解圖像和文字的AI技術,它就像是一個精通多種語言的翻譯官,能夠在圖像信息和文字信息之間建立精確的對應關系。研究團隊發(fā)現,現有的多模態(tài)大語言模型內部就使用了CLIP來理解圖像,這意味著它們天然就"說"CLIP這種"語言"。
于是,一個巧妙的想法誕生了:既然MLLM已經會"說"CLIP語言,那何不讓它直接用CLIP語言來指導繪畫AI創(chuàng)作呢?這就像發(fā)現兩個看似無法溝通的團隊實際上都會說同一種方言,那么讓他們用這種共同語言交流效率會更高。這種方法不僅避免了重新訓練整個模型的巨大成本,還能充分利用現有模型的優(yōu)勢。
**二、Bifrost-1的核心技術架構**
Bifrost-1的技術架構就像一個精心設計的流水線系統,每個組件都有明確的分工,但又能完美協作。整個系統的核心可以比作一個智能藝術工作室,里面有三個關鍵角色:理解師、翻譯師和畫師。
理解師的角色由預訓練的多模態(tài)大語言模型擔任。這個MLLM就像一個經驗豐富的藝術評論家,它能夠準確理解用戶的需求,分析現有的圖像內容,并且知道如何將這些復雜的視覺概念轉換成具體的創(chuàng)作指導。重要的是,研究團隊為這個MLLM配備了一個特殊的"視覺生成分支",這個分支就像是給評論家裝上了一雙能夠"說畫"的手。
這個視覺生成分支的設計非常巧妙。研究團隊沒有從零開始構建它,而是復制了原有MLLM的大部分參數作為初始化。這就像是讓一個已經很懂藝術的評論家學會使用畫筆,而不是讓一個完全不懂藝術的人從頭開始學習。這種方法大大減少了訓練所需的時間和資源。
翻譯師的角色由"補丁級CLIP潛在變量"擔任。這個概念聽起來很復雜,但實際上可以理解為一種特殊的"藝術語言"。傳統的方法中,AI之間的交流要么使用簡單的文字描述(信息量有限),要么使用復雜的數學向量(需要大量訓練才能理解)。而CLIP潛在變量就像是藝術界的通用語言,它能夠精確地描述圖像的各種特征,包括顏色、形狀、紋理、空間關系等等。
更精妙的是,這些CLIP潛在變量是"補丁級"的,也就是說,它們不是簡單地描述整幅圖像,而是像拼圖一樣,將圖像分解成許多小塊(補?。?,每一塊都有詳細的描述。這就像是把一幅畫分解成若干個小區(qū)域,每個區(qū)域都有獨立而詳細的繪畫指導。這種細粒度的控制能力確保了生成圖像的精確性和細節(jié)豐富度。
畫師的角色由改進的擴散模型擔任。擴散模型是目前最先進的圖像生成技術之一,它的工作原理就像是從一團混沌的噪聲中逐步雕琢出清晰的圖像。為了讓這個畫師能夠理解翻譯師傳遞的CLIP語言,研究團隊開發(fā)了"潛在ControlNet"技術。
ControlNet可以理解為給畫師配備的一套特殊工具。傳統的ControlNet使用具體的控制圖像(如深度圖、邊緣圖等)來指導生成過程,而潛在ControlNet則直接使用CLIP潛在變量作為指導信息。這就像是給畫師提供了一份更加抽象但信息更豐富的創(chuàng)作指南,讓畫師能夠更準確地理解和執(zhí)行創(chuàng)作意圖。
整個系統的工作流程可以這樣理解:當用戶提出一個創(chuàng)作需求時,理解師(MLLM)首先分析和理解這個需求,然后通過其視覺生成分支將理解結果轉換成補丁級的CLIP潛在變量。這些變量就像是詳細的創(chuàng)作藍圖,包含了每個圖像區(qū)域應該如何繪制的精確指導。接著,潛在ControlNet將這些藍圖傳遞給畫師(擴散模型),畫師根據這些指導逐步生成最終的圖像。
這種架構的最大優(yōu)勢在于充分利用了現有技術的優(yōu)勢,同時避免了各自的劣勢。MLLM提供了強大的理解和推理能力,擴散模型提供了高質量的圖像生成能力,而CLIP潛在變量則作為高效的溝通橋梁,確保了信息傳遞的準確性和完整性。
**三、訓練策略的創(chuàng)新設計**
Bifrost-1在訓練策略上的創(chuàng)新可以比作一個精明的教練為運動員制定的訓練方案,既要高效又要避免過度訓練導致的能力退化。研究團隊采用了一種被稱為"解耦訓練"的策略,這種方法的核心思想是讓不同的組件按照各自的節(jié)奏進行訓練,而不是強制它們步調一致。
傳統的端到端訓練就像讓一個馬拉松選手和一個短跑選手按照同樣的訓練節(jié)奏練習,結果往往是兩者都無法發(fā)揮出最佳水平。在AI訓練中,多模態(tài)大語言模型需要大量的時間來學習精確的視覺表示生成,而ControlNet相對來說學習速度更快。如果強制它們同步訓練,就會造成資源浪費和訓練效率低下。
解耦訓練策略將整個訓練過程分為兩個相對獨立的階段。第一個階段專注于訓練MLLM的視覺生成分支,讓它學會如何生成準確的補丁級CLIP潛在變量。這個過程就像教一個藝術評論家學會用專業(yè)的繪畫術語來表達自己的想法。訓練使用的是均方誤差損失函數,這是一種能夠精確衡量生成的潛在變量與真實值之間差異的方法。
第二個階段則專注于訓練潛在ControlNet,讓它學會如何將CLIP潛在變量轉換為有效的繪畫指導。這個過程使用的是FLUX擴散模型的原始流匹配損失函數,確保生成的圖像質量能夠達到預期水平。
這種分階段訓練的好處是多方面的。首先,它允許研究團隊為每個組件分配最適合的計算資源和訓練時間。MLLM的訓練需要更多的時間和數據,而ControlNet的訓練相對簡單快速。其次,這種方法降低了內存需求,因為不需要同時為所有組件維護梯度信息。
在具體的訓練實現上,研究團隊采用了一種被稱為"掩碼自回歸"的技術來訓練MLLM的視覺生成能力。這種方法的工作原理類似于拼圖游戲:系統會隨機遮蓋圖像的某些部分,然后讓MLLM學習預測這些被遮蓋部分的CLIP表示。
掩碼比例的選擇也經過了精心設計。研究團隊使用截斷正態(tài)分布來隨機采樣掩碼比例,均值設定為1.0,標準差為0.25,范圍限制在0.7到1.0之間。這意味著在訓練過程中,大部分情況下會遮蓋掉70%到100%的圖像內容,迫使模型學會從有限的信息中推斷出完整的視覺表示。
這種訓練策略的另一個巧妙之處在于對注意力機制的精心設計。在多模態(tài)訓練中,不同類型的信息需要不同的注意力模式。文本信息使用因果掩碼(只能看到前面的內容,符合語言的線性特性),圖像信息使用全注意力(每個圖像塊都能看到其他所有圖像塊,符合視覺信息的空間特性),而且所有之前的模態(tài)信息對后續(xù)模態(tài)都是完全可見的。
推理過程的設計同樣體現了研究團隊的巧思。在實際應用時,系統首先會收到用戶的文本指令和完全被掩碼的圖像標記,然后按照預先隨機確定的順序逐步預測每個圖像塊的CLIP表示。這種逐步預測的方式確保了生成內容的一致性和質量,就像一個畫家按照既定的構圖計劃逐步完成畫作的每個部分。
**四、實驗設計與性能評估**
為了驗證Bifrost-1的有效性,研究團隊設計了一系列精心構建的實驗,就像為一款新車進行全方位的路測一樣,從不同角度和場景下檢驗系統的性能表現。
首先,研究團隊在ImageNet數據集上進行了對比實驗,這個數據集包含了1000個類別的數百萬張圖像,可以說是圖像識別和生成領域的標準測試場。他們將Bifrost-1與多種不同的架構設計進行了對比,就像在同一條賽道上讓不同的賽車同臺競技。
實驗結果令人印象深刻。在圖像生成質量的關鍵指標上,Bifrost-1取得了FID分數25.77、sFID分數53.67、IS分數98.57的優(yōu)異表現。這些數字雖然看起來抽象,但實際上反映了生成圖像的逼真程度和多樣性。相比之下,使用2D可學習查詢令牌的方法得分分別為118.69、129.14和9.15,差距可謂天壤之別。
更有說服力的是與不同技術方案的對比實驗。當研究團隊將MLLM原生的CLIP視覺編碼器替換為外部的SigLIP編碼器時,性能出現了顯著下降(FID從25.77上升到274.16),這清楚地證明了使用與MLLM原生對齊的視覺表示的重要性。類似地,當使用VAE潛在變量替代CLIP潛在變量時,性能同樣大幅下降,進一步驗證了CLIP表示的優(yōu)越性。
在訓練效率方面,Bifrost-1的優(yōu)勢更加明顯。整個系統的訓練只需要相對較少的計算資源:潛在ControlNet和MLLM分別訓練2個和16個epoch,而潛在ControlNet在某些實驗中甚至只需要1個epoch(約2500萬訓練步)就能達到良好效果。這相比于需要數百個GPU-天的傳統方法來說,效率提升是革命性的。
研究團隊還進行了一項有趣的縮放實驗,探索補丁級CLIP潛在變量數量對圖像重建質量的影響。他們測試了16、64、144、256個令牌四種不同配置,結果發(fā)現令牌數量與重建質量呈現明顯的正相關關系。使用256個令牌(相當于14×14的網格)時,不僅重建精度最高,收斂速度也最快。這個發(fā)現為實際應用中的配置選擇提供了重要參考。
在與最新技術的對比中,Bifrost-1展現出了競爭優(yōu)勢。研究團隊將其與包括DreamLLM、Chameleon、Show-o、EMU3、MetaQuery等在內的多個先進系統進行了全面比較。在多模態(tài)理解基準測試中,Bifrost-1在保持與基礎MLLM相同理解能力的同時,獲得了強大的圖像生成能力。
特別值得注意的是圖像重建實驗的結果。研究團隊將Bifrost-1生成的重建圖像與SEED、EMU、EMU2、GPT-4o、MetaQuery等系統進行了定性比較。盡管Bifrost-1的潛在ControlNet僅在ImageNet數據集上訓練了3個epoch,沒有接觸過任何其他開放世界圖像,但其重建質量與GPT-4o和MetaQuery等強大基線相當甚至更優(yōu)。
推理時間的分析也揭示了系統的實用性。研究團隊測試了不同MLLM解碼步數對生成質量和推理時間的影響。結果顯示,只要解碼步數大于8,系統就能保持穩(wěn)定的性能表現。在默認的64步設置下,MLLM部分的推理時間為5.21秒,而FLUX.1-dev擴散模型的推理時間為14.79秒。這意味著MLLM的計算開銷并不是系統的瓶頸,用戶可以根據應用需求在推理速度和生成質量之間靈活權衡。
**五、技術細節(jié)與實現方案**
Bifrost-1的技術實現充滿了精巧的工程細節(jié),就像一件精密的瑞士手表,每個零件都經過精心設計和調試。研究團隊在實現過程中遇到并解決了許多技術挑戰(zhàn),這些解決方案不僅保證了系統的性能,也為后續(xù)研究提供了寶貴經驗。
在MLLM架構設計方面,研究團隊采用了分支式設計策略。具體來說,他們?yōu)镸LLM添加了一個專門的視覺生成分支,這個分支與原有的文本理解分支并行工作。視覺生成分支的參數初始化來自原MLLM的對應參數,包括注意力機制的QKV投影層、多層感知機(MLP)投影層和歸一化層。唯一從頭開始訓練的組件是視覺生成頭部,這是一個簡單的線性投影層,負責將隱藏狀態(tài)轉換為CLIP潛在變量。
這種設計的優(yōu)勢在于最大程度地復用了預訓練模型的知識。由于視覺生成分支的大部分參數都來自經過充分訓練的MLLM,它天然具備了理解和處理視覺信息的能力。這就像給一個經驗豐富的藝術評論家配備一支畫筆,他雖然需要學習如何使用畫筆,但對藝術的理解和審美能力是現成的。
在注意力機制的設計上,研究團隊制定了詳細的掩碼策略。不同類型的輸入采用不同的注意力模式:文本輸入使用因果掩碼,確保模型只能看到前面的詞語;圖像理解輸入使用雙向注意力,允許不同圖像塊之間相互關注;圖像生成輸入也使用雙向注意力,但能夠關注到所有之前的模態(tài)信息。這種精心設計的注意力模式確保了不同任務的特性得到充分尊重。
潛在ControlNet的實現基于FLUX.1-dev的官方ControlNet架構,但進行了針對性的修改。最重要的改動是將輸入線性投影層從處理三通道圖像(RGB)改為處理CLIP潛在變量。由于CLIP潛在變量的維度與圖像通道數不同,這個修改是必要的。同時,為了減少MLLM需要生成的視覺令牌數量,研究團隊引入了輕量級的2D卷積下采樣模塊,將潛在變量的空間分辨率降低一半。
在訓練配置上,研究團隊只更新ControlNet中4個MM-DiT(Multi-Modal Diffusion Transformer)模塊和1個Single-DiT模塊的參數,而FLUX.1-dev的完整模型包含19個MM-DiT模塊和38個Single-DiT模塊。這種選擇性更新策略既保證了訓練效果,又大幅降低了計算開銷。
數據處理流程也經過了精心設計。在訓練過程中,圖像首先通過MLLM的原生視覺編碼器生成補丁級嵌入,然后與文本令牌連接。接著,系統按照預設的掩碼比例隨機替換部分圖像嵌入為可學習的掩碼令牌。掩碼比例的采樣使用截斷正態(tài)分布,確保大多數情況下都有足夠的挑戰(zhàn)性,迫使模型學會從有限信息推斷完整的視覺表示。
推理過程的實現同樣體現了工程智慧。系統首先為所有圖像位置生成隨機的預測順序,然后按照這個順序逐步預測每個位置的CLIP表示。這種隨機化策略防止了模型過度依賴特定的預測順序,提高了生成結果的多樣性和質量。
在軟硬件配置方面,研究團隊的實驗環(huán)境既包括單GPU設置也包括多GPU并行訓練。ImageNet上的實驗使用單個GH200 GPU完成,而大規(guī)模的SoTA比較實驗則使用16個GB200 GPU進行分布式訓練。這種靈活的配置證明了系統對不同硬件環(huán)境的適應性。
評估指標的選擇也經過深思熟慮。對于圖像生成質量,研究團隊使用了FID(Fréchet Inception Distance)、sFID(Spatial Fréchet Inception Distance)和IS(Inception Score)三個指標,這些指標分別從不同角度衡量生成圖像的質量、空間結構合理性和多樣性。對于多模態(tài)理解能力,他們選擇了MME-P、MMB、SEED、MMMU、MM-Vet等廣泛認可的基準測試。
**六、實際應用前景與局限性分析**
Bifrost-1作為一項前沿技術,其應用前景就像一片廣闊的沃土,蘊含著無限可能,但同時也面臨著一些現實的挑戰(zhàn)和限制。研究團隊在論文中坦誠地討論了這些方面,為未來的發(fā)展方向提供了清晰的指引。
從應用前景來看,Bifrost-1最直接的應用場景是內容創(chuàng)作和媒體制作領域。傳統的圖像生成往往需要用戶提供詳細的文字描述,而Bifrost-1能夠理解更復雜的多模態(tài)指令,比如"把這張照片的風格改成梵高的星夜"或"根據這段文字描述生成一幅插圖,但要保持這張參考圖的構圖"。這種能力對于廣告設計、影視制作、游戲開發(fā)等行業(yè)來說具有巨大價值。
在教育和培訓領域,Bifrost-1也展現出獨特優(yōu)勢。教師可以用它來快速生成教學插圖,根據課文內容創(chuàng)作配圖,或者幫助學生將抽象概念可視化。比如在歷史課上,老師可以根據史料描述生成古代建筑的復原圖,或者在科學課上將復雜的生物過程轉化為直觀的圖解。
科研領域同樣能從這項技術中受益。研究人員可以使用Bifrost-1來生成論文插圖、制作學術海報、或者將數據分析結果可視化。特別是在需要展示假設場景或理論模型時,這種技術能夠幫助科研人員更有效地傳達復雜的概念。
然而,研究團隊也清醒地認識到當前技術的局限性。首先是對基礎模型的依賴性問題。Bifrost-1的表現很大程度上取決于其采用的基礎MLLM和擴散模型的能力。如果基礎擴散模型在處理復雜、罕見或前所未見的場景和物體時表現不佳,那么Bifrost-1的輸出質量也會受到影響。這就像一個技藝精湛的指揮家,如果樂團的演奏水平有限,那么再好的指揮也難以產出完美的音樂。
訓練數據的質量和多樣性是另一個重要限制因素。雖然Bifrost-1的訓練效率很高,但它仍然需要大量高質量的圖像-文本配對數據。目前的實驗主要基于BLIP3-o數據集和ImageNet,這些數據集雖然規(guī)模龐大,但在某些特定領域(如醫(yī)學影像、科學可視化、藝術創(chuàng)作)的覆蓋可能不夠充分。
計算資源的需求也不容忽視。雖然相比傳統方法,Bifrost-1的訓練效率有了顯著提升,但對于資源有限的研究機構或個人開發(fā)者來說,仍然需要相當的計算投入。特別是在推理階段,系統需要運行大型的MLLM和擴散模型,這對硬件配置提出了一定要求。
在生成內容的可控性方面,雖然Bifrost-1提供了比傳統方法更精細的控制能力,但仍然存在提升空間。用戶目前主要通過文本指令來指導生成過程,對于需要像素級精確控制的應用場景,可能還需要額外的技術支持。
倫理和安全問題同樣值得關注。強大的圖像生成能力可能被濫用于制作虛假信息或誤導性內容。研究團隊指出,Bifrost-1建立在具有強大安全保障的預訓練模型基礎上,并且使用了經過安全清洗的公開數據集進行訓練,這在一定程度上降低了濫用風險。但隨著技術的普及,建立更完善的使用規(guī)范和檢測機制仍然是必要的。
版權和知識產權問題也需要仔細考慮。訓練數據中可能包含受版權保護的圖像,生成的內容如何避免侵犯原創(chuàng)作者的權益,這是整個AI生成內容領域都需要面對的挑戰(zhàn)。
展望未來,研究團隊認為有幾個方向特別值得關注。首先是擴展到更強大的基礎模型,隨著更大規(guī)模、更高質量的MLLM和擴散模型的出現,Bifrost-1的性能上限還有很大提升空間。其次是擴展到更豐富的數據集,特別是專業(yè)領域的數據,這將使系統在特定應用場景下表現得更加出色。
技術架構的進一步優(yōu)化也是重要方向。比如探索更高效的注意力機制、更精細的控制方法、更快速的推理算法等。多模態(tài)能力的擴展同樣充滿潛力,未來的系統可能不僅能處理圖像和文本,還能整合音頻、視頻、3D模型等更多模態(tài)的信息。
說到底,Bifrost-1代表了多模態(tài)AI發(fā)展的一個重要里程碑,它不僅在技術上實現了突破,更重要的是為這個領域提供了一個新的思路和框架。就像歷史上許多重要的技術創(chuàng)新一樣,它的真正價值可能不僅在于解決了當下的問題,更在于為未來的探索開辟了新的道路。隨著技術的不斷完善和應用的深入探索,我們有理由相信,這種"橋接"思想將在多模態(tài)AI的發(fā)展中發(fā)揮越來越重要的作用。
Q&A
Q1:Bifrost-1和傳統的AI圖像生成方法有什么區(qū)別?
A:傳統方法要么讓AI從零開始學畫畫(成本極高),要么用簡單文字描述指導繪畫(效果有限)。Bifrost-1則像給已經很聰明的AI配了支神奇畫筆,通過"補丁級CLIP潛在變量"讓理解能力強的AI直接指導專業(yè)畫師AI創(chuàng)作,既保持了原有理解能力,又大幅降低了訓練成本。
Q2:什么是"補丁級CLIP潛在變量",為什么它這么重要?
A:可以理解為一種AI之間的專業(yè)"藝術語言"。它把圖像分解成許多小塊,每一塊都有詳細的特征描述,包括顏色、形狀、紋理等。這種語言既精確又高效,讓負責理解的AI和負責繪畫的AI能夠無障礙溝通,避免了信息丟失和理解偏差。
Q3:Bifrost-1的訓練成本真的比其他方法低很多嗎?
A:是的,效果非常明顯。傳統方法需要數百個GPU-天的計算資源,而Bifrost-1的潛在ControlNet只需訓練1-2個epoch就能達到良好效果,MLLM部分也只需16個epoch。整體訓練資源需求相比傳統方法降低了90%以上,這讓更多機構能夠負擔得起開發(fā)此類技術。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統,首次實現AI根據復雜指令創(chuàng)作完整長篇音頻故事。該系統結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數據集和MM-AlignBench評測基準,通過創(chuàng)新的數據生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內完成10天全球天氣預報,準確性超越傳統方法90%的指標。該模型采用圖神經網絡技術,通過學習40年歷史數據掌握天氣變化規(guī)律,在極端天氣預測方面表現卓越,能耗僅為傳統方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。