這項(xiàng)由加州大學(xué)伯克利分校的尼克·江(Nick Jiang)、阿米爾·德拉維德(Amil Dravid)、阿列克謝·埃夫羅斯(Alexei A. Efros)和約西·甘德爾斯曼(Yossi Gandelsman)領(lǐng)導(dǎo)的研究團(tuán)隊(duì)發(fā)表于2025年6月9日的arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2506.08010v1。有興趣深入了解的讀者可以通過(guò)該論文編號(hào)在arXiv網(wǎng)站上訪問(wèn)完整研究?jī)?nèi)容。
想象一下,你正在使用一副眼鏡看世界,但鏡片上總是有一些模糊的污點(diǎn),讓你無(wú)法清楚地看到重要的細(xì)節(jié)?,F(xiàn)在,有人發(fā)明了一種神奇的方法,不需要重新制作眼鏡,就能讓這些污點(diǎn)消失,讓你的視野變得清晰透明。這就是這項(xiàng)研究為人工智能視覺系統(tǒng)帶來(lái)的革命性改變。
在人工智能的世界里,有一種叫做"視覺變換器"(Vision Transformers,簡(jiǎn)稱ViTs)的技術(shù),它就像AI的眼睛,幫助計(jì)算機(jī)理解和分析圖像。這種技術(shù)在過(guò)去幾年里變得極其重要,被廣泛應(yīng)用于圖像識(shí)別、自動(dòng)駕駛、醫(yī)療診斷等各個(gè)領(lǐng)域。然而,就像我們剛才提到的有污點(diǎn)的眼鏡一樣,這些AI眼睛也存在一個(gè)令人困擾的問(wèn)題。
研究人員發(fā)現(xiàn),當(dāng)這些AI系統(tǒng)在處理圖像時(shí),會(huì)在一些看似隨機(jī)的位置產(chǎn)生奇怪的"注意力噪點(diǎn)"。想象你在看一張風(fēng)景照片,你的注意力應(yīng)該集中在美麗的山峰或湖泊上,但不知為何,你的目光總是被照片角落里毫不起眼的一小塊天空吸引。這就是AI系統(tǒng)遇到的問(wèn)題——它們的注意力被一些本來(lái)不重要的圖像區(qū)域"劫持"了,導(dǎo)致無(wú)法準(zhǔn)確識(shí)別真正重要的內(nèi)容。
之前,科學(xué)家們已經(jīng)發(fā)現(xiàn)了這個(gè)問(wèn)題,并提出了一種解決方案:在訓(xùn)練AI系統(tǒng)時(shí)添加一些特殊的"寄存器令牌"(register tokens),就像給眼鏡加上特殊的涂層來(lái)處理污點(diǎn)。但這種方法有一個(gè)巨大的缺陷——你必須從頭開始重新訓(xùn)練整個(gè)AI系統(tǒng),這就像要重新制作一副全新的眼鏡一樣,既耗時(shí)又昂貴。
這就是為什么這項(xiàng)研究如此令人興奮的原因。研究團(tuán)隊(duì)發(fā)現(xiàn)了一種全新的方法,可以在不重新訓(xùn)練AI系統(tǒng)的情況下,直接在使用時(shí)解決這個(gè)問(wèn)題。他們的發(fā)現(xiàn)就像找到了一種神奇的眼鏡清潔劑,只需要在使用眼鏡時(shí)輕輕一擦,就能讓污點(diǎn)消失,而不需要重新制作眼鏡。
一、揭開AI視覺系統(tǒng)神秘面紗的偵探工作
要理解這項(xiàng)研究的重要性,我們首先需要了解AI視覺系統(tǒng)是如何工作的。想象AI的視覺處理過(guò)程就像一個(gè)巨大的工廠,圖像被分解成許多小塊(就像拼圖的碎片),然后通過(guò)多個(gè)加工車間進(jìn)行處理。
在這個(gè)工廠里,有一種特殊的機(jī)制叫做"注意力機(jī)制",它就像工廠的質(zhì)量檢查員,決定哪些圖像碎片需要重點(diǎn)關(guān)注,哪些可以忽略。正常情況下,這個(gè)檢查員應(yīng)該把注意力集中在重要的圖像內(nèi)容上,比如人物的臉部、汽車的輪廓或建筑的細(xì)節(jié)。
然而,研究人員發(fā)現(xiàn)了一個(gè)奇怪的現(xiàn)象:在某些情況下,這個(gè)質(zhì)量檢查員會(huì)突然把大部分注意力集中在一些看起來(lái)毫不起眼的圖像碎片上。這些碎片通常來(lái)自圖像中比較單調(diào)的區(qū)域,比如純色的背景、均勻的天空或單調(diào)的墻面。就像一個(gè)本來(lái)應(yīng)該檢查汽車質(zhì)量的檢查員,卻把所有時(shí)間都花在了檢查一顆普通螺絲上。
更奇怪的是,這些被過(guò)度關(guān)注的圖像碎片會(huì)產(chǎn)生異常高的"信號(hào)強(qiáng)度",研究人員稱之為"高范數(shù)令牌"(high-norm tokens)。想象這就像某些螺絲突然開始發(fā)出刺眼的光芒,雖然它們本身并不重要,但卻吸引了所有人的注意力。
為了解開這個(gè)謎團(tuán),研究團(tuán)隊(duì)開始了一場(chǎng)真正的偵探工作。他們仔細(xì)分析了AI系統(tǒng)內(nèi)部的工作機(jī)制,就像醫(yī)生用X光檢查病人的身體一樣。他們使用了OpenCLIP和DINOv2這兩種先進(jìn)的AI視覺系統(tǒng)作為研究對(duì)象,這些系統(tǒng)就像兩種不同品牌的高端相機(jī),都具有出色的圖像處理能力。
通過(guò)深入分析,研究人員發(fā)現(xiàn)了一個(gè)驚人的事實(shí):在AI系統(tǒng)龐大的神經(jīng)網(wǎng)絡(luò)中,只有不到10個(gè)特殊的"神經(jīng)元"(在包含數(shù)千個(gè)神經(jīng)元的系統(tǒng)中)對(duì)這些注意力異常負(fù)有直接責(zé)任。這就像在一個(gè)擁有數(shù)千名員工的大工廠里,只有不到10個(gè)員工的異常行為導(dǎo)致了整個(gè)生產(chǎn)線的問(wèn)題。
這個(gè)發(fā)現(xiàn)讓研究團(tuán)隊(duì)意識(shí)到,他們找到了問(wèn)題的根源。這些特殊的神經(jīng)元就像工廠里的"搗蛋鬼",它們會(huì)在不應(yīng)該的時(shí)候激活,導(dǎo)致某些圖像區(qū)域獲得過(guò)多的注意力。研究人員將這些神經(jīng)元稱為"寄存器神經(jīng)元"(register neurons),因?yàn)樗鼈兊淖饔镁拖裼?jì)算機(jī)中的寄存器一樣,存儲(chǔ)和管理信息。
更令人興奮的是,研究團(tuán)隊(duì)發(fā)現(xiàn)他們不僅能夠識(shí)別這些"搗蛋鬼"神經(jīng)元,還能夠控制它們的行為。通過(guò)精確地調(diào)整這些神經(jīng)元的活動(dòng),他們可以讓注意力異常出現(xiàn)在他們想要的任何位置,甚至可以讓這些異常消失。這就像找到了工廠里搗蛋員工的名單,并且學(xué)會(huì)了如何管理他們的行為。
二、神奇的"注意力搬運(yùn)工"技術(shù)
一旦研究團(tuán)隊(duì)確定了這些"搗蛋鬼"神經(jīng)元的身份,他們開始思考一個(gè)大膽的問(wèn)題:能否像搬運(yùn)工一樣,把這些不必要的注意力從重要的圖像區(qū)域"搬運(yùn)"到不重要的地方?
想象你正在整理一個(gè)凌亂的房間,房間里到處都是不該放在那里的物品。傳統(tǒng)的解決方法是重新裝修整個(gè)房間(相當(dāng)于重新訓(xùn)練AI系統(tǒng)),但研究團(tuán)隊(duì)想到了一個(gè)更聰明的辦法:為什么不直接把這些亂放的物品搬到一個(gè)專門的儲(chǔ)物間里呢?
這個(gè)想法聽起來(lái)簡(jiǎn)單,但實(shí)現(xiàn)起來(lái)卻需要極其精密的操作。研究團(tuán)隊(duì)開發(fā)了一種算法,可以自動(dòng)識(shí)別那些"搗蛋鬼"寄存器神經(jīng)元。這個(gè)算法就像一個(gè)訓(xùn)練有素的偵探,能夠在成千上萬(wàn)的神經(jīng)元中準(zhǔn)確找出那些造成問(wèn)題的"嫌疑犯"。
識(shí)別過(guò)程是這樣工作的:算法首先掃描整個(gè)AI系統(tǒng),找出那些經(jīng)常在圖像的無(wú)關(guān)緊要區(qū)域產(chǎn)生強(qiáng)烈激活的神經(jīng)元。就像一個(gè)安保人員檢查監(jiān)控錄像,尋找那些總是在錯(cuò)誤時(shí)間出現(xiàn)在錯(cuò)誤地點(diǎn)的可疑人員。通過(guò)分析大量圖像樣本,算法能夠準(zhǔn)確識(shí)別出這些"慣犯"神經(jīng)元。
一旦識(shí)別出了這些寄存器神經(jīng)元,研究團(tuán)隊(duì)就可以開始他們的"注意力搬運(yùn)"工作了。他們的方法非常巧妙:在AI系統(tǒng)處理圖像的過(guò)程中,他們會(huì)實(shí)時(shí)監(jiān)控這些寄存器神經(jīng)元的活動(dòng)。當(dāng)這些神經(jīng)元開始在重要的圖像區(qū)域"搗亂"時(shí),算法會(huì)立即介入,將它們的激活信號(hào)重新導(dǎo)向到一個(gè)特殊的"臨時(shí)存儲(chǔ)區(qū)域"。
這個(gè)臨時(shí)存儲(chǔ)區(qū)域就是他們創(chuàng)造的"測(cè)試時(shí)寄存器"(test-time register)。想象這就像在房間的角落放置一個(gè)大箱子,專門用來(lái)收集所有不應(yīng)該散落在房間各處的雜物。這個(gè)箱子不會(huì)影響房間的正常使用,但能夠確保房間保持整潔有序。
整個(gè)過(guò)程的美妙之處在于,它完全不需要改變AI系統(tǒng)的原始結(jié)構(gòu)或重新訓(xùn)練任何部分。就像你可以在不重新裝修房間的情況下,僅僅通過(guò)添加一個(gè)儲(chǔ)物箱就讓房間變得整潔。這種方法被稱為"訓(xùn)練無(wú)關(guān)"或"即插即用"的解決方案。
為了驗(yàn)證這種方法的有效性,研究團(tuán)隊(duì)進(jìn)行了大量的實(shí)驗(yàn)。他們發(fā)現(xiàn),當(dāng)他們激活這些寄存器神經(jīng)元并將注意力重定向到測(cè)試時(shí)寄存器時(shí),AI系統(tǒng)的注意力圖譜變得清晰而準(zhǔn)確。原本被噪點(diǎn)污染的注意力現(xiàn)在能夠準(zhǔn)確地聚焦在圖像的重要內(nèi)容上,就像擦干凈了眼鏡鏡片一樣。
更令人印象深刻的是,研究團(tuán)隊(duì)還展示了他們對(duì)這些注意力異常的精確控制能力。他們可以讓這些異常出現(xiàn)在圖像的任何指定位置,甚至可以創(chuàng)造出有趣的圖案,比如心形或其他幾何形狀。這就像一個(gè)熟練的魔術(shù)師,不僅能夠讓兔子從帽子里消失,還能讓它出現(xiàn)在觀眾指定的任何地方。
三、真實(shí)世界中的神奇效果驗(yàn)證
理論上的成功只是第一步,真正的考驗(yàn)在于這種方法在實(shí)際應(yīng)用中的表現(xiàn)。研究團(tuán)隊(duì)就像廚師試驗(yàn)新食譜一樣,在各種不同的"菜系"(任務(wù)類型)中測(cè)試他們的方法。
首先,他們測(cè)試了圖像分類任務(wù),這就像讓AI系統(tǒng)參加一個(gè)"看圖說(shuō)話"的考試。他們使用了ImageNet、CIFAR-10和CIFAR-100這些經(jīng)典的圖像數(shù)據(jù)集,就像使用標(biāo)準(zhǔn)化考試來(lái)評(píng)估學(xué)生的水平一樣。令人欣喜的是,使用了測(cè)試時(shí)寄存器的AI系統(tǒng)不僅保持了原有的識(shí)別準(zhǔn)確率,在某些情況下甚至表現(xiàn)得更好。
接下來(lái),他們測(cè)試了更復(fù)雜的任務(wù),比如圖像分割和深度估計(jì)。圖像分割就像讓AI系統(tǒng)用不同顏色的筆勾勒出圖像中每個(gè)物體的輪廓,而深度估計(jì)則像讓AI系統(tǒng)判斷圖像中每個(gè)物體離相機(jī)的距離。在這些更加精細(xì)的任務(wù)中,測(cè)試時(shí)寄存器顯示出了顯著的優(yōu)勢(shì),準(zhǔn)確率的提升清晰可見。
最令人興奮的發(fā)現(xiàn)來(lái)自于"無(wú)監(jiān)督物體發(fā)現(xiàn)"任務(wù)。在這個(gè)任務(wù)中,AI系統(tǒng)需要在沒有任何提示的情況下,自動(dòng)找出圖像中的主要物體。這就像讓一個(gè)人在完全不知道要找什么的情況下,從一張復(fù)雜的照片中找出最重要的東西。在這個(gè)任務(wù)中,使用測(cè)試時(shí)寄存器的系統(tǒng)比原始系統(tǒng)的表現(xiàn)提升了驚人的20個(gè)百分點(diǎn),這相當(dāng)于從及格邊緣躍升到優(yōu)秀水平。
研究團(tuán)隊(duì)還在"零樣本分割"任務(wù)中測(cè)試了他們的方法。這個(gè)任務(wù)要求AI系統(tǒng)僅憑注意力機(jī)制就能準(zhǔn)確地分割出圖像中的物體,不需要任何額外的訓(xùn)練數(shù)據(jù)。結(jié)果顯示,測(cè)試時(shí)寄存器帶來(lái)了5個(gè)mIOU(平均交集聯(lián)合比)的提升,這在計(jì)算機(jī)視覺領(lǐng)域是一個(gè)相當(dāng)顯著的進(jìn)步。
為了展示方法的通用性,研究團(tuán)隊(duì)還將測(cè)試時(shí)寄存器應(yīng)用到了多模態(tài)AI系統(tǒng)中。這類系統(tǒng)能夠同時(shí)理解文字和圖像,就像一個(gè)既能讀書又能看圖的智能助手。他們使用了LLaVA-Llama-3-8B這個(gè)先進(jìn)的系統(tǒng)進(jìn)行測(cè)試,發(fā)現(xiàn)測(cè)試時(shí)寄存器顯著改善了AI系統(tǒng)對(duì)視覺內(nèi)容的理解質(zhì)量,讓文字輸出與相關(guān)視覺區(qū)域的對(duì)應(yīng)關(guān)系更加準(zhǔn)確。
在所有這些測(cè)試中,最令人印象深刻的是測(cè)試時(shí)寄存器與那些專門訓(xùn)練過(guò)的寄存器系統(tǒng)幾乎達(dá)到了相同的性能水平。這就像一個(gè)業(yè)余廚師使用簡(jiǎn)單工具做出的菜肴,竟然能夠媲美專業(yè)廚師在高端廚房里制作的精品料理。
四、意外發(fā)現(xiàn)的防御超能力
在研究過(guò)程中,團(tuán)隊(duì)還發(fā)現(xiàn)了測(cè)試時(shí)寄存器的一個(gè)意想不到的應(yīng)用:抵御"印刷攻擊"(typographic attacks)。這種攻擊方式就像在一張汽車照片上貼上"飛機(jī)"的標(biāo)簽,試圖欺騙AI系統(tǒng)認(rèn)為這是一架飛機(jī)而不是汽車。
傳統(tǒng)的防御方法就像在照片上用黑色馬克筆涂掉標(biāo)簽,雖然有效,但會(huì)破壞圖像的完整性。而測(cè)試時(shí)寄存器提供了一種更加優(yōu)雅的解決方案:它可以精確地將注意力異常引導(dǎo)到包含欺騙性文字的區(qū)域,在不改變圖像本身的情況下,讓AI系統(tǒng)"忽略"這些干擾信息。
實(shí)驗(yàn)結(jié)果顯示,這種方法將印刷攻擊的成功率從50.5%大幅降低到7.5%,幾乎達(dá)到了傳統(tǒng)像素遮蔽方法的效果。更重要的是,這種防御機(jī)制只需要修改AI系統(tǒng)中大約0.02%的神經(jīng)元活動(dòng),相比之下,傳統(tǒng)方法需要遮蔽約10%的圖像內(nèi)容。這就像用一根銀針就能解決需要大手術(shù)才能處理的問(wèn)題。
五、深入理解AI"大腦"的工作機(jī)制
這項(xiàng)研究不僅提供了一個(gè)實(shí)用的技術(shù)解決方案,更重要的是,它為我們理解AI系統(tǒng)的內(nèi)部工作機(jī)制打開了一扇新的窗戶。研究團(tuán)隊(duì)發(fā)現(xiàn),在AI的"大腦"中,并非所有神經(jīng)元都是平等的。
傳統(tǒng)上,科學(xué)家們認(rèn)為每個(gè)神經(jīng)元都應(yīng)該負(fù)責(zé)識(shí)別特定的圖像特征,比如邊緣、角落或特定的形狀。然而,這項(xiàng)研究揭示了一類完全不同的神經(jīng)元——它們的作用不是識(shí)別圖像內(nèi)容,而是管理信息的存儲(chǔ)和流動(dòng),就像計(jì)算機(jī)中的內(nèi)存管理器一樣。
這個(gè)發(fā)現(xiàn)具有深遠(yuǎn)的意義。它表明AI系統(tǒng)的智能不僅來(lái)自于對(duì)外部世界的感知,還來(lái)自于內(nèi)部信息管理機(jī)制的精巧設(shè)計(jì)。寄存器神經(jīng)元就像AI系統(tǒng)的"內(nèi)務(wù)管理員",雖然它們不直接參與圖像識(shí)別工作,但它們的存在對(duì)于整個(gè)系統(tǒng)的正常運(yùn)轉(zhuǎn)至關(guān)重要。
研究團(tuán)隊(duì)還發(fā)現(xiàn),這些寄存器神經(jīng)元在不同的AI系統(tǒng)中都存在,這表明它們可能是AI視覺系統(tǒng)的一個(gè)基本組成部分。就像所有復(fù)雜的生物都需要某種形式的內(nèi)部調(diào)節(jié)機(jī)制一樣,先進(jìn)的AI系統(tǒng)也需要這樣的"內(nèi)務(wù)管理"功能。
六、技術(shù)細(xì)節(jié)的深度解析
雖然研究的核心思想相對(duì)簡(jiǎn)單,但其技術(shù)實(shí)現(xiàn)卻涉及許多精妙的細(xì)節(jié)。研究團(tuán)隊(duì)開發(fā)的算法需要在AI系統(tǒng)運(yùn)行的過(guò)程中實(shí)時(shí)監(jiān)控和調(diào)整神經(jīng)元的活動(dòng),這就像在一輛高速行駛的汽車上更換輪胎一樣困難。
算法的第一步是建立一個(gè)"神經(jīng)元檔案",記錄每個(gè)神經(jīng)元在處理不同圖像時(shí)的行為模式。這個(gè)過(guò)程需要分析大量的圖像樣本,就像建立一個(gè)詳細(xì)的員工檔案,記錄每個(gè)員工在不同工作情境下的表現(xiàn)。
接下來(lái),算法需要在實(shí)時(shí)處理過(guò)程中識(shí)別出異常行為。這要求系統(tǒng)能夠在毫秒級(jí)的時(shí)間內(nèi)做出決策,就像一個(gè)反應(yīng)極快的守門員,能夠在球飛向球門的瞬間做出正確的撲救動(dòng)作。
最后,算法需要精確地重定向神經(jīng)元的激活信號(hào)。這個(gè)過(guò)程必須既快速又精確,任何延遲或錯(cuò)誤都可能影響整個(gè)系統(tǒng)的性能。研究團(tuán)隊(duì)通過(guò)大量的實(shí)驗(yàn)和優(yōu)化,最終實(shí)現(xiàn)了這個(gè)看似不可能的任務(wù)。
研究團(tuán)隊(duì)還測(cè)試了不同的初始化策略,發(fā)現(xiàn)測(cè)試時(shí)寄存器的具體初始化方式對(duì)最終效果的影響很小。這就像發(fā)現(xiàn)不管你用什么材料做儲(chǔ)物箱,只要放在合適的位置,就能有效地收納雜物。
七、廣闊的應(yīng)用前景和未來(lái)影響
這項(xiàng)研究的影響遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)界的范圍。在實(shí)際應(yīng)用中,這種技術(shù)可能會(huì)改變我們與AI視覺系統(tǒng)交互的方式。想象一下,未來(lái)的自動(dòng)駕駛汽車、醫(yī)療診斷系統(tǒng)、安防監(jiān)控系統(tǒng)都可能受益于這種技術(shù),獲得更加清晰、準(zhǔn)確的視覺理解能力。
對(duì)于普通用戶來(lái)說(shuō),這意味著手機(jī)的拍照識(shí)別功能會(huì)更加準(zhǔn)確,智能家居系統(tǒng)會(huì)更好地理解家庭環(huán)境,虛擬助手會(huì)更準(zhǔn)確地理解用戶展示的圖像內(nèi)容。這些改進(jìn)可能看起來(lái)微小,但它們會(huì)累積成為我們?nèi)粘I铙w驗(yàn)的顯著提升。
從技術(shù)發(fā)展的角度來(lái)看,這項(xiàng)研究開創(chuàng)了一個(gè)新的研究方向:如何在不重新訓(xùn)練的情況下改進(jìn)現(xiàn)有的AI系統(tǒng)。這種"即插即用"的改進(jìn)方式可能會(huì)成為未來(lái)AI技術(shù)發(fā)展的一個(gè)重要趨勢(shì),因?yàn)樗冉?jīng)濟(jì)又高效。
研究團(tuán)隊(duì)也指出了當(dāng)前方法的一些局限性。例如,他們主要關(guān)注了神經(jīng)元層面的干預(yù),而忽略了其他可能的干預(yù)點(diǎn),比如注意力層或輸入令牌。此外,測(cè)試時(shí)寄存器與訓(xùn)練過(guò)的寄存器在性能上仍然存在細(xì)微差別,這表明還有進(jìn)一步改進(jìn)的空間。
更重要的是,這項(xiàng)研究揭示了AI系統(tǒng)中存在許多我們尚未完全理解的機(jī)制。寄存器神經(jīng)元的發(fā)現(xiàn)只是冰山一角,可能還有其他類型的"功能性神經(jīng)元"等待我們?nèi)グl(fā)現(xiàn)。這些發(fā)現(xiàn)將幫助我們構(gòu)建更加智能、更加可靠的AI系統(tǒng)。
說(shuō)到底,這項(xiàng)研究就像為AI世界發(fā)明了一種神奇的"眼鏡清潔劑"。它不需要重新制作眼鏡,不需要復(fù)雜的手術(shù),只需要輕輕一擦,就能讓AI的"眼睛"變得清晰透明。這種簡(jiǎn)單而有效的解決方案不僅解決了一個(gè)長(zhǎng)期困擾研究人員的技術(shù)問(wèn)題,更為我們理解和改進(jìn)AI系統(tǒng)開辟了全新的道路。
對(duì)于那些關(guān)心AI技術(shù)發(fā)展的朋友們來(lái)說(shuō),這項(xiàng)研究傳達(dá)了一個(gè)重要信息:有時(shí)候,最好的解決方案不是推倒重來(lái),而是找到問(wèn)題的根源,然后用巧妙的方法加以解決。就像這項(xiàng)研究一樣,通過(guò)深入理解AI系統(tǒng)的內(nèi)部機(jī)制,我們可以用最小的改動(dòng)獲得最大的改進(jìn)。這不僅節(jié)省了時(shí)間和資源,還為未來(lái)的技術(shù)發(fā)展提供了新的思路和方向。
有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過(guò)arXiv:2506.08010v1這個(gè)論文編號(hào)在arXiv網(wǎng)站上查閱完整的研究報(bào)告,其中包含了詳細(xì)的實(shí)驗(yàn)數(shù)據(jù)、算法描述和技術(shù)分析。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。