在我們?nèi)粘I钪?,?dāng)我們看到一個(gè)繁忙的城市街道時(shí),我們自然能分辨出不同物體發(fā)出的聲音——汽車(chē)?yán)嚷暋⒛_步聲、人群的交談聲。這種將視覺(jué)物體與其相應(yīng)聲音聯(lián)系起來(lái)的能力對(duì)人類(lèi)來(lái)說(shuō)非常自然,但對(duì)計(jì)算機(jī)模型而言卻是一項(xiàng)巨大挑戰(zhàn)。2025年6月,由加州大學(xué)伯克利分校的Tingle Li和Baihe Huang,以及字節(jié)跳動(dòng)的Xiaobin Zhuang、Dongya Jia、Jiawei Chen、Yuping Wang、Zhuo Chen,再加上伯克利分校的Gopala Anumanchipalli和字節(jié)跳動(dòng)的Yuxuan Wang共同完成的這項(xiàng)研究,發(fā)表在了第42屆國(guó)際機(jī)器學(xué)習(xí)會(huì)議上,提出了一種名為"Sounding that Object"的創(chuàng)新方法,讓計(jì)算機(jī)能夠更準(zhǔn)確地為復(fù)雜場(chǎng)景中的特定物體生成聲音。
想象一下,你正在使用一款視頻編輯軟件,需要為一個(gè)城市街景視頻添加合適的環(huán)境音。傳統(tǒng)方法可能會(huì)為整個(gè)場(chǎng)景生成一段混合的街道噪音,但如果你想強(qiáng)調(diào)畫(huà)面中特定的元素——比如一輛汽車(chē)的引擎聲,或者行人的腳步聲——這就變得相當(dāng)困難了。現(xiàn)有的技術(shù)往往要么忽略了細(xì)微的聲音(如腳步聲),要么將共同出現(xiàn)的事件(如人群噪音和風(fēng)聲)捆綁在一起,即使你只想要其中一種聲音。
為什么會(huì)這樣呢?這是因?yàn)檎鎸?shí)世界的聲音在復(fù)雜場(chǎng)景中常常是不平衡且相互混淆的。就像在一個(gè)嘈雜的咖啡廳里,你可能很難單獨(dú)聽(tīng)清某個(gè)人的說(shuō)話聲一樣,計(jì)算機(jī)也難以從視覺(jué)場(chǎng)景中準(zhǔn)確分離出各個(gè)聲音源。
研究團(tuán)隊(duì)提出的解決方案借鑒了人類(lèi)是如何解析復(fù)雜聲景的。當(dāng)我們聽(tīng)到街道上的聲音時(shí),我們不僅處理整體的場(chǎng)景背景(比如城市環(huán)境),還能分辨出單獨(dú)的事件(如汽車(chē)?yán)嚷?、腳步聲)?;谶@一觀察,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)交互式的物體感知音頻生成模型,讓用戶(hù)可以在圖像中選擇特定物體,然后生成與之相對(duì)應(yīng)的聲音。
這個(gè)模型的核心在于將物體中心學(xué)習(xí)整合到條件潛在擴(kuò)散模型中。簡(jiǎn)單來(lái)說(shuō),就像是教會(huì)計(jì)算機(jī)通過(guò)注意力機(jī)制在圖像的不同區(qū)域與對(duì)應(yīng)聲音之間建立聯(lián)系。想象一下,如果你有一張街道照片,模型能夠"注意"到照片中的汽車(chē),并將其與引擎聲關(guān)聯(lián);注意到行人,并將其與腳步聲關(guān)聯(lián)。這種關(guān)聯(lián)是通過(guò)一種叫做"多模態(tài)點(diǎn)積注意力"的技術(shù)實(shí)現(xiàn)的,這種技術(shù)讓模型通過(guò)自我監(jiān)督學(xué)習(xí)理解圖像區(qū)域和聲音之間的對(duì)應(yīng)關(guān)系。
在實(shí)際使用時(shí),用戶(hù)可以通過(guò)分割蒙版(想象成一種數(shù)字"熒光筆",用來(lái)在圖像上標(biāo)記特定物體)來(lái)指定感興趣的物體。研究團(tuán)隊(duì)使用了一個(gè)名為SAM(Segment Anything Model)的工具來(lái)生成這些蒙版,用戶(hù)只需簡(jiǎn)單點(diǎn)擊幾下鼠標(biāo)就能選擇特定物體。這種交互方式使得即使是微小的聲音也能被準(zhǔn)確捕捉,因?yàn)槟P蜁?huì)專(zhuān)注于被選中的物體區(qū)域。更重要的是,即使用戶(hù)選擇了多個(gè)物體,模型也能自然地將它們的聲音混合成一個(gè)連貫的環(huán)境聲音,而不僅僅是簡(jiǎn)單地疊加獨(dú)立的音頻片段。
研究團(tuán)隊(duì)進(jìn)行了大量的定量評(píng)估和人類(lèi)感知研究,結(jié)果表明他們的模型在聲音-物體對(duì)齊方面顯著優(yōu)于現(xiàn)有基準(zhǔn)模型。此外,研究還提供了理論分析,證明了他們的物體定位機(jī)制在功能上等同于分割蒙版,這為模型的工作原理提供了堅(jiān)實(shí)的理論基礎(chǔ)。
這項(xiàng)研究的創(chuàng)新之處不僅在于提高了音頻生成的質(zhì)量,更在于賦予了用戶(hù)對(duì)生成過(guò)程前所未有的控制能力。無(wú)論是電影制作人想要為視頻添加逼真的環(huán)境聲,還是游戲設(shè)計(jì)師希望為虛擬世界創(chuàng)建沉浸式音效,這種技術(shù)都提供了一種更直觀、更精確的方式來(lái)實(shí)現(xiàn)聲音與視覺(jué)場(chǎng)景的完美結(jié)合。
以下,我們將深入探討這項(xiàng)研究的具體方法、實(shí)驗(yàn)結(jié)果以及潛在應(yīng)用,幫助你全面了解這項(xiàng)令人興奮的技術(shù)突破。
一、研究背景:聲音與視覺(jué)的天然聯(lián)系
我們?nèi)祟?lèi)天生就能將所看到的物體與它們發(fā)出的聲音聯(lián)系起來(lái)。想象你走在森林里,看到一只鳥(niǎo),即使沒(méi)有立即聽(tīng)到聲音,你的大腦也會(huì)自動(dòng)聯(lián)想到鳥(niǎo)鳴聲?;蛘弋?dāng)你看到一輛摩托車(chē)駛過(guò),你會(huì)自然地預(yù)期聽(tīng)到引擎的轟鳴。這種能力對(duì)我們理解周?chē)h(huán)境至關(guān)重要,但計(jì)算機(jī)要實(shí)現(xiàn)這一點(diǎn)卻并不容易。
現(xiàn)有的音頻生成方法主要分為兩類(lèi):基于視覺(jué)的模型和基于文本的模型?;谝曈X(jué)的模型,如Sheffer和Adi在2023年提出的方法,通過(guò)分析整個(gè)視覺(jué)場(chǎng)景來(lái)生成單一的配音軌。這種方法的問(wèn)題在于,它采用了一種"全局視角",可能會(huì)忽略場(chǎng)景中細(xì)微但重要的聲音源。就像你站在一個(gè)喧鬧的派對(duì)中,很難同時(shí)聽(tīng)清所有聲音一樣,這些模型也容易遺漏細(xì)節(jié)。
另一方面,基于文本的模型,例如Liu等人在2023年的研究,則面臨另一種挑戰(zhàn):當(dāng)文本描述包含多個(gè)事件時(shí),模型要么會(huì)遺漏某些聲音,要么會(huì)將它們與其他聲音混淆在一起。這就像你試圖描述"一個(gè)嬰兒在笑,同時(shí)一只小狗在叫",但生成的聲音可能只有嬰兒的笑聲,或者把嬰兒的笑聲和狗叫聲混為一體,失去了各自的特點(diǎn)。
雖然有研究者嘗試通過(guò)在擴(kuò)散潛空間中手動(dòng)重新調(diào)整各個(gè)聲音事件的權(quán)重來(lái)緩解這些問(wèn)題,但這種方法非常耗時(shí)且不實(shí)用,特別是對(duì)于大規(guī)模應(yīng)用而言。本質(zhì)上,這些挑戰(zhàn)源于真實(shí)世界聲音在復(fù)雜場(chǎng)景中的不平衡性和混淆性,使得區(qū)分不同聲源變得困難。
研究團(tuán)隊(duì)的靈感來(lái)自于人類(lèi)解析復(fù)雜聲景的方式。當(dāng)我們聽(tīng)到街道上的聲音時(shí),我們不僅處理整體的場(chǎng)景環(huán)境,還能識(shí)別出單獨(dú)的事件?;谶@一思路,他們提出了一個(gè)交互式物體感知音頻生成模型,該模型基于物體中心學(xué)習(xí)理論,讓用戶(hù)可以在圖像中選擇特定物體,然后生成與之相對(duì)應(yīng)的聲音。
這種方法就像是給計(jì)算機(jī)配備了一雙"智能耳朵",能夠?qū)W⒂谟脩?hù)指定的視覺(jué)物體,并生成相應(yīng)的聲音。這不僅解決了遺忘或混淆聲音事件的問(wèn)題,還為用戶(hù)提供了一種更加直觀和精確的方式來(lái)控制音頻生成過(guò)程。
二、研究方法:如何讓計(jì)算機(jī)理解"這個(gè)物體該發(fā)出什么聲音"
研究團(tuán)隊(duì)的方法核心在于將物體中心學(xué)習(xí)整合到條件潛在擴(kuò)散模型中。這聽(tīng)起來(lái)可能有些復(fù)雜,讓我們用一個(gè)簡(jiǎn)單的比喻來(lái)理解:想象你正在教一個(gè)外星人識(shí)別地球上的物體和它們發(fā)出的聲音。你會(huì)怎么做?你可能會(huì)指著一輛汽車(chē)說(shuō):"看,這是汽車(chē),它發(fā)出的聲音是這樣的..."然后播放引擎聲。接著指著一只狗說(shuō):"這是狗,它叫起來(lái)是這樣的..."然后模仿狗叫聲。通過(guò)這種方式,外星人逐漸學(xué)會(huì)將視覺(jué)物體與對(duì)應(yīng)的聲音聯(lián)系起來(lái)。
研究團(tuán)隊(duì)采用的方法基本上就是這個(gè)思路,只不過(guò)他們使用了更復(fù)雜的技術(shù)來(lái)實(shí)現(xiàn)這一點(diǎn)。他們的模型分為三個(gè)主要部分:條件音頻生成模型、文本引導(dǎo)的視覺(jué)物體定位模型,以及理論分析部分。
條件音頻生成模型是基于一種叫做"潛在擴(kuò)散模型"的技術(shù)。簡(jiǎn)單來(lái)說(shuō),這就像是從一堆噪音中逐漸"提煉"出有意義的聲音。想象你有一段充滿(mǎn)靜電噪音的錄音,通過(guò)反復(fù)處理,你可以逐漸減少噪音,直到清晰地聽(tīng)到原始聲音。這個(gè)模型就是這樣工作的,它從隨機(jī)噪聲開(kāi)始,然后通過(guò)多個(gè)步驟逐漸轉(zhuǎn)變?yōu)樗璧囊纛l。
為了讓模型理解"哪個(gè)物體應(yīng)該發(fā)出什么聲音",研究團(tuán)隊(duì)使用了一種叫做"多模態(tài)點(diǎn)積注意力"的技術(shù)。這種技術(shù)讓模型能夠在圖像的不同區(qū)域和對(duì)應(yīng)的聲音之間建立聯(lián)系。就像你的注意力可以從一個(gè)物體轉(zhuǎn)移到另一個(gè)物體一樣,這種機(jī)制允許模型"關(guān)注"圖像中的特定區(qū)域,并將這些區(qū)域與特定類(lèi)型的聲音關(guān)聯(lián)起來(lái)。
在實(shí)際使用時(shí),用戶(hù)可以通過(guò)分割蒙版來(lái)指定感興趣的物體。這些蒙版就像是數(shù)字"熒光筆",用來(lái)在圖像上標(biāo)記特定物體。研究團(tuán)隊(duì)使用了一個(gè)名為SAM(Segment Anything Model)的工具來(lái)生成這些蒙版,用戶(hù)只需簡(jiǎn)單點(diǎn)擊幾下鼠標(biāo)就能選擇特定物體。
最有趣的是,研究團(tuán)隊(duì)通過(guò)理論分析證明了他們的注意力機(jī)制在功能上等同于測(cè)試時(shí)的分割蒙版。這就像證明了兩條不同的路徑最終可以到達(dá)同一個(gè)目的地。這一理論基礎(chǔ)確保了生成的音頻與所選物體相對(duì)應(yīng),無(wú)論是使用模型的內(nèi)部注意力機(jī)制還是用戶(hù)提供的分割蒙版。
研究團(tuán)隊(duì)還引入了可學(xué)習(xí)的位置編碼,以增強(qiáng)模型定位圖像中物體的能力。這就像是給圖像添加了一個(gè)坐標(biāo)系統(tǒng),使模型能夠更準(zhǔn)確地識(shí)別物體在圖像中的位置。通過(guò)學(xué)習(xí)位置信息,模型可以更好地區(qū)分不同位置的物體,提高定位精度。
整個(gè)過(guò)程可以簡(jiǎn)單概括為:用戶(hù)選擇圖像中的一個(gè)或多個(gè)物體,模型通過(guò)學(xué)習(xí)到的關(guān)聯(lián)生成對(duì)應(yīng)的聲音。由于模型考慮了整個(gè)圖像提供的背景信息,即使選擇多個(gè)物體,生成的聲音也會(huì)自然地融合為一個(gè)連貫的環(huán)境,而不僅僅是簡(jiǎn)單地疊加獨(dú)立的音頻片段。
三、如何訓(xùn)練這個(gè)"會(huì)聽(tīng)會(huì)看"的智能模型
訓(xùn)練這樣一個(gè)復(fù)雜的模型就像是教導(dǎo)一個(gè)孩子同時(shí)學(xué)習(xí)視覺(jué)和聽(tīng)覺(jué)之間的聯(lián)系,需要大量的實(shí)例和精心設(shè)計(jì)的學(xué)習(xí)方法。研究團(tuán)隊(duì)使用了AudioSet數(shù)據(jù)集作為主要數(shù)據(jù)源,這個(gè)數(shù)據(jù)集包含4,616小時(shí)的視頻片段,每個(gè)片段都配有相應(yīng)的標(biāo)簽和描述。
然而,原始數(shù)據(jù)集并不是完美的。想象你在教一個(gè)孩子認(rèn)識(shí)動(dòng)物時(shí),如果你給他看一張獅子的照片,但同時(shí)播放的是大象的叫聲,這會(huì)造成混淆。同樣,如果視頻中的視覺(jué)內(nèi)容與音頻不匹配,模型也會(huì)學(xué)到錯(cuò)誤的關(guān)聯(lián)。因此,研究團(tuán)隊(duì)進(jìn)行了一系列的數(shù)據(jù)預(yù)處理步驟,確保音頻和視覺(jué)內(nèi)容之間有強(qiáng)烈的對(duì)應(yīng)關(guān)系。
他們首先訓(xùn)練了一個(gè)音視頻匹配模型,這個(gè)模型就像一個(gè)"質(zhì)量檢查員",它能夠評(píng)估視頻中的視覺(jué)內(nèi)容和音頻是否匹配。通過(guò)這個(gè)模型,他們篩選出了匹配度高的視頻片段。接著,他們使用了一個(gè)大型語(yǔ)言模型(類(lèi)似于GPT)來(lái)重新表述視頻描述,確保描述專(zhuān)注于可見(jiàn)的發(fā)聲物體。此外,他們還過(guò)濾掉了包含人聲(如唱歌、說(shuō)話)、畫(huà)外音和音樂(lè)的視頻片段,因?yàn)檫@些音頻與視覺(jué)內(nèi)容的關(guān)聯(lián)性較弱。
經(jīng)過(guò)這些精細(xì)的處理步驟,數(shù)據(jù)集被縮減到748小時(shí)的高質(zhì)量視頻片段,這些片段在整個(gè)視頻中都包含連續(xù)的聲音,并且展示出高度的音視頻對(duì)應(yīng)關(guān)系。
訓(xùn)練過(guò)程中,模型學(xué)習(xí)將文本描述(如"狗在叫")和圖像區(qū)域(狗的位置)與相應(yīng)的聲音(狗叫聲)關(guān)聯(lián)起來(lái)。這就像是教導(dǎo)模型:"當(dāng)你看到這個(gè)區(qū)域(指向狗)并想要與'狗叫'相關(guān)的聲音時(shí),應(yīng)該生成這樣的聲音..."。
研究團(tuán)隊(duì)使用了一種稱(chēng)為分類(lèi)器自由引導(dǎo)的技術(shù),這種技術(shù)在訓(xùn)練過(guò)程中會(huì)隨機(jī)省略條件輸入(如文本描述),使模型既能學(xué)習(xí)條件生成,也能學(xué)習(xí)無(wú)條件生成。這就像是教導(dǎo)孩子既能根據(jù)提示回答問(wèn)題,也能在沒(méi)有提示的情況下自行思考。
在測(cè)試階段,當(dāng)用戶(hù)選擇圖像中的特定物體時(shí),模型使用學(xué)習(xí)到的關(guān)聯(lián)來(lái)生成相應(yīng)的聲音。由于模型考慮了整個(gè)圖像提供的背景信息,即使選擇多個(gè)物體,生成的聲音也會(huì)自然地融合為一個(gè)連貫的環(huán)境,而不僅僅是簡(jiǎn)單地疊加獨(dú)立的音頻片段。
這種訓(xùn)練方法的創(chuàng)新之處在于它不僅讓模型學(xué)會(huì)了生成聲音,還學(xué)會(huì)了理解聲音與視覺(jué)物體之間的復(fù)雜關(guān)系,使得用戶(hù)可以以一種前所未有的直觀方式控制音頻生成過(guò)程。
四、實(shí)驗(yàn)結(jié)果:聽(tīng)聽(tīng)計(jì)算機(jī)的"耳朵"有多聰明
那么,這個(gè)交互式物體感知音頻生成模型到底表現(xiàn)如何呢?研究團(tuán)隊(duì)進(jìn)行了一系列全面的實(shí)驗(yàn)來(lái)評(píng)估模型的性能。
在定量評(píng)估方面,他們使用了幾個(gè)關(guān)鍵指標(biāo)來(lái)衡量模型的表現(xiàn)。首先是聲音事件準(zhǔn)確率(ACC),這個(gè)指標(biāo)利用PANNs模型預(yù)測(cè)和采樣聲音事件邏輯,基于標(biāo)注的標(biāo)簽計(jì)算整個(gè)數(shù)據(jù)集的平均準(zhǔn)確率。簡(jiǎn)單來(lái)說(shuō),這就是看模型生成的聲音是否與預(yù)期的聲音類(lèi)型相符。其次是弗雷切音頻距離(FAD),這個(gè)指標(biāo)衡量生成的音頻在潛空間與真實(shí)音頻的接近程度。還有庫(kù)爾貝克-萊布勒散度(KL),這個(gè)指標(biāo)評(píng)估生成音頻與目標(biāo)音頻之間分布的一致性;以及生成音頻的多樣性指標(biāo)——初始分?jǐn)?shù)(IS)。最后是音視頻對(duì)應(yīng)性(AVC),衡量生成的音頻與視覺(jué)上下文的匹配程度。
除了這些客觀指標(biāo),研究團(tuán)隊(duì)還進(jìn)行了人類(lèi)感知研究來(lái)評(píng)估生成音頻的質(zhì)量和相關(guān)性。他們隨機(jī)選擇了100個(gè)生成樣本,其中包括50個(gè)帶有手動(dòng)創(chuàng)建的特定物體分割蒙版的樣本。這些樣本由50名參與者進(jìn)行評(píng)分,評(píng)分標(biāo)準(zhǔn)包括:整體質(zhì)量(OVL)、與文本提示的相關(guān)性(RET)、與輸入圖像的相關(guān)性(REI)以及與所選物體的相關(guān)性(REO)。
結(jié)果令人印象深刻。在AudioCaps數(shù)據(jù)集上,與現(xiàn)有的基準(zhǔn)模型相比,他們的模型在各項(xiàng)指標(biāo)上都表現(xiàn)出色。特別是在ACC和REO指標(biāo)上,他們的模型顯著優(yōu)于其他模型,這表明它能夠更準(zhǔn)確地將聲音與圖像中的特定物體對(duì)齊。
在主觀評(píng)價(jià)中,他們的模型在所有評(píng)分標(biāo)準(zhǔn)上都獲得了最高的平均評(píng)分,特別是在REO方面,表明它能夠更好地將生成的聲音與圖像中的特定物體對(duì)齊。有趣的是,基準(zhǔn)模型在REO方面獲得了相似的分?jǐn)?shù),這表明它們將音頻與物體級(jí)視覺(jué)線索聯(lián)系起來(lái)的能力有限。
研究團(tuán)隊(duì)還進(jìn)行了另一項(xiàng)人類(lèi)研究,重點(diǎn)關(guān)注用戶(hù)驅(qū)動(dòng)的音頻生成。他們要求5名有經(jīng)驗(yàn)的參與者從單個(gè)圖像(圖2中的那個(gè))生成"嬰兒笑聲和小狗叫聲",并測(cè)量所需的平均時(shí)間、嘗試次數(shù)和主觀滿(mǎn)意度評(píng)分。結(jié)果顯示,基于文本的基準(zhǔn)模型通常會(huì)遺漏其中一種聲音,需要多次調(diào)整提示,導(dǎo)致時(shí)間更長(zhǎng)、滿(mǎn)意度更低。相比之下,他們的方法所需的嘗試次數(shù)更少,耗時(shí)更短,并獲得了更高的滿(mǎn)意度,即使對(duì)于已經(jīng)熟悉提示操作的參與者也是如此。
在質(zhì)性結(jié)果方面,研究團(tuán)隊(duì)展示了他們的方法與基準(zhǔn)模型在AudioCaps數(shù)據(jù)集上的音頻生成結(jié)果。在第一個(gè)例子中,圖像中有一只狗和一只鵝,基準(zhǔn)模型只生成了狗的叫聲,而忽略了鵝的叫聲,而他們的模型則捕捉到了兩種聲音。類(lèi)似地,在第二和第三個(gè)例子中,基準(zhǔn)模型只生成了部分聲音事件,而他們的模型生成了完整的聲景。在最后一個(gè)例子中,圖像中有一個(gè)小型噴氣式飛機(jī)在背景中和一群歡呼的人群,基于視覺(jué)的模型由于小飛機(jī)的小尺寸未能檢測(cè)到它,只生成了人群和風(fēng)的噪音,而基于文本的模型則難以組合多種聲音。他們的方法成功捕捉到了所有相關(guān)聲音,突顯了它在生成與復(fù)雜視覺(jué)場(chǎng)景準(zhǔn)確對(duì)齊的音頻方面的能力。
研究團(tuán)隊(duì)還進(jìn)行了多項(xiàng)消融研究,探究模型各個(gè)組件的重要性。結(jié)果表明,微調(diào)潛在擴(kuò)散權(quán)重而不是凍結(jié)它們對(duì)于獲得更連貫的音頻至關(guān)重要。單頭注意力機(jī)制比多頭注意力更有效,可能是因?yàn)槎囝^注意力雖然增強(qiáng)了文本輸入和生成音頻之間的對(duì)應(yīng)關(guān)系,但當(dāng)基于分割蒙版指定特定音頻特征時(shí),它減弱了可控性。此外,用加法注意力替換點(diǎn)積注意力會(huì)導(dǎo)致模型明顯崩潰,這與理論分析一致,表明分割蒙版不適合替代加法注意力。
最后,研究團(tuán)隊(duì)在不同的數(shù)據(jù)集上評(píng)估了他們的模型,進(jìn)一步證明了其泛化能力和有效性。
五、模型的應(yīng)用場(chǎng)景:從電影配音到虛擬現(xiàn)實(shí)
這項(xiàng)研究的潛在應(yīng)用范圍非常廣泛,從內(nèi)容創(chuàng)作到輔助技術(shù),再到虛擬現(xiàn)實(shí)體驗(yàn)。
在內(nèi)容創(chuàng)作領(lǐng)域,這種技術(shù)可以徹底改變電影和視頻制作的配音過(guò)程。傳統(tǒng)上,配音藝術(shù)家和音效設(shè)計(jì)師需要手動(dòng)創(chuàng)建和同步每個(gè)聲音效果,這是一個(gè)耗時(shí)且技術(shù)要求高的過(guò)程。使用這種交互式物體感知音頻生成模型,創(chuàng)作者只需點(diǎn)擊視頻幀中的特定物體,就能生成相應(yīng)的聲音。例如,在一個(gè)城市街景鏡頭中,導(dǎo)演可以選擇突出汽車(chē)的引擎聲、行人的腳步聲或遠(yuǎn)處的警笛聲,根據(jù)敘事需要調(diào)整聲音焦點(diǎn)。
在游戲和虛擬現(xiàn)實(shí)領(lǐng)域,這種技術(shù)可以創(chuàng)造更加身臨其境的音頻體驗(yàn)。游戲開(kāi)發(fā)者可以使用這種模型為游戲中的不同物體生成動(dòng)態(tài)和上下文相關(guān)的聲音,使虛擬世界感覺(jué)更加真實(shí)和生動(dòng)。想象一個(gè)開(kāi)放世界游戲,其中每個(gè)物體——從遠(yuǎn)處的瀑布到近處的篝火——都有與其視覺(jué)外觀和環(huán)境一致的聲音。
對(duì)于輔助技術(shù),這種模型可以幫助視覺(jué)障礙人士更好地理解圖像和視頻。通過(guò)生成與圖像中物體相對(duì)應(yīng)的聲音,這種技術(shù)可以提供一種新的方式來(lái)"聽(tīng)見(jiàn)"圖像內(nèi)容,補(bǔ)充現(xiàn)有的圖像描述技術(shù)。
在教育領(lǐng)域,這種技術(shù)可以創(chuàng)建更加互動(dòng)和吸引人的學(xué)習(xí)材料。例如,一本關(guān)于動(dòng)物的電子書(shū)可以允許學(xué)生點(diǎn)擊動(dòng)物圖像,聽(tīng)到它們的叫聲,增強(qiáng)學(xué)習(xí)體驗(yàn)和記憶保留。
在社交媒體和內(nèi)容分享平臺(tái)上,用戶(hù)可以利用這種技術(shù)為他們的照片和視頻添加有趣和創(chuàng)意的音頻效果,而無(wú)需專(zhuān)業(yè)的音頻編輯技能。
此外,這種技術(shù)還可以應(yīng)用于監(jiān)控和安全系統(tǒng),幫助識(shí)別和定位潛在的安全威脅。例如,一個(gè)配備了這種技術(shù)的監(jiān)控系統(tǒng)可以不僅識(shí)別出圖像中的可疑活動(dòng),還可以生成相應(yīng)的聲音線索,幫助安全人員更快地響應(yīng)。
研究團(tuán)隊(duì)的實(shí)驗(yàn)也展示了一些有趣的應(yīng)用場(chǎng)景。例如,他們演示了如何通過(guò)操縱視覺(jué)紋理來(lái)生成不同的聲景。在一個(gè)例子中,他們通過(guò)改變場(chǎng)景的天氣(晴天到雨天)或表面材質(zhì)(水到草)來(lái)生成相應(yīng)的聲音。這表明模型能夠捕捉視覺(jué)紋理的變化并生成上下文相關(guān)的聲音。
此外,研究團(tuán)隊(duì)還發(fā)現(xiàn)模型能夠捕捉多個(gè)物體之間的交互。例如,在展示棍子與水面接觸的場(chǎng)景中,模型生成了水花聲,而不僅僅是普通的水流聲。這表明模型能夠處理基本的多物體交互,這對(duì)于創(chuàng)建更復(fù)雜和真實(shí)的音頻體驗(yàn)至關(guān)重要。
六、研究的局限性與未來(lái)發(fā)展方向
盡管這項(xiàng)研究取得了令人印象深刻的成果,但它也存在一些局限性。研究團(tuán)隊(duì)坦率地指出,他們的模型在處理靜態(tài)圖像時(shí)表現(xiàn)出色,但在處理與動(dòng)態(tài)事件同步的非靜止音頻方面面臨挑戰(zhàn)。簡(jiǎn)單來(lái)說(shuō),就是模型難以為快速變化的場(chǎng)景生成精確同步的聲音。
想象你正在觀看一個(gè)乒乓球比賽的視頻:球拍擊球、球彈跳的瞬間都需要精確的聲音同步。由于該模型是基于靜態(tài)圖像訓(xùn)練的,它難以捕捉這種精確的時(shí)間關(guān)系。這就像是你看到了一張乒乓球比賽的靜止照片,雖然可以想象出大致的聲音,但難以確定聲音應(yīng)該在什么確切時(shí)刻出現(xiàn)。
另一個(gè)局限性是模型可能缺乏對(duì)相似物體產(chǎn)生的聲音類(lèi)型的精確控制。例如,圖像中的汽車(chē)可能產(chǎn)生引擎聲或警笛聲,這可能導(dǎo)致一定程度的歧義。這就像是你看到一張樂(lè)器的照片,知道它會(huì)發(fā)出聲音,但不確定是演奏哪種類(lèi)型的音樂(lè)。
最后,雖然這種技術(shù)對(duì)內(nèi)容創(chuàng)作非常有用,但也存在被濫用生成誤導(dǎo)性視頻的潛在風(fēng)險(xiǎn)。例如,有人可能會(huì)為一個(gè)平靜的場(chǎng)景添加警笛聲或爆炸聲,創(chuàng)造出一種緊急情況的假象。研究團(tuán)隊(duì)指出了這種倫理考慮,強(qiáng)調(diào)了負(fù)責(zé)任使用的重要性。
未來(lái)研究可能會(huì)朝著以下幾個(gè)方向發(fā)展:
首先,改進(jìn)模型處理動(dòng)態(tài)場(chǎng)景的能力,可能通過(guò)整合時(shí)序信息或與視頻模型的結(jié)合。這就像是教會(huì)模型不僅理解"這個(gè)物體發(fā)出什么聲音",還理解"這個(gè)物體在這個(gè)特定動(dòng)作時(shí)發(fā)出什么聲音"。
其次,增強(qiáng)模型對(duì)聲音類(lèi)型的控制精度,可能通過(guò)更詳細(xì)的聲音描述或用戶(hù)反饋機(jī)制。這樣用戶(hù)就可以更精確地指定他們想要的聲音類(lèi)型,比如"汽車(chē)引擎啟動(dòng)聲"而非僅僅是"汽車(chē)聲"。
第三,探索多模態(tài)融合的新方法,結(jié)合視覺(jué)、文本和音頻信息,創(chuàng)造更豐富、更連貫的多感官體驗(yàn)。這就像是讓模型不僅能"看"和"聽(tīng)",還能理解和生成與之相關(guān)的文本描述,創(chuàng)造一個(gè)全面的多感官體驗(yàn)。
最后,開(kāi)發(fā)更強(qiáng)大的安全措施和倫理框架,確保這種技術(shù)被用于積極的目的,而不是創(chuàng)建誤導(dǎo)性?xún)?nèi)容。這可能包括水印或其他形式的內(nèi)容驗(yàn)證,幫助用戶(hù)識(shí)別合成的音頻。
七、總結(jié):聽(tīng)見(jiàn)看不見(jiàn)的聲音
在我們?nèi)粘I畹氖澜缰?,聲音和視覺(jué)是緊密相連的——當(dāng)我們看到一輛汽車(chē),我們自然期待聽(tīng)到引擎聲;當(dāng)我們看到一只狗,我們預(yù)期會(huì)聽(tīng)到狗叫聲。這種音視覺(jué)對(duì)應(yīng)關(guān)系對(duì)我們理解環(huán)境至關(guān)重要,但對(duì)計(jì)算機(jī)來(lái)說(shuō)一直是一項(xiàng)挑戰(zhàn)。
Tingle Li、Baihe Huang及其團(tuán)隊(duì)的研究代表了音頻生成領(lǐng)域的一項(xiàng)重要突破。他們開(kāi)發(fā)的交互式物體感知音頻生成模型不僅能生成高質(zhì)量的音頻,還能讓用戶(hù)以前所未有的直觀方式控制這個(gè)過(guò)程。通過(guò)簡(jiǎn)單地選擇圖像中的特定物體,用戶(hù)可以生成與之相對(duì)應(yīng)的聲音,無(wú)需復(fù)雜的編輯或混音技術(shù)。
這項(xiàng)研究的意義遠(yuǎn)超技術(shù)創(chuàng)新。它為內(nèi)容創(chuàng)作者提供了一個(gè)強(qiáng)大的新工具,可以輕松創(chuàng)建沉浸式和情境相關(guān)的音頻體驗(yàn)。它為輔助技術(shù)開(kāi)辟了新的可能性,幫助視覺(jué)障礙人士"聽(tīng)見(jiàn)"圖像。它甚至可能改變我們與數(shù)字媒體互動(dòng)的方式,使聲音成為一個(gè)更加動(dòng)態(tài)和響應(yīng)式的元素。
當(dāng)然,像任何新技術(shù)一樣,它也帶來(lái)了需要解決的挑戰(zhàn)和問(wèn)題。但總的來(lái)說(shuō),這項(xiàng)研究代表了向更自然、更直觀的人機(jī)交互邁出的一步,其中計(jì)算機(jī)不僅能"看見(jiàn)"世界,還能以一種與人類(lèi)感知相似的方式"聽(tīng)見(jiàn)"世界。
隨著這項(xiàng)技術(shù)的進(jìn)一步發(fā)展和完善,我們可以期待看到(和聽(tīng)到)它在各種應(yīng)用中的潛力得到充分發(fā)揮,從而創(chuàng)造出更豐富、更身臨其境的數(shù)字體驗(yàn)。從這個(gè)意義上說(shuō),"Sounding that Object"不僅僅是一個(gè)技術(shù)突破,它是我們通往多感官數(shù)字未來(lái)的一個(gè)重要步驟。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。