在我們?nèi)粘I钪?,?dāng)我們看到一個(gè)繁忙的城市街道時(shí),我們自然能分辨出不同物體發(fā)出的聲音——汽車?yán)嚷?、腳步聲、人群的交談聲。這種將視覺物體與其相應(yīng)聲音聯(lián)系起來的能力對人類來說非常自然,但對計(jì)算機(jī)模型而言卻是一項(xiàng)巨大挑戰(zhàn)。2025年6月,由加州大學(xué)伯克利分校的Tingle Li和Baihe Huang,以及字節(jié)跳動的Xiaobin Zhuang、Dongya Jia、Jiawei Chen、Yuping Wang、Zhuo Chen,再加上伯克利分校的Gopala Anumanchipalli和字節(jié)跳動的Yuxuan Wang共同完成的這項(xiàng)研究,發(fā)表在了第42屆國際機(jī)器學(xué)習(xí)會議上,提出了一種名為"Sounding that Object"的創(chuàng)新方法,讓計(jì)算機(jī)能夠更準(zhǔn)確地為復(fù)雜場景中的特定物體生成聲音。
想象一下,你正在使用一款視頻編輯軟件,需要為一個(gè)城市街景視頻添加合適的環(huán)境音。傳統(tǒng)方法可能會為整個(gè)場景生成一段混合的街道噪音,但如果你想強(qiáng)調(diào)畫面中特定的元素——比如一輛汽車的引擎聲,或者行人的腳步聲——這就變得相當(dāng)困難了?,F(xiàn)有的技術(shù)往往要么忽略了細(xì)微的聲音(如腳步聲),要么將共同出現(xiàn)的事件(如人群噪音和風(fēng)聲)捆綁在一起,即使你只想要其中一種聲音。
為什么會這樣呢?這是因?yàn)檎鎸?shí)世界的聲音在復(fù)雜場景中常常是不平衡且相互混淆的。就像在一個(gè)嘈雜的咖啡廳里,你可能很難單獨(dú)聽清某個(gè)人的說話聲一樣,計(jì)算機(jī)也難以從視覺場景中準(zhǔn)確分離出各個(gè)聲音源。
研究團(tuán)隊(duì)提出的解決方案借鑒了人類是如何解析復(fù)雜聲景的。當(dāng)我們聽到街道上的聲音時(shí),我們不僅處理整體的場景背景(比如城市環(huán)境),還能分辨出單獨(dú)的事件(如汽車?yán)嚷?、腳步聲)?;谶@一觀察,研究團(tuán)隊(duì)開發(fā)了一個(gè)交互式的物體感知音頻生成模型,讓用戶可以在圖像中選擇特定物體,然后生成與之相對應(yīng)的聲音。
這個(gè)模型的核心在于將物體中心學(xué)習(xí)整合到條件潛在擴(kuò)散模型中。簡單來說,就像是教會計(jì)算機(jī)通過注意力機(jī)制在圖像的不同區(qū)域與對應(yīng)聲音之間建立聯(lián)系。想象一下,如果你有一張街道照片,模型能夠"注意"到照片中的汽車,并將其與引擎聲關(guān)聯(lián);注意到行人,并將其與腳步聲關(guān)聯(lián)。這種關(guān)聯(lián)是通過一種叫做"多模態(tài)點(diǎn)積注意力"的技術(shù)實(shí)現(xiàn)的,這種技術(shù)讓模型通過自我監(jiān)督學(xué)習(xí)理解圖像區(qū)域和聲音之間的對應(yīng)關(guān)系。
在實(shí)際使用時(shí),用戶可以通過分割蒙版(想象成一種數(shù)字"熒光筆",用來在圖像上標(biāo)記特定物體)來指定感興趣的物體。研究團(tuán)隊(duì)使用了一個(gè)名為SAM(Segment Anything Model)的工具來生成這些蒙版,用戶只需簡單點(diǎn)擊幾下鼠標(biāo)就能選擇特定物體。這種交互方式使得即使是微小的聲音也能被準(zhǔn)確捕捉,因?yàn)槟P蜁W⒂诒贿x中的物體區(qū)域。更重要的是,即使用戶選擇了多個(gè)物體,模型也能自然地將它們的聲音混合成一個(gè)連貫的環(huán)境聲音,而不僅僅是簡單地疊加獨(dú)立的音頻片段。
研究團(tuán)隊(duì)進(jìn)行了大量的定量評估和人類感知研究,結(jié)果表明他們的模型在聲音-物體對齊方面顯著優(yōu)于現(xiàn)有基準(zhǔn)模型。此外,研究還提供了理論分析,證明了他們的物體定位機(jī)制在功能上等同于分割蒙版,這為模型的工作原理提供了堅(jiān)實(shí)的理論基礎(chǔ)。
這項(xiàng)研究的創(chuàng)新之處不僅在于提高了音頻生成的質(zhì)量,更在于賦予了用戶對生成過程前所未有的控制能力。無論是電影制作人想要為視頻添加逼真的環(huán)境聲,還是游戲設(shè)計(jì)師希望為虛擬世界創(chuàng)建沉浸式音效,這種技術(shù)都提供了一種更直觀、更精確的方式來實(shí)現(xiàn)聲音與視覺場景的完美結(jié)合。
以下,我們將深入探討這項(xiàng)研究的具體方法、實(shí)驗(yàn)結(jié)果以及潛在應(yīng)用,幫助你全面了解這項(xiàng)令人興奮的技術(shù)突破。
一、研究背景:聲音與視覺的天然聯(lián)系
我們?nèi)祟愄焐湍軐⑺吹降奈矬w與它們發(fā)出的聲音聯(lián)系起來。想象你走在森林里,看到一只鳥,即使沒有立即聽到聲音,你的大腦也會自動聯(lián)想到鳥鳴聲。或者當(dāng)你看到一輛摩托車駛過,你會自然地預(yù)期聽到引擎的轟鳴。這種能力對我們理解周圍環(huán)境至關(guān)重要,但計(jì)算機(jī)要實(shí)現(xiàn)這一點(diǎn)卻并不容易。
現(xiàn)有的音頻生成方法主要分為兩類:基于視覺的模型和基于文本的模型?;谝曈X的模型,如Sheffer和Adi在2023年提出的方法,通過分析整個(gè)視覺場景來生成單一的配音軌。這種方法的問題在于,它采用了一種"全局視角",可能會忽略場景中細(xì)微但重要的聲音源。就像你站在一個(gè)喧鬧的派對中,很難同時(shí)聽清所有聲音一樣,這些模型也容易遺漏細(xì)節(jié)。
另一方面,基于文本的模型,例如Liu等人在2023年的研究,則面臨另一種挑戰(zhàn):當(dāng)文本描述包含多個(gè)事件時(shí),模型要么會遺漏某些聲音,要么會將它們與其他聲音混淆在一起。這就像你試圖描述"一個(gè)嬰兒在笑,同時(shí)一只小狗在叫",但生成的聲音可能只有嬰兒的笑聲,或者把嬰兒的笑聲和狗叫聲混為一體,失去了各自的特點(diǎn)。
雖然有研究者嘗試通過在擴(kuò)散潛空間中手動重新調(diào)整各個(gè)聲音事件的權(quán)重來緩解這些問題,但這種方法非常耗時(shí)且不實(shí)用,特別是對于大規(guī)模應(yīng)用而言。本質(zhì)上,這些挑戰(zhàn)源于真實(shí)世界聲音在復(fù)雜場景中的不平衡性和混淆性,使得區(qū)分不同聲源變得困難。
研究團(tuán)隊(duì)的靈感來自于人類解析復(fù)雜聲景的方式。當(dāng)我們聽到街道上的聲音時(shí),我們不僅處理整體的場景環(huán)境,還能識別出單獨(dú)的事件。基于這一思路,他們提出了一個(gè)交互式物體感知音頻生成模型,該模型基于物體中心學(xué)習(xí)理論,讓用戶可以在圖像中選擇特定物體,然后生成與之相對應(yīng)的聲音。
這種方法就像是給計(jì)算機(jī)配備了一雙"智能耳朵",能夠?qū)W⒂谟脩糁付ǖ囊曈X物體,并生成相應(yīng)的聲音。這不僅解決了遺忘或混淆聲音事件的問題,還為用戶提供了一種更加直觀和精確的方式來控制音頻生成過程。
二、研究方法:如何讓計(jì)算機(jī)理解"這個(gè)物體該發(fā)出什么聲音"
研究團(tuán)隊(duì)的方法核心在于將物體中心學(xué)習(xí)整合到條件潛在擴(kuò)散模型中。這聽起來可能有些復(fù)雜,讓我們用一個(gè)簡單的比喻來理解:想象你正在教一個(gè)外星人識別地球上的物體和它們發(fā)出的聲音。你會怎么做?你可能會指著一輛汽車說:"看,這是汽車,它發(fā)出的聲音是這樣的..."然后播放引擎聲。接著指著一只狗說:"這是狗,它叫起來是這樣的..."然后模仿狗叫聲。通過這種方式,外星人逐漸學(xué)會將視覺物體與對應(yīng)的聲音聯(lián)系起來。
研究團(tuán)隊(duì)采用的方法基本上就是這個(gè)思路,只不過他們使用了更復(fù)雜的技術(shù)來實(shí)現(xiàn)這一點(diǎn)。他們的模型分為三個(gè)主要部分:條件音頻生成模型、文本引導(dǎo)的視覺物體定位模型,以及理論分析部分。
條件音頻生成模型是基于一種叫做"潛在擴(kuò)散模型"的技術(shù)。簡單來說,這就像是從一堆噪音中逐漸"提煉"出有意義的聲音。想象你有一段充滿靜電噪音的錄音,通過反復(fù)處理,你可以逐漸減少噪音,直到清晰地聽到原始聲音。這個(gè)模型就是這樣工作的,它從隨機(jī)噪聲開始,然后通過多個(gè)步驟逐漸轉(zhuǎn)變?yōu)樗璧囊纛l。
為了讓模型理解"哪個(gè)物體應(yīng)該發(fā)出什么聲音",研究團(tuán)隊(duì)使用了一種叫做"多模態(tài)點(diǎn)積注意力"的技術(shù)。這種技術(shù)讓模型能夠在圖像的不同區(qū)域和對應(yīng)的聲音之間建立聯(lián)系。就像你的注意力可以從一個(gè)物體轉(zhuǎn)移到另一個(gè)物體一樣,這種機(jī)制允許模型"關(guān)注"圖像中的特定區(qū)域,并將這些區(qū)域與特定類型的聲音關(guān)聯(lián)起來。
在實(shí)際使用時(shí),用戶可以通過分割蒙版來指定感興趣的物體。這些蒙版就像是數(shù)字"熒光筆",用來在圖像上標(biāo)記特定物體。研究團(tuán)隊(duì)使用了一個(gè)名為SAM(Segment Anything Model)的工具來生成這些蒙版,用戶只需簡單點(diǎn)擊幾下鼠標(biāo)就能選擇特定物體。
最有趣的是,研究團(tuán)隊(duì)通過理論分析證明了他們的注意力機(jī)制在功能上等同于測試時(shí)的分割蒙版。這就像證明了兩條不同的路徑最終可以到達(dá)同一個(gè)目的地。這一理論基礎(chǔ)確保了生成的音頻與所選物體相對應(yīng),無論是使用模型的內(nèi)部注意力機(jī)制還是用戶提供的分割蒙版。
研究團(tuán)隊(duì)還引入了可學(xué)習(xí)的位置編碼,以增強(qiáng)模型定位圖像中物體的能力。這就像是給圖像添加了一個(gè)坐標(biāo)系統(tǒng),使模型能夠更準(zhǔn)確地識別物體在圖像中的位置。通過學(xué)習(xí)位置信息,模型可以更好地區(qū)分不同位置的物體,提高定位精度。
整個(gè)過程可以簡單概括為:用戶選擇圖像中的一個(gè)或多個(gè)物體,模型通過學(xué)習(xí)到的關(guān)聯(lián)生成對應(yīng)的聲音。由于模型考慮了整個(gè)圖像提供的背景信息,即使選擇多個(gè)物體,生成的聲音也會自然地融合為一個(gè)連貫的環(huán)境,而不僅僅是簡單地疊加獨(dú)立的音頻片段。
三、如何訓(xùn)練這個(gè)"會聽會看"的智能模型
訓(xùn)練這樣一個(gè)復(fù)雜的模型就像是教導(dǎo)一個(gè)孩子同時(shí)學(xué)習(xí)視覺和聽覺之間的聯(lián)系,需要大量的實(shí)例和精心設(shè)計(jì)的學(xué)習(xí)方法。研究團(tuán)隊(duì)使用了AudioSet數(shù)據(jù)集作為主要數(shù)據(jù)源,這個(gè)數(shù)據(jù)集包含4,616小時(shí)的視頻片段,每個(gè)片段都配有相應(yīng)的標(biāo)簽和描述。
然而,原始數(shù)據(jù)集并不是完美的。想象你在教一個(gè)孩子認(rèn)識動物時(shí),如果你給他看一張獅子的照片,但同時(shí)播放的是大象的叫聲,這會造成混淆。同樣,如果視頻中的視覺內(nèi)容與音頻不匹配,模型也會學(xué)到錯(cuò)誤的關(guān)聯(lián)。因此,研究團(tuán)隊(duì)進(jìn)行了一系列的數(shù)據(jù)預(yù)處理步驟,確保音頻和視覺內(nèi)容之間有強(qiáng)烈的對應(yīng)關(guān)系。
他們首先訓(xùn)練了一個(gè)音視頻匹配模型,這個(gè)模型就像一個(gè)"質(zhì)量檢查員",它能夠評估視頻中的視覺內(nèi)容和音頻是否匹配。通過這個(gè)模型,他們篩選出了匹配度高的視頻片段。接著,他們使用了一個(gè)大型語言模型(類似于GPT)來重新表述視頻描述,確保描述專注于可見的發(fā)聲物體。此外,他們還過濾掉了包含人聲(如唱歌、說話)、畫外音和音樂的視頻片段,因?yàn)檫@些音頻與視覺內(nèi)容的關(guān)聯(lián)性較弱。
經(jīng)過這些精細(xì)的處理步驟,數(shù)據(jù)集被縮減到748小時(shí)的高質(zhì)量視頻片段,這些片段在整個(gè)視頻中都包含連續(xù)的聲音,并且展示出高度的音視頻對應(yīng)關(guān)系。
訓(xùn)練過程中,模型學(xué)習(xí)將文本描述(如"狗在叫")和圖像區(qū)域(狗的位置)與相應(yīng)的聲音(狗叫聲)關(guān)聯(lián)起來。這就像是教導(dǎo)模型:"當(dāng)你看到這個(gè)區(qū)域(指向狗)并想要與'狗叫'相關(guān)的聲音時(shí),應(yīng)該生成這樣的聲音..."。
研究團(tuán)隊(duì)使用了一種稱為分類器自由引導(dǎo)的技術(shù),這種技術(shù)在訓(xùn)練過程中會隨機(jī)省略條件輸入(如文本描述),使模型既能學(xué)習(xí)條件生成,也能學(xué)習(xí)無條件生成。這就像是教導(dǎo)孩子既能根據(jù)提示回答問題,也能在沒有提示的情況下自行思考。
在測試階段,當(dāng)用戶選擇圖像中的特定物體時(shí),模型使用學(xué)習(xí)到的關(guān)聯(lián)來生成相應(yīng)的聲音。由于模型考慮了整個(gè)圖像提供的背景信息,即使選擇多個(gè)物體,生成的聲音也會自然地融合為一個(gè)連貫的環(huán)境,而不僅僅是簡單地疊加獨(dú)立的音頻片段。
這種訓(xùn)練方法的創(chuàng)新之處在于它不僅讓模型學(xué)會了生成聲音,還學(xué)會了理解聲音與視覺物體之間的復(fù)雜關(guān)系,使得用戶可以以一種前所未有的直觀方式控制音頻生成過程。
四、實(shí)驗(yàn)結(jié)果:聽聽計(jì)算機(jī)的"耳朵"有多聰明
那么,這個(gè)交互式物體感知音頻生成模型到底表現(xiàn)如何呢?研究團(tuán)隊(duì)進(jìn)行了一系列全面的實(shí)驗(yàn)來評估模型的性能。
在定量評估方面,他們使用了幾個(gè)關(guān)鍵指標(biāo)來衡量模型的表現(xiàn)。首先是聲音事件準(zhǔn)確率(ACC),這個(gè)指標(biāo)利用PANNs模型預(yù)測和采樣聲音事件邏輯,基于標(biāo)注的標(biāo)簽計(jì)算整個(gè)數(shù)據(jù)集的平均準(zhǔn)確率。簡單來說,這就是看模型生成的聲音是否與預(yù)期的聲音類型相符。其次是弗雷切音頻距離(FAD),這個(gè)指標(biāo)衡量生成的音頻在潛空間與真實(shí)音頻的接近程度。還有庫爾貝克-萊布勒散度(KL),這個(gè)指標(biāo)評估生成音頻與目標(biāo)音頻之間分布的一致性;以及生成音頻的多樣性指標(biāo)——初始分?jǐn)?shù)(IS)。最后是音視頻對應(yīng)性(AVC),衡量生成的音頻與視覺上下文的匹配程度。
除了這些客觀指標(biāo),研究團(tuán)隊(duì)還進(jìn)行了人類感知研究來評估生成音頻的質(zhì)量和相關(guān)性。他們隨機(jī)選擇了100個(gè)生成樣本,其中包括50個(gè)帶有手動創(chuàng)建的特定物體分割蒙版的樣本。這些樣本由50名參與者進(jìn)行評分,評分標(biāo)準(zhǔn)包括:整體質(zhì)量(OVL)、與文本提示的相關(guān)性(RET)、與輸入圖像的相關(guān)性(REI)以及與所選物體的相關(guān)性(REO)。
結(jié)果令人印象深刻。在AudioCaps數(shù)據(jù)集上,與現(xiàn)有的基準(zhǔn)模型相比,他們的模型在各項(xiàng)指標(biāo)上都表現(xiàn)出色。特別是在ACC和REO指標(biāo)上,他們的模型顯著優(yōu)于其他模型,這表明它能夠更準(zhǔn)確地將聲音與圖像中的特定物體對齊。
在主觀評價(jià)中,他們的模型在所有評分標(biāo)準(zhǔn)上都獲得了最高的平均評分,特別是在REO方面,表明它能夠更好地將生成的聲音與圖像中的特定物體對齊。有趣的是,基準(zhǔn)模型在REO方面獲得了相似的分?jǐn)?shù),這表明它們將音頻與物體級視覺線索聯(lián)系起來的能力有限。
研究團(tuán)隊(duì)還進(jìn)行了另一項(xiàng)人類研究,重點(diǎn)關(guān)注用戶驅(qū)動的音頻生成。他們要求5名有經(jīng)驗(yàn)的參與者從單個(gè)圖像(圖2中的那個(gè))生成"嬰兒笑聲和小狗叫聲",并測量所需的平均時(shí)間、嘗試次數(shù)和主觀滿意度評分。結(jié)果顯示,基于文本的基準(zhǔn)模型通常會遺漏其中一種聲音,需要多次調(diào)整提示,導(dǎo)致時(shí)間更長、滿意度更低。相比之下,他們的方法所需的嘗試次數(shù)更少,耗時(shí)更短,并獲得了更高的滿意度,即使對于已經(jīng)熟悉提示操作的參與者也是如此。
在質(zhì)性結(jié)果方面,研究團(tuán)隊(duì)展示了他們的方法與基準(zhǔn)模型在AudioCaps數(shù)據(jù)集上的音頻生成結(jié)果。在第一個(gè)例子中,圖像中有一只狗和一只鵝,基準(zhǔn)模型只生成了狗的叫聲,而忽略了鵝的叫聲,而他們的模型則捕捉到了兩種聲音。類似地,在第二和第三個(gè)例子中,基準(zhǔn)模型只生成了部分聲音事件,而他們的模型生成了完整的聲景。在最后一個(gè)例子中,圖像中有一個(gè)小型噴氣式飛機(jī)在背景中和一群歡呼的人群,基于視覺的模型由于小飛機(jī)的小尺寸未能檢測到它,只生成了人群和風(fēng)的噪音,而基于文本的模型則難以組合多種聲音。他們的方法成功捕捉到了所有相關(guān)聲音,突顯了它在生成與復(fù)雜視覺場景準(zhǔn)確對齊的音頻方面的能力。
研究團(tuán)隊(duì)還進(jìn)行了多項(xiàng)消融研究,探究模型各個(gè)組件的重要性。結(jié)果表明,微調(diào)潛在擴(kuò)散權(quán)重而不是凍結(jié)它們對于獲得更連貫的音頻至關(guān)重要。單頭注意力機(jī)制比多頭注意力更有效,可能是因?yàn)槎囝^注意力雖然增強(qiáng)了文本輸入和生成音頻之間的對應(yīng)關(guān)系,但當(dāng)基于分割蒙版指定特定音頻特征時(shí),它減弱了可控性。此外,用加法注意力替換點(diǎn)積注意力會導(dǎo)致模型明顯崩潰,這與理論分析一致,表明分割蒙版不適合替代加法注意力。
最后,研究團(tuán)隊(duì)在不同的數(shù)據(jù)集上評估了他們的模型,進(jìn)一步證明了其泛化能力和有效性。
五、模型的應(yīng)用場景:從電影配音到虛擬現(xiàn)實(shí)
這項(xiàng)研究的潛在應(yīng)用范圍非常廣泛,從內(nèi)容創(chuàng)作到輔助技術(shù),再到虛擬現(xiàn)實(shí)體驗(yàn)。
在內(nèi)容創(chuàng)作領(lǐng)域,這種技術(shù)可以徹底改變電影和視頻制作的配音過程。傳統(tǒng)上,配音藝術(shù)家和音效設(shè)計(jì)師需要手動創(chuàng)建和同步每個(gè)聲音效果,這是一個(gè)耗時(shí)且技術(shù)要求高的過程。使用這種交互式物體感知音頻生成模型,創(chuàng)作者只需點(diǎn)擊視頻幀中的特定物體,就能生成相應(yīng)的聲音。例如,在一個(gè)城市街景鏡頭中,導(dǎo)演可以選擇突出汽車的引擎聲、行人的腳步聲或遠(yuǎn)處的警笛聲,根據(jù)敘事需要調(diào)整聲音焦點(diǎn)。
在游戲和虛擬現(xiàn)實(shí)領(lǐng)域,這種技術(shù)可以創(chuàng)造更加身臨其境的音頻體驗(yàn)。游戲開發(fā)者可以使用這種模型為游戲中的不同物體生成動態(tài)和上下文相關(guān)的聲音,使虛擬世界感覺更加真實(shí)和生動。想象一個(gè)開放世界游戲,其中每個(gè)物體——從遠(yuǎn)處的瀑布到近處的篝火——都有與其視覺外觀和環(huán)境一致的聲音。
對于輔助技術(shù),這種模型可以幫助視覺障礙人士更好地理解圖像和視頻。通過生成與圖像中物體相對應(yīng)的聲音,這種技術(shù)可以提供一種新的方式來"聽見"圖像內(nèi)容,補(bǔ)充現(xiàn)有的圖像描述技術(shù)。
在教育領(lǐng)域,這種技術(shù)可以創(chuàng)建更加互動和吸引人的學(xué)習(xí)材料。例如,一本關(guān)于動物的電子書可以允許學(xué)生點(diǎn)擊動物圖像,聽到它們的叫聲,增強(qiáng)學(xué)習(xí)體驗(yàn)和記憶保留。
在社交媒體和內(nèi)容分享平臺上,用戶可以利用這種技術(shù)為他們的照片和視頻添加有趣和創(chuàng)意的音頻效果,而無需專業(yè)的音頻編輯技能。
此外,這種技術(shù)還可以應(yīng)用于監(jiān)控和安全系統(tǒng),幫助識別和定位潛在的安全威脅。例如,一個(gè)配備了這種技術(shù)的監(jiān)控系統(tǒng)可以不僅識別出圖像中的可疑活動,還可以生成相應(yīng)的聲音線索,幫助安全人員更快地響應(yīng)。
研究團(tuán)隊(duì)的實(shí)驗(yàn)也展示了一些有趣的應(yīng)用場景。例如,他們演示了如何通過操縱視覺紋理來生成不同的聲景。在一個(gè)例子中,他們通過改變場景的天氣(晴天到雨天)或表面材質(zhì)(水到草)來生成相應(yīng)的聲音。這表明模型能夠捕捉視覺紋理的變化并生成上下文相關(guān)的聲音。
此外,研究團(tuán)隊(duì)還發(fā)現(xiàn)模型能夠捕捉多個(gè)物體之間的交互。例如,在展示棍子與水面接觸的場景中,模型生成了水花聲,而不僅僅是普通的水流聲。這表明模型能夠處理基本的多物體交互,這對于創(chuàng)建更復(fù)雜和真實(shí)的音頻體驗(yàn)至關(guān)重要。
六、研究的局限性與未來發(fā)展方向
盡管這項(xiàng)研究取得了令人印象深刻的成果,但它也存在一些局限性。研究團(tuán)隊(duì)坦率地指出,他們的模型在處理靜態(tài)圖像時(shí)表現(xiàn)出色,但在處理與動態(tài)事件同步的非靜止音頻方面面臨挑戰(zhàn)。簡單來說,就是模型難以為快速變化的場景生成精確同步的聲音。
想象你正在觀看一個(gè)乒乓球比賽的視頻:球拍擊球、球彈跳的瞬間都需要精確的聲音同步。由于該模型是基于靜態(tài)圖像訓(xùn)練的,它難以捕捉這種精確的時(shí)間關(guān)系。這就像是你看到了一張乒乓球比賽的靜止照片,雖然可以想象出大致的聲音,但難以確定聲音應(yīng)該在什么確切時(shí)刻出現(xiàn)。
另一個(gè)局限性是模型可能缺乏對相似物體產(chǎn)生的聲音類型的精確控制。例如,圖像中的汽車可能產(chǎn)生引擎聲或警笛聲,這可能導(dǎo)致一定程度的歧義。這就像是你看到一張樂器的照片,知道它會發(fā)出聲音,但不確定是演奏哪種類型的音樂。
最后,雖然這種技術(shù)對內(nèi)容創(chuàng)作非常有用,但也存在被濫用生成誤導(dǎo)性視頻的潛在風(fēng)險(xiǎn)。例如,有人可能會為一個(gè)平靜的場景添加警笛聲或爆炸聲,創(chuàng)造出一種緊急情況的假象。研究團(tuán)隊(duì)指出了這種倫理考慮,強(qiáng)調(diào)了負(fù)責(zé)任使用的重要性。
未來研究可能會朝著以下幾個(gè)方向發(fā)展:
首先,改進(jìn)模型處理動態(tài)場景的能力,可能通過整合時(shí)序信息或與視頻模型的結(jié)合。這就像是教會模型不僅理解"這個(gè)物體發(fā)出什么聲音",還理解"這個(gè)物體在這個(gè)特定動作時(shí)發(fā)出什么聲音"。
其次,增強(qiáng)模型對聲音類型的控制精度,可能通過更詳細(xì)的聲音描述或用戶反饋機(jī)制。這樣用戶就可以更精確地指定他們想要的聲音類型,比如"汽車引擎啟動聲"而非僅僅是"汽車聲"。
第三,探索多模態(tài)融合的新方法,結(jié)合視覺、文本和音頻信息,創(chuàng)造更豐富、更連貫的多感官體驗(yàn)。這就像是讓模型不僅能"看"和"聽",還能理解和生成與之相關(guān)的文本描述,創(chuàng)造一個(gè)全面的多感官體驗(yàn)。
最后,開發(fā)更強(qiáng)大的安全措施和倫理框架,確保這種技術(shù)被用于積極的目的,而不是創(chuàng)建誤導(dǎo)性內(nèi)容。這可能包括水印或其他形式的內(nèi)容驗(yàn)證,幫助用戶識別合成的音頻。
七、總結(jié):聽見看不見的聲音
在我們?nèi)粘I畹氖澜缰?,聲音和視覺是緊密相連的——當(dāng)我們看到一輛汽車,我們自然期待聽到引擎聲;當(dāng)我們看到一只狗,我們預(yù)期會聽到狗叫聲。這種音視覺對應(yīng)關(guān)系對我們理解環(huán)境至關(guān)重要,但對計(jì)算機(jī)來說一直是一項(xiàng)挑戰(zhàn)。
Tingle Li、Baihe Huang及其團(tuán)隊(duì)的研究代表了音頻生成領(lǐng)域的一項(xiàng)重要突破。他們開發(fā)的交互式物體感知音頻生成模型不僅能生成高質(zhì)量的音頻,還能讓用戶以前所未有的直觀方式控制這個(gè)過程。通過簡單地選擇圖像中的特定物體,用戶可以生成與之相對應(yīng)的聲音,無需復(fù)雜的編輯或混音技術(shù)。
這項(xiàng)研究的意義遠(yuǎn)超技術(shù)創(chuàng)新。它為內(nèi)容創(chuàng)作者提供了一個(gè)強(qiáng)大的新工具,可以輕松創(chuàng)建沉浸式和情境相關(guān)的音頻體驗(yàn)。它為輔助技術(shù)開辟了新的可能性,幫助視覺障礙人士"聽見"圖像。它甚至可能改變我們與數(shù)字媒體互動的方式,使聲音成為一個(gè)更加動態(tài)和響應(yīng)式的元素。
當(dāng)然,像任何新技術(shù)一樣,它也帶來了需要解決的挑戰(zhàn)和問題。但總的來說,這項(xiàng)研究代表了向更自然、更直觀的人機(jī)交互邁出的一步,其中計(jì)算機(jī)不僅能"看見"世界,還能以一種與人類感知相似的方式"聽見"世界。
隨著這項(xiàng)技術(shù)的進(jìn)一步發(fā)展和完善,我們可以期待看到(和聽到)它在各種應(yīng)用中的潛力得到充分發(fā)揮,從而創(chuàng)造出更豐富、更身臨其境的數(shù)字體驗(yàn)。從這個(gè)意義上說,"Sounding that Object"不僅僅是一個(gè)技術(shù)突破,它是我們通往多感官數(shù)字未來的一個(gè)重要步驟。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。