av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 讓電腦學(xué)會(huì)聽(tīng)懂世界:卡內(nèi)基梅隆大學(xué)開(kāi)發(fā)出通用音頻理解神器OpenBEATs

讓電腦學(xué)會(huì)聽(tīng)懂世界:卡內(nèi)基梅隆大學(xué)開(kāi)發(fā)出通用音頻理解神器OpenBEATs

2025-07-24 16:26
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-24 16:26 ? 科技行者

這項(xiàng)由卡內(nèi)基梅隆大學(xué)的Shikhar Bharadwaj、Samuele Cornell、Kwanghee Choi等研究者與日本產(chǎn)業(yè)技術(shù)綜合研究所合作完成的研究,發(fā)表于2025年7月的arXiv預(yù)印本平臺(tái),有興趣深入了解的讀者可以通過(guò)論文編號(hào)arXiv:2507.14129v1訪問(wèn)完整論文。

當(dāng)我們談到人工智能時(shí),大多數(shù)人首先想到的是能聊天的ChatGPT或能畫(huà)畫(huà)的AI。但你有沒(méi)有想過(guò),電腦如何才能真正"聽(tīng)懂"這個(gè)世界?不僅僅是識(shí)別人類(lèi)說(shuō)話(huà),而是理解鳥(niǎo)鳴、音樂(lè)、環(huán)境聲音,甚至回答關(guān)于聲音的問(wèn)題?這正是卡內(nèi)基梅隆大學(xué)研究團(tuán)隊(duì)要解決的問(wèn)題。他們開(kāi)發(fā)了一個(gè)名為OpenBEATs的系統(tǒng),就像給電腦裝上了一雙無(wú)所不能的"耳朵"。

在人工智能的世界里,有一種神奇的學(xué)習(xí)方法叫做"掩碼預(yù)測(cè)"。你可以把它理解成一種特殊的猜謎游戲:給電腦展示一張圖片,但故意遮住其中一部分,讓它猜被遮住的內(nèi)容是什么。這種方法在文字處理和圖像識(shí)別方面已經(jīng)取得了巨大成功。但在音頻領(lǐng)域,這種技術(shù)的應(yīng)用還很有限。之前有一個(gè)叫BEATs的系統(tǒng)嘗試過(guò),但它就像一個(gè)藏在深宮里的寶貝,研究代碼從未公開(kāi),讓其他研究者無(wú)法在此基礎(chǔ)上繼續(xù)改進(jìn)。

更重要的是,現(xiàn)有的音頻AI系統(tǒng)都有一個(gè)致命弱點(diǎn):它們就像只精通某一門(mén)手藝的專(zhuān)家,要么擅長(zhǎng)識(shí)別環(huán)境聲音,要么精通音樂(lè)分析,要么專(zhuān)攻動(dòng)物聲音,但很難做到樣樣精通。這就好比你請(qǐng)了三個(gè)不同的翻譯,一個(gè)只會(huì)翻譯文學(xué)作品,一個(gè)只會(huì)翻譯科技文檔,一個(gè)只會(huì)翻譯商務(wù)合同。每當(dāng)遇到跨領(lǐng)域的內(nèi)容時(shí),它們就顯得力不從心。

OpenBEATs的出現(xiàn)就是要打破這種局面。研究團(tuán)隊(duì)不僅完全開(kāi)放了訓(xùn)練代碼,讓全世界的研究者都能使用和改進(jìn),更重要的是,他們訓(xùn)練了一個(gè)真正的"全能選手"。這個(gè)AI系統(tǒng)能同時(shí)處理音樂(lè)、環(huán)境聲音和生物聲音,就像一個(gè)精通多國(guó)語(yǔ)言的超級(jí)翻譯官。

研究團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)是數(shù)據(jù)問(wèn)題。原始的BEATs系統(tǒng)只在一個(gè)叫AudioSet的數(shù)據(jù)集上訓(xùn)練,這就像讓一個(gè)學(xué)生只讀一本教科書(shū)就要參加全科考試。OpenBEATs團(tuán)隊(duì)收集了來(lái)自多個(gè)領(lǐng)域的海量音頻數(shù)據(jù),總共20000小時(shí),相當(dāng)于一個(gè)人不眠不休地聽(tīng)兩年多。這些數(shù)據(jù)包括了從古典音樂(lè)到流行歌曲,從城市噪音到森林鳥(niǎo)鳴,從家庭寵物到野生動(dòng)物的各種聲音。

但僅有數(shù)據(jù)還不夠,就像僅有食材不能自動(dòng)變成美味佳肴一樣。研究團(tuán)隊(duì)還需要一個(gè)更強(qiáng)大的"大腦"來(lái)處理這些信息。他們將模型的參數(shù)從9000萬(wàn)增加到3億,這就像把一臺(tái)普通電腦升級(jí)成超級(jí)計(jì)算機(jī)。參數(shù)的增加意味著模型能記住和處理更多的音頻特征,就像一個(gè)人的記憶力和理解力同時(shí)得到了大幅提升。

OpenBEATs采用的核心技術(shù)叫做"掩碼音頻建模",這個(gè)過(guò)程就像訓(xùn)練一個(gè)音頻偵探。系統(tǒng)會(huì)聽(tīng)到一段音頻,但其中的某些片段被故意"靜音"了。AI需要根據(jù)能聽(tīng)到的部分,推測(cè)出被靜音部分的內(nèi)容。這種訓(xùn)練方法迫使AI深入理解音頻的內(nèi)在規(guī)律和模式,而不是簡(jiǎn)單地記住固定的音頻片段。

整個(gè)訓(xùn)練過(guò)程分為兩個(gè)相互配合的階段,就像培養(yǎng)一名優(yōu)秀的音樂(lè)家需要同時(shí)訓(xùn)練聽(tīng)力和演奏技巧。第一階段是訓(xùn)練"編碼器",它負(fù)責(zé)理解音頻的含義;第二階段是訓(xùn)練"分詞器",它負(fù)責(zé)將連續(xù)的音頻信號(hào)轉(zhuǎn)換成計(jì)算機(jī)能處理的離散符號(hào)。這兩個(gè)組件相互促進(jìn),逐步提升整個(gè)系統(tǒng)的性能。

在編碼器訓(xùn)練階段,系統(tǒng)會(huì)收到被部分遮蔽的音頻,然后嘗試預(yù)測(cè)被遮蔽部分的內(nèi)容。這就像給你播放一首歌曲,但故意跳過(guò)某些片段,讓你猜測(cè)被跳過(guò)的部分是什么旋律。通過(guò)反復(fù)練習(xí)這種"完形填空"游戲,AI逐漸學(xué)會(huì)了理解音頻的深層結(jié)構(gòu)和語(yǔ)義信息。

分詞器的訓(xùn)練更像是教AI學(xué)會(huì)一種新的"音頻語(yǔ)言"。它需要將連續(xù)的音頻波形轉(zhuǎn)換成一系列離散的"詞匯",就像將流淌的河水裝進(jìn)一個(gè)個(gè)標(biāo)準(zhǔn)的水桶里。這個(gè)過(guò)程使用了一種叫做"知識(shí)蒸餾"的技術(shù),讓新的分詞器向已經(jīng)訓(xùn)練好的編碼器學(xué)習(xí),確保兩者能夠完美配合。

為了驗(yàn)證OpenBEATs的實(shí)際效果,研究團(tuán)隊(duì)設(shè)計(jì)了一套極其全面的測(cè)試方案。他們不僅測(cè)試了傳統(tǒng)的音頻分類(lèi)任務(wù),還引入了更具挑戰(zhàn)性的音頻推理任務(wù),比如音頻問(wèn)答、音頻蘊(yùn)含推理和音頻描述生成。這就像不僅要求學(xué)生能識(shí)別不同的樂(lè)器,還要能分析樂(lè)曲的情感表達(dá),甚至用文字描述音樂(lè)給人的感受。

在傳統(tǒng)的環(huán)境聲音識(shí)別任務(wù)中,OpenBEATs展現(xiàn)出了卓越的性能。在一個(gè)叫做DESED的數(shù)據(jù)集上,它在只有3億參數(shù)的情況下,性能超過(guò)了擁有12億參數(shù)的競(jìng)爭(zhēng)對(duì)手Dasheng。這就像一個(gè)輕量級(jí)拳擊手擊敗了重量級(jí)對(duì)手,充分證明了良好架構(gòu)設(shè)計(jì)的重要性。

在生物聲學(xué)領(lǐng)域,OpenBEATs更是表現(xiàn)驚艷。在BEANS基準(zhǔn)測(cè)試的10個(gè)數(shù)據(jù)集中,它在6個(gè)數(shù)據(jù)集上獲得了最佳成績(jī)。無(wú)論是識(shí)別鳥(niǎo)類(lèi)叫聲、分析蝙蝠聲納,還是檢測(cè)海洋哺乳動(dòng)物的聲音,OpenBEATs都能游刃有余。這對(duì)于生態(tài)保護(hù)和生物研究具有重大意義,研究者可以用它來(lái)監(jiān)測(cè)瀕危動(dòng)物的活動(dòng),分析生態(tài)系統(tǒng)的健康狀況。

在音頻推理任務(wù)方面,OpenBEATs展現(xiàn)出了真正的"智能"特征。當(dāng)給它播放一段音頻并提出問(wèn)題時(shí),它不僅能準(zhǔn)確識(shí)別音頻中的聲音類(lèi)型,還能理解聲音之間的邏輯關(guān)系,甚至生成描述性的文字。比如,播放一段有雨聲和鳥(niǎo)鳴的音頻,它能理解這是"雨后清晨鳥(niǎo)兒在歌唱"這樣的復(fù)雜場(chǎng)景。

音樂(lè)理解方面,OpenBEATs同樣表現(xiàn)不俗。在GTZAN音樂(lè)類(lèi)型分類(lèi)任務(wù)中,它的準(zhǔn)確率達(dá)到89.1%,在NSynth樂(lè)器識(shí)別任務(wù)中準(zhǔn)確率為81.7%。這意味著它不僅能區(qū)分古典音樂(lè)和流行音樂(lè),還能識(shí)別出音樂(lè)中使用的具體樂(lè)器,為音樂(lè)信息檢索和推薦系統(tǒng)提供了強(qiáng)大的技術(shù)支撐。

特別值得一提的是,OpenBEATs在處理跨域任務(wù)時(shí)展現(xiàn)出的泛化能力。當(dāng)它在一個(gè)領(lǐng)域訓(xùn)練后,能很好地適應(yīng)其他相關(guān)領(lǐng)域的任務(wù)。這就像一個(gè)學(xué)會(huì)了多種語(yǔ)言的人,在學(xué)習(xí)新語(yǔ)言時(shí)會(huì)比只會(huì)一種語(yǔ)言的人更容易上手。這種跨域遷移能力對(duì)于實(shí)際應(yīng)用具有重要價(jià)值,因?yàn)楝F(xiàn)實(shí)世界中的音頻環(huán)境往往是復(fù)雜多樣的。

研究團(tuán)隊(duì)還特別關(guān)注了模型的可擴(kuò)展性。他們發(fā)現(xiàn),隨著訓(xùn)練數(shù)據(jù)量和模型參數(shù)的增加,性能會(huì)持續(xù)提升,但這種提升遵循一定的規(guī)律。當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模后,繼續(xù)增加數(shù)據(jù)的收益會(huì)遞減,這時(shí)就需要增加模型的容量。這個(gè)發(fā)現(xiàn)為未來(lái)的研究指明了方向:如何在計(jì)算資源和性能之間找到最佳平衡點(diǎn)。

在實(shí)際應(yīng)用前景方面,OpenBEATs的潛力巨大。在環(huán)境監(jiān)測(cè)領(lǐng)域,它可以用來(lái)自動(dòng)識(shí)別和分析城市噪音污染,幫助城市規(guī)劃者制定更好的降噪策略。在生態(tài)保護(hù)方面,它能夠自動(dòng)監(jiān)測(cè)森林中的動(dòng)物活動(dòng),為保護(hù)瀕危物種提供數(shù)據(jù)支持。在娛樂(lè)產(chǎn)業(yè)中,它可以用于音樂(lè)推薦、聲音設(shè)計(jì)和音頻內(nèi)容創(chuàng)作。在醫(yī)療健康領(lǐng)域,它甚至可能用于分析咳嗽聲來(lái)輔助疾病診斷。

說(shuō)到底,OpenBEATs的出現(xiàn)標(biāo)志著我們?cè)跇?gòu)建真正通用的音頻理解系統(tǒng)方面邁出了重要一步。它不僅僅是一個(gè)技術(shù)工具,更像是給機(jī)器裝上了一雙敏銳的耳朵,讓機(jī)器能夠理解這個(gè)充滿(mǎn)聲音的世界。雖然目前它還不是完美的,在某些特定任務(wù)上仍有改進(jìn)空間,但它已經(jīng)展現(xiàn)出了成為真正"音頻通才"的潛力。

更重要的是,研究團(tuán)隊(duì)將所有的訓(xùn)練代碼、預(yù)訓(xùn)練模型和評(píng)估工具完全開(kāi)源,這意味著全世界的研究者都可以在此基礎(chǔ)上繼續(xù)改進(jìn)和創(chuàng)新。這種開(kāi)放的態(tài)度將大大加速整個(gè)領(lǐng)域的發(fā)展,讓更多有創(chuàng)意的應(yīng)用成為可能。

歸根結(jié)底,OpenBEATs代表了人工智能在音頻理解方面的一個(gè)重要里程碑。它證明了跨域訓(xùn)練和掩碼預(yù)測(cè)技術(shù)在音頻領(lǐng)域的巨大潛力,也為未來(lái)更先進(jìn)的音頻AI系統(tǒng)奠定了堅(jiān)實(shí)基礎(chǔ)。隨著這項(xiàng)技術(shù)的不斷完善和普及,我們有理由期待一個(gè)機(jī)器能夠真正理解聲音世界的時(shí)代即將到來(lái)。

對(duì)于普通人來(lái)說(shuō),這意味著未來(lái)我們可能擁有更智能的語(yǔ)音助手,它們不僅能聽(tīng)懂我們說(shuō)話(huà),還能理解周?chē)h(huán)境的聲音,提供更貼心的服務(wù)。也許不久的將來(lái),你的手機(jī)就能告訴你窗外那只鳥(niǎo)的種類(lèi),或者根據(jù)環(huán)境聲音自動(dòng)調(diào)節(jié)播放的背景音樂(lè)。這樣的未來(lái),正在一步步變?yōu)楝F(xiàn)實(shí)。

Q&A

Q1:OpenBEATs是什么?它和普通的語(yǔ)音識(shí)別有什么區(qū)別? A:OpenBEATs是一個(gè)通用音頻理解系統(tǒng),不僅能識(shí)別人類(lèi)語(yǔ)音,還能理解音樂(lè)、動(dòng)物聲音、環(huán)境噪音等各種音頻。它就像給電腦裝了一雙萬(wàn)能的耳朵,能聽(tīng)懂整個(gè)聲音世界,而普通語(yǔ)音識(shí)別只能處理人類(lèi)說(shuō)話(huà)。

Q2:這項(xiàng)技術(shù)會(huì)不會(huì)很快應(yīng)用到我們的日常生活中? A:目前OpenBEATs還主要用于科研,但它的開(kāi)源特性會(huì)加速實(shí)際應(yīng)用的開(kāi)發(fā)。未來(lái)可能出現(xiàn)在智能音箱、環(huán)境監(jiān)測(cè)、音樂(lè)推薦等領(lǐng)域,讓我們的設(shè)備更好地理解周?chē)穆曇舡h(huán)境。

Q3:為什么說(shuō)OpenBEATs比以前的系統(tǒng)更厲害? A:主要有三個(gè)優(yōu)勢(shì):首先它是完全開(kāi)源的,任何人都能使用和改進(jìn);其次它能同時(shí)處理多種類(lèi)型的音頻,不像以前的系統(tǒng)只擅長(zhǎng)某一領(lǐng)域;最后它還能進(jìn)行音頻推理,不僅識(shí)別聲音還能理解聲音的含義和關(guān)系。

分享至
1贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-