這項由香港科技大學(xué)和多模態(tài)藝術(shù)投影研究團隊(MAP)聯(lián)合開發(fā)的開源音樂生成模型YuE(樂)于2025年1月28日在arXiv平臺發(fā)表,論文標題為《YuE: Scaling Open Foundation Models for Long-Form Music Generation》。研究團隊的核心成員包括香港科技大學(xué)的袁瑞斌、林翰豐等研究者,以及來自Moonshot.ai、Queen Mary University of London等多個機構(gòu)的合作者。感興趣的讀者可以通過arXiv:2503.08638或項目主頁https://map-yue.github.io/獲取完整論文和演示內(nèi)容。
在音樂創(chuàng)作這個充滿藝術(shù)靈感的領(lǐng)域,人工智能正在掀起一場前所未有的革命。長期以來,雖然AI能夠生成短小的音樂片段,但要創(chuàng)作出一首完整的、有歌詞有旋律的流行歌曲,仍然是個看似不可能完成的任務(wù)?,F(xiàn)在,香港科技大學(xué)的研究團隊帶來了一個令人興奮的突破——他們開發(fā)出了名為YuE的AI音樂創(chuàng)作系統(tǒng),這個系統(tǒng)不僅能夠根據(jù)歌詞創(chuàng)作出長達五分鐘的完整歌曲,還能在保持歌詞準確性的同時,生成富有表現(xiàn)力的人聲和精美的伴奏。
YuE的出現(xiàn)意義重大,因為它是第一個真正意義上的開源長篇歌曲生成模型。此前,雖然像Suno、Udio這樣的商業(yè)系統(tǒng)已經(jīng)能夠生成相當不錯的歌曲,但它們的技術(shù)細節(jié)完全保密,研究人員和普通用戶都無法了解其工作原理,更無法在此基礎(chǔ)上進行改進和創(chuàng)新。YuE的開源特性意味著全世界的研究者都可以使用、研究和改進這項技術(shù),這將極大加速AI音樂生成技術(shù)的發(fā)展。
研究團隊基于大型語言模型LLaMA2架構(gòu),使用了數(shù)萬億個訓(xùn)練數(shù)據(jù)來訓(xùn)練YuE。這個模型的訓(xùn)練數(shù)據(jù)包含了70,000小時的語音數(shù)據(jù)和650,000小時的音樂數(shù)據(jù),其中10%的音樂數(shù)據(jù)配有對應(yīng)歌詞。如此龐大的數(shù)據(jù)量讓YuE學(xué)會了如何理解語言和音樂之間的復(fù)雜關(guān)系,就像一個音樂家經(jīng)過了數(shù)十年的學(xué)習(xí)和練習(xí)一樣。
更令人印象深刻的是,YuE在多項評測中的表現(xiàn)已經(jīng)能夠與商業(yè)系統(tǒng)相媲美,甚至在某些方面超越了它們。在人工評估中,YuE在音樂性、聲音靈活性和生成時長等方面都表現(xiàn)出色。特別值得一提的是,YuE生成的歌曲平均長度約為五分鐘,這在AI音樂生成領(lǐng)域是一個顯著的突破,因為大多數(shù)現(xiàn)有系統(tǒng)只能生成30秒左右的短片段。
**一、核心技術(shù)架構(gòu):兩階段生成的精妙設(shè)計**
要理解YuE如何工作,我們可以把它想象成一個兩階段的音樂制作工廠。就像真實的音樂制作過程一樣,YuE也分為兩個主要階段來完成從歌詞到完整歌曲的轉(zhuǎn)換。
第一階段被稱為"音樂語言建模"階段,這就像是音樂制作中的編曲和錄音階段。在這個階段,YuE接收歌詞和風格指示,然后生成歌曲的基本框架,包括人聲旋律和伴奏的基本結(jié)構(gòu)。這個階段使用的是一個5億到70億參數(shù)規(guī)模的語言模型,它已經(jīng)學(xué)習(xí)了大量的音樂知識,知道什么樣的歌詞應(yīng)該配什么樣的旋律,什么樣的風格需要什么樣的伴奏。
第二階段被稱為"殘差建模"階段,這就像是音樂制作中的混音和母帶處理階段。在這個階段,一個10億參數(shù)的語言模型會接收第一階段的輸出,然后添加更多的音頻細節(jié),讓聲音變得更加豐富和真實。這包括增加更多的音頻頻率成分、改善音質(zhì)、讓人聲聽起來更自然等等。
這種兩階段的設(shè)計非常巧妙,因為它模仿了人類音樂制作的自然流程。第一階段專注于創(chuàng)意和結(jié)構(gòu),第二階段專注于技術(shù)和細節(jié)。這樣的分工不僅提高了生成質(zhì)量,還大大提升了計算效率。
整個系統(tǒng)的音頻處理基于一種稱為X-Codec的音頻編碼器。這個編碼器的作用就像是音樂和計算機之間的翻譯器,它能夠?qū)⒁纛l波形轉(zhuǎn)換成計算機可以理解的數(shù)字序列,同時保留音樂的語義信息。X-Codec特別之處在于它融合了語義信息和聲學(xué)信息,既能保持音樂的含義準確傳達,又能保證音質(zhì)的清晰度。
在文本處理方面,YuE使用LLaMA分詞器來處理歌詞、風格標簽和結(jié)構(gòu)信息。這個分詞器能夠理解不同語言的文本,支持多語言歌曲生成。系統(tǒng)還引入了多種特殊標記來標識不同的內(nèi)容類型,比如標識音頻開始的``標記和標識音頻結(jié)束的``標記等。
**二、軌道解耦:解決音樂生成的根本難題**
傳統(tǒng)的音樂生成面臨一個根本性挑戰(zhàn):音樂不像語音那樣單純,它包含了人聲和各種樂器的復(fù)雜混合。當AI試圖同時處理這些不同的音頻成分時,往往會出現(xiàn)"顧此失彼"的問題——要么人聲不清楚,要么伴奏太嘈雜,很難達到理想的平衡。
YuE的研究團隊通過深入分析發(fā)現(xiàn)了問題的根源。他們發(fā)現(xiàn),當音樂中伴奏過于強烈時,AI系統(tǒng)很容易"聽不清"歌詞,導(dǎo)致生成的歌曲與原本的歌詞內(nèi)容不符。這就像在嘈雜的酒吧里試圖聽清楚朋友說話一樣困難。研究團隊通過測量不同音樂風格中的"語言信息丟失率"發(fā)現(xiàn),在金屬音樂這樣伴奏較重的風格中,信息丟失率可以高達25%,而在說唱音樂這樣人聲突出的風格中,丟失率只有大約15%。
為了解決這個問題,研究團隊提出了"軌道解耦次詞預(yù)測"技術(shù)。這個技術(shù)的基本思路是將人聲和伴奏分開處理,就像錄音室里分軌錄音一樣。在每個時間點上,系統(tǒng)不是預(yù)測一個混合的音頻信號,而是同時預(yù)測兩個分離的信號:一個是人聲信號,一個是伴奏信號。
具體來說,傳統(tǒng)方法會預(yù)測一個序列:音頻1、音頻2、音頻3...每個音頻包含了所有的聲音成分。而YuE的方法預(yù)測的序列是:人聲1、伴奏1、人聲2、伴奏2、人聲3、伴奏3...這樣,系統(tǒng)可以獨立地關(guān)注人聲的清晰度和伴奏的豐富性,最后再將它們合成在一起。
這種方法帶來了多重好處。首先,它顯著提高了歌詞的準確性,因為系統(tǒng)可以專門關(guān)注人聲軌道,不會被伴奏干擾。其次,它使得生成的音樂具有更好的層次感,人聲和伴奏各自保持了應(yīng)有的特色。第三,這種方法還為后續(xù)的音頻處理提供了便利,比如可以單獨調(diào)整人聲音量或者替換伴奏等。
實驗結(jié)果證明了這種方法的有效性。使用軌道解耦技術(shù)訓(xùn)練的模型在訓(xùn)練過程中達到了更低的損失值,這意味著模型學(xué)習(xí)得更好。同時,在各種音樂風格的測試中,新方法都表現(xiàn)出了更強的歌詞跟隨能力,即使在像金屬音樂這樣的挑戰(zhàn)性風格中也是如此。
**三、結(jié)構(gòu)化漸進條件生成:讓AI學(xué)會創(chuàng)作完整歌曲**
創(chuàng)作一首完整的歌曲不僅僅是簡單地將歌詞轉(zhuǎn)換成音頻,它需要理解歌曲的整體結(jié)構(gòu)。一首典型的流行歌曲通常包含前奏、主歌、副歌、橋段、尾奏等不同部分,每個部分都有其特定的功能和情感表達。對于AI來說,如何理解和生成這樣復(fù)雜的結(jié)構(gòu)化內(nèi)容是一個巨大的挑戰(zhàn)。
研究團隊發(fā)現(xiàn),簡單地將歌詞輸入給AI系統(tǒng)并不能得到理想的結(jié)果。當歌詞很長時,AI往往會在生成過程中"忘記"最初的指示,導(dǎo)致后面生成的內(nèi)容與前面不一致,或者完全偏離了原始歌詞的意圖。這個問題的根源在于現(xiàn)有語言模型中廣泛使用的旋轉(zhuǎn)位置編碼(RoPE)存在長期衰減特性。簡單來說,就是當文本很長時,模型對開頭內(nèi)容的"記憶"會逐漸減弱。
為了解決這個問題,研究團隊開發(fā)了"結(jié)構(gòu)化漸進條件生成"技術(shù),他們將其簡稱為CoT(Chain-of-Thought的縮寫)。這個技術(shù)的核心思想是利用音樂本身的結(jié)構(gòu)特性,將一首長歌曲分解成多個較短的段落,然后逐段生成。
具體的工作流程是這樣的:首先,系統(tǒng)會自動分析歌曲的結(jié)構(gòu),識別出不同的段落(如主歌1、副歌1、主歌2、副歌2等)。然后,系統(tǒng)會為每個段落生成一個包含段落標簽、對應(yīng)歌詞和音頻的完整單元。在生成過程中,系統(tǒng)會在文本和音頻之間交替進行,始終保持對當前段落任務(wù)的清晰認識。
這種方法的優(yōu)勢是顯而易見的。通過將長任務(wù)分解成多個短任務(wù),系統(tǒng)可以在每個段落中保持高度的專注力和準確性。同時,段落標簽的使用還幫助系統(tǒng)理解不同部分的功能,比如副歌應(yīng)該更加朗朗上口,橋段應(yīng)該提供情感轉(zhuǎn)折等。
研究團隊通過一個巧妙的實驗驗證了這種方法的有效性。他們比較了幾種不同的長文本處理方法:傳統(tǒng)的文本前置方法、課程學(xué)習(xí)方法、調(diào)整位置編碼基數(shù)的方法,以及他們提出的CoT方法。結(jié)果顯示,CoT方法在各個時間段都保持了最低的詞錯誤率,即使在150秒的長音頻中,錯誤率也控制在20%左右,而其他方法的錯誤率則高達60-80%。
這個技術(shù)不僅解決了長度問題,還為AI音樂生成引入了結(jié)構(gòu)意識。生成的歌曲不再是簡單的音頻流,而是具有明確結(jié)構(gòu)和層次的藝術(shù)作品。這讓YuE生成的音樂更接近人類作曲家的創(chuàng)作水平。
**四、音樂情境學(xué)習(xí):讓AI具備風格轉(zhuǎn)換的神奇能力**
除了基本的歌詞轉(zhuǎn)音樂功能,YuE還具備一項令人驚嘆的能力:音樂情境學(xué)習(xí)。這個功能就像是給AI提供了一個音樂"樣本",讓它能夠?qū)W習(xí)和模仿特定的風格、音色或者演唱方式。
傳統(tǒng)的語音情境學(xué)習(xí)通常采用連續(xù)的方式:先播放參考文本,然后播放參考音頻,最后生成目標文本對應(yīng)的音頻。但研究團隊發(fā)現(xiàn),這種方法在音樂領(lǐng)域存在三個主要問題。首先,它要求必須提供參考音頻對應(yīng)的歌詞,但很多時候我們只有音樂沒有歌詞。其次,這種方法是單向的,只能從給定的參考繼續(xù)創(chuàng)作,缺乏靈活性。第三,這種強耦合的方式容易導(dǎo)致AI直接復(fù)制參考音頻,而不是學(xué)習(xí)其風格特征。
YuE的研究團隊重新設(shè)計了音樂情境學(xué)習(xí)的方式。他們的方法更加靈活,可以支持單軌模式(只提供伴奏或只提供人聲)和雙軌模式(同時提供人聲和伴奏)。更重要的是,他們引入了"延遲激活策略",確保AI學(xué)習(xí)的是音樂風格而不是直接復(fù)制。
延遲激活策略的工作原理很巧妙。在訓(xùn)練的早期階段,系統(tǒng)完全不使用情境學(xué)習(xí)數(shù)據(jù),而是專注于學(xué)習(xí)基本的音樂生成能力。只有當模型已經(jīng)具備了一定的創(chuàng)作能力后,才在訓(xùn)練的最后階段引入少量的情境學(xué)習(xí)數(shù)據(jù)。這樣做的好處是避免了"快捷學(xué)習(xí)"問題,即AI過度依賴參考音頻而失去創(chuàng)新能力。
通過這種方法訓(xùn)練出來的YuE展現(xiàn)出了驚人的風格轉(zhuǎn)換能力。比如,你可以給它提供一首日本城市流行音樂的片段,然后讓它用英語說唱的風格重新演繹同樣的歌詞。AI會保留原曲的伴奏特色,但將人聲風格完全轉(zhuǎn)換成說唱,甚至可以改變歌手的性別。這種能力為音樂創(chuàng)作開辟了全新的可能性。
情境學(xué)習(xí)功能還支持雙向生成,意思是你可以從歌曲的任何一個片段開始,讓AI向前或向后擴展。比如,如果你有一段很棒的副歌,AI可以為它創(chuàng)作主歌和橋段;如果你有一個動人的開頭,AI可以發(fā)展出完整的歌曲結(jié)構(gòu)。
實驗結(jié)果顯示,使用情境學(xué)習(xí)生成的音樂在音樂性評分中獲得了79%的勝率,遠遠超過了不使用情境學(xué)習(xí)的37%勝率。這表明情境學(xué)習(xí)確實能夠顯著提升生成音樂的質(zhì)量和吸引力。
**五、多任務(wù)多階段訓(xùn)練:讓AI成為全能音樂家**
訓(xùn)練一個能夠生成高質(zhì)量音樂的AI系統(tǒng)絕非易事,它需要掌握多種不同但相關(guān)的技能。YuE的訓(xùn)練過程就像培養(yǎng)一個全能音樂家一樣,需要讓它同時學(xué)會語言理解、音樂創(chuàng)作、聲音合成等多種技能。
研究團隊將訓(xùn)練過程分為四個階段,每個階段都有其特定的目標和重點。這種漸進式的訓(xùn)練方法確保了模型能夠穩(wěn)步提升,避免了"學(xué)了新的忘了舊的"問題。
第一階段是"熱身階段",在這個階段,YuE主要學(xué)習(xí)基礎(chǔ)的音樂生成能力。訓(xùn)練數(shù)據(jù)主要包括英語和中文的高質(zhì)量音樂,總共使用了280億個訓(xùn)練標記。在這個階段,系統(tǒng)學(xué)會了基本的音符生成、簡單的旋律創(chuàng)作等基礎(chǔ)技能。為了節(jié)省計算資源,這個階段使用較短的上下文長度(8192個標記,大約相當于163秒的音樂)。
第二階段是"穩(wěn)定學(xué)習(xí)階段",訓(xùn)練數(shù)據(jù)擴展到1萬億個標記,并引入了更多語言的數(shù)據(jù)。在這個階段,YuE學(xué)會了處理不同語言的歌詞,理解不同文化背景的音樂風格。為了防止訓(xùn)練過程中的分布偏移問題,研究團隊采用了2:1的新舊數(shù)據(jù)混合比例。
第三階段是"上下文擴展階段",將上下文長度擴展到16384個標記,讓YuE能夠處理更長的音樂片段。這個階段移除了單軌無條件數(shù)據(jù),專注于提升模型處理長序列的能力。額外訓(xùn)練了750億個標記后,YuE獲得了處理長篇音樂的能力。
第四階段是"精調(diào)階段",這是整個訓(xùn)練過程的關(guān)鍵階段。在這個階段,研究團隊引入了更嚴格的控制信號,包括參考音頻(情境學(xué)習(xí))、性別標簽、音色標簽等。學(xué)習(xí)率采用余弦退火方式從原來的3×10^-4逐漸降低到3×10^-5。雖然這個階段只使用了400億個標記(約占總計算預(yù)算的2%),但卻成功激活了所有高級控制功能。
在多任務(wù)學(xué)習(xí)方面,YuE同時學(xué)習(xí)四種不同的任務(wù)。第一種是文本轉(zhuǎn)語音(TTS),這幫助模型理解語言和聲音之間的對應(yīng)關(guān)系。雖然語音數(shù)據(jù)相對較短,但研究團隊通過序列連接的方式將多個短語音片段組合成長序列,確保與音樂數(shù)據(jù)的長度匹配。
第二種是音樂生成任務(wù),這是訓(xùn)練數(shù)據(jù)的主體部分。研究團隊使用Qwen2-Audio模型為所有音樂添加了開放詞匯的標簽,包括風格、樂器、情緒等信息。40%的音樂數(shù)據(jù)被分離成人聲和伴奏的雙軌格式,為軌道解耦訓(xùn)練提供了數(shù)據(jù)基礎(chǔ)。
第三種是歌詞轉(zhuǎn)歌曲任務(wù),這是YuE的核心功能。由于高質(zhì)量的歌詞-音頻配對數(shù)據(jù)相對稀缺,研究團隊實施了嚴格的過濾策略,最終只保留了約10%的匹配數(shù)據(jù)。盡管數(shù)據(jù)量有限,但通過CoT設(shè)計和TTS輔助任務(wù)的幫助,模型仍然獲得了良好的歌詞跟隨能力。
第四種是情境學(xué)習(xí)任務(wù),在精調(diào)階段引入。研究團隊從高質(zhì)量數(shù)據(jù)中采樣了20-40秒的參考片段,并創(chuàng)建了包括人聲情境學(xué)習(xí)、伴奏情境學(xué)習(xí)、混合情境學(xué)習(xí)和雙軌情境學(xué)習(xí)在內(nèi)的多種變體。
整個訓(xùn)練過程消耗了巨大的計算資源。Stage-1模型的訓(xùn)練使用了16到512塊NVIDIA H800 GPU,根據(jù)模型規(guī)模的不同進行調(diào)整。訓(xùn)練過程中保持了768的全局批次大小,使用Adam優(yōu)化器,梯度裁剪設(shè)置為1.0,權(quán)重衰減為0.1。這樣的規(guī)模和復(fù)雜度在當前的AI音樂生成領(lǐng)域是前所未有的。
**六、性能評估:與商業(yè)系統(tǒng)正面較量**
為了驗證YuE的實際性能,研究團隊進行了全面的評估,包括人工評估和自動評估兩個方面。評估的對象包括四個主要的商業(yè)音樂生成系統(tǒng):Suno V4、Udio、Hailuo和Tiangong。這些系統(tǒng)都是目前市場上表現(xiàn)最好的產(chǎn)品,因此與它們的比較具有很強的說服力。
人工評估邀請了40名研究人員參與,其中包括12名語音/音樂AI專家和7名受過訓(xùn)練的音樂家。為了保證評估的客觀性,所有評估者都沒有參與YuE的開發(fā)工作。評估采用了A/B測試的形式,每個評估者需要在兩個系統(tǒng)生成的音樂之間做出選擇。
評估的維度非常全面,包括整體音樂性、人聲質(zhì)量、伴奏質(zhì)量、音樂編排、旋律吸引力、人聲伴奏匹配度、歌曲結(jié)構(gòu)清晰度、歌詞跟隨準確性、風格控制能力、樂器和人聲配置控制能力、情感表現(xiàn)力以及節(jié)拍和節(jié)奏控制等12個方面。
結(jié)果顯示,YuE在多個方面表現(xiàn)出色。在整體比較中,YuE與Tiangong和Udio達到了基本持平的水平,明顯超越了Hailuo,但仍然落后于目前表現(xiàn)最好的Suno V4。具體來說,YuE對Tiangong的勝率為41.9%,對Udio的勝率為46.5%,對Hailuo的勝率為71.4%,對Suno V4的勝率為16.3%。
在詳細的音樂性分析中,YuE展現(xiàn)出了獨特的優(yōu)勢。在音樂結(jié)構(gòu)和音樂編排方面,YuE表現(xiàn)尤為突出,這體現(xiàn)了CoT技術(shù)在處理長篇音樂結(jié)構(gòu)方面的優(yōu)勢。然而,在人聲和伴奏的聲音質(zhì)量方面,YuE還有改進空間,這主要是由于當前音頻編碼器的限制。
在可控性評估中,YuE在風格控制、樂器配置和情感表達方面表現(xiàn)優(yōu)秀,顯示出良好的指令跟隨能力。這得益于多任務(wù)訓(xùn)練和情境學(xué)習(xí)技術(shù)的應(yīng)用。
自動評估提供了更多量化的指標。在人聲靈活性方面,YuE生成的歌曲平均音域約為27個半音,與頂級商業(yè)系統(tǒng)Suno V4相當,遠超其他系統(tǒng)。在生成時長方面,YuE的表現(xiàn)最為突出,能夠生成長達5分鐘的完整歌曲,而大多數(shù)其他系統(tǒng)的生成時長都在2-3分鐘左右。
在分布匹配指標方面,YuE獲得了最低的KL散度(0.372),顯著優(yōu)于其他系統(tǒng),表明其生成的音樂更接近真實音樂的分布。在音頻質(zhì)量指標FAD方面,雖然Udio表現(xiàn)最好(1.222),但YuE的得分(1.624)也在可接受范圍內(nèi)。
特別值得注意的是音頻-文本對齊評估的結(jié)果。使用傳統(tǒng)的CLAP評分時,YuE的表現(xiàn)(0.118)似乎不佳,但使用更新的CLaMP 3評分時,YuE獲得了最高分(0.240)。這個差異很好地說明了評估指標的重要性,也表明傳統(tǒng)的評估方法可能不適合評估音樂生成任務(wù)。
研究團隊還進行了有趣的相關(guān)性分析,發(fā)現(xiàn)人聲音域與人工評估的音樂性和整體偏好有很強的相關(guān)性(相關(guān)系數(shù)超過0.85)。這表明人聲的表現(xiàn)力是影響音樂質(zhì)量感知的關(guān)鍵因素。
**七、多語言能力:跨越語言障礙的音樂創(chuàng)作**
音樂是一種世界性的語言,優(yōu)秀的AI音樂生成系統(tǒng)應(yīng)該能夠處理不同語言的歌詞。YuE在這方面展現(xiàn)出了令人印象深刻的能力,不僅能夠生成中文、日語、韓語等多種語言的歌曲,還能在一首歌中自然地切換不同語言。
研究團隊對YuE的多語言能力進行了專門的評估。他們創(chuàng)建了10個中文測試樣本、10個日語/韓語混合測試樣本,邀請母語使用者或相關(guān)語言專業(yè)的學(xué)生進行評估。評估結(jié)果顯示,YuE在不同語言上的表現(xiàn)各有特色。
在日語歌詞跟隨方面,YuE表現(xiàn)最為出色,達到了70%的準確率,超過了所有其他系統(tǒng)。這可能是因為日語的音韻特征與音樂旋律有著天然的契合性。在中文歌詞跟隨方面,YuE獲得了60%的準確率,僅次于Suno V4的73%,但明顯好于其他系統(tǒng)。在韓語方面,YuE的表現(xiàn)為55%,排名第三。
在音樂性方面,YuE在中文和韓語歌曲中都獲得了第二名的成績(分別為62%和55%),顯示出良好的跨語言音樂創(chuàng)作能力。在日語音樂性方面,YuE的表現(xiàn)相對較弱(52%),但考慮到這是一個以英語和中文數(shù)據(jù)為主訓(xùn)練的模型,這個結(jié)果仍然是可以接受的。
值得注意的是,YuE還支持代碼轉(zhuǎn)換(code-switching),即在同一首歌中自然地在多種語言之間切換。這種能力在現(xiàn)實的音樂創(chuàng)作中很有價值,特別是在全球化的今天,很多流行歌曲都會混合使用不同語言。
多語言能力的實現(xiàn)主要得益于YuE的訓(xùn)練數(shù)據(jù)多樣性和架構(gòu)設(shè)計的通用性。通過在訓(xùn)練過程中接觸不同語言的音樂數(shù)據(jù),YuE學(xué)會了各種語言的發(fā)音特點和韻律模式。同時,基于Transformer的架構(gòu)本身就具有良好的多語言處理能力。
研究團隊還通過微調(diào)進一步提升了YuE的多語言表現(xiàn)。通過在特定語言的高質(zhì)量數(shù)據(jù)上進行額外訓(xùn)練,可以顯著提升該語言的生成質(zhì)量。這種方法只需要400億個訓(xùn)練標記,相對于完整訓(xùn)練過程來說成本很低,但效果顯著。
**八、技術(shù)創(chuàng)新與突破:開創(chuàng)AI音樂生成新紀元**
YuE的成功不僅僅體現(xiàn)在最終的性能表現(xiàn)上,更重要的是它在技術(shù)層面帶來的多項創(chuàng)新突破。這些創(chuàng)新為整個AI音樂生成領(lǐng)域指明了新的發(fā)展方向。
首先是音頻編碼器的選擇和優(yōu)化。研究團隊經(jīng)過大量實驗比較了多種音頻編碼器,包括純聲學(xué)編碼器(如Encodec32k、HiFiCodec)和語義-聲學(xué)融合編碼器(如Semanticodec、X-Codec)。結(jié)果發(fā)現(xiàn),純聲學(xué)編碼器雖然重建質(zhì)量較好,但在復(fù)雜的音樂數(shù)據(jù)上很難收斂,即使擴展到70億參數(shù)和1萬億訓(xùn)練標記也無法取得滿意效果。
相比之下,融合了語義信息的編碼器表現(xiàn)更佳。X-Codec作為最終選擇,使用了基于HuBERT的語義表示,避免了Semanticodec中AudioMAE補丁機制導(dǎo)致的對齊問題。這種選擇的重要性在于,它讓AI能夠更好地理解音樂的語義含義,而不僅僅是聲音的表面特征。
其次是訓(xùn)練策略的創(chuàng)新。研究團隊發(fā)現(xiàn),傳統(tǒng)的無條件預(yù)訓(xùn)練對于歌詞轉(zhuǎn)歌曲任務(wù)是有害的。大規(guī)模模型往往會過擬合到主導(dǎo)性的學(xué)習(xí)信號上,使得后續(xù)的微調(diào)難以建立有效的跨模態(tài)對齊。這被研究團隊稱為"災(zāi)難性慣性"問題。因此,YuE從一開始就采用多任務(wù)學(xué)習(xí),確保模型始終保持對條件生成任務(wù)的敏感性。
第三是測試時技術(shù)的優(yōu)化。研究團隊發(fā)現(xiàn),使用歌曲的副歌部分作為情境學(xué)習(xí)的參考能夠顯著提升音樂性和穩(wěn)定性。同時,雙軌情境學(xué)習(xí)模式比單軌模式能夠產(chǎn)生更好的音頻質(zhì)量。分類器自由引導(dǎo)(CFG)技術(shù)的應(yīng)用也很關(guān)鍵,第一段使用較高的引導(dǎo)尺度(1.5),后續(xù)段落使用較低的引導(dǎo)尺度(1.2),這樣既保證了開頭的質(zhì)量,又促進了后續(xù)內(nèi)容的多樣性。
第四是對現(xiàn)有評估方法的重新審視。研究發(fā)現(xiàn),傳統(tǒng)的CLAP評分與人工評估結(jié)果相關(guān)性很差,甚至呈現(xiàn)負相關(guān)。這可能是因為CLAP在訓(xùn)練時接觸的音樂內(nèi)容有限,不適合評估包含歌唱的音樂生成任務(wù)。相比之下,更新的CLaMP 3評分顯示出了更好的相關(guān)性,人聲音域等簡單指標反而與人工評估的相關(guān)性最高。
第五是對內(nèi)存效應(yīng)的深入研究。研究團隊使用ByteCover2模型分析了YuE是否會直接復(fù)制訓(xùn)練數(shù)據(jù)。結(jié)果表明,即使在強情境學(xué)習(xí)模式下,YuE生成的音樂與訓(xùn)練數(shù)據(jù)的相似度分布也遠低于已知的翻唱歌曲數(shù)據(jù)集Covers80,表明模型確實在進行創(chuàng)造性的重組而非簡單復(fù)制。
**九、應(yīng)用前景與社會影響:音樂創(chuàng)作的民主化時代**
YuE的出現(xiàn)不僅僅是一個技術(shù)突破,它更預(yù)示著音樂創(chuàng)作即將進入一個全新的時代。作為第一個真正開源的長篇音樂生成模型,YuE為音樂創(chuàng)作的民主化奠定了技術(shù)基礎(chǔ)。
對于普通用戶來說,YuE意味著音樂創(chuàng)作不再是專業(yè)人士的專利。任何人只要有歌詞和創(chuàng)意,就可以創(chuàng)作出完整的歌曲。這對于那些有音樂夢想但缺乏專業(yè)技能或設(shè)備的人來說,無疑是一個巨大的福音。教育工作者可以用它來創(chuàng)作教學(xué)歌曲,內(nèi)容創(chuàng)作者可以為視頻制作定制化的背景音樂,甚至普通人也可以為特殊場合創(chuàng)作個性化的歌曲。
對于音樂行業(yè)專業(yè)人士來說,YuE提供了一個強大的創(chuàng)作輔助工具。作曲家可以用它來快速驗證旋律想法,歌詞作家可以聽到自己作品的音樂化效果,制作人可以用它來制作demo版本。更重要的是,YuE的開源特性意味著專業(yè)人士可以根據(jù)自己的需求對系統(tǒng)進行定制和改進。
在音樂教育領(lǐng)域,YuE的應(yīng)用前景同樣廣闊。學(xué)生可以通過與AI的互動學(xué)習(xí)音樂創(chuàng)作的基本原理,教師可以用它來演示不同風格和結(jié)構(gòu)的音樂特點。特別是對于那些資源有限的地區(qū),YuE可以提供高質(zhì)量的音樂教育資源。
研究團隊還展示了YuE的一些令人驚嘆的創(chuàng)新能力。系統(tǒng)能夠自然地掌握多種高級演唱技巧,如顫音、滑音、美聲、死嗓、混聲、高音等,這些通常需要人類歌手經(jīng)過多年訓(xùn)練才能掌握的技巧。在不同音樂風格的生成中,YuE還會自發(fā)地展現(xiàn)出風格特征,比如在爵士樂中加入即興哼唱,在民族音樂中插入合適的器樂獨奏等。
特別值得一提的是YuE的聲音克隆能力。通過情境學(xué)習(xí),系統(tǒng)可以模仿特定歌手的音色特征,同時生成全新的歌詞和旋律。研究團隊成功復(fù)現(xiàn)了Billie Eilish和王菲等知名歌手的音色特點,生成的歌曲在保持原有音色魅力的同時,內(nèi)容完全是原創(chuàng)的。
當然,這樣強大的技術(shù)也帶來了倫理和社會責任的考量。研究團隊在論文中明確提出,AI生成的音樂內(nèi)容應(yīng)該清楚標注,增加透明度。他們還通過記憶效應(yīng)實驗證明了YuE能夠避免直接復(fù)制,即使在強條件約束下也能保持創(chuàng)造性。
YuE的開源特性還為音樂AI研究提供了寶貴的資源。全世界的研究者都可以基于YuE進行進一步的改進和創(chuàng)新,這將極大加速相關(guān)技術(shù)的發(fā)展。同時,開源也意味著更好的透明度和可審查性,有助于解決AI生成內(nèi)容的倫理問題。
**十、技術(shù)局限與未來發(fā)展:持續(xù)優(yōu)化的征程**
盡管YuE在多個方面取得了突破性進展,但研究團隊也誠實地承認了當前系統(tǒng)的一些局限性,并為未來的改進指明了方向。
首先是音頻質(zhì)量方面的限制。雖然YuE在音樂結(jié)構(gòu)和創(chuàng)意方面表現(xiàn)出色,但在聲音的細節(jié)質(zhì)量上仍有提升空間。這主要是由于當前使用的X-Codec編碼器在重建精度上的限制。雖然這個編碼器在語義保持方面表現(xiàn)很好,但在聲學(xué)細節(jié)的保真度上不如一些專門的聲學(xué)編碼器。未來的改進方向包括開發(fā)更好的編碼器,或者在現(xiàn)有編碼器基礎(chǔ)上增加超分辨率后處理模塊。
其次是訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性問題。雖然YuE的訓(xùn)練使用了海量數(shù)據(jù),但高質(zhì)量的歌詞-音頻配對數(shù)據(jù)仍然相對稀缺。研究團隊只能使用約10%的音樂數(shù)據(jù)進行歌詞跟隨訓(xùn)練,這限制了模型在這方面的進一步提升。此外,訓(xùn)練數(shù)據(jù)主要以英語和中文為主,其他語言的數(shù)據(jù)相對較少,這影響了多語言生成的質(zhì)量。
第三是計算資源的巨大需求。YuE的訓(xùn)練需要數(shù)百塊高端GPU和數(shù)月的訓(xùn)練時間,這樣的資源需求限制了技術(shù)的普及和進一步實驗。雖然推理過程相對高效,但仍然需要相當?shù)挠嬎隳芰Σ拍苌筛哔|(zhì)量的音樂。
第四是某些音樂風格的處理能力有限。雖然YuE在大多數(shù)流行音樂風格上表現(xiàn)良好,但對于一些特殊風格(如某些實驗性音樂、古典音樂等)的處理能力還有待提升。這部分是由于訓(xùn)練數(shù)據(jù)的偏向性造成的。
研究團隊也坦誠地分享了一些嘗試失敗的方法。他們發(fā)現(xiàn),使用純聲學(xué)編碼器進行訓(xùn)練極其困難,即使大幅增加模型規(guī)模和訓(xùn)練數(shù)據(jù)也無法取得滿意效果。無條件預(yù)訓(xùn)練對于條件生成任務(wù)是有害的,這與傳統(tǒng)的預(yù)訓(xùn)練范式形成了鮮明對比。過早引入情境學(xué)習(xí)數(shù)據(jù)會導(dǎo)致模型過度依賴參考音頻,失去創(chuàng)造能力。
基于這些發(fā)現(xiàn)和限制,研究團隊為未來的發(fā)展規(guī)劃了幾個重要方向。首先是改進音頻編碼和重建技術(shù),提升生成音樂的音質(zhì)和細節(jié)豐富度。其次是擴展訓(xùn)練數(shù)據(jù),特別是增加更多語言和音樂風格的高質(zhì)量配對數(shù)據(jù)。第三是探索更高效的訓(xùn)練方法,降低計算資源需求。第四是深入研究音樂理論的整合,讓AI更好地理解和運用音樂理論知識。
此外,研究團隊還計劃探索更多的音樂應(yīng)用場景,如音樂教育、治療音樂、無障礙音樂創(chuàng)作等。他們希望YuE不僅僅是一個技術(shù)演示,而是能夠真正服務(wù)于人類音樂創(chuàng)作和欣賞的實用工具。
**十一、研究意義與行業(yè)影響:開源精神推動技術(shù)進步**
YuE的發(fā)布在AI音樂生成領(lǐng)域具有里程碑式的意義,它不僅在技術(shù)上取得了突破,更重要的是帶來了開源精神在這個領(lǐng)域的回歸。
在商業(yè)化的浪潮中,大多數(shù)先進的AI音樂生成技術(shù)都被封裝在黑盒子里,只有少數(shù)大公司能夠掌握核心技術(shù)。這種情況雖然推動了產(chǎn)品的快速發(fā)展,但也阻礙了學(xué)術(shù)研究和技術(shù)創(chuàng)新的步伐。研究者無法了解這些系統(tǒng)的工作原理,無法在其基礎(chǔ)上進行改進,普通開發(fā)者更是無法接觸到這些先進技術(shù)。
YuE的開源發(fā)布打破了這種局面。它不僅公開了完整的技術(shù)方案,還提供了訓(xùn)練代碼、模型權(quán)重和評估工具。這意味著全世界的研究者都可以復(fù)現(xiàn)、研究和改進這項技術(shù)。對于學(xué)術(shù)界來說,這提供了一個高質(zhì)量的基準和起點;對于產(chǎn)業(yè)界來說,這降低了技術(shù)門檻,讓更多的公司和開發(fā)者能夠參與到AI音樂生成的創(chuàng)新中來。
從技術(shù)角度來看,YuE的貢獻主要體現(xiàn)在幾個方面。軌道解耦技術(shù)解決了多聲部音樂生成中的關(guān)鍵問題,為其他研究者提供了新的思路。結(jié)構(gòu)化漸進條件生成技術(shù)為長序列生成提供了有效方案,這不僅適用于音樂,也可以推廣到其他需要長序列生成的任務(wù)中。音樂情境學(xué)習(xí)的重新設(shè)計為AI系統(tǒng)提供了更靈活的風格控制能力。
從評估角度來看,YuE的研究揭示了現(xiàn)有評估方法的局限性。傳統(tǒng)的音頻-文本對齊評估方法(如CLAP評分)在音樂生成任務(wù)上表現(xiàn)不佳,而一些簡單的指標(如人聲音域)反而與人工評估有很強的相關(guān)性。這些發(fā)現(xiàn)為建立更好的音樂生成評估標準提供了重要啟示。
YuE的成功也證明了大規(guī)模多任務(wù)訓(xùn)練在專門領(lǐng)域的有效性。通過同時學(xué)習(xí)語音合成、音樂生成、歌詞跟隨等相關(guān)任務(wù),模型獲得了更強的泛化能力和更好的性能。這種方法論對其他領(lǐng)域的AI系統(tǒng)開發(fā)同樣具有參考價值。
對于音樂產(chǎn)業(yè)來說,YuE的出現(xiàn)既是機遇也是挑戰(zhàn)。一方面,它為音樂創(chuàng)作提供了新的工具和可能性,可能催生出全新的音樂形式和商業(yè)模式;另一方面,它也對傳統(tǒng)的音樂創(chuàng)作流程提出了挑戰(zhàn),需要行業(yè)重新思考人工智能在音樂創(chuàng)作中的角色和定位。
更重要的是,YuE的開源特性為音樂創(chuàng)作的民主化奠定了基礎(chǔ)。它讓音樂創(chuàng)作不再局限于少數(shù)專業(yè)人士或擁有昂貴設(shè)備的人群,而是可以惠及更廣泛的創(chuàng)作者群體。這種技術(shù)的普及可能會帶來音樂文化的繁榮和多樣化。
展望未來,YuE很可能會成為AI音樂生成領(lǐng)域的一個重要基準和起點?;赮uE的改進版本和衍生技術(shù)將不斷涌現(xiàn),推動整個領(lǐng)域向前發(fā)展。同時,YuE的成功也為其他AI創(chuàng)作領(lǐng)域(如視頻生成、游戲設(shè)計等)提供了寶貴的經(jīng)驗和啟示。
說到底,YuE不僅僅是一個技術(shù)成果,更是開源精神在AI時代的體現(xiàn)。它告訴我們,真正的技術(shù)進步來自于開放、合作和共享,而不是封閉和壟斷。通過將先進技術(shù)開放給全世界,我們能夠激發(fā)更多的創(chuàng)新和創(chuàng)造,最終讓技術(shù)更好地服務(wù)于人類社會。這或許是YuE帶給我們的最重要啟示。
Q&A
Q1:YuE是什么?它能做什么? A:YuE是由香港科技大學(xué)開發(fā)的開源AI音樂生成模型,它能夠根據(jù)歌詞創(chuàng)作出長達5分鐘的完整歌曲,包括人聲演唱和樂器伴奏。與市面上的商業(yè)產(chǎn)品不同,YuE完全開源,任何人都可以使用、研究和改進這項技術(shù)。它還支持多語言歌曲創(chuàng)作和風格轉(zhuǎn)換等高級功能。
Q2:YuE會不會取代人類音樂家? A:目前不會完全取代,但會改變音樂創(chuàng)作方式。YuE更像是一個強大的創(chuàng)作工具,它可以幫助音樂家快速驗證想法、制作demo,或者讓沒有專業(yè)技能的人也能創(chuàng)作音樂。真正的音樂創(chuàng)作仍然需要人類的情感、創(chuàng)意和審美判斷,AI只是提供了技術(shù)支持。
Q3:普通人如何使用YuE?使用門檻高嗎? A:由于YuE是開源項目,技術(shù)人員可以通過GitHub獲取代碼和模型。不過對于普通用戶來說,直接使用YuE需要一定的技術(shù)背景和計算資源。預(yù)計未來會有基于YuE的用戶友好產(chǎn)品出現(xiàn),屆時普通人就能更容易地使用這項技術(shù)創(chuàng)作音樂了。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。