av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<rt id="lzvxt"></rt>

<strong id="lzvxt"></strong>

<ruby id="lzvxt"></ruby>

<abbr id="lzvxt"><form id="lzvxt"></form></abbr>

<u id="lzvxt"><label id="lzvxt"></label></u>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

YuE：能創(chuàng)作五分鐘完整歌曲的AI音樂家誕生了，香港科技大學(xué)開發(fā)的開源音樂生成模型震撼發(fā)布

AI音樂生成開源模型長篇音樂創(chuàng)作

YuE：能創(chuàng)作五分鐘完整歌曲的AI音樂家誕生了，香港科技大學(xué)開發(fā)的開源音樂生成模型震撼發(fā)布

作者：科技行者

2025-08-01 10:17

分享至：

香港科技大學(xué)研究團隊開發(fā)出首個開源長篇音樂生成模型YuE，能根據(jù)歌詞創(chuàng)作5分鐘完整歌曲。該系統(tǒng)采用雙階段架構(gòu)和軌道解耦技術(shù)，在人工評估中與商業(yè)系統(tǒng)性能相當，支持多語言創(chuàng)作和風格轉(zhuǎn)換，為音樂創(chuàng)作民主化奠定基礎(chǔ)。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-08-01 10:17 ? 科技行者

這項由香港科技大學(xué)和多模態(tài)藝術(shù)投影研究團隊（MAP）聯(lián)合開發(fā)的開源音樂生成模型YuE（樂）于2025年1月28日在arXiv平臺發(fā)表，論文標題為《YuE: Scaling Open Foundation Models for Long-Form Music Generation》。研究團隊的核心成員包括香港科技大學(xué)的袁瑞斌、林翰豐等研究者，以及來自Moonshot.ai、Queen Mary University of London等多個機構(gòu)的合作者。感興趣的讀者可以通過arXiv:2503.08638或項目主頁https://map-yue.github.io/獲取完整論文和演示內(nèi)容。

在音樂創(chuàng)作這個充滿藝術(shù)靈感的領(lǐng)域，人工智能正在掀起一場前所未有的革命。長期以來，雖然AI能夠生成短小的音樂片段，但要創(chuàng)作出一首完整的、有歌詞有旋律的流行歌曲，仍然是個看似不可能完成的任務(wù)?，F(xiàn)在，香港科技大學(xué)的研究團隊帶來了一個令人興奮的突破——他們開發(fā)出了名為YuE的AI音樂創(chuàng)作系統(tǒng)，這個系統(tǒng)不僅能夠根據(jù)歌詞創(chuàng)作出長達五分鐘的完整歌曲，還能在保持歌詞準確性的同時，生成富有表現(xiàn)力的人聲和精美的伴奏。

YuE的出現(xiàn)意義重大，因為它是第一個真正意義上的開源長篇歌曲生成模型。此前，雖然像Suno、Udio這樣的商業(yè)系統(tǒng)已經(jīng)能夠生成相當不錯的歌曲，但它們的技術(shù)細節(jié)完全保密，研究人員和普通用戶都無法了解其工作原理，更無法在此基礎(chǔ)上進行改進和創(chuàng)新。YuE的開源特性意味著全世界的研究者都可以使用、研究和改進這項技術(shù)，這將極大加速AI音樂生成技術(shù)的發(fā)展。

研究團隊基于大型語言模型LLaMA2架構(gòu)，使用了數(shù)萬億個訓(xùn)練數(shù)據(jù)來訓(xùn)練YuE。這個模型的訓(xùn)練數(shù)據(jù)包含了70,000小時的語音數(shù)據(jù)和650,000小時的音樂數(shù)據(jù)，其中10%的音樂數(shù)據(jù)配有對應(yīng)歌詞。如此龐大的數(shù)據(jù)量讓YuE學(xué)會了如何理解語言和音樂之間的復(fù)雜關(guān)系，就像一個音樂家經(jīng)過了數(shù)十年的學(xué)習(xí)和練習(xí)一樣。

更令人印象深刻的是，YuE在多項評測中的表現(xiàn)已經(jīng)能夠與商業(yè)系統(tǒng)相媲美，甚至在某些方面超越了它們。在人工評估中，YuE在音樂性、聲音靈活性和生成時長等方面都表現(xiàn)出色。特別值得一提的是，YuE生成的歌曲平均長度約為五分鐘，這在AI音樂生成領(lǐng)域是一個顯著的突破，因為大多數(shù)現(xiàn)有系統(tǒng)只能生成30秒左右的短片段。

**一、核心技術(shù)架構(gòu)：兩階段生成的精妙設(shè)計**

要理解YuE如何工作，我們可以把它想象成一個兩階段的音樂制作工廠。就像真實的音樂制作過程一樣，YuE也分為兩個主要階段來完成從歌詞到完整歌曲的轉(zhuǎn)換。

第一階段被稱為"音樂語言建模"階段，這就像是音樂制作中的編曲和錄音階段。在這個階段，YuE接收歌詞和風格指示，然后生成歌曲的基本框架，包括人聲旋律和伴奏的基本結(jié)構(gòu)。這個階段使用的是一個5億到70億參數(shù)規(guī)模的語言模型，它已經(jīng)學(xué)習(xí)了大量的音樂知識，知道什么樣的歌詞應(yīng)該配什么樣的旋律，什么樣的風格需要什么樣的伴奏。

第二階段被稱為"殘差建模"階段，這就像是音樂制作中的混音和母帶處理階段。在這個階段，一個10億參數(shù)的語言模型會接收第一階段的輸出，然后添加更多的音頻細節(jié)，讓聲音變得更加豐富和真實。這包括增加更多的音頻頻率成分、改善音質(zhì)、讓人聲聽起來更自然等等。

這種兩階段的設(shè)計非常巧妙，因為它模仿了人類音樂制作的自然流程。第一階段專注于創(chuàng)意和結(jié)構(gòu)，第二階段專注于技術(shù)和細節(jié)。這樣的分工不僅提高了生成質(zhì)量，還大大提升了計算效率。

整個系統(tǒng)的音頻處理基于一種稱為X-Codec的音頻編碼器。這個編碼器的作用就像是音樂和計算機之間的翻譯器，它能夠?qū)⒁纛l波形轉(zhuǎn)換成計算機可以理解的數(shù)字序列，同時保留音樂的語義信息。X-Codec特別之處在于它融合了語義信息和聲學(xué)信息，既能保持音樂的含義準確傳達，又能保證音質(zhì)的清晰度。

在文本處理方面，YuE使用LLaMA分詞器來處理歌詞、風格標簽和結(jié)構(gòu)信息。這個分詞器能夠理解不同語言的文本，支持多語言歌曲生成。系統(tǒng)還引入了多種特殊標記來標識不同的內(nèi)容類型，比如標識音頻開始的``標記和標識音頻結(jié)束的``標記等。

**二、軌道解耦：解決音樂生成的根本難題**

傳統(tǒng)的音樂生成面臨一個根本性挑戰(zhàn)：音樂不像語音那樣單純，它包含了人聲和各種樂器的復(fù)雜混合。當AI試圖同時處理這些不同的音頻成分時，往往會出現(xiàn)"顧此失彼"的問題——要么人聲不清楚，要么伴奏太嘈雜，很難達到理想的平衡。

YuE的研究團隊通過深入分析發(fā)現(xiàn)了問題的根源。他們發(fā)現(xiàn)，當音樂中伴奏過于強烈時，AI系統(tǒng)很容易"聽不清"歌詞，導(dǎo)致生成的歌曲與原本的歌詞內(nèi)容不符。這就像在嘈雜的酒吧里試圖聽清楚朋友說話一樣困難。研究團隊通過測量不同音樂風格中的"語言信息丟失率"發(fā)現(xiàn)，在金屬音樂這樣伴奏較重的風格中，信息丟失率可以高達25%，而在說唱音樂這樣人聲突出的風格中，丟失率只有大約15%。

為了解決這個問題，研究團隊提出了"軌道解耦次詞預(yù)測"技術(shù)。這個技術(shù)的基本思路是將人聲和伴奏分開處理，就像錄音室里分軌錄音一樣。在每個時間點上，系統(tǒng)不是預(yù)測一個混合的音頻信號，而是同時預(yù)測兩個分離的信號：一個是人聲信號，一個是伴奏信號。

具體來說，傳統(tǒng)方法會預(yù)測一個序列：音頻1、音頻2、音頻3...每個音頻包含了所有的聲音成分。而YuE的方法預(yù)測的序列是：人聲1、伴奏1、人聲2、伴奏2、人聲3、伴奏3...這樣，系統(tǒng)可以獨立地關(guān)注人聲的清晰度和伴奏的豐富性，最后再將它們合成在一起。

這種方法帶來了多重好處。首先，它顯著提高了歌詞的準確性，因為系統(tǒng)可以專門關(guān)注人聲軌道，不會被伴奏干擾。其次，它使得生成的音樂具有更好的層次感，人聲和伴奏各自保持了應(yīng)有的特色。第三，這種方法還為后續(xù)的音頻處理提供了便利，比如可以單獨調(diào)整人聲音量或者替換伴奏等。

實驗結(jié)果證明了這種方法的有效性。使用軌道解耦技術(shù)訓(xùn)練的模型在訓(xùn)練過程中達到了更低的損失值，這意味著模型學(xué)習(xí)得更好。同時，在各種音樂風格的測試中，新方法都表現(xiàn)出了更強的歌詞跟隨能力，即使在像金屬音樂這樣的挑戰(zhàn)性風格中也是如此。

**三、結(jié)構(gòu)化漸進條件生成：讓AI學(xué)會創(chuàng)作完整歌曲**

創(chuàng)作一首完整的歌曲不僅僅是簡單地將歌詞轉(zhuǎn)換成音頻，它需要理解歌曲的整體結(jié)構(gòu)。一首典型的流行歌曲通常包含前奏、主歌、副歌、橋段、尾奏等不同部分，每個部分都有其特定的功能和情感表達。對于AI來說，如何理解和生成這樣復(fù)雜的結(jié)構(gòu)化內(nèi)容是一個巨大的挑戰(zhàn)。

研究團隊發(fā)現(xiàn)，簡單地將歌詞輸入給AI系統(tǒng)并不能得到理想的結(jié)果。當歌詞很長時，AI往往會在生成過程中"忘記"最初的指示，導(dǎo)致后面生成的內(nèi)容與前面不一致，或者完全偏離了原始歌詞的意圖。這個問題的根源在于現(xiàn)有語言模型中廣泛使用的旋轉(zhuǎn)位置編碼（RoPE）存在長期衰減特性。簡單來說，就是當文本很長時，模型對開頭內(nèi)容的"記憶"會逐漸減弱。

為了解決這個問題，研究團隊開發(fā)了"結(jié)構(gòu)化漸進條件生成"技術(shù)，他們將其簡稱為CoT（Chain-of-Thought的縮寫）。這個技術(shù)的核心思想是利用音樂本身的結(jié)構(gòu)特性，將一首長歌曲分解成多個較短的段落，然后逐段生成。

具體的工作流程是這樣的：首先，系統(tǒng)會自動分析歌曲的結(jié)構(gòu)，識別出不同的段落（如主歌1、副歌1、主歌2、副歌2等）。然后，系統(tǒng)會為每個段落生成一個包含段落標簽、對應(yīng)歌詞和音頻的完整單元。在生成過程中，系統(tǒng)會在文本和音頻之間交替進行，始終保持對當前段落任務(wù)的清晰認識。

這種方法的優(yōu)勢是顯而易見的。通過將長任務(wù)分解成多個短任務(wù)，系統(tǒng)可以在每個段落中保持高度的專注力和準確性。同時，段落標簽的使用還幫助系統(tǒng)理解不同部分的功能，比如副歌應(yīng)該更加朗朗上口，橋段應(yīng)該提供情感轉(zhuǎn)折等。

研究團隊通過一個巧妙的實驗驗證了這種方法的有效性。他們比較了幾種不同的長文本處理方法：傳統(tǒng)的文本前置方法、課程學(xué)習(xí)方法、調(diào)整位置編碼基數(shù)的方法，以及他們提出的CoT方法。結(jié)果顯示，CoT方法在各個時間段都保持了最低的詞錯誤率，即使在150秒的長音頻中，錯誤率也控制在20%左右，而其他方法的錯誤率則高達60-80%。

這個技術(shù)不僅解決了長度問題，還為AI音樂生成引入了結(jié)構(gòu)意識。生成的歌曲不再是簡單的音頻流，而是具有明確結(jié)構(gòu)和層次的藝術(shù)作品。這讓YuE生成的音樂更接近人類作曲家的創(chuàng)作水平。

**四、音樂情境學(xué)習(xí)：讓AI具備風格轉(zhuǎn)換的神奇能力**

除了基本的歌詞轉(zhuǎn)音樂功能，YuE還具備一項令人驚嘆的能力：音樂情境學(xué)習(xí)。這個功能就像是給AI提供了一個音樂"樣本"，讓它能夠?qū)W習(xí)和模仿特定的風格、音色或者演唱方式。

傳統(tǒng)的語音情境學(xué)習(xí)通常采用連續(xù)的方式：先播放參考文本，然后播放參考音頻，最后生成目標文本對應(yīng)的音頻。但研究團隊發(fā)現(xiàn)，這種方法在音樂領(lǐng)域存在三個主要問題。首先，它要求必須提供參考音頻對應(yīng)的歌詞，但很多時候我們只有音樂沒有歌詞。其次，這種方法是單向的，只能從給定的參考繼續(xù)創(chuàng)作，缺乏靈活性。第三，這種強耦合的方式容易導(dǎo)致AI直接復(fù)制參考音頻，而不是學(xué)習(xí)其風格特征。

YuE的研究團隊重新設(shè)計了音樂情境學(xué)習(xí)的方式。他們的方法更加靈活，可以支持單軌模式（只提供伴奏或只提供人聲）和雙軌模式（同時提供人聲和伴奏）。更重要的是，他們引入了"延遲激活策略"，確保AI學(xué)習(xí)的是音樂風格而不是直接復(fù)制。

延遲激活策略的工作原理很巧妙。在訓(xùn)練的早期階段，系統(tǒng)完全不使用情境學(xué)習(xí)數(shù)據(jù)，而是專注于學(xué)習(xí)基本的音樂生成能力。只有當模型已經(jīng)具備了一定的創(chuàng)作能力后，才在訓(xùn)練的最后階段引入少量的情境學(xué)習(xí)數(shù)據(jù)。這樣做的好處是避免了"快捷學(xué)習(xí)"問題，即AI過度依賴參考音頻而失去創(chuàng)新能力。

通過這種方法訓(xùn)練出來的YuE展現(xiàn)出了驚人的風格轉(zhuǎn)換能力。比如，你可以給它提供一首日本城市流行音樂的片段，然后讓它用英語說唱的風格重新演繹同樣的歌詞。AI會保留原曲的伴奏特色，但將人聲風格完全轉(zhuǎn)換成說唱，甚至可以改變歌手的性別。這種能力為音樂創(chuàng)作開辟了全新的可能性。

情境學(xué)習(xí)功能還支持雙向生成，意思是你可以從歌曲的任何一個片段開始，讓AI向前或向后擴展。比如，如果你有一段很棒的副歌，AI可以為它創(chuàng)作主歌和橋段；如果你有一個動人的開頭，AI可以發(fā)展出完整的歌曲結(jié)構(gòu)。

實驗結(jié)果顯示，使用情境學(xué)習(xí)生成的音樂在音樂性評分中獲得了79%的勝率，遠遠超過了不使用情境學(xué)習(xí)的37%勝率。這表明情境學(xué)習(xí)確實能夠顯著提升生成音樂的質(zhì)量和吸引力。

**五、多任務(wù)多階段訓(xùn)練：讓AI成為全能音樂家**

訓(xùn)練一個能夠生成高質(zhì)量音樂的AI系統(tǒng)絕非易事，它需要掌握多種不同但相關(guān)的技能。YuE的訓(xùn)練過程就像培養(yǎng)一個全能音樂家一樣，需要讓它同時學(xué)會語言理解、音樂創(chuàng)作、聲音合成等多種技能。

研究團隊將訓(xùn)練過程分為四個階段，每個階段都有其特定的目標和重點。這種漸進式的訓(xùn)練方法確保了模型能夠穩(wěn)步提升，避免了"學(xué)了新的忘了舊的"問題。

第一階段是"熱身階段"，在這個階段，YuE主要學(xué)習(xí)基礎(chǔ)的音樂生成能力。訓(xùn)練數(shù)據(jù)主要包括英語和中文的高質(zhì)量音樂，總共使用了280億個訓(xùn)練標記。在這個階段，系統(tǒng)學(xué)會了基本的音符生成、簡單的旋律創(chuàng)作等基礎(chǔ)技能。為了節(jié)省計算資源，這個階段使用較短的上下文長度（8192個標記，大約相當于163秒的音樂）。

第二階段是"穩(wěn)定學(xué)習(xí)階段"，訓(xùn)練數(shù)據(jù)擴展到1萬億個標記，并引入了更多語言的數(shù)據(jù)。在這個階段，YuE學(xué)會了處理不同語言的歌詞，理解不同文化背景的音樂風格。為了防止訓(xùn)練過程中的分布偏移問題，研究團隊采用了2:1的新舊數(shù)據(jù)混合比例。

第三階段是"上下文擴展階段"，將上下文長度擴展到16384個標記，讓YuE能夠處理更長的音樂片段。這個階段移除了單軌無條件數(shù)據(jù)，專注于提升模型處理長序列的能力。額外訓(xùn)練了750億個標記后，YuE獲得了處理長篇音樂的能力。

第四階段是"精調(diào)階段"，這是整個訓(xùn)練過程的關(guān)鍵階段。在這個階段，研究團隊引入了更嚴格的控制信號，包括參考音頻（情境學(xué)習(xí)）、性別標簽、音色標簽等。學(xué)習(xí)率采用余弦退火方式從原來的3×10^-4逐漸降低到3×10^-5。雖然這個階段只使用了400億個標記（約占總計算預(yù)算的2%），但卻成功激活了所有高級控制功能。

在多任務(wù)學(xué)習(xí)方面，YuE同時學(xué)習(xí)四種不同的任務(wù)。第一種是文本轉(zhuǎn)語音（TTS），這幫助模型理解語言和聲音之間的對應(yīng)關(guān)系。雖然語音數(shù)據(jù)相對較短，但研究團隊通過序列連接的方式將多個短語音片段組合成長序列，確保與音樂數(shù)據(jù)的長度匹配。

第二種是音樂生成任務(wù)，這是訓(xùn)練數(shù)據(jù)的主體部分。研究團隊使用Qwen2-Audio模型為所有音樂添加了開放詞匯的標簽，包括風格、樂器、情緒等信息。40%的音樂數(shù)據(jù)被分離成人聲和伴奏的雙軌格式，為軌道解耦訓(xùn)練提供了數(shù)據(jù)基礎(chǔ)。

第三種是歌詞轉(zhuǎn)歌曲任務(wù)，這是YuE的核心功能。由于高質(zhì)量的歌詞-音頻配對數(shù)據(jù)相對稀缺，研究團隊實施了嚴格的過濾策略，最終只保留了約10%的匹配數(shù)據(jù)。盡管數(shù)據(jù)量有限，但通過CoT設(shè)計和TTS輔助任務(wù)的幫助，模型仍然獲得了良好的歌詞跟隨能力。

第四種是情境學(xué)習(xí)任務(wù)，在精調(diào)階段引入。研究團隊從高質(zhì)量數(shù)據(jù)中采樣了20-40秒的參考片段，并創(chuàng)建了包括人聲情境學(xué)習(xí)、伴奏情境學(xué)習(xí)、混合情境學(xué)習(xí)和雙軌情境學(xué)習(xí)在內(nèi)的多種變體。

整個訓(xùn)練過程消耗了巨大的計算資源。Stage-1模型的訓(xùn)練使用了16到512塊NVIDIA H800 GPU，根據(jù)模型規(guī)模的不同進行調(diào)整。訓(xùn)練過程中保持了768的全局批次大小，使用Adam優(yōu)化器，梯度裁剪設(shè)置為1.0，權(quán)重衰減為0.1。這樣的規(guī)模和復(fù)雜度在當前的AI音樂生成領(lǐng)域是前所未有的。

**六、性能評估：與商業(yè)系統(tǒng)正面較量**

為了驗證YuE的實際性能，研究團隊進行了全面的評估，包括人工評估和自動評估兩個方面。評估的對象包括四個主要的商業(yè)音樂生成系統(tǒng)：Suno V4、Udio、Hailuo和Tiangong。這些系統(tǒng)都是目前市場上表現(xiàn)最好的產(chǎn)品，因此與它們的比較具有很強的說服力。

人工評估邀請了40名研究人員參與，其中包括12名語音/音樂AI專家和7名受過訓(xùn)練的音樂家。為了保證評估的客觀性，所有評估者都沒有參與YuE的開發(fā)工作。評估采用了A/B測試的形式，每個評估者需要在兩個系統(tǒng)生成的音樂之間做出選擇。

評估的維度非常全面，包括整體音樂性、人聲質(zhì)量、伴奏質(zhì)量、音樂編排、旋律吸引力、人聲伴奏匹配度、歌曲結(jié)構(gòu)清晰度、歌詞跟隨準確性、風格控制能力、樂器和人聲配置控制能力、情感表現(xiàn)力以及節(jié)拍和節(jié)奏控制等12個方面。

結(jié)果顯示，YuE在多個方面表現(xiàn)出色。在整體比較中，YuE與Tiangong和Udio達到了基本持平的水平，明顯超越了Hailuo，但仍然落后于目前表現(xiàn)最好的Suno V4。具體來說，YuE對Tiangong的勝率為41.9%，對Udio的勝率為46.5%，對Hailuo的勝率為71.4%，對Suno V4的勝率為16.3%。

在詳細的音樂性分析中，YuE展現(xiàn)出了獨特的優(yōu)勢。在音樂結(jié)構(gòu)和音樂編排方面，YuE表現(xiàn)尤為突出，這體現(xiàn)了CoT技術(shù)在處理長篇音樂結(jié)構(gòu)方面的優(yōu)勢。然而，在人聲和伴奏的聲音質(zhì)量方面，YuE還有改進空間，這主要是由于當前音頻編碼器的限制。

在可控性評估中，YuE在風格控制、樂器配置和情感表達方面表現(xiàn)優(yōu)秀，顯示出良好的指令跟隨能力。這得益于多任務(wù)訓(xùn)練和情境學(xué)習(xí)技術(shù)的應(yīng)用。

自動評估提供了更多量化的指標。在人聲靈活性方面，YuE生成的歌曲平均音域約為27個半音，與頂級商業(yè)系統(tǒng)Suno V4相當，遠超其他系統(tǒng)。在生成時長方面，YuE的表現(xiàn)最為突出，能夠生成長達5分鐘的完整歌曲，而大多數(shù)其他系統(tǒng)的生成時長都在2-3分鐘左右。

在分布匹配指標方面，YuE獲得了最低的KL散度（0.372），顯著優(yōu)于其他系統(tǒng)，表明其生成的音樂更接近真實音樂的分布。在音頻質(zhì)量指標FAD方面，雖然Udio表現(xiàn)最好（1.222），但YuE的得分（1.624）也在可接受范圍內(nèi)。

特別值得注意的是音頻-文本對齊評估的結(jié)果。使用傳統(tǒng)的CLAP評分時，YuE的表現(xiàn)（0.118）似乎不佳，但使用更新的CLaMP 3評分時，YuE獲得了最高分（0.240）。這個差異很好地說明了評估指標的重要性，也表明傳統(tǒng)的評估方法可能不適合評估音樂生成任務(wù)。

研究團隊還進行了有趣的相關(guān)性分析，發(fā)現(xiàn)人聲音域與人工評估的音樂性和整體偏好有很強的相關(guān)性（相關(guān)系數(shù)超過0.85）。這表明人聲的表現(xiàn)力是影響音樂質(zhì)量感知的關(guān)鍵因素。

**七、多語言能力：跨越語言障礙的音樂創(chuàng)作**

音樂是一種世界性的語言，優(yōu)秀的AI音樂生成系統(tǒng)應(yīng)該能夠處理不同語言的歌詞。YuE在這方面展現(xiàn)出了令人印象深刻的能力，不僅能夠生成中文、日語、韓語等多種語言的歌曲，還能在一首歌中自然地切換不同語言。

研究團隊對YuE的多語言能力進行了專門的評估。他們創(chuàng)建了10個中文測試樣本、10個日語/韓語混合測試樣本，邀請母語使用者或相關(guān)語言專業(yè)的學(xué)生進行評估。評估結(jié)果顯示，YuE在不同語言上的表現(xiàn)各有特色。

在日語歌詞跟隨方面，YuE表現(xiàn)最為出色，達到了70%的準確率，超過了所有其他系統(tǒng)。這可能是因為日語的音韻特征與音樂旋律有著天然的契合性。在中文歌詞跟隨方面，YuE獲得了60%的準確率，僅次于Suno V4的73%，但明顯好于其他系統(tǒng)。在韓語方面，YuE的表現(xiàn)為55%，排名第三。

在音樂性方面，YuE在中文和韓語歌曲中都獲得了第二名的成績（分別為62%和55%），顯示出良好的跨語言音樂創(chuàng)作能力。在日語音樂性方面，YuE的表現(xiàn)相對較弱（52%），但考慮到這是一個以英語和中文數(shù)據(jù)為主訓(xùn)練的模型，這個結(jié)果仍然是可以接受的。

值得注意的是，YuE還支持代碼轉(zhuǎn)換（code-switching），即在同一首歌中自然地在多種語言之間切換。這種能力在現(xiàn)實的音樂創(chuàng)作中很有價值，特別是在全球化的今天，很多流行歌曲都會混合使用不同語言。

多語言能力的實現(xiàn)主要得益于YuE的訓(xùn)練數(shù)據(jù)多樣性和架構(gòu)設(shè)計的通用性。通過在訓(xùn)練過程中接觸不同語言的音樂數(shù)據(jù)，YuE學(xué)會了各種語言的發(fā)音特點和韻律模式。同時，基于Transformer的架構(gòu)本身就具有良好的多語言處理能力。

研究團隊還通過微調(diào)進一步提升了YuE的多語言表現(xiàn)。通過在特定語言的高質(zhì)量數(shù)據(jù)上進行額外訓(xùn)練，可以顯著提升該語言的生成質(zhì)量。這種方法只需要400億個訓(xùn)練標記，相對于完整訓(xùn)練過程來說成本很低，但效果顯著。

**八、技術(shù)創(chuàng)新與突破：開創(chuàng)AI音樂生成新紀元**

YuE的成功不僅僅體現(xiàn)在最終的性能表現(xiàn)上，更重要的是它在技術(shù)層面帶來的多項創(chuàng)新突破。這些創(chuàng)新為整個AI音樂生成領(lǐng)域指明了新的發(fā)展方向。

首先是音頻編碼器的選擇和優(yōu)化。研究團隊經(jīng)過大量實驗比較了多種音頻編碼器，包括純聲學(xué)編碼器（如Encodec32k、HiFiCodec）和語義-聲學(xué)融合編碼器（如Semanticodec、X-Codec）。結(jié)果發(fā)現(xiàn)，純聲學(xué)編碼器雖然重建質(zhì)量較好，但在復(fù)雜的音樂數(shù)據(jù)上很難收斂，即使擴展到70億參數(shù)和1萬億訓(xùn)練標記也無法取得滿意效果。

相比之下，融合了語義信息的編碼器表現(xiàn)更佳。X-Codec作為最終選擇，使用了基于HuBERT的語義表示，避免了Semanticodec中AudioMAE補丁機制導(dǎo)致的對齊問題。這種選擇的重要性在于，它讓AI能夠更好地理解音樂的語義含義，而不僅僅是聲音的表面特征。

其次是訓(xùn)練策略的創(chuàng)新。研究團隊發(fā)現(xiàn)，傳統(tǒng)的無條件預(yù)訓(xùn)練對于歌詞轉(zhuǎn)歌曲任務(wù)是有害的。大規(guī)模模型往往會過擬合到主導(dǎo)性的學(xué)習(xí)信號上，使得后續(xù)的微調(diào)難以建立有效的跨模態(tài)對齊。這被研究團隊稱為"災(zāi)難性慣性"問題。因此，YuE從一開始就采用多任務(wù)學(xué)習(xí)，確保模型始終保持對條件生成任務(wù)的敏感性。

第三是測試時技術(shù)的優(yōu)化。研究團隊發(fā)現(xiàn)，使用歌曲的副歌部分作為情境學(xué)習(xí)的參考能夠顯著提升音樂性和穩(wěn)定性。同時，雙軌情境學(xué)習(xí)模式比單軌模式能夠產(chǎn)生更好的音頻質(zhì)量。分類器自由引導(dǎo)（CFG）技術(shù)的應(yīng)用也很關(guān)鍵，第一段使用較高的引導(dǎo)尺度（1.5），后續(xù)段落使用較低的引導(dǎo)尺度（1.2），這樣既保證了開頭的質(zhì)量，又促進了后續(xù)內(nèi)容的多樣性。

第四是對現(xiàn)有評估方法的重新審視。研究發(fā)現(xiàn)，傳統(tǒng)的CLAP評分與人工評估結(jié)果相關(guān)性很差，甚至呈現(xiàn)負相關(guān)。這可能是因為CLAP在訓(xùn)練時接觸的音樂內(nèi)容有限，不適合評估包含歌唱的音樂生成任務(wù)。相比之下，更新的CLaMP 3評分顯示出了更好的相關(guān)性，人聲音域等簡單指標反而與人工評估的相關(guān)性最高。

第五是對內(nèi)存效應(yīng)的深入研究。研究團隊使用ByteCover2模型分析了YuE是否會直接復(fù)制訓(xùn)練數(shù)據(jù)。結(jié)果表明，即使在強情境學(xué)習(xí)模式下，YuE生成的音樂與訓(xùn)練數(shù)據(jù)的相似度分布也遠低于已知的翻唱歌曲數(shù)據(jù)集Covers80，表明模型確實在進行創(chuàng)造性的重組而非簡單復(fù)制。

**九、應(yīng)用前景與社會影響：音樂創(chuàng)作的民主化時代**

YuE的出現(xiàn)不僅僅是一個技術(shù)突破，它更預(yù)示著音樂創(chuàng)作即將進入一個全新的時代。作為第一個真正開源的長篇音樂生成模型，YuE為音樂創(chuàng)作的民主化奠定了技術(shù)基礎(chǔ)。

對于普通用戶來說，YuE意味著音樂創(chuàng)作不再是專業(yè)人士的專利。任何人只要有歌詞和創(chuàng)意，就可以創(chuàng)作出完整的歌曲。這對于那些有音樂夢想但缺乏專業(yè)技能或設(shè)備的人來說，無疑是一個巨大的福音。教育工作者可以用它來創(chuàng)作教學(xué)歌曲，內(nèi)容創(chuàng)作者可以為視頻制作定制化的背景音樂，甚至普通人也可以為特殊場合創(chuàng)作個性化的歌曲。

對于音樂行業(yè)專業(yè)人士來說，YuE提供了一個強大的創(chuàng)作輔助工具。作曲家可以用它來快速驗證旋律想法，歌詞作家可以聽到自己作品的音樂化效果，制作人可以用它來制作demo版本。更重要的是，YuE的開源特性意味著專業(yè)人士可以根據(jù)自己的需求對系統(tǒng)進行定制和改進。

在音樂教育領(lǐng)域，YuE的應(yīng)用前景同樣廣闊。學(xué)生可以通過與AI的互動學(xué)習(xí)音樂創(chuàng)作的基本原理，教師可以用它來演示不同風格和結(jié)構(gòu)的音樂特點。特別是對于那些資源有限的地區(qū)，YuE可以提供高質(zhì)量的音樂教育資源。

研究團隊還展示了YuE的一些令人驚嘆的創(chuàng)新能力。系統(tǒng)能夠自然地掌握多種高級演唱技巧，如顫音、滑音、美聲、死嗓、混聲、高音等，這些通常需要人類歌手經(jīng)過多年訓(xùn)練才能掌握的技巧。在不同音樂風格的生成中，YuE還會自發(fā)地展現(xiàn)出風格特征，比如在爵士樂中加入即興哼唱，在民族音樂中插入合適的器樂獨奏等。

特別值得一提的是YuE的聲音克隆能力。通過情境學(xué)習(xí)，系統(tǒng)可以模仿特定歌手的音色特征，同時生成全新的歌詞和旋律。研究團隊成功復(fù)現(xiàn)了Billie Eilish和王菲等知名歌手的音色特點，生成的歌曲在保持原有音色魅力的同時，內(nèi)容完全是原創(chuàng)的。

當然，這樣強大的技術(shù)也帶來了倫理和社會責任的考量。研究團隊在論文中明確提出，AI生成的音樂內(nèi)容應(yīng)該清楚標注，增加透明度。他們還通過記憶效應(yīng)實驗證明了YuE能夠避免直接復(fù)制，即使在強條件約束下也能保持創(chuàng)造性。

YuE的開源特性還為音樂AI研究提供了寶貴的資源。全世界的研究者都可以基于YuE進行進一步的改進和創(chuàng)新，這將極大加速相關(guān)技術(shù)的發(fā)展。同時，開源也意味著更好的透明度和可審查性，有助于解決AI生成內(nèi)容的倫理問題。

**十、技術(shù)局限與未來發(fā)展：持續(xù)優(yōu)化的征程**

盡管YuE在多個方面取得了突破性進展，但研究團隊也誠實地承認了當前系統(tǒng)的一些局限性，并為未來的改進指明了方向。

首先是音頻質(zhì)量方面的限制。雖然YuE在音樂結(jié)構(gòu)和創(chuàng)意方面表現(xiàn)出色，但在聲音的細節(jié)質(zhì)量上仍有提升空間。這主要是由于當前使用的X-Codec編碼器在重建精度上的限制。雖然這個編碼器在語義保持方面表現(xiàn)很好，但在聲學(xué)細節(jié)的保真度上不如一些專門的聲學(xué)編碼器。未來的改進方向包括開發(fā)更好的編碼器，或者在現(xiàn)有編碼器基礎(chǔ)上增加超分辨率后處理模塊。

其次是訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性問題。雖然YuE的訓(xùn)練使用了海量數(shù)據(jù)，但高質(zhì)量的歌詞-音頻配對數(shù)據(jù)仍然相對稀缺。研究團隊只能使用約10%的音樂數(shù)據(jù)進行歌詞跟隨訓(xùn)練，這限制了模型在這方面的進一步提升。此外，訓(xùn)練數(shù)據(jù)主要以英語和中文為主，其他語言的數(shù)據(jù)相對較少，這影響了多語言生成的質(zhì)量。

第三是計算資源的巨大需求。YuE的訓(xùn)練需要數(shù)百塊高端GPU和數(shù)月的訓(xùn)練時間，這樣的資源需求限制了技術(shù)的普及和進一步實驗。雖然推理過程相對高效，但仍然需要相當?shù)挠嬎隳芰Σ拍苌筛哔|(zhì)量的音樂。

第四是某些音樂風格的處理能力有限。雖然YuE在大多數(shù)流行音樂風格上表現(xiàn)良好，但對于一些特殊風格（如某些實驗性音樂、古典音樂等）的處理能力還有待提升。這部分是由于訓(xùn)練數(shù)據(jù)的偏向性造成的。

研究團隊也坦誠地分享了一些嘗試失敗的方法。他們發(fā)現(xiàn)，使用純聲學(xué)編碼器進行訓(xùn)練極其困難，即使大幅增加模型規(guī)模和訓(xùn)練數(shù)據(jù)也無法取得滿意效果。無條件預(yù)訓(xùn)練對于條件生成任務(wù)是有害的，這與傳統(tǒng)的預(yù)訓(xùn)練范式形成了鮮明對比。過早引入情境學(xué)習(xí)數(shù)據(jù)會導(dǎo)致模型過度依賴參考音頻，失去創(chuàng)造能力。

基于這些發(fā)現(xiàn)和限制，研究團隊為未來的發(fā)展規(guī)劃了幾個重要方向。首先是改進音頻編碼和重建技術(shù)，提升生成音樂的音質(zhì)和細節(jié)豐富度。其次是擴展訓(xùn)練數(shù)據(jù)，特別是增加更多語言和音樂風格的高質(zhì)量配對數(shù)據(jù)。第三是探索更高效的訓(xùn)練方法，降低計算資源需求。第四是深入研究音樂理論的整合，讓AI更好地理解和運用音樂理論知識。

此外，研究團隊還計劃探索更多的音樂應(yīng)用場景，如音樂教育、治療音樂、無障礙音樂創(chuàng)作等。他們希望YuE不僅僅是一個技術(shù)演示，而是能夠真正服務(wù)于人類音樂創(chuàng)作和欣賞的實用工具。

**十一、研究意義與行業(yè)影響：開源精神推動技術(shù)進步**

YuE的發(fā)布在AI音樂生成領(lǐng)域具有里程碑式的意義，它不僅在技術(shù)上取得了突破，更重要的是帶來了開源精神在這個領(lǐng)域的回歸。

在商業(yè)化的浪潮中，大多數(shù)先進的AI音樂生成技術(shù)都被封裝在黑盒子里，只有少數(shù)大公司能夠掌握核心技術(shù)。這種情況雖然推動了產(chǎn)品的快速發(fā)展，但也阻礙了學(xué)術(shù)研究和技術(shù)創(chuàng)新的步伐。研究者無法了解這些系統(tǒng)的工作原理，無法在其基礎(chǔ)上進行改進，普通開發(fā)者更是無法接觸到這些先進技術(shù)。

YuE的開源發(fā)布打破了這種局面。它不僅公開了完整的技術(shù)方案，還提供了訓(xùn)練代碼、模型權(quán)重和評估工具。這意味著全世界的研究者都可以復(fù)現(xiàn)、研究和改進這項技術(shù)。對于學(xué)術(shù)界來說，這提供了一個高質(zhì)量的基準和起點；對于產(chǎn)業(yè)界來說，這降低了技術(shù)門檻，讓更多的公司和開發(fā)者能夠參與到AI音樂生成的創(chuàng)新中來。

從技術(shù)角度來看，YuE的貢獻主要體現(xiàn)在幾個方面。軌道解耦技術(shù)解決了多聲部音樂生成中的關(guān)鍵問題，為其他研究者提供了新的思路。結(jié)構(gòu)化漸進條件生成技術(shù)為長序列生成提供了有效方案，這不僅適用于音樂，也可以推廣到其他需要長序列生成的任務(wù)中。音樂情境學(xué)習(xí)的重新設(shè)計為AI系統(tǒng)提供了更靈活的風格控制能力。

從評估角度來看，YuE的研究揭示了現(xiàn)有評估方法的局限性。傳統(tǒng)的音頻-文本對齊評估方法（如CLAP評分）在音樂生成任務(wù)上表現(xiàn)不佳，而一些簡單的指標（如人聲音域）反而與人工評估有很強的相關(guān)性。這些發(fā)現(xiàn)為建立更好的音樂生成評估標準提供了重要啟示。

YuE的成功也證明了大規(guī)模多任務(wù)訓(xùn)練在專門領(lǐng)域的有效性。通過同時學(xué)習(xí)語音合成、音樂生成、歌詞跟隨等相關(guān)任務(wù)，模型獲得了更強的泛化能力和更好的性能。這種方法論對其他領(lǐng)域的AI系統(tǒng)開發(fā)同樣具有參考價值。

對于音樂產(chǎn)業(yè)來說，YuE的出現(xiàn)既是機遇也是挑戰(zhàn)。一方面，它為音樂創(chuàng)作提供了新的工具和可能性，可能催生出全新的音樂形式和商業(yè)模式；另一方面，它也對傳統(tǒng)的音樂創(chuàng)作流程提出了挑戰(zhàn)，需要行業(yè)重新思考人工智能在音樂創(chuàng)作中的角色和定位。

更重要的是，YuE的開源特性為音樂創(chuàng)作的民主化奠定了基礎(chǔ)。它讓音樂創(chuàng)作不再局限于少數(shù)專業(yè)人士或擁有昂貴設(shè)備的人群，而是可以惠及更廣泛的創(chuàng)作者群體。這種技術(shù)的普及可能會帶來音樂文化的繁榮和多樣化。

展望未來，YuE很可能會成為AI音樂生成領(lǐng)域的一個重要基準和起點?；赮uE的改進版本和衍生技術(shù)將不斷涌現(xiàn)，推動整個領(lǐng)域向前發(fā)展。同時，YuE的成功也為其他AI創(chuàng)作領(lǐng)域（如視頻生成、游戲設(shè)計等）提供了寶貴的經(jīng)驗和啟示。

說到底，YuE不僅僅是一個技術(shù)成果，更是開源精神在AI時代的體現(xiàn)。它告訴我們，真正的技術(shù)進步來自于開放、合作和共享，而不是封閉和壟斷。通過將先進技術(shù)開放給全世界，我們能夠激發(fā)更多的創(chuàng)新和創(chuàng)造，最終讓技術(shù)更好地服務(wù)于人類社會。這或許是YuE帶給我們的最重要啟示。

Q&A

Q1：YuE是什么？它能做什么？ A：YuE是由香港科技大學(xué)開發(fā)的開源AI音樂生成模型，它能夠根據(jù)歌詞創(chuàng)作出長達5分鐘的完整歌曲，包括人聲演唱和樂器伴奏。與市面上的商業(yè)產(chǎn)品不同，YuE完全開源，任何人都可以使用、研究和改進這項技術(shù)。它還支持多語言歌曲創(chuàng)作和風格轉(zhuǎn)換等高級功能。

Q2：YuE會不會取代人類音樂家？ A：目前不會完全取代，但會改變音樂創(chuàng)作方式。YuE更像是一個強大的創(chuàng)作工具，它可以幫助音樂家快速驗證想法、制作demo，或者讓沒有專業(yè)技能的人也能創(chuàng)作音樂。真正的音樂創(chuàng)作仍然需要人類的情感、創(chuàng)意和審美判斷，AI只是提供了技術(shù)支持。

Q3：普通人如何使用YuE？使用門檻高嗎？ A：由于YuE是開源項目，技術(shù)人員可以通過GitHub獲取代碼和模型。不過對于普通用戶來說，直接使用YuE需要一定的技術(shù)背景和計算資源。預(yù)計未來會有基于YuE的用戶友好產(chǎn)品出現(xiàn)，屆時普通人就能更容易地使用這項技術(shù)創(chuàng)作音樂了。

AI音樂生成開源模型長篇音樂創(chuàng)作

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運動信息，顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<i id="c26i3"></i>