這項由新加坡科技設(shè)計大學(xué)的Anuradha Chopra、Abhinaba Roy和Dorien Herremans領(lǐng)導(dǎo)的研究發(fā)表于2025年6月的第六屆AI音樂創(chuàng)意大會(AIMC 2025),有興趣深入了解的讀者可以通過arXiv:2506.15154v1訪問完整論文。
音樂是人類情感的載體,也是最復(fù)雜的藝術(shù)形式之一。當(dāng)你聽到一首歌時,你可能會說"這是一首歡快的流行歌",但要準(zhǔn)確描述它的調(diào)性、樂器配置、節(jié)拍速度等專業(yè)特征卻并非易事。如果有一個AI系統(tǒng)能夠像資深音樂制作人一樣,不僅聽出音樂的情感色彩,還能精確識別出技術(shù)細(xì)節(jié),并用自然流暢的語言描述出來,那會是什么樣子?
新加坡科技設(shè)計大學(xué)的研究團隊正是要解決這個看似簡單實則復(fù)雜的問題。他們開發(fā)了一個名為SonicVerse的AI系統(tǒng),這個系統(tǒng)就像一位既有深厚音樂理論功底又有豐富實踐經(jīng)驗的音樂評論家,能夠在短短幾秒內(nèi)為任何音樂片段生成詳細(xì)而準(zhǔn)確的文字描述。
現(xiàn)有的音樂描述AI系統(tǒng)往往像是只會說"好聽"或"不好聽"的普通聽眾,它們只能捕捉到音樂的表面特征,比如"這是一首輕松愉快的歌",卻無法深入到音樂的技術(shù)層面。這就好比讓一個從未學(xué)過繪畫的人去評價一幅油畫,他可能會說"這幅畫很美",但說不出畫家用的是什么技法、色彩搭配有什么特點。音樂領(lǐng)域的情況更加復(fù)雜,因為音樂包含了從基礎(chǔ)的音高、節(jié)拍到高級的和聲、編曲等多個層次的信息。
研究團隊發(fā)現(xiàn),要讓AI真正"懂"音樂,就必須讓它同時掌握兩套技能:一是像普通聽眾一樣感受音樂的情感和氛圍,二是像專業(yè)音樂人一樣分析音樂的技術(shù)構(gòu)成。這就好比培養(yǎng)一位既有藝術(shù)感悟又有技術(shù)功底的音樂評論家。為了實現(xiàn)這個目標(biāo),他們設(shè)計了一個巧妙的多任務(wù)學(xué)習(xí)架構(gòu),讓AI在學(xué)習(xí)如何用語言描述音樂的同時,也在學(xué)習(xí)如何識別調(diào)性、樂器、人聲性別等具體的音樂特征。
一、構(gòu)建音樂理解的雙重體系
SonicVerse的工作原理可以比作一個擁有兩套感知系統(tǒng)的音樂專家。第一套系統(tǒng)專門負(fù)責(zé)整體感受,就像你第一次聽到一首歌時的直覺反應(yīng)——是歡快還是憂郁,是激昂還是平和。第二套系統(tǒng)則像一個技術(shù)分析師,專門識別具體的音樂元素——是什么調(diào)性、用了哪些樂器、有沒有人聲、如果有人聲是男是女。
這種雙重體系的設(shè)計靈感來自人類音樂專家的認(rèn)知過程。當(dāng)一位音樂制作人聽音樂時,他既會有情感上的反應(yīng),也會自動分析技術(shù)細(xì)節(jié)。研究團隊將這種認(rèn)知過程轉(zhuǎn)化為AI架構(gòu),讓系統(tǒng)能夠同時進行感性理解和理性分析。
系統(tǒng)的核心是MERT音樂編碼器,這是一個專門為音樂理解而設(shè)計的AI模型。MERT就像一個超級敏感的"音樂耳朵",能夠從音頻中提取出13個不同層次的特征表示。每一層都捕捉不同類型的音樂信息,從最基礎(chǔ)的聲學(xué)特征到最復(fù)雜的音樂結(jié)構(gòu)。這就好比一個專業(yè)調(diào)音師的耳朵,能夠分辨出普通人聽不到的細(xì)微差別。
在獲得這些豐富的音樂特征后,系統(tǒng)通過兩個平行的處理通道來生成最終的文字描述。第一個通道叫做"音樂內(nèi)容投影器",它負(fù)責(zé)將整體的音樂感受轉(zhuǎn)換成語言token。這個過程就像是把你對音樂的直覺感受翻譯成文字,比如"輕快"、"憂郁"、"激動人心"等描述。
第二個通道更加精密,叫做"音樂特征投影器"。它包含了多個專門的識別頭,每個識別頭都是某個音樂特征的專家。比如有一個識別頭專門判斷調(diào)性(是C大調(diào)還是A小調(diào)),另一個專門識別樂器(是鋼琴、吉他還是小提琴),還有專門識別人聲特征的(有沒有人聲、是男聲還是女聲)。這些識別頭工作時就像一個專業(yè)的音樂分析團隊,每個成員都有自己的專長。
二、從音樂到語言的巧妙轉(zhuǎn)換
最有趣的部分是系統(tǒng)如何將音樂特征轉(zhuǎn)換成自然語言。這個過程就像是在兩個完全不同的世界之間搭建橋梁——一邊是數(shù)字化的音樂特征,另一邊是人類的自然語言。
系統(tǒng)使用了一種叫做"投影"的技術(shù),將音樂特征映射到語言模型能夠理解的"token空間"中。這個過程可以想象成翻譯工作:系統(tǒng)將"120拍每分鐘"這樣的數(shù)值特征翻譯成"節(jié)奏明快"這樣的語言概念,將"C大調(diào)"翻譯成"明亮的調(diào)性"。這種翻譯不是簡單的對應(yīng)關(guān)系,而是通過大量的訓(xùn)練讓AI學(xué)會了如何用人類習(xí)慣的方式來表達音樂特征。
為了實現(xiàn)這種巧妙的轉(zhuǎn)換,研究團隊采用了多層感知機(MLP)網(wǎng)絡(luò)。這些網(wǎng)絡(luò)就像是專門的"翻譯官",每個都負(fù)責(zé)將特定類型的音樂特征轉(zhuǎn)換成相應(yīng)的語言表達。比如一個MLP專門處理節(jié)奏特征,學(xué)會了如何將不同的拍速和節(jié)奏模式轉(zhuǎn)換成"輕快"、"緩慢"、"有力"等形容詞。
整個系統(tǒng)的輸出流程就像一個協(xié)調(diào)良好的新聞編輯部。音樂內(nèi)容投影器提供了文章的主要情感基調(diào)和整體印象,各個特征識別頭則提供了具體的技術(shù)細(xì)節(jié)。最后,一個基于Mistral-7B的大型語言模型充當(dāng)總編輯的角色,將這些不同來源的信息整合成一篇流暢、準(zhǔn)確、富有表現(xiàn)力的音樂描述。
三、訓(xùn)練數(shù)據(jù)的精心構(gòu)建
要訓(xùn)練這樣一個復(fù)雜的系統(tǒng),研究團隊面臨著一個巨大的挑戰(zhàn):現(xiàn)有的音樂數(shù)據(jù)集要么有音頻和文字描述但缺乏詳細(xì)的音樂特征標(biāo)注,要么有音樂特征但缺乏自然語言描述。這就好比要教一個學(xué)生既學(xué)會看懂樂譜又學(xué)會用優(yōu)美的文字描述音樂,但現(xiàn)有的教材要么只有樂譜沒有文字說明,要么只有文字描述沒有對應(yīng)的樂譜。
為了解決這個問題,研究團隊使用了MIRFLEX工具對現(xiàn)有數(shù)據(jù)集進行了擴展。MIRFLEX就像一個多才多藝的音樂分析助手,能夠從音頻中自動提取各種音樂特征,包括調(diào)性、樂器類型、情緒標(biāo)簽、節(jié)拍、人聲特征等。通過這種方法,他們將Jamendo、MusicBench和Magna-Tag-A-Tune等數(shù)據(jù)集轉(zhuǎn)換成了包含音頻、文字描述和詳細(xì)音樂特征標(biāo)注的完整訓(xùn)練數(shù)據(jù)。
Jamendo數(shù)據(jù)集包含了約55000個30秒的音樂片段,原本只有基礎(chǔ)的標(biāo)簽信息。經(jīng)過MIRFLEX處理后,每個片段都獲得了詳細(xì)的音樂特征標(biāo)注。MusicBench數(shù)據(jù)集雖然規(guī)模較?。s26000個10秒片段),但它的文字描述質(zhì)量很高,特別是已經(jīng)包含了一些技術(shù)性的音樂特征描述。Magna-Tag-A-Tune數(shù)據(jù)集則提供了約25000個30秒片段,為系統(tǒng)學(xué)習(xí)音樂與語言的對應(yīng)關(guān)系提供了豐富的素材。
訓(xùn)練過程采用了多任務(wù)學(xué)習(xí)策略,就像同時教會一個學(xué)生多項技能。系統(tǒng)在學(xué)習(xí)如何生成文字描述的同時,也在學(xué)習(xí)如何準(zhǔn)確識別各種音樂特征。這種訓(xùn)練方式的好處是各個任務(wù)之間可以相互促進:準(zhǔn)確的特征識別有助于生成更精確的文字描述,而文字描述的訓(xùn)練也能反過來提高特征識別的準(zhǔn)確性。
四、突破性的長篇音樂描述生成
SonicVerse最令人印象深刻的功能之一是能夠為完整的長篇音樂作品生成詳細(xì)的時序描述。這個功能就像是讓AI成為一個能夠跟蹤音樂發(fā)展脈絡(luò)的專業(yè)評論家,不僅能描述音樂的瞬間特征,還能捕捉音樂在時間維度上的變化和發(fā)展。
這個過程的工作原理類似于制作一部音樂紀(jì)錄片。首先,系統(tǒng)將一首完整的歌曲切分成10秒鐘的小段落,就像將一部電影分解成一個個鏡頭。然后,SonicVerse為每個小段落生成詳細(xì)的描述,這些描述不僅包含基本的音樂特征,還包含精確的技術(shù)參數(shù),比如節(jié)拍速度、調(diào)性、和弦進行等。
接下來是最關(guān)鍵的"串聯(lián)"步驟。系統(tǒng)將所有的段落描述提交給GPT-4這樣的高級語言模型,并配以專門設(shè)計的指令模板。這個模板就像一個專業(yè)編劇的劇本框架,指導(dǎo)語言模型如何將零散的段落描述編織成一個連貫、流暢的完整故事。
研究團隊用皇后樂隊的經(jīng)典作品《波西米亞狂想曲》進行了測試,結(jié)果令人驚嘆。系統(tǒng)生成的描述準(zhǔn)確捕捉了這首歌的復(fù)雜結(jié)構(gòu)變化:"歌曲以福音風(fēng)格的合唱開始,女聲和諧地演唱,鋼琴演奏主旋律,節(jié)拍為每分鐘171拍,營造出振奮人心的精神氛圍。在60秒左右,歌曲轉(zhuǎn)入較慢的節(jié)拍,引入男聲演唱柔和的旋律,伴有鋼琴和大提琴演奏單音。歌曲呈現(xiàn)出平靜舒緩的氛圍,非常適合浪漫電影配樂..."
這段描述不僅準(zhǔn)確識別了音樂的風(fēng)格變化,還精確標(biāo)注了時間點和技術(shù)參數(shù),展現(xiàn)出了專業(yè)音樂分析師的水準(zhǔn)。更重要的是,整個描述讀起來就像一篇優(yōu)美的音樂評論文章,而不是冰冷的技術(shù)報告。
五、性能表現(xiàn)與對比分析
為了驗證SonicVerse的實際效果,研究團隊進行了全面的性能評估。他們不僅使用了傳統(tǒng)的自然語言處理指標(biāo),還專門設(shè)計了音樂特征準(zhǔn)確性指標(biāo),就像同時從文學(xué)性和專業(yè)性兩個角度來評價一篇音樂評論的質(zhì)量。
在傳統(tǒng)的文本相似性指標(biāo)上,SonicVerse表現(xiàn)出色。BLEU分?jǐn)?shù)達到0.3484,ROUGE分?jǐn)?shù)為0.2622,BERT分?jǐn)?shù)高達0.8723。這些數(shù)字可能看起來抽象,但可以這樣理解:如果滿分是1,那么SonicVerse生成的描述與人類專家寫的描述在內(nèi)容覆蓋度上有26%的重合,在語義相似性上達到了87%的匹配度。
更重要的是音樂特征的準(zhǔn)確性表現(xiàn)。研究團隊設(shè)計了專門的評估方法,使用GPT-4來判斷生成的描述在具體音樂特征上的準(zhǔn)確性。結(jié)果顯示,SonicVerse在調(diào)性識別上的準(zhǔn)確率達到30.48%,在樂器識別上達到43.37%,在人聲檢測上更是高達80.51%。雖然這些數(shù)字看起來不是百分之百,但要知道音樂特征識別本身就是一個極其復(fù)雜的任務(wù),即使是人類專家之間也常常存在分歧。
與其他先進系統(tǒng)的對比更能說明SonicVerse的優(yōu)勢。相比于BLAP(一個同樣在開源數(shù)據(jù)上訓(xùn)練的模型),SonicVerse在幾乎所有指標(biāo)上都表現(xiàn)更好。特別是在音樂特征的準(zhǔn)確性方面,SonicVerse的表現(xiàn)明顯優(yōu)于其他開源模型。雖然像QWEN2-Audio這樣在大規(guī)模私有數(shù)據(jù)上訓(xùn)練的商業(yè)模型在某些指標(biāo)上還略勝一籌,但考慮到SonicVerse完全基于開源數(shù)據(jù)訓(xùn)練,這個結(jié)果已經(jīng)相當(dāng)令人印象深刻。
六、技術(shù)創(chuàng)新的深層解析
SonicVerse的技術(shù)創(chuàng)新可以比作在音樂理解領(lǐng)域的一次"工程革命"。傳統(tǒng)的音樂描述AI就像是只會單一技能的工匠,要么專精于情感分析,要么專長于技術(shù)識別,很難做到兩者兼顧。SonicVerse則像是一個多技能的工程師團隊,每個成員都有專長,但又能協(xié)調(diào)工作。
系統(tǒng)的多任務(wù)學(xué)習(xí)架構(gòu)是其最大的創(chuàng)新點。這種架構(gòu)的巧妙之處在于它將看似獨立的任務(wù)(文字生成和特征識別)有機地結(jié)合在一起。在訓(xùn)練過程中,系統(tǒng)不僅要學(xué)會生成準(zhǔn)確的文字描述,還要同時學(xué)會識別各種音樂特征。這種"一心多用"的學(xué)習(xí)方式讓系統(tǒng)的各項能力相互促進,就像一個音樂學(xué)院的學(xué)生同時學(xué)習(xí)理論和實踐,兩者相互補強。
另一個重要創(chuàng)新是"特征到語言"的投影機制。這個機制解決了一個長期困擾音樂AI的難題:如何將數(shù)字化的音樂特征自然地融入到語言描述中。傳統(tǒng)方法往往是先提取特征,再用模板生成描述,結(jié)果往往顯得生硬和機械。SonicVerse的投影機制則讓特征和語言在更深層次上融合,生成的描述既準(zhǔn)確又自然。
系統(tǒng)使用的權(quán)重學(xué)習(xí)機制也值得關(guān)注。MERT編碼器輸出的13層特征各有特點,有些層更適合識別低級的聲學(xué)特征,有些層更擅長捕捉高級的音樂結(jié)構(gòu)。SonicVerse通過學(xué)習(xí)得到的權(quán)重自動決定每一層的重要程度,就像一個經(jīng)驗豐富的音響師知道如何調(diào)節(jié)均衡器的各個頻段來獲得最佳效果。
七、實際應(yīng)用的無限可能
SonicVerse的應(yīng)用前景可以說是相當(dāng)廣闊,幾乎涉及到音樂產(chǎn)業(yè)的各個環(huán)節(jié)。對于音樂流媒體平臺來說,這項技術(shù)就像是雇傭了成千上萬個專業(yè)音樂編輯,能夠為海量的音樂內(nèi)容生成高質(zhì)量的描述和標(biāo)簽,大大改善用戶的搜索和發(fā)現(xiàn)體驗。
音樂制作人和作曲家也能從中受益。當(dāng)他們創(chuàng)作新作品時,SonicVerse可以提供即時的專業(yè)反饋,分析作品的風(fēng)格特征、技術(shù)參數(shù)和情感表達,就像有一個經(jīng)驗豐富的制作助理在旁協(xié)助。這對于獨立音樂人來說特別有價值,因為他們往往缺乏專業(yè)團隊的支持。
在音樂教育領(lǐng)域,SonicVerse可以成為強大的教學(xué)工具。學(xué)生可以上傳自己的演奏錄音,系統(tǒng)會生成詳細(xì)的分析報告,指出技術(shù)特點和改進建議。這就像是為每個學(xué)生配備了一位永遠(yuǎn)在線的音樂老師,能夠提供個性化的指導(dǎo)。
對于音樂研究者和音樂學(xué)家來說,SonicVerse提供了一種全新的音樂分析工具。他們可以用它來分析不同時期、不同文化的音樂特征,進行大規(guī)模的比較研究。這種能力特別適合處理大型音樂數(shù)據(jù)庫,能夠發(fā)現(xiàn)人工分析可能遺漏的模式和趨勢。
廣播電臺和音樂節(jié)目制作方也能找到用武之地。SonicVerse可以自動生成節(jié)目介紹、音樂背景說明和專業(yè)評論,大大減少了內(nèi)容制作的工作量,同時保證了專業(yè)水準(zhǔn)。
八、面臨的挑戰(zhàn)與局限性
盡管SonicVerse展現(xiàn)了令人印象深刻的能力,但研究團隊也坦誠地指出了目前存在的一些挑戰(zhàn)和局限性。首先是訓(xùn)練數(shù)據(jù)的質(zhì)量問題。由于系統(tǒng)依賴MIRFLEX自動提取的音樂特征標(biāo)簽,而不是人工標(biāo)注的真實標(biāo)簽,這可能會在數(shù)據(jù)中引入一些噪聲和偏差。這就好比用一臺調(diào)音不夠準(zhǔn)確的鋼琴來訓(xùn)練學(xué)生的音準(zhǔn)感,可能會影響最終的學(xué)習(xí)效果。
另一個挑戰(zhàn)是音樂特征識別的主觀性。不同的音樂專家對同一首歌的風(fēng)格、情緒甚至技術(shù)特征可能會有不同的判斷。比如一首歌究竟應(yīng)該歸類為"流行搖滾"還是"搖滾流行",往往沒有絕對的標(biāo)準(zhǔn)答案。這種主觀性使得評估系統(tǒng)性能變得復(fù)雜,也限制了自動化評估的準(zhǔn)確性。
系統(tǒng)目前主要針對10秒到30秒的短片段進行訓(xùn)練,雖然可以通過鏈?zhǔn)教幚韥硖幚黹L篇音樂,但對于那些具有復(fù)雜結(jié)構(gòu)變化的古典音樂作品,效果可能還不夠理想。這就像用短篇小說的寫作技巧來處理長篇史詩,雖然基本原理相通,但在處理大結(jié)構(gòu)方面還需要進一步優(yōu)化。
此外,系統(tǒng)目前主要在英文數(shù)據(jù)集上訓(xùn)練,對于其他語言和文化背景的音樂描述能力還有待驗證。不同文化對音樂的理解和表達方式存在差異,這需要更多樣化的訓(xùn)練數(shù)據(jù)來支持。
九、技術(shù)發(fā)展的前景展望
盡管存在一些局限性,SonicVerse代表的技術(shù)方向無疑是極具前景的。研究團隊已經(jīng)將完整的模型和權(quán)重開源發(fā)布,這為整個學(xué)術(shù)界和開發(fā)者社區(qū)提供了寶貴的資源。這種開放的態(tài)度就像是在音樂AI領(lǐng)域種下了一顆種子,相信會有更多的研究者在此基礎(chǔ)上繼續(xù)創(chuàng)新和改進。
未來的發(fā)展方向可能包括幾個方面。首先是數(shù)據(jù)質(zhì)量的提升,通過引入更多人工標(biāo)注的高質(zhì)量數(shù)據(jù)來減少自動提取特征帶來的噪聲。其次是多語言和跨文化的擴展,讓系統(tǒng)能夠理解和生成不同文化背景下的音樂描述。
在技術(shù)架構(gòu)方面,研究者們可能會探索更大規(guī)模的模型和更先進的訓(xùn)練技術(shù)。隨著計算能力的提升和算法的改進,未來的系統(tǒng)可能能夠處理更長的音樂片段,識別更細(xì)致的音樂特征,生成更準(zhǔn)確和富有表現(xiàn)力的描述。
另一個有趣的發(fā)展方向是交互式音樂分析。未來的系統(tǒng)可能不僅能夠生成描述,還能夠回答用戶的具體問題,比如"這首歌的和弦進行是什么?"或"這種編曲風(fēng)格有什么特點?"這將使AI從被動的描述者轉(zhuǎn)變?yōu)橹鲃拥囊魳分帧?/p>
十、對音樂產(chǎn)業(yè)的深遠(yuǎn)影響
從更宏觀的角度來看,SonicVerse及其代表的技術(shù)發(fā)展可能會對整個音樂產(chǎn)業(yè)產(chǎn)生深遠(yuǎn)的影響。在內(nèi)容創(chuàng)作方面,AI輔助的音樂分析和描述可能會成為標(biāo)準(zhǔn)工具,幫助創(chuàng)作者更好地理解和改進自己的作品。在音樂教育方面,個性化的AI音樂導(dǎo)師可能會讓高質(zhì)量的音樂教育變得更加普及和可負(fù)擔(dān)。
在音樂發(fā)現(xiàn)和推薦方面,基于詳細(xì)音樂特征的推薦系統(tǒng)可能會提供比現(xiàn)有算法更精準(zhǔn)的音樂推薦。用戶不再需要依賴簡單的流派標(biāo)簽或相似藝術(shù)家推薦,而是可以基于具體的音樂特征來尋找符合自己喜好的音樂。
對于音樂版權(quán)和法律事務(wù),準(zhǔn)確的音樂特征識別技術(shù)可能會在版權(quán)保護和侵權(quán)檢測方面發(fā)揮重要作用。系統(tǒng)能夠快速識別音樂的技術(shù)特征,有助于建立更完善的音樂指紋庫和版權(quán)保護機制。
說到底,SonicVerse不僅僅是一個技術(shù)創(chuàng)新,更代表了人工智能在理解和表達藝術(shù)方面的重要進步。它展示了AI系統(tǒng)如何能夠同時掌握技術(shù)分析和藝術(shù)表達兩種看似矛盾的能力,為未來的人機協(xié)作在創(chuàng)意領(lǐng)域開辟了新的可能性。雖然AI可能永遠(yuǎn)無法完全替代人類的音樂感知和創(chuàng)造力,但像SonicVerse這樣的系統(tǒng)證明了AI可以成為人類音樂活動的有力助手,讓音樂的創(chuàng)作、理解和欣賞變得更加豐富和深入。
歸根結(jié)底,這項研究的真正價值在于它架起了技術(shù)理性和藝術(shù)感性之間的橋梁。它讓我們看到了一個未來的可能性:在那個未來里,人工智能不僅能夠處理數(shù)據(jù)和執(zhí)行任務(wù),還能夠理解和參與人類最珍貴的文化活動之一——音樂。對于每一個熱愛音樂的人來說,這都是一個值得期待的未來。如果你對這項研究的技術(shù)細(xì)節(jié)感興趣,可以通過論文編號arXiv:2506.15154v1在學(xué)術(shù)數(shù)據(jù)庫中找到完整的研究報告,其中包含了詳細(xì)的實驗數(shù)據(jù)和技術(shù)實現(xiàn)細(xì)節(jié)。
Q&A
Q1:SonicVerse是什么?它能做什么? A:SonicVerse是新加坡科技設(shè)計大學(xué)開發(fā)的AI音樂描述系統(tǒng),它能像專業(yè)音樂評論家一樣聽懂音樂并生成詳細(xì)的文字描述。它不僅能識別音樂的情感和風(fēng)格,還能準(zhǔn)確分析調(diào)性、樂器、節(jié)拍等技術(shù)特征,甚至能為完整歌曲生成時序化的長篇描述。
Q2:SonicVerse會不會取代音樂評論家和音樂教師? A:目前不會完全取代,但會成為強有力的輔助工具。它更像是為音樂專業(yè)人士配備了一個永遠(yuǎn)在線的助手,能夠快速分析大量音樂內(nèi)容,提供專業(yè)水準(zhǔn)的技術(shù)分析,讓人類專家能夠?qū)W⒂诟邔哟蔚膭?chuàng)意和判斷工作。
Q3:普通人可以使用SonicVerse嗎?有什么要求? A:研究團隊已經(jīng)將SonicVerse開源發(fā)布,包括完整的模型和代碼,有興趣的開發(fā)者可以在GitHub上找到相關(guān)資源。雖然目前還需要一定的技術(shù)背景來部署和使用,但隨著技術(shù)的發(fā)展,未來可能會有更多用戶友好的應(yīng)用界面出現(xiàn)。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。