這項(xiàng)由美國斯坦福大學(xué)、伊利諾伊大學(xué)香檳分校、劍橋大學(xué)等多所知名高校研究團(tuán)隊合作完成的研究發(fā)表于2025年6月11日的arXiv預(yù)印本平臺。該研究由來自斯坦福大學(xué)的羅峰、陳漢杰,伊利諾伊大學(xué)的楊瑞、張煥等研究人員共同完成。感興趣的讀者可以通過arXiv:2502.13131v2 [cs.AI]訪問完整論文,或者在GitHub上找到開源代碼:https://github.com/amandaluof/DRMs。
說起人工智能的"品味"問題,你可能從未想過這會是個難題。就像我們每個人都有獨(dú)特的喜好——有人喜歡甜食,有人偏愛咸味,有人覺得幽默比安全更重要,有人則相反。當(dāng)我們要求人工智能幫助我們做決策或創(chuàng)作內(nèi)容時,它也面臨著同樣的困擾:到底該按照誰的偏好來行事?
現(xiàn)在的人工智能系統(tǒng),特別是大型語言模型,就像一個只會做"大眾菜"的廚師。它們通過學(xué)習(xí)大量人類反饋數(shù)據(jù)來了解人們的偏好,但這種學(xué)習(xí)方式有個根本問題——它們只能理解"平均"的偏好,就像把所有人的口味偏好混合在一起,最終做出一道"中庸"的菜品。這道菜雖然不會讓大多數(shù)人感到厭惡,但也很難讓任何人感到真正滿意。
更麻煩的是,人類的偏好本身就是多維度的。一個人可能同時希望AI回答問題時既要幽默風(fēng)趣,又要確保安全可靠,還要具備科學(xué)嚴(yán)謹(jǐn)性。這就像要求一個人同時扮演喜劇演員、安全專家和科學(xué)家的角色——每個角色的要求可能相互沖突,需要巧妙的平衡。
傳統(tǒng)的人工智能訓(xùn)練方法就像用一個溫度計來測量房間里每個角落的溫度,然后給出一個平均值。但實(shí)際上,房間的不同角落可能有不同的溫度需求——書桌旁需要涼爽以保持思維清晰,沙發(fā)區(qū)需要溫暖以提供舒適感。同樣地,人類對AI的偏好也是復(fù)雜多樣的,無法用單一的"滿意度分?jǐn)?shù)"來衡量。
為了解決這個問題,研究團(tuán)隊開發(fā)了一個名為"分解獎勵模型"(Decomposed Reward Models,簡稱DRMs)的創(chuàng)新方法。這個方法的核心思想就像給AI配備了一套"多維偏好分析儀",能夠?qū)?fù)雜的人類偏好分解成多個獨(dú)立的維度,然后根據(jù)不同用戶的需求重新組合這些維度。
**一、從"單一口味"到"多維偏好"的革命性轉(zhuǎn)變**
要理解這項(xiàng)研究的突破性,我們首先需要明白現(xiàn)有方法的局限性?,F(xiàn)在的人工智能系統(tǒng)在學(xué)習(xí)人類偏好時,就像一個只能記住"好"或"不好"的簡單大腦。當(dāng)人們給AI展示兩個回答,告訴它"這個回答比那個好"時,AI就會記住這個判斷,并試圖在未來生成更多類似"好"的回答。
但這種方法有個致命缺陷:它假設(shè)所有人的"好"都是一樣的。就像假設(shè)所有人都喜歡同一種披薩口味一樣不現(xiàn)實(shí)。實(shí)際上,有些人可能覺得回答A比回答B(yǎng)好是因?yàn)锳更幽默,而另一些人可能覺得A好是因?yàn)锳更安全。這兩種判斷基于完全不同的標(biāo)準(zhǔn),但傳統(tǒng)方法卻把它們混為一談。
研究團(tuán)隊的創(chuàng)新在于,他們意識到人類偏好實(shí)際上可以用數(shù)學(xué)中的"向量"來表示。如果把傳統(tǒng)方法比作用一個數(shù)字來表示一個人的全部特征,那么新方法就像用一個包含身高、體重、年齡、性格等多個數(shù)字的檔案來全面描述這個人。
這種向量表示法的巧妙之處在于,它可以捕捉到偏好的多個維度。一個人的偏好向量可能在"幽默"維度上得分很高,在"嚴(yán)謹(jǐn)"維度上得分中等,在"簡潔"維度上得分較低。這樣的表示方式不僅更加精確,還允許系統(tǒng)根據(jù)不同情況調(diào)整各個維度的重要性。
更令人興奮的是,研究團(tuán)隊發(fā)現(xiàn)這種向量表示法與一種經(jīng)典的數(shù)學(xué)工具——主成分分析(PCA)——有著天然的聯(lián)系。PCA就像一個"信息提煉大師",能夠從復(fù)雜的數(shù)據(jù)中找出最重要的幾個"主要成分"。在偏好分析的情境下,這些主要成分就代表了人類偏好的核心維度。
**二、"偏好考古學(xué)":挖掘隱藏的偏好維度**
研究團(tuán)隊的方法就像考古學(xué)家挖掘古代文明的遺跡一樣,從現(xiàn)有的人類偏好數(shù)據(jù)中挖掘出隱藏的偏好維度。他們的"考古工具"是數(shù)學(xué)分析,而"考古現(xiàn)場"是大規(guī)模的人類偏好比較數(shù)據(jù)。
這個過程的第一步是收集"考古材料"。研究團(tuán)隊使用了一個包含55萬個人類偏好比較的大型數(shù)據(jù)集。這些數(shù)據(jù)就像考古現(xiàn)場的文物碎片,每一個比較都包含了人類偏好的一些信息。當(dāng)人們說"我更喜歡回答A而不是回答B(yǎng)"時,這個判斷就像一個文物碎片,蘊(yùn)含著某種偏好模式的線索。
接下來的"發(fā)掘"過程相當(dāng)精彩。研究團(tuán)隊首先使用已經(jīng)訓(xùn)練好的AI模型來分析每個回答的"特征指紋"——就像給每個回答拍一張高維的"X光片",記錄下它在各個方面的特征。然后,他們計算每對比較中被偏好回答和被拒絕回答之間的"特征差異"。
這些特征差異就像考古學(xué)家發(fā)現(xiàn)的文物碎片,每一片都承載著一些信息,但單獨(dú)看起來可能沒有太大意義。真正的魔法發(fā)生在下一步:使用主成分分析來尋找這些"碎片"中的共同模式。
PCA的工作原理就像一個超級細(xì)心的圖書管理員,能夠從雜亂的書堆中找出分類規(guī)律。它會發(fā)現(xiàn),原來有些特征差異總是一起出現(xiàn)——比如,當(dāng)人們偏好一個回答的幽默性時,他們往往也更看重其創(chuàng)造性。這樣的發(fā)現(xiàn)讓系統(tǒng)能夠識別出"幽默創(chuàng)意"這樣一個綜合的偏好維度。
通過這種方法,研究團(tuán)隊成功地從復(fù)雜的偏好數(shù)據(jù)中提取出了多個相互獨(dú)立的偏好維度。這些維度就像一套"偏好基因",每個維度都代表人類偏好的一個基本成分。任何復(fù)雜的個人偏好都可以看作是這些基本成分的不同組合。
更令人印象深刻的是,這些自動發(fā)現(xiàn)的偏好維度與人類直覺高度吻合。系統(tǒng)自動識別出的維度包括"有用性"、"安全性"、"幽默感"、"創(chuàng)造性"等,這些都是人們在日常評價AI回答時確實(shí)會考慮的因素。這種一致性表明,研究團(tuán)隊的方法確實(shí)挖掘到了人類偏好的本質(zhì)結(jié)構(gòu)。
**三、"偏好調(diào)色板":個性化AI的新工具**
有了這些基礎(chǔ)偏好維度,研究團(tuán)隊就創(chuàng)造出了一個"偏好調(diào)色板"——就像畫家用紅、黃、藍(lán)等基礎(chǔ)顏色調(diào)出任何想要的顏色一樣,用戶可以通過調(diào)整不同偏好維度的"濃度"來定制符合自己需求的AI行為。
這個調(diào)色板的使用方法出人意料地簡單。當(dāng)一個新用戶想要定制AI的行為時,他們只需要提供少量的偏好樣例——比如5到15個"我更喜歡這個回答而不是那個"的比較。系統(tǒng)就能自動分析這些樣例,判斷出用戶在各個偏好維度上的傾向,然后調(diào)整AI的行為來匹配這些傾向。
這個過程就像一個經(jīng)驗(yàn)豐富的調(diào)酒師,只需要品嘗客人點(diǎn)的幾種酒,就能掌握客人的口味偏好,然后調(diào)制出完美符合客人喜好的雞尾酒。系統(tǒng)會分析用戶提供的樣例,計算出每個基礎(chǔ)偏好維度的權(quán)重,然后將這些維度按照計算出的權(quán)重組合起來,形成一個定制化的偏好模型。
實(shí)驗(yàn)結(jié)果顯示,這種方法的效果令人驚喜。在多個測試中,使用DRMs定制的AI系統(tǒng)顯著超越了傳統(tǒng)的單一偏好模型。特別是在處理復(fù)雜、多維度的偏好時,新方法的優(yōu)勢更加明顯。
例如,在一個包含"用戶友好性"、"敘事質(zhì)量"、"語言創(chuàng)造性"、"科學(xué)嚴(yán)謹(jǐn)性"和"幽默娛樂性"五個維度的測試中,傳統(tǒng)方法的平均表現(xiàn)只有71.4%的準(zhǔn)確率,而DRMs方法達(dá)到了90.0%的準(zhǔn)確率,提升幅度達(dá)到了18.6個百分點(diǎn)。這種提升在AI領(lǐng)域是相當(dāng)顯著的。
更重要的是,DRMs方法展現(xiàn)出了優(yōu)秀的適應(yīng)性。當(dāng)面對新用戶的偏好時,它不需要重新訓(xùn)練整個模型,只需要用新的權(quán)重組合現(xiàn)有的偏好維度即可。這就像一個萬能鑰匙,可以快速適應(yīng)不同的"鎖"(用戶偏好),而傳統(tǒng)方法則需要為每個新用戶重新制作一把專門的鑰匙。
**四、"偏好透視鏡":理解AI決策的新窗口**
DRMs方法的另一個重要貢獻(xiàn)是為理解AI的決策過程提供了一個"透視鏡"。傳統(tǒng)的AI系統(tǒng)就像一個黑盒子,我們知道輸入什么會得到什么輸出,但不知道中間發(fā)生了什么。而DRMs方法讓我們能夠看到AI是如何權(quán)衡不同偏好維度的。
研究團(tuán)隊通過可視化分析發(fā)現(xiàn)了一些有趣的模式。例如,當(dāng)AI處理"聊天"類任務(wù)時,它主要依賴前幾個偏好維度,這些維度通常與"有用性"和"流暢性"相關(guān)。但當(dāng)處理"安全性"相關(guān)任務(wù)時,AI會更均勻地使用各個偏好維度,表明安全判斷需要考慮更多方面的因素。
更有意思的是,通過分析不同偏好維度之間的相關(guān)性,研究團(tuán)隊發(fā)現(xiàn)了一些人類偏好的深層規(guī)律。例如,"敘事能力"與"幽默娛樂性"和"語言創(chuàng)造性"高度相關(guān)(相關(guān)系數(shù)約為0.87),這符合我們的直覺——好的故事往往既有趣又有創(chuàng)意。
另一方面,"科學(xué)嚴(yán)謹(jǐn)性"與其他幾個維度呈現(xiàn)負(fù)相關(guān),特別是與"聊天友好性"和"敘事能力"的相關(guān)系數(shù)分別為-0.46和-0.35。這揭示了一個有趣的現(xiàn)象:嚴(yán)謹(jǐn)?shù)目茖W(xué)表達(dá)往往與輕松的聊天風(fēng)格存在天然的張力。
這些發(fā)現(xiàn)不僅幫助我們更好地理解人類偏好的復(fù)雜性,也為設(shè)計更好的AI評估標(biāo)準(zhǔn)提供了科學(xué)依據(jù)。研究團(tuán)隊指出,許多現(xiàn)有的AI評估基準(zhǔn)可能存在維度冗余或維度缺失的問題,而DRMs方法提供的偏好維度分析可以幫助改進(jìn)這些評估標(biāo)準(zhǔn)。
**五、從實(shí)驗(yàn)室到現(xiàn)實(shí):技術(shù)的實(shí)際應(yīng)用**
為了驗(yàn)證DRMs方法的實(shí)際效果,研究團(tuán)隊進(jìn)行了大量的實(shí)驗(yàn)測試。他們使用了兩個主要的測試平臺:RewardBench和合理偏好逆轉(zhuǎn)(RPR)測試集。這些測試就像給新方法安排的"實(shí)戰(zhàn)演練",檢驗(yàn)它在各種真實(shí)場景下的表現(xiàn)。
在RewardBench測試中,DRMs方法在所有維度上都表現(xiàn)出色。特別是在一些具有挑戰(zhàn)性的子任務(wù)上,比如"困難聊天"場景,傳統(tǒng)單一偏好模型的準(zhǔn)確率只有46.7%,而DRMs方法達(dá)到了65.0%,提升了近18個百分點(diǎn)。這種提升在實(shí)際應(yīng)用中意味著用戶體驗(yàn)的顯著改善。
在更精細(xì)的RPR測試中,結(jié)果更加令人印象深刻。這個測試專門設(shè)計用來評估AI在個性化偏好適應(yīng)方面的能力。在"用戶友好性"維度上,傳統(tǒng)方法的表現(xiàn)只有50.6%(幾乎相當(dāng)于隨機(jī)猜測),而DRMs方法達(dá)到了78.9%。在"幽默娛樂性"維度上,傳統(tǒng)方法69.0%,DRMs方法達(dá)到97.5%,幾乎實(shí)現(xiàn)了完美匹配。
研究團(tuán)隊還測試了方法的效率和可擴(kuò)展性。令人驚喜的是,DRMs方法不僅效果更好,而且計算成本更低。傳統(tǒng)的訓(xùn)練方法需要在高端GPU上運(yùn)行1-2小時,而DRMs的核心計算(PCA分析)在普通CPU上只需要不到1分鐘就能完成。這種效率優(yōu)勢使得該方法更容易在實(shí)際應(yīng)用中部署。
為了證明方法的通用性,研究團(tuán)隊還測試了使用不同類型的AI模型作為"特征提取器"的效果。他們發(fā)現(xiàn),無論是專門訓(xùn)練的獎勵模型還是通用的語言模型,都可以成功地與DRMs方法結(jié)合使用,這大大擴(kuò)展了該方法的適用范圍。
**六、技術(shù)細(xì)節(jié):簡單背后的精巧設(shè)計**
雖然DRMs方法的核心思想相對簡單,但其技術(shù)實(shí)現(xiàn)卻包含了許多精巧的設(shè)計。研究團(tuán)隊面臨的第一個挑戰(zhàn)是如何將傳統(tǒng)的偏好學(xué)習(xí)問題轉(zhuǎn)換為適合PCA分析的形式。
傳統(tǒng)的偏好學(xué)習(xí)使用的是Bradley-Terry模型,這個模型就像一個簡單的比較器,只能輸出"A比B好"或"B比A好"的結(jié)論。研究團(tuán)隊的創(chuàng)新在于將這個模型重新表述為向量空間中的幾何問題。他們發(fā)現(xiàn),當(dāng)我們將偏好表示為高維向量時,偏好學(xué)習(xí)的目標(biāo)就變成了尋找一個最佳的"方向",使得在這個方向上投影后,好的回答總是比差的回答得分更高。
這種幾何化的表述為使用PCA創(chuàng)造了理論基礎(chǔ)。PCA的本質(zhì)是尋找數(shù)據(jù)中方差最大的方向,而在偏好學(xué)習(xí)的語境下,這些方向恰好對應(yīng)于人類偏好的主要維度。研究團(tuán)隊通過數(shù)學(xué)分析證明,在某些條件下,偏好學(xué)習(xí)的最優(yōu)解確實(shí)與PCA找到的主成分方向一致。
另一個技術(shù)挑戰(zhàn)是如何處理PCA結(jié)果的"方向不確定性"。PCA找到的主成分向量在數(shù)學(xué)上是方向無關(guān)的——也就是說,向量v和-v在PCA看來是等價的。但在偏好學(xué)習(xí)中,方向是有意義的:正方向表示"更好",負(fù)方向表示"更差"。研究團(tuán)隊通過巧妙的設(shè)計解決了這個問題,確保提取出的偏好維度始終指向"更好"的方向。
在實(shí)際實(shí)現(xiàn)中,研究團(tuán)隊還考慮了許多工程細(xì)節(jié)。例如,為了防止某些特征尺度過大影響PCA結(jié)果,他們對輸入數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化處理。為了提高計算效率,他們只使用了前100個主成分,實(shí)驗(yàn)證明這已經(jīng)足夠捕捉大部分重要的偏好信息。
**七、成果驗(yàn)證:數(shù)據(jù)說話**
研究團(tuán)隊的實(shí)驗(yàn)設(shè)計堪稱全面而嚴(yán)謹(jǐn)。他們不僅測試了DRMs方法的基本效果,還深入分析了各個組成部分的貢獻(xiàn),以及方法在不同條件下的表現(xiàn)。
在基礎(chǔ)效果測試中,DRMs方法在幾乎所有測試項(xiàng)目上都顯著超越了基線方法。研究團(tuán)隊比較了四種不同的方法:傳統(tǒng)的單一偏好模型、基于共享基礎(chǔ)的多頭模型、隨機(jī)初始化的多頭模型,以及他們提出的DRMs方法。結(jié)果顯示,DRMs方法不僅在總體性能上領(lǐng)先,在各個細(xì)分維度上也表現(xiàn)優(yōu)異。
特別值得注意的是DRMs方法在個性化適應(yīng)方面的表現(xiàn)。在測試中,系統(tǒng)只需要5個用戶提供的偏好樣例就能有效地適應(yīng)新用戶的需求。隨著樣例數(shù)量增加到15個,系統(tǒng)的適應(yīng)效果趨于穩(wěn)定,這表明該方法能夠高效地學(xué)習(xí)用戶偏好。
研究團(tuán)隊還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),分析了不同因素對系統(tǒng)性能的影響。他們發(fā)現(xiàn),使用的偏好維度數(shù)量對系統(tǒng)性能有重要影響:太少的維度無法充分表達(dá)偏好的復(fù)雜性,太多的維度則可能引入噪聲。實(shí)驗(yàn)表明,使用100個偏好維度是一個較好的平衡點(diǎn)。
另一個有趣的發(fā)現(xiàn)是關(guān)于偏好維度的重要性分布。研究團(tuán)隊發(fā)現(xiàn),前幾個主成分(對應(yīng)方差最大的偏好維度)往往包含了大部分重要信息。第一個主成分通常對應(yīng)于"總體質(zhì)量"這樣的綜合維度,而后面的主成分則對應(yīng)于更具體的偏好方面,如"幽默性"、"創(chuàng)造性"等。
**八、影響與展望:AI個性化的新紀(jì)元**
DRMs方法的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)層面的改進(jìn)。它代表了AI發(fā)展的一個重要轉(zhuǎn)折點(diǎn)——從"一刀切"的標(biāo)準(zhǔn)化服務(wù)轉(zhuǎn)向真正的個性化智能服務(wù)。
在實(shí)際應(yīng)用層面,這種技術(shù)可能帶來革命性的變化。設(shè)想一下未來的AI助手:醫(yī)生使用的AI更注重準(zhǔn)確性和專業(yè)性,作家使用的AI更強(qiáng)調(diào)創(chuàng)造性和表達(dá)力,教師使用的AI則平衡知識準(zhǔn)確性和教學(xué)友好性。每個AI都能根據(jù)用戶的職業(yè)、偏好和具體需求進(jìn)行精確調(diào)整,而這種調(diào)整不需要重新訓(xùn)練模型,只需要調(diào)整偏好維度的權(quán)重組合。
從更廣闊的視角來看,DRMs方法為解決AI倫理中的一個核心問題提供了新思路:如何在多元化的價值觀中實(shí)現(xiàn)公平。傳統(tǒng)的AI訓(xùn)練往往傾向于主流觀點(diǎn),可能忽視或邊緣化少數(shù)群體的偏好。而DRMs方法通過將偏好分解為多個獨(dú)立維度,為不同群體的價值觀提供了更好的表達(dá)空間。
研究團(tuán)隊也誠實(shí)地指出了當(dāng)前方法的局限性。由于計算資源限制,他們并沒有手工檢查所有2048或4096個偏好維度的具體含義。未來的工作需要開發(fā)自動化的方法來解釋和標(biāo)注這些維度。此外,該方法目前主要基于英語數(shù)據(jù),在其他語言和文化背景下的表現(xiàn)還需要進(jìn)一步驗(yàn)證。
另一個需要關(guān)注的問題是偏好維度可能無意中捕捉到有害的人類偏見。雖然研究團(tuán)隊在實(shí)驗(yàn)中沒有發(fā)現(xiàn)明顯的問題,但在大規(guī)模部署之前,需要進(jìn)行更全面的倫理審查和偏見檢測。
展望未來,研究團(tuán)隊提出了幾個有前景的研究方向。首先是跨模態(tài)偏好學(xué)習(xí)——將DRMs方法擴(kuò)展到圖像、音頻等其他模態(tài)。其次是動態(tài)偏好適應(yīng)——開發(fā)能夠隨時間變化自動調(diào)整偏好的系統(tǒng)。還有就是偏好的層次化建模——考慮到某些偏好維度可能存在層次關(guān)系或依賴關(guān)系。
說到底,這項(xiàng)研究的核心價值在于它為AI個性化開辟了一條新路徑。就像工業(yè)革命讓大規(guī)模生產(chǎn)成為可能,信息革命讓知識獲取變得便利一樣,DRMs這樣的技術(shù)可能預(yù)示著AI個性化革命的到來。在這個革命中,每個人都能擁有真正理解自己偏好、符合自己需求的AI伙伴。
當(dāng)然,技術(shù)的發(fā)展總是伴隨著挑戰(zhàn)和機(jī)遇并存。DRMs方法的成功也提醒我們,AI的未來不僅僅在于更強(qiáng)大的計算能力或更大的模型,更在于更智慧的設(shè)計和更深入的人類理解。只有真正理解了人類偏好的復(fù)雜性和多樣性,我們才能構(gòu)建出真正服務(wù)于人類福祉的AI系統(tǒng)。
這項(xiàng)來自多所頂尖大學(xué)的合作研究為我們展示了學(xué)術(shù)界在AI個性化方面的最新進(jìn)展。雖然距離完全成熟的商業(yè)應(yīng)用還有一段路要走,但DRMs方法已經(jīng)為這個領(lǐng)域指明了方向。對于那些希望深入了解這項(xiàng)技術(shù)的讀者,完整的研究論文和開源代碼都已經(jīng)公開,為進(jìn)一步的研究和應(yīng)用提供了堅實(shí)的基礎(chǔ)。
Q&A
Q1:分解獎勵模型(DRMs)是什么?它能解決什么問題?
A:分解獎勵模型是一種新的AI訓(xùn)練方法,能夠?qū)?fù)雜的人類偏好分解成多個獨(dú)立維度(如幽默性、安全性、創(chuàng)造性等),然后根據(jù)不同用戶需求重新組合這些維度。它主要解決了傳統(tǒng)AI系統(tǒng)只能理解"平均偏好"的問題,讓AI能夠真正個性化地滿足不同用戶的多樣化需求。
Q2:DRMs方法需要大量數(shù)據(jù)才能為新用戶定制嗎?
A:不需要。這是DRMs的一大優(yōu)勢——它只需要新用戶提供5-15個簡單的偏好比較樣例(比如"我更喜歡回答A而不是回答B(yǎng)"),系統(tǒng)就能自動分析出用戶的偏好模式,并相應(yīng)調(diào)整AI行為。這比傳統(tǒng)方法需要的數(shù)據(jù)量少得多。
Q3:這項(xiàng)技術(shù)什么時候能在日常產(chǎn)品中使用?
A:雖然研究團(tuán)隊已經(jīng)開源了代碼,但DRMs技術(shù)目前還主要處于研究階段。不過,由于其計算效率高(核心處理只需1分鐘),技術(shù)門檻相對較低,預(yù)計在不久的將來可能會被集成到各種AI產(chǎn)品中,如聊天機(jī)器人、寫作助手、個人AI顧問等。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。