在人工智能快速發(fā)展的今天,我們有了一個(gè)既令人興奮又讓人困惑的問題:那些被稱為"大型語言模型"的AI系統(tǒng),比如ChatGPT,它們似乎什么都懂一些,但當(dāng)涉及到非常專業(yè)的領(lǐng)域時(shí),卻常常顯得力不從心。就像一個(gè)博學(xué)的朋友,能和你聊天南海北,但當(dāng)你問起化學(xué)分子結(jié)構(gòu)或者外交術(shù)語時(shí),他就開始含糊其辭了。
這個(gè)問題困擾著許多研究人員,特別是那些想要深入理解AI內(nèi)部工作原理的科學(xué)家們。為了解決這個(gè)難題,來自T-Tech公司、莫斯科物理技術(shù)學(xué)院以及俄羅斯國立研究大學(xué)高等經(jīng)濟(jì)學(xué)院的研究團(tuán)隊(duì),開發(fā)了一種巧妙的解決方案。這項(xiàng)研究由T-Tech公司的Nikita Koriagin領(lǐng)導(dǎo),成果發(fā)表在2025年的COLM(Conference on Language Modeling)會議上。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過arXiv:2507.12990v1訪問完整論文。
研究團(tuán)隊(duì)面臨的核心挑戰(zhàn),就像是給一個(gè)已經(jīng)很博學(xué)的人補(bǔ)充專業(yè)知識,但又不能讓他忘記原來會的東西。在AI領(lǐng)域,科學(xué)家們使用一種叫做"稀疏自編碼器"(Sparse Autoencoders,簡稱SAE)的工具來理解AI模型的內(nèi)部運(yùn)作。把這個(gè)工具比作一個(gè)翻譯器,它能夠?qū)I復(fù)雜的內(nèi)部"思維"翻譯成人類可以理解的概念。
然而,這些翻譯器有個(gè)致命缺陷:它們只能理解訓(xùn)練時(shí)見過的常見概念,就像一個(gè)只在普通話環(huán)境中長大的翻譯,突然遇到方言時(shí)就束手無策了。當(dāng)AI處理化學(xué)、外交或其他專業(yè)領(lǐng)域的內(nèi)容時(shí),這些翻譯器就會遺漏很多重要信息,導(dǎo)致我們無法完全理解AI在這些領(lǐng)域的真實(shí)表現(xiàn)。
以往的解決方案通常是重新訓(xùn)練整個(gè)翻譯器,但這就像為了學(xué)會一種方言而把之前學(xué)會的普通話全部忘掉一樣,得不償失。更糟糕的是,這種方法需要耗費(fèi)大量計(jì)算資源,就像每次想學(xué)新技能都要重新上一遍小學(xué)。
一、巧妙的"助推器"方案
T-Tech研究團(tuán)隊(duì)想出了一個(gè)巧妙的解決方案,他們稱之為"SAE Boost",我們可以把它理解為一個(gè)"助推器"系統(tǒng)。這個(gè)方案的核心思想非常簡單:既然我們不想破壞原有的翻譯器,那就給它配一個(gè)專門的助手。
這個(gè)助手的工作原理是這樣的:當(dāng)原有的翻譯器在處理專業(yè)內(nèi)容時(shí)出現(xiàn)理解偏差時(shí),助手會專門學(xué)習(xí)這些偏差,然后在最終輸出時(shí)進(jìn)行補(bǔ)償。就像一個(gè)經(jīng)驗(yàn)豐富的導(dǎo)游,當(dāng)主要解說員遇到不熟悉的景點(diǎn)時(shí),導(dǎo)游會及時(shí)補(bǔ)充專業(yè)知識,確保游客獲得完整準(zhǔn)確的信息。
具體來說,研究團(tuán)隊(duì)訓(xùn)練了一個(gè)專門的"殘差SAE"(我們可以叫它"補(bǔ)償器"),它的唯一任務(wù)就是學(xué)習(xí)原有翻譯器的錯(cuò)誤和遺漏。在實(shí)際使用時(shí),原有翻譯器和補(bǔ)償器會同時(shí)工作,前者負(fù)責(zé)處理通用內(nèi)容,后者負(fù)責(zé)補(bǔ)充專業(yè)領(lǐng)域的細(xì)節(jié)。兩者的輸出結(jié)果會被整合在一起,形成一個(gè)既保持原有能力又增強(qiáng)了專業(yè)理解的完整系統(tǒng)。
這種方法的妙處在于,它完全不會干擾原有翻譯器的工作。原有翻譯器依然擅長處理日常內(nèi)容,而補(bǔ)償器則專注于填補(bǔ)專業(yè)領(lǐng)域的空白。就像在一個(gè)團(tuán)隊(duì)中,每個(gè)成員都有自己的專長,通過協(xié)作實(shí)現(xiàn)了整體能力的提升。
二、三個(gè)專業(yè)領(lǐng)域的實(shí)際測試
為了驗(yàn)證這個(gè)助推器系統(tǒng)的有效性,研究團(tuán)隊(duì)選擇了三個(gè)截然不同的專業(yè)領(lǐng)域進(jìn)行測試:化學(xué)領(lǐng)域、俄語文本以及聯(lián)合國辯論。這三個(gè)領(lǐng)域的選擇非常巧妙,它們代表了不同類型的專業(yè)知識挑戰(zhàn)。
化學(xué)領(lǐng)域測試使用了專門的化學(xué)數(shù)據(jù)集,包含大量化學(xué)術(shù)語、分子結(jié)構(gòu)和反應(yīng)機(jī)制。這個(gè)領(lǐng)域的挑戰(zhàn)在于,化學(xué)概念往往具有高度專業(yè)性,普通的AI訓(xùn)練數(shù)據(jù)中這類內(nèi)容相對較少。就像一個(gè)從未學(xué)過化學(xué)的人突然要理解"親核取代反應(yīng)"或"芳香化合物"這樣的概念,原有的翻譯器在這里經(jīng)常會出現(xiàn)理解偏差。
俄語文本測試則代表了跨語言的挑戰(zhàn)。雖然現(xiàn)代AI模型在多語言處理上已經(jīng)相當(dāng)出色,但由于訓(xùn)練數(shù)據(jù)中英語內(nèi)容占主導(dǎo)地位,對其他語言的理解往往不夠深入。俄語作為一種語法復(fù)雜、詞匯變化豐富的語言,為測試提供了理想的挑戰(zhàn)環(huán)境。這就像讓一個(gè)主要在英語環(huán)境中長大的人去理解俄語文學(xué)作品的細(xì)微差別。
聯(lián)合國辯論領(lǐng)域的測試最具代表性,因?yàn)樗婕案叨葘I(yè)化的外交語言、政策框架和國際關(guān)系術(shù)語。這類文本通常包含復(fù)雜的政治概念、法律條款和外交慣例,對AI的理解能力提出了極高要求。就像理解"可持續(xù)發(fā)展目標(biāo)"、"非歧視性原則"或"集體安全機(jī)制"這樣的概念,需要對國際關(guān)系有深入了解。
三、令人印象深刻的實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果相當(dāng)令人鼓舞,助推器系統(tǒng)在所有三個(gè)專業(yè)領(lǐng)域都顯示出了顯著的改進(jìn)效果。研究團(tuán)隊(duì)使用了兩個(gè)主要的評估指標(biāo):一個(gè)是"解釋方差",用來衡量翻譯器對AI內(nèi)部狀態(tài)的理解準(zhǔn)確度;另一個(gè)是"語言模型交叉熵",用來評估翻譯器是否保持了對AI下一步預(yù)測的準(zhǔn)確性。
在化學(xué)領(lǐng)域,助推器系統(tǒng)的表現(xiàn)尤其出色。使用Qwen模型進(jìn)行測試時(shí),解釋方差從原來的57.1%提升到了71.6%,提升幅度達(dá)到25.39%。這意味著新系統(tǒng)能夠更準(zhǔn)確地理解AI在處理化學(xué)內(nèi)容時(shí)的內(nèi)部狀態(tài)。同時(shí),語言模型交叉熵也從0.935降低到0.767,降幅達(dá)到17.97%,表明系統(tǒng)在保持AI預(yù)測準(zhǔn)確性方面也有顯著改善。
類似的改進(jìn)在使用LLaMA模型進(jìn)行測試時(shí)也得到了驗(yàn)證,解釋方差提升了27.40%,交叉熵降低了17.63%。這種跨模型的一致性表明,助推器系統(tǒng)具有良好的通用性,不僅僅適用于特定的AI模型。
俄語文本領(lǐng)域的改進(jìn)更加顯著。在Qwen模型上,解釋方差提升了59.34%,從45.5%躍升至72.5%。這個(gè)巨大的提升表明,原有的翻譯器在處理俄語內(nèi)容時(shí)確實(shí)存在較大的理解偏差,而助推器系統(tǒng)成功地彌補(bǔ)了這些不足。語言模型交叉熵也從4.716大幅降低到2.060,降幅達(dá)到56.32%。
聯(lián)合國辯論領(lǐng)域的結(jié)果同樣令人滿意,雖然提升幅度相對較小,但這恰恰說明了原有翻譯器在處理這類正式文本時(shí)的基礎(chǔ)能力較好。即便如此,助推器系統(tǒng)仍然實(shí)現(xiàn)了11.35%的解釋方差提升和7.88%的交叉熵降低。
四、不會破壞原有能力的安全設(shè)計(jì)
研究團(tuán)隊(duì)特別關(guān)注的一個(gè)問題是:在增強(qiáng)專業(yè)領(lǐng)域理解能力的同時(shí),會不會影響原有翻譯器處理日常內(nèi)容的能力?這個(gè)擔(dān)心是合理的,因?yàn)樵S多改進(jìn)方案往往會帶來"顧此失彼"的問題。
為了驗(yàn)證這一點(diǎn),研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的對比測試。結(jié)果顯示,當(dāng)加入助推器系統(tǒng)后,原有翻譯器在處理通用內(nèi)容時(shí)的性能幾乎沒有受到影響,所有指標(biāo)的變化都在1%以內(nèi)。這個(gè)結(jié)果非常重要,因?yàn)樗C明了助推器系統(tǒng)確實(shí)是在"補(bǔ)充"而不是"替換"原有功能。
以Qwen模型為例,在加入化學(xué)、俄語和聯(lián)合國辯論三個(gè)領(lǐng)域的助推器后,通用領(lǐng)域的解釋方差分別為71.7%、71.9%和71.9%,與原始的71.9%幾乎沒有差別。交叉熵指標(biāo)也保持在2.385到2.390之間,變化微乎其微。
這種穩(wěn)定性的實(shí)現(xiàn)得益于助推器系統(tǒng)的設(shè)計(jì)理念。由于每個(gè)助推器都專注于學(xué)習(xí)特定領(lǐng)域的錯(cuò)誤和遺漏,而不是重新學(xué)習(xí)整個(gè)翻譯過程,因此它們之間不會產(chǎn)生沖突。就像一個(gè)團(tuán)隊(duì)中的專家顧問,他們只在自己的專業(yè)領(lǐng)域發(fā)聲,不會干擾其他人的工作。
五、與其他方法的詳細(xì)對比
為了充分驗(yàn)證助推器系統(tǒng)的優(yōu)勢,研究團(tuán)隊(duì)將其與幾種常見的替代方案進(jìn)行了對比。這些替代方案包括:擴(kuò)展原有翻譯器并添加新功能、完全重新訓(xùn)練翻譯器、以及一種叫做"SAE拼接"的混合方法。
擴(kuò)展翻譯器的方法是在原有系統(tǒng)中直接添加新的功能組件,然后只訓(xùn)練這些新組件。這種方法的問題在于,新添加的功能往往與原有功能缺乏協(xié)調(diào),就像在一個(gè)已經(jīng)調(diào)好音的樂隊(duì)中突然加入一個(gè)新樂器,很難保證和諧。實(shí)驗(yàn)結(jié)果顯示,雖然這種方法在某些專業(yè)領(lǐng)域能夠獲得略好的表現(xiàn),但代價(jià)是需要更多的計(jì)算資源,而且通用領(lǐng)域的性能會有所下降。
完全重新訓(xùn)練的方法雖然能夠在特定領(lǐng)域獲得很好的效果,但會嚴(yán)重?fù)p害原有能力,出現(xiàn)"災(zāi)難性遺忘"的問題。就像一個(gè)人為了學(xué)會新技能而把之前掌握的技能全部忘掉,得不償失。在實(shí)驗(yàn)中,這種方法雖然在專業(yè)領(lǐng)域的解釋方差能夠達(dá)到85%,但通用領(lǐng)域的性能卻下降到了51.5%,幾乎不能正常工作。
SAE拼接方法試圖在重新訓(xùn)練后,將最有用的部分拼接回原有系統(tǒng)。這種方法的理念是好的,但實(shí)際效果并不理想,因?yàn)楹茈y準(zhǔn)確識別哪些部分是"有用"的,哪些是"有害"的。實(shí)驗(yàn)結(jié)果顯示,這種方法在專業(yè)領(lǐng)域的改進(jìn)有限,有時(shí)甚至?xí)a(chǎn)生負(fù)面效果。
相比之下,助推器系統(tǒng)在各個(gè)方面都展現(xiàn)出了最佳的平衡。它既能顯著提升專業(yè)領(lǐng)域的理解能力,又能完全保持原有的通用能力,而且計(jì)算資源消耗相對較小。
六、多領(lǐng)域同時(shí)增強(qiáng)的能力
助推器系統(tǒng)的另一個(gè)重要優(yōu)勢是可以同時(shí)處理多個(gè)專業(yè)領(lǐng)域。研究團(tuán)隊(duì)測試了當(dāng)同時(shí)使用化學(xué)、俄語和聯(lián)合國辯論三個(gè)助推器時(shí)的系統(tǒng)表現(xiàn)。
結(jié)果顯示,多助推器系統(tǒng)不僅能夠保持每個(gè)單獨(dú)領(lǐng)域的改進(jìn)效果,而且不會產(chǎn)生相互干擾。在聯(lián)合國辯論領(lǐng)域,單獨(dú)使用該領(lǐng)域助推器時(shí)的解釋方差為77.4%,而同時(shí)使用三個(gè)助推器時(shí)為77.0%,性能幾乎沒有下降。這種穩(wěn)定性表明,不同領(lǐng)域的助推器確實(shí)是在各自的專業(yè)范圍內(nèi)工作,不會產(chǎn)生沖突。
這種多領(lǐng)域增強(qiáng)能力對實(shí)際應(yīng)用具有重要意義。在現(xiàn)實(shí)中,AI系統(tǒng)往往需要處理涉及多個(gè)專業(yè)領(lǐng)域的復(fù)雜內(nèi)容。比如,一篇關(guān)于環(huán)境保護(hù)的文章可能同時(shí)涉及化學(xué)污染、國際政策和多種語言的資料。傳統(tǒng)的解決方案通常只能在一個(gè)領(lǐng)域進(jìn)行優(yōu)化,而助推器系統(tǒng)則能夠同時(shí)在多個(gè)領(lǐng)域提供支持。
七、訓(xùn)練過程的重要發(fā)現(xiàn)
研究團(tuán)隊(duì)在實(shí)驗(yàn)過程中發(fā)現(xiàn)了一個(gè)重要現(xiàn)象:助推器的訓(xùn)練程度對最終效果有顯著影響。如果訓(xùn)練不充分,助推器不僅不能提供幫助,反而會干擾原有系統(tǒng)的正常工作。
具體來說,當(dāng)助推器的訓(xùn)練數(shù)據(jù)少于100M個(gè)標(biāo)記時(shí),它會對通用領(lǐng)域的性能產(chǎn)生負(fù)面影響,最大降幅可達(dá)31%。這就像一個(gè)還沒有完全掌握專業(yè)知識的助手,在試圖提供幫助時(shí)反而會給出錯(cuò)誤的建議。
然而,當(dāng)訓(xùn)練數(shù)據(jù)超過200M個(gè)標(biāo)記后,助推器開始展現(xiàn)出真正的價(jià)值。此時(shí),它學(xué)會了如何識別和補(bǔ)償原有翻譯器的錯(cuò)誤,而不會干擾正常的工作流程。在這個(gè)階段,通用領(lǐng)域的性能影響降低到1%以內(nèi),同時(shí)專業(yè)領(lǐng)域的改進(jìn)效果顯著提升。
這個(gè)發(fā)現(xiàn)對實(shí)際應(yīng)用具有重要指導(dǎo)意義。它告訴我們,訓(xùn)練助推器需要足夠的耐心和資源投入,不能急于求成。就像培養(yǎng)一個(gè)專業(yè)顧問,需要給他足夠的時(shí)間來積累經(jīng)驗(yàn)和完善技能。
八、深入理解AI的內(nèi)部工作原理
為了更好地理解助推器系統(tǒng)的工作原理,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的特征分析。他們發(fā)現(xiàn),助推器學(xué)習(xí)到的特征確實(shí)與原有翻譯器的特征有顯著差異,這證明了助推器確實(shí)在學(xué)習(xí)新的、互補(bǔ)的概念。
在化學(xué)領(lǐng)域,助推器學(xué)習(xí)到的特征包括"碳-碳鍵"、"銀化合物"、"炔烴化學(xué)"等專業(yè)概念。這些概念在原有翻譯器中要么完全缺失,要么理解不準(zhǔn)確。助推器通過專門學(xué)習(xí)這些概念,能夠準(zhǔn)確識別和處理相關(guān)內(nèi)容。
在聯(lián)合國辯論領(lǐng)域,助推器捕獲的特征包括"外交要求"、"爭端解決"、"維和任務(wù)"等高度專業(yè)化的概念。這些概念需要對國際關(guān)系和外交實(shí)務(wù)有深入理解,正是原有翻譯器的薄弱環(huán)節(jié)。
有趣的是,研究團(tuán)隊(duì)還發(fā)現(xiàn)了跨語言特征的聚類現(xiàn)象。在處理多種語言時(shí),語言學(xué)上相關(guān)的語言(如同屬羅曼語族的意大利語和葡萄牙語,或同屬日耳曼語族的德語和荷蘭語)傾向于在特征空間中聚集在一起。這表明助推器系統(tǒng)不僅能夠?qū)W習(xí)專業(yè)領(lǐng)域的知識,還能夠理解不同語言之間的內(nèi)在聯(lián)系。
九、對AI理解工具發(fā)展的深遠(yuǎn)影響
這項(xiàng)研究的意義遠(yuǎn)不止于提供了一種新的技術(shù)方案。它為AI理解工具的發(fā)展開辟了一個(gè)全新的方向,證明了"模塊化增強(qiáng)"的可行性和有效性。
傳統(tǒng)的AI改進(jìn)方法往往采用"推倒重建"的思路,需要大量的計(jì)算資源和時(shí)間投入。而助推器系統(tǒng)展示了一種更加靈活和高效的改進(jìn)路徑。研究人員可以根據(jù)具體需求,針對特定領(lǐng)域開發(fā)專門的助推器,而不需要重新訓(xùn)練整個(gè)系統(tǒng)。
這種模塊化的設(shè)計(jì)理念還為未來的發(fā)展提供了無限可能。隨著AI應(yīng)用領(lǐng)域的不斷擴(kuò)展,我們可以預(yù)見會有更多專業(yè)領(lǐng)域需要特殊支持。助推器系統(tǒng)的框架使得這種擴(kuò)展變得相對容易,就像在一個(gè)軟件平臺上安裝新的插件一樣。
此外,這項(xiàng)研究還為AI的可解釋性研究提供了新的工具。通過比較原有翻譯器和助推器的輸出差異,研究人員可以更好地理解AI在不同領(lǐng)域的優(yōu)勢和局限性。這對于提高AI的可信度和可靠性具有重要價(jià)值。
十、實(shí)際應(yīng)用的廣闊前景
助推器系統(tǒng)的實(shí)際應(yīng)用前景相當(dāng)廣闊。在科研領(lǐng)域,它可以幫助研究人員更好地理解AI在處理專業(yè)文獻(xiàn)時(shí)的表現(xiàn),從而改進(jìn)AI輔助研究的效果。在教育領(lǐng)域,它可以讓AI更好地理解不同學(xué)科的專業(yè)內(nèi)容,提供更準(zhǔn)確的學(xué)習(xí)支持。
在商業(yè)應(yīng)用中,助推器系統(tǒng)可以幫助企業(yè)快速定制適合特定行業(yè)的AI解決方案。比如,醫(yī)療機(jī)構(gòu)可以使用醫(yī)學(xué)領(lǐng)域的助推器來增強(qiáng)AI對醫(yī)學(xué)文獻(xiàn)的理解,法律事務(wù)所可以使用法律領(lǐng)域的助推器來提高AI對法律文檔的處理能力。
特別值得一提的是,助推器系統(tǒng)的模塊化特性使得不同機(jī)構(gòu)可以共享和復(fù)用已經(jīng)開發(fā)的助推器。這種共享機(jī)制不僅能夠降低開發(fā)成本,還能夠加速整個(gè)領(lǐng)域的發(fā)展。就像開源軟件社區(qū)一樣,專業(yè)領(lǐng)域的助推器也可以形成一個(gè)共享生態(tài)系統(tǒng)。
從技術(shù)發(fā)展的角度來看,助推器系統(tǒng)還為AI的持續(xù)學(xué)習(xí)和適應(yīng)提供了新的思路。隨著新的專業(yè)領(lǐng)域不斷涌現(xiàn),AI系統(tǒng)需要具備快速適應(yīng)的能力。助推器系統(tǒng)的框架為實(shí)現(xiàn)這種適應(yīng)能力提供了技術(shù)基礎(chǔ)。
說到底,T-Tech研究團(tuán)隊(duì)開發(fā)的這個(gè)助推器系統(tǒng),解決了一個(gè)長期困擾AI理解工具的核心問題:如何在不破壞原有能力的前提下,增強(qiáng)AI對專業(yè)領(lǐng)域的理解。這個(gè)看似簡單的想法,實(shí)際上需要精密的技術(shù)設(shè)計(jì)和大量的實(shí)驗(yàn)驗(yàn)證。
研究結(jié)果表明,通過訓(xùn)練專門的"錯(cuò)誤補(bǔ)償器"來學(xué)習(xí)原有系統(tǒng)的不足,確實(shí)能夠?qū)崿F(xiàn)顯著的改進(jìn)效果。更重要的是,這種改進(jìn)不會對原有功能造成干擾,這為AI系統(tǒng)的持續(xù)優(yōu)化提供了一個(gè)安全可靠的路徑。
隨著AI技術(shù)的不斷發(fā)展和應(yīng)用領(lǐng)域的不斷擴(kuò)展,我們可以預(yù)見助推器系統(tǒng)將在更多專業(yè)領(lǐng)域發(fā)揮重要作用。它不僅為當(dāng)前的技術(shù)挑戰(zhàn)提供了解決方案,更為未來AI系統(tǒng)的發(fā)展指明了一個(gè)充滿希望的方向。對于那些希望深入了解AI內(nèi)部工作原理的研究人員來說,這無疑是一個(gè)值得關(guān)注的重要進(jìn)展。
Q&A Q1:SAE Boost是什么?它解決了什么問題? A:SAE Boost是一種"助推器"系統(tǒng),用于增強(qiáng)AI理解工具(稀疏自編碼器)對專業(yè)領(lǐng)域的理解能力。它解決了現(xiàn)有AI理解工具在處理化學(xué)、外交、非英語等專業(yè)領(lǐng)域時(shí)理解不準(zhǔn)確的問題,就像給一個(gè)通用翻譯器配備了專業(yè)領(lǐng)域的助手。
Q2:使用SAE Boost會不會影響AI原有的能力? A:不會。實(shí)驗(yàn)結(jié)果顯示,加入助推器系統(tǒng)后,AI在處理日常通用內(nèi)容時(shí)的性能幾乎沒有受到影響,所有指標(biāo)的變化都在1%以內(nèi)。這是因?yàn)橹破髦粚W⒂谘a(bǔ)充專業(yè)領(lǐng)域的不足,而不會干擾原有功能的正常工作。
Q3:SAE Boost能同時(shí)處理多個(gè)專業(yè)領(lǐng)域嗎? A:可以。研究團(tuán)隊(duì)測試了同時(shí)使用化學(xué)、俄語和聯(lián)合國辯論三個(gè)領(lǐng)域的助推器,結(jié)果顯示不同領(lǐng)域的助推器可以協(xié)同工作而不產(chǎn)生沖突。這種模塊化設(shè)計(jì)使得用戶可以根據(jù)需要靈活組合不同專業(yè)領(lǐng)域的增強(qiáng)功能。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。