av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<legend id="ivxxt"><track id="ivxxt"></track></legend>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

TPTT：讓AI大模型變身"記憶超人"的神奇技術(shù)

人工智能注意力機(jī)制模型優(yōu)化

TPTT：讓AI大模型變身"記憶超人"的神奇技術(shù)

作者：科技行者

2025-06-27 09:33

分享至：

法國(guó)研究者提出TPTT框架，通過(guò)混合注意力機(jī)制和智能記憶管理，讓現(xiàn)有AI大模型無(wú)需重訓(xùn)練就能獲得超長(zhǎng)文本處理能力。該技術(shù)在多個(gè)10億參數(shù)模型上驗(yàn)證有效，Llama-3.2-1B精確匹配率提升20%，已開(kāi)源供社區(qū)使用。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-27 09:33 ? 科技行者

這項(xiàng)由法國(guó)研究者Fabien Furfaro在2025年6月發(fā)表于arXiv平臺(tái)的研究論文，提出了一個(gè)名為T(mén)PTT（Transforming Pretrained Transformer into Titans）的創(chuàng)新框架。有興趣深入了解的讀者可以通過(guò)arXiv:2506.17671v1訪問(wèn)完整論文，源代碼已在GitHub開(kāi)源（https://github.com/fabienfrfr/tptt），Python包也已發(fā)布在PyPI平臺(tái)（https://pypi.org/project/tptt/）。

當(dāng)前的AI大語(yǔ)言模型就像一個(gè)記憶力有限的超級(jí)大腦。雖然它們?cè)诨卮饐?wèn)題和生成文本方面表現(xiàn)卓越，但面對(duì)超長(zhǎng)文本時(shí)就會(huì)力不從心，就好比一個(gè)學(xué)者在圖書(shū)館里同時(shí)閱讀幾十本厚書(shū)時(shí)會(huì)感到頭昏腦脹。問(wèn)題的根源在于傳統(tǒng)注意力機(jī)制的計(jì)算復(fù)雜度會(huì)隨著文本長(zhǎng)度呈平方級(jí)增長(zhǎng)，這意味著處理兩倍長(zhǎng)的文本需要四倍的計(jì)算資源。

TPTT框架的出現(xiàn)就像給這些AI大腦裝上了"記憶增強(qiáng)芯片"。這項(xiàng)技術(shù)的巧妙之處在于，它不需要從零開(kāi)始訓(xùn)練一個(gè)全新的模型，而是能夠直接改造現(xiàn)有的預(yù)訓(xùn)練模型，讓它們具備處理超長(zhǎng)文本的能力。研究者將這種技術(shù)比作將普通變壓器升級(jí)為超級(jí)"泰坦"，這也是論文標(biāo)題中"Titans"一詞的由來(lái)。

一、TPTT的核心創(chuàng)新：混合注意力機(jī)制

TPTT的第一個(gè)重要?jiǎng)?chuàng)新是提出了一種混合注意力機(jī)制，研究者稱之為L(zhǎng)iZAttention。這就像在傳統(tǒng)的"全景掃描"模式基礎(chǔ)上，增加了一個(gè)"快速瀏覽"模式。

傳統(tǒng)的注意力機(jī)制就像一個(gè)人在閱讀時(shí)，每看到一個(gè)新詞都要回頭重新審視之前的所有內(nèi)容，確保完全理解它們之間的關(guān)系。這種方法雖然準(zhǔn)確，但當(dāng)文章變得很長(zhǎng)時(shí)就會(huì)變得極其緩慢。研究者用數(shù)學(xué)公式描述了這個(gè)過(guò)程：對(duì)于輸入序列X，首先計(jì)算查詢矩陣Q、鍵矩陣K和值矩陣V，然后通過(guò)softmax注意力計(jì)算輸出。

而線性注意力機(jī)制則像是一個(gè)經(jīng)驗(yàn)豐富的讀者，能夠快速抓住關(guān)鍵信息的精髓，不需要每次都進(jìn)行完整的回顧。它通過(guò)特征映射函數(shù)φ將復(fù)雜的softmax計(jì)算簡(jiǎn)化為線性操作，大大降低了計(jì)算復(fù)雜度。研究者在論文中詳細(xì)闡述了這種線性注意力的數(shù)學(xué)表達(dá)，其中引入了門(mén)控向量β來(lái)調(diào)節(jié)鍵值對(duì)的重要性。

LiZAttention的巧妙之處在于它同時(shí)保留了兩種機(jī)制的優(yōu)勢(shì)。系統(tǒng)會(huì)根據(jù)當(dāng)前任務(wù)的需要，動(dòng)態(tài)地在"精確模式"和"快速模式"之間進(jìn)行權(quán)衡。這種混合策略確保了既不失去傳統(tǒng)注意力的表達(dá)能力，又獲得了線性注意力的效率優(yōu)勢(shì)。

二、Memory as Gate：智能記憶管理系統(tǒng)

TPTT的第二個(gè)核心創(chuàng)新是Memory as Gate（MaG）機(jī)制，這可以理解為一個(gè)智能的"記憶調(diào)度員"。在人類的認(rèn)知過(guò)程中，我們會(huì)根據(jù)情況的重要性來(lái)決定是依賴長(zhǎng)期記憶還是短期記憶。MaG機(jī)制正是模擬了這種認(rèn)知過(guò)程。

具體來(lái)說(shuō)，MaG通過(guò)一個(gè)可學(xué)習(xí)的權(quán)重參數(shù)α來(lái)平衡線性注意力和標(biāo)準(zhǔn)注意力的輸出。當(dāng)α接近1時(shí)，系統(tǒng)更依賴于線性注意力的"快速記憶"；當(dāng)α接近0時(shí)，系統(tǒng)更依賴于標(biāo)準(zhǔn)注意力的"精確記憶"。這個(gè)權(quán)重參數(shù)會(huì)在訓(xùn)練過(guò)程中自動(dòng)調(diào)整，就像大腦會(huì)根據(jù)經(jīng)驗(yàn)學(xué)會(huì)在什么情況下使用什么類型的記憶策略。

研究者設(shè)計(jì)了一個(gè)動(dòng)態(tài)調(diào)度策略，在訓(xùn)練初期，α值設(shè)置為0.01，主要依賴傳統(tǒng)的softmax注意力；然后在前100個(gè)訓(xùn)練步驟中線性增長(zhǎng)到0.5，實(shí)現(xiàn)兩種注意力機(jī)制的平衡。這種漸進(jìn)式的調(diào)整策略確保了模型能夠平穩(wěn)地從傳統(tǒng)模式過(guò)渡到混合模式，避免了突然切換可能帶來(lái)的性能波動(dòng)。

三、Delta Rule：高效的并行記憶更新

為了進(jìn)一步提升長(zhǎng)序列處理的效率，TPTT引入了基于DeltaNet的并行Delta Rule建模機(jī)制。這個(gè)機(jī)制就像一個(gè)高效的"記憶更新系統(tǒng)"，能夠同時(shí)處理多個(gè)信息片段的記憶存儲(chǔ)和檢索。

傳統(tǒng)的循環(huán)更新方式就像一個(gè)圖書(shū)管理員必須逐本整理圖書(shū)，而Delta Rule則允許"批量處理"。研究者提出了兩種更新方式：閉式更新適用于處理信息塊內(nèi)部的記憶狀態(tài)，而循環(huán)式更新則處理不同信息塊之間的狀態(tài)傳遞。這種設(shè)計(jì)使得系統(tǒng)能夠在保持記憶連貫性的同時(shí)，大幅提升處理效率。

在閉式更新中，系統(tǒng)通過(guò)公式St = St-1 + ΣCi=1 vikTi來(lái)更新內(nèi)部記憶狀態(tài)，其中C是塊大小。而在循環(huán)式更新中，系統(tǒng)使用St+1 = St + vt+1kTt+1來(lái)確保前一個(gè)塊的最終狀態(tài)成為下一個(gè)塊的初始狀態(tài)。這種設(shè)計(jì)巧妙地平衡了計(jì)算效率和記憶連續(xù)性。

四、與現(xiàn)有模型的無(wú)縫集成

TPTT框架最實(shí)用的特點(diǎn)是它與現(xiàn)有模型的完美兼容性。研究者特別強(qiáng)調(diào)了與Hugging Face Transformers庫(kù)的無(wú)縫集成，這意味著用戶可以輕松地將任何現(xiàn)有的因果語(yǔ)言模型升級(jí)為具備長(zhǎng)文本處理能力的"超級(jí)版本"。

整個(gè)集成過(guò)程分為三個(gè)主要步驟。首先，系統(tǒng)會(huì)自動(dòng)識(shí)別目標(biāo)模型中需要修改的關(guān)鍵注意力層，這個(gè)過(guò)程通過(guò)get_tptt_model工具來(lái)完成。接著，這些層會(huì)被替換或擴(kuò)展為L(zhǎng)iZAttention模塊，該模塊實(shí)現(xiàn)了線性注意力和softmax注意力的混合處理，同時(shí)支持線性投影權(quán)重共享和MaG機(jī)制。最后，修改后的模型通過(guò)LoRA（Low-Rank Adaptation）等參數(shù)高效微調(diào)方法進(jìn)行優(yōu)化，確保在不需要完整重訓(xùn)練的情況下實(shí)現(xiàn)最佳適應(yīng)性。

這種設(shè)計(jì)理念的優(yōu)勢(shì)在于它不會(huì)增加任何新的網(wǎng)絡(luò)層，而是通過(guò)巧妙的內(nèi)部重組來(lái)實(shí)現(xiàn)功能增強(qiáng)。用戶可以直接使用現(xiàn)有的預(yù)訓(xùn)練權(quán)重，只需要對(duì)特定的注意力機(jī)制進(jìn)行微調(diào)，大大降低了部署成本和技術(shù)門(mén)檻。

五、LiZAttention模塊：技術(shù)實(shí)現(xiàn)的核心

LiZAttention模塊是TPTT架構(gòu)的技術(shù)核心，它巧妙地融合了線性化注意力和標(biāo)準(zhǔn)注意力機(jī)制。這個(gè)模塊的工作流程就像一個(gè)智能的"信息處理中心"，能夠根據(jù)輸入的特點(diǎn)自動(dòng)選擇最合適的處理策略。

模塊的工作過(guò)程從投影計(jì)算開(kāi)始，系統(tǒng)會(huì)通過(guò)學(xué)習(xí)的投影矩陣計(jì)算查詢q、鍵k和值v向量。然后應(yīng)用注意力掩碼來(lái)處理填充和因果關(guān)系約束。在線性注意力計(jì)算階段，系統(tǒng)使用特征映射φ計(jì)算線性注意力輸出，并將中間狀態(tài)存儲(chǔ)在記憶緩存中以支持循環(huán)信息傳遞。

與此同時(shí)，系統(tǒng)還會(huì)計(jì)算標(biāo)準(zhǔn)的自注意力輸出，對(duì)于超長(zhǎng)序列可以選擇性地進(jìn)行截?cái)嗵幚硪钥刂朴?jì)算復(fù)雜度。最終，通過(guò)可學(xué)習(xí)的門(mén)控參數(shù)α將兩種輸出進(jìn)行智能融合，得到最終的輸出結(jié)果。

這種設(shè)計(jì)的巧妙之處在于它維護(hù)了一個(gè)中間狀態(tài)緩存，使得模塊能夠高效支持長(zhǎng)文本推理而不會(huì)產(chǎn)生過(guò)多的計(jì)算開(kāi)銷。整個(gè)過(guò)程都是可微分的，確保了端到端的訓(xùn)練優(yōu)化。

六、參數(shù)高效微調(diào)策略

TPTT采用了LoRA（Low-Rank Adaptation）技術(shù)來(lái)實(shí)現(xiàn)參數(shù)高效的微調(diào)。這種方法就像給現(xiàn)有的模型"安裝插件"而不是"重新裝修整個(gè)系統(tǒng)"。LoRA通過(guò)在選定的投影層中注入可訓(xùn)練的低秩矩陣，在保持原始模型權(quán)重不變的情況下引入新的學(xué)習(xí)能力。

研究者在實(shí)驗(yàn)中使用了rank=8、α=16、dropout=0.05的LoRA配置。對(duì)于Llama和Mistral模型，微調(diào)目標(biāo)包括q_proj、k_proj、v_proj和o_proj模塊；對(duì)于OpenELM模型，則針對(duì)qkv_proj和out_proj模塊進(jìn)行優(yōu)化。這種選擇性微調(diào)策略大大減少了需要訓(xùn)練的參數(shù)數(shù)量和內(nèi)存需求，同時(shí)保持了與完全微調(diào)相當(dāng)?shù)男阅芩健?/p>

訓(xùn)練過(guò)程中還引入了動(dòng)態(tài)的MaG權(quán)重調(diào)度機(jī)制。在訓(xùn)練初期，系統(tǒng)主要依賴傳統(tǒng)的注意力機(jī)制，然后逐步增加對(duì)線性注意力的依賴。這種漸進(jìn)式的過(guò)渡策略確保了模型能夠穩(wěn)定地學(xué)習(xí)新的注意力模式，避免訓(xùn)練過(guò)程中的性能波動(dòng)。

七、實(shí)驗(yàn)設(shè)計(jì)與評(píng)估方法

研究者在多個(gè)約10億參數(shù)的預(yù)訓(xùn)練語(yǔ)言模型上驗(yàn)證了TPTT的有效性，包括Llama-3.2-1B、OpenELM-1.1B、Qwen2.5-1.5B和OLMo-1B等主流模型。實(shí)驗(yàn)使用MMLU（Massive Multitask Language Understanding）基準(zhǔn)測(cè)試作為主要評(píng)估套件，這是一個(gè)涵蓋多個(gè)學(xué)科領(lǐng)域的綜合性語(yǔ)言理解測(cè)試。

訓(xùn)練數(shù)據(jù)采用了yahma/alpaca-cleaned數(shù)據(jù)集中的500個(gè)樣本，進(jìn)行了5個(gè)epoch的訓(xùn)練。實(shí)驗(yàn)設(shè)置包括最大序列長(zhǎng)度384個(gè)token、批大小3、學(xué)習(xí)率5×10^-4等關(guān)鍵參數(shù)。為了優(yōu)化計(jì)算效率和穩(wěn)定性，研究者采用了混合精度訓(xùn)練和1.0的梯度裁剪策略。所有實(shí)驗(yàn)都在NVIDIA Tesla T4 GPU上進(jìn)行，確保了結(jié)果的可重現(xiàn)性。

評(píng)估指標(biāo)方面，研究者選擇了三個(gè)在大語(yǔ)言模型和問(wèn)答基準(zhǔn)測(cè)試中廣泛使用的標(biāo)準(zhǔn)指標(biāo)：精確匹配（Exact Match，EM）、部分精確匹配（Partial Exact Match，PEM）和部分準(zhǔn)精確匹配（Partial Quasi Exact Match，PQEM）。這些指標(biāo)分別衡量嚴(yán)格正確性、部分重疊程度和準(zhǔn)確性的不同層面，為模型性能提供了全面的評(píng)估視角。

八、實(shí)驗(yàn)結(jié)果與性能分析

實(shí)驗(yàn)結(jié)果令人振奮，TPTT框架在各個(gè)模型上都展現(xiàn)出了顯著的性能提升。訓(xùn)練性能方面，所有TPTT模型都實(shí)現(xiàn)了一致且高效的學(xué)習(xí)過(guò)程，最終損失值較低，梯度范數(shù)穩(wěn)定。Titans-Llama-3.2-1B的訓(xùn)練損失為1.375，訓(xùn)練時(shí)間1654.1秒，處理速度達(dá)到每秒1.51個(gè)樣本。類似地，其他模型也展現(xiàn)出了良好的訓(xùn)練動(dòng)態(tài)和收斂特性。

更令人印象深刻的是基準(zhǔn)測(cè)試結(jié)果。在MMLU單次測(cè)試中，Titans-Llama-3.2-1B在精確匹配指標(biāo)上達(dá)到了0.2456±0.1276，相比基準(zhǔn)Llama-3.2-1B的0.0070±0.0058實(shí)現(xiàn)了約20%的顯著提升。這個(gè)結(jié)果充分證明了線性化注意力和內(nèi)存機(jī)制整合對(duì)復(fù)雜語(yǔ)言理解任務(wù)的積極影響。

其他模型的表現(xiàn)同樣值得關(guān)注。Titans-Qwen2.5-1.5B和Titans-OLMo-1B-hf在部分精確匹配和部分準(zhǔn)精確匹配指標(biāo)上也都超越了各自的基準(zhǔn)模型。特別是在部分準(zhǔn)精確匹配指標(biāo)上，多個(gè)TPTT模型都展現(xiàn)出了更好的性能，這表明這些模型在理解和生成與標(biāo)準(zhǔn)答案相關(guān)內(nèi)容方面具有更強(qiáng)的能力。

統(tǒng)計(jì)分析顯示，這些性能提升具有統(tǒng)計(jì)學(xué)意義，不是偶然現(xiàn)象。研究者通過(guò)標(biāo)準(zhǔn)差計(jì)算驗(yàn)證了結(jié)果的可靠性，確保了實(shí)驗(yàn)結(jié)論的科學(xué)性和可信度。

九、與現(xiàn)有技術(shù)的比較優(yōu)勢(shì)

TPTT框架相比于現(xiàn)有的先進(jìn)方法具有獨(dú)特的優(yōu)勢(shì)。與Mamba、LoLCat和Liger等需要從頭訓(xùn)練或進(jìn)行重大架構(gòu)修改的方法不同，TPTT能夠直接轉(zhuǎn)換現(xiàn)有的預(yù)訓(xùn)練模型，無(wú)需完整重訓(xùn)練就能獲得顯著的性能提升。這種特性使得TPTT在實(shí)際應(yīng)用中具有更高的實(shí)用價(jià)值和更低的部署成本。

從技術(shù)角度來(lái)看，TPTT的混合注意力機(jī)制既保持了傳統(tǒng)softmax注意力的表達(dá)能力，又獲得了線性注意力的計(jì)算效率。這種平衡策略避免了單一方法可能存在的局限性，為不同類型的任務(wù)提供了更好的適應(yīng)性。

在資源消耗方面，TPTT特別適合資源受限的環(huán)境。通過(guò)參數(shù)高效微調(diào)和線性化注意力機(jī)制的結(jié)合，系統(tǒng)能夠在較小的計(jì)算和內(nèi)存開(kāi)銷下實(shí)現(xiàn)長(zhǎng)文本處理能力的顯著提升。這對(duì)于無(wú)法承擔(dān)大規(guī)模模型訓(xùn)練成本的研究機(jī)構(gòu)和企業(yè)來(lái)說(shuō)具有重要意義。

實(shí)驗(yàn)數(shù)據(jù)也證實(shí)了TPTT的實(shí)用性和可擴(kuò)展性。在精確匹配和部分匹配指標(biāo)上的一致性改進(jìn)表明，這種方法不僅能提升模型的準(zhǔn)確性，還能增強(qiáng)其在復(fù)雜語(yǔ)言理解任務(wù)中的魯棒性。

十、技術(shù)局限與未來(lái)展望

盡管TPTT展現(xiàn)出了令人矚目的性能，但研究者也誠(chéng)實(shí)地指出了當(dāng)前方法的一些局限性。首先，目前的評(píng)估主要集中在中等規(guī)模的模型上（約10億參數(shù)），將TPTT擴(kuò)展到更大規(guī)模的架構(gòu)和更多樣化的任務(wù)可能會(huì)帶來(lái)新的挑戰(zhàn)，包括調(diào)優(yōu)復(fù)雜性的增加和內(nèi)存機(jī)制進(jìn)一步優(yōu)化的需求。

其次，雖然目前的結(jié)果很有希望，但還需要在更多基準(zhǔn)測(cè)試和實(shí)際應(yīng)用場(chǎng)景中進(jìn)行更廣泛的驗(yàn)證，以全面評(píng)估方法的通用性和魯棒性。不同領(lǐng)域和不同類型的任務(wù)可能對(duì)TPTT的各個(gè)組件有不同的敏感性，這需要進(jìn)一步的研究來(lái)優(yōu)化。

研究者提出了幾個(gè)重要的未來(lái)研究方向。首先是優(yōu)化集成過(guò)程，使TPTT能夠更加自動(dòng)化和智能化地適配不同的預(yù)訓(xùn)練模型架構(gòu)。其次是探索更加復(fù)雜的內(nèi)部記憶機(jī)制，可能借鑒認(rèn)知科學(xué)和神經(jīng)科學(xué)的最新研究成果。

另一個(gè)有前景的方向是將TPTT擴(kuò)展到更大規(guī)模的模型和更廣泛的基準(zhǔn)測(cè)試中。隨著計(jì)算資源的不斷提升，驗(yàn)證TPTT在百億甚至千億參數(shù)模型上的表現(xiàn)將具有重要的理論和實(shí)踐價(jià)值。

最后，研究混合方法和線性化注意力、記憶增強(qiáng)以及其他效率導(dǎo)向技術(shù)之間的相互作用也是一個(gè)值得探索的領(lǐng)域。通過(guò)綜合多種優(yōu)化策略，可能能夠開(kāi)發(fā)出更加強(qiáng)大和高效的語(yǔ)言模型架構(gòu)。

說(shuō)到底，TPTT為我們提供了一個(gè)既實(shí)用又創(chuàng)新的解決方案，讓現(xiàn)有的AI大語(yǔ)言模型能夠更好地處理長(zhǎng)文本任務(wù)。這項(xiàng)技術(shù)的出現(xiàn)就像給智能助手裝上了"超級(jí)記憶"，不僅能夠記住更多信息，還能更高效地處理和理解復(fù)雜內(nèi)容。對(duì)于普通用戶來(lái)說(shuō)，這意味著未來(lái)的AI工具將能夠更好地處理長(zhǎng)篇文檔、進(jìn)行深度對(duì)話，甚至協(xié)助處理需要大量上下文信息的復(fù)雜任務(wù)。研究者已經(jīng)將完整的代碼和工具包開(kāi)源，這為整個(gè)AI社區(qū)的發(fā)展貢獻(xiàn)了寶貴的技術(shù)資源。隨著這項(xiàng)技術(shù)的不斷完善和推廣，我們有理由期待更加智能和高效的AI系統(tǒng)將走進(jìn)我們的日常生活，為各行各業(yè)帶來(lái)更多可能性。有興趣進(jìn)一步了解技術(shù)細(xì)節(jié)的讀者可以訪問(wèn)原論文arXiv:2506.17671v1，或者直接體驗(yàn)GitHub上的開(kāi)源實(shí)現(xiàn)。

Q&A

Q1：TPTT是什么？它能解決什么問(wèn)題？ A：TPTT是一個(gè)能將現(xiàn)有AI大語(yǔ)言模型升級(jí)為"記憶超人"的技術(shù)框架。它主要解決現(xiàn)有模型處理超長(zhǎng)文本時(shí)計(jì)算復(fù)雜度過(guò)高、效率低下的問(wèn)題，讓AI能夠更好地理解和處理長(zhǎng)篇文檔、進(jìn)行深度對(duì)話。

Q2：TPTT會(huì)不會(huì)需要重新訓(xùn)練整個(gè)模型？ A：不需要。TPTT的最大優(yōu)勢(shì)就是能直接改造現(xiàn)有的預(yù)訓(xùn)練模型，只需要通過(guò)參數(shù)高效微調(diào)技術(shù)（如LoRA）進(jìn)行輕量級(jí)調(diào)整，大大降低了部署成本和技術(shù)門(mén)檻。

Q3：普通開(kāi)發(fā)者如何使用TPTT？有什么要求？ A：TPTT已經(jīng)開(kāi)源并與Hugging Face完全兼容，開(kāi)發(fā)者可以通過(guò)GitHub（https://github.com/fabienfrfr/tptt）獲取源代碼，或直接安裝PyPI包。只要會(huì)使用Hugging Face Transformers庫(kù)，就能輕松上手TPTT。

人工智能注意力機(jī)制模型優(yōu)化

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語(yǔ)言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù)，通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開(kāi)辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn