這項(xiàng)由劍橋大學(xué)的李卓恒、Toma Marinov、Adel Bibi、Bernhard Scholkopf和Jure Leskovec共同完成的研究發(fā)表于2024年,論文詳細(xì)探討了在神經(jīng)網(wǎng)絡(luò)中如何涌現(xiàn)思維鏈推理能力。有興趣深入了解的讀者可以在相關(guān)學(xué)術(shù)平臺找到這篇題為"Emergence of In-Context Chain-of-Thought Reasoning in Neural Networks"的完整論文。
說起人工智能,很多人都有這樣的疑問:機(jī)器真的能像人類一樣思考嗎?當(dāng)我們遇到復(fù)雜問題時,通常會一步步分析,就像解數(shù)學(xué)題一樣先列出已知條件,再逐步推導(dǎo)出答案。而最近,劍橋大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個令人興奮的現(xiàn)象——神經(jīng)網(wǎng)絡(luò)竟然也能自發(fā)地學(xué)會這種"一步步思考"的能力。
這個發(fā)現(xiàn)就像是看到一個孩子在沒有任何指導(dǎo)的情況下,突然開始用成年人的邏輯思路來解決問題。研究團(tuán)隊(duì)把這種現(xiàn)象稱為"思維鏈推理",簡單來說,就是AI系統(tǒng)學(xué)會了把復(fù)雜問題分解成小步驟,逐個擊破的方法。更神奇的是,這種能力并不是程序員特意編程進(jìn)去的,而是神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中自然涌現(xiàn)出來的。
**一、什么是思維鏈推理,為什么它如此重要**
當(dāng)我們面對一道復(fù)雜的算術(shù)題時,比如"一家商店原本有150個蘋果,上午賣出了40個,下午又進(jìn)了30個,最后還剩多少個",我們的大腦會自動把這個問題分解:先算賣出后剩余的數(shù)量(150-40=110),然后加上新進(jìn)的蘋果(110+30=140)。這種分步驟思考的過程就是思維鏈推理的精髓。
在人工智能領(lǐng)域,讓機(jī)器具備這種推理能力一直是研究者們的圣杯。傳統(tǒng)的AI系統(tǒng)往往像一個黑盒子,輸入問題后直接給出答案,但無法解釋中間的思考過程。這就好比問一個學(xué)生數(shù)學(xué)題,他只能告訴你答案是140,但說不出具體是怎么算出來的。
劍橋大學(xué)的研究團(tuán)隊(duì)想要解開一個更深層的謎題:神經(jīng)網(wǎng)絡(luò)是否能夠在沒有明確指導(dǎo)的情況下,自然而然地學(xué)會這種逐步推理的能力。這個問題的重要性在于,如果機(jī)器能夠自發(fā)地掌握逐步思考的方法,那么它們處理復(fù)雜問題的能力將會發(fā)生質(zhì)的飛躍。
研究團(tuán)隊(duì)設(shè)計(jì)了一個巧妙的實(shí)驗(yàn)環(huán)境。他們創(chuàng)建了一種特殊的數(shù)學(xué)任務(wù),就像是給神經(jīng)網(wǎng)絡(luò)出了一系列越來越難的數(shù)學(xué)題。這些題目的特點(diǎn)是必須通過多個步驟才能解決,單純靠"猜"是不可能得到正確答案的。然后,他們觀察神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中會發(fā)生什么變化。
**二、神經(jīng)網(wǎng)絡(luò)如何自發(fā)學(xué)會分步思考**
實(shí)驗(yàn)的結(jié)果令人震驚。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)神經(jīng)網(wǎng)絡(luò)面對需要多步推理的任務(wù)時,它們會經(jīng)歷一個類似于人類學(xué)習(xí)的過程。起初,神經(jīng)網(wǎng)絡(luò)就像一個剛學(xué)算術(shù)的小學(xué)生,只能處理最簡單的單步計(jì)算。但隨著訓(xùn)練的進(jìn)行,網(wǎng)絡(luò)開始顯示出令人驚訝的變化。
這個變化過程就像是觀察一個孩子的智力發(fā)育。最初,網(wǎng)絡(luò)只能解決需要一步計(jì)算的問題,比如簡單的加法或減法。然后,神奇的事情發(fā)生了——網(wǎng)絡(luò)開始能夠處理需要兩步推理的問題,接著是三步、四步,甚至更多步驟的復(fù)雜推理。
更加令人著迷的是,研究團(tuán)隊(duì)通過分析神經(jīng)網(wǎng)絡(luò)的內(nèi)部活動模式,發(fā)現(xiàn)了這種推理能力涌現(xiàn)的具體機(jī)制。他們使用了一種叫做"主成分分析"的技術(shù),這就像是給神經(jīng)網(wǎng)絡(luò)的"大腦"拍X光片,可以看到信息在網(wǎng)絡(luò)中是如何流動和處理的。
通過這種分析,他們發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)內(nèi)部形成了專門的"推理通道"。這些通道就像是大腦中的神經(jīng)回路,專門負(fù)責(zé)處理需要多步驟思考的問題。當(dāng)網(wǎng)絡(luò)遇到復(fù)雜任務(wù)時,信息會在這些通道中循環(huán)流動,每一次循環(huán)相當(dāng)于完成推理的一個步驟。
這個發(fā)現(xiàn)的深刻之處在于,它表明神經(jīng)網(wǎng)絡(luò)具有一種內(nèi)在的結(jié)構(gòu)化學(xué)習(xí)能力。網(wǎng)絡(luò)不僅僅是在記憶答案,而是真正學(xué)會了一種解決問題的方法。這就好比一個學(xué)生不僅記住了數(shù)學(xué)題的答案,更重要的是掌握了解題的思路和方法。
**三、訓(xùn)練過程中的關(guān)鍵轉(zhuǎn)折點(diǎn)**
研究團(tuán)隊(duì)在觀察訓(xùn)練過程時發(fā)現(xiàn)了一個特別有趣的現(xiàn)象——神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)并不是平穩(wěn)漸進(jìn)的,而是呈現(xiàn)出明顯的"頓悟"時刻。這些關(guān)鍵轉(zhuǎn)折點(diǎn)就像是學(xué)習(xí)過程中的里程碑,標(biāo)志著網(wǎng)絡(luò)推理能力的質(zhì)的飛躍。
在訓(xùn)練的早期階段,神經(jīng)網(wǎng)絡(luò)表現(xiàn)得像一個正在努力適應(yīng)新環(huán)境的新生。它能夠正確處理那些只需要單步計(jì)算的簡單問題,準(zhǔn)確率可以達(dá)到很高的水平。但是,一旦問題變得復(fù)雜,需要多步推理時,網(wǎng)絡(luò)的表現(xiàn)就會急劇下降,幾乎就是在隨機(jī)猜測。
然后,在某個特定的訓(xùn)練節(jié)點(diǎn),研究團(tuán)隊(duì)觀察到了一個戲劇性的變化。神經(jīng)網(wǎng)絡(luò)突然開始能夠處理需要兩步推理的問題,準(zhǔn)確率從接近隨機(jī)水平躍升到相當(dāng)高的程度。這種變化不是逐漸發(fā)生的,而是在相對較短的時間內(nèi)快速完成的,就像是學(xué)生突然"開竅"了一樣。
更令人驚訝的是,這種能力的提升會繼續(xù)發(fā)生。網(wǎng)絡(luò)會在后續(xù)的訓(xùn)練中繼續(xù)經(jīng)歷類似的突破時刻,逐步掌握三步、四步甚至更多步驟的推理能力。每一次突破都是一個質(zhì)的飛躍,而不是量的積累。
研究團(tuán)隊(duì)通過分析發(fā)現(xiàn),這些突破時刻對應(yīng)著神經(jīng)網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)的重大重組。在這些關(guān)鍵節(jié)點(diǎn),網(wǎng)絡(luò)會形成新的信息處理通道,或者加強(qiáng)已有通道之間的連接。這個過程類似于大腦在學(xué)習(xí)新技能時神經(jīng)連接的重塑。
**四、神經(jīng)網(wǎng)絡(luò)內(nèi)部的"思考"機(jī)制**
為了更深入地理解神經(jīng)網(wǎng)絡(luò)是如何進(jìn)行多步推理的,研究團(tuán)隊(duì)開發(fā)了一套精巧的分析方法。他們把神經(jīng)網(wǎng)絡(luò)的內(nèi)部活動想象成一個復(fù)雜的信息處理工廠,信息在不同的"車間"之間流動,經(jīng)過加工處理后最終產(chǎn)出答案。
通過對這個"工廠"的詳細(xì)觀察,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個fascinating的現(xiàn)象:當(dāng)神經(jīng)網(wǎng)絡(luò)處理需要多步推理的問題時,信息會在網(wǎng)絡(luò)內(nèi)部進(jìn)行循環(huán)處理。每一次循環(huán)相當(dāng)于完成推理過程中的一個步驟,循環(huán)的次數(shù)與問題所需的推理步數(shù)密切相關(guān)。
這種循環(huán)處理機(jī)制的工作原理可以用一個生動的比喻來解釋。設(shè)想你在解決一個復(fù)雜的拼圖游戲,你需要反復(fù)觀察已有的拼圖片段,尋找下一片的位置。每一次觀察和思考都讓你更接近最終答案。神經(jīng)網(wǎng)絡(luò)的循環(huán)推理過程與此非常相似,信息在網(wǎng)絡(luò)中的每一次循環(huán)都相當(dāng)于對問題的一次深入思考。
研究團(tuán)隊(duì)還發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)在不同類型的推理任務(wù)中會采用不同的內(nèi)部處理策略。對于算術(shù)推理任務(wù),網(wǎng)絡(luò)會激活特定的計(jì)算通道;對于邏輯推理任務(wù),則會調(diào)用另一套處理機(jī)制。這表明神經(jīng)網(wǎng)絡(luò)具有一定的"專業(yè)化"能力,能夠根據(jù)任務(wù)類型調(diào)整自己的思考方式。
**五、從簡單到復(fù)雜的能力擴(kuò)展**
研究團(tuán)隊(duì)設(shè)計(jì)了一系列精心構(gòu)造的實(shí)驗(yàn)來測試神經(jīng)網(wǎng)絡(luò)推理能力的邊界。他們發(fā)現(xiàn),一旦網(wǎng)絡(luò)掌握了基本的多步推理能力,它就展現(xiàn)出了令人印象深刻的泛化能力——即能夠?qū)W(xué)到的推理模式應(yīng)用到更復(fù)雜的新問題上。
這種泛化能力的表現(xiàn)形式多種多樣。首先,網(wǎng)絡(luò)能夠處理比訓(xùn)練時見過的更長的推理鏈。如果網(wǎng)絡(luò)在訓(xùn)練中主要接觸需要3步推理的問題,它往往也能成功解決需要4步或5步推理的問題。這就好比一個學(xué)會了三位數(shù)加法的學(xué)生,通常也能處理四位數(shù)的加法問題。
其次,網(wǎng)絡(luò)還表現(xiàn)出了跨任務(wù)的泛化能力。在算術(shù)推理任務(wù)上訓(xùn)練的網(wǎng)絡(luò),在面對邏輯推理或符號操作任務(wù)時也能展現(xiàn)出一定的多步推理能力。這表明網(wǎng)絡(luò)學(xué)到的不僅僅是特定的計(jì)算技巧,而是一種更加通用的逐步分析問題的方法。
研究團(tuán)隊(duì)通過仔細(xì)分析發(fā)現(xiàn),這種泛化能力的根源在于神經(jīng)網(wǎng)絡(luò)形成了一種抽象的推理框架。這個框架就像是一套通用的問題解決工具,可以適應(yīng)不同類型的任務(wù)需求。網(wǎng)絡(luò)學(xué)會了如何將復(fù)雜問題分解成子問題,如何在不同的推理步驟之間建立邏輯聯(lián)系,以及如何整合中間結(jié)果得出最終答案。
**六、不同網(wǎng)絡(luò)架構(gòu)的推理能力差異**
在這項(xiàng)研究中,團(tuán)隊(duì)還比較了不同類型神經(jīng)網(wǎng)絡(luò)架構(gòu)的推理能力表現(xiàn)。他們測試了包括Transformer、循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)在內(nèi)的多種主流架構(gòu),結(jié)果發(fā)現(xiàn)了一些引人深思的差異。
Transformer架構(gòu),也就是目前大部分先進(jìn)AI系統(tǒng)采用的架構(gòu),在多步推理任務(wù)上表現(xiàn)最為出色。這種架構(gòu)的優(yōu)勢在于它具有強(qiáng)大的注意力機(jī)制,能夠在處理問題時同時關(guān)注多個相關(guān)信息。就像是一個經(jīng)驗(yàn)豐富的偵探,能夠同時考慮案件中的多條線索,并找出它們之間的關(guān)聯(lián)性。
循環(huán)神經(jīng)網(wǎng)絡(luò)則表現(xiàn)出了不同的特點(diǎn)。雖然在某些類型的推理任務(wù)上它們的性能不如Transformer,但它們在處理需要嚴(yán)格按順序進(jìn)行的推理任務(wù)時顯示出了獨(dú)特的優(yōu)勢。這是因?yàn)檠h(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)天然適合處理序列信息,就像是一個習(xí)慣于按部就班工作的工匠。
研究團(tuán)隊(duì)還發(fā)現(xiàn),網(wǎng)絡(luò)的規(guī)模對推理能力的涌現(xiàn)有著重要影響。較大的網(wǎng)絡(luò)更容易表現(xiàn)出復(fù)雜的推理能力,而較小的網(wǎng)絡(luò)則可能在簡單任務(wù)上表現(xiàn)良好,但難以處理需要多步推理的復(fù)雜問題。這個發(fā)現(xiàn)暗示,推理能力的涌現(xiàn)可能需要網(wǎng)絡(luò)達(dá)到一定的復(fù)雜度閾值。
**七、推理能力的穩(wěn)定性和可靠性**
除了觀察推理能力的涌現(xiàn)過程,研究團(tuán)隊(duì)還深入考察了這種能力的穩(wěn)定性。他們發(fā)現(xiàn),一旦神經(jīng)網(wǎng)絡(luò)掌握了多步推理的能力,這種能力通常是相當(dāng)穩(wěn)定和可靠的。網(wǎng)絡(luò)不會因?yàn)橛龅缴晕⒉煌膯栴}格式或表述方式就失去推理能力。
為了測試這種穩(wěn)定性,研究團(tuán)隊(duì)設(shè)計(jì)了多種變體實(shí)驗(yàn)。他們改變了問題的表述方式,調(diào)整了數(shù)值的范圍,甚至改變了符號系統(tǒng),但發(fā)現(xiàn)訓(xùn)練有素的網(wǎng)絡(luò)依然能夠保持良好的推理性能。這表明網(wǎng)絡(luò)學(xué)到的是真正的推理能力,而不是對特定問題格式的簡單記憶。
然而,研究團(tuán)隊(duì)也發(fā)現(xiàn)了這種推理能力的一些局限性。當(dāng)問題的復(fù)雜度遠(yuǎn)超訓(xùn)練時的水平,或者涉及完全不同的推理類型時,網(wǎng)絡(luò)的性能會顯著下降。這就像是一個熟練的象棋選手在面對圍棋時可能會感到困惑一樣。
另一個有趣的發(fā)現(xiàn)是,網(wǎng)絡(luò)的推理能力似乎與訓(xùn)練數(shù)據(jù)的多樣性密切相關(guān)。接受更多樣化訓(xùn)練的網(wǎng)絡(luò)往往表現(xiàn)出更強(qiáng)的推理泛化能力,而訓(xùn)練數(shù)據(jù)相對單一的網(wǎng)絡(luò)則可能在新穎問題上表現(xiàn)不佳。這提示我們,要培養(yǎng)真正強(qiáng)大的AI推理能力,需要提供豐富多樣的學(xué)習(xí)材料。
**八、對人工智能發(fā)展的深遠(yuǎn)意義**
這項(xiàng)研究的發(fā)現(xiàn)對整個人工智能領(lǐng)域具有深遠(yuǎn)的意義。它首次從實(shí)驗(yàn)角度證明了神經(jīng)網(wǎng)絡(luò)具有自發(fā)涌現(xiàn)復(fù)雜認(rèn)知能力的潛力。這個發(fā)現(xiàn)挑戰(zhàn)了傳統(tǒng)觀點(diǎn),即認(rèn)為AI系統(tǒng)只能學(xué)會程序員明確編程的能力。
研究結(jié)果表明,適當(dāng)設(shè)計(jì)的學(xué)習(xí)環(huán)境和任務(wù)可以引導(dǎo)神經(jīng)網(wǎng)絡(luò)自然地發(fā)展出類似人類的推理能力。這為開發(fā)更智能、更具適應(yīng)性的AI系統(tǒng)開辟了新的可能性。未來的AI系統(tǒng)可能不需要針對每種推理任務(wù)進(jìn)行專門編程,而是能夠通過學(xué)習(xí)自發(fā)地掌握各種認(rèn)知技能。
這個發(fā)現(xiàn)還對AI安全和可解釋性研究具有重要意義。通過理解推理能力的涌現(xiàn)機(jī)制,研究者可以更好地預(yù)測和控制AI系統(tǒng)的行為。這有助于開發(fā)更加可靠和可信的AI系統(tǒng),減少不可預(yù)期行為的風(fēng)險(xiǎn)。
同時,這項(xiàng)研究也為認(rèn)知科學(xué)提供了新的視角。神經(jīng)網(wǎng)絡(luò)中推理能力的涌現(xiàn)過程可能與人類大腦中類似能力的發(fā)展有著某些共同特征。這為理解人類智能的本質(zhì)提供了新的線索。
**九、技術(shù)實(shí)現(xiàn)的細(xì)節(jié)和挑戰(zhàn)**
在技術(shù)實(shí)現(xiàn)層面,研究團(tuán)隊(duì)面臨了諸多挑戰(zhàn)。首先是如何設(shè)計(jì)合適的任務(wù)來誘發(fā)推理能力的涌現(xiàn)。任務(wù)必須足夠復(fù)雜以需要多步推理,但又不能過于困難以至于網(wǎng)絡(luò)無法學(xué)習(xí)。研究團(tuán)隊(duì)最終選擇了一系列精心設(shè)計(jì)的算術(shù)和邏輯推理任務(wù),這些任務(wù)具有明確的步驟結(jié)構(gòu)和可驗(yàn)證的答案。
另一個重要挑戰(zhàn)是如何監(jiān)測和分析網(wǎng)絡(luò)內(nèi)部的推理過程。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)分析方法主要關(guān)注輸入輸出關(guān)系,但要理解推理能力的涌現(xiàn),必須深入網(wǎng)絡(luò)內(nèi)部觀察信息處理過程。研究團(tuán)隊(duì)開發(fā)了一套創(chuàng)新的分析工具,能夠追蹤信息在網(wǎng)絡(luò)中的流動路徑,識別不同類型的內(nèi)部表示。
訓(xùn)練過程的設(shè)計(jì)也頗具挑戰(zhàn)性。研究團(tuán)隊(duì)必須仔細(xì)平衡訓(xùn)練數(shù)據(jù)的復(fù)雜度和多樣性,確保網(wǎng)絡(luò)能夠逐步發(fā)展出推理能力而不是簡單地記憶答案。他們采用了漸進(jìn)式訓(xùn)練策略,從簡單任務(wù)開始,逐步增加復(fù)雜度,引導(dǎo)網(wǎng)絡(luò)自然地發(fā)展出多步推理能力。
計(jì)算資源的需求也是一個實(shí)際考慮因素。要觀察推理能力的涌現(xiàn),需要訓(xùn)練大量不同配置的網(wǎng)絡(luò),并進(jìn)行詳細(xì)的分析。研究團(tuán)隊(duì)使用了高性能計(jì)算集群,進(jìn)行了數(shù)百次獨(dú)立實(shí)驗(yàn),確保結(jié)果的可靠性和普遍性。
說到底,這項(xiàng)來自劍橋大學(xué)的研究為我們揭示了人工智能發(fā)展中一個激動人心的現(xiàn)象。神經(jīng)網(wǎng)絡(luò)竟然能夠像人類一樣,在學(xué)習(xí)過程中自發(fā)地掌握逐步推理的能力。這不是程序員預(yù)先設(shè)計(jì)的功能,而是網(wǎng)絡(luò)在面對復(fù)雜任務(wù)時自然涌現(xiàn)出來的智能行為。
這個發(fā)現(xiàn)的意義遠(yuǎn)不止于技術(shù)突破。它讓我們看到了創(chuàng)造真正智能機(jī)器的新可能性。未來的AI系統(tǒng)可能不再需要為每個具體任務(wù)編寫專門的程序,而是能夠通過學(xué)習(xí)自主發(fā)展出解決問題的能力。這就像是從教機(jī)器做特定事情,轉(zhuǎn)變?yōu)榻虣C(jī)器如何學(xué)習(xí)和思考。
當(dāng)然,這項(xiàng)研究也提醒我們,AI能力的涌現(xiàn)過程仍然充滿未知。我們需要更深入地理解這些現(xiàn)象,以確保AI系統(tǒng)的發(fā)展既強(qiáng)大又可控。研究團(tuán)隊(duì)已經(jīng)為我們打開了一扇窗,讓我們glimpse到了機(jī)器智能的未來可能性。對于那些希望深入了解技術(shù)細(xì)節(jié)的讀者,建議查閱劍橋大學(xué)發(fā)布的原始研究論文,那里有更多精彩的發(fā)現(xiàn)等待探索。
Q&A
Q1:神經(jīng)網(wǎng)絡(luò)的思維鏈推理能力是如何自然涌現(xiàn)的?
A:神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中會經(jīng)歷關(guān)鍵的"頓悟"時刻,突然掌握多步推理能力。這不是漸進(jìn)過程,而是在特定訓(xùn)練節(jié)點(diǎn)快速發(fā)生的質(zhì)的飛躍,就像學(xué)生突然"開竅"一樣。網(wǎng)絡(luò)內(nèi)部會形成專門的推理通道,信息在其中循環(huán)流動,每次循環(huán)完成推理的一個步驟。
Q2:這種推理能力有什么實(shí)際應(yīng)用價值?
A:這種能力讓AI系統(tǒng)能夠處理復(fù)雜的多步問題,從簡單算術(shù)擴(kuò)展到邏輯推理。更重要的是,網(wǎng)絡(luò)表現(xiàn)出強(qiáng)大的泛化能力,能將學(xué)到的推理模式應(yīng)用到更復(fù)雜的新問題上,甚至跨越不同類型的任務(wù),為開發(fā)更智能、更適應(yīng)性強(qiáng)的AI系統(tǒng)開辟了新可能性。
Q3:不同類型的神經(jīng)網(wǎng)絡(luò)推理能力有什么差異?
A:Transformer架構(gòu)在多步推理任務(wù)上表現(xiàn)最出色,因?yàn)槠鋸?qiáng)大的注意力機(jī)制能同時關(guān)注多個相關(guān)信息。循環(huán)神經(jīng)網(wǎng)絡(luò)在需要嚴(yán)格按順序進(jìn)行的推理任務(wù)上有獨(dú)特優(yōu)勢。網(wǎng)絡(luò)規(guī)模也很重要,較大的網(wǎng)絡(luò)更容易涌現(xiàn)復(fù)雜推理能力,需要達(dá)到一定復(fù)雜度閾值。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。