這項(xiàng)突破性研究來自西北大學(xué)、伊利諾伊大學(xué)厄巴納-香檳分校、斯坦福大學(xué)、華盛頓大學(xué)、薩里大學(xué)和牛津大學(xué)的聯(lián)合團(tuán)隊(duì)。研究由西北大學(xué)的王子涵、伊利諾伊大學(xué)的潘瑞和姚嘉瑞等學(xué)者領(lǐng)導(dǎo),于2025年6月23日發(fā)表在arXiv預(yù)印本服務(wù)器上(論文編號(hào):arXiv:2506.18945v1),有興趣深入了解的讀者可以通過https://github.com/ZihanWang314/coe訪問相關(guān)代碼和詳細(xì)資料。
當(dāng)我們談?wù)撊斯ぶ悄苋绾巫兊酶斆鲿r(shí),一個(gè)核心挑戰(zhàn)就像是如何讓一個(gè)龐大的專家團(tuán)隊(duì)高效協(xié)作。目前最先進(jìn)的AI模型采用了一種叫做"專家混合"的技術(shù),就像是在一個(gè)大公司里,每當(dāng)遇到問題時(shí),系統(tǒng)會(huì)同時(shí)召集多個(gè)專家并行工作,然后綜合他們的意見得出答案。這種方法確實(shí)提高了效率,但研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)問題:這些專家之間缺乏交流,各自獨(dú)立工作,就像是幾個(gè)專業(yè)顧問在同一個(gè)房間里各自埋頭寫報(bào)告,卻從不互相討論。
研究團(tuán)隊(duì)提出了一個(gè)革命性的解決方案,他們稱之為"專家鏈"(Chain-of-Experts,簡稱CoE)。這個(gè)新方法的核心思想非常簡單卻極其巧妙:讓專家們像接力賽一樣依次工作,每個(gè)專家都能看到前一個(gè)專家的工作成果,并在此基礎(chǔ)上繼續(xù)改進(jìn)。這就好比是讓一支醫(yī)療團(tuán)隊(duì)治療復(fù)雜病例時(shí),先讓診斷專家檢查病人,然后將診斷結(jié)果傳遞給治療專家,治療專家再根據(jù)診斷結(jié)果制定更精準(zhǔn)的治療方案。
這種"接力式"的工作方式帶來了令人矚目的效果。在數(shù)學(xué)推理任務(wù)上,新方法將驗(yàn)證損失從1.20降低到1.12,這意味著AI模型在理解和解決數(shù)學(xué)問題方面變得更加準(zhǔn)確。更重要的是,這種改進(jìn)是在相同計(jì)算資源條件下實(shí)現(xiàn)的,就像是用同樣的燃料讓汽車跑得更遠(yuǎn)。
一、傳統(tǒng)方法的局限性:各自為政的專家團(tuán)隊(duì)
要理解這項(xiàng)研究的重要性,我們首先需要了解當(dāng)前AI模型是如何工作的?,F(xiàn)代大型語言模型面臨著一個(gè)根本性的挑戰(zhàn):如何在保持高性能的同時(shí)控制計(jì)算成本。這就像是一家公司既要提供高質(zhì)量的服務(wù),又要控制運(yùn)營成本。
傳統(tǒng)的專家混合模型采用了一種看似聰明的策略:建立一個(gè)龐大的專家?guī)?,但對于每個(gè)具體問題,只激活其中一小部分專家。這種方法的優(yōu)勢顯而易見,就像是一家咨詢公司擁有數(shù)百名專家,但每個(gè)項(xiàng)目只派遣最相關(guān)的幾名專家參與,這樣既能保證專業(yè)性,又能控制成本。
然而,這種方法存在一個(gè)根本性的缺陷:專家們是并行工作的,彼此之間沒有交流。每個(gè)專家都獨(dú)立地分析同一個(gè)問題,然后系統(tǒng)簡單地將他們的意見綜合起來。這就像是讓幾名醫(yī)生同時(shí)獨(dú)立診斷同一個(gè)病人,然后簡單地平均他們的意見。這種方式忽略了一個(gè)重要事實(shí):復(fù)雜問題往往需要多步驟的分析和逐步refinement,而這正是專家協(xié)作的價(jià)值所在。
研究團(tuán)隊(duì)通過深入分析發(fā)現(xiàn),這種獨(dú)立性假設(shè)可能嚴(yán)重限制了模型利用專家間互補(bǔ)推理模式的能力。在現(xiàn)實(shí)世界中,最好的解決方案往往來自于專家間的深度協(xié)作和知識(shí)傳遞,而不是簡單的意見匯總。正是基于這一洞察,他們開始探索一種全新的專家協(xié)作模式。
二、創(chuàng)新突破:讓專家學(xué)會(huì)"接力"
研究團(tuán)隊(duì)提出的專家鏈方法完全顛覆了傳統(tǒng)的并行處理模式。在這個(gè)新系統(tǒng)中,專家們不再同時(shí)工作,而是形成一個(gè)有序的處理鏈條。當(dāng)一個(gè)問題進(jìn)入系統(tǒng)時(shí),第一個(gè)專家會(huì)對其進(jìn)行初步分析,然后將分析結(jié)果連同原始問題一起傳遞給下一個(gè)專家。第二個(gè)專家能夠看到第一個(gè)專家的工作成果,在此基礎(chǔ)上進(jìn)行進(jìn)一步的分析和改進(jìn)。
這個(gè)過程可以用烹飪來類比。傳統(tǒng)方法就像是讓幾個(gè)廚師同時(shí)用相同的食材制作同一道菜,然后將結(jié)果混合在一起。而新方法則像是讓第一個(gè)廚師進(jìn)行食材預(yù)處理,第二個(gè)廚師根據(jù)預(yù)處理結(jié)果進(jìn)行調(diào)味和烹制,每一步都建立在前一步的基礎(chǔ)上,最終產(chǎn)出更加精致的菜品。
這種設(shè)計(jì)的技術(shù)實(shí)現(xiàn)非常巧妙。系統(tǒng)在每個(gè)處理步驟都設(shè)置了獨(dú)立的路由器,這些路由器能夠根據(jù)當(dāng)前的中間結(jié)果動(dòng)態(tài)決定下一步應(yīng)該選擇哪個(gè)專家。這意味著處理路徑不是預(yù)先固定的,而是根據(jù)問題的具體情況和前期處理結(jié)果自適應(yīng)調(diào)整的。這就像是GPS導(dǎo)航系統(tǒng)能夠根據(jù)實(shí)時(shí)路況動(dòng)態(tài)調(diào)整路線一樣。
更重要的是,系統(tǒng)在每個(gè)處理步驟都加入了殘差連接。這個(gè)技術(shù)概念聽起來復(fù)雜,但實(shí)際上就像是在每次專家交接時(shí)保留一份"原始檔案"。這樣即使某個(gè)專家的處理出現(xiàn)偏差,系統(tǒng)也能夠參考原始信息進(jìn)行糾正,確保處理過程的穩(wěn)定性和可靠性。
三、實(shí)驗(yàn)驗(yàn)證:數(shù)字背后的突破
為了驗(yàn)證這種新方法的有效性,研究團(tuán)隊(duì)進(jìn)行了大量的對比實(shí)驗(yàn)。他們選擇了兩個(gè)具有代表性的數(shù)據(jù)集:SlimPajama(包含6270億個(gè)詞匯的大規(guī)模通用語料庫)和MetaMathQA(專門用于數(shù)學(xué)推理的數(shù)據(jù)集)。這種選擇很有策略性,因?yàn)樗葴y試了模型在通用語言理解方面的能力,也考察了在特定領(lǐng)域(數(shù)學(xué)推理)的表現(xiàn)。
實(shí)驗(yàn)設(shè)計(jì)非常嚴(yán)謹(jǐn),研究團(tuán)隊(duì)確保了公平比較的前提條件。他們構(gòu)建了一個(gè)包含544百萬參數(shù)的模型,采用了與DeepSeek-V2-Lite相似的架構(gòu)。模型包含4個(gè)層級(jí),每個(gè)層級(jí)有1024個(gè)隱藏單元和8個(gè)注意力頭。在專家配置上,每個(gè)層級(jí)包含63個(gè)路由專家和1個(gè)共享專家,對于每個(gè)輸入詞匯,系統(tǒng)會(huì)選擇8個(gè)路由專家進(jìn)行處理。
實(shí)驗(yàn)結(jié)果令人振奮。在相同的計(jì)算預(yù)算下,專家鏈方法在多個(gè)基準(zhǔn)測試上都顯示出了優(yōu)勢。在ARC-E測試中,準(zhǔn)確率從27.2%提升到28.1%;在HellaSwag測試中,性能基本持平但表現(xiàn)更穩(wěn)定;在PIQA測試中,也取得了微小但一致的改進(jìn)。雖然這些數(shù)字看起來提升幅度不大,但在AI領(lǐng)域,每一個(gè)百分點(diǎn)的提升都代表著顯著的進(jìn)步,特別是在保持相同計(jì)算成本的前提下。
更令人印象深刻的是驗(yàn)證損失的改進(jìn)。從1.20降低到1.12的變化意味著模型在理解和預(yù)測方面變得更加準(zhǔn)確。這種改進(jìn)在數(shù)學(xué)推理任務(wù)上尤為明顯,這表明專家間的協(xié)作對于需要多步驟邏輯推理的任務(wù)特別有效。
四、深度分析:為什么"接力"比"并行"更有效
研究團(tuán)隊(duì)不滿足于僅僅展示實(shí)驗(yàn)結(jié)果,他們深入探究了專家鏈方法優(yōu)越性的根本原因。通過一系列精心設(shè)計(jì)的分析實(shí)驗(yàn),他們揭示了幾個(gè)關(guān)鍵的洞察。
首先是組合靈活性的顯著提升。在傳統(tǒng)方法中,如果系統(tǒng)需要選擇8個(gè)專家,那么可能的專家組合數(shù)量是C(64,8),這是一個(gè)相當(dāng)大但有限的數(shù)字。而在專家鏈方法中,通過兩輪各選擇4個(gè)專家的方式,可能的專家組合達(dá)到了C(64,4)?,這比傳統(tǒng)方法多出了823倍的可能性。這種組合爆炸為模型提供了極其豐富的表達(dá)能力,就像是從有限的幾種樂器組合擴(kuò)展到了一個(gè)完整的交響樂團(tuán)。
其次是有效深度的增加。雖然參數(shù)總量保持不變,但迭代處理實(shí)際上增加了模型的有效計(jì)算深度。每一輪專家處理都相當(dāng)于為模型增加了一層邏輯推理能力。這就像是用同樣的建筑材料,通過更巧妙的結(jié)構(gòu)設(shè)計(jì)建造出了更高的建筑。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了專家特化現(xiàn)象的出現(xiàn)。通過分析專家協(xié)作模式,他們發(fā)現(xiàn)不同輪次的專家開始承擔(dān)不同的角色:一些專家擅長問題的初步分析,而另一些專家則專長于精細(xì)化處理。這種自發(fā)形成的角色分工大大提高了整個(gè)系統(tǒng)的效率。
五、技術(shù)細(xì)節(jié):關(guān)鍵設(shè)計(jì)選擇的影響
為了確保專家鏈方法的有效性,研究團(tuán)隊(duì)在設(shè)計(jì)中做出了幾個(gè)關(guān)鍵的技術(shù)選擇,并通過詳細(xì)的消融實(shí)驗(yàn)驗(yàn)證了這些選擇的重要性。
獨(dú)立路由機(jī)制被證明是至關(guān)重要的。研究團(tuán)隊(duì)比較了使用獨(dú)立路由和共享路由的效果,發(fā)現(xiàn)如果在所有處理步驟中使用相同的專家選擇,系統(tǒng)性能會(huì)顯著下降,驗(yàn)證損失會(huì)快速上升到1.5左右,甚至不如傳統(tǒng)方法。這個(gè)結(jié)果強(qiáng)調(diào)了動(dòng)態(tài)專家選擇的重要性:每個(gè)處理步驟都需要根據(jù)當(dāng)前狀態(tài)重新評(píng)估和選擇最合適的專家。
殘差連接的設(shè)計(jì)也經(jīng)過了仔細(xì)的考量。研究團(tuán)隊(duì)測試了三種不同的殘差連接策略:內(nèi)部殘差(在每個(gè)處理步驟都添加殘差連接)、外部殘差(只在最終輸出時(shí)添加殘差連接)和初始?xì)埐睿坎蕉歼B接到最初輸入)。實(shí)驗(yàn)結(jié)果顯示,內(nèi)部殘差連接效果最好,損失為1.12;初始?xì)埐钸B接次之,損失為1.18;而外部殘差連接效果最差,損失達(dá)到1.21。這個(gè)發(fā)現(xiàn)表明,在每個(gè)處理步驟都保持與前一步的連接對于穩(wěn)定訓(xùn)練過程至關(guān)重要。
稀疏性對于專家鏈方法的有效性也起到了關(guān)鍵作用。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)專家選擇保持稀疏(即每次只選擇少數(shù)專家)時(shí),增加通信步驟能夠帶來明顯的性能提升。但是,當(dāng)系統(tǒng)變得密集(即每次都激活大部分或全部專家)時(shí),迭代處理的優(yōu)勢就會(huì)消失。這個(gè)現(xiàn)象的原因在于:稀疏性促進(jìn)了專家特化,讓不同輪次能夠?qū)W⒂诓煌奶幚矸矫妫欢诿芗O(shè)置下,重復(fù)處理只是簡單地增加了計(jì)算深度,卻沒有引入額外的多樣性。
六、擴(kuò)展性探索:新的AI模型scaling維度
這項(xiàng)研究最激動(dòng)人心的發(fā)現(xiàn)之一是專家鏈為AI模型擴(kuò)展提供了一個(gè)全新的維度。傳統(tǒng)上,研究人員通過增加模型寬度(更多參數(shù))或深度(更多層級(jí))來提升性能,但這兩種方法都會(huì)顯著增加計(jì)算成本和內(nèi)存需求。專家鏈提供了第三種選擇:通過增加專家協(xié)作的輪次來提升性能。
研究團(tuán)隊(duì)進(jìn)行了系統(tǒng)性的擴(kuò)展性比較實(shí)驗(yàn)。他們發(fā)現(xiàn),使用2輪專家協(xié)作的專家鏈模型能夠匹配使用3倍專家選擇寬度的傳統(tǒng)模型的性能,同時(shí)內(nèi)存使用量減少了17.6%到42%。這意味著專家鏈不僅提供了性能改進(jìn),還提供了資源效率方面的優(yōu)勢。
在深度比較實(shí)驗(yàn)中,4層的專家鏈模型(使用2輪協(xié)作)能夠達(dá)到12層傳統(tǒng)模型的性能水平,同時(shí)保持更低的內(nèi)存占用和相似的訓(xùn)練時(shí)間。這種效果就像是用更少的樓層建造出了同樣高度的建筑,通過巧妙的內(nèi)部結(jié)構(gòu)設(shè)計(jì)實(shí)現(xiàn)了空間的最大化利用。
研究團(tuán)隊(duì)還探索了進(jìn)一步增加協(xié)作輪次的效果。雖然從1輪增加到2輪帶來了明顯的改進(jìn),但進(jìn)一步增加到3輪或4輪的收益開始遞減,有時(shí)甚至?xí)碛?xùn)練不穩(wěn)定性。這個(gè)發(fā)現(xiàn)提示我們,專家協(xié)作的輪次并不是越多越好,存在一個(gè)最優(yōu)的平衡點(diǎn)。
七、專家協(xié)作模式:可視化分析的驚人發(fā)現(xiàn)
為了深入理解專家鏈中的協(xié)作模式,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的可視化分析。他們追蹤了每個(gè)詞匯在不同處理輪次中的專家選擇模式,并生成了協(xié)作矩陣來展示專家間的交互關(guān)系。
這些分析揭示了一些非常有趣的現(xiàn)象。首先,專家配對并不是隨機(jī)的。某些專家組合出現(xiàn)的頻率遠(yuǎn)高于其他組合,這表明系統(tǒng)自發(fā)地發(fā)現(xiàn)了有效的專家協(xié)作模式。更重要的是,這些協(xié)作模式在不同數(shù)據(jù)集上表現(xiàn)出不同的特征。
在通用語言數(shù)據(jù)(SlimPajama)上,專家過渡模式相對均勻分布,反映了語言的多樣性和復(fù)雜性。但在數(shù)學(xué)推理數(shù)據(jù)(MetaMathQA)上,協(xié)作模式更加集中,這表明數(shù)學(xué)問題具有更明確的解決路徑和邏輯結(jié)構(gòu)。
隨著訓(xùn)練的進(jìn)行,這些協(xié)作模式也在不斷演化。在SlimPajama數(shù)據(jù)上,專家過渡逐漸變得更加集中,表明模型在學(xué)習(xí)過程中識(shí)別出了一些持久有效的處理路徑。而在MetaMathQA上,模式反而變得更加分散,這可能是因?yàn)槟P蛯W(xué)會(huì)了為不同類型的數(shù)學(xué)問題采用不同的解決策略。
對角線強(qiáng)度分析顯示,專家很少對自己之前處理過的詞匯進(jìn)行重復(fù)處理,這證實(shí)了專家鏈的"流動(dòng)性"特征。同時(shí),某些專家更常作為"入口點(diǎn)"處理初始輸入,而另一些專家則更常作為"匯聚點(diǎn)"處理精煉后的表示。這種角色分化特別在數(shù)學(xué)推理任務(wù)中明顯,表明了任務(wù)驅(qū)動(dòng)的專家特化現(xiàn)象。
八、理論基礎(chǔ):組合論和表示能力的提升
研究團(tuán)隊(duì)從理論角度分析了專家鏈優(yōu)勢的根本原因。他們提出了兩個(gè)核心理論:組合靈活性理論和有效深度理論。
組合靈活性理論指出,傳統(tǒng)方法在單次操作中選擇2k個(gè)專家,可能的組合數(shù)為C(n,2k)。而專家鏈通過兩次獨(dú)立的top-k路由操作,可能的組合數(shù)達(dá)到C(n,k)?。以n=64、k=4為例,這種變化使可能的專家配對從傳統(tǒng)方法的幾千種增加到超過400萬種,增長了823倍。這種組合爆炸為模型提供了極其豐富的表示能力,能夠編碼更多樣化的專家交互模式。
有效深度理論解釋了專家鏈如何在不增加參數(shù)的情況下增加模型的計(jì)算深度。由于第一輪專家的輸出會(huì)影響第二輪的路由決策,系統(tǒng)實(shí)際上為每個(gè)輸入詞匯應(yīng)用了不同的變換序列。這種機(jī)制使得詞匯可以經(jīng)歷多次精煉過程,或者被不同專家重新審視,從而在稀疏模塊化架構(gòu)內(nèi)實(shí)現(xiàn)了類似深度的精煉效果。
這些理論分析得到了實(shí)證研究的支持。最近的分析表明,更深的內(nèi)部計(jì)算路徑與改進(jìn)的推理能力相關(guān),特別是在數(shù)學(xué)和邏輯推理方面。專家鏈通過啟用逐步專家組合,在保持稀疏性的同時(shí)支持了這種類似深度的精煉過程。
九、實(shí)際應(yīng)用前景和局限性
雖然這項(xiàng)研究取得了令人矚目的成果,但研究團(tuán)隊(duì)也坦誠地討論了當(dāng)前方法的局限性和未來改進(jìn)方向。
在實(shí)際應(yīng)用方面,專家鏈方法面臨的主要挑戰(zhàn)是順序處理帶來的時(shí)間開銷。雖然理論上的計(jì)算量與傳統(tǒng)方法相當(dāng),但由于需要依次執(zhí)行多個(gè)處理步驟,實(shí)際運(yùn)行時(shí)間可能會(huì)有所增加。這就像是雖然總的工作量相同,但串行處理通常比并行處理需要更長時(shí)間。
另一個(gè)限制是專家鏈需要從頭開始訓(xùn)練,無法直接應(yīng)用于現(xiàn)有的預(yù)訓(xùn)練模型。這意味著想要利用這種技術(shù)的研究者和開發(fā)者需要重新訓(xùn)練他們的模型,這在資源和時(shí)間上都是一個(gè)不小的投入。
在模型規(guī)模方面,當(dāng)前的實(shí)驗(yàn)主要在相對較小的模型上進(jìn)行。雖然結(jié)果令人鼓舞,但是否能在更大規(guī)模的模型上保持同樣的優(yōu)勢還需要進(jìn)一步驗(yàn)證。大規(guī)模模型可能面臨不同的挑戰(zhàn),如訓(xùn)練穩(wěn)定性和收斂速度等問題。
研究團(tuán)隊(duì)也指出,當(dāng)前的實(shí)現(xiàn)只在單設(shè)備環(huán)境下進(jìn)行了測試。在多節(jié)點(diǎn)分布式訓(xùn)練環(huán)境下,專家鏈方法可能面臨新的技術(shù)挑戰(zhàn),特別是在專家調(diào)度和通信優(yōu)化方面。
十、未來發(fā)展方向
基于當(dāng)前的研究成果,團(tuán)隊(duì)規(guī)劃了幾個(gè)重要的未來研究方向。
首先是規(guī)模擴(kuò)展驗(yàn)證。研究團(tuán)隊(duì)計(jì)劃在更大的模型規(guī)模、批次大小和訓(xùn)練步驟上驗(yàn)證專家鏈的優(yōu)勢是否能夠持續(xù)。這種驗(yàn)證對于確定方法在實(shí)際應(yīng)用中的可行性至關(guān)重要。
其次是領(lǐng)域擴(kuò)展評(píng)估。雖然當(dāng)前實(shí)驗(yàn)主要集中在數(shù)學(xué)推理領(lǐng)域,但研究團(tuán)隊(duì)計(jì)劃擴(kuò)展到更廣泛的領(lǐng)域,包括語言理解、代碼生成等基準(zhǔn)測試。這種擴(kuò)展將幫助確定專家鏈方法的通用性。
在技術(shù)層面,研究團(tuán)隊(duì)計(jì)劃探索更深層次的專家協(xié)作。當(dāng)前實(shí)驗(yàn)主要使用兩輪協(xié)作,但更多輪次的迭代深度效果仍有待探索。同時(shí),他們也在研究如何將專家鏈與其他先進(jìn)技術(shù)結(jié)合,如跨層專家共享等。
另一個(gè)重要方向是優(yōu)化工程實(shí)現(xiàn)。研究團(tuán)隊(duì)正在探索如何減少順序處理帶來的時(shí)間開銷,以及如何在分布式環(huán)境下高效實(shí)現(xiàn)專家鏈。
說到底,這項(xiàng)研究代表了AI模型設(shè)計(jì)思路的一個(gè)重要轉(zhuǎn)變。傳統(tǒng)的"更多就是更好"的scaling哲學(xué)正在向"更智能的協(xié)作就是更好"的方向演進(jìn)。專家鏈方法證明了通過巧妙的架構(gòu)設(shè)計(jì),我們可以在不顯著增加計(jì)算成本的情況下獲得更好的性能。
這種方法的核心洞察——讓AI系統(tǒng)的不同組件進(jìn)行有序協(xié)作而非簡單并行處理——可能會(huì)啟發(fā)更多類似的創(chuàng)新。正如現(xiàn)實(shí)世界中最好的解決方案往往來自團(tuán)隊(duì)協(xié)作而非個(gè)人努力,AI系統(tǒng)也可能通過更好的內(nèi)部協(xié)作機(jī)制實(shí)現(xiàn)質(zhì)的飛躍。
對于普通人來說,這項(xiàng)研究意味著未來的AI系統(tǒng)可能會(huì)變得更加智能和高效,能夠以更低的成本提供更好的服務(wù)。無論是語言翻譯、文檔寫作還是問題解答,這些應(yīng)用都可能因?yàn)閷<益溂夹g(shù)的普及而變得更加精準(zhǔn)和可靠。
這項(xiàng)研究也提醒我們,在AI快速發(fā)展的時(shí)代,創(chuàng)新往往來自于對現(xiàn)有方法的深入思考和巧妙改進(jìn),而不僅僅是簡單的資源堆砌。正如研究團(tuán)隊(duì)所證明的,有時(shí)候改變工作方式比增加工作資源更加有效。
對于想要深入了解這項(xiàng)研究的讀者,完整的論文和代碼已經(jīng)在GitHub上開源(https://github.com/ZihanWang314/coe),這為學(xué)術(shù)界和工業(yè)界的進(jìn)一步研究和應(yīng)用提供了寶貴的資源。
Q&A
Q1:專家鏈(CoE)是什么?它和傳統(tǒng)AI模型有什么不同? A:專家鏈?zhǔn)且环N新的AI模型架構(gòu),讓模型內(nèi)部的"專家"像接力賽一樣依次工作,而不是像傳統(tǒng)方法那樣同時(shí)并行工作。這種方式讓后面的專家能夠看到前面專家的工作成果,就像醫(yī)療團(tuán)隊(duì)中診斷專家先檢查病人,然后治療專家根據(jù)診斷結(jié)果制定方案一樣,實(shí)現(xiàn)了更智能的協(xié)作。
Q2:專家鏈會(huì)不會(huì)讓AI運(yùn)行變慢? A:理論上計(jì)算量相同,但實(shí)際運(yùn)行時(shí)間可能略有增加,因?yàn)樾枰错樞蛱幚矶皇遣⑿刑幚?。不過研究顯示這種時(shí)間成本是值得的,因?yàn)槟塬@得更好的性能和更低的內(nèi)存使用(減少17.6%-42%),就像雖然串行處理需要更多時(shí)間,但能用更少資源達(dá)到更好效果。
Q3:普通用戶能用到專家鏈技術(shù)嗎?有什么實(shí)際好處? A:目前專家鏈還處于研究階段,需要從頭訓(xùn)練模型,普通用戶暫時(shí)無法直接使用。但未來如果這項(xiàng)技術(shù)被廣泛應(yīng)用,用戶可能會(huì)體驗(yàn)到更智能、更準(zhǔn)確的AI服務(wù),特別是在需要復(fù)雜推理的任務(wù)上,比如數(shù)學(xué)解題、邏輯分析等方面,AI會(huì)變得更可靠。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。