這項由約翰霍普金斯大學(xué)的Orion Weller、Kathryn Ricci、Marc Marone等研究者,以及法國LightOn公司的Antoine Chaffin共同完成的突破性研究,發(fā)表于2025年1月的arXiv預(yù)印本平臺(論文編號:arXiv:2507.11412v1)。有興趣深入了解的讀者可以通過GitHub倉庫(https://github.com/JHU-CLSP/ettin-encoder-vs-decoder)獲取完整的研究資料,包括模型、代碼和數(shù)據(jù)。
就像在實驗室里培養(yǎng)一對雙胞胎,然后讓他們接受完全不同的教育方式,這項研究做了一件在AI界前所未有的事情:創(chuàng)造了一套完全相同的"雙胞胎"語言模型,唯一的區(qū)別是它們的學(xué)習(xí)方式不同。一個學(xué)會了"完形填空"(編碼器),另一個學(xué)會了"接龍寫作"(解碼器)。通過這種方式,研究團(tuán)隊終于能夠公平地比較這兩種截然不同的AI學(xué)習(xí)方法,解開了困擾學(xué)術(shù)界多年的謎題。
這項研究的重要性不言而喻。在日常生活中,我們接觸到的AI應(yīng)用實際上分為兩大類:一類擅長理解和分析,比如搜索引擎、文檔分類、情感分析;另一類擅長生成和創(chuàng)作,比如ChatGPT、文案寫作助手。但長期以來,人們無法準(zhǔn)確判斷哪種AI訓(xùn)練方法更適合特定任務(wù),因為過去的比較研究就像在比較一個吃中餐長大的孩子和一個吃西餐長大的孩子的數(shù)學(xué)成績,太多變量混雜在一起,無法得出可靠結(jié)論。
研究團(tuán)隊開發(fā)了名為ETTIN的模型套件,這個名字來源于北歐神話中的雙頭巨人,完美象征了這項研究的核心思想。ETTIN套件包含了從1700萬參數(shù)到10億參數(shù)的五對模型,每對模型都像同卵雙胞胎一樣,擁有完全相同的"基因"(架構(gòu)設(shè)計)、"營養(yǎng)"(訓(xùn)練數(shù)據(jù))和"成長環(huán)境"(訓(xùn)練過程),唯一的區(qū)別就是學(xué)習(xí)目標(biāo):編碼器學(xué)習(xí)通過上下文理解被遮掩的詞語,解碼器學(xué)習(xí)預(yù)測文本的下一個詞。
更令人驚訝的是,這套"雙胞胎"模型不僅在各自擅長的領(lǐng)域表現(xiàn)出色,還創(chuàng)造了同規(guī)模開源模型的新紀(jì)錄。編碼器模型在文本分類和檢索任務(wù)上超越了著名的ModernBERT,而解碼器模型在生成任務(wù)上擊敗了Meta的Llama 3.2和SmolLM2。這就像培養(yǎng)出了一對天才雙胞胎,哥哥成為了理解文本的專家,弟弟成為了創(chuàng)作文本的高手。
一、"雙胞胎實驗"的精妙設(shè)計
為了確保這場比較的公平性,研究團(tuán)隊付出了巨大努力。他們首先需要選擇合適的"營養(yǎng)配方",也就是訓(xùn)練數(shù)據(jù)。由于目前最強的編碼器模型ModernBERT沒有公開其訓(xùn)練數(shù)據(jù),研究團(tuán)隊決定從零開始,使用完全開源的數(shù)據(jù)來復(fù)制這個"配方"。
這個過程就像一個廚師試圖還原一道秘制菜肴,只能通過觀察成品來推測原料和制作方法。研究團(tuán)隊從最優(yōu)秀的開源數(shù)據(jù)集中精心挑選,包括DCLM數(shù)據(jù)集和Dolma數(shù)據(jù)集的各種組合。他們將整個訓(xùn)練過程分為三個階段,就像培養(yǎng)一個孩子需要經(jīng)歷嬰兒期、青少年期和成年期一樣。
第一階段是基礎(chǔ)預(yù)訓(xùn)練,相當(dāng)于給孩子打基礎(chǔ)。在這個階段,模型接觸各種各樣的文本,從新聞報道到代碼,從數(shù)學(xué)公式到社交媒體內(nèi)容,總共處理了1.7萬億個詞匯單元。這就像讓孩子廣泛閱讀各種書籍,建立對世界的基本認(rèn)知。
第二階段是中期訓(xùn)練,相當(dāng)于專業(yè)教育階段。研究團(tuán)隊提高了數(shù)據(jù)質(zhì)量,去除了一些噪音較大的內(nèi)容,同時將模型能處理的文本長度從1024個字符擴(kuò)展到8000個字符。這就像讓學(xué)生從讀短篇文章轉(zhuǎn)向閱讀長篇小說,提高理解復(fù)雜內(nèi)容的能力。這個階段使用了2500億個詞匯單元。
第三階段是衰減訓(xùn)練,相當(dāng)于精英教育。研究團(tuán)隊進(jìn)一步精選了最高質(zhì)量的數(shù)據(jù),包括維基百科、專業(yè)教科書和經(jīng)過篩選的網(wǎng)絡(luò)內(nèi)容,使用了500億個詞匯單元。這就像讓學(xué)生專門學(xué)習(xí)經(jīng)典名著和權(quán)威教材,追求卓越的表現(xiàn)。
整個訓(xùn)練過程嚴(yán)格控制了每一個變量。兩種模型使用完全相同的架構(gòu)設(shè)計、相同的優(yōu)化器設(shè)置、相同的學(xué)習(xí)率調(diào)整策略,甚至連隨機(jī)種子都保持一致。唯一的區(qū)別就是學(xué)習(xí)目標(biāo):編碼器在看到"今天天氣很[MASK]"時學(xué)習(xí)預(yù)測"好",而解碼器在看到"今天天氣很"時學(xué)習(xí)預(yù)測"好"。
這種設(shè)計的巧妙之處在于,它消除了以往研究中的所有混雜因素。過去的比較研究就像在比較一個在北京長大的孩子和一個在紐約長大的孩子的語言能力,地域、文化、教育體系的差異都會影響結(jié)果。而這項研究則確保了除了核心學(xué)習(xí)方法之外,其他所有條件都完全相同。
研究團(tuán)隊還特別注意了模型規(guī)模的設(shè)計。他們創(chuàng)建了六個不同規(guī)模的模型,參數(shù)數(shù)量分別為1700萬、3200萬、6800萬、1.5億、4億和10億。這種階梯式的設(shè)計就像觀察不同年齡段的孩子如何學(xué)習(xí),可以揭示模型規(guī)模對兩種學(xué)習(xí)方法效果的影響。
二、訓(xùn)練數(shù)據(jù)的精心調(diào)配
為了確保訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性,研究團(tuán)隊就像營養(yǎng)師為運動員制定食譜一樣,精心調(diào)配了每個訓(xùn)練階段的數(shù)據(jù)配比。他們從多個高質(zhì)量的開源數(shù)據(jù)集中選擇內(nèi)容,確保模型能夠接觸到人類知識的各個領(lǐng)域。
在基礎(chǔ)預(yù)訓(xùn)練階段,數(shù)據(jù)來源極其豐富。代碼相關(guān)的內(nèi)容占據(jù)了重要位置,包括來自StarCoder的2639億個詞匯單元,這些內(nèi)容幫助模型理解程序邏輯和結(jié)構(gòu)化思維。網(wǎng)絡(luò)爬蟲數(shù)據(jù)構(gòu)成了另一個主要來源,其中Common Crawl Head提供了3566億個詞匯單元,DCLM數(shù)據(jù)集貢獻(xiàn)了8372億個詞匯單元,這些內(nèi)容涵蓋了互聯(lián)網(wǎng)上的各種信息。
科學(xué)文獻(xiàn)也是重要的營養(yǎng)來源。PeS2o數(shù)據(jù)集提供了573億個詞匯單元的科學(xué)論文,ArXiv數(shù)據(jù)集貢獻(xiàn)了280億個詞匯單元的學(xué)術(shù)預(yù)印本,這些內(nèi)容幫助模型掌握嚴(yán)謹(jǐn)?shù)目茖W(xué)表達(dá)和邏輯推理。數(shù)學(xué)相關(guān)的內(nèi)容包括Open-Web-Math和Algebraic StackExchange,總共提供了253億個詞匯單元,讓模型具備基本的數(shù)學(xué)理解能力。
社交媒體內(nèi)容也不可忽視。Reddit數(shù)據(jù)提供了803億個詞匯單元,StackExchange貢獻(xiàn)了196億個詞匯單元,這些內(nèi)容幫助模型理解日常對話和問答模式。新聞內(nèi)容通過CC News數(shù)據(jù)集提供了73億個詞匯單元,讓模型了解時事和正式的新聞寫作風(fēng)格。
到了中期訓(xùn)練階段,研究團(tuán)隊開始提高數(shù)據(jù)質(zhì)量。他們?nèi)コ艘恍┰胍糨^大的內(nèi)容,如舊版本的Common Crawl數(shù)據(jù)、一般性的新聞內(nèi)容和普通的StackExchange問答,轉(zhuǎn)而使用經(jīng)過篩選的DCLM數(shù)據(jù)集。這個階段特別強調(diào)了數(shù)學(xué)和科學(xué)內(nèi)容的比重,Math相關(guān)內(nèi)容的比例從0.7%提高到4.2%,Scientific內(nèi)容的比例從3.4%提高到3.3%。
衰減訓(xùn)練階段是數(shù)據(jù)質(zhì)量的頂峰。研究團(tuán)隊大幅增加了高質(zhì)量參考資料的比重,包括維基百科、專業(yè)教科書和開放獲取的學(xué)術(shù)資源。Books相關(guān)內(nèi)容的比例從0.3%躍升到13.8%,Wikipedia內(nèi)容的比例從0.4%增加到3.9%。這就像讓學(xué)生從廣泛閱讀轉(zhuǎn)向精讀經(jīng)典,追求更高的知識質(zhì)量。
整個數(shù)據(jù)配置過程體現(xiàn)了從廣度到深度的學(xué)習(xí)理念?;A(chǔ)階段確保模型接觸到人類知識的各個角落,中期階段開始篩選優(yōu)質(zhì)內(nèi)容,衰減階段則專注于最高質(zhì)量的知識來源。這種漸進(jìn)式的數(shù)據(jù)質(zhì)量提升,就像一個人的成長過程,從童年的好奇心驅(qū)動的廣泛探索,到青年時期的專業(yè)學(xué)習(xí),再到成年后的精深研究。
三、兩種學(xué)習(xí)方式的本質(zhì)差異
要理解編碼器和解碼器的根本差異,我們可以用兩種不同的閱讀方式來比喻。編碼器就像一個擅長完形填空的學(xué)生,它能夠同時看到一個句子的前后文,然后推測中間缺失的詞語。比如看到"今天天氣很___,適合出去游玩",它能夠根據(jù)前后文推斷出空白處應(yīng)該填"好"。
解碼器則像一個擅長續(xù)寫故事的學(xué)生,它只能看到前文,然后預(yù)測接下來會出現(xiàn)什么。比如看到"今天天氣很",它需要預(yù)測下一個詞是"好",然后再看到"今天天氣很好",預(yù)測下一個詞是",",以此類推。
這種差異帶來了截然不同的能力特征。編碼器由于能夠同時看到完整的上下文,特別擅長理解和分析任務(wù)。它就像一個能夠通覽全局的分析師,能夠準(zhǔn)確把握文本的整體含義、情感傾向和主題分類。當(dāng)你需要判斷一條評論是正面還是負(fù)面的,或者在海量文檔中找到與查詢最相關(guān)的內(nèi)容時,編碼器往往能夠提供更準(zhǔn)確的結(jié)果。
解碼器由于只能看到前文,特別擅長生成和創(chuàng)作任務(wù)。它就像一個經(jīng)驗豐富的作家,能夠根據(jù)已有的情節(jié)發(fā)展出合理的后續(xù)內(nèi)容。當(dāng)你需要AI幫你寫郵件、續(xù)寫故事或者回答問題時,解碼器通常能夠產(chǎn)生更流暢自然的結(jié)果。
這種差異的技術(shù)原理在于注意力機(jī)制的不同。編碼器使用雙向注意力,就像一個人在閱讀時可以隨時回顧前文或預(yù)覽后文,獲得完整的語境信息。解碼器使用單向注意力,就像一個人在聽別人說話時只能根據(jù)已經(jīng)聽到的內(nèi)容進(jìn)行理解和回應(yīng)。
有趣的是,這兩種學(xué)習(xí)方式在人類的語言學(xué)習(xí)中也有對應(yīng)。當(dāng)我們做閱讀理解題時,我們實際上在使用類似編碼器的能力,通過理解整個段落的內(nèi)容來回答問題。而當(dāng)我們進(jìn)行對話或?qū)懽鲿r,我們更多地使用類似解碼器的能力,根據(jù)前面的話語或已寫的內(nèi)容來組織接下來的表達(dá)。
研究團(tuán)隊的創(chuàng)新之處在于,他們不僅訓(xùn)練了這兩種不同的模型,還嘗試了"跨界訓(xùn)練"的實驗。他們讓已經(jīng)訓(xùn)練好的編碼器繼續(xù)學(xué)習(xí)解碼器的技能,讓已經(jīng)訓(xùn)練好的解碼器繼續(xù)學(xué)習(xí)編碼器的技能,就像讓一個擅長完形填空的學(xué)生去學(xué)習(xí)寫作,讓一個擅長寫作的學(xué)生去學(xué)習(xí)閱讀理解。
這種跨界訓(xùn)練使用了500億個詞匯單元的額外數(shù)據(jù),遠(yuǎn)超過以往研究的10億詞匯單元。研究團(tuán)隊想要驗證的是,在AI規(guī)模不斷擴(kuò)大的今天,是否可以通過額外訓(xùn)練讓一個模型同時掌握兩種技能,從而避免需要分別訓(xùn)練兩種不同的模型。
四、令人驚訝的實驗結(jié)果
當(dāng)研究團(tuán)隊公布實驗結(jié)果時,整個學(xué)術(shù)界都為之震驚。這些結(jié)果不僅證實了人們的直覺,還揭示了一些完全出乎意料的發(fā)現(xiàn)。
首先,在各自擅長的領(lǐng)域,兩種模型都達(dá)到了令人矚目的性能。編碼器模型在文本分類和檢索任務(wù)上的表現(xiàn)超越了所有同規(guī)模的開源模型,甚至擊敗了著名的ModernBERT。在GLUE基準(zhǔn)測試中,1億參數(shù)的ETTIN編碼器獲得了88.9分,而ModernBERT只獲得了88.4分。在文本檢索任務(wù)中,ETTIN編碼器的表現(xiàn)同樣出色,在多個評測指標(biāo)上都創(chuàng)造了新的紀(jì)錄。
解碼器模型在生成任務(wù)上的表現(xiàn)同樣令人印象深刻。10億參數(shù)的ETTIN解碼器在綜合生成任務(wù)評測中獲得了59.0分,顯著超過了Meta的Llama 3.2 1B模型的56.6分。在具體任務(wù)中,ETTIN解碼器在常識推理、閱讀理解、問答等多個方面都展現(xiàn)出了卓越的能力。
這些結(jié)果的意義不僅在于創(chuàng)造了新的紀(jì)錄,更在于證明了使用相同訓(xùn)練配方可以在兩個不同領(lǐng)域都取得最佳效果。這就像一個教練使用同樣的訓(xùn)練方法,既培養(yǎng)出了游泳冠軍,又培養(yǎng)出了跑步冠軍,這在以往是不可想象的。
然而,真正令人震驚的發(fā)現(xiàn)出現(xiàn)在跨界訓(xùn)練的結(jié)果中。研究團(tuán)隊原本預(yù)期,通過額外的500億詞匯單元訓(xùn)練,編碼器可以學(xué)會解碼器的技能,解碼器也可以學(xué)會編碼器的技能。但結(jié)果顯示,這種跨界訓(xùn)練的效果遠(yuǎn)不如預(yù)期。
在文本分類任務(wù)中,一個4億參數(shù)的編碼器能夠獲得91.3分,而一個10億參數(shù)的解碼器經(jīng)過跨界訓(xùn)練后只能獲得89.9分。換句話說,即使解碼器的規(guī)模是編碼器的2.5倍,經(jīng)過額外訓(xùn)練后仍然無法達(dá)到編碼器的性能。
在檢索任務(wù)中,情況稍好一些,但差距依然明顯。4億參數(shù)的編碼器在MS MARCO檢索任務(wù)中獲得了42.2分,而經(jīng)過跨界訓(xùn)練的同規(guī)模解碼器只獲得了41.4分。雖然差距縮小了,但編碼器的優(yōu)勢依然明顯。
最令人意外的是生成任務(wù)的結(jié)果。在這個解碼器應(yīng)該占優(yōu)勢的領(lǐng)域,跨界訓(xùn)練的效果更是慘不忍睹。原始的10億參數(shù)解碼器在生成任務(wù)中獲得了59.0分,而經(jīng)過跨界訓(xùn)練的10億參數(shù)編碼器只獲得了52.5分。更糟糕的是,隨著模型規(guī)模的增大,這種差距不僅沒有縮小,反而在擴(kuò)大。
這些結(jié)果傳達(dá)了一個重要信息:AI模型的學(xué)習(xí)方式在很大程度上決定了它的能力邊界。就像一個從小學(xué)習(xí)中文的人和一個從小學(xué)習(xí)英文的人,即使后者在成年后學(xué)習(xí)中文,也很難達(dá)到前者的母語水平。AI模型的"母語"就是它最初學(xué)習(xí)的任務(wù)類型,這種早期的學(xué)習(xí)經(jīng)歷會深刻影響模型的內(nèi)部結(jié)構(gòu)和思維方式。
五、性能表現(xiàn)的深度分析
為了更深入地理解兩種模型的性能差異,研究團(tuán)隊設(shè)計了一系列細(xì)致的測試。他們不僅測試了模型在各自擅長領(lǐng)域的表現(xiàn),還測試了它們在跨領(lǐng)域任務(wù)中的能力,這些結(jié)果為我們提供了前所未有的洞察。
在編碼器擅長的分類任務(wù)中,結(jié)果呈現(xiàn)出明顯的規(guī)律。以情感分析為例,ETTIN編碼器在SST-2數(shù)據(jù)集上的準(zhǔn)確率隨著模型規(guī)模增加而穩(wěn)步提升,從1700萬參數(shù)模型的91.2%提升到10億參數(shù)模型的97.1%。相比之下,同規(guī)模的解碼器在這個任務(wù)上的表現(xiàn)始終落后3-5個百分點。
這種差距的原因在于,情感分析需要模型理解整個句子的語境和語調(diào)。編碼器能夠同時關(guān)注句子的開頭和結(jié)尾,捕捉到像"雖然...但是..."這樣的轉(zhuǎn)折關(guān)系。而解碼器只能從左到右逐詞處理,往往會被句子開頭的情感詞匯誤導(dǎo),難以準(zhǔn)確判斷整句話的真實情感傾向。
在檢索任務(wù)中,編碼器的優(yōu)勢更加明顯。在MS MARCO檢索任務(wù)中,編碼器需要理解查詢和文檔之間的語義相似性。4億參數(shù)的ETTIN編碼器在這個任務(wù)上獲得了42.2分,而同規(guī)模的解碼器只獲得了39.9分。這種差距在小規(guī)模模型中更加明顯,1700萬參數(shù)的編碼器獲得了30.9分,而解碼器只獲得了29.1分。
有趣的是,在一些"偽生成"任務(wù)中,編碼器表現(xiàn)出了意想不到的能力。在ARC常識推理任務(wù)中,編碼器通過"完形填空"的方式進(jìn)行推理,4億參數(shù)的編碼器獲得了35.6分,而同規(guī)模的解碼器只獲得了33.6分。這說明對于某些需要深度理解的推理任務(wù),編碼器的雙向注意力機(jī)制提供了優(yōu)勢。
然而,在真正的生成任務(wù)中,解碼器的優(yōu)勢不可撼動。在HellaSwag任務(wù)中,模型需要為給定的場景選擇最合理的續(xù)寫,這完全符合解碼器的訓(xùn)練目標(biāo)。10億參數(shù)的ETTIN解碼器在這個任務(wù)上獲得了62.9分,而同規(guī)模的編碼器只獲得了52.3分,差距高達(dá)10分以上。
在TriviaQA問答任務(wù)中,解碼器的優(yōu)勢更加明顯。這個任務(wù)需要模型根據(jù)問題生成準(zhǔn)確的答案,10億參數(shù)的解碼器獲得了29.3分,而編碼器只獲得了7.6分。這種巨大的差距說明,對于需要生成具體答案的任務(wù),解碼器的逐詞生成能力是不可替代的。
特別值得注意的是,隨著模型規(guī)模的增加,兩種模型在各自優(yōu)勢領(lǐng)域的表現(xiàn)都在提升,但在對方優(yōu)勢領(lǐng)域的表現(xiàn)提升有限。這就像一個游泳運動員通過訓(xùn)練可以游得更快,但很難通過同樣的訓(xùn)練成為優(yōu)秀的跑步運動員。
六、跨界訓(xùn)練的深入探索
研究團(tuán)隊對跨界訓(xùn)練的深入探索揭示了AI學(xué)習(xí)的一些基本規(guī)律。他們讓編碼器學(xué)習(xí)解碼器的技能,讓解碼器學(xué)習(xí)編碼器的技能,這個過程就像讓一個從小用右手寫字的人學(xué)習(xí)用左手寫字一樣困難。
在編碼器向解碼器的轉(zhuǎn)換中,研究團(tuán)隊發(fā)現(xiàn)了一個有趣的現(xiàn)象。編碼器在學(xué)習(xí)生成任務(wù)時,小規(guī)模模型的表現(xiàn)相對較好,但隨著規(guī)模增大,這種跨界能力的提升變得越來越困難。1700萬參數(shù)的編碼器經(jīng)過跨界訓(xùn)練后在生成任務(wù)中獲得了35.1分,而原始解碼器獲得了36.4分,差距只有1.3分。
但是到了10億參數(shù)規(guī)模,這種差距急劇擴(kuò)大??缃缬?xùn)練的編碼器只獲得了52.5分,而原始解碼器獲得了59.0分,差距擴(kuò)大到了6.5分。這種現(xiàn)象表明,模型規(guī)模越大,其原始學(xué)習(xí)方式的影響就越深刻,改變起來就越困難。
在解碼器向編碼器的轉(zhuǎn)換中,情況略有不同。解碼器在學(xué)習(xí)分類和檢索任務(wù)時表現(xiàn)出了一定的適應(yīng)性,但仍然無法達(dá)到原始編碼器的水平。在MNLI分類任務(wù)中,經(jīng)過跨界訓(xùn)練的10億參數(shù)解碼器獲得了89.0分,而原始編碼器獲得了91.8分,差距為2.8分。
這種差距的原因可能在于,解碼器的單向注意力機(jī)制在本質(zhì)上限制了它理解完整語境的能力。即使經(jīng)過額外訓(xùn)練,解碼器仍然傾向于從左到右處理信息,無法像編碼器那樣全面理解整個句子的含義。
研究團(tuán)隊還發(fā)現(xiàn),跨界訓(xùn)練的效果與訓(xùn)練數(shù)據(jù)的質(zhì)量高度相關(guān)。他們使用了最高質(zhì)量的衰減階段數(shù)據(jù)進(jìn)行跨界訓(xùn)練,這些數(shù)據(jù)包括維基百科、專業(yè)教科書和精選的網(wǎng)絡(luò)內(nèi)容。如果使用質(zhì)量較低的數(shù)據(jù),跨界訓(xùn)練的效果會更差。
有趣的是,在某些特定任務(wù)中,跨界訓(xùn)練展現(xiàn)出了意想不到的效果。在SciQ科學(xué)問答任務(wù)中,經(jīng)過跨界訓(xùn)練的1700萬參數(shù)解碼器獲得了45.9分,而原始編碼器只獲得了44.0分。這可能是因為科學(xué)問答任務(wù)既需要理解能力,也需要生成能力,跨界訓(xùn)練讓解碼器獲得了更全面的技能。
然而,這種少數(shù)的成功案例并不能改變整體的結(jié)論。在絕大多數(shù)任務(wù)中,跨界訓(xùn)練的效果都不如直接使用對應(yīng)類型的原始模型。這就像讓一個鋼琴家學(xué)習(xí)畫畫,雖然可能在某些方面有所提升,但很難達(dá)到專業(yè)畫家的水平。
七、模型規(guī)模的影響規(guī)律
通過對比不同規(guī)模的模型,研究團(tuán)隊發(fā)現(xiàn)了一些有趣的規(guī)律。模型規(guī)模對兩種訓(xùn)練方式的影響并不相同,這種差異為我們理解AI學(xué)習(xí)提供了新的視角。
在編碼器模型中,規(guī)模的擴(kuò)大帶來了穩(wěn)定而持續(xù)的性能提升。從1700萬參數(shù)增加到10億參數(shù),編碼器在MNLI分類任務(wù)中的準(zhǔn)確率從79.5%提升到91.8%,提升幅度達(dá)到12.3個百分點。在檢索任務(wù)中,這種提升同樣明顯,從30.9分提升到43.4分,提升幅度達(dá)到12.5分。
解碼器模型的規(guī)模效應(yīng)呈現(xiàn)出不同的模式。在生成任務(wù)中,規(guī)模擴(kuò)大帶來的提升更加顯著。從1700萬參數(shù)增加到10億參數(shù),解碼器在生成任務(wù)綜合評分中從36.4分提升到59.0分,提升幅度達(dá)到22.6分,幾乎是編碼器提升幅度的兩倍。
這種差異可能反映了兩種任務(wù)的本質(zhì)特征。分類和檢索任務(wù)有相對固定的答案,模型規(guī)模的擴(kuò)大主要是提高準(zhǔn)確率。而生成任務(wù)需要模型掌握更復(fù)雜的語言模式和知識結(jié)構(gòu),規(guī)模的擴(kuò)大能夠帶來質(zhì)的飛躍。
特別值得注意的是,在跨界訓(xùn)練中,規(guī)模的影響呈現(xiàn)出復(fù)雜的模式。對于編碼器學(xué)習(xí)生成任務(wù),小規(guī)模模型的適應(yīng)性相對較好,但隨著規(guī)模增大,這種適應(yīng)性反而下降。這可能是因為大規(guī)模編碼器的內(nèi)部結(jié)構(gòu)更加復(fù)雜,改變起來更加困難。
對于解碼器學(xué)習(xí)理解任務(wù),情況則相反。大規(guī)模解碼器在跨界訓(xùn)練中表現(xiàn)出了更好的適應(yīng)性,這可能是因為大規(guī)模模型擁有更強的表征能力,能夠在某種程度上克服架構(gòu)上的限制。
研究團(tuán)隊還發(fā)現(xiàn),在某些特定的規(guī)模點,兩種模型的性能會出現(xiàn)交叉。在1700萬參數(shù)規(guī)模時,編碼器和解碼器在某些任務(wù)上的性能差距很小,但隨著規(guī)模增大,這種差距會急劇擴(kuò)大。這說明模型規(guī)模不僅影響性能的絕對值,還影響不同訓(xùn)練方式之間的相對優(yōu)勢。
八、技術(shù)架構(gòu)的創(chuàng)新設(shè)計
ETTIN模型的技術(shù)架構(gòu)體現(xiàn)了研究團(tuán)隊的精心設(shè)計。他們需要在保持兩種模型完全相同的前提下,僅通過訓(xùn)練目標(biāo)的不同來實現(xiàn)功能分化。這種設(shè)計就像制造一對結(jié)構(gòu)完全相同的機(jī)器人,但通過不同的程序讓它們具備不同的專長。
在模型架構(gòu)方面,研究團(tuán)隊采用了現(xiàn)代化的設(shè)計理念。他們使用了RoPE(旋轉(zhuǎn)位置編碼)來處理位置信息,這種技術(shù)能夠讓模型更好地理解文本中詞匯的相對位置關(guān)系。激活函數(shù)選擇了GELU,這是一種在大規(guī)模語言模型中表現(xiàn)優(yōu)異的激活函數(shù)。
注意力機(jī)制的設(shè)計體現(xiàn)了兩種模型的核心差異。編碼器使用雙向注意力,每個位置的詞匯都可以關(guān)注到整個序列中的所有其他位置。這就像一個人在閱讀文章時可以隨時回顧前文或者預(yù)覽后文,獲得完整的理解。解碼器使用因果注意力,每個位置只能關(guān)注到自己之前的位置,這就像一個人在聽故事時只能根據(jù)已經(jīng)聽到的內(nèi)容進(jìn)行理解。
為了確保比較的公平性,研究團(tuán)隊讓兩種模型使用完全相同的參數(shù)量配置。他們創(chuàng)造了六個不同規(guī)模的模型,從最小的1700萬參數(shù)到最大的10億參數(shù)。每個規(guī)模的模型都經(jīng)過精心設(shè)計,確保參數(shù)的分配既考慮了性能,也考慮了訓(xùn)練效率。
在訓(xùn)練過程中,研究團(tuán)隊使用了梯形學(xué)習(xí)率調(diào)度策略。這種策略包括預(yù)熱階段、穩(wěn)定階段和衰減階段,就像運動員的訓(xùn)練計劃一樣,先逐步增加強度,然后保持高強度訓(xùn)練,最后逐步降低強度。這種策略能夠讓模型在訓(xùn)練過程中保持穩(wěn)定,避免過度擬合。
特別值得一提的是,研究團(tuán)隊在訓(xùn)練過程中使用了檢查點保存機(jī)制。他們每處理85億個詞匯單元就保存一次模型狀態(tài),總共保存了236個檢查點。這種細(xì)致的記錄就像給模型的成長過程拍照,讓研究人員可以詳細(xì)分析模型在不同階段的學(xué)習(xí)狀態(tài)。
九、意外的偏見發(fā)現(xiàn)
在研究過程中,研究團(tuán)隊還進(jìn)行了一項有趣的探索:比較兩種訓(xùn)練方式對性別偏見的影響。他們使用了WinoGender數(shù)據(jù)集,這是一個專門設(shè)計用來測試AI模型性別偏見的基準(zhǔn)測試。結(jié)果顯示,兩種訓(xùn)練方式在處理性別問題時表現(xiàn)出了不同的傾向。
在一個包含50%男性刻板印象和50%女性刻板印象的測試中,編碼器模型更傾向于使用性別中性的代詞。10億參數(shù)的編碼器在25%的情況下選擇了性別中性的代詞,而同規(guī)模的解碼器只在9%的情況下選擇性別中性代詞。這種差異可能反映了兩種訓(xùn)練方式對語言理解的不同方式。
編碼器由于能夠看到完整的語境,更容易識別出性別刻板印象,從而傾向于使用更加中性的表達(dá)。而解碼器由于是逐詞生成,更容易受到訓(xùn)練數(shù)據(jù)中統(tǒng)計模式的影響,傾向于重復(fù)數(shù)據(jù)中的性別刻板印象。
隨著模型規(guī)模的增加,這種差異變得更加明顯。在小規(guī)模模型中,兩種訓(xùn)練方式的性別偏見差異相對較小,但在大規(guī)模模型中,編碼器顯示出了更強的性別中性傾向。這種現(xiàn)象表明,模型規(guī)模的擴(kuò)大可能會放大不同訓(xùn)練方式之間的差異。
有趣的是,在跨界訓(xùn)練中,模型的性別偏見表現(xiàn)也發(fā)生了變化。原本更加中性的編碼器在學(xué)習(xí)生成任務(wù)后,性別偏見有所增加。而原本偏見較多的解碼器在學(xué)習(xí)理解任務(wù)后,性別偏見有所減少。這種變化表明,訓(xùn)練目標(biāo)確實會影響模型的內(nèi)在價值觀和行為模式。
這項發(fā)現(xiàn)對AI的公平性和安全性具有重要意義。它表明,選擇不同的訓(xùn)練方式不僅會影響模型的技能,還可能影響模型的價值觀和偏見。在設(shè)計AI系統(tǒng)時,我們需要考慮訓(xùn)練方式對模型行為的全面影響。
十、對AI未來發(fā)展的啟示
這項研究的發(fā)現(xiàn)對AI領(lǐng)域的未來發(fā)展具有深遠(yuǎn)的影響。首先,它證實了專用模型在特定任務(wù)上的不可替代性。在當(dāng)前AI界普遍追求通用大模型的背景下,這個發(fā)現(xiàn)提醒我們,針對特定任務(wù)的專用模型仍然具有重要價值。
對于企業(yè)和開發(fā)者來說,這意味著在選擇AI模型時需要根據(jù)具體需求做出明智決策。如果主要需求是文本分類、情感分析或信息檢索,那么編碼器模型可能是更好的選擇。如果主要需求是內(nèi)容生成、對話或創(chuàng)作,那么解碼器模型更為適合。
研究還揭示了模型規(guī)模和訓(xùn)練方式之間的復(fù)雜關(guān)系。在小規(guī)模模型中,跨界訓(xùn)練的效果相對較好,但隨著規(guī)模增大,這種效果會顯著下降。這為資源有限的研究機(jī)構(gòu)和初創(chuàng)公司提供了重要參考:在資源有限的情況下,專門訓(xùn)練小規(guī)模的專用模型可能比訓(xùn)練大規(guī)模的通用模型更加有效。
對于學(xué)術(shù)研究來說,這項工作建立了一個重要的基準(zhǔn)。研究團(tuán)隊開源了所有的模型、數(shù)據(jù)和訓(xùn)練腳本,為其他研究者提供了寶貴的研究基礎(chǔ)。這種開放性不僅促進(jìn)了學(xué)術(shù)交流,也為整個AI社區(qū)的發(fā)展做出了貢獻(xiàn)。
從技術(shù)發(fā)展趨勢來看,這項研究可能會推動AI領(lǐng)域重新思考模型設(shè)計的方向。過去幾年,AI領(lǐng)域主要關(guān)注如何構(gòu)建更大更強的通用模型,但這項研究表明,在某些場景下,專用模型的效果可能更好。這可能會催生新的研究方向,即如何設(shè)計更加高效的專用模型。
研究結(jié)果還對AI的商業(yè)應(yīng)用具有重要指導(dǎo)意義。在資源有限的情況下,企業(yè)可以根據(jù)自己的主要業(yè)務(wù)需求選擇合適的模型類型,而不是盲目追求最大最全的通用模型。這種精準(zhǔn)的選擇不僅可以提高性能,還可以降低計算成本和維護(hù)復(fù)雜度。
最后,這項研究為AI安全和公平性研究提供了新的視角。通過比較不同訓(xùn)練方式對模型偏見的影響,研究團(tuán)隊揭示了訓(xùn)練目標(biāo)與模型行為之間的深層聯(lián)系。這提醒我們,在設(shè)計AI系統(tǒng)時,需要全面考慮訓(xùn)練方式對模型各個方面的影響,而不僅僅是任務(wù)性能。
說到底,這項研究就像給AI界提供了一面鏡子,讓我們能夠更清晰地看到不同訓(xùn)練方式的真實效果。它告訴我們,在AI的世界里,沒有萬能的解決方案,只有適合特定需求的最佳選擇。正如研究團(tuán)隊所說,他們的工作不是為了證明哪種方法更好,而是為了幫助人們在面對具體問題時做出更加明智的決策。
這種實用主義的研究態(tài)度,正是當(dāng)前AI領(lǐng)域所需要的。在技術(shù)快速發(fā)展的今天,我們需要更多這樣的基礎(chǔ)研究,為AI的健康發(fā)展提供科學(xué)的指導(dǎo)。研究團(tuán)隊通過開源所有資料,為后續(xù)研究鋪平了道路,讓更多的研究者能夠在這個基礎(chǔ)上繼續(xù)探索AI的奧秘。
Q&A
Q1:ETTIN模型是什么?它有什么特別之處? A:ETTIN是約翰霍普金斯大學(xué)開發(fā)的一套"雙胞胎"AI模型,包含編碼器和解碼器兩種版本。它的特別之處在于兩種模型使用完全相同的架構(gòu)、數(shù)據(jù)和訓(xùn)練過程,僅訓(xùn)練目標(biāo)不同,這樣可以公平比較兩種AI學(xué)習(xí)方式的效果。
Q2:跨界訓(xùn)練是否能讓AI模型變得更全能? A:研究發(fā)現(xiàn)跨界訓(xùn)練效果有限。即使用500億詞匯進(jìn)行額外訓(xùn)練,讓編碼器學(xué)習(xí)生成任務(wù)或讓解碼器學(xué)習(xí)理解任務(wù),都無法達(dá)到原始專用模型的性能水平,特別是在大規(guī)模模型中差距更明顯。
Q3:普通用戶如何選擇合適的AI模型? A:根據(jù)具體需求選擇:如果主要用于文本分類、情感分析、信息檢索等理解任務(wù),編碼器模型效果更好;如果主要用于內(nèi)容生成、對話、創(chuàng)作等生成任務(wù),解碼器模型更適合。專用模型往往比通用模型在特定任務(wù)上表現(xiàn)更佳。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。