想要訓(xùn)練出一個(gè)優(yōu)秀的人工智能語(yǔ)言模型,就像培養(yǎng)一個(gè)博學(xué)的學(xué)者一樣,關(guān)鍵在于給它"喂"什么樣的知識(shí)。但問(wèn)題來(lái)了,互聯(lián)網(wǎng)上的文本資料浩如煙海,質(zhì)量參差不齊,如何從中挑選出最有價(jià)值的訓(xùn)練材料呢?香港科技大學(xué)的研究團(tuán)隊(duì)最近提出了一個(gè)巧妙的解決方案,他們開發(fā)了一種名為PreSelect的方法,能夠智能識(shí)別出對(duì)訓(xùn)練語(yǔ)言模型最有幫助的數(shù)據(jù)。這項(xiàng)研究由香港科技大學(xué)的沈家俊、黃宇珍等研究者與Vivo AI實(shí)驗(yàn)室合作完成,發(fā)表于2025年的arXiv預(yù)印本服務(wù)器,有興趣深入了解的讀者可以通過(guò)論文編號(hào)arXiv:2503.00808v3訪問(wèn)完整論文。
這項(xiàng)研究的核心洞察令人驚喜:通過(guò)分析不同模型在特定文本上的"理解難度",竟然能夠預(yù)測(cè)這些文本對(duì)訓(xùn)練新模型的價(jià)值。研究團(tuán)隊(duì)發(fā)現(xiàn),那些能夠準(zhǔn)確反映模型能力差異的文本,往往也是最適合用來(lái)訓(xùn)練模型的優(yōu)質(zhì)材料。基于這一發(fā)現(xiàn),他們開發(fā)的PreSelect方法在實(shí)驗(yàn)中表現(xiàn)出色,僅用30B個(gè)訓(xùn)練樣本就達(dá)到了傳統(tǒng)方法需要300B樣本才能實(shí)現(xiàn)的效果,實(shí)現(xiàn)了10倍的計(jì)算效率提升。
一、數(shù)據(jù)質(zhì)量決定模型能力:為什么選擇比數(shù)量更重要
在人工智能語(yǔ)言模型的訓(xùn)練過(guò)程中,數(shù)據(jù)扮演著至關(guān)重要的角色。就好比一個(gè)廚師準(zhǔn)備一道大餐,食材的新鮮度和品質(zhì)直接決定了最終菜品的味道。對(duì)于語(yǔ)言模型來(lái)說(shuō),訓(xùn)練數(shù)據(jù)的質(zhì)量同樣是決定其最終表現(xiàn)的關(guān)鍵因素。
傳統(tǒng)的做法往往是"多多益善",認(rèn)為只要有足夠多的數(shù)據(jù),模型就能學(xué)得更好。然而,現(xiàn)實(shí)并非如此簡(jiǎn)單?;ヂ?lián)網(wǎng)上的文本內(nèi)容質(zhì)量千差萬(wàn)別,有些是精心撰寫的學(xué)術(shù)論文和專業(yè)文章,有些則是隨意的聊天記錄或低質(zhì)量的網(wǎng)頁(yè)內(nèi)容。如果不加選擇地將所有內(nèi)容都用于訓(xùn)練,就像在營(yíng)養(yǎng)餐中摻入垃圾食品一樣,不僅不會(huì)提升模型能力,反而可能產(chǎn)生負(fù)面影響。
研究團(tuán)隊(duì)注意到,當(dāng)前的語(yǔ)言模型訓(xùn)練通常需要處理數(shù)萬(wàn)億個(gè)詞匯單元,但計(jì)算資源和時(shí)間成本卻是有限的。這就像一個(gè)學(xué)生準(zhǔn)備考試,時(shí)間有限的情況下,選擇最有價(jià)值的復(fù)習(xí)材料比盲目刷題更加重要。因此,如何從海量數(shù)據(jù)中篩選出最有價(jià)值的訓(xùn)練樣本,成為了提升模型訓(xùn)練效率的關(guān)鍵問(wèn)題。
以往的數(shù)據(jù)篩選方法主要依賴人工制定的規(guī)則,比如根據(jù)文本長(zhǎng)度、語(yǔ)言流暢度或者內(nèi)容類型來(lái)過(guò)濾數(shù)據(jù)。這些方法雖然能夠去除一些明顯的低質(zhì)量?jī)?nèi)容,但往往無(wú)法準(zhǔn)確識(shí)別出真正對(duì)模型學(xué)習(xí)最有幫助的高價(jià)值數(shù)據(jù)。就像用篩子篩面粉,只能去除大顆粒雜質(zhì),但無(wú)法判斷剩下的面粉品質(zhì)如何。
二、壓縮效率反映智能水平:發(fā)現(xiàn)數(shù)據(jù)價(jià)值的新視角
PreSelect方法的核心思想源于一個(gè)有趣的觀察:如果我們能夠準(zhǔn)確預(yù)測(cè)一段文本對(duì)模型能力的反映程度,那么這段文本很可能也是訓(xùn)練模型的優(yōu)質(zhì)材料。這個(gè)想法的靈感來(lái)自于"壓縮即智能"的理念,也就是說(shuō),一個(gè)模型對(duì)文本的壓縮能力越強(qiáng),往往意味著它對(duì)該文本的理解越深刻。
具體來(lái)說(shuō),研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)規(guī)律:當(dāng)多個(gè)不同能力的語(yǔ)言模型處理同一段文本時(shí),它們的"理解難度"排序往往能夠準(zhǔn)確反映這些模型的真實(shí)能力水平。這就像幾個(gè)不同水平的學(xué)生做同一道題,題目的難易程度能夠很好地區(qū)分出學(xué)生的能力差異。那些能夠有效區(qū)分模型能力的文本,通常也是對(duì)訓(xùn)練新模型最有價(jià)值的材料。
這種現(xiàn)象可以用一個(gè)簡(jiǎn)單的類比來(lái)理解:假設(shè)你想要測(cè)試幾個(gè)學(xué)生的數(shù)學(xué)水平,你會(huì)選擇什么樣的題目?太簡(jiǎn)單的題目人人都會(huì)做,無(wú)法區(qū)分能力差異;太難的題目可能大家都不會(huì),同樣失去了區(qū)分性。最好的測(cè)試題目應(yīng)該是那些難度適中、能夠清晰反映不同學(xué)生能力水平的題目。對(duì)于語(yǔ)言模型訓(xùn)練來(lái)說(shuō),最有價(jià)值的文本數(shù)據(jù)也具有類似的特征。
研究團(tuán)隊(duì)通過(guò)分析大量實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證了這一觀察。他們選擇了Llama系列的6個(gè)不同規(guī)模模型,從7B參數(shù)到65B參數(shù)不等,然后觀察這些模型在處理各種文本時(shí)的表現(xiàn)。結(jié)果發(fā)現(xiàn),那些能夠準(zhǔn)確反映模型能力排序的文本,確實(shí)在模型訓(xùn)練中表現(xiàn)出更高的價(jià)值。這為數(shù)據(jù)篩選提供了一個(gè)全新的評(píng)判標(biāo)準(zhǔn)。
三、PreSelect方法詳解:如何識(shí)別高價(jià)值訓(xùn)練數(shù)據(jù)
基于上述發(fā)現(xiàn),研究團(tuán)隊(duì)開發(fā)了PreSelect數(shù)據(jù)篩選方法。這個(gè)方法的工作原理可以比作一個(gè)經(jīng)驗(yàn)豐富的老師挑選教學(xué)材料的過(guò)程。
首先,PreSelect需要建立一個(gè)"能力基準(zhǔn)"。研究團(tuán)隊(duì)選擇了6個(gè)不同規(guī)模的Llama模型作為參考標(biāo)準(zhǔn),這些模型在各種任務(wù)上的表現(xiàn)已經(jīng)得到了充分驗(yàn)證。然后,他們從預(yù)訓(xùn)練語(yǔ)料庫(kù)中隨機(jī)抽取了90萬(wàn)個(gè)文檔樣本,確保覆蓋了3000個(gè)不同的網(wǎng)站域名,以保證樣本的多樣性和代表性。
接下來(lái)是關(guān)鍵的"預(yù)測(cè)強(qiáng)度"計(jì)算步驟。對(duì)于每一個(gè)文檔,PreSelect會(huì)計(jì)算6個(gè)參考模型處理該文檔時(shí)的標(biāo)準(zhǔn)化損失值。這個(gè)損失值反映了模型理解該文檔的難度程度,損失越低說(shuō)明模型理解得越好。然后,PreSelect會(huì)檢查這些損失值的排序是否與模型真實(shí)能力排序一致。如果一致度很高,說(shuō)明這個(gè)文檔具有很強(qiáng)的"預(yù)測(cè)能力",是高價(jià)值的訓(xùn)練材料。
為了讓這個(gè)過(guò)程更加直觀,我們可以用考試成績(jī)來(lái)類比。假設(shè)有6個(gè)學(xué)生能力從高到低排列,一道好的考試題目應(yīng)該讓成績(jī)排序與能力排序完全一致,即能力最強(qiáng)的學(xué)生得分最高,能力最弱的學(xué)生得分最低。PreSelect正是尋找這樣的"好題目",也就是能夠準(zhǔn)確反映模型能力差異的文本。
計(jì)算出每個(gè)文檔的預(yù)測(cè)強(qiáng)度分?jǐn)?shù)后,PreSelect會(huì)選擇分?jǐn)?shù)最高的文檔作為正面樣本,分?jǐn)?shù)最低的文檔作為負(fù)面樣本。然后使用這些樣本訓(xùn)練一個(gè)輕量級(jí)的fastText分類器,這個(gè)分類器就像一個(gè)訓(xùn)練有素的質(zhì)量檢查員,能夠快速判斷新文檔的價(jià)值。
四、實(shí)驗(yàn)驗(yàn)證:10倍效率提升的驚人表現(xiàn)
為了驗(yàn)證PreSelect方法的有效性,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的對(duì)比實(shí)驗(yàn)。他們使用RefinedWeb數(shù)據(jù)集作為基礎(chǔ)語(yǔ)料庫(kù),這是一個(gè)經(jīng)過(guò)基礎(chǔ)清理和去重處理的高質(zhì)量網(wǎng)絡(luò)文本集合,包含超過(guò)20萬(wàn)億個(gè)詞匯單元。
實(shí)驗(yàn)設(shè)計(jì)非常嚴(yán)謹(jǐn),研究團(tuán)隊(duì)分別訓(xùn)練了400M、1B和3B參數(shù)規(guī)模的語(yǔ)言模型,并在17個(gè)不同類型的評(píng)估任務(wù)上測(cè)試性能。這些任務(wù)涵蓋了閱讀理解、常識(shí)推理、數(shù)學(xué)計(jì)算、代碼理解等多個(gè)方面,確保了評(píng)估的全面性。
實(shí)驗(yàn)結(jié)果令人印象深刻。在1B參數(shù)模型的實(shí)驗(yàn)中,使用PreSelect方法篩選的30B訓(xùn)練樣本,其訓(xùn)練出的模型性能竟然超過(guò)了使用隨機(jī)選擇的300B樣本訓(xùn)練的模型。這意味著PreSelect實(shí)現(xiàn)了10倍的訓(xùn)練效率提升,大大降低了計(jì)算成本和時(shí)間開銷。
更具體地說(shuō),在各種評(píng)估任務(wù)上,PreSelect都表現(xiàn)出了顯著優(yōu)勢(shì)。比如在ARC-Easy閱讀理解任務(wù)上,PreSelect訓(xùn)練的模型比隨機(jī)選擇方法提升了8.8個(gè)百分點(diǎn);在BBH復(fù)雜推理任務(wù)上提升了8.4個(gè)百分點(diǎn);在SciQ科學(xué)問(wèn)答任務(wù)上提升了6.7個(gè)百分點(diǎn)。這些提升幅度在語(yǔ)言模型領(lǐng)域是相當(dāng)可觀的。
與其他先進(jìn)的數(shù)據(jù)篩選方法相比,PreSelect同樣展現(xiàn)出了明顯優(yōu)勢(shì)。在與DCLM、FineWeb-Edu等方法的對(duì)比中,PreSelect平均性能提升超過(guò)2個(gè)百分點(diǎn)。特別值得注意的是,PreSelect在數(shù)學(xué)和代碼理解任務(wù)上的表現(xiàn)尤為突出,相比基線方法分別提升了19%和18%。
五、方法優(yōu)勢(shì):輕量高效的智能篩選
PreSelect方法相比其他數(shù)據(jù)篩選技術(shù)具有幾個(gè)顯著優(yōu)勢(shì)。首先是計(jì)算效率高。整個(gè)篩選過(guò)程只需要在90萬(wàn)個(gè)樣本上運(yùn)行一次推理計(jì)算,總計(jì)算量?jī)H相當(dāng)于25個(gè)H100 GPU小時(shí),這對(duì)于動(dòng)輒需要數(shù)千GPU小時(shí)的模型訓(xùn)練來(lái)說(shuō)幾乎可以忽略不計(jì)。
其次是部署簡(jiǎn)單。PreSelect最終只需要一個(gè)輕量級(jí)的fastText分類器就能完成數(shù)據(jù)篩選,這個(gè)分類器的體積很小,運(yùn)行速度很快,可以輕松處理大規(guī)模數(shù)據(jù)集。相比之下,一些其他方法需要運(yùn)行大型語(yǔ)言模型進(jìn)行實(shí)時(shí)評(píng)估,計(jì)算開銷要大得多。
第三是適用性廣。PreSelect不依賴特定的數(shù)據(jù)域名或內(nèi)容類型,而是基于文本的內(nèi)在質(zhì)量進(jìn)行判斷。這意味著它可以應(yīng)用于各種不同來(lái)源的數(shù)據(jù)集,具有很好的通用性。實(shí)驗(yàn)表明,PreSelect在RefinedWeb和C4兩個(gè)不同的數(shù)據(jù)集上都取得了良好效果,證明了其廣泛的適用性。
最后是可解釋性強(qiáng)。通過(guò)分析fastText分類器學(xué)到的特征權(quán)重,研究人員可以了解PreSelect傾向于選擇什么樣的文本內(nèi)容。分析結(jié)果顯示,PreSelect偏好包含數(shù)學(xué)符號(hào)、編程代碼、學(xué)術(shù)引用等高質(zhì)量?jī)?nèi)容的文本,這與人類對(duì)優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)的直覺(jué)判斷是一致的。
六、深入分析:什么樣的數(shù)據(jù)被認(rèn)為是高質(zhì)量的
為了更好地理解PreSelect的選擇偏好,研究團(tuán)隊(duì)對(duì)被選中的高質(zhì)量數(shù)據(jù)進(jìn)行了詳細(xì)分析。結(jié)果發(fā)現(xiàn),PreSelect傾向于選擇幾類特定的內(nèi)容。
首先是學(xué)術(shù)和教育相關(guān)的內(nèi)容。分析顯示,維基百科、學(xué)術(shù)論文、教育網(wǎng)站等來(lái)源的文本在高質(zhì)量數(shù)據(jù)中占比較高。這些內(nèi)容通常結(jié)構(gòu)清晰、信息準(zhǔn)確、表達(dá)規(guī)范,是訓(xùn)練語(yǔ)言模型的優(yōu)質(zhì)材料。
其次是技術(shù)和專業(yè)內(nèi)容。包含編程代碼、數(shù)學(xué)公式、技術(shù)文檔的文本也經(jīng)常被PreSelect選中。這類內(nèi)容雖然對(duì)普通人來(lái)說(shuō)可能比較晦澀,但它們的邏輯性強(qiáng)、表達(dá)精確,有助于提升模型的推理能力。
再次是高質(zhì)量的創(chuàng)作內(nèi)容。一些文學(xué)作品、深度分析文章、專業(yè)評(píng)論等內(nèi)容也受到PreSelect的青睞。這些文本通常語(yǔ)言豐富、邏輯清晰、信息密度高,能夠幫助模型學(xué)習(xí)更好的語(yǔ)言表達(dá)能力。
相對(duì)地,PreSelect傾向于排除一些低質(zhì)量?jī)?nèi)容,比如重復(fù)性高的廣告文本、結(jié)構(gòu)混亂的論壇討論、信息密度低的社交媒體內(nèi)容等。這些內(nèi)容要么信息價(jià)值有限,要么可能引入噪聲,不利于模型學(xué)習(xí)。
有趣的是,PreSelect選擇的數(shù)據(jù)在長(zhǎng)度分布上也表現(xiàn)出一定的特點(diǎn)。相比隨機(jī)選擇,PreSelect傾向于選擇長(zhǎng)度適中的文檔,既不過(guò)短導(dǎo)致信息不足,也不過(guò)長(zhǎng)導(dǎo)致處理困難。平均而言,被選中文檔的字符長(zhǎng)度約為4000個(gè),這個(gè)長(zhǎng)度既能包含足夠的信息,又便于模型處理。
七、與其他方法的對(duì)比:PreSelect的獨(dú)特優(yōu)勢(shì)
在數(shù)據(jù)篩選領(lǐng)域,已經(jīng)存在多種不同的方法,每種方法都有其特定的設(shè)計(jì)思路和適用場(chǎng)景。通過(guò)與這些方法的詳細(xì)對(duì)比,可以更好地understanding PreSelect的獨(dú)特價(jià)值。
傳統(tǒng)的基于規(guī)則的方法,比如CCNet和RefinedWeb的啟發(fā)式過(guò)濾,主要依賴人工設(shè)計(jì)的規(guī)則來(lái)判斷文本質(zhì)量。這些規(guī)則可能包括文本長(zhǎng)度、重復(fù)字符比例、標(biāo)點(diǎn)符號(hào)使用等指標(biāo)。雖然這類方法簡(jiǎn)單易行,但往往難以捕捉文本的深層語(yǔ)義質(zhì)量,可能會(huì)誤傷一些表面看起來(lái)不規(guī)范但內(nèi)容有價(jià)值的文本。
另一類是基于預(yù)訓(xùn)練模型的方法,比如DCLM。這類方法使用已有的高質(zhì)量數(shù)據(jù)(如監(jiān)督微調(diào)數(shù)據(jù))作為正面樣本,訓(xùn)練一個(gè)分類器來(lái)識(shí)別相似的文本。雖然這種方法能夠捕捉一些語(yǔ)義特征,但它過(guò)分依賴特定類型的參考數(shù)據(jù),可能會(huì)產(chǎn)生選擇偏見(jiàn),只偏好與參考數(shù)據(jù)相似的內(nèi)容。
還有一些基于困惑度的方法,比如困惑度過(guò)濾。這類方法認(rèn)為模型處理起來(lái)更容易的文本(困惑度更低)質(zhì)量更高。但實(shí)際上,過(guò)于簡(jiǎn)單的文本雖然困惑度低,但信息價(jià)值也可能有限,不一定是最好的訓(xùn)練材料。
相比之下,PreSelect采用了一個(gè)全新的視角:不是單純看文本的表面特征或與特定參考的相似度,而是看文本能否有效區(qū)分不同模型的能力。這種方法更加本質(zhì),因?yàn)樗苯雨P(guān)注文本對(duì)模型能力提升的潛在價(jià)值。
實(shí)驗(yàn)結(jié)果也證實(shí)了這種思路的優(yōu)越性。在與困惑度相關(guān)方法的對(duì)比實(shí)驗(yàn)中,PreSelect在大多數(shù)任務(wù)上都取得了更好的性能。特別是在需要復(fù)雜推理的任務(wù)上,PreSelect的優(yōu)勢(shì)更加明顯,這說(shuō)明它確實(shí)能夠識(shí)別出對(duì)提升模型智能水平更有價(jià)值的訓(xùn)練數(shù)據(jù)。
八、技術(shù)實(shí)現(xiàn)細(xì)節(jié):如何讓PreSelect工作起來(lái)
PreSelect方法的技術(shù)實(shí)現(xiàn)涉及幾個(gè)關(guān)鍵步驟,每個(gè)步驟都經(jīng)過(guò)精心設(shè)計(jì)以確保方法的有效性和可操作性。
數(shù)據(jù)采樣階段是整個(gè)流程的基礎(chǔ)。為了確保樣本的代表性,研究團(tuán)隊(duì)采用了分層采樣策略。他們首先統(tǒng)計(jì)了整個(gè)語(yǔ)料庫(kù)中最頻繁的3000個(gè)域名,然后從每個(gè)域名下隨機(jī)選擇300個(gè)文檔。這樣既保證了樣本的多樣性,覆蓋了不同類型的內(nèi)容來(lái)源,又保證了足夠的樣本數(shù)量用于后續(xù)分析。
在計(jì)算預(yù)測(cè)強(qiáng)度分?jǐn)?shù)時(shí),研究團(tuán)隊(duì)使用了一個(gè)巧妙的排序匹配算法。對(duì)于每個(gè)文檔,他們首先計(jì)算6個(gè)參考模型的標(biāo)準(zhǔn)化損失值,然后檢查這些損失值的排序與模型真實(shí)能力排序的匹配程度。匹配度越高,說(shuō)明該文檔的預(yù)測(cè)能力越強(qiáng)。具體的計(jì)算公式考慮了所有可能的模型對(duì)之間的排序關(guān)系,確保了評(píng)分的準(zhǔn)確性和穩(wěn)定性。
fastText分類器的訓(xùn)練也經(jīng)過(guò)了特殊優(yōu)化。考慮到訓(xùn)練數(shù)據(jù)的多樣性和復(fù)雜性,研究團(tuán)隊(duì)將訓(xùn)練輪數(shù)設(shè)置為5輪,比默認(rèn)設(shè)置更多,以確保分類器能夠充分學(xué)習(xí)數(shù)據(jù)特征。同時(shí),他們還特對(duì)分類器的輸出進(jìn)行了后處理,消除了可能引入長(zhǎng)度偏見(jiàn)的因素,確保篩選結(jié)果的公平性。
為了提高方法的可擴(kuò)展性,PreSelect使用了高效的并行處理技術(shù)。在處理大規(guī)模數(shù)據(jù)集時(shí),可以將數(shù)據(jù)分批處理,每批獨(dú)立計(jì)算預(yù)測(cè)強(qiáng)度分?jǐn)?shù),最后合并結(jié)果。這種設(shè)計(jì)使得PreSelect能夠輕松處理萬(wàn)億級(jí)別的語(yǔ)料庫(kù),滿足實(shí)際應(yīng)用需求。
九、實(shí)驗(yàn)的全面性:多維度驗(yàn)證方法有效性
為了確保研究結(jié)果的可靠性和普適性,研究團(tuán)隊(duì)設(shè)計(jì)了非常全面的實(shí)驗(yàn)驗(yàn)證方案。他們不僅測(cè)試了不同規(guī)模的模型,還驗(yàn)證了方法在不同數(shù)據(jù)集和模型架構(gòu)上的表現(xiàn)。
在模型規(guī)模方面,實(shí)驗(yàn)涵蓋了從400M到3B參數(shù)的多個(gè)規(guī)模。這個(gè)范圍雖然沒(méi)有包括當(dāng)前最大的模型,但已經(jīng)能夠很好地驗(yàn)證方法的有效性。小規(guī)模模型的實(shí)驗(yàn)成本相對(duì)較低,便于進(jìn)行多次重復(fù)驗(yàn)證,而且實(shí)驗(yàn)結(jié)果也更容易被其他研究者復(fù)現(xiàn)。
在評(píng)估任務(wù)方面,研究團(tuán)隊(duì)選擇了17個(gè)不同類型的任務(wù),包括閱讀理解、常識(shí)推理、科學(xué)問(wèn)答、數(shù)學(xué)計(jì)算等多個(gè)方面。這些任務(wù)基本覆蓋了語(yǔ)言模型需要掌握的主要能力,能夠全面評(píng)估模型的綜合表現(xiàn)。特別值得注意的是,研究團(tuán)隊(duì)還加入了數(shù)學(xué)和代碼相關(guān)的評(píng)估,這些任務(wù)對(duì)數(shù)據(jù)質(zhì)量的要求更高,更能體現(xiàn)篩選方法的價(jià)值。
為了驗(yàn)證方法的跨數(shù)據(jù)集適用性,研究團(tuán)隊(duì)還在C4數(shù)據(jù)集上進(jìn)行了額外實(shí)驗(yàn)。C4是另一個(gè)廣泛使用的預(yù)訓(xùn)練數(shù)據(jù)集,其特征與RefinedWeb存在一定差異。實(shí)驗(yàn)結(jié)果顯示,PreSelect在C4上同樣取得了良好效果,證明了方法的通用性。
在模型架構(gòu)方面,除了主要實(shí)驗(yàn)使用的Llama架構(gòu),研究團(tuán)隊(duì)還測(cè)試了Pythia架構(gòu)。兩種架構(gòu)在設(shè)計(jì)理念和技術(shù)細(xì)節(jié)上存在差異,但PreSelect在兩種架構(gòu)上都表現(xiàn)良好,說(shuō)明方法不依賴特定的模型架構(gòu)。
十、計(jì)算開銷分析:高效率的背后
PreSelect方法的一個(gè)重要優(yōu)勢(shì)是計(jì)算開銷相對(duì)較低,這對(duì)于實(shí)際應(yīng)用具有重要意義。研究團(tuán)隊(duì)對(duì)方法的計(jì)算成本進(jìn)行了詳細(xì)分析。
在數(shù)據(jù)預(yù)處理階段,PreSelect需要對(duì)90萬(wàn)個(gè)樣本進(jìn)行一次推理計(jì)算,使用6個(gè)不同規(guī)模的Llama模型。雖然涉及多個(gè)模型,但由于樣本數(shù)量相對(duì)較少(相比數(shù)萬(wàn)億的訓(xùn)練數(shù)據(jù)),總計(jì)算量約為1.8×10^20 FLOPs,相當(dāng)于25個(gè)H100 GPU小時(shí)。這個(gè)開銷對(duì)于通常需要數(shù)千GPU小時(shí)的模型訓(xùn)練來(lái)說(shuō)是很小的。
fastText分類器的訓(xùn)練成本更是微不足道。由于fastText本身就是一個(gè)輕量級(jí)模型,訓(xùn)練時(shí)間通常在幾分鐘到幾十分鐘之間,即使在普通的CPU上也能快速完成。
在數(shù)據(jù)篩選階段,PreSelect只需要運(yùn)行訓(xùn)練好的fastText分類器,這個(gè)過(guò)程非常高效。對(duì)于萬(wàn)億級(jí)別的語(yǔ)料庫(kù),篩選過(guò)程可以在幾天內(nèi)完成,遠(yuǎn)快于需要運(yùn)行大型語(yǔ)言模型的篩選方法。
值得注意的是,PreSelect的計(jì)算開銷主要集中在一次性的預(yù)處理階段,一旦建立了fastText分類器,就可以重復(fù)使用來(lái)篩選不同的數(shù)據(jù)集。這種設(shè)計(jì)使得方法具有很好的經(jīng)濟(jì)性,特別適合需要處理多個(gè)數(shù)據(jù)集的場(chǎng)景。
十一、數(shù)據(jù)特征分析:揭示高質(zhì)量數(shù)據(jù)的秘密
通過(guò)對(duì)PreSelect選擇的數(shù)據(jù)進(jìn)行深入分析,研究團(tuán)隊(duì)揭示了高質(zhì)量訓(xùn)練數(shù)據(jù)的一些有趣特征。這些發(fā)現(xiàn)不僅驗(yàn)證了方法的合理性,也為理解語(yǔ)言模型的學(xué)習(xí)規(guī)律提供了有價(jià)值的洞察。
從內(nèi)容來(lái)源看,PreSelect明顯偏好某些類型的網(wǎng)站。維基百科作為高質(zhì)量的百科全書式內(nèi)容,在選中數(shù)據(jù)中占比遠(yuǎn)高于其在原始數(shù)據(jù)集中的比例。同樣受到青睞的還有學(xué)術(shù)網(wǎng)站、技術(shù)論壇、教育平臺(tái)等。這些網(wǎng)站的內(nèi)容通常經(jīng)過(guò)一定程度的編輯和審核,質(zhì)量相對(duì)較高。
相反,一些商業(yè)網(wǎng)站、社交媒體、新聞評(píng)論等內(nèi)容在選中數(shù)據(jù)中的比例較低。這并不意味著這些內(nèi)容完全沒(méi)有價(jià)值,而是說(shuō)在大規(guī)模訓(xùn)練的語(yǔ)境下,前一類內(nèi)容對(duì)模型能力提升的效果更顯著。
從語(yǔ)言特征看,PreSelect選擇的文本往往具有更好的結(jié)構(gòu)性和邏輯性。分析fastText分類器學(xué)到的特征權(quán)重,可以發(fā)現(xiàn)一些有趣的模式。比如,包含數(shù)學(xué)符號(hào)(如"^")、編程相關(guān)詞匯(如"MIT"、"API")、學(xué)術(shù)引用格式(如"Cite"、"Retrieved")的文本更容易被選中。
這些特征反映了PreSelect的一個(gè)重要洞察:對(duì)于語(yǔ)言模型訓(xùn)練來(lái)說(shuō),那些需要更高認(rèn)知能力才能理解和生成的文本,往往具有更高的訓(xùn)練價(jià)值。數(shù)學(xué)公式需要邏輯推理能力,編程代碼需要精確的語(yǔ)法理解,學(xué)術(shù)文獻(xiàn)需要嚴(yán)密的表達(dá)能力,這些都是語(yǔ)言模型需要掌握的重要技能。
從文本長(zhǎng)度看,PreSelect傾向于選擇長(zhǎng)度適中的文檔。過(guò)短的文檔可能信息不足,過(guò)長(zhǎng)的文檔可能包含過(guò)多噪聲。研究發(fā)現(xiàn),被選中文檔的平均長(zhǎng)度約為4000字符,這個(gè)長(zhǎng)度既能包含完整的語(yǔ)義信息,又便于模型處理。
十二、方法局限性與改進(jìn)方向
盡管PreSelect方法表現(xiàn)出色,但研究團(tuán)隊(duì)也誠(chéng)實(shí)地討論了其局限性和可能的改進(jìn)方向。
首先是參考模型的選擇問(wèn)題。當(dāng)前PreSelect使用的是Llama系列模型作為能力基準(zhǔn),雖然這些模型性能優(yōu)秀且廣受認(rèn)可,但它們可能存在特定的偏見(jiàn)或局限性。如果參考模型在某些任務(wù)上表現(xiàn)不佳,那么PreSelect可能也會(huì)低估相關(guān)數(shù)據(jù)的價(jià)值。未來(lái)的改進(jìn)可以考慮使用更多樣化的參考模型,或者根據(jù)具體應(yīng)用場(chǎng)景選擇最合適的基準(zhǔn)。
其次是評(píng)估任務(wù)的覆蓋面問(wèn)題。雖然實(shí)驗(yàn)包含了17個(gè)不同類型的任務(wù),但這些任務(wù)主要集中在英語(yǔ)和傳統(tǒng)的NLP任務(wù)上。對(duì)于多語(yǔ)言、多模態(tài)或者特定領(lǐng)域的應(yīng)用,PreSelect的有效性還需要進(jìn)一步驗(yàn)證。
第三是計(jì)算資源的需求問(wèn)題。雖然PreSelect的計(jì)算開銷相對(duì)較低,但仍然需要運(yùn)行多個(gè)大型語(yǔ)言模型進(jìn)行推理。對(duì)于一些資源受限的研究機(jī)構(gòu)或公司,這可能仍然是一個(gè)門檻。未來(lái)可以考慮開發(fā)更輕量級(jí)的版本,或者提供預(yù)計(jì)算的結(jié)果供其他研究者使用。
最后是方法的理論基礎(chǔ)問(wèn)題。雖然實(shí)驗(yàn)結(jié)果驗(yàn)證了"預(yù)測(cè)強(qiáng)度高的數(shù)據(jù)訓(xùn)練價(jià)值也高"這一假設(shè),但這種關(guān)聯(lián)背后的深層機(jī)制還不完全清楚。未來(lái)的研究可以從理論角度進(jìn)一步分析這種關(guān)聯(lián)的原因,這將有助于開發(fā)更精確和可靠的數(shù)據(jù)篩選方法。
十三、實(shí)際應(yīng)用價(jià)值與影響
PreSelect方法的價(jià)值不僅體現(xiàn)在學(xué)術(shù)研究上,更重要的是它為實(shí)際的AI模型開發(fā)提供了實(shí)用的工具。隨著語(yǔ)言模型規(guī)模不斷增大,訓(xùn)練成本也水漲船高,如何提高訓(xùn)練效率成為業(yè)界關(guān)注的焦點(diǎn)。
對(duì)于AI公司而言,PreSelect提供了一個(gè)成本效益極高的解決方案。通過(guò)篩選出最有價(jià)值的訓(xùn)練數(shù)據(jù),公司可以在保持模型性能的同時(shí)大幅降低訓(xùn)練成本。研究顯示的10倍效率提升,意味著原本需要數(shù)月時(shí)間和數(shù)百萬(wàn)美元成本的訓(xùn)練項(xiàng)目,現(xiàn)在可能只需要幾周時(shí)間和幾十萬(wàn)美元就能完成。
對(duì)于學(xué)術(shù)研究機(jī)構(gòu)來(lái)說(shuō),PreSelect降低了進(jìn)行大規(guī)模語(yǔ)言模型研究的門檻。許多研究機(jī)構(gòu)受限于計(jì)算資源,無(wú)法進(jìn)行大規(guī)模模型訓(xùn)練實(shí)驗(yàn)。通過(guò)使用PreSelect篩選的高質(zhì)量數(shù)據(jù),這些機(jī)構(gòu)可以用較少的資源獲得接近大規(guī)模訓(xùn)練的效果,從而參與到前沿AI研究中來(lái)。
從更廣泛的社會(huì)影響來(lái)看,PreSelect有助于推動(dòng)AI技術(shù)的民主化。當(dāng)前,只有少數(shù)擁有海量計(jì)算資源的大公司能夠訓(xùn)練最先進(jìn)的語(yǔ)言模型。PreSelect這樣的高效訓(xùn)練方法,可能會(huì)讓更多的組織和個(gè)人有機(jī)會(huì)開發(fā)出高質(zhì)量的AI模型,從而促進(jìn)AI技術(shù)的多樣化發(fā)展。
此外,PreSelect對(duì)環(huán)境保護(hù)也有積極意義。AI模型訓(xùn)練消耗大量電力,產(chǎn)生可觀的碳排放。通過(guò)提高訓(xùn)練效率,PreSelect可以顯著減少模型開發(fā)過(guò)程中的能源消耗和環(huán)境影響,這對(duì)于AI行業(yè)的可持續(xù)發(fā)展具有重要意義。
說(shuō)到底,PreSelect代表了AI研究中一個(gè)重要的發(fā)展方向:不是一味追求更大的模型和更多的數(shù)據(jù),而是通過(guò)更智能的方法提高效率和效果。這種思路可能會(huì)啟發(fā)更多類似的創(chuàng)新,推動(dòng)整個(gè)AI領(lǐng)域向著更加高效、經(jīng)濟(jì)、可持續(xù)的方向發(fā)展。
這項(xiàng)來(lái)自香港科技大學(xué)的研究,雖然在技術(shù)層面相對(duì)簡(jiǎn)潔,但其影響可能是深遠(yuǎn)的。它不僅提供了一個(gè)實(shí)用的工具,更重要的是展示了一種新的思考問(wèn)題的方式。當(dāng)我們面對(duì)海量數(shù)據(jù)時(shí),關(guān)鍵不是處理更多數(shù)據(jù),而是找到最有價(jià)值的那部分。這個(gè)道理不僅適用于AI訓(xùn)練,也可能對(duì)其他需要處理大規(guī)模數(shù)據(jù)的領(lǐng)域有所啟發(fā)。對(duì)于那些希望了解更多技術(shù)細(xì)節(jié)的讀者,建議查閱原論文以獲得更全面的信息。
Q&A
Q1:PreSelect到底是什么?它能做什么? A:PreSelect是香港科技大學(xué)開發(fā)的一種AI訓(xùn)練數(shù)據(jù)篩選方法。它的核心能力是從海量文本中智能識(shí)別出最適合訓(xùn)練語(yǔ)言模型的高質(zhì)量數(shù)據(jù)。通過(guò)分析文本對(duì)不同模型能力的反映程度,PreSelect能夠找到那些對(duì)提升模型性能最有幫助的訓(xùn)練材料,實(shí)現(xiàn)用30B樣本達(dá)到300B樣本的訓(xùn)練效果。
Q2:PreSelect會(huì)不會(huì)取代現(xiàn)有的數(shù)據(jù)處理方法? A:PreSelect更像是對(duì)現(xiàn)有方法的重要補(bǔ)充而非完全替代。它在數(shù)據(jù)篩選環(huán)節(jié)表現(xiàn)突出,但仍需要與傳統(tǒng)的數(shù)據(jù)清洗、去重等預(yù)處理步驟配合使用。未來(lái)可能會(huì)成為AI訓(xùn)練流程中的標(biāo)準(zhǔn)組件,但不會(huì)完全取代其他數(shù)據(jù)處理技術(shù)。
Q3:普通研究者如何使用PreSelect?有什么要求? A:研究團(tuán)隊(duì)已在GitHub開源了PreSelect的代碼和訓(xùn)練好的數(shù)據(jù)篩選器(https://github.com/hkust-nlp/PreSelect)。使用者需要一定的機(jī)器學(xué)習(xí)基礎(chǔ)和計(jì)算資源,主要用于運(yùn)行fastText分類器進(jìn)行數(shù)據(jù)篩選。相比其他方法,PreSelect的資源需求相對(duì)較低,使普通研究機(jī)構(gòu)也能使用。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。