在人工智能研究的廣闊天空中,基礎(chǔ)模型就像是支撐整個生態(tài)系統(tǒng)的"地基",而評估這些地基哪個更牢固,一直是學(xué)術(shù)界和產(chǎn)業(yè)界關(guān)注的焦點(diǎn)。來自LAION、于利希超級計算中心(JSC)、意大利國家信息科學(xué)與技術(shù)研究院(CNR)和埃因霍溫理工大學(xué)的研究團(tuán)隊聯(lián)合發(fā)表了一項(xiàng)開創(chuàng)性研究,探索了如何通過規(guī)模法則(Scaling Law)更科學(xué)地比較開源視覺語言模型。這項(xiàng)研究發(fā)表于2025年6月5日的arXiv預(yù)印本平臺(arXiv:2506.04598v1)。
想象一下,你想比較兩種不同的健身方法哪個更有效。如果只是看一個人鍛煉一周的效果,結(jié)論可能很片面;但如果你能追蹤多位使用者在不同時長(一周、一個月、半年)的進(jìn)步曲線,就能更準(zhǔn)確地判斷哪種方法真正更有效。研究團(tuán)隊正是使用了類似的"規(guī)模法則"思路,通過測量模型在不同計算資源和數(shù)據(jù)量下的表現(xiàn)曲線,而不是僅僅看某一個特定配置下的性能表現(xiàn)。
這項(xiàng)研究首次對兩種重要的語言-視覺學(xué)習(xí)方法——CLIP(僅使用對比學(xué)習(xí))和MaMMUT(同時使用對比學(xué)習(xí)和生成式標(biāo)題學(xué)習(xí))——進(jìn)行了全面的規(guī)模法則分析。研究團(tuán)隊在廣泛的模型規(guī)模和訓(xùn)練樣本數(shù)量上進(jìn)行了密集測量,確保預(yù)測的準(zhǔn)確性。結(jié)果顯示,雖然在較小的計算規(guī)模下CLIP表現(xiàn)更優(yōu),但隨著規(guī)模增加,MaMMUT展現(xiàn)出更強(qiáng)的可擴(kuò)展性和數(shù)據(jù)效率,在大規(guī)模計算資源條件下性能超過CLIP。這一趨勢在不同的下游任務(wù)(分類、檢索、分割)和不同的開放數(shù)據(jù)集(DataComp、DFN和Re-LAION)中都得到了一致驗(yàn)證。
研究團(tuán)隊還發(fā)現(xiàn),即使使用計算成本降低98%的恒定學(xué)習(xí)率方案進(jìn)行規(guī)模法則推導(dǎo),仍然能得出相同的結(jié)論,證明了這種比較方法的穩(wěn)健性?;谘芯堪l(fā)現(xiàn),團(tuán)隊還訓(xùn)練了一個開放的大型模型openMaMMUT-L/14,它在ImageNet-1k零樣本分類上達(dá)到了80.3%的準(zhǔn)確率。
這項(xiàng)研究為如何科學(xué)地比較開源基礎(chǔ)模型和數(shù)據(jù)集提供了新方法,避免了僅基于單一參考點(diǎn)的片面比較,為系統(tǒng)性地改進(jìn)開源基礎(chǔ)模型和數(shù)據(jù)集鋪平了道路。
一、為什么我們需要更好的模型比較方法?
想象一下,你去買跑鞋時面臨兩個品牌的選擇。銷售員告訴你:"A品牌在專業(yè)馬拉松選手中更受歡迎,而B品牌在普通跑步愛好者中口碑更好。"這樣的信息對你的選擇其實(shí)幫助不大,因?yàn)槟悴恢肋@些評價背后的具體測試條件、使用者特點(diǎn)以及評價標(biāo)準(zhǔn)是什么。
人工智能領(lǐng)域的基礎(chǔ)模型比較也面臨類似的問題。通常,研究人員會在一系列標(biāo)準(zhǔn)化的參考任務(wù)上比較不同的基礎(chǔ)模型。然而,這種比較往往只在一個或少數(shù)幾個選定的模型規(guī)模和數(shù)據(jù)規(guī)模上進(jìn)行,而且沒有仔細(xì)對齊投入訓(xùn)練的計算資源。更糟糕的是,重要的訓(xùn)練數(shù)據(jù)集通常是封閉的,無法公開獲取。這使得難以確定所觀察到的模型差異是由算法改進(jìn)、數(shù)據(jù)集質(zhì)量還是訓(xùn)練計算資源的差異造成的,或者是它們的組合效應(yīng)。同時,也無法確定這種比較是否適用于其他規(guī)模。
研究團(tuán)隊通過使用規(guī)模法則推導(dǎo)來解決這些問題?;A(chǔ)模型展現(xiàn)出的規(guī)模法則允許我們從較小規(guī)模的測量中確定模型性能與總訓(xùn)練計算量之間的依賴關(guān)系,從而能夠在廣泛的規(guī)模范圍內(nèi)進(jìn)行預(yù)測,而不僅僅是一個或幾個選定的點(diǎn)。
研究小組選擇了語言-視覺學(xué)習(xí)作為模型和數(shù)據(jù)集比較的重要場景。對比性語言-圖像預(yù)訓(xùn)練(CLIP)是一種成熟的學(xué)習(xí)程序,其產(chǎn)生的模型展示了令人印象深刻的穩(wěn)健性和遷移能力,已經(jīng)被廣泛應(yīng)用于許多設(shè)置中,如視覺-語言指令微調(diào)模型(如LLaVa、InternVL、SigLIP)和文本到圖像生成模型。自CLIP首次發(fā)布以來,提出了許多擴(kuò)展,如CoCa、MaMMUT和SigLIP。這些工作聲稱提供了比標(biāo)準(zhǔn)CLIP更高性能的語言-視覺模型。然而,目前還不清楚這些訓(xùn)練程序中哪一個因?yàn)楹畏N原因更好,以及對標(biāo)準(zhǔn)CLIP程序的改進(jìn)聲明是否在各個規(guī)模上都成立。
二、科學(xué)的模型比較:密集測量與規(guī)模法則
研究團(tuán)隊的方法就像是進(jìn)行一場全面而系統(tǒng)的科學(xué)實(shí)驗(yàn),而不是簡單地比較兩款產(chǎn)品的某一項(xiàng)指標(biāo)。他們不僅關(guān)注最終結(jié)果,更關(guān)注不同配置下性能變化的整體趨勢。
在這項(xiàng)研究中,團(tuán)隊使用了三個開放參考數(shù)據(jù)集:DataComp-1.4B、DFN-1.4B和Re-LAION-1.4B,對CLIP和MaMMUT這兩種重要的程序進(jìn)行了大規(guī)模研究。他們在模型架構(gòu)大小(從S/32到H/14)和所見樣本數(shù)量(從1.28M到3B)的廣泛跨度上進(jìn)行了密集測量,評估下游性能的任務(wù)涵蓋零樣本分類、檢索和分割。
研究使用的CLIP模型基于對比InfoNCE損失訓(xùn)練,而MaMMUT模型則結(jié)合了對比損失和標(biāo)題生成損失。為確保公平比較,研究團(tuán)隊使用了完全相同的訓(xùn)練環(huán)境和評估流程。
具體來說,研究中考慮了15種不同的模型配置(ViT-S、ViT-M、ViT-B、ViT-L和ViT-H視覺編碼器,每種都有32x32、16x16和14x14的不同patch尺寸),以及11個不同的樣本數(shù)量配置(從1.28M到3.07B)。研究還比較了余弦和恒定學(xué)習(xí)率調(diào)度器的效果。
在下游評估方面,研究使用了零樣本分類(在DataComp評估套件中的35個分類任務(wù)上評估top-1準(zhǔn)確率)、零樣本檢索(在MS-COCO上評估圖像和文本檢索Recall@5指標(biāo))以及分割(在ADE20K上進(jìn)行語義分割)。
這種全面而系統(tǒng)的評估方法,就像是對運(yùn)動員進(jìn)行全面的體能測試,而不僅僅是看100米短跑成績,從而確保了比較結(jié)果的可靠性和全面性。
三、規(guī)模法則推導(dǎo):理解模型如何隨規(guī)模增長而變化
為了理解模型性能如何隨著計算資源和數(shù)據(jù)量的增加而變化,研究團(tuán)隊使用了規(guī)模法則推導(dǎo)。這就像是研究植物生長規(guī)律——通過測量不同階段的高度,你可以預(yù)測它未來的生長曲線。
在規(guī)模法則的推導(dǎo)過程中,研究團(tuán)隊既改變了模型架構(gòu)大小(文本和視覺塔的參數(shù)數(shù)量),也改變了所見樣本數(shù)量和patch大小。一般來說,計算量與性能之間遵循冪律關(guān)系:L = aC^b,其中C是計算量(以FLOPs計),L是誤差率。
由于零樣本圖像分類等任務(wù)的特殊性,研究團(tuán)隊考慮了小計算規(guī)模下的飽和效應(yīng)和任務(wù)固有的性能上限,采用了以下函數(shù)形式來擬合誤差率:
L(C) = Ac · (C + Bc)^(-αc) + Ec
其中αc > 0,Ec代表不可約誤差。
對于每種計算規(guī)模C和模型架構(gòu)的組合,研究團(tuán)隊取誤差率最小的點(diǎn)。為了評估擬合質(zhì)量,他們使用了計算預(yù)算低于閾值的點(diǎn)進(jìn)行擬合,然后計算剩余(保留)點(diǎn)上的均方誤差。
這種方法就像是天氣預(yù)報——通過已知的數(shù)據(jù)點(diǎn)建立模型,然后檢驗(yàn)?zāi)P蛯ξ磥硖鞖獾念A(yù)測準(zhǔn)確性,從而驗(yàn)證模型的可靠性。
四、研究發(fā)現(xiàn):MaMMUT的規(guī)模優(yōu)勢
研究的核心發(fā)現(xiàn)就像是一場馬拉松比賽——在起跑階段CLIP領(lǐng)先,但隨著距離增加,MaMMUT逐漸顯示出更強(qiáng)的耐力和速度優(yōu)勢。
具體來說,研究發(fā)現(xiàn)MaMMUT在可擴(kuò)展性方面一致優(yōu)于CLIP。這反映在等效計算預(yù)算下較大規(guī)模時的較低誤差率上,交叉點(diǎn)始終位于10^10和10^11 GFLOPS之間。這表明隨著計算量增加,MaMMUT表現(xiàn)出更好的效率和泛化能力。
重要的是,這一趨勢在不同條件下都得到了一致驗(yàn)證:
首先,在不同的預(yù)訓(xùn)練數(shù)據(jù)集上,包括DataComp-1.4B、Re-LAION-1.4B和DFN-1.4B,均觀察到相同的趨勢。這就像是三場不同賽道上的馬拉松,MaMMUT都展現(xiàn)出了同樣的長距離優(yōu)勢。
其次,在不同的下游任務(wù)上,包括ImageNet-1k零樣本圖像分類、MS-COCO圖像檢索和ADE20K語義分割,都觀察到了一致的趨勢。這表明MaMMUT的優(yōu)勢不局限于特定類型的任務(wù),而是一種普遍性能的提升。
第三,無論使用余弦還是恒定學(xué)習(xí)率調(diào)度器,都觀察到了相同的一致趨勢。這說明即使使用計算成本降低98%的恒定學(xué)習(xí)率方案進(jìn)行規(guī)模法則推導(dǎo),仍能得出相同的結(jié)論。
研究還發(fā)現(xiàn),在較小規(guī)模的低性能范圍內(nèi),CLIP一致地優(yōu)于MaMMUT,但在較大計算規(guī)模的高性能范圍內(nèi),MaMMUT則一致地超越了CLIP。這就像是短跑選手和長跑選手的對比——在短距離賽跑中,短跑選手更有優(yōu)勢;但在長距離比賽中,長跑選手的耐力優(yōu)勢就會顯現(xiàn)出來。
通過驗(yàn)證擬合的方式,研究團(tuán)隊對只擬合到一定計算預(yù)算的規(guī)模法則進(jìn)行了外推,并計算了更大計算規(guī)模的均方誤差。他們觀察到,添加更多點(diǎn)到擬合中會減少保留點(diǎn)上的均方誤差,同時也減少了預(yù)測的不確定性。
五、數(shù)據(jù)集比較:哪種數(shù)據(jù)集更有效?
研究不僅比較了模型架構(gòu),還使用規(guī)模法則對不同的數(shù)據(jù)集進(jìn)行了比較。這就像是比較不同肥料對植物生長的影響——通過觀察在不同肥料下植物生長曲線的差異,可以判斷哪種肥料更有效。
對于DataComp-1.4B和Re-LAION-1.4B的比較,研究發(fā)現(xiàn),對于CLIP和MaMMUT,在DataComp-1.4B上訓(xùn)練提供了更好的零樣本ImageNet-1k分類可擴(kuò)展性。然而,在MS-COCO檢索方面,兩個數(shù)據(jù)集的可擴(kuò)展性和性能相似,Re-LAION-1.4B略有優(yōu)勢。
研究還比較了開源數(shù)據(jù)集與閉源數(shù)據(jù)集WIT-400M的性能。使用更密集的規(guī)模法則推導(dǎo)測量,研究確認(rèn)了之前工作的發(fā)現(xiàn)——閉源數(shù)據(jù)集WIT-400M在零樣本分類上有更好的擴(kuò)展趨勢,但在零樣本檢索上擴(kuò)展趨勢更差。這是即使在規(guī)模法則推導(dǎo)有重大差異的情況下,仍觀察到一致趨勢,證明了基于規(guī)模法則的比較的穩(wěn)健性。
DataComp-1.4B可以被視為Re-LAION-1.4B的改進(jìn)版本,在分類上具有更強(qiáng)的可擴(kuò)展性,媲美WIT-400M,同時在檢索上獲得的性能與Re-LAION-1.4B相當(dāng),優(yōu)于WIT-400M。
此外,研究還提供了Re-LAION、DataComp和DFN的比較。對于DFN,研究只測量了高達(dá)300M的樣本數(shù)量和高達(dá)L/14的模型規(guī)模,因此基于高達(dá)10^11 GFLOPS的計算規(guī)模進(jìn)行比較。結(jié)果顯示,在DFN-1.4B上訓(xùn)練提供了更強(qiáng)的可擴(kuò)展性,在CLIP和MaMMUT架構(gòu)上均超過了DataComp和Re-LAION,無論是對于零樣本ImageNet-1k分類還是MSCOCO檢索。盡管用于數(shù)據(jù)集比較的計算較低,趨勢的不確定性也更高,但測量的趨勢清晰一致,允許得出有利于DFN-1.4B而非其他數(shù)據(jù)集的結(jié)論。
六、MaMMUT的數(shù)據(jù)效率和最優(yōu)數(shù)據(jù)集規(guī)模
研究進(jìn)一步分析了CLIP和MaMMUT的數(shù)據(jù)效率和計算最優(yōu)數(shù)據(jù)集規(guī)模。這就像是研究不同學(xué)習(xí)方法的效率——相同學(xué)習(xí)時間內(nèi),哪種方法能讓學(xué)生掌握更多知識。
研究顯示,MaMMUT展現(xiàn)出比CLIP更高的數(shù)據(jù)效率。隨著訓(xùn)練樣本數(shù)量的增加,MaMMUT在ImageNet-1k零樣本圖像分類上取得了更好的性能。同時,MaMMUT需要更少的訓(xùn)練樣本來實(shí)現(xiàn)計算最優(yōu)性能。這表明MaMMUT比CLIP更有效地利用訓(xùn)練數(shù)據(jù),泛化能力更強(qiáng),隨著數(shù)據(jù)增加擴(kuò)展得更好。
研究還提供了未見計算規(guī)模的最優(yōu)訓(xùn)練樣本數(shù)量估計。例如,對于計算預(yù)算為2.14e+12 GFLOPs(對應(yīng)CLIP ViT-L-14在12.8B圖像-文本對上訓(xùn)練),預(yù)測的計算最優(yōu)樣本數(shù)量為2.30e+10,而對于計算預(yù)算為2.59e+12 GFLOPs(對應(yīng)MaMMUT ViT-L-14在12.8B樣本上訓(xùn)練),預(yù)測的計算最優(yōu)樣本數(shù)量為1.42e+10。
這些結(jié)果表明,MaMMUT是一個更具可擴(kuò)展性的模型,與使用Eq.1擬合實(shí)驗(yàn)數(shù)據(jù)的估計一致。簡而言之,MaMMUT能更高效地利用數(shù)據(jù)和計算資源,特別是在大規(guī)模場景下。
七、與其他架構(gòu)的比較:誰是真正的冠軍?
除了CLIP和MaMMUT,研究還調(diào)查了其他模型架構(gòu):SigLIP(使用sigmoid損失代替softmax的CLIP)、CoCa(使用編碼器-解碼器文本塔的對比+標(biāo)題損失,而MaMMUT僅使用解碼器)和Cap(純標(biāo)題生成器)。這些模型都在DataComp-1.4B上進(jìn)行了訓(xùn)練,以便與openCLIP和openMaMMUT進(jìn)行比較。
研究結(jié)果顯示,CLIP和SigLIP在ImageNet-1k分類上具有非常相似的擴(kuò)展行為,而openMaMMUT在相同計算規(guī)模上一致超過CoCa。值得注意的是,分析表明SigLIP的可擴(kuò)展性與CLIP相似甚至更差,這與近期SigLIP因其架構(gòu)優(yōu)勢(特別是使用sigmoid傳遞函數(shù)代替softmax)而成為視覺編碼器更好選擇的說法相矛盾。在研究中嚴(yán)格控制相同訓(xùn)練數(shù)據(jù)的實(shí)驗(yàn)中,沒有發(fā)現(xiàn)SigLIP相對于標(biāo)準(zhǔn)CLIP有任何優(yōu)勢。
研究還觀察到,僅使用解碼器的MaMMUT在相同計算規(guī)模上超過了編碼器-解碼器的CoCa,表明MaMMUT更簡單、參數(shù)效率更高的架構(gòu)可能更可取。
此外,研究發(fā)現(xiàn)MaMMUT的擴(kuò)展性優(yōu)于Cap,顯示對比和標(biāo)題損失的組合是有利的。研究還看到Cap的表現(xiàn)甚至不如標(biāo)準(zhǔn)CLIP,暗示Cap作為僅基于標(biāo)題生成器的架構(gòu)在0樣本(zero-shot)情景下不是一個好的可擴(kuò)展性候選,進(jìn)一步證明對比損失是0樣本分類可擴(kuò)展架構(gòu)的重要組成部分。
值得注意的是,Cap只能使用基于對數(shù)似然的評估進(jìn)行零樣本分類任務(wù),而CLIP和MaMMUT除此之外還可以使用基于嵌入相似性的評估,這要?dú)w功于它們的對比損失。研究結(jié)果表明,openCLIP和openMaMMUT中使用的基于嵌入相似性的評估比基于對數(shù)似然的評估具有強(qiáng)大的優(yōu)勢,而且執(zhí)行成本也更低。由于缺少對比損失,Cap在架構(gòu)上處于劣勢,無法使用基于相似性的評估,這導(dǎo)致其在0樣本情景下表現(xiàn)較差。
八、基于規(guī)模法則的預(yù)測:未來何去何從?
研究團(tuán)隊還使用派生的規(guī)模法則為未見的計算規(guī)模提供了預(yù)測。這就像是根據(jù)球員的歷史表現(xiàn)曲線預(yù)測他在未來更高水平比賽中的表現(xiàn)。
對于在DataComp-1.4B上訓(xùn)練的MaMMUT和CLIP,研究團(tuán)隊預(yù)測了未見計算預(yù)算2.14e+12 GFLOPs(對應(yīng)CLIP ViT-L-14在12.8B圖像-文本對上訓(xùn)練)和2.59e+12 GFLOPs(對應(yīng)MaMMUT ViT-L-14在12.8B樣本上訓(xùn)練)的性能。預(yù)測結(jié)果顯示MaMMUT優(yōu)于CLIP。
作為對較大規(guī)模的預(yù)測測試,對于在DataComp-1.4B的12.8B樣本上訓(xùn)練的CLIP ViT-L-14,研究團(tuán)隊的ImageNet-1k零樣本準(zhǔn)確率預(yù)測(79.6%)接近原始DataComp工作中報告的性能(79.2%)。實(shí)際測量的性能完全在預(yù)測置信區(qū)間內(nèi)。
值得注意的是,DataComp原始工作中測量的性能是在大量樣本重復(fù)的情況下進(jìn)行的(在DataComp-1.4B上的12.8B約為9倍重復(fù)),而研究團(tuán)隊的預(yù)測是針對獨(dú)特或低重復(fù)場景進(jìn)行的,這也可能解釋預(yù)測中較高性能的趨勢。
研究團(tuán)隊還訓(xùn)練了一個基于研究發(fā)現(xiàn)的大型模型openMaMMUT-L/14。該模型在DataComp-1.4B的12.8B圖像-文本樣本上訓(xùn)練,在ImageNet-1k零樣本準(zhǔn)確率上達(dá)到了80.3%,優(yōu)于在相同DataComp-1.4B預(yù)算12.8B上預(yù)訓(xùn)練的openCLIP(79.2%),甚至與具有更大預(yù)訓(xùn)練計算量的模型如SigLIP相媲美。openMaMMUT代表了一個高性能、完全可復(fù)現(xiàn)的替代方案,擁有公開可用的數(shù)據(jù)和訓(xùn)練代碼。
需要注意的是,在12.8B樣本規(guī)模上,由于重復(fù)量高,性能低于研究團(tuán)隊對獨(dú)特樣本訓(xùn)練的82%預(yù)測。這表明在更大規(guī)模的開放數(shù)據(jù)集上,模型性能可能會更接近預(yù)測值。
九、深入理解結(jié)果:穩(wěn)健的比較框架
研究團(tuán)隊的方法提供了一個穩(wěn)健的框架,用于比較開源基礎(chǔ)模型和數(shù)據(jù)集。這就像是建立一個公平的運(yùn)動員評價系統(tǒng),不僅看一場比賽的成績,而是全面評估運(yùn)動員在各種條件下的表現(xiàn)曲線。
研究表明,通過規(guī)模法則推導(dǎo),可以基于估計的可擴(kuò)展性進(jìn)行模型和數(shù)據(jù)集比較,涵蓋廣泛的規(guī)模范圍和各種下游任務(wù),并與相同的總預(yù)訓(xùn)練計算量對齊。這種比較可以通過檢查不同場景中擴(kuò)展趨勢的一致性來驗(yàn)證。
例如,openMaMMUT的可擴(kuò)展性強(qiáng)于openCLIP,不僅在零樣本分類和檢索上,在分割的廣泛規(guī)模范圍內(nèi)也展現(xiàn)了優(yōu)勢,且跨越所有三個研究的數(shù)據(jù)集DataComp-1.4B、Re-LAION-1.4B和DFN-1.4B。
這種通過規(guī)模法則進(jìn)行的比較提供了更好的保護(hù),避免了僅基于少數(shù)幾個選定點(diǎn)(尤其是僅在小規(guī)模上)進(jìn)行比較時可能得出的誤導(dǎo)性結(jié)論。在較小規(guī)模上,openCLIP優(yōu)于具有更強(qiáng)可擴(kuò)展性的openMaMMUT,而后者在較大規(guī)模上取得了領(lǐng)先。
值得注意的是,研究觀察到openMaMMUT超越openCLIP的計算規(guī)模閾值在各種數(shù)據(jù)集、零樣本下游任務(wù)和學(xué)習(xí)調(diào)度中一致地位于10^10和10^11 GFLOPS之間。這進(jìn)一步證明了基于規(guī)模法則比較的穩(wěn)健性。
為了正確估計這些交叉點(diǎn),對較小規(guī)模進(jìn)行密集測量并使用允許準(zhǔn)確外推到較大規(guī)模的擬合程序是至關(guān)重要的。
十、結(jié)論與未來展望:更透明、更科學(xué)的模型評估
總結(jié)來說,這項(xiàng)研究展示了如何通過規(guī)模法則推導(dǎo)實(shí)現(xiàn)系統(tǒng)的學(xué)習(xí)程序、模型和數(shù)據(jù)集比較。研究團(tuán)隊使用了openCLIP和基于MaMMUT的openMaMMUT這兩個重要的開源語言-視覺模型,它們分別依賴于僅圖像-文本對比或?qū)Ρ燃訕?biāo)題生成損失,在三個重要的開放參考數(shù)據(jù)集DataComp-1.4B、Re-LAION-1.4B和DFN-1.4B上進(jìn)行訓(xùn)練。
研究證明,推導(dǎo)規(guī)模法則可以基于模型和數(shù)據(jù)集在廣泛規(guī)模范圍內(nèi)和各種下游任務(wù)上的估計可擴(kuò)展性進(jìn)行比較,并與相同的總預(yù)訓(xùn)練計算量對齊。這種比較可以通過檢查不同場景中擴(kuò)展趨勢的一致性來驗(yàn)證。例如,openMaMMUT的可擴(kuò)展性比openCLIP更強(qiáng),不僅在零樣本分類和檢索上,在分割上也在廣泛的規(guī)模范圍內(nèi)展現(xiàn)了優(yōu)勢,且跨越所有三個研究的數(shù)據(jù)集。
通過規(guī)模法則進(jìn)行比較提供了更好的保護(hù),避免了僅基于少數(shù)幾個選定點(diǎn)的比較可能導(dǎo)致的誤導(dǎo)性結(jié)論,特別是當(dāng)這種比較僅在小規(guī)模上進(jìn)行時。在較小規(guī)模上,openCLIP優(yōu)于具有更強(qiáng)可擴(kuò)展性的openMaMMUT,后者在較大規(guī)模上取得了領(lǐng)先。
值得注意的是,研究觀察到openMaMMUT超越openCLIP的計算規(guī)模閾值在各種數(shù)據(jù)集、零樣本下游任務(wù)和學(xué)習(xí)調(diào)度中一致地位于10^10和10^11 GFLOPS之間。這進(jìn)一步證明了基于規(guī)模法則比較的穩(wěn)健性。
在研究中,團(tuán)隊使用了開放數(shù)據(jù)集,其中包含1.4B個樣本。雖然這足以證明基于規(guī)模法則比較的有用性,但對于更大規(guī)模的訓(xùn)練預(yù)測需要更大的數(shù)據(jù)集。這些數(shù)據(jù)集也是訓(xùn)練預(yù)測具有強(qiáng)大能力的更大規(guī)模模型所必需的,因?yàn)樵谳^小數(shù)據(jù)集上的過多重復(fù)可能會導(dǎo)致性能下降。
研究團(tuán)隊強(qiáng)調(diào),雖然他們展示了通過規(guī)模法則推導(dǎo)可以進(jìn)行穩(wěn)健且可復(fù)現(xiàn)的比較,但這種方法關(guān)鍵依賴于整個流程的完全開放性——包括數(shù)據(jù)集構(gòu)成、訓(xùn)練本身和下游評估。他們希望這項(xiàng)工作能鼓勵創(chuàng)建更多開放成果,特別是開放數(shù)據(jù)集,因?yàn)檫@些仍然很稀缺,以促進(jìn)協(xié)作和可復(fù)現(xiàn)地向更強(qiáng)大、可擴(kuò)展的開源基礎(chǔ)模型邁進(jìn),這些進(jìn)步可以通過獨(dú)立驗(yàn)證和系統(tǒng)比較來指導(dǎo)。
最終,這項(xiàng)研究不僅為人工智能研究社區(qū)提供了一種更科學(xué)、更透明的模型評估方法,也為普通用戶選擇和使用這些模型提供了更可靠的參考依據(jù)。就像我們在選擇產(chǎn)品時不應(yīng)僅看一個評測分?jǐn)?shù),而應(yīng)了解產(chǎn)品在各種使用場景和強(qiáng)度下的整體表現(xiàn)曲線一樣,人工智能模型的評估也應(yīng)當(dāng)更全面、更系統(tǒng)。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗(yàn)證有效性。