這項(xiàng)由加州大學(xué)圣芭芭拉分校的王韋志團(tuán)隊(duì)聯(lián)合字節(jié)跳動種子視覺團(tuán)隊(duì)和英偉達(dá)研究院完成的研究,發(fā)表于2025年4月,感興趣的讀者可以通過arXiv:2504.00595v2訪問完整論文。當(dāng)今人工智能領(lǐng)域,訓(xùn)練一個能看懂圖片、理解文字的多模態(tài)大模型就像建造一座摩天大樓,通常需要巨額資金和數(shù)千小時的GPU計算時間。然而,這個研究團(tuán)隊(duì)卻用了一種全新的"建筑方法",僅用220個A100 GPU小時就訓(xùn)練出了性能卓越的Open-Qwen2VL模型,這就像用搭積木的方式建成了摩天大樓,效率提升令人震驚。
研究團(tuán)隊(duì)在現(xiàn)有的多模態(tài)大語言模型訓(xùn)練中發(fā)現(xiàn)了一個重要問題:盡管許多頂尖模型聲稱開源,但實(shí)際上它們的"秘密配方"——包括數(shù)據(jù)過濾技術(shù)、序列打包腳本、預(yù)訓(xùn)練數(shù)據(jù)和訓(xùn)練代碼庫等關(guān)鍵技術(shù)細(xì)節(jié)——都嚴(yán)格保密。這種情況就像餐廳只給你看菜單,卻不告訴你具體的烹飪方法和食材來源,讓學(xué)術(shù)機(jī)構(gòu)很難復(fù)現(xiàn)這些模型。更重要的是,這些模型的訓(xùn)練通常需要數(shù)千甚至上萬小時的GPU時間,這對于資源有限的學(xué)術(shù)機(jī)構(gòu)來說幾乎是天方夜譚。
為了解決這些問題,研究團(tuán)隊(duì)開發(fā)了Open-Qwen2VL,一個真正"完全開源"的2B參數(shù)多模態(tài)大語言模型。他們重新定義了"完全開源"的標(biāo)準(zhǔn),不僅要公開模型本身,還要開放訓(xùn)練代碼庫、詳細(xì)的數(shù)據(jù)過濾技術(shù),以及所有預(yù)訓(xùn)練和監(jiān)督微調(diào)數(shù)據(jù)。這就像一位大廚不僅愿意分享成品料理,還詳細(xì)公開了完整的食譜、烹飪技巧和食材采購渠道。
一、革命性的訓(xùn)練效率突破
Open-Qwen2VL最令人驚嘆的成就在于其訓(xùn)練效率。傳統(tǒng)的多模態(tài)大模型訓(xùn)練就像用最昂貴的食材制作一桌豪華大餐,需要消耗巨量的計算資源。比如Qwen2-VL需要1.4萬億個多模態(tài)令牌進(jìn)行預(yù)訓(xùn)練,而Open-Qwen2VL僅使用了50億個精心篩選的令牌,相當(dāng)于只用了Qwen2-VL訓(xùn)練數(shù)據(jù)的0.36%。這種差異就像用一小袋精選的香料做出了與整個香料庫同樣美味的菜肴。
這種效率的提升主要來自三個關(guān)鍵創(chuàng)新。首先是動態(tài)圖像分辨率策略,研究團(tuán)隊(duì)在預(yù)訓(xùn)練階段使用較低的圖像分辨率(144個視覺令牌),然后在微調(diào)階段提升到完整分辨率(729個視覺令牌)。這種方法就像先用簡筆畫學(xué)習(xí)繪畫基礎(chǔ),然后再轉(zhuǎn)向精細(xì)繪畫,既節(jié)省了時間,又保證了最終效果。
其次是多模態(tài)序列打包技術(shù),這是解決訓(xùn)練效率問題的關(guān)鍵創(chuàng)新。傳統(tǒng)的訓(xùn)練方法就像一個個單獨(dú)包裝小零食,每個包裝盒里都有大量空隙浪費(fèi)空間。而序列打包技術(shù)則像俄羅斯套娃一樣,將不同長度的圖像-文本對巧妙地組合在一起,最大化利用每個訓(xùn)練批次的計算資源。具體來說,他們使用了一種叫做"First-fit-decreasing"的裝箱算法,就像玩俄羅斯方塊游戲一樣,將各種形狀的數(shù)據(jù)塊完美拼接在一起,避免了計算資源的浪費(fèi)。
二、精心設(shè)計的數(shù)據(jù)過濾策略
數(shù)據(jù)質(zhì)量是決定模型性能的關(guān)鍵因素,就像烹飪時食材的新鮮程度直接影響菜肴的味道。研究團(tuán)隊(duì)采用了多層次的數(shù)據(jù)過濾策略,確保每一份訓(xùn)練數(shù)據(jù)都是精心挑選的"優(yōu)質(zhì)食材"。
他們選擇了四個主要的圖像-文本標(biāo)題數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。首先是CCS數(shù)據(jù)集,這是一個包含CC3M、CC12M和SBU數(shù)據(jù)的組合,使用CLIP模型進(jìn)行過濾,就像用專業(yè)的食材檢測儀篩選新鮮蔬菜。接著是DataComp-Medium數(shù)據(jù)集,他們使用了排名第一的DFN過濾器,這就像請最資深的大廚來挑選食材。然后是LAION數(shù)據(jù)集,同樣使用CLIP進(jìn)行嚴(yán)格過濾。
最創(chuàng)新的是他們引入了基于多模態(tài)大語言模型的過濾方法MLM-Filter。這種方法就像讓一位既懂視覺又懂語言的專家來評判圖像和文字的匹配程度。MLM-Filter提供四種不同的質(zhì)量評估指標(biāo):圖像-文本匹配度、對象細(xì)節(jié)完整性、標(biāo)題文本質(zhì)量和語義理解程度。研究團(tuán)隊(duì)發(fā)現(xiàn),語義理解指標(biāo)效果最好,就像在品嘗菜肴時,整體的味道平衡比單一調(diào)料的濃度更重要。
通過精心的數(shù)據(jù)配比實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn)最佳的數(shù)據(jù)組合是CCS數(shù)據(jù)加上經(jīng)過MLM-Filter和DFN雙重過濾的DataComp數(shù)據(jù)。這種組合就像在傳統(tǒng)菜譜基礎(chǔ)上,加入了一些經(jīng)過特殊處理的新鮮食材,既保持了基礎(chǔ)的營養(yǎng)價值,又增添了獨(dú)特的風(fēng)味。
三、巧妙的模型架構(gòu)設(shè)計
Open-Qwen2VL的模型架構(gòu)設(shè)計體現(xiàn)了"簡約而不簡單"的哲學(xué)。整個架構(gòu)就像一個精心設(shè)計的三層蛋糕,每一層都有明確的功能分工。
底層是SigLIP-SO-400M視覺編碼器,負(fù)責(zé)"看懂"圖像內(nèi)容,就像人的眼睛和視覺皮層。中間層是自適應(yīng)平均池化視覺投影器,這是整個架構(gòu)的創(chuàng)新核心。傳統(tǒng)的投影器就像固定尺寸的窗口,而自適應(yīng)平均池化就像可以根據(jù)需要調(diào)節(jié)大小的智能窗口。在預(yù)訓(xùn)練階段,這個"窗口"被調(diào)小以提高效率,將729個視覺塊壓縮到144個視覺令牌。在微調(diào)階段,"窗口"恢復(fù)到原始大小,確保模型能夠處理高分辨率圖像的細(xì)節(jié)。
頂層是Qwen2.5-1.5B-Instruct語言模型骨干,負(fù)責(zé)理解和生成文本,就像人的語言中樞。整個架構(gòu)的設(shè)計哲學(xué)是"化繁為簡",避免了一些復(fù)雜的設(shè)計如2D多模態(tài)位置編碼和動態(tài)分辨率處理,既降低了計算復(fù)雜度,又保證了在學(xué)術(shù)級計算資源上的可訓(xùn)練性。
為了進(jìn)一步提高訓(xùn)練效率,研究團(tuán)隊(duì)在預(yù)訓(xùn)練和微調(diào)階段都凍結(jié)了視覺編碼器的參數(shù),只訓(xùn)練投影器和語言模型的參數(shù)。這種策略就像在學(xué)習(xí)新技能時,先固定已經(jīng)熟練掌握的基礎(chǔ)技能,專心練習(xí)需要提升的部分。雖然一些研究表明訓(xùn)練視覺編碼器能進(jìn)一步提升性能,但考慮到計算資源的限制,這種折中方案在效率和性能之間找到了很好的平衡點(diǎn)。
四、創(chuàng)新的多模態(tài)序列打包算法
多模態(tài)序列打包技術(shù)是Open-Qwen2VL實(shí)現(xiàn)高效訓(xùn)練的核心創(chuàng)新之一。這個技術(shù)解決的問題就像公交車座位分配問題:如果每個乘客都單獨(dú)坐一排,就會浪費(fèi)大量座位,但如果能合理安排不同身高的乘客搭配坐在一起,就能最大化利用空間。
傳統(tǒng)的訓(xùn)練方法是將相似長度的圖像-文本對打包在一起,然后用填充令牌補(bǔ)齊到最長序列的長度。這種方法就像強(qiáng)制要求所有文章都寫成相同字?jǐn)?shù),短文章必須用無意義的詞匯填充,造成了大量的計算浪費(fèi)。而多模態(tài)序列打包則像編輯一本雜志,將不同長度的文章巧妙地排版在一起,充分利用每一頁的空間。
具體的算法實(shí)現(xiàn)就像玩俄羅斯方塊游戲。首先,系統(tǒng)計算每個圖像-文本對的總長度,包括文本令牌數(shù)和固定的144個視覺令牌。然后按長度降序排列所有樣本,就像先處理最大的方塊。接著使用First-fit-decreasing裝箱算法,為每個樣本找到第一個能容納它的"箱子",如果沒有合適的箱子就創(chuàng)建新箱子。最后將同一箱子中的所有圖像和文本連接起來,如果總長度小于4096的上下文長度限制,就用填充令牌補(bǔ)齊。
這種方法的巧妙之處在于它將原本分散的短序列組合成接近最大長度的完整序列,就像將零散的積木拼成完整的作品。每個打包后的序列包含多個圖像和對應(yīng)的文本,這不僅提高了計算效率,還意外地增強(qiáng)了模型的多圖像上下文學(xué)習(xí)能力。
五、大規(guī)模監(jiān)督微調(diào)的威力
在完成高效的預(yù)訓(xùn)練后,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的監(jiān)督微調(diào),這個過程就像讓一個有了基礎(chǔ)知識的學(xué)生進(jìn)行專業(yè)化的深度學(xué)習(xí)。他們將微調(diào)數(shù)據(jù)從傳統(tǒng)的LLaVA-665k擴(kuò)展到了MAmmoTH-VL-10M,數(shù)據(jù)量增長了15倍,就像從高中課程升級到了研究生課程。
這種規(guī)?;奈⒄{(diào)帶來了顯著的性能提升。研究團(tuán)隊(duì)每訓(xùn)練2M個指令就保存一次檢查點(diǎn),總共得到了5個不同訓(xùn)練階段的模型版本。通過對比這些版本的性能,他們發(fā)現(xiàn)了一個有趣的現(xiàn)象:大多數(shù)基準(zhǔn)測試的性能在8M指令后趨于收斂,就像學(xué)習(xí)曲線達(dá)到了平臺期,繼續(xù)學(xué)習(xí)的邊際收益遞減。
然而,不同類型的任務(wù)表現(xiàn)出了不同的學(xué)習(xí)模式。文本視覺問答和數(shù)學(xué)推理任務(wù)在整個訓(xùn)練過程中都保持穩(wěn)定提升,這可能是因?yàn)轭A(yù)訓(xùn)練數(shù)據(jù)中缺乏足夠的數(shù)學(xué)和OCR相關(guān)內(nèi)容,使得這些任務(wù)成為了"分布外"挑戰(zhàn)。這就像一個主要學(xué)習(xí)文科的學(xué)生,在理科考試中需要更多時間才能達(dá)到理想水平。
為了適應(yīng)大規(guī)模數(shù)據(jù)的內(nèi)存需求,研究團(tuán)隊(duì)開發(fā)了創(chuàng)新的數(shù)據(jù)加載策略。傳統(tǒng)方法需要將整個10M的JSON文件加載到內(nèi)存中,在多進(jìn)程分布式訓(xùn)練環(huán)境下會消耗超過200GB的CPU內(nèi)存。他們的解決方案是將每個數(shù)據(jù)樣本保存為單獨(dú)的JSON文件,并生成一個包含路徑、數(shù)據(jù)類型和預(yù)計算長度的索引文件。這種方法就像圖書館的卡片目錄系統(tǒng),不需要把所有書都搬到桌子上,只需要通過目錄卡片找到需要的書籍。
六、突破性的實(shí)驗(yàn)結(jié)果與分析
Open-Qwen2VL在多個標(biāo)準(zhǔn)化測試中展現(xiàn)出了令人印象深刻的性能,這些結(jié)果就像一名用極少學(xué)習(xí)時間卻在各科考試中都取得優(yōu)異成績的學(xué)生。在與其他2B參數(shù)的頂級模型對比中,Open-Qwen2VL在MMBench測試中獲得了80.9分的最高分,超越了所有競爭對手。在SEEDBench和MMStar等綜合性測試中也表現(xiàn)出色,顯示出其在通用多模態(tài)理解方面的強(qiáng)大能力。
特別值得注意的是,Open-Qwen2VL在多個關(guān)鍵指標(biāo)上超越了Qwen2-VL-2B模型,而后者使用的預(yù)訓(xùn)練令牌數(shù)量是前者的277倍。這種差異就像兩個廚師,一個用一小籃精選食材做出了美味佳肴,另一個用整個菜市場的食材卻只做出了相似水平的菜品。這種對比突出了高質(zhì)量數(shù)據(jù)篩選和高效訓(xùn)練策略的重要性。
然而,研究團(tuán)隊(duì)也誠實(shí)地指出了模型的局限性。在OCR相關(guān)任務(wù)如AI2D和TextVQA中,Open-Qwen2VL的表現(xiàn)相對較弱。這個現(xiàn)象就像一個在文學(xué)和藝術(shù)方面很有天賦的學(xué)生,在數(shù)學(xué)計算方面稍顯不足。分析原因發(fā)現(xiàn),這是因?yàn)轭A(yù)訓(xùn)練數(shù)據(jù)中缺乏專門的OCR數(shù)據(jù)集如SynthDoG或LAIONCOCO-OCR。研究團(tuán)隊(duì)指出,簡單地加入這些OCR相關(guān)數(shù)據(jù)就能顯著改善這方面的性能。
七、序列打包對多圖像學(xué)習(xí)能力的意外發(fā)現(xiàn)
研究過程中,團(tuán)隊(duì)意外發(fā)現(xiàn)了序列打包技術(shù)的一個額外好處:它顯著增強(qiáng)了模型的多圖像上下文學(xué)習(xí)能力。這個發(fā)現(xiàn)就像在練習(xí)單項(xiàng)運(yùn)動時意外提升了綜合運(yùn)動能力。
為了驗(yàn)證這種能力,研究團(tuán)隊(duì)設(shè)計了詳細(xì)的少樣本學(xué)習(xí)實(shí)驗(yàn)。他們選擇了預(yù)訓(xùn)練階段表現(xiàn)最好的基礎(chǔ)模型,在GQA、VQA-v2、VizWiz、OKVQA和Text-VQA等數(shù)據(jù)集上進(jìn)行了0-shot和8-shot的對比測試。結(jié)果顯示,8-shot上下文學(xué)習(xí)相比0-shot推理獲得了3%到12%的性能提升,這證明了模型確實(shí)學(xué)會了從多個示例中學(xué)習(xí)的能力。
這種能力的獲得過程類似于Flamingo模型提出的MultiModal MassiveWeb方法,通過構(gòu)建偽交錯數(shù)據(jù)結(jié)構(gòu)來激發(fā)多模態(tài)上下文學(xué)習(xí)能力。序列打包技術(shù)無意中創(chuàng)造了類似的數(shù)據(jù)結(jié)構(gòu),每個打包序列包含多個圖像-文本對,為模型提供了豐富的上下文信息。這就像在學(xué)習(xí)過程中,學(xué)生不僅學(xué)會了單個知識點(diǎn),還學(xué)會了如何在知識點(diǎn)之間建立聯(lián)系和類比。
八、視覺編碼器參數(shù)策略的權(quán)衡分析
在模型訓(xùn)練策略方面,研究團(tuán)隊(duì)進(jìn)行了關(guān)于是否訓(xùn)練視覺編碼器參數(shù)的消融實(shí)驗(yàn)。這個實(shí)驗(yàn)就像比較兩種學(xué)習(xí)方法:一種是保持基礎(chǔ)技能不變,專心學(xué)習(xí)新技能;另一種是在學(xué)習(xí)新技能的同時繼續(xù)提升基礎(chǔ)技能。
實(shí)驗(yàn)結(jié)果顯示了有趣的權(quán)衡現(xiàn)象。當(dāng)視覺編碼器參數(shù)可訓(xùn)練時,模型在大多數(shù)任務(wù)上的平均性能有所提升,但在MMMU這樣的高難度推理任務(wù)上反而出現(xiàn)了顯著的性能下降。這種現(xiàn)象可能反映了訓(xùn)練資源有限情況下的優(yōu)化權(quán)衡:當(dāng)模型需要同時優(yōu)化視覺理解和語言推理時,可能在復(fù)雜推理任務(wù)上分配的注意力不足。
基于這個發(fā)現(xiàn)和計算資源的限制,研究團(tuán)隊(duì)最終選擇在預(yù)訓(xùn)練和微調(diào)階段都凍結(jié)視覺編碼器參數(shù)。這個決策體現(xiàn)了在學(xué)術(shù)環(huán)境下進(jìn)行高效研究的實(shí)用主義精神:在資源受限的情況下,選擇能夠獲得最佳整體性能的策略,而不是盲目追求理論上的最優(yōu)配置。
九、訓(xùn)練基礎(chǔ)設(shè)施的創(chuàng)新優(yōu)化
為了支持高效的多模態(tài)模型訓(xùn)練,研究團(tuán)隊(duì)開發(fā)了基于Prismatic-VLM的全面訓(xùn)練代碼庫,并進(jìn)行了大量優(yōu)化。他們的訓(xùn)練框架就像一個經(jīng)過精心調(diào)校的賽車引擎,每個組件都經(jīng)過優(yōu)化以獲得最佳性能。
最顯著的改進(jìn)是采用了完全分片數(shù)據(jù)并行(FSDP)訓(xùn)練框架,這個框架相比傳統(tǒng)的DeepSpeed-Zero3實(shí)現(xiàn)了約17%的訓(xùn)練速度提升。這種性能提升就像從普通公路升級到高速公路,相同的距離用時更短。FSDP和DeepSpeed-Zero3雖然使用相同的模型分片算法,但FSDP的實(shí)現(xiàn)更加高效,這個發(fā)現(xiàn)為其他研究團(tuán)隊(duì)提供了有價值的技術(shù)參考。
在數(shù)據(jù)處理方面,團(tuán)隊(duì)將所有圖像-文本數(shù)據(jù)打包成WebDataset格式,每個tar文件包含恰好10k個圖像-文本對。這種標(biāo)準(zhǔn)化的數(shù)據(jù)格式就像工業(yè)生產(chǎn)中的標(biāo)準(zhǔn)化零件,確保了處理流程的一致性和可預(yù)測性。配合多模態(tài)序列打包算法,這種數(shù)據(jù)組織方式實(shí)現(xiàn)了接近100%的計算資源利用率。
代碼庫還支持大規(guī)模標(biāo)題數(shù)據(jù)準(zhǔn)備、質(zhì)量評分生成、數(shù)據(jù)過濾、多模態(tài)序列打包、預(yù)訓(xùn)練、監(jiān)督微調(diào)和多模態(tài)基準(zhǔn)測試評估的全流程。這是首個支持多模態(tài)大語言模型訓(xùn)練全生命周期的綜合性開源解決方案,就像提供了從原材料到成品的完整生產(chǎn)線。
十、開源理念的重新定義與社區(qū)貢獻(xiàn)
Open-Qwen2VL項(xiàng)目最重要的貢獻(xiàn)可能不是技術(shù)本身,而是對"開源"概念的重新定義。在當(dāng)前的AI研究環(huán)境中,許多聲稱"開源"的項(xiàng)目實(shí)際上只開放了模型權(quán)重,而訓(xùn)練過程中的關(guān)鍵技術(shù)細(xì)節(jié)仍然保密。這就像只給你看到了菜品的最終成果,卻不告訴你具體的制作方法。
研究團(tuán)隊(duì)提出了多模態(tài)大語言模型"完全開源"的新標(biāo)準(zhǔn):不僅要開放訓(xùn)練代碼庫,還要詳細(xì)公開數(shù)據(jù)過濾技術(shù),以及所有預(yù)訓(xùn)練和監(jiān)督微調(diào)數(shù)據(jù)。這種標(biāo)準(zhǔn)就像開源菜譜不僅要提供食材清單和制作步驟,還要詳細(xì)說明食材的選擇標(biāo)準(zhǔn)、處理技巧和質(zhì)量控制方法。
這種徹底的開源策略對學(xué)術(shù)社區(qū)具有深遠(yuǎn)影響。首先,它降低了進(jìn)入門檻,讓資源有限的研究機(jī)構(gòu)也能參與到前沿的多模態(tài)AI研究中來。其次,它促進(jìn)了技術(shù)的透明化和可重復(fù)性,這是科學(xué)研究的基本要求卻在AI領(lǐng)域經(jīng)常被忽視。最后,它鼓勵了協(xié)作創(chuàng)新,讓不同研究團(tuán)隊(duì)能夠在共同的基礎(chǔ)上進(jìn)行改進(jìn)和擴(kuò)展。
項(xiàng)目提供的資源包括完整的訓(xùn)練代碼、29M高質(zhì)量圖像-文本對的預(yù)訓(xùn)練數(shù)據(jù)(WebDataset格式)、詳細(xì)的數(shù)據(jù)過濾方法和腳本、基于FSDP的高效訓(xùn)練框架,以及預(yù)訓(xùn)練和指令調(diào)優(yōu)的模型檢查點(diǎn)。所有這些資源都通過GitHub和Hugging Face平臺公開提供,確保了全球研究者的易獲取性。
研究團(tuán)隊(duì)明確表達(dá)了他們的愿景:證明預(yù)訓(xùn)練研究不應(yīng)該是大型科技公司的專利,鼓勵學(xué)術(shù)社區(qū)即使在計算資源非常有限的情況下,也能參與到預(yù)訓(xùn)練數(shù)據(jù)和流程的研究中來。這種理念體現(xiàn)了科學(xué)研究的民主化精神,讓更多研究者能夠參與到AI技術(shù)的發(fā)展中來。
說到底,Open-Qwen2VL項(xiàng)目展示了一個令人振奮的可能性:通過巧妙的設(shè)計和精心的優(yōu)化,學(xué)術(shù)機(jī)構(gòu)也能在多模態(tài)AI研究的最前沿占有一席之地。這個僅用220小時GPU時間訓(xùn)練出來的模型,不僅在性能上可以與使用數(shù)千倍計算資源的商業(yè)模型媲美,更重要的是它證明了開放科學(xué)的力量。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)突破本身。它重新定義了AI研究的開放標(biāo)準(zhǔn),為資源有限的研究機(jī)構(gòu)提供了參與前沿研究的可能性,同時推動了整個領(lǐng)域向更加透明和協(xié)作的方向發(fā)展。當(dāng)我們看到一個小規(guī)模學(xué)術(shù)團(tuán)隊(duì)能夠在如此有限的計算資源下取得突破性成果時,不禁讓人思考:也許AI研究的未來不在于誰擁有最多的計算資源,而在于誰能夠更聰明地利用這些資源,更開放地分享知識,更協(xié)作地推動技術(shù)進(jìn)步。
對于普通人來說,這項(xiàng)研究預(yù)示著AI技術(shù)的發(fā)展將變得更加多元化和民主化。當(dāng)更多研究機(jī)構(gòu)能夠參與到AI模型的開發(fā)中來時,我們可能會看到更多針對特定需求、更加貼近實(shí)際應(yīng)用的AI解決方案。這種趨勢最終將讓AI技術(shù)更好地服務(wù)于社會的各個角落,而不僅僅是少數(shù)擁有巨額資源的大型機(jī)構(gòu)。
Q&A Q1:Open-Qwen2VL為什么能用這么少的計算資源就達(dá)到這么好的效果? A:主要原因有三個:首先是使用了高質(zhì)量的數(shù)據(jù)過濾技術(shù),只用精選的5B令牌而不是海量的低質(zhì)量數(shù)據(jù);其次是采用了多模態(tài)序列打包技術(shù),大大提高了計算資源利用率;最后是使用了動態(tài)圖像分辨率策略,預(yù)訓(xùn)練時用低分辨率提高效率,微調(diào)時恢復(fù)高分辨率保證性能。
Q2:什么是"完全開源"的多模態(tài)大語言模型?和普通開源有什么區(qū)別? A:普通的開源模型通常只公開模型權(quán)重和基本代碼,而"完全開源"要求公開三個方面:訓(xùn)練代碼庫、詳細(xì)的數(shù)據(jù)過濾技術(shù)、以及所有預(yù)訓(xùn)練和監(jiān)督微調(diào)數(shù)據(jù)。這就像不僅給你看菜品成果,還要提供完整的制作方法、食材選擇標(biāo)準(zhǔn)和處理技巧。
Q3:普通研究機(jī)構(gòu)可以使用Open-Qwen2VL做什么?有什么實(shí)際價值? A:普通研究機(jī)構(gòu)可以基于Open-Qwen2VL進(jìn)行多種研究和應(yīng)用開發(fā),包括特定領(lǐng)域的多模態(tài)AI應(yīng)用、新的訓(xùn)練策略研究、數(shù)據(jù)過濾方法改進(jìn)等。更重要的是,它提供了完整的訓(xùn)練流程和代碼,讓資源有限的機(jī)構(gòu)也能參與到前沿AI研究中來,推動了AI研究的民主化。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗(yàn)證有效性。