av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) SynthRL:新加坡國(guó)立大學(xué)團(tuán)隊(duì)如何通過可驗(yàn)證數(shù)據(jù)合成提升視覺推理能力

SynthRL:新加坡國(guó)立大學(xué)團(tuán)隊(duì)如何通過可驗(yàn)證數(shù)據(jù)合成提升視覺推理能力

2025-06-06 17:28
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-06 17:28 ? 科技行者

在人工智能研究的前沿,視覺語(yǔ)言模型(VLMs)的推理能力一直是研究人員追求的重要目標(biāo)。2025年6月,來自新加坡國(guó)立大學(xué)的吳子健、倪金杰、劉向彥、劉子晨和香港中文大學(xué)的嚴(yán)航,以及新加坡國(guó)立大學(xué)的Michael Qizhe Shieh共同發(fā)表了一篇題為《SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis》的研究論文。這項(xiàng)研究在arXiv預(yù)印本平臺(tái)(arXiv:2506.02096v1)上發(fā)表,代碼已在GitHub上開源(github.com/NUS-TRAIL/SynthRL),模型和數(shù)據(jù)集也已在Hugging Face上公開(hf.co/collections/Jakumetsu/SynthRL)。這項(xiàng)研究為視覺推理領(lǐng)域帶來了全新的思路:如何通過智能生成更具挑戰(zhàn)性的訓(xùn)練數(shù)據(jù)來提升模型的推理能力。

想象一下,如果你是一位教師,你希望你的學(xué)生能夠解決更復(fù)雜的數(shù)學(xué)問題。你可能會(huì)先給他們一些簡(jiǎn)單的題目,然后根據(jù)他們的解題情況,逐步設(shè)計(jì)更有挑戰(zhàn)性的問題。而這正是SynthRL的核心思想——它能自動(dòng)識(shí)別模型已經(jīng)掌握的簡(jiǎn)單問題,然后將這些問題轉(zhuǎn)化為更具挑戰(zhàn)性的變體,同時(shí)保持原始答案不變,從而幫助模型學(xué)習(xí)更深層次的推理能力。

近年來,通過可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)已經(jīng)在提升視覺語(yǔ)言模型的推理能力方面取得了顯著進(jìn)展。與此同時(shí),以數(shù)據(jù)為中心的方法也被越來越多地認(rèn)為是提升模型智能的關(guān)鍵。研究團(tuán)隊(duì)敏銳地發(fā)現(xiàn)了一個(gè)重要但尚未充分探索的問題:我們能否在保證正確性和分布保證的前提下,擴(kuò)展RLVR訓(xùn)練數(shù)據(jù),以實(shí)現(xiàn)更好的性能?

面對(duì)這一挑戰(zhàn),直接將其表述為標(biāo)準(zhǔn)優(yōu)化問題并不容易。雖然現(xiàn)有的數(shù)據(jù)選擇方法可能在分布方面提供部分解決方案,但它們受限于原始數(shù)據(jù)量和分布,在數(shù)據(jù)本身稀缺且有偏差的情況下效果不佳。研究團(tuán)隊(duì)選擇了一個(gè)互補(bǔ)且更實(shí)用的方向——數(shù)據(jù)合成。他們的直覺是,在RLVR設(shè)置下,更具挑戰(zhàn)性但仍然正確的訓(xùn)練樣本可以提供更豐富的學(xué)習(xí)信號(hào)。

SynthRL是一個(gè)精心設(shè)計(jì)的三階段流程,專門用于為視覺語(yǔ)言模型的推理訓(xùn)練生成高質(zhì)量的數(shù)據(jù)。第一階段是"基于難度的種子選擇",系統(tǒng)會(huì)分析目標(biāo)模型對(duì)種子問題的解答情況,選擇那些模型能輕松解答的問題作為合成的起點(diǎn),因?yàn)檫@些問題提供的學(xué)習(xí)信號(hào)有限,最適合進(jìn)行復(fù)雜度提升。第二階段是"定向合成",利用強(qiáng)大的視覺語(yǔ)言模型生成更具挑戰(zhàn)性的問題變體,同時(shí)保持原始答案不變。這一過程通過最小化的提示實(shí)現(xiàn),強(qiáng)調(diào)通過要求更深層次的推理來增加難度。第三階段是"驗(yàn)證",確保合成的數(shù)據(jù)既保持問題有效性和答案正確性,又確實(shí)增加了難度。通過"提出-解決"機(jī)制,這一驗(yàn)證過程幾乎完美地保證了新合成訓(xùn)練樣本的正確性。

研究團(tuán)隊(duì)將SynthRL應(yīng)用于MMK12數(shù)據(jù)集,從約8000個(gè)種子樣本生成了超過3300個(gè)經(jīng)過驗(yàn)證的更具挑戰(zhàn)性的問題。實(shí)驗(yàn)結(jié)果令人振奮:使用合成數(shù)據(jù)訓(xùn)練的模型在五個(gè)視覺數(shù)學(xué)推理基準(zhǔn)測(cè)試(MathVerse、MathVision、MathVista、WeMath和DynaMath)上均取得了明顯的性能提升。與僅使用種子數(shù)據(jù)訓(xùn)練的基線模型相比,他們的模型在MathVerse上提升了1.9%,WeMath上提升了2.0%,DynaMath上提升了1.3%。更值得注意的是,這種性能提升在各種數(shù)據(jù)規(guī)模下都能一致觀察到,且在最具挑戰(zhàn)性的評(píng)估樣本上表現(xiàn)最為顯著,這證實(shí)了該方法在應(yīng)對(duì)復(fù)雜推理場(chǎng)景方面的有效性。

讓我們深入了解SynthRL的具體工作原理,看看這個(gè)創(chuàng)新系統(tǒng)如何為視覺語(yǔ)言模型創(chuàng)造更有價(jià)值的訓(xùn)練體驗(yàn)。

一、SynthRL:一個(gè)可擴(kuò)展的可驗(yàn)證數(shù)據(jù)合成管道

SynthRL的核心是一個(gè)自動(dòng)化且有保證的管道,專為推理導(dǎo)向的強(qiáng)化學(xué)習(xí)訓(xùn)練自動(dòng)擴(kuò)展數(shù)據(jù)而設(shè)計(jì)。想象你是一位教練,想要訓(xùn)練一位運(yùn)動(dòng)員應(yīng)對(duì)更高難度的比賽。你會(huì)先觀察運(yùn)動(dòng)員已經(jīng)掌握的簡(jiǎn)單動(dòng)作,然后設(shè)計(jì)更復(fù)雜的訓(xùn)練,同時(shí)確保這些訓(xùn)練是合理且有效的。SynthRL正是這樣工作的:它首先分析模型已經(jīng)掌握的簡(jiǎn)單問題,然后生成更具挑戰(zhàn)性的變體,并嚴(yán)格驗(yàn)證這些變體的有效性和難度。

SynthRL的第一階段是基于難度的種子選擇。研究團(tuán)隊(duì)采用蒙特卡洛隨機(jī)推理法來評(píng)估問題對(duì)于目標(biāo)模型的難度。具體來說,對(duì)于每一個(gè)圖像-問題-答案三元組(I, Q, A),系統(tǒng)會(huì)讓目標(biāo)模型πtarget對(duì)問題進(jìn)行多次隨機(jī)回答,然后計(jì)算正確回答的次數(shù)。如果模型在16次中有12次或更多次正確回答了問題,說明這個(gè)問題對(duì)模型來說相對(duì)簡(jiǎn)單,提供的學(xué)習(xí)信號(hào)有限,因此成為了提高復(fù)雜度的理想候選。

這就像是測(cè)試一個(gè)學(xué)生對(duì)某個(gè)知識(shí)點(diǎn)的掌握程度。如果學(xué)生在多次測(cè)試中幾乎總是能正確回答,那說明這個(gè)知識(shí)點(diǎn)對(duì)他來說已經(jīng)很簡(jiǎn)單了,是時(shí)候給他一些更具挑戰(zhàn)性的問題了。這種方法確保了系統(tǒng)不會(huì)浪費(fèi)資源去復(fù)雜化那些模型本就很難解決的問題,而是專注于提升模型已經(jīng)相對(duì)熟悉的問題領(lǐng)域的復(fù)雜度。

第二階段是數(shù)據(jù)合成器。在這一階段,系統(tǒng)會(huì)利用一個(gè)強(qiáng)大的視覺語(yǔ)言模型(如Gemini-2.5-Flash-Preview)來生成更具挑戰(zhàn)性的問題變體,同時(shí)保持原始答案不變。重要的是,在提示合成模型時(shí),系統(tǒng)只提供圖像和原始問題,故意不提供答案。這迫使模型專注于問題與圖像之間的語(yǔ)義關(guān)系,而不是依賴答案來生成表面上的改寫。

這就像是讓一位經(jīng)驗(yàn)豐富的教師重新設(shè)計(jì)問題,使其更具挑戰(zhàn)性但答案保持不變。例如,從"求直角三角形的斜邊長(zhǎng)度"變成"如果一個(gè)直角三角形的兩條直角邊分別是3和4,那么這個(gè)三角形的周長(zhǎng)是多少?"這兩個(gè)問題可能有相同的核心答案(斜邊長(zhǎng)度5),但后者需要更多的推理步驟。

第三階段是正確性和難度保證驗(yàn)證器。這一階段確保合成的問題既保持有效性,又確實(shí)增加了難度。對(duì)于每個(gè)候選問題,系統(tǒng)會(huì)應(yīng)用與第一階段相同的蒙特卡洛隨機(jī)推理技術(shù)來評(píng)估其難度。一個(gè)有效的候選問題必須滿足兩個(gè)條件:首先,它必須在至少4次隨機(jī)推理中被正確回答,證明問題是有效的并保留了原始答案;其次,正確回答的次數(shù)必須比原始問題少至少2次,證明問題確實(shí)變得更加困難。

這種驗(yàn)證方法的關(guān)鍵在于:合成器被指示創(chuàng)建答案相同但更難的問題,而驗(yàn)證器通過讓目標(biāo)模型嘗試解答來確認(rèn)這一點(diǎn)。如果目標(biāo)模型能夠在合理次數(shù)內(nèi)得到原始答案,這證實(shí)了問題既有效又保留了預(yù)期答案。同時(shí),如果正確回答的次數(shù)明顯減少,這表明問題確實(shí)變得更具挑戰(zhàn)性。

最終,這個(gè)三階段管道產(chǎn)生了一系列經(jīng)過驗(yàn)證的更具挑戰(zhàn)性的問題變體,每一個(gè)都保留了原始答案,但需要更深入的推理能力。這些問題為強(qiáng)化學(xué)習(xí)訓(xùn)練提供了更有價(jià)值的學(xué)習(xí)信號(hào),幫助模型開發(fā)更強(qiáng)大的推理能力。

二、數(shù)據(jù)集分析:合成數(shù)據(jù)的特點(diǎn)與質(zhì)量

研究團(tuán)隊(duì)選擇了MMK12作為種子數(shù)據(jù)集,該數(shù)據(jù)集包含8099個(gè)問題-答案對(duì)。為了確保驗(yàn)證過程的可靠性,他們對(duì)數(shù)據(jù)集進(jìn)行了預(yù)處理,將多選題轉(zhuǎn)換為開放式答案格式,并移除了是/否問題,最終得到8072個(gè)開放式答案的種子數(shù)據(jù)集。此外,他們還創(chuàng)建了2k和4k版本的種子數(shù)據(jù)集,用于分析數(shù)據(jù)規(guī)模效應(yīng)。

使用Gemini-2.5-Flash-Preview-04-17作為合成模型,研究團(tuán)隊(duì)從種子數(shù)據(jù)中選擇了那些隨機(jī)推理通過率高的問題(16次中至少有12次成功預(yù)測(cè))進(jìn)行轉(zhuǎn)換。驗(yàn)證階段,他們?cè)O(shè)置了可解性標(biāo)準(zhǔn)閾值Tmin=4,確保問題有效性和答案保留,以及難度標(biāo)準(zhǔn)ΔΤhard=2,確保候選問題明顯比原始版本更具挑戰(zhàn)性。通過這個(gè)過程,他們生成了3380個(gè)經(jīng)過驗(yàn)證的更難變體,每一個(gè)都保留了原始的正確答案。研究團(tuán)隊(duì)將原始MMK12問題及其合成變體的組合數(shù)據(jù)集稱為A-MMK12,總計(jì)11452個(gè)樣本。

那么,這些合成的問題有何特點(diǎn)?研究團(tuán)隊(duì)進(jìn)行了深入分析。首先,從難度分布上看,原始MMK12數(shù)據(jù)集的平均通過率為9.04,而A-MMK12的平均通過率降至8.24,表明整體難度有所增加。更顯著的是,選定的種子樣本通過率高達(dá)15.10,而合成的問題通過率僅為6.33,證明合成過程成功地創(chuàng)建了更具挑戰(zhàn)性的變體。

最顯著的差異體現(xiàn)在分布形狀上。種子數(shù)據(jù)集在0和16通過次數(shù)處顯示高度集中,這意味著大多數(shù)問題要么非常容易(總是能解決),要么非常困難(幾乎無(wú)法解決)。相比之下,合成的問題在中等難度水平(4到14次通過)上展現(xiàn)出更為平衡的分布。這種更廣泛的分布在訓(xùn)練過程中提供了更平滑的難度漸進(jìn),有助于模型發(fā)展更好的推理能力。

除了難度分布,研究團(tuán)隊(duì)還分析了推理步驟的復(fù)雜度。合成的問題平均需要34.90個(gè)推理步驟,而原始種子問題平均僅需26.16個(gè),增加了約33%。這表明合成過程創(chuàng)建了需要更復(fù)雜推理鏈的問題。具有多步推理的問題更好地鍛煉了模型分解問題和維持連貫推理的能力,這對(duì)于健壯的視覺推理能力至關(guān)重要。

這些分析結(jié)果表明,SynthRL不僅增加了訓(xùn)練數(shù)據(jù)的數(shù)量,更重要的是,它創(chuàng)建了質(zhì)量更高、更具挑戰(zhàn)性的問題,這些問題能夠更有效地鍛煉模型的推理能力。

三、實(shí)驗(yàn)設(shè)置與模型訓(xùn)練

研究團(tuán)隊(duì)采用了嚴(yán)格的實(shí)驗(yàn)設(shè)計(jì)來評(píng)估SynthRL的有效性。他們以Qwen2.5-VL-7B-Instruct為基礎(chǔ)模型,這個(gè)模型具有強(qiáng)大的基礎(chǔ)能力,適合后續(xù)的強(qiáng)化學(xué)習(xí)訓(xùn)練。值得注意的是,同一個(gè)模型同時(shí)擔(dān)任了目標(biāo)模型和驗(yàn)證器模型的角色。

對(duì)于強(qiáng)化學(xué)習(xí)訓(xùn)練,研究團(tuán)隊(duì)使用了基于verl的EasyR1框架,該框架專為視覺語(yǔ)言模型設(shè)計(jì)。所有實(shí)驗(yàn)在8個(gè)NVIDIA H100 80GB HBM3 GPU上進(jìn)行,全局批量大小為128,隨機(jī)推理批量大小為512,隨機(jī)推理溫度為1.0,一致的學(xué)習(xí)率為1e-6,以及8次隨機(jī)推理。

根據(jù)最新研究發(fā)現(xiàn),團(tuán)隊(duì)移除了GRPO算法中與參考模型的KL散度約束,以促進(jìn)更廣泛的探索。在訓(xùn)練過程中,模型的所有部分(包括視覺編碼器)都被解鎖,以最大化視覺推理任務(wù)的性能。主要實(shí)驗(yàn)比較了兩種配置:(1)僅使用原始種子數(shù)據(jù)集訓(xùn)練的基線模型,和(2)使用A-MMK12訓(xùn)練的SynthRL模型。

為了全面評(píng)估模型性能,研究團(tuán)隊(duì)采用了多個(gè)基準(zhǔn)測(cè)試來檢驗(yàn)?zāi)P偷挠蛲夥夯芰?。他們選擇了五個(gè)專門的視覺推理數(shù)據(jù)集:MathVerse、MathVision、MathVista、WeMath和DynaMath。為了確??缒P偷囊恢略u(píng)估,他們開發(fā)了一個(gè)標(biāo)準(zhǔn)化的評(píng)估套件,能夠評(píng)估他們訓(xùn)練的檢查點(diǎn)和大多數(shù)公開可用的R1相關(guān)檢查點(diǎn)。他們使用vLLM進(jìn)行高效推理加速,并采用Gemini-2.0-Flash-001作為判斷模型來解析生成的輸出。

研究團(tuán)隊(duì)遵循了每個(gè)模型提供的系統(tǒng)提示和輸出格式規(guī)則,盡管由于特定的判斷模型和評(píng)估設(shè)置,可能與已發(fā)布結(jié)果存在小差異。他們報(bào)告了在5個(gè)基準(zhǔn)測(cè)試上獲得最佳平均性能的檢查點(diǎn)的性能。

四、實(shí)驗(yàn)結(jié)果與分析

SynthRL的主要實(shí)驗(yàn)結(jié)果令人振奮,證明了這種方法在提升視覺推理能力方面的有效性。在8K數(shù)據(jù)規(guī)模下,使用A-MMK12數(shù)據(jù)集訓(xùn)練的模型在五個(gè)域外視覺推理基準(zhǔn)上平均準(zhǔn)確率達(dá)到58.0%,比僅使用種子MMK12數(shù)據(jù)集訓(xùn)練的基線模型的57.0%有所提升。在各個(gè)單獨(dú)的基準(zhǔn)測(cè)試中,研究團(tuán)隊(duì)觀察到了顯著的改進(jìn),MathVerse準(zhǔn)確率從51.6%提高到53.5%,WeMath從70.6%提高到72.6%。這些結(jié)果表明,合成數(shù)據(jù)確實(shí)增強(qiáng)了模型泛化到未見過的問題分布的能力。

數(shù)據(jù)規(guī)模效應(yīng)分析顯示,A-MMK12和MMK12之間的性能差距在2K規(guī)模下相對(duì)適中(56.0%對(duì)55.8%),但隨著更多種子數(shù)據(jù)的可用性,差距明顯擴(kuò)大,在4K規(guī)模下達(dá)到+0.7%,在8K規(guī)模下達(dá)到+1.0%。這一模式表明,合成方法在有更大、更多樣化的種子池時(shí)變得更加有效。此外,雖然兩個(gè)數(shù)據(jù)集最初導(dǎo)致相似的學(xué)習(xí)模式,但使用A-MMK12訓(xùn)練的模型在所有數(shù)據(jù)規(guī)模下都達(dá)到了更高的峰值性能。

這些發(fā)現(xiàn)表明,合成方法與傳統(tǒng)數(shù)據(jù)擴(kuò)展方法互補(bǔ),提供了超出簡(jiǎn)單增加原始數(shù)據(jù)量所能實(shí)現(xiàn)的額外收益。SynthRL針對(duì)性地生成具挑戰(zhàn)性的變體,為發(fā)展強(qiáng)大的視覺推理能力創(chuàng)造了更有效的訓(xùn)練分布。

為了精確測(cè)量方法在哪里提供最大價(jià)值,研究團(tuán)隊(duì)建立了基于Bradley-Terry模型和Elo評(píng)分系統(tǒng)的客觀難度排名。他們?yōu)槊總€(gè)樣本收集了多達(dá)128個(gè)兩兩比較,以建立統(tǒng)計(jì)上穩(wěn)健的難度分?jǐn)?shù),然后將每個(gè)基準(zhǔn)數(shù)據(jù)集劃分為三個(gè)難度層次:簡(jiǎn)單、中等和困難。

結(jié)果表明,A-MMK12在中等和困難子集上產(chǎn)生了最大的改進(jìn)。在完整的8K數(shù)據(jù)集上,雖然A-MMK12在簡(jiǎn)單樣本上表現(xiàn)略低(-0.5%),但在中等(+1.7%)和困難(+1.6%)樣本上顯示出明顯的收益。這種模式在各個(gè)數(shù)據(jù)規(guī)模上都保持一致,A-MMK12在具挑戰(zhàn)性的問題上展示出最強(qiáng)的優(yōu)勢(shì)。

這些結(jié)果表明,合成方法成功地針對(duì)了復(fù)雜推理挑戰(zhàn),這些挑戰(zhàn)在僅用種子數(shù)據(jù)訓(xùn)練時(shí)無(wú)法充分解決。性能從簡(jiǎn)單到困難樣本的轉(zhuǎn)變與研究目標(biāo)一致,即提高模型在更具挑戰(zhàn)性的推理任務(wù)上的能力。

研究團(tuán)隊(duì)還進(jìn)行了驗(yàn)證器的消融研究。當(dāng)使用非目標(biāo)模型(Gemini-2.0-Flash-001而非Qwen2.5-VL-7B-Instruct)作為驗(yàn)證器時(shí),平均準(zhǔn)確率從57.2%下降到55.7%。這表明有效驗(yàn)證需要與目標(biāo)模型的能力保持一致,以正確校準(zhǔn)難度。單次驗(yàn)證(使用目標(biāo)模型但每個(gè)問題只進(jìn)行一次驗(yàn)證而非多次蒙特卡洛隨機(jī)推理)達(dá)到56.5%的平均準(zhǔn)確率,而完全無(wú)驗(yàn)證的合成僅達(dá)到55.8%。

這些結(jié)果確認(rèn)了與目標(biāo)模型一致且使用蒙特卡洛隨機(jī)推理的驗(yàn)證對(duì)SynthRL的總體性能增益貢獻(xiàn)約1.4%,突顯了驗(yàn)證在SynthRL有效性中的重要作用。

研究團(tuán)隊(duì)還研究了不同的數(shù)據(jù)集成策略。他們將增強(qiáng)方法A-MMK12與替換策略R-MMK12進(jìn)行比較,后者用合成樣本替換相應(yīng)的種子樣本,同時(shí)保持相同的數(shù)據(jù)集大小。結(jié)果顯示,A-MMK12在五個(gè)基準(zhǔn)測(cè)試上達(dá)到最高的平均準(zhǔn)確率57.2%,而R-MMK12的表現(xiàn)甚至低于原始基線(56.1%對(duì)56.5%)。這表明合成問題在補(bǔ)充而非替換原始分布時(shí)提供最大收益,性能差距證實(shí)了SynthRL的改進(jìn)源于數(shù)據(jù)擴(kuò)展和有針對(duì)性的難度增強(qiáng)的結(jié)合。

五、SynthRL在視覺推理研究中的地位與意義

將SynthRL與其他視覺語(yǔ)言模型推理方法進(jìn)行比較,可以更好地理解其在當(dāng)前研究格局中的位置。視覺語(yǔ)言模型從基礎(chǔ)集成技術(shù)(如Alayrac等人的Flamingo)和有效的視覺指令調(diào)優(yōu)(如Liu等人的工作)發(fā)展到專門的數(shù)學(xué)推理方法(如Shi等人的Math-LLaVA和Zhang等人的MAVIS)。雖然像GPT-4o和Gemini這樣的先進(jìn)模型展示了強(qiáng)大的一般視覺理解能力,但在需要復(fù)雜分析和推理的視覺推理方面仍存在差距。

強(qiáng)化學(xué)習(xí)正在成為解決這一問題的新興方法,擴(kuò)展了增強(qiáng)LLM推理的方法(如Guo等人的DeepSeek-R1和Kimi團(tuán)隊(duì)的工作)。對(duì)于視覺語(yǔ)言模型,R1型強(qiáng)化學(xué)習(xí)應(yīng)用已在幾何和物體計(jì)數(shù)等特定子領(lǐng)域取得成功(如Peng等人和Huang等人的工作)。值得注意的是,最近的研究(如Meng等人的MM-Eureka和Yang等人的工作)已將基于規(guī)則的強(qiáng)化學(xué)習(xí)應(yīng)用于視覺語(yǔ)言模型的更廣泛多模態(tài)數(shù)學(xué)推理,而無(wú)需領(lǐng)域內(nèi)訓(xùn)練數(shù)據(jù)。

數(shù)據(jù)合成對(duì)視覺語(yǔ)言模型至關(guān)重要,提供可擴(kuò)展、多樣化和高質(zhì)量的訓(xùn)練數(shù)據(jù)來增強(qiáng)性能。最初專注于改善指令跟隨能力和通過多輪對(duì)話和反饋機(jī)制與人類偏好保持一致,最近的研究越來越多地使用數(shù)據(jù)合成來推進(jìn)視覺推理。這種較新的重點(diǎn)包括為復(fù)雜指令生成復(fù)雜數(shù)據(jù)集,或使用逆向思維鏈等技術(shù)解決幾何、數(shù)學(xué)和導(dǎo)航推理等任務(wù),從而顯著擴(kuò)展視覺語(yǔ)言模型的推理能力。然而,利用數(shù)據(jù)合成進(jìn)行視覺語(yǔ)言模型的強(qiáng)化學(xué)習(xí)訓(xùn)練仍然是一個(gè)很大程度上未被探索的前沿領(lǐng)域。

SynthRL的貢獻(xiàn)在于它填補(bǔ)了這一研究空白,提供了一種自動(dòng)化且有保證的方法來為視覺語(yǔ)言模型的強(qiáng)化學(xué)習(xí)生成更具挑戰(zhàn)性的訓(xùn)練數(shù)據(jù)。通過結(jié)合難度評(píng)估、定向合成和嚴(yán)格驗(yàn)證,SynthRL創(chuàng)建了既保持答案正確性又顯著增加推理復(fù)雜性的高質(zhì)量訓(xùn)練樣本。實(shí)驗(yàn)結(jié)果證明了這種方法在提升模型推理能力方面的有效性,尤其是在最具挑戰(zhàn)性的問題上。

六、總結(jié)與展望

SynthRL提供了一種自動(dòng)化管道,通過合成更具挑戰(zhàn)性的訓(xùn)練數(shù)據(jù)來提升視覺語(yǔ)言模型的推理能力。通過三階段過程——基于難度選擇種子問題,生成保留答案的更難變體,以及驗(yàn)證正確性和難度增加——SynthRL能夠創(chuàng)建高質(zhì)量的訓(xùn)練樣本,無(wú)需人工干預(yù)。

應(yīng)用于MMK12數(shù)據(jù)集,這種方法從8072個(gè)種子樣本生成了超過3380個(gè)可驗(yàn)證、更具挑戰(zhàn)性的問題。使用這些數(shù)據(jù)訓(xùn)練的模型在五個(gè)域外視覺數(shù)學(xué)推理基準(zhǔn)上取得了顯著性能提升,尤其是在最具挑戰(zhàn)性的樣本上表現(xiàn)最為突出。

這項(xiàng)研究的意義在于它證明了針對(duì)性地增強(qiáng)訓(xùn)練數(shù)據(jù)的復(fù)雜性可以有效提升模型的推理能力,尤其是在處理復(fù)雜推理任務(wù)方面。SynthRL提供了一種可擴(kuò)展、數(shù)據(jù)中心的方法來增強(qiáng)視覺語(yǔ)言模型的推理能力,無(wú)需大量人工標(biāo)注或領(lǐng)域?qū)<抑R(shí)。

展望未來,SynthRL的方法可以應(yīng)用于更多類型的推理任務(wù)和模型架構(gòu)。研究團(tuán)隊(duì)的工作為如何通過智能數(shù)據(jù)合成來提升人工智能系統(tǒng)的高級(jí)推理能力開辟了新的路徑,這對(duì)于發(fā)展真正能夠理解和推理復(fù)雜視覺場(chǎng)景的AI系統(tǒng)具有重要意義。

總的來說,SynthRL代表了一種新的思路:不僅要訓(xùn)練更強(qiáng)大的模型,還要?jiǎng)?chuàng)建更有價(jià)值的訓(xùn)練數(shù)據(jù)。通過自動(dòng)識(shí)別和提升訓(xùn)練數(shù)據(jù)中的挑戰(zhàn)性,這種方法可以幫助模型發(fā)展更深層次的推理能力,這對(duì)于視覺AI向真正的理解力邁進(jìn)至關(guān)重要。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-