這項(xiàng)由上海人工智能實(shí)驗(yàn)室的李宇、潘卓實(shí)、林泓霖等研究人員領(lǐng)導(dǎo)的研究發(fā)表于2025年7月,論文題目為《Can One Domain Help Others? A Data-Centric Study on Multi-Domain Reasoning via Reinforcement Learning》。有興趣深入了解的讀者可以通過https://github.com/Leey21/A-Data-Centric-Study訪問完整的研究代碼和資料。
當(dāng)我們學(xué)會了騎自行車,是否更容易掌握摩托車?當(dāng)一個(gè)人精通數(shù)學(xué),是否在解決邏輯推理問題時(shí)也會更得心應(yīng)手?在人工智能的世界里,這個(gè)問題同樣引人深思。研究團(tuán)隊(duì)就像是AI教育專家,專門研究如何讓人工智能在不同"科目"之間融會貫通。
過去,科學(xué)家們通常讓AI專攻單一領(lǐng)域——要么專門解數(shù)學(xué)題,要么專門寫代碼,要么專門解邏輯謎題,就像培養(yǎng)??漆t(yī)生一樣。但現(xiàn)實(shí)世界的問題往往需要綜合運(yùn)用多種技能。比如,設(shè)計(jì)一個(gè)智能游戲既需要數(shù)學(xué)計(jì)算能力,又需要編程技能,還需要邏輯推理能力。那么,能否讓AI像全科醫(yī)生一樣,在多個(gè)領(lǐng)域都游刃有余呢?
研究團(tuán)隊(duì)選擇了三個(gè)最具代表性的"學(xué)科"來進(jìn)行這場教育實(shí)驗(yàn):數(shù)學(xué)推理(相當(dāng)于理科思維)、代碼生成(相當(dāng)于工程思維)和邏輯謎題求解(相當(dāng)于哲學(xué)思維)。他們使用了強(qiáng)化學(xué)習(xí)這種訓(xùn)練方法,這就像是給AI設(shè)置了一個(gè)獎(jiǎng)勵(lì)機(jī)制——做對了就給糖果,做錯(cuò)了就不給獎(jiǎng)勵(lì),讓AI在反復(fù)嘗試中學(xué)會正確的解題方式。
更有趣的是,研究團(tuán)隊(duì)還探索了許多影響AI學(xué)習(xí)效果的細(xì)節(jié)因素。比如,用什么樣的"話術(shù)"來跟AI對話(模板一致性),如何安排學(xué)習(xí)的先后順序(課程學(xué)習(xí)),用什么樣的獎(jiǎng)勵(lì)方式來激勵(lì)A(yù)I(獎(jiǎng)勵(lì)設(shè)計(jì)),以及用中文還是英文來訓(xùn)練AI(語言敏感性)等等。這些看似微小的細(xì)節(jié),卻可能對AI的學(xué)習(xí)效果產(chǎn)生意想不到的巨大影響。
經(jīng)過大量實(shí)驗(yàn),研究團(tuán)隊(duì)得出了一系列令人驚喜的發(fā)現(xiàn)。他們發(fā)現(xiàn),數(shù)學(xué)訓(xùn)練和邏輯謎題訓(xùn)練確實(shí)能夠互相促進(jìn),就像學(xué)好數(shù)學(xué)有助于提高邏輯思維能力一樣。但代碼訓(xùn)練的效果則比較復(fù)雜,有時(shí)候能幫助其他能力提升,有時(shí)候反而會產(chǎn)生干擾。同時(shí),他們還發(fā)現(xiàn),讓AI先學(xué)習(xí)基礎(chǔ)指令再進(jìn)行強(qiáng)化學(xué)習(xí),效果會顯著提升;訓(xùn)練和測試時(shí)使用一致的對話模板至關(guān)重要;而用中文訓(xùn)練的AI在推理能力上普遍不如用英文訓(xùn)練的AI。
一、數(shù)學(xué)訓(xùn)練:AI的理科思維養(yǎng)成記
當(dāng)研究團(tuán)隊(duì)開始訓(xùn)練AI解數(shù)學(xué)題時(shí),就像是在培養(yǎng)一個(gè)理科學(xué)霸。他們選擇了兩個(gè)具有挑戰(zhàn)性的數(shù)學(xué)數(shù)據(jù)集:DeepScaleR和CountDown。前者包含各種復(fù)雜的數(shù)學(xué)問題,后者則是一種特殊的數(shù)字游戲,要求用給定的幾個(gè)數(shù)字通過加減乘除運(yùn)算得到目標(biāo)數(shù)字,每個(gè)數(shù)字只能用一次。
實(shí)驗(yàn)結(jié)果讓人既驚喜又意外。數(shù)學(xué)訓(xùn)練確實(shí)大幅提升了AI在數(shù)學(xué)領(lǐng)域的表現(xiàn)能力。以基礎(chǔ)模型為例,在MATH500這個(gè)權(quán)威數(shù)學(xué)測試中,AI的正確率從56.40%躍升到76.00%,提升了近20個(gè)百分點(diǎn)。在CountDown數(shù)字游戲中,提升更加驚人,從最初的1.05%一躍達(dá)到76.61%,幾乎是從完全不會到相當(dāng)熟練的水平。
更令人驚喜的發(fā)現(xiàn)是,數(shù)學(xué)訓(xùn)練產(chǎn)生了意想不到的"跨界效應(yīng)"。就像一個(gè)數(shù)學(xué)好的學(xué)生往往在邏輯推理方面也表現(xiàn)出色一樣,接受數(shù)學(xué)訓(xùn)練的AI在解決邏輯謎題時(shí)也展現(xiàn)出了更強(qiáng)的能力。基礎(chǔ)模型在邏輯謎題方面的平均得分從9.07分提升到24.08分,提升幅度超過了一倍半。這種現(xiàn)象充分說明了數(shù)學(xué)思維和邏輯思維之間確實(shí)存在著某種內(nèi)在的聯(lián)系。
然而,事情并非完全美好。數(shù)學(xué)訓(xùn)練似乎對AI的編程能力產(chǎn)生了負(fù)面影響。在代碼生成任務(wù)中,經(jīng)過數(shù)學(xué)訓(xùn)練的AI表現(xiàn)反而有所下降,就像有些理論派學(xué)者在實(shí)際操作方面可能不如專業(yè)技術(shù)人員那樣。這種現(xiàn)象提醒我們,不同類型的思維模式之間可能存在某種競爭關(guān)系。
研究還發(fā)現(xiàn)了一個(gè)有趣的細(xì)節(jié):基礎(chǔ)AI模型在CountDown游戲上的糟糕表現(xiàn)主要源于它無法嚴(yán)格遵循"每個(gè)數(shù)字只能用一次"這個(gè)規(guī)則。這暴露了基礎(chǔ)模型在指令理解方面的局限性,也解釋了為什么經(jīng)過指令微調(diào)的模型通常表現(xiàn)更好。
二、代碼訓(xùn)練:工程思維的雙刃劍效應(yīng)
編程訓(xùn)練就像是教AI成為一名工程師,不僅要理解邏輯,還要將想法轉(zhuǎn)化為可執(zhí)行的代碼。研究團(tuán)隊(duì)使用了CodeR1-12k數(shù)據(jù)集,其中包含了來自LeetCode和TACO等知名編程平臺的12000個(gè)編程問題。這些問題涵蓋了從基礎(chǔ)語法到復(fù)雜算法的各個(gè)層面。
代碼訓(xùn)練的直接效果是顯著的。在HumanEval這個(gè)經(jīng)典的代碼生成測試中,基礎(chǔ)模型的成功率從70.12%提升到80.49%,提升了超過10個(gè)百分點(diǎn)。在MBPP測試中,成功率也從64.80%增長到67.40%。更令人印象深刻的是,經(jīng)過指令微調(diào)的模型在代碼訓(xùn)練后能夠達(dá)到84.15%的HumanEval成功率,這已經(jīng)是相當(dāng)優(yōu)秀的表現(xiàn)了。
不過,代碼訓(xùn)練的跨領(lǐng)域效應(yīng)呈現(xiàn)出了復(fù)雜的雙面性,就像一把雙刃劍。對于經(jīng)過指令微調(diào)的模型來說,代碼訓(xùn)練通常能夠帶來正面的溢出效應(yīng),在其他領(lǐng)域的測試中也表現(xiàn)更好。但對于基礎(chǔ)模型來說,情況就截然不同了。代碼trainining往往導(dǎo)致基礎(chǔ)模型在其他任務(wù)上的表現(xiàn)下降,特別是在需要靈活輸出格式的任務(wù)上。
研究團(tuán)隊(duì)深入分析后發(fā)現(xiàn),這種現(xiàn)象的根源在于代碼數(shù)據(jù)的結(jié)構(gòu)化特性。編程代碼有著嚴(yán)格的語法規(guī)則和固定的格式要求,這種剛性結(jié)構(gòu)會讓基礎(chǔ)模型的輸出變得過于僵化。當(dāng)面對需要自然語言表達(dá)的數(shù)學(xué)問題或邏輯謎題時(shí),這種僵化的輸出模式反而成為了障礙,導(dǎo)致AI無法正確提取答案,即使推理過程可能是正確的。
這個(gè)發(fā)現(xiàn)揭示了一個(gè)重要的訓(xùn)練原理:不同類型的數(shù)據(jù)會塑造AI的"思維習(xí)慣"。代碼訓(xùn)練讓AI習(xí)慣了精確、結(jié)構(gòu)化的表達(dá)方式,但這種習(xí)慣在需要靈活表達(dá)的場景中可能成為負(fù)擔(dān)。這就像一個(gè)長期從事精密工程工作的人,在需要發(fā)揮創(chuàng)意的藝術(shù)創(chuàng)作中可能會顯得拘謹(jǐn)一樣。
三、邏輯謎題訓(xùn)練:哲學(xué)思維的奇妙力量
邏輯謎題訓(xùn)練是這項(xiàng)研究中最有趣的部分,就像是在培養(yǎng)AI的"哲學(xué)思維"。研究團(tuán)隊(duì)選擇了兩類經(jīng)典的邏輯問題:Knights-and-Knaves(騎士與惡棍問題)和Logic Puzzle Baron(邏輯推理男爵問題)。前者是經(jīng)典的邏輯哲學(xué)問題,每個(gè)角色要么總是說真話(騎士),要么總是說假話(惡棍),AI需要通過分析他們的話來判斷身份。后者則是更復(fù)雜的網(wǎng)格邏輯謎題,需要根據(jù)多個(gè)線索填充信息表格。
邏輯訓(xùn)練的直接效果非常顯著。在Knights-and-Knaves問題上,基礎(chǔ)模型的準(zhǔn)確率從17.86%飆升到94.29%,這幾乎是從完全不懂到接近完美的跨越。在Logic Puzzle Baron問題上,準(zhǔn)確率也從0.27%提升到34.60%,雖然絕對數(shù)值不如前者,但提升幅度同樣令人印象深刻。
更令人興奮的是,邏輯訓(xùn)練展現(xiàn)出了強(qiáng)大的跨領(lǐng)域遷移能力。接受邏輯訓(xùn)練的AI在數(shù)學(xué)推理方面也表現(xiàn)出色,基礎(chǔ)模型在MATH500測試中的得分從56.40分提升到68.40分,在AIME24測試中從10.00分提升到20.00分。這種提升幾乎讓基礎(chǔ)模型達(dá)到了指令微調(diào)模型的原始水平,充分說明了邏輯思維訓(xùn)練的價(jià)值。
這種現(xiàn)象可以用認(rèn)知科學(xué)的理論來解釋。無論是數(shù)學(xué)推理還是邏輯推理,都需要系統(tǒng)性的思考、嚴(yán)密的推理鏈條和準(zhǔn)確的因果分析能力。當(dāng)AI通過解決邏輯謎題訓(xùn)練了這些核心能力后,自然能夠?qū)⑦@些技能遷移到數(shù)學(xué)問題的求解中。這就像一個(gè)經(jīng)常玩邏輯游戲的人,在解決數(shù)學(xué)應(yīng)用題時(shí)往往也會表現(xiàn)得更加出色。
然而,邏輯訓(xùn)練對編程能力的影響相對有限,甚至在某些情況下還會產(chǎn)生輕微的負(fù)面效應(yīng)。這再次證實(shí)了不同思維模式之間的差異性。邏輯推理更注重抽象思維和概念分析,而編程更需要具體的實(shí)現(xiàn)能力和操作技巧,兩者的思維模式存在一定的差異。
研究還發(fā)現(xiàn)了一個(gè)有趣的訓(xùn)練策略:將不同難度的邏輯問題混合訓(xùn)練比單獨(dú)訓(xùn)練某一類問題更有效。這種做法能夠避免AI過度擬合某種特定的問題格式,保持更好的泛化能力。
四、跨領(lǐng)域組合訓(xùn)練:1+1是否大于2?
在驗(yàn)證了單領(lǐng)域訓(xùn)練的效果后,研究團(tuán)隊(duì)開始探索更加復(fù)雜的問題:如果讓AI同時(shí)學(xué)習(xí)多個(gè)領(lǐng)域,效果會如何?這就像是讓一個(gè)學(xué)生同時(shí)學(xué)習(xí)數(shù)學(xué)、編程和邏輯學(xué),看看這種"全才"教育模式是否真的更有效。
雙領(lǐng)域組合訓(xùn)練展現(xiàn)出了復(fù)雜而有趣的結(jié)果。數(shù)學(xué)與邏輯謎題的組合堪稱黃金搭檔,兩者相互促進(jìn),效果顯著。在這種組合訓(xùn)練下,AI在數(shù)學(xué)任務(wù)上的平均表現(xiàn)達(dá)到49.72分,超過了純數(shù)學(xué)訓(xùn)練的47.48分。邏輯謎題的表現(xiàn)也達(dá)到49.78分,雖然略低于純邏輯訓(xùn)練的61.98分,但考慮到同時(shí)還要學(xué)習(xí)數(shù)學(xué),這已經(jīng)是相當(dāng)不錯(cuò)的表現(xiàn)了。
邏輯謎題與代碼的組合同樣表現(xiàn)出色,整體平均分達(dá)到50.89分,是所有雙領(lǐng)域組合中表現(xiàn)最好的。這種組合似乎找到了抽象思維與具體實(shí)現(xiàn)之間的平衡點(diǎn),讓AI既保持了邏輯思維的嚴(yán)密性,又具備了代碼實(shí)現(xiàn)的實(shí)用性。
然而,數(shù)學(xué)與代碼的組合結(jié)果卻相對平庸,整體表現(xiàn)為48.92分。雖然在各自的專業(yè)領(lǐng)域都有不錯(cuò)的表現(xiàn),但缺乏明顯的協(xié)同效應(yīng)。這或許反映了純理論思維與工程實(shí)踐思維之間存在一定的隔閡。
最令人驚喜的發(fā)現(xiàn)來自三領(lǐng)域組合訓(xùn)練。當(dāng)AI同時(shí)學(xué)習(xí)數(shù)學(xué)、代碼和邏輯謎題時(shí),整體平均表現(xiàn)達(dá)到了56.57分,超越了所有雙領(lǐng)域組合。雖然在邏輯謎題這個(gè)單項(xiàng)上的表現(xiàn)有所下降(從雙領(lǐng)域的55.15分降到49.73分),但數(shù)學(xué)能力達(dá)到了最高水平(49.75分),代碼能力也保持在較高水平(73.63分)。
這個(gè)結(jié)果驗(yàn)證了一個(gè)重要的教育理念:雖然專業(yè)化訓(xùn)練能夠在特定領(lǐng)域達(dá)到更高的成就,但全面的多領(lǐng)域訓(xùn)練能夠培養(yǎng)出更加均衡和適應(yīng)性更強(qiáng)的能力。就像現(xiàn)實(shí)中的全才雖然在某個(gè)專業(yè)上可能不如專家,但在需要綜合運(yùn)用多種技能的復(fù)雜任務(wù)中往往表現(xiàn)更出色。
研究團(tuán)隊(duì)還觀察到一個(gè)有趣的現(xiàn)象:多領(lǐng)域訓(xùn)練能夠提高AI的"抗風(fēng)險(xiǎn)"能力。在單領(lǐng)域訓(xùn)練中,如果AI在某個(gè)特定類型的問題上表現(xiàn)不佳,整體成績就會大幅下降。但在多領(lǐng)域訓(xùn)練中,即使在某個(gè)領(lǐng)域表現(xiàn)不理想,其他領(lǐng)域的良好表現(xiàn)也能提供"保險(xiǎn)",讓整體水平保持相對穩(wěn)定。
五、模板一致性:對話方式的巨大影響
在AI訓(xùn)練過程中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)容易被忽視但影響巨大的因素:模板一致性。這里的"模板"就像是與AI對話的"話術(shù)"或"格式",看似微不足道,實(shí)際上卻能決定AI的表現(xiàn)好壞。
設(shè)想一個(gè)場景:你平時(shí)習(xí)慣了用某種方式與朋友交流,突然有一天朋友改變了交流方式,你可能就會感到困惑,無法正常發(fā)揮。AI也面臨同樣的問題。如果訓(xùn)練時(shí)使用了一種對話模板,測試時(shí)卻使用了另一種模板,AI的表現(xiàn)就會大幅下降。
研究團(tuán)隊(duì)使用了三種不同的對話模板進(jìn)行實(shí)驗(yàn):R1模板(類似于深度思考式的對話方式)、Qwen模板(更加直接簡潔的方式)和基礎(chǔ)模板(最簡單的問答方式)。結(jié)果顯示,模板不匹配時(shí),AI的表現(xiàn)會出現(xiàn)戲劇性的下降。
以基礎(chǔ)模型為例,當(dāng)訓(xùn)練和測試使用相同的R1模板時(shí),平均表現(xiàn)為47.84分。但如果訓(xùn)練用R1模板,測試卻用基礎(chǔ)模板,成績就會驟降到27.27分,降幅超過40%。對于指令微調(diào)模型,這種差異同樣明顯:匹配模板時(shí)得分54.56分,不匹配時(shí)只有17.54分,降幅高達(dá)67%。
這種現(xiàn)象的根本原因在于AI在訓(xùn)練過程中形成了特定的"思維習(xí)慣"。當(dāng)它習(xí)慣了某種對話方式后,就會按照這種方式來組織思路和輸出答案。一旦對話方式發(fā)生變化,AI就像是被要求用外語思考問題的人一樣,需要額外的認(rèn)知負(fù)擔(dān)來適應(yīng)新的表達(dá)方式,從而影響了解題的準(zhǔn)確性。
更深層的分析揭示,不同模板之間的差異不僅僅是表面的格式問題,還涉及到思維模式的根本差異。R1模板鼓勵(lì)A(yù)I進(jìn)行深入思考,通過標(biāo)簽來展示推理過程,這培養(yǎng)了AI的逐步推理習(xí)慣。而基礎(chǔ)模板更注重直接給出答案,這會讓AI形成快速響應(yīng)的習(xí)慣。當(dāng)這兩種思維模式混合使用時(shí),就會產(chǎn)生認(rèn)知沖突。
這個(gè)發(fā)現(xiàn)對實(shí)際應(yīng)用具有重要意義。它提醒我們,在部署AI系統(tǒng)時(shí),必須確保訓(xùn)練環(huán)境和應(yīng)用環(huán)境的一致性。如果訓(xùn)練時(shí)使用了某種特定的交互方式,那么在實(shí)際使用時(shí)也應(yīng)該保持相同的方式,否則就可能無法發(fā)揮AI的真實(shí)能力。
六、課程學(xué)習(xí):循序漸進(jìn)的智慧
就像人類學(xué)習(xí)需要循序漸進(jìn)一樣,AI的學(xué)習(xí)也能從合理的課程安排中受益。研究團(tuán)隊(duì)在邏輯謎題領(lǐng)域?qū)嵤┝苏n程學(xué)習(xí)策略,就像是為AI制定了一個(gè)從易到難的學(xué)習(xí)計(jì)劃。
他們以Knights-and-Knaves問題為例,根據(jù)每個(gè)問題中包含的子問題數(shù)量來劃分難度等級。包含3個(gè)子問題的被歸類為最簡單的級別,包含8個(gè)子問題的則是最難的級別。AI按照從簡單到復(fù)雜的順序依次學(xué)習(xí)這些問題,就像學(xué)數(shù)學(xué)時(shí)先學(xué)加減法,再學(xué)乘除法,最后學(xué)復(fù)雜運(yùn)算一樣。
標(biāo)準(zhǔn)課程學(xué)習(xí)的結(jié)果已經(jīng)相當(dāng)令人滿意。通過循序漸進(jìn)的訓(xùn)練,AI的最終表現(xiàn)達(dá)到了97.29%的準(zhǔn)確率,相比隨機(jī)混合訓(xùn)練的94.29%有了明顯提升。更重要的是,課程學(xué)習(xí)讓AI的學(xué)習(xí)過程更加穩(wěn)定,避免了在難題上的過度挫敗和在簡單題上的過度自信。
研究團(tuán)隊(duì)還提出了一個(gè)創(chuàng)新的"策略刷新"方法。在傳統(tǒng)的課程學(xué)習(xí)中,AI會一直使用同一個(gè)參考模型來評估自己的進(jìn)步。但在策略刷新方法中,每當(dāng)AI完成一個(gè)難度等級的學(xué)習(xí)后,就會更新參考模型,并重置優(yōu)化器的狀態(tài),就像是給AI一個(gè)"重新開始"的機(jī)會。
這種策略刷新的效果非常顯著。最終的準(zhǔn)確率達(dá)到了驚人的99.71%,幾乎接近完美。更重要的是,從第二個(gè)學(xué)習(xí)階段開始,采用策略刷新的AI就一直保持領(lǐng)先,最終的收斂速度也更快。
策略刷新之所以有效,是因?yàn)樗苊饬藢W(xué)習(xí)過程中的"歷史包袱"。在傳統(tǒng)學(xué)習(xí)中,AI可能會對早期遇到的簡單問題形成固化的處理模式,這些模式在面對更復(fù)雜問題時(shí)可能成為桎梏。通過定期"刷新",AI能夠以更加靈活的心態(tài)面對新的挑戰(zhàn),避免被過去的經(jīng)驗(yàn)所束縛。
這種發(fā)現(xiàn)對人類學(xué)習(xí)也有一定的啟發(fā)意義。有時(shí)候,完全忘記過去的方法,以全新的視角來看待問題,可能會取得更好的效果。當(dāng)然,這并不意味著要完全拋棄過去的經(jīng)驗(yàn),而是要在保持核心能力的同時(shí),保持思維的靈活性。
七、獎(jiǎng)勵(lì)設(shè)計(jì):激勵(lì)機(jī)制的學(xué)問
在強(qiáng)化學(xué)習(xí)中,獎(jiǎng)勵(lì)設(shè)計(jì)就像是制定激勵(lì)政策,直接影響著AI的學(xué)習(xí)動機(jī)和方向。研究團(tuán)隊(duì)發(fā)現(xiàn),不同類型的問題需要不同的獎(jiǎng)勵(lì)策略,就像管理不同性格的員工需要不同的激勵(lì)方式一樣。
對于Knights-and-Knaves問題,簡單的二元獎(jiǎng)勵(lì)(做對了給1分,做錯(cuò)了給0分)效果最好。這是因?yàn)檫@類問題相對簡單,AI經(jīng)過一定訓(xùn)練后通常能夠完全正確地解決,此時(shí)清晰明確的獎(jiǎng)勵(lì)信號最有助于強(qiáng)化正確的行為模式。就像教小孩子算術(shù),對就是對,錯(cuò)就是錯(cuò),簡單明了的反饋更有效。
但對于Logic Puzzle Baron這類復(fù)雜問題,情況就完全不同了。這類問題通常包含多個(gè)需要填空的單元格,AI很少能一次性全部答對。如果仍然使用二元獎(jiǎng)勵(lì),AI就很少能得到正面反饋,學(xué)習(xí)過程會變得極其困難,甚至可能完全無法學(xué)會。
因此,研究團(tuán)隊(duì)為復(fù)雜問題設(shè)計(jì)了比例獎(jiǎng)勵(lì)系統(tǒng)。AI不需要全部答對才能得到獎(jiǎng)勵(lì),而是根據(jù)答對的比例來獲得相應(yīng)的分?jǐn)?shù)。比如,如果一個(gè)問題有10個(gè)空格,AI答對了7個(gè),就能得到0.7分的獎(jiǎng)勵(lì)。這種"部分成功也值得鼓勵(lì)"的理念讓AI能夠從每次嘗試中都獲得有價(jià)值的學(xué)習(xí)信號。
研究團(tuán)隊(duì)還嘗試了其他幾種獎(jiǎng)勵(lì)策略。格式獎(jiǎng)勵(lì)會額外獎(jiǎng)勵(lì)A(yù)I使用正確的輸出格式,就像老師不僅看答案是否正確,還會看解題步驟是否規(guī)范一樣。重新縮放獎(jiǎng)勵(lì)則將獎(jiǎng)勵(lì)范圍擴(kuò)展到-1到1之間,對錯(cuò)誤答案給予負(fù)分,就像是既有獎(jiǎng)勵(lì)也有懲罰的雙向激勵(lì)機(jī)制。
實(shí)驗(yàn)結(jié)果顯示,最適合的獎(jiǎng)勵(lì)策略高度依賴于任務(wù)的特性。對于AI能夠相對容易掌握的簡單任務(wù),清晰的二元獎(jiǎng)勵(lì)最有效。但對于復(fù)雜任務(wù),過于嚴(yán)格的標(biāo)準(zhǔn)反而會阻礙學(xué)習(xí),需要更加靈活和漸進(jìn)的獎(jiǎng)勵(lì)機(jī)制。
這個(gè)發(fā)現(xiàn)揭示了一個(gè)重要的教育原理:激勵(lì)機(jī)制必須與學(xué)習(xí)者的能力水平相匹配。對初學(xué)者過于嚴(yán)格的要求可能會打擊學(xué)習(xí)積極性,而對高水平學(xué)習(xí)者過于寬松的標(biāo)準(zhǔn)則可能導(dǎo)致滿足于現(xiàn)狀。最好的激勵(lì)策略是能夠在挑戰(zhàn)性和可達(dá)成性之間找到平衡點(diǎn)。
八、語言因素:中英文差異的意外發(fā)現(xiàn)
在全球化的今天,AI系統(tǒng)的多語言能力越來越重要。研究團(tuán)隊(duì)特別關(guān)注了訓(xùn)練語言對AI推理能力的影響,結(jié)果發(fā)現(xiàn)了一個(gè)令人深思的現(xiàn)象:用中文訓(xùn)練的AI在推理任務(wù)上普遍不如用英文訓(xùn)練的AI。
為了確保中文訓(xùn)練的有效性,研究團(tuán)隊(duì)采用了嚴(yán)格的語言控制策略。他們使用語言檢測工具來監(jiān)控AI的輸出,只有當(dāng)AI用中文進(jìn)行推理且答案正確時(shí)才給予獎(jiǎng)勵(lì)。如果AI雖然答對了但使用的是英文思考,也不會得到獎(jiǎng)勵(lì)。這種嚴(yán)格的控制是必要的,因?yàn)樗麄儼l(fā)現(xiàn),如果不加限制,AI即使面對中文問題也會習(xí)慣性地用英文來思考。
然而,即使在這種嚴(yán)格控制下,中文訓(xùn)練的效果仍然明顯遜色于英文訓(xùn)練。在各項(xiàng)測試中,中文訓(xùn)練的AI得分都明顯低于英文訓(xùn)練的同類模型,差距往往達(dá)到數(shù)十個(gè)百分點(diǎn)。這種差異不僅體現(xiàn)在直接的語言理解上,更重要的是體現(xiàn)在深層的推理能力上。
造成這種差異的原因可能是多方面的。首先,當(dāng)前大多數(shù)AI模型的預(yù)訓(xùn)練數(shù)據(jù)中英文內(nèi)容占據(jù)主導(dǎo)地位,模型對英文語言模式的學(xué)習(xí)更加充分。其次,在數(shù)學(xué)、邏輯等抽象思維領(lǐng)域,英文相關(guān)的訓(xùn)練資源更加豐富,相關(guān)的表達(dá)方式也更加成熟。此外,中英文在表達(dá)邏輯關(guān)系時(shí)的語言結(jié)構(gòu)差異也可能影響AI的推理過程。
這個(gè)發(fā)現(xiàn)提醒我們,要真正實(shí)現(xiàn)AI的多語言智能,僅僅翻譯訓(xùn)練數(shù)據(jù)是不夠的。需要在更深層次上理解不同語言的思維模式差異,并針對性地設(shè)計(jì)訓(xùn)練策略。對于中文AI的發(fā)展來說,這既是挑戰(zhàn)也是機(jī)遇,需要更多針對中文思維特點(diǎn)的專門研究。
值得注意的是,這種語言差異并不意味著中文在邏輯表達(dá)上存在天然劣勢。在人類的認(rèn)知研究中,不同語言背景的人在邏輯推理能力上并沒有顯著差異。AI表現(xiàn)出的語言差異更多反映的是當(dāng)前訓(xùn)練方法和數(shù)據(jù)分布的問題,而非語言本身的特性。
九、監(jiān)督微調(diào)的重要作用:基礎(chǔ)與進(jìn)階的關(guān)鍵橋梁
研究過程中,一個(gè)重要發(fā)現(xiàn)是監(jiān)督微調(diào)(SFT)在強(qiáng)化學(xué)習(xí)中發(fā)揮的關(guān)鍵作用。這就像是在學(xué)習(xí)高難度技能之前先掌握基礎(chǔ)技能一樣,監(jiān)督微調(diào)為后續(xù)的強(qiáng)化學(xué)習(xí)奠定了重要基礎(chǔ)。
監(jiān)督微調(diào)就像是給AI上"基礎(chǔ)課程",教會它基本的對話禮儀和回答格式。在這個(gè)過程中,AI學(xué)會了如何理解人類的指令,如何組織自己的回答,以及如何在給定的框架內(nèi)表達(dá)想法。這些看似簡單的能力,實(shí)際上為后續(xù)的復(fù)雜學(xué)習(xí)提供了必要的支撐。
對比實(shí)驗(yàn)清楚地展示了監(jiān)督微調(diào)的價(jià)值。在幾乎所有的測試中,經(jīng)過監(jiān)督微調(diào)的模型(指令模型)都比基礎(chǔ)模型表現(xiàn)更好,而且這種優(yōu)勢在強(qiáng)化學(xué)習(xí)過程中還會進(jìn)一步放大。例如,在代碼生成任務(wù)中,基礎(chǔ)模型經(jīng)過強(qiáng)化學(xué)習(xí)后達(dá)到80.49%的成功率,而指令模型則能達(dá)到84.15%的成功率。
更重要的是,監(jiān)督微調(diào)讓AI的學(xué)習(xí)過程更加穩(wěn)定?;A(chǔ)模型在強(qiáng)化學(xué)習(xí)過程中容易出現(xiàn)性能波動,有時(shí)甚至?xí)霈F(xiàn)訓(xùn)練崩潰的情況。而經(jīng)過監(jiān)督微調(diào)的模型則表現(xiàn)得更加穩(wěn)健,能夠持續(xù)穩(wěn)定地提升性能。
這種穩(wěn)定性的來源在于監(jiān)督微調(diào)建立了可靠的"思維框架"。當(dāng)AI遇到新問題時(shí),這個(gè)框架為它提供了處理問題的基本思路和表達(dá)方式。即使在強(qiáng)化學(xué)習(xí)的探索過程中遇到困難,AI也不會完全迷失方向,而是能夠回到這個(gè)基礎(chǔ)框架上來重新思考。
監(jiān)督微調(diào)的另一個(gè)重要作用是提高了AI的"交流能力"。在強(qiáng)化學(xué)習(xí)中,AI需要通過輸出來表達(dá)自己的思考過程,這個(gè)表達(dá)的質(zhì)量直接影響?yīng)剟?lì)的獲得。監(jiān)督微調(diào)讓AI學(xué)會了更好的表達(dá)方式,從而能夠更有效地參與強(qiáng)化學(xué)習(xí)過程。
這個(gè)發(fā)現(xiàn)對AI訓(xùn)練策略具有重要指導(dǎo)意義:雖然強(qiáng)化學(xué)習(xí)能夠帶來顯著的性能提升,但它不應(yīng)該被視為獨(dú)立的訓(xùn)練方法,而應(yīng)該與監(jiān)督微調(diào)相結(jié)合,形成一個(gè)完整的訓(xùn)練流程。先通過監(jiān)督微調(diào)建立基礎(chǔ)能力,再通過強(qiáng)化學(xué)習(xí)進(jìn)行精細(xì)調(diào)優(yōu),這樣的組合策略能夠取得最佳效果。
十、實(shí)驗(yàn)細(xì)節(jié)與發(fā)現(xiàn)總結(jié)
通過這一系列廣泛而深入的實(shí)驗(yàn),研究團(tuán)隊(duì)得出了許多有價(jià)值的發(fā)現(xiàn),這些發(fā)現(xiàn)不僅對AI研究有重要意義,也為我們理解智能學(xué)習(xí)過程提供了新的視角。
在跨領(lǐng)域?qū)W習(xí)方面,數(shù)學(xué)推理和邏輯推理確實(shí)表現(xiàn)出了良好的互補(bǔ)性,這驗(yàn)證了抽象思維能力的通用性。當(dāng)AI掌握了嚴(yán)密的邏輯推理能力后,這種能力能夠自然地遷移到數(shù)學(xué)問題的求解中。同時(shí),數(shù)學(xué)訓(xùn)練中培養(yǎng)的定量分析能力也能增強(qiáng)邏輯推理的精確性。
代碼訓(xùn)練的效果則更加復(fù)雜。對于具備良好基礎(chǔ)的指令模型,代碼訓(xùn)練通常能夠帶來正面的遷移效應(yīng)。但對于基礎(chǔ)模型,代碼訓(xùn)練可能會帶來意想不到的負(fù)面影響,主要是因?yàn)榇a的結(jié)構(gòu)化特性可能會限制模型在其他任務(wù)中的表達(dá)靈活性。
多領(lǐng)域組合訓(xùn)練展現(xiàn)出了"集成學(xué)習(xí)"的優(yōu)勢。雖然在某些單項(xiàng)能力上可能不如專門訓(xùn)練,但整體表現(xiàn)更加均衡和穩(wěn)定。三領(lǐng)域組合訓(xùn)練的最佳表現(xiàn)證明了多樣化學(xué)習(xí)的價(jià)值,這與人類教育中提倡的全面發(fā)展理念不謀而合。
模板一致性的重要性提醒我們,AI系統(tǒng)的部署需要更加細(xì)致的考慮。訓(xùn)練和應(yīng)用環(huán)境的任何不一致都可能導(dǎo)致性能的顯著下降。這不僅是技術(shù)問題,也是系統(tǒng)設(shè)計(jì)和用戶體驗(yàn)的問題。
課程學(xué)習(xí)和策略刷新的有效性證明了漸進(jìn)式學(xué)習(xí)的價(jià)值。特別是策略刷新策略,通過定期"重置"學(xué)習(xí)狀態(tài),能夠避免早期經(jīng)驗(yàn)的負(fù)面影響,讓AI以更加開放的心態(tài)面對新挑戰(zhàn)。
獎(jiǎng)勵(lì)設(shè)計(jì)的實(shí)驗(yàn)揭示了"因材施教"的重要性。不同復(fù)雜度的任務(wù)需要不同的激勵(lì)策略,過于嚴(yán)格或過于寬松的標(biāo)準(zhǔn)都可能影響學(xué)習(xí)效果。最佳的獎(jiǎng)勵(lì)設(shè)計(jì)應(yīng)該與任務(wù)難度和學(xué)習(xí)者能力相匹配。
語言因素的發(fā)現(xiàn)雖然令人意外,但也提醒我們在追求AI全球化的過程中需要更加重視不同語言文化背景的特殊性。簡單的翻譯可能無法解決根本問題,需要更深入的跨語言研究。
監(jiān)督微調(diào)的重要作用證明了基礎(chǔ)能力培養(yǎng)的價(jià)值。強(qiáng)化學(xué)習(xí)雖然強(qiáng)大,但需要建立在扎實(shí)的基礎(chǔ)能力之上才能發(fā)揮最大效果。這與人類學(xué)習(xí)的規(guī)律是一致的:基礎(chǔ)不牢,地動山搖。
說到底,這項(xiàng)研究最大的價(jià)值在于系統(tǒng)性地探索了AI多領(lǐng)域?qū)W習(xí)的可能性和規(guī)律。就像人類社會中的通才與專才各有價(jià)值一樣,AI系統(tǒng)也需要在專業(yè)化和通用化之間找到平衡。研究團(tuán)隊(duì)的發(fā)現(xiàn)為未來AI系統(tǒng)的設(shè)計(jì)提供了重要參考,幫助我們更好地理解如何培養(yǎng)既有專業(yè)深度又有跨領(lǐng)域適應(yīng)能力的AI系統(tǒng)。
更重要的是,這些發(fā)現(xiàn)揭示了智能學(xué)習(xí)的一些普遍規(guī)律。無論是人工智能還是人類智能,都需要在不同能力之間找到協(xié)調(diào)統(tǒng)一的方式。有些能力之間確實(shí)存在互補(bǔ)和促進(jìn)關(guān)系,有些則可能存在競爭和沖突。理解這些關(guān)系,對于設(shè)計(jì)更好的學(xué)習(xí)策略具有重要意義。
隨著AI技術(shù)的不斷發(fā)展,我們相信會有更多類似的研究涌現(xiàn),幫助我們更深入地理解智能的本質(zhì)和學(xué)習(xí)的規(guī)律。這不僅對AI技術(shù)本身有重要意義,也可能為人類教育和認(rèn)知科學(xué)提供新的啟發(fā)。畢竟,智能的探索永遠(yuǎn)是一個(gè)充滿驚喜的旅程。
有興趣深入了解這項(xiàng)研究細(xì)節(jié)的讀者,可以訪問研究團(tuán)隊(duì)提供的完整資料和代碼:https://github.com/Leey21/A-Data-Centric-Study,其中包含了所有實(shí)驗(yàn)的詳細(xì)數(shù)據(jù)和實(shí)現(xiàn)方法。
Q&A
Q1:這個(gè)研究中的"跨領(lǐng)域?qū)W習(xí)"具體是什么意思?會不會讓AI變得樣樣通但樣樣松?
A:跨領(lǐng)域?qū)W習(xí)就是讓AI同時(shí)學(xué)習(xí)數(shù)學(xué)、編程和邏輯推理等不同技能,就像培養(yǎng)多才多藝的學(xué)生。研究發(fā)現(xiàn)確實(shí)存在這個(gè)擔(dān)心的情況——AI在某些單項(xiàng)能力上可能不如專門訓(xùn)練的模型,但整體表現(xiàn)更均衡穩(wěn)定。特別是三領(lǐng)域組合訓(xùn)練的AI總分最高,雖然邏輯推理單項(xiàng)有所下降,但數(shù)學(xué)能力達(dá)到了最高水平,編程能力也保持很好。
Q2:為什么用中文訓(xùn)練的AI表現(xiàn)比英文的差?這是否意味著中文不適合AI推理?
A:這個(gè)差異主要反映的是當(dāng)前AI訓(xùn)練資源和方法的問題,而非中文語言本身的問題。研究發(fā)現(xiàn),即使嚴(yán)格控制AI用中文思考,其推理表現(xiàn)仍明顯低于英文訓(xùn)練的模型。這是因?yàn)槟壳按蠖鄶?shù)AI的預(yù)訓(xùn)練數(shù)據(jù)以英文為主,在數(shù)學(xué)、邏輯等領(lǐng)域的英文資源也更豐富。這提醒我們需要更多針對中文思維特點(diǎn)的專門研究,而不是簡單的翻譯。
Q3:這個(gè)"模板一致性"聽起來很抽象,對普通用戶使用AI有什么實(shí)際影響嗎?
A:模板一致性就是AI的"對話習(xí)慣",影響比想象中大得多。研究發(fā)現(xiàn),如果訓(xùn)練時(shí)AI習(xí)慣了某種對話方式,測試時(shí)換了另一種方式,性能會下降40-67%。對普通用戶來說,這意味著使用AI時(shí)最好保持一致的提問方式和格式。比如,如果某個(gè)AI在特定的問答格式下表現(xiàn)很好,就盡量使用相同的格式,而不要隨意改變交流方式。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。