大型語言模型(LLMs)在數(shù)學(xué)和編程領(lǐng)域展現(xiàn)出令人矚目的推理能力,這些能力往往通過對(duì)更強(qiáng)大模型生成的思維鏈(Chain-of-Thoughts,簡(jiǎn)稱CoTs)進(jìn)行后訓(xùn)練而得到加強(qiáng)。然而,當(dāng)前篩選訓(xùn)練數(shù)據(jù)的策略主要依賴于啟發(fā)式方法,這限制了其通用性,也無法捕捉數(shù)據(jù)中隱藏的微妙特性。2025年5月,上海交通大學(xué)的寇思奇、田清源、徐瀚文、曾子豪和鄧志杰團(tuán)隊(duì)在arXiv預(yù)印本平臺(tái)(arXiv:2505.19949v1)發(fā)表了一項(xiàng)創(chuàng)新研究,他們利用影響函數(shù)這一工具,系統(tǒng)地將LLMs在數(shù)學(xué)和編程領(lǐng)域的推理能力歸因于特定的訓(xùn)練樣本、序列和詞元,從而深入探索了有效數(shù)據(jù)特征的奧秘。
想象一下,如果你正在訓(xùn)練一個(gè)AI助手來解決數(shù)學(xué)問題和編寫代碼,你會(huì)給它提供什么樣的練習(xí)材料?是難度較高的大學(xué)數(shù)學(xué)題,還是簡(jiǎn)單直觀的編程任務(wù)?或者兩者的某種組合?這個(gè)問題對(duì)于構(gòu)建高效的AI推理系統(tǒng)至關(guān)重要,而上海交通大學(xué)的研究團(tuán)隊(duì)給出了令人意外的答案。
研究團(tuán)隊(duì)開發(fā)的"基于影響力的推理歸因"(Influence-based Reasoning Attribution,簡(jiǎn)稱Infra)方法揭示了數(shù)學(xué)和編程領(lǐng)域之間存在非平凡的交叉影響:高難度數(shù)學(xué)例題能同時(shí)提升AI在數(shù)學(xué)和代碼推理方面的能力,而低難度的編程任務(wù)則對(duì)提升代碼推理能力最有效?;谶@些發(fā)現(xiàn),研究者提出了一個(gè)簡(jiǎn)單卻有效的數(shù)據(jù)重新權(quán)重策略——翻轉(zhuǎn)任務(wù)難度(對(duì)簡(jiǎn)單數(shù)學(xué)問題增加難度,對(duì)復(fù)雜編程問題降低難度),這一策略使Qwen2.5-7B-Instruct模型在AIME24測(cè)試中的準(zhǔn)確率從10%翻倍至20%,在LiveCodeBench測(cè)試中的準(zhǔn)確率從33.8%提升至35.3%。
此外,他們的細(xì)粒度歸因分析還揭示了序列級(jí)別的探索行為能增強(qiáng)數(shù)學(xué)和代碼推理性能,以及詞元級(jí)別的影響模式在數(shù)學(xué)和代碼推理中有明顯區(qū)別:前者偏好自然語言邏輯連接詞,后者則強(qiáng)調(diào)結(jié)構(gòu)化語法。
一、影響函數(shù):追蹤數(shù)據(jù)對(duì)模型行為的影響
想象你正在教一個(gè)孩子解決問題。有些教學(xué)方法特別有效,而有些則不然。但具體是哪些教學(xué)內(nèi)容讓孩子進(jìn)步最快呢?影響函數(shù)就像是一個(gè)能回答這個(gè)問題的神奇工具。
研究團(tuán)隊(duì)采用了影響函數(shù)這一經(jīng)典技術(shù),用它來追蹤單個(gè)訓(xùn)練數(shù)據(jù)對(duì)模型行為的影響。簡(jiǎn)單來說,影響函數(shù)可以告訴我們:"如果我增加這個(gè)特定訓(xùn)練樣本的權(quán)重,模型的性能會(huì)如何變化?"這就像是衡量每個(gè)教學(xué)例子對(duì)學(xué)生進(jìn)步的具體貢獻(xiàn)。
基于先前關(guān)于LLMs影響函數(shù)的研究,團(tuán)隊(duì)定義了一個(gè)易于實(shí)施且高效的影響函數(shù),專門用于面向推理的監(jiān)督微調(diào)(SFT)過程。他們還將實(shí)例級(jí)影響函數(shù)擴(kuò)展到更細(xì)粒度的變體,包括序列級(jí)和詞元級(jí),以進(jìn)行深入的數(shù)據(jù)歸因分析。
二、基礎(chǔ)數(shù)學(xué)和代碼推理的交叉影響研究
研究團(tuán)隊(duì)首先調(diào)查了基本數(shù)學(xué)和代碼推理場(chǎng)景中的交叉影響,這些場(chǎng)景不涉及長(zhǎng)思維鏈。他們用MetaMathQA和OSS-Instruct數(shù)據(jù)集的混合對(duì)LLaMA3-8B-Base模型進(jìn)行了微調(diào),并計(jì)算了這些訓(xùn)練數(shù)據(jù)對(duì)GSM8k(一種數(shù)學(xué)測(cè)試)和MBPP(一種編程測(cè)試)準(zhǔn)確率的影響函數(shù)。
通過對(duì)所有訓(xùn)練數(shù)據(jù)按影響分?jǐn)?shù)排名,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:雖然領(lǐng)域內(nèi)的數(shù)據(jù)(如數(shù)學(xué)數(shù)據(jù)對(duì)數(shù)學(xué)測(cè)試)產(chǎn)生的影響分?jǐn)?shù)最高,但跨領(lǐng)域數(shù)據(jù)(如代碼數(shù)據(jù)對(duì)數(shù)學(xué)測(cè)試)也做出了非平凡的貢獻(xiàn)。更具體地說,通過按類別和難度聚合這些分?jǐn)?shù),他們發(fā)現(xiàn)符號(hào)數(shù)學(xué)示例和高難度數(shù)學(xué)問題對(duì)提高代碼推理特別有效。
想象一下,這就像是學(xué)習(xí)彈鋼琴幫助你提高了數(shù)學(xué)能力,或者解決復(fù)雜數(shù)學(xué)問題提升了你的編程技巧。這種跨領(lǐng)域的技能遷移在人類學(xué)習(xí)中并不罕見,現(xiàn)在我們看到AI學(xué)習(xí)也遵循類似的模式。
三、復(fù)雜思維鏈推理中的數(shù)據(jù)影響分析
接下來,研究團(tuán)隊(duì)將Infra方法擴(kuò)展到更復(fù)雜的長(zhǎng)思維鏈推理場(chǎng)景。他們?cè)贐espoke-Stratos-17k數(shù)據(jù)集上微調(diào)了Qwen2.5-7B-Instruct模型,并使用AIME、MATH500和LiveCodeBench基準(zhǔn)測(cè)試來測(cè)量影響。
與早期發(fā)現(xiàn)一致,他們?cè)俅斡^察到跨領(lǐng)域增益,更難的數(shù)學(xué)問題更好地幫助了代碼推理。更進(jìn)一步,他們發(fā)現(xiàn)高難度的數(shù)學(xué)和代碼示例對(duì)數(shù)學(xué)推理更有影響,而低難度的代碼任務(wù)對(duì)代碼推理貢獻(xiàn)最大。
這個(gè)發(fā)現(xiàn)可以類比為:要培養(yǎng)全面的解決問題能力,你需要練習(xí)解決困難的數(shù)學(xué)問題;但要提高編程技能,簡(jiǎn)單清晰的編程練習(xí)與數(shù)學(xué)思維相結(jié)合會(huì)更有效。
基于這些見解,研究團(tuán)隊(duì)采取了一個(gè)巧妙的策略:在訓(xùn)練數(shù)據(jù)中,將簡(jiǎn)單數(shù)學(xué)問題的難度提高,將困難代碼任務(wù)的難度降低。這種"翻轉(zhuǎn)難度"的策略顯著提升了模型性能,證明了研究發(fā)現(xiàn)的實(shí)用價(jià)值。
四、序列級(jí)和詞元級(jí)的細(xì)粒度歸因分析
除了實(shí)例級(jí)分析外,研究團(tuán)隊(duì)還進(jìn)行了更細(xì)粒度的序列和詞元級(jí)歸因。
在序列級(jí)分析中,他們發(fā)現(xiàn)一種特殊的認(rèn)知行為非常有益:即使在找到正確答案后,繼續(xù)探索替代方法的行為(稱為"探索行為")顯著提升了數(shù)學(xué)和代碼推理性能。這有點(diǎn)像學(xué)生在解決問題后,不滿足于一種解法,而是繼續(xù)思考其他可能的解決途徑。雖然之前的研究可能將此視為"過度思考",但數(shù)據(jù)表明,這種探索實(shí)際上對(duì)培養(yǎng)更強(qiáng)大、更通用的推理能力非常有價(jià)值。
在詞元級(jí)分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)數(shù)學(xué)和代碼推理中的影響模式有明顯區(qū)別。在數(shù)學(xué)思維鏈中,最有影響力的詞元是自然語言邏輯連接詞,如"等待"、"然而"、"驗(yàn)證"、"因此"等;而在代碼思維鏈中,最有影響力的詞元是結(jié)構(gòu)或語法元素,如Markdown樣式標(biāo)題、代碼塊標(biāo)記和語法標(biāo)記。
這種對(duì)比凸顯了推理范式的差異:數(shù)學(xué)推理更依賴于邏輯話語,而代碼推理則由明確的結(jié)構(gòu)和格式促成。這些不同的模式可能解釋了為什么結(jié)構(gòu)更清晰的簡(jiǎn)單代碼問題與已經(jīng)提供強(qiáng)邏輯技能的數(shù)學(xué)思維鏈結(jié)合時(shí),特別有利于增強(qiáng)代碼推理。
想象成學(xué)習(xí)風(fēng)格的差異:有些人通過邏輯推理和批判性思維學(xué)習(xí)最好(類似數(shù)學(xué)推理),而其他人則通過結(jié)構(gòu)化框架和模式識(shí)別學(xué)習(xí)最好(類似代碼推理)。研究表明,結(jié)合這兩種方法——但以適當(dāng)?shù)碾y度級(jí)別——可以產(chǎn)生最佳結(jié)果。
五、結(jié)論與啟示
這項(xiàng)研究對(duì)人工智能教育和訓(xùn)練策略有深遠(yuǎn)的啟示。就像人類教育中,我們不會(huì)給初學(xué)者最困難的問題,也不會(huì)讓高級(jí)學(xué)習(xí)者只做簡(jiǎn)單練習(xí)一樣,AI訓(xùn)練也需要精心設(shè)計(jì)的學(xué)習(xí)材料。
研究表明,訓(xùn)練強(qiáng)大的AI推理系統(tǒng)的最佳策略是:提供困難的數(shù)學(xué)問題來培養(yǎng)深度邏輯思維能力,結(jié)合相對(duì)簡(jiǎn)單但結(jié)構(gòu)清晰的編程任務(wù)來發(fā)展代碼生成技能。此外,鼓勵(lì)"探索性思維"——在找到答案后繼續(xù)探索替代方法——對(duì)培養(yǎng)全面的推理能力至關(guān)重要。
上海交通大學(xué)的這項(xiàng)研究不僅揭示了數(shù)據(jù)特征如何影響AI推理能力,還提供了實(shí)用的策略來優(yōu)化訓(xùn)練數(shù)據(jù)。這些發(fā)現(xiàn)為構(gòu)建更強(qiáng)大、更通用的AI推理系統(tǒng)鋪平了道路,也讓我們對(duì)AI如何"學(xué)習(xí)思考"有了更深入的理解。
對(duì)于未來的研究方向,團(tuán)隊(duì)指出了一些局限性,如他們?cè)诮艸essian矩陣時(shí)僅考慮了MLP參數(shù)并將注意力視為固定,以簡(jiǎn)化影響函數(shù)計(jì)算。此外,他們的分析僅限于數(shù)學(xué)和編程推理任務(wù),將此框架擴(kuò)展到其他領(lǐng)域,如常識(shí)推理,仍是未來研究的開放方向。
總的來說,這項(xiàng)研究不僅在技術(shù)上取得了突破,還為我們理解和優(yōu)化AI學(xué)習(xí)過程提供了寶貴見解,就像理解人類如何學(xué)習(xí)和思考一樣重要。這為未來更智能、更適應(yīng)性強(qiáng)的AI系統(tǒng)開發(fā)提供了堅(jiān)實(shí)基礎(chǔ)。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。