av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

數(shù)學(xué)和代碼推理力的關(guān)鍵數(shù)據(jù)特征是什么？上海交通大學(xué)團(tuán)隊用影響函數(shù)揭示跨領(lǐng)域?qū)W習(xí)的奧秘

人工智能影響函數(shù)推理能力

數(shù)學(xué)和代碼推理力的關(guān)鍵數(shù)據(jù)特征是什么？上海交通大學(xué)團(tuán)隊用影響函數(shù)揭示跨領(lǐng)域?qū)W習(xí)的奧秘

作者：科技行者

2025-05-29 14:50

分享至：

上海交通大學(xué)研究團(tuán)隊利用影響函數(shù)揭示了數(shù)據(jù)特征如何刺激大型語言模型的數(shù)學(xué)和代碼推理能力。研究發(fā)現(xiàn)高難度數(shù)學(xué)問題能同時提升數(shù)學(xué)和代碼推理，而低難度編程任務(wù)對代碼推理最有效。基于此，他們提出了"任務(wù)難度翻轉(zhuǎn)"策略，使模型在AIME24準(zhǔn)確率翻倍至20%。細(xì)粒度分析還顯示，探索性思維行為對推理有積極影響，而數(shù)學(xué)推理偏好邏輯連接詞，代碼推理則強(qiáng)調(diào)結(jié)構(gòu)化語法。這些發(fā)現(xiàn)為優(yōu)化AI訓(xùn)練數(shù)據(jù)提供了重要指導(dǎo)。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-29 14:50 ? 科技行者

大型語言模型（LLMs）在數(shù)學(xué)和編程領(lǐng)域展現(xiàn)出令人矚目的推理能力，這些能力往往通過對更強(qiáng)大模型生成的思維鏈（Chain-of-Thoughts，簡稱CoTs）進(jìn)行后訓(xùn)練而得到加強(qiáng)。然而，當(dāng)前篩選訓(xùn)練數(shù)據(jù)的策略主要依賴于啟發(fā)式方法，這限制了其通用性，也無法捕捉數(shù)據(jù)中隱藏的微妙特性。2025年5月，上海交通大學(xué)的寇思奇、田清源、徐瀚文、曾子豪和鄧志杰團(tuán)隊在arXiv預(yù)印本平臺（arXiv:2505.19949v1）發(fā)表了一項創(chuàng)新研究，他們利用影響函數(shù)這一工具，系統(tǒng)地將LLMs在數(shù)學(xué)和編程領(lǐng)域的推理能力歸因于特定的訓(xùn)練樣本、序列和詞元，從而深入探索了有效數(shù)據(jù)特征的奧秘。

想象一下，如果你正在訓(xùn)練一個AI助手來解決數(shù)學(xué)問題和編寫代碼，你會給它提供什么樣的練習(xí)材料？是難度較高的大學(xué)數(shù)學(xué)題，還是簡單直觀的編程任務(wù)？或者兩者的某種組合？這個問題對于構(gòu)建高效的AI推理系統(tǒng)至關(guān)重要，而上海交通大學(xué)的研究團(tuán)隊給出了令人意外的答案。

研究團(tuán)隊開發(fā)的"基于影響力的推理歸因"（Influence-based Reasoning Attribution，簡稱Infra）方法揭示了數(shù)學(xué)和編程領(lǐng)域之間存在非平凡的交叉影響：高難度數(shù)學(xué)例題能同時提升AI在數(shù)學(xué)和代碼推理方面的能力，而低難度的編程任務(wù)則對提升代碼推理能力最有效?；谶@些發(fā)現(xiàn)，研究者提出了一個簡單卻有效的數(shù)據(jù)重新權(quán)重策略——翻轉(zhuǎn)任務(wù)難度（對簡單數(shù)學(xué)問題增加難度，對復(fù)雜編程問題降低難度），這一策略使Qwen2.5-7B-Instruct模型在AIME24測試中的準(zhǔn)確率從10%翻倍至20%，在LiveCodeBench測試中的準(zhǔn)確率從33.8%提升至35.3%。

此外，他們的細(xì)粒度歸因分析還揭示了序列級別的探索行為能增強(qiáng)數(shù)學(xué)和代碼推理性能，以及詞元級別的影響模式在數(shù)學(xué)和代碼推理中有明顯區(qū)別：前者偏好自然語言邏輯連接詞，后者則強(qiáng)調(diào)結(jié)構(gòu)化語法。

一、影響函數(shù)：追蹤數(shù)據(jù)對模型行為的影響

想象你正在教一個孩子解決問題。有些教學(xué)方法特別有效，而有些則不然。但具體是哪些教學(xué)內(nèi)容讓孩子進(jìn)步最快呢？影響函數(shù)就像是一個能回答這個問題的神奇工具。

研究團(tuán)隊采用了影響函數(shù)這一經(jīng)典技術(shù)，用它來追蹤單個訓(xùn)練數(shù)據(jù)對模型行為的影響。簡單來說，影響函數(shù)可以告訴我們："如果我增加這個特定訓(xùn)練樣本的權(quán)重，模型的性能會如何變化？"這就像是衡量每個教學(xué)例子對學(xué)生進(jìn)步的具體貢獻(xiàn)。

基于先前關(guān)于LLMs影響函數(shù)的研究，團(tuán)隊定義了一個易于實施且高效的影響函數(shù)，專門用于面向推理的監(jiān)督微調(diào)（SFT）過程。他們還將實例級影響函數(shù)擴(kuò)展到更細(xì)粒度的變體，包括序列級和詞元級，以進(jìn)行深入的數(shù)據(jù)歸因分析。

二、基礎(chǔ)數(shù)學(xué)和代碼推理的交叉影響研究

研究團(tuán)隊首先調(diào)查了基本數(shù)學(xué)和代碼推理場景中的交叉影響，這些場景不涉及長思維鏈。他們用MetaMathQA和OSS-Instruct數(shù)據(jù)集的混合對LLaMA3-8B-Base模型進(jìn)行了微調(diào)，并計算了這些訓(xùn)練數(shù)據(jù)對GSM8k（一種數(shù)學(xué)測試）和MBPP（一種編程測試）準(zhǔn)確率的影響函數(shù)。

通過對所有訓(xùn)練數(shù)據(jù)按影響分?jǐn)?shù)排名，研究團(tuán)隊發(fā)現(xiàn)了一個有趣的現(xiàn)象：雖然領(lǐng)域內(nèi)的數(shù)據(jù)（如數(shù)學(xué)數(shù)據(jù)對數(shù)學(xué)測試）產(chǎn)生的影響分?jǐn)?shù)最高，但跨領(lǐng)域數(shù)據(jù)（如代碼數(shù)據(jù)對數(shù)學(xué)測試）也做出了非平凡的貢獻(xiàn)。更具體地說，通過按類別和難度聚合這些分?jǐn)?shù)，他們發(fā)現(xiàn)符號數(shù)學(xué)示例和高難度數(shù)學(xué)問題對提高代碼推理特別有效。

想象一下，這就像是學(xué)習(xí)彈鋼琴幫助你提高了數(shù)學(xué)能力，或者解決復(fù)雜數(shù)學(xué)問題提升了你的編程技巧。這種跨領(lǐng)域的技能遷移在人類學(xué)習(xí)中并不罕見，現(xiàn)在我們看到AI學(xué)習(xí)也遵循類似的模式。

三、復(fù)雜思維鏈推理中的數(shù)據(jù)影響分析

接下來，研究團(tuán)隊將Infra方法擴(kuò)展到更復(fù)雜的長思維鏈推理場景。他們在Bespoke-Stratos-17k數(shù)據(jù)集上微調(diào)了Qwen2.5-7B-Instruct模型，并使用AIME、MATH500和LiveCodeBench基準(zhǔn)測試來測量影響。

與早期發(fā)現(xiàn)一致，他們再次觀察到跨領(lǐng)域增益，更難的數(shù)學(xué)問題更好地幫助了代碼推理。更進(jìn)一步，他們發(fā)現(xiàn)高難度的數(shù)學(xué)和代碼示例對數(shù)學(xué)推理更有影響，而低難度的代碼任務(wù)對代碼推理貢獻(xiàn)最大。

這個發(fā)現(xiàn)可以類比為：要培養(yǎng)全面的解決問題能力，你需要練習(xí)解決困難的數(shù)學(xué)問題；但要提高編程技能，簡單清晰的編程練習(xí)與數(shù)學(xué)思維相結(jié)合會更有效。

基于這些見解，研究團(tuán)隊采取了一個巧妙的策略：在訓(xùn)練數(shù)據(jù)中，將簡單數(shù)學(xué)問題的難度提高，將困難代碼任務(wù)的難度降低。這種"翻轉(zhuǎn)難度"的策略顯著提升了模型性能，證明了研究發(fā)現(xiàn)的實用價值。

四、序列級和詞元級的細(xì)粒度歸因分析

除了實例級分析外，研究團(tuán)隊還進(jìn)行了更細(xì)粒度的序列和詞元級歸因。

在序列級分析中，他們發(fā)現(xiàn)一種特殊的認(rèn)知行為非常有益：即使在找到正確答案后，繼續(xù)探索替代方法的行為（稱為"探索行為"）顯著提升了數(shù)學(xué)和代碼推理性能。這有點像學(xué)生在解決問題后，不滿足于一種解法，而是繼續(xù)思考其他可能的解決途徑。雖然之前的研究可能將此視為"過度思考"，但數(shù)據(jù)表明，這種探索實際上對培養(yǎng)更強(qiáng)大、更通用的推理能力非常有價值。

在詞元級分析中，研究團(tuán)隊發(fā)現(xiàn)數(shù)學(xué)和代碼推理中的影響模式有明顯區(qū)別。在數(shù)學(xué)思維鏈中，最有影響力的詞元是自然語言邏輯連接詞，如"等待"、"然而"、"驗證"、"因此"等；而在代碼思維鏈中，最有影響力的詞元是結(jié)構(gòu)或語法元素，如Markdown樣式標(biāo)題、代碼塊標(biāo)記和語法標(biāo)記。

這種對比凸顯了推理范式的差異：數(shù)學(xué)推理更依賴于邏輯話語，而代碼推理則由明確的結(jié)構(gòu)和格式促成。這些不同的模式可能解釋了為什么結(jié)構(gòu)更清晰的簡單代碼問題與已經(jīng)提供強(qiáng)邏輯技能的數(shù)學(xué)思維鏈結(jié)合時，特別有利于增強(qiáng)代碼推理。

想象成學(xué)習(xí)風(fēng)格的差異：有些人通過邏輯推理和批判性思維學(xué)習(xí)最好（類似數(shù)學(xué)推理），而其他人則通過結(jié)構(gòu)化框架和模式識別學(xué)習(xí)最好（類似代碼推理）。研究表明，結(jié)合這兩種方法——但以適當(dāng)?shù)碾y度級別——可以產(chǎn)生最佳結(jié)果。

五、結(jié)論與啟示

這項研究對人工智能教育和訓(xùn)練策略有深遠(yuǎn)的啟示。就像人類教育中，我們不會給初學(xué)者最困難的問題，也不會讓高級學(xué)習(xí)者只做簡單練習(xí)一樣，AI訓(xùn)練也需要精心設(shè)計的學(xué)習(xí)材料。

研究表明，訓(xùn)練強(qiáng)大的AI推理系統(tǒng)的最佳策略是：提供困難的數(shù)學(xué)問題來培養(yǎng)深度邏輯思維能力，結(jié)合相對簡單但結(jié)構(gòu)清晰的編程任務(wù)來發(fā)展代碼生成技能。此外，鼓勵"探索性思維"——在找到答案后繼續(xù)探索替代方法——對培養(yǎng)全面的推理能力至關(guān)重要。

上海交通大學(xué)的這項研究不僅揭示了數(shù)據(jù)特征如何影響AI推理能力，還提供了實用的策略來優(yōu)化訓(xùn)練數(shù)據(jù)。這些發(fā)現(xiàn)為構(gòu)建更強(qiáng)大、更通用的AI推理系統(tǒng)鋪平了道路，也讓我們對AI如何"學(xué)習(xí)思考"有了更深入的理解。

對于未來的研究方向，團(tuán)隊指出了一些局限性，如他們在近似Hessian矩陣時僅考慮了MLP參數(shù)并將注意力視為固定，以簡化影響函數(shù)計算。此外，他們的分析僅限于數(shù)學(xué)和編程推理任務(wù)，將此框架擴(kuò)展到其他領(lǐng)域，如常識推理，仍是未來研究的開放方向。

總的來說，這項研究不僅在技術(shù)上取得了突破，還為我們理解和優(yōu)化AI學(xué)習(xí)過程提供了寶貴見解，就像理解人類如何學(xué)習(xí)和思考一樣重要。這為未來更智能、更適應(yīng)性強(qiáng)的AI系統(tǒng)開發(fā)提供了堅實基礎(chǔ)。

人工智能影響函數(shù)推理能力

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團(tuán)隊AudioStory突破性進(jìn)展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運動信息，顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團(tuán)隊AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團(tuán)隊AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<sup id="yduou"><rt id="yduou"></rt></sup>