av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計(jì)算的「力量」

問題解決的智慧新招：中文大學(xué)團(tuán)隊(duì)用"免問"方法讓AI推理更聰明更省錢

人工智能自適應(yīng)推理模型優(yōu)化

問題解決的智慧新招：中文大學(xué)團(tuán)隊(duì)用"免問"方法讓AI推理更聰明更省錢

作者：科技行者

2025-06-24 10:12

分享至：

中文大學(xué)等機(jī)構(gòu)聯(lián)合研究提出"問題自由微調(diào)"方法，解決AI推理模型在簡單問題上過度思考的問題。該方法訓(xùn)練時(shí)移除問題輸入，僅學(xué)習(xí)推理過程，使AI能自適應(yīng)選擇短推理或長推理模式。實(shí)驗(yàn)顯示該方法在保持性能的同時(shí)將回答長度減少50%以上，在噪聲、跨域和低資源場景中表現(xiàn)優(yōu)異。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-24 10:12 ? 科技行者

這項(xiàng)由中國科學(xué)技術(shù)大學(xué)、中文大學(xué)（深圳）以及華為諾亞方舟實(shí)驗(yàn)室的劉萬龍、徐俊曉、余飛、林雨康等研究人員聯(lián)合完成的研究發(fā)表于2025年6月15日，論文編號為arXiv:2506.12860v1，有興趣深入了解的讀者可以通過GitHub鏈接https://github.com/LWL-cpu/Question-Free-Fine-Tuning訪問完整研究資料。

想象一個(gè)這樣的場景：你的朋友總是對任何問題都給出冗長復(fù)雜的回答，即使你只是問"今天幾點(diǎn)了"，他也要從時(shí)間的物理概念開始解釋起。雖然這種詳細(xì)回答在復(fù)雜問題上很有幫助，但對于簡單問題來說實(shí)在太浪費(fèi)時(shí)間了。現(xiàn)在的人工智能推理模型就面臨著同樣的問題。

當(dāng)前最先進(jìn)的人工智能推理模型，比如OpenAI的o1和DeepSeek-R1，采用了所謂的"長思維鏈"推理方式。這就像是讓AI進(jìn)行深度思考，通過自我反思、錯(cuò)誤糾正和多種解決策略探索來解決復(fù)雜問題。這種方法在處理困難的數(shù)學(xué)題或編程問題時(shí)表現(xiàn)出色，但問題在于，即使面對簡單問題，這些模型也會產(chǎn)生不必要的復(fù)雜推理過程，就像用大炮打蚊子一樣。

研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：傳統(tǒng)的"短思維鏈"推理模式在簡單問題上既高效又準(zhǔn)確，而"長思維鏈"推理模式雖然在困難問題上表現(xiàn)更好，但會產(chǎn)生大量冗余的推理步驟。具體來說，對于那些短推理就能解決的簡單問題，長推理模式會產(chǎn)生高達(dá)74.8%的冗余內(nèi)容；而對于困難問題，短推理模式的準(zhǔn)確率會下降75.1%。

面對這種情況，研究團(tuán)隊(duì)提出了一個(gè)巧妙的解決方案，他們稱之為"問題自由微調(diào)"方法。這個(gè)方法的核心思想非常簡單卻很聰明：在訓(xùn)練AI模型時(shí)，不給它看問題，只讓它學(xué)習(xí)推理過程本身。

這種做法就像教一個(gè)學(xué)生掌握解題技巧，但不告訴他具體要解什么題。當(dāng)學(xué)生遇到新問題時(shí)，他會本能地先嘗試簡單直接的方法，只有當(dāng)遇到困難或發(fā)現(xiàn)錯(cuò)誤時(shí)，才會啟動(dòng)更復(fù)雜的深度思考模式。

傳統(tǒng)的訓(xùn)練方法是讓AI學(xué)習(xí)"問題→長推理過程"的固定搭配，結(jié)果導(dǎo)致AI對任何問題都使用長推理，造成了所謂的"推理模式覆蓋"現(xiàn)象。而新方法避免了這種固定搭配的學(xué)習(xí)，保留了AI原有的簡潔推理能力，同時(shí)又讓它掌握了深度反思的技巧。

研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的評估指標(biāo)來衡量AI的"自適應(yīng)推理能力"。他們引入了"推理適應(yīng)性科恩卡帕系數(shù)"，這個(gè)指標(biāo)衡量的是AI選擇的推理模式與問題難度之間的匹配度。簡單來說，就是看AI是否足夠聰明，能在簡單問題上用簡單方法，在困難問題上用復(fù)雜方法。

為了驗(yàn)證這個(gè)假設(shè)，研究團(tuán)隊(duì)進(jìn)行了一個(gè)很有意思的實(shí)驗(yàn)。他們在訓(xùn)練過程中逐漸增加包含問題的樣本比例，觀察AI的推理模式變化。結(jié)果發(fā)現(xiàn)，即使只有0.1%的樣本包含問題，AI使用短推理的比例就從40.95%急劇下降到13.24%。這就像是一滴墨水落入清水中，很快就把整杯水染黑了。

新方法的工作原理可以從兩個(gè)角度來理解。從訓(xùn)練角度看，它相當(dāng)于一種特殊的"空問題監(jiān)督學(xué)習(xí)"。由于問題是空的，模型不會學(xué)習(xí)任何具體的問題到長推理的映射關(guān)系，因此保留了原有的短推理能力。從另一個(gè)角度看，它也可以看作是一種專門的"持續(xù)預(yù)訓(xùn)練"，專門增強(qiáng)模型的長推理能力，包括反思推理能力。

在推理階段，這種方法讓AI默認(rèn)使用短推理模式。但是，由于模型已經(jīng)學(xué)會了在長推理情境下的反思行為，當(dāng)它在短推理過程中遇到不確定性或錯(cuò)誤時(shí)，這種反思能力會自然遷移過來，促使模型轉(zhuǎn)向更仔細(xì)的長推理模式。

為了驗(yàn)證方法的有效性，研究團(tuán)隊(duì)在多個(gè)數(shù)學(xué)數(shù)據(jù)集上進(jìn)行了全面測試。他們使用了三個(gè)高質(zhì)量的蒸餾數(shù)據(jù)集：S1.1包含1000個(gè)精心策劃的問題，LIMO包含817個(gè)高質(zhì)量訓(xùn)練樣本，Bespoke-Stratos-17k包含17000個(gè)推理例子。所有這些數(shù)據(jù)集的回答都是從DeepSeek-R1模型中蒸餾而來，確保了訓(xùn)練數(shù)據(jù)的高質(zhì)量。

實(shí)驗(yàn)結(jié)果令人振奮。在保持與傳統(tǒng)方法相當(dāng)性能的同時(shí)，新方法將平均回答長度減少了超過50%。更重要的是，推理適應(yīng)性科恩卡帕系數(shù)從傳統(tǒng)方法的1.8-8.8大幅提升到28.0-47.7，這意味著AI的自適應(yīng)推理能力得到了顯著改善。

研究團(tuán)隊(duì)還發(fā)現(xiàn)，新方法在不同難度的數(shù)據(jù)集上表現(xiàn)出了不同程度的效率提升。在相對簡單的GSM8K和MATH數(shù)據(jù)集上，模型能夠更多地保留短推理模式，因此實(shí)現(xiàn)了更顯著的計(jì)算節(jié)省。而在更具挑戰(zhàn)性的AIME25數(shù)據(jù)集上，模型需要更多地依賴長推理模式，因此計(jì)算節(jié)省相對較少，但這正好證明了方法的自適應(yīng)性。

為了更深入地理解這種自適應(yīng)推理的工作機(jī)制，研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的案例分析。他們發(fā)現(xiàn)，新方法訓(xùn)練的模型在推理過程中展現(xiàn)出了四種主要的長推理行為模式。

第一種是"驗(yàn)證行為"，模型會系統(tǒng)性地檢查中間結(jié)果。比如模型會說"讓我再次檢查一下"，然后重新驗(yàn)證之前的計(jì)算步驟。第二種是"回溯行為"，當(dāng)模型檢測到錯(cuò)誤時(shí)，會明確地修改之前的步驟。第三種是"子目標(biāo)設(shè)定行為"，模型會將復(fù)雜問題分解成多個(gè)可管理的子步驟。第四種是"反向鏈接行為"，模型會從期望的結(jié)果出發(fā)，反向推導(dǎo)解決方案。

特別值得注意的是，驗(yàn)證行為在所有難度級別上都是最常見的，平均占長推理行為的53%。這表明模型主要是在對之前的步驟感到不確定時(shí)才觸發(fā)長推理模式?；厮菪袨檎?6%，而且隨著問題難度的增加，回溯行為的比例也逐漸增加，這說明模型在更困難的問題上更頻繁地反思和更新自己的步驟。

研究團(tuán)隊(duì)還測試了新方法在幾個(gè)特殊場景下的表現(xiàn)。首先是"噪聲場景"，模擬真實(shí)世界中訓(xùn)練數(shù)據(jù)質(zhì)量參差不齊的情況。他們設(shè)計(jì)了四個(gè)遞進(jìn)的噪聲級別：正常數(shù)據(jù)、錯(cuò)誤結(jié)論、不完整推理和完全不相關(guān)的答案。結(jié)果顯示，當(dāng)噪聲級別從第一級增加到第四級時(shí)，傳統(tǒng)方法的性能從76.5%急劇下降到0.4%，幾乎完全失去了推理能力。而新方法即使在最嚴(yán)重的噪聲條件下仍能保持78.6%的性能，展現(xiàn)出了驚人的魯棒性。

在"域外場景"測試中，研究團(tuán)隊(duì)在GPQA和MMLU-Pro等非數(shù)學(xué)數(shù)據(jù)集上評估了模型的泛化能力。結(jié)果表明，新方法在這些完全不同的領(lǐng)域中都表現(xiàn)出了比傳統(tǒng)方法更好的性能。更有趣的是，在專門用于檢測模型幻覺的LLM-AggreFact基準(zhǔn)測試中，傳統(tǒng)方法訓(xùn)練的模型出現(xiàn)了明顯的性能下降，特別是7B規(guī)模的模型，而新方法訓(xùn)練的模型甚至略微提升了基準(zhǔn)性能，說明它不會加劇幻覺風(fēng)險(xiǎn)。

在"低資源場景"中，研究團(tuán)隊(duì)模擬了高質(zhì)量數(shù)據(jù)稀缺的情況。他們從S1.1數(shù)據(jù)集中隨機(jī)選擇了10個(gè)數(shù)據(jù)點(diǎn)，每個(gè)數(shù)據(jù)點(diǎn)用DeepSeek-R1蒸餾出10個(gè)回答，總共100個(gè)訓(xùn)練實(shí)例。在這種極端稀缺的數(shù)據(jù)條件下，新方法始終優(yōu)于傳統(tǒng)方法。傳統(tǒng)方法主要依賴長推理模式，但由于訓(xùn)練數(shù)據(jù)不足，這些模式?jīng)]有得到充分內(nèi)化，導(dǎo)致整體性能有限。而新方法不僅保留了原有的短推理模式，還能在需要時(shí)適應(yīng)性地使用長推理，因此在低資源場景下表現(xiàn)更好。

研究團(tuán)隊(duì)還將新方法與其他"長變短"方法進(jìn)行了比較。這些方法包括SFT-Shortest（直接在最短正確回答上進(jìn)行監(jiān)督微調(diào)）、DPO-Shortest和SimPO-Shortest（使用偏好優(yōu)化選擇短回答）、以及O1-Pruner（使用強(qiáng)化學(xué)習(xí)減少推理長度）。比較結(jié)果顯示，雖然一些方法能實(shí)現(xiàn)更大的長度減少，但往往以顯著的性能下降為代價(jià)。新方法在效率和性能之間實(shí)現(xiàn)了更好的平衡，在Accuracy-Efficiency Score這個(gè)綜合指標(biāo)上表現(xiàn)最佳。

為了驗(yàn)證方法的通用性，研究團(tuán)隊(duì)還在不同的模型架構(gòu)上進(jìn)行了測試。除了Qwen架構(gòu)，他們還在Phi4-mini-Instruct上驗(yàn)證了方法的有效性。結(jié)果表明，新方法在不同架構(gòu)上都能顯著提升推理適應(yīng)性，同時(shí)保持相當(dāng)?shù)恼w性能，說明這種方法不受特定模型架構(gòu)的限制。

從更深層次來看，這項(xiàng)研究揭示了一個(gè)重要的訓(xùn)練原理：新方法的獨(dú)特優(yōu)勢在于它能夠在不覆蓋模型默認(rèn)模式的前提下注入新的推理模式。傳統(tǒng)的監(jiān)督微調(diào)通常會覆蓋默認(rèn)模式，而新方法能夠?qū)崿F(xiàn)多種模式的無縫集成和自適應(yīng)觸發(fā)。

研究團(tuán)隊(duì)認(rèn)為，這種方法的應(yīng)用前景非常廣闊。未來他們計(jì)劃探索注入更多專門化的推理模式，比如面向工具的模式（如API調(diào)用模式、代碼模式）或者為特定任務(wù)定制的模式。這將進(jìn)一步增強(qiáng)模型的靈活性和適應(yīng)性，為高級模式集成和利用開辟新的途徑。

當(dāng)然，這項(xiàng)研究也有一些局限性。新方法雖然能夠有效地平衡短推理和長推理，但并不能有效優(yōu)化長推理本身的效率。因此，在一些極具挑戰(zhàn)性的問題上，比如AIME24和AIME25這樣的高難度數(shù)學(xué)競賽題目，過度思考的問題仍然存在。為了解決這個(gè)問題，研究團(tuán)隊(duì)進(jìn)一步探索了將新方法與各種"長變短"方法相結(jié)合的可能性，初步結(jié)果顯示這種組合能夠進(jìn)一步提升長推理的效率。

說到底，這項(xiàng)研究為我們提供了一個(gè)全新的思路來訓(xùn)練更智能的AI系統(tǒng)。與其讓AI對所有問題都用同一種方法，不如教會它根據(jù)問題的難易程度自動(dòng)選擇最合適的推理策略。這不僅能大大提高計(jì)算效率，還能讓AI的行為更接近人類的思維方式——簡單問題快速解決，復(fù)雜問題深入思考。

歸根結(jié)底，這種"問題自由微調(diào)"方法就像是給AI裝上了一個(gè)智能的"思維開關(guān)"，讓它知道什么時(shí)候該快速行動(dòng)，什么時(shí)候該慢慢思考。在AI技術(shù)日益普及的今天，這種既保證效果又節(jié)省資源的方法顯然具有重要的實(shí)用價(jià)值。對于普通用戶來說，這意味著未來的AI助手將變得更加智能和高效，既能快速回答簡單問題，又能深入分析復(fù)雜問題，而且還不會浪費(fèi)不必要的計(jì)算資源。

Q&A

Q1：什么是"問題自由微調(diào)"方法？它是如何工作的？ A：問題自由微調(diào)是一種新的AI訓(xùn)練方法，在訓(xùn)練時(shí)不給AI看具體問題，只讓它學(xué)習(xí)推理過程。這樣AI就能保持原有的簡潔推理能力，同時(shí)學(xué)會在遇到困難時(shí)啟動(dòng)深度思考模式，就像教學(xué)生掌握解題技巧但不限定具體題目類型。

Q2：這種方法會不會降低AI的準(zhǔn)確性？ A：不會。實(shí)驗(yàn)結(jié)果顯示，新方法在保持與傳統(tǒng)方法相當(dāng)準(zhǔn)確性的同時(shí)，將平均回答長度減少了超過50%。更重要的是，它讓AI變得更加智能，能夠根據(jù)問題難度自動(dòng)選擇合適的推理策略。

Q3：普通用戶能否體驗(yàn)到這種技術(shù)帶來的改進(jìn)？ A：目前這項(xiàng)研究已經(jīng)開源，研究代碼可在GitHub上獲取。雖然還需要時(shí)間才能廣泛應(yīng)用到消費(fèi)級產(chǎn)品中，但它為未來開發(fā)更智能、更高效的AI助手奠定了基礎(chǔ)，最終用戶將體驗(yàn)到更快速、更節(jié)能的AI服務(wù)。

人工智能自適應(yīng)推理模型優(yōu)化

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

自對弈訓(xùn)練
推理能力提升
零和游戲?qū)W習(xí)

2025-07-02 14:26

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架，通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示，僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%，通用推理提升8.4%，且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中，為AI訓(xùn)練提供了新思路。
計(jì)算機(jī)視覺
圖像降噪
3D相機(jī)技術(shù)

2025-07-02 14:26

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息，創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系，結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法，在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升，并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力，為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
人工智能
視覺語言模型
強(qiáng)化學(xué)習(xí)

2025-07-02 14:26

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn)，經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象，但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距"，即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力，且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息，為AI多模態(tài)推理發(fā)展提供了重要啟示。
大語言模型
稀疏性訓(xùn)練
計(jì)算效率優(yōu)化

2025-07-02 14:25

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會大模型新技能

MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù)，通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍，計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分，在保持模型性能的同時(shí)顯著提升訓(xùn)練效率，已在多個(gè)任務(wù)上驗(yàn)證有效性。

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

2025-07-02 14:26

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

2025-07-02 14:26

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

2025-07-02 14:26

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會大模型新技能

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會大模型新技能

2025-07-02 14:25

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn