這項(xiàng)由中國科學(xué)技術(shù)大學(xué)、中文大學(xué)(深圳)以及華為諾亞方舟實(shí)驗(yàn)室的劉萬龍、徐俊曉、余飛、林雨康等研究人員聯(lián)合完成的研究發(fā)表于2025年6月15日,論文編號為arXiv:2506.12860v1,有興趣深入了解的讀者可以通過GitHub鏈接https://github.com/LWL-cpu/Question-Free-Fine-Tuning訪問完整研究資料。
想象一個(gè)這樣的場景:你的朋友總是對任何問題都給出冗長復(fù)雜的回答,即使你只是問"今天幾點(diǎn)了",他也要從時(shí)間的物理概念開始解釋起。雖然這種詳細(xì)回答在復(fù)雜問題上很有幫助,但對于簡單問題來說實(shí)在太浪費(fèi)時(shí)間了。現(xiàn)在的人工智能推理模型就面臨著同樣的問題。
當(dāng)前最先進(jìn)的人工智能推理模型,比如OpenAI的o1和DeepSeek-R1,采用了所謂的"長思維鏈"推理方式。這就像是讓AI進(jìn)行深度思考,通過自我反思、錯(cuò)誤糾正和多種解決策略探索來解決復(fù)雜問題。這種方法在處理困難的數(shù)學(xué)題或編程問題時(shí)表現(xiàn)出色,但問題在于,即使面對簡單問題,這些模型也會產(chǎn)生不必要的復(fù)雜推理過程,就像用大炮打蚊子一樣。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:傳統(tǒng)的"短思維鏈"推理模式在簡單問題上既高效又準(zhǔn)確,而"長思維鏈"推理模式雖然在困難問題上表現(xiàn)更好,但會產(chǎn)生大量冗余的推理步驟。具體來說,對于那些短推理就能解決的簡單問題,長推理模式會產(chǎn)生高達(dá)74.8%的冗余內(nèi)容;而對于困難問題,短推理模式的準(zhǔn)確率會下降75.1%。
面對這種情況,研究團(tuán)隊(duì)提出了一個(gè)巧妙的解決方案,他們稱之為"問題自由微調(diào)"方法。這個(gè)方法的核心思想非常簡單卻很聰明:在訓(xùn)練AI模型時(shí),不給它看問題,只讓它學(xué)習(xí)推理過程本身。
這種做法就像教一個(gè)學(xué)生掌握解題技巧,但不告訴他具體要解什么題。當(dāng)學(xué)生遇到新問題時(shí),他會本能地先嘗試簡單直接的方法,只有當(dāng)遇到困難或發(fā)現(xiàn)錯(cuò)誤時(shí),才會啟動(dòng)更復(fù)雜的深度思考模式。
傳統(tǒng)的訓(xùn)練方法是讓AI學(xué)習(xí)"問題→長推理過程"的固定搭配,結(jié)果導(dǎo)致AI對任何問題都使用長推理,造成了所謂的"推理模式覆蓋"現(xiàn)象。而新方法避免了這種固定搭配的學(xué)習(xí),保留了AI原有的簡潔推理能力,同時(shí)又讓它掌握了深度反思的技巧。
研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的評估指標(biāo)來衡量AI的"自適應(yīng)推理能力"。他們引入了"推理適應(yīng)性科恩卡帕系數(shù)",這個(gè)指標(biāo)衡量的是AI選擇的推理模式與問題難度之間的匹配度。簡單來說,就是看AI是否足夠聰明,能在簡單問題上用簡單方法,在困難問題上用復(fù)雜方法。
為了驗(yàn)證這個(gè)假設(shè),研究團(tuán)隊(duì)進(jìn)行了一個(gè)很有意思的實(shí)驗(yàn)。他們在訓(xùn)練過程中逐漸增加包含問題的樣本比例,觀察AI的推理模式變化。結(jié)果發(fā)現(xiàn),即使只有0.1%的樣本包含問題,AI使用短推理的比例就從40.95%急劇下降到13.24%。這就像是一滴墨水落入清水中,很快就把整杯水染黑了。
新方法的工作原理可以從兩個(gè)角度來理解。從訓(xùn)練角度看,它相當(dāng)于一種特殊的"空問題監(jiān)督學(xué)習(xí)"。由于問題是空的,模型不會學(xué)習(xí)任何具體的問題到長推理的映射關(guān)系,因此保留了原有的短推理能力。從另一個(gè)角度看,它也可以看作是一種專門的"持續(xù)預(yù)訓(xùn)練",專門增強(qiáng)模型的長推理能力,包括反思推理能力。
在推理階段,這種方法讓AI默認(rèn)使用短推理模式。但是,由于模型已經(jīng)學(xué)會了在長推理情境下的反思行為,當(dāng)它在短推理過程中遇到不確定性或錯(cuò)誤時(shí),這種反思能力會自然遷移過來,促使模型轉(zhuǎn)向更仔細(xì)的長推理模式。
為了驗(yàn)證方法的有效性,研究團(tuán)隊(duì)在多個(gè)數(shù)學(xué)數(shù)據(jù)集上進(jìn)行了全面測試。他們使用了三個(gè)高質(zhì)量的蒸餾數(shù)據(jù)集:S1.1包含1000個(gè)精心策劃的問題,LIMO包含817個(gè)高質(zhì)量訓(xùn)練樣本,Bespoke-Stratos-17k包含17000個(gè)推理例子。所有這些數(shù)據(jù)集的回答都是從DeepSeek-R1模型中蒸餾而來,確保了訓(xùn)練數(shù)據(jù)的高質(zhì)量。
實(shí)驗(yàn)結(jié)果令人振奮。在保持與傳統(tǒng)方法相當(dāng)性能的同時(shí),新方法將平均回答長度減少了超過50%。更重要的是,推理適應(yīng)性科恩卡帕系數(shù)從傳統(tǒng)方法的1.8-8.8大幅提升到28.0-47.7,這意味著AI的自適應(yīng)推理能力得到了顯著改善。
研究團(tuán)隊(duì)還發(fā)現(xiàn),新方法在不同難度的數(shù)據(jù)集上表現(xiàn)出了不同程度的效率提升。在相對簡單的GSM8K和MATH數(shù)據(jù)集上,模型能夠更多地保留短推理模式,因此實(shí)現(xiàn)了更顯著的計(jì)算節(jié)省。而在更具挑戰(zhàn)性的AIME25數(shù)據(jù)集上,模型需要更多地依賴長推理模式,因此計(jì)算節(jié)省相對較少,但這正好證明了方法的自適應(yīng)性。
為了更深入地理解這種自適應(yīng)推理的工作機(jī)制,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的案例分析。他們發(fā)現(xiàn),新方法訓(xùn)練的模型在推理過程中展現(xiàn)出了四種主要的長推理行為模式。
第一種是"驗(yàn)證行為",模型會系統(tǒng)性地檢查中間結(jié)果。比如模型會說"讓我再次檢查一下",然后重新驗(yàn)證之前的計(jì)算步驟。第二種是"回溯行為",當(dāng)模型檢測到錯(cuò)誤時(shí),會明確地修改之前的步驟。第三種是"子目標(biāo)設(shè)定行為",模型會將復(fù)雜問題分解成多個(gè)可管理的子步驟。第四種是"反向鏈接行為",模型會從期望的結(jié)果出發(fā),反向推導(dǎo)解決方案。
特別值得注意的是,驗(yàn)證行為在所有難度級別上都是最常見的,平均占長推理行為的53%。這表明模型主要是在對之前的步驟感到不確定時(shí)才觸發(fā)長推理模式?;厮菪袨檎?6%,而且隨著問題難度的增加,回溯行為的比例也逐漸增加,這說明模型在更困難的問題上更頻繁地反思和更新自己的步驟。
研究團(tuán)隊(duì)還測試了新方法在幾個(gè)特殊場景下的表現(xiàn)。首先是"噪聲場景",模擬真實(shí)世界中訓(xùn)練數(shù)據(jù)質(zhì)量參差不齊的情況。他們設(shè)計(jì)了四個(gè)遞進(jìn)的噪聲級別:正常數(shù)據(jù)、錯(cuò)誤結(jié)論、不完整推理和完全不相關(guān)的答案。結(jié)果顯示,當(dāng)噪聲級別從第一級增加到第四級時(shí),傳統(tǒng)方法的性能從76.5%急劇下降到0.4%,幾乎完全失去了推理能力。而新方法即使在最嚴(yán)重的噪聲條件下仍能保持78.6%的性能,展現(xiàn)出了驚人的魯棒性。
在"域外場景"測試中,研究團(tuán)隊(duì)在GPQA和MMLU-Pro等非數(shù)學(xué)數(shù)據(jù)集上評估了模型的泛化能力。結(jié)果表明,新方法在這些完全不同的領(lǐng)域中都表現(xiàn)出了比傳統(tǒng)方法更好的性能。更有趣的是,在專門用于檢測模型幻覺的LLM-AggreFact基準(zhǔn)測試中,傳統(tǒng)方法訓(xùn)練的模型出現(xiàn)了明顯的性能下降,特別是7B規(guī)模的模型,而新方法訓(xùn)練的模型甚至略微提升了基準(zhǔn)性能,說明它不會加劇幻覺風(fēng)險(xiǎn)。
在"低資源場景"中,研究團(tuán)隊(duì)模擬了高質(zhì)量數(shù)據(jù)稀缺的情況。他們從S1.1數(shù)據(jù)集中隨機(jī)選擇了10個(gè)數(shù)據(jù)點(diǎn),每個(gè)數(shù)據(jù)點(diǎn)用DeepSeek-R1蒸餾出10個(gè)回答,總共100個(gè)訓(xùn)練實(shí)例。在這種極端稀缺的數(shù)據(jù)條件下,新方法始終優(yōu)于傳統(tǒng)方法。傳統(tǒng)方法主要依賴長推理模式,但由于訓(xùn)練數(shù)據(jù)不足,這些模式?jīng)]有得到充分內(nèi)化,導(dǎo)致整體性能有限。而新方法不僅保留了原有的短推理模式,還能在需要時(shí)適應(yīng)性地使用長推理,因此在低資源場景下表現(xiàn)更好。
研究團(tuán)隊(duì)還將新方法與其他"長變短"方法進(jìn)行了比較。這些方法包括SFT-Shortest(直接在最短正確回答上進(jìn)行監(jiān)督微調(diào))、DPO-Shortest和SimPO-Shortest(使用偏好優(yōu)化選擇短回答)、以及O1-Pruner(使用強(qiáng)化學(xué)習(xí)減少推理長度)。比較結(jié)果顯示,雖然一些方法能實(shí)現(xiàn)更大的長度減少,但往往以顯著的性能下降為代價(jià)。新方法在效率和性能之間實(shí)現(xiàn)了更好的平衡,在Accuracy-Efficiency Score這個(gè)綜合指標(biāo)上表現(xiàn)最佳。
為了驗(yàn)證方法的通用性,研究團(tuán)隊(duì)還在不同的模型架構(gòu)上進(jìn)行了測試。除了Qwen架構(gòu),他們還在Phi4-mini-Instruct上驗(yàn)證了方法的有效性。結(jié)果表明,新方法在不同架構(gòu)上都能顯著提升推理適應(yīng)性,同時(shí)保持相當(dāng)?shù)恼w性能,說明這種方法不受特定模型架構(gòu)的限制。
從更深層次來看,這項(xiàng)研究揭示了一個(gè)重要的訓(xùn)練原理:新方法的獨(dú)特優(yōu)勢在于它能夠在不覆蓋模型默認(rèn)模式的前提下注入新的推理模式。傳統(tǒng)的監(jiān)督微調(diào)通常會覆蓋默認(rèn)模式,而新方法能夠?qū)崿F(xiàn)多種模式的無縫集成和自適應(yīng)觸發(fā)。
研究團(tuán)隊(duì)認(rèn)為,這種方法的應(yīng)用前景非常廣闊。未來他們計(jì)劃探索注入更多專門化的推理模式,比如面向工具的模式(如API調(diào)用模式、代碼模式)或者為特定任務(wù)定制的模式。這將進(jìn)一步增強(qiáng)模型的靈活性和適應(yīng)性,為高級模式集成和利用開辟新的途徑。
當(dāng)然,這項(xiàng)研究也有一些局限性。新方法雖然能夠有效地平衡短推理和長推理,但并不能有效優(yōu)化長推理本身的效率。因此,在一些極具挑戰(zhàn)性的問題上,比如AIME24和AIME25這樣的高難度數(shù)學(xué)競賽題目,過度思考的問題仍然存在。為了解決這個(gè)問題,研究團(tuán)隊(duì)進(jìn)一步探索了將新方法與各種"長變短"方法相結(jié)合的可能性,初步結(jié)果顯示這種組合能夠進(jìn)一步提升長推理的效率。
說到底,這項(xiàng)研究為我們提供了一個(gè)全新的思路來訓(xùn)練更智能的AI系統(tǒng)。與其讓AI對所有問題都用同一種方法,不如教會它根據(jù)問題的難易程度自動(dòng)選擇最合適的推理策略。這不僅能大大提高計(jì)算效率,還能讓AI的行為更接近人類的思維方式——簡單問題快速解決,復(fù)雜問題深入思考。
歸根結(jié)底,這種"問題自由微調(diào)"方法就像是給AI裝上了一個(gè)智能的"思維開關(guān)",讓它知道什么時(shí)候該快速行動(dòng),什么時(shí)候該慢慢思考。在AI技術(shù)日益普及的今天,這種既保證效果又節(jié)省資源的方法顯然具有重要的實(shí)用價(jià)值。對于普通用戶來說,這意味著未來的AI助手將變得更加智能和高效,既能快速回答簡單問題,又能深入分析復(fù)雜問題,而且還不會浪費(fèi)不必要的計(jì)算資源。
Q&A
Q1:什么是"問題自由微調(diào)"方法?它是如何工作的? A:問題自由微調(diào)是一種新的AI訓(xùn)練方法,在訓(xùn)練時(shí)不給AI看具體問題,只讓它學(xué)習(xí)推理過程。這樣AI就能保持原有的簡潔推理能力,同時(shí)學(xué)會在遇到困難時(shí)啟動(dòng)深度思考模式,就像教學(xué)生掌握解題技巧但不限定具體題目類型。
Q2:這種方法會不會降低AI的準(zhǔn)確性? A:不會。實(shí)驗(yàn)結(jié)果顯示,新方法在保持與傳統(tǒng)方法相當(dāng)準(zhǔn)確性的同時(shí),將平均回答長度減少了超過50%。更重要的是,它讓AI變得更加智能,能夠根據(jù)問題難度自動(dòng)選擇合適的推理策略。
Q3:普通用戶能否體驗(yàn)到這種技術(shù)帶來的改進(jìn)? A:目前這項(xiàng)研究已經(jīng)開源,研究代碼可在GitHub上獲取。雖然還需要時(shí)間才能廣泛應(yīng)用到消費(fèi)級產(chǎn)品中,但它為未來開發(fā)更智能、更高效的AI助手奠定了基礎(chǔ),最終用戶將體驗(yàn)到更快速、更節(jié)能的AI服務(wù)。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。