這篇由浙江大學的張勝佳、陳家威、周勝、王燦以及OPPO研究院的吳俊杰、張常旺、婁星宇、周王春舒、王俊等研究人員共同完成的研究成果,發(fā)表于2025年6月3日的arXiv預印本平臺(arXiv:2506.02397v1),探討了大型推理模型中的一個關鍵問題:如何讓AI在思考時能夠像人類一樣靈活地在快速直覺思維和慢速深度推理之間自動切換。
人類的思維過程通常分為兩種模式:系統(tǒng)1(快速、直覺式思維)和系統(tǒng)2(慢速、深度推理思維)。當我們面對簡單問題時,會自動啟用快速思維;而遇到復雜問題時,則會切換到慢速、分析性思維。研究團隊發(fā)現(xiàn),目前的大型推理模型(LRMs)如DeepSeek-R1和OpenAI的o1模型雖然在復雜推理任務上表現(xiàn)出色,但它們存在一個明顯問題:即使面對簡單任務,這些模型也常常使用復雜的思維鏈(Chain-of-Thought,CoT)推理,生成大量不必要的文本,導致計算資源的浪費。
想象一下,如果你去餐廳點一杯水,服務員不是直接去倒水,而是先詳細思考水的分子結構、水杯的材質、倒水的角度、水溫的控制等一系列問題,然后才給你端來一杯水。這顯然是不必要的"過度思考"。研究團隊的數(shù)據(jù)顯示,在同樣能正確解決的問題上,大型推理模型比普通語言模型(如Qwen2.5系列)平均多生成9.78倍的文本量!
為了解決這一問題,研究團隊提出了一種名為"OThink-R1"的方法,讓AI能夠根據(jù)問題的復雜程度自動切換思考模式。簡單來說,這就像教會AI一項人類與生俱來的能力:對于"1+1等于幾"這樣的簡單問題直接給出答案,而對于"如何證明費馬大定理"這樣的復雜問題才展開詳細推理。
研究團隊首先系統(tǒng)分析了大型推理模型的推理軌跡,識別出了兩類典型模式:一類是"冗余推理",包括多解探索(即使已經得到正確答案仍繼續(xù)尋找其他解法)、重復自我驗證(過度檢查中間步驟)、防御性假設(過于謹慎地考慮各種可能性);另一類是"必要推理",包括關鍵詞識別(提取問題的核心元素)、誤解預防(消除問題陳述中的歧義)、前提遺漏避免(確??紤]所有給定條件)。
基于這些發(fā)現(xiàn),他們構建了一個"LLM評判員"(使用GPT-4o實現(xiàn)),用于判斷模型的推理是否冗余。然后,他們通過有監(jiān)督微調(SFT)訓練模型,使其在簡單問題上直接給出答案(快速思維模式),而在復雜問題上展開詳細推理(慢速思維模式)。關鍵創(chuàng)新在于,他們提出了一種"雙參考KL散度損失函數(shù)",同時引導模型學習兩種思維模式的輸出分布,實現(xiàn)動態(tài)切換能力。
實驗結果令人振奮。在OpenBookQA、CommonsenseQA、ASDIV和GSM8K四個測試數(shù)據(jù)集上,OThink-R1在保持或提高準確率的同時,平均減少了23.4%的生成文本量。詳細分析顯示,該模型在超過27.3%的問題上成功采用了快速思維模式,證明了其自動模式切換的能力。
讓我們思考一下這項研究的實際意義。首先,它大大提高了AI系統(tǒng)的效率,減少了計算資源消耗和環(huán)境影響。其次,它使AI的推理過程更接近人類的自然思維方式,為構建更人性化的AI系統(tǒng)邁出了重要一步。最重要的是,這種方法證明了AI系統(tǒng)不必總是"過度思考",而可以像人類一樣靈活地調整思維深度,這對于未來開發(fā)更高效、更自然的AI系統(tǒng)具有重要啟示。
如果你有興趣深入了解這項研究,完整論文已在GitHub上開源,可通過https://github.com/AgenticIR-Lab/OThink-R1獲取。
過度思考的陷阱:AI也會"想太多"
想象一下,當你問朋友"如果有人在做早餐,他們可能會把兩片面包放在哪里?"這個簡單問題時,朋友不是直接回答"烤面包機",而是開始長篇大論分析面包可能放在廚房櫥柜、塑料袋、超市或者監(jiān)獄里的可能性,最后才告訴你答案。這就是"過度思考"——即使對簡單問題也使用復雜推理的現(xiàn)象。
研究團隊發(fā)現(xiàn),現(xiàn)代大型推理模型(LRMs)經常陷入這種過度思考的陷阱。他們對比了DeepSeek-R1-Distill-Qwen系列模型與普通的Qwen2.5-Instruct系列模型的表現(xiàn),結果顯示在四個測試數(shù)據(jù)集上,兩類模型有相當大比例的問題都能正確回答(從34.98%到90.10%不等),但令人驚訝的是,推理模型平均生成的文本量是普通模型的9.78倍!
想象一下,如果你雇傭了兩位助手完成同樣的工作,一位只需10分鐘,另一位卻要花98分鐘,而最終結果相同。很明顯,這種效率差異在實際應用中是不可接受的,尤其是在考慮計算資源消耗、響應時間和經濟成本的情況下。
這種現(xiàn)象引發(fā)了研究團隊的思考:難道所有問題都需要復雜的推理過程嗎?人類在面對不同復雜度的問題時,會自然地切換思維模式——簡單問題快速直覺回答,復雜問題才會展開分析思考。那么,能否讓AI也具備這種靈活性呢?
解讀AI的思考模式:冗余與必要
為了解決這個問題,研究團隊首先需要理解AI"思考"的本質。他們詳細分析了大型推理模型的推理軌跡,發(fā)現(xiàn)了兩種典型的思考模式。
第一種是"冗余推理",就像一個過度焦慮的學生,即使已經解出答案,還是反復檢查、嘗試其他解法、考慮各種可能性。具體來說,冗余推理主要表現(xiàn)為三種形式:
首先是"多解探索"。想象一個學生解決了一道數(shù)學題后,不滿足于已有的正確解法,非要嘗試另外兩三種方法來驗證。例如,在一個關于蘋果數(shù)量的問題中,模型先正確計算出"瑪莎有68個蘋果,蒂姆比她少30個,所以有38個,哈里有蒂姆的一半,即19個",但隨后卻繼續(xù)說"讓我們用另一種方法嘗試"、"或者,我們可以用圖表來可視化"等等,這些額外的探索并不增加答案的準確性,只是浪費計算資源。
其次是"重復自我驗證"。這就像一個反復檢查自己鎖門的人,雖然已經確認門鎖好了,卻還是要再三確認。例如,在解決一個關于閱讀速度的問題后,模型會說"我想我已經驗證了足夠多次。所以,答案是5小時。但為了避免混淆速率和時間概念,讓我再次概括一下...",這種過度的自我驗證是不必要的。
最后是"防御性假設"。這就像一個過度謹慎的人,總是假設最壞的情況。例如,在一個關于茶葉用量的問題中,模型會說"或者,也許她是在問需要添加多少茶葉,而不是總共需要多少茶?",盡管問題已經明確表述。
相比之下,"必要推理"則是高效解決問題的關鍵。研究團隊識別出三種必要的推理原則:
"關鍵詞識別"原則關注問題的核心要素。就像一個優(yōu)秀的閱讀者會迅速抓住文章的關鍵信息,模型需要識別問題中的關鍵詞和核心要素。例如,在"如果5少于20個啼叫聲每分鐘從谷倉傳出,這噪音來自多少只谷倉貓頭鷹?"這個問題中,模型需要正確理解"5少于20"和"一只谷倉貓頭鷹每分鐘發(fā)出5次啼叫"這兩個關鍵信息。
"誤解預防"原則確保對問題的準確理解。這就像在聽指令時確保自己不會誤解對方的意思。例如,當問題要求計算"溫度下降了多少"時,模型需要明確這是在問溫度變化量,而不是最終溫度。
"前提遺漏避免"原則確??紤]問題的所有條件。就像做菜時不能遺漏任何關鍵食材,解決問題時也不能遺漏任何前提條件。例如,在一個關于洗衣機限重的問題中,模型需要記住每種衣物的重量和洗滌的所有物品。
理解了這些思考模式后,研究團隊提出了一個關鍵問題:能否訓練AI自動識別何時需要深度思考,何時可以直接給出答案?
OThink-R1:教會AI靈活思考
基于對AI思考模式的理解,研究團隊開發(fā)了OThink-R1系統(tǒng),旨在讓AI像人類一樣靈活切換思考模式。這個系統(tǒng)的工作原理可以比作教會一個學生何時需要展示完整的解題過程,何時可以直接給出答案。
整個系統(tǒng)分為兩個關鍵步驟:首先是構建訓練數(shù)據(jù)集,然后是訓練模型進行動態(tài)模式切換。
在第一步中,研究團隊使用了一個巧妙的方法來判斷哪些推理是冗余的,哪些是必要的。他們首先收集了大型推理模型的回答,然后使用另一個語言模型(稱為"LLM評判員",由GPT-4o實現(xiàn))來評估這些回答。評判標準基于前面提到的冗余推理和必要推理特征。
簡單來說,如果一個問題同時滿足兩個條件:1)普通語言模型能夠正確回答;2)大型推理模型的推理被判斷為冗余,那么這個問題就被標記為"可以使用快速思維"。研究團隊將這些問題的推理部分(位于標簽內的內容)刪除,只保留最終答案,用于訓練模型的快速思維模式。
對于其他問題,特別是那些普通語言模型無法正確回答的問題,研究團隊保留完整的推理過程,用于訓練模型的慢速思維模式。
在第二步中,研究團隊提出了一種新穎的訓練方法,使用"雙參考KL散度損失函數(shù)"來訓練模型。這個函數(shù)有點像同時請兩位老師指導學生:一位專注于教授深度思考技巧,另一位專注于教授快速直覺反應。通過這種方式,模型學會了在不同場景下靈活切換思考模式。
具體來說,這個損失函數(shù)由三部分組成:一部分是標準的監(jiān)督學習目標(讓模型學會正確回答問題),另外兩部分是KL散度約束,分別引導模型學習大型推理模型的慢速思維輸出分布和普通語言模型的快速思維輸出分布。通過調整超參數(shù)β1和β2,研究團隊可以控制模型對兩種思維模式的偏好程度。
這種訓練方法的獨特之處在于,它不是簡單地讓模型統(tǒng)一采用某種壓縮的推理模式,而是賦予模型根據(jù)問題復雜度動態(tài)調整思考深度的能力。就像一個聰明的學生,簡單的加減法題直接寫答案,復雜的微積分題才展示詳細步驟。
實驗結果:靈活思考的效果如何?
那么,這種靈活思考的方法效果如何呢?研究團隊在四個代表性數(shù)據(jù)集上進行了實驗:OpenBookQA和CommonsenseQA用于測試問答能力,ASDIV和GSM8K用于測試數(shù)學推理能力。
實驗結果令人振奮。在所有測試數(shù)據(jù)集上,OThink-R1在保持或提高準確率的同時,平均減少了23.4%的生成文本量。具體來看:
在OpenBookQA數(shù)據(jù)集上,OThink-R1-14B模型的準確率達到93.4%,比基線模型的92.8%還高,同時生成的文本量減少了19.3%。
在CommonsenseQA數(shù)據(jù)集上,OThink-R1-14B模型的準確率從81.7%微增至81.8%,同時生成的文本量減少了23.6%。
在ASDIV數(shù)據(jù)集上,OThink-R1-7B模型的準確率從97.0%提高到98.0%,同時生成的文本量減少了23.3%。
在GSM8K數(shù)據(jù)集上,OThink-R1-7B模型的準確率從86.1%提高到86.7%,同時生成的文本量減少了32.1%。
這些結果清楚地表明,OThink-R1成功實現(xiàn)了效率與準確性的雙贏。研究團隊進一步分析發(fā)現(xiàn),模型在平均27.3%的測試問題上采用了快速思維模式,這也驗證了模型確實學會了根據(jù)問題復雜度動態(tài)切換思考模式。
對比其他方法,如NoThinking(完全跳過推理過程)和DualFormer(隨機刪除中間推理步驟),OThink-R1表現(xiàn)出明顯優(yōu)勢。NoThinking雖然生成的文本量最少,但準確率大幅下降;DualFormer雖然在某些情況下減少了文本量,但效果不穩(wěn)定,有時甚至增加了文本量。只有OThink-R1實現(xiàn)了穩(wěn)定的效率提升,同時保持或提高了準確率。
為了驗證系統(tǒng)各組件的必要性,研究團隊還進行了消融實驗。結果表明,移除LLM評判員(盲目刪除推理軌跡)或雙參考KL散度約束都會導致性能下降,證明這些組件對于系統(tǒng)的成功至關重要。
案例分析:從混亂思考到清晰回答
為了更直觀地理解OThink-R1的工作原理,讓我們看一個具體例子。在CommonsenseQA數(shù)據(jù)集中,有一個問題是:"如果有人在做早餐,他們可能會把兩片面包放在哪里?(A)塑料袋;(B)食品柜;(C)超市;(D)烤面包機;(E)監(jiān)獄"
原始的DeepSeek-R1-Distill-Qwen-7B模型給出了長達675個標記的回答,其中包含詳細的推理過程:首先考慮選項B(食品柜),認為這是存放早餐食品的常見地方;然后考慮選項D(烤面包機),但糾結于問題是問"他們把面包放在哪里"而不是"他們用什么來使用面包",最終選擇了B(食品柜)作為答案。
而OThink-R1-7B模型則直接給出了簡潔的57個標記的回答:"正確答案是:(D)烤面包機。解釋:當有人在做早餐時,他們通常會用烤面包機烤面包。烤面包機是提供烤面包所需熱量的設備,使其成為給定選項中最合適的選擇。"
這個例子完美展示了OThink-R1如何避免過度思考。原始模型花費大量文本進行復雜推理,卻得出了錯誤答案;而OThink-R1識別出這是一個可以直接回答的簡單問題,采用快速思維模式,不僅節(jié)省了計算資源,還給出了正確答案。
未來展望與局限性
盡管OThink-R1在減少冗余推理方面取得了令人印象深刻的成果,研究團隊也坦誠承認它的局限性。最明顯的一點是,當前系統(tǒng)依賴外部LLM評判員(GPT-4o)來判斷推理是否冗余,這增加了系統(tǒng)的復雜性和依賴性。未來的研究方向之一是開發(fā)端到端的方法,讓模型自主判斷何時需要深度推理,何時可以直接回答。
另一個有待探索的方向是將這種思維模式切換能力擴展到多模態(tài)推理和更廣泛的模型架構中。隨著AI技術的發(fā)展,我們可以期待看到更加靈活、高效的推理系統(tǒng)。
總的來說,OThink-R1代表了AI思維方式的一個重要進步。它不僅提高了模型的效率,減少了資源消耗,還讓AI的思考過程更接近人類的自然思維方式。這種靈活切換快慢思維模式的能力,對于構建更智能、更實用的AI系統(tǒng)具有深遠意義。
在人工智能日益融入我們日常生活的今天,像OThink-R1這樣能夠"知道何時該思考,何時該直接行動"的系統(tǒng),將幫助AI更好地適應各種場景和任務,成為更加高效、自然的助手。正如研究團隊所言,這只是向適應性AI推理邁出的第一步,未來還有更多可能性等待探索。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經網絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。