近日,由杜克大學(xué)的周宇發(fā)、上海交通大學(xué)EPIC實驗室的王少博、董星宇、金相奇、陳怡方、閔越,阿里巴巴集團錢團隊的楊可欣、任興章、劉岱恒,以及上海交通大學(xué)的張臨風(fēng)等學(xué)者共同合作的一項重要研究,于2025年5月31日發(fā)表在arXiv預(yù)印本平臺(arXiv:2506.00577v1)。這項研究探索了如何通過后訓(xùn)練技術(shù),讓大語言模型(LLM)像經(jīng)濟學(xué)家一樣思考,從而展現(xiàn)出在多智能體系統(tǒng)中的戰(zhàn)略性泛化能力。
在人工智能研究的浪潮中,大語言模型(LLM)已經(jīng)從簡單的文本生成工具,發(fā)展到能夠在數(shù)學(xué)和編程等領(lǐng)域展現(xiàn)強大推理能力的智能系統(tǒng)。然而,直接訓(xùn)練LLM在多智能體系統(tǒng)(MAS)中表現(xiàn)良好仍然面臨著巨大挑戰(zhàn),主要是因為復(fù)雜的獎勵建模、動態(tài)智能體交互以及嚴(yán)格的泛化要求。那么,我們能否通過"后訓(xùn)練"技術(shù)(即在預(yù)訓(xùn)練模型基礎(chǔ)上進行進一步優(yōu)化)來有效地提升模型在多智能體場景中的表現(xiàn)呢?
研究團隊別出心裁地選擇了經(jīng)濟推理作為測試平臺。為什么選擇經(jīng)濟學(xué)?原因很充分:經(jīng)濟學(xué)擁有數(shù)學(xué)和博弈論的堅實基礎(chǔ),要求結(jié)構(gòu)化的分析推理能力,并且與市場設(shè)計、資源分配和政策分析等現(xiàn)實世界應(yīng)用密切相關(guān)。就像經(jīng)濟學(xué)家需要分析復(fù)雜的市場互動并預(yù)測參與者行為一樣,智能體也需要在多方互動中做出合理決策。
研究團隊開發(fā)了名為Recon(Reasoning like an ECONomist,像經(jīng)濟學(xué)家一樣推理)的開源語言模型,這是一個基于7B參數(shù)模型,通過在精心策劃的2,100個高質(zhì)量經(jīng)濟推理問題數(shù)據(jù)集上進行后訓(xùn)練而成的模型。想象一下,就像一個經(jīng)濟學(xué)專業(yè)的學(xué)生通過做習(xí)題來掌握經(jīng)濟學(xué)思維一樣,Recon模型通過"學(xué)習(xí)"這些經(jīng)濟問題,逐漸掌握了經(jīng)濟推理的能力。
最令人驚嘆的是,Recon模型不僅在經(jīng)濟推理基準(zhǔn)測試上表現(xiàn)出色,更重要的是,它在從未直接訓(xùn)練過的多智能體博弈中展現(xiàn)出了令人印象深刻的戰(zhàn)略性行為。這就像一個學(xué)生在課堂上只學(xué)習(xí)了經(jīng)濟學(xué)理論,卻能在實際商業(yè)談判中靈活運用這些原則一樣——這種能力的泛化令人驚嘆。
研究的核心方法包括兩個主要階段:首先是監(jiān)督式微調(diào)(SFT),教模型理解經(jīng)濟推理的基本思路;然后是通過可驗證獎勵的強化學(xué)習(xí)(RLVR),讓模型進一步優(yōu)化其決策過程。這就像先教學(xué)生經(jīng)濟學(xué)的基本原理,然后通過實際案例分析和模擬練習(xí)來強化他們的應(yīng)用能力。
接下來,我將詳細(xì)介紹這項研究的各個方面,包括研究背景、數(shù)據(jù)集構(gòu)建、模型訓(xùn)練過程,以及實驗結(jié)果與發(fā)現(xiàn)。無論你是對人工智能、經(jīng)濟學(xué)還是兩者的交叉領(lǐng)域感興趣,這項研究都提供了引人深思的見解,展示了如何讓AI系統(tǒng)掌握人類最復(fù)雜的推理能力之一——經(jīng)濟戰(zhàn)略思維。
一、研究背景與挑戰(zhàn)
如果將AI的發(fā)展比作一場長跑,那么最近幾年大語言模型(LLM)可以說是完成了從勻速慢跑到突然沖刺的轉(zhuǎn)變。以O(shè)penAI的o1系列和DeepSeek-R1為代表的模型不再滿足于簡單地生成連貫文本,而是展現(xiàn)出令人印象深刻的推理能力。這種轉(zhuǎn)變并非偶然,而是得益于多種技術(shù)的融合:思維鏈(Chain-of-Thought)提示、監(jiān)督式微調(diào)(SFT)以及人類反饋強化學(xué)習(xí)(RLHF)。
想象一下,這些模型就像經(jīng)歷了從背誦課本到真正理解知識的飛躍。其中一個特別有效的方法是"可驗證獎勵強化學(xué)習(xí)"(RLVR),它不再依賴模糊的人類反饋,而是使用明確的驗證函數(shù)來判斷答案是否正確。就像數(shù)學(xué)老師不僅告訴學(xué)生答案對錯,還要求他們展示完整的解題過程一樣,RLVR促使模型學(xué)習(xí)正確的推理路徑,而不僅僅是猜測答案。
與此同時,基于LLM的多智能體系統(tǒng)(MAS)也逐漸成為研究熱點。想象一個虛擬市場,不同的AI代理扮演著買家、賣家、中介等角色,彼此互動、協(xié)商和競爭。這些系統(tǒng)為研究復(fù)雜互動、合作行為和社會動態(tài)提供了絕佳平臺。而在這些互動中,經(jīng)濟理性——即系統(tǒng)地分析激勵、權(quán)衡和戰(zhàn)略決策的能力——成為關(guān)鍵因素。
STEER基準(zhǔn)測試通過評估LLM在效用最大化、行為偏差和戰(zhàn)略推理等方面的表現(xiàn),正式將經(jīng)濟理性這一概念納入AI評估體系。這與博弈論緊密相連,后者長期以來一直是MAS研究的理論基礎(chǔ),現(xiàn)在也越來越多地用于評估LLM代理。
然而,直接訓(xùn)練LLM用于多智能體互動仍然十分復(fù)雜且研究不足。主要挑戰(zhàn)包括:如何構(gòu)建合適的獎勵模型?如何處理不穩(wěn)定的協(xié)調(diào)動態(tài)?如何調(diào)和不同智能體的沖突目標(biāo)?現(xiàn)有方法如多智能體協(xié)同訓(xùn)練和MARFT通常需要大量監(jiān)督和定制的智能體架構(gòu),限制了它們的可擴展性和泛化潛力。
這就引出了本研究的核心問題:后訓(xùn)練技術(shù)能否有效地泛化到多智能體場景?研究團隊選擇經(jīng)濟推理作為測試平臺,理由十分充分:經(jīng)濟任務(wù)通常涉及復(fù)雜的多步推理,如評估權(quán)衡、調(diào)整激勵機制和預(yù)測他人行為——這些正是利用SFT和RLVR改進的理想場景。此外,經(jīng)濟推理的現(xiàn)實世界應(yīng)用進一步強化了這一領(lǐng)域的重要性,從市場設(shè)計到資源分配,再到政策分析,都依賴于這種能力。
二、Recon:像經(jīng)濟學(xué)家一樣思考的語言模型
Recon項目的核心就是創(chuàng)建一個專門為結(jié)構(gòu)化經(jīng)濟決策而設(shè)計的語言模型。想象一下,如果普通的LLM像是通才,掌握各種知識但不專精,那么Recon就像是經(jīng)過專業(yè)訓(xùn)練的經(jīng)濟學(xué)家,能夠應(yīng)用經(jīng)濟學(xué)原理解決復(fù)雜問題。
研究團隊精心策劃了一個包含2,100個示例的高質(zhì)量數(shù)據(jù)集,涵蓋15個關(guān)鍵經(jīng)濟類別,包括行為偏差檢測、重復(fù)博弈策略和機制設(shè)計均衡等。這個數(shù)據(jù)集建立在并擴展了現(xiàn)有的基準(zhǔn)測試,如STEER、EconLogicQA和EconNLI。如果將這些經(jīng)濟問題想象成經(jīng)濟學(xué)訓(xùn)練營的各種練習(xí),那么每個問題都在訓(xùn)練模型的不同"經(jīng)濟肌肉",從基礎(chǔ)的效用計算到復(fù)雜的博弈論推理。
研究使用了監(jiān)督式微調(diào)(SFT)和隨后的組相對策略優(yōu)化(GRPO)技術(shù),在DeepSeek-R1-Distill-Qwen-7B模型的基礎(chǔ)上進行優(yōu)化。這一過程可以比作對一個已經(jīng)聰明的學(xué)生進行專業(yè)的經(jīng)濟學(xué)培訓(xùn):首先通過示例學(xué)習(xí)(SFT),然后通過實踐和反饋(GRPO)來強化和優(yōu)化學(xué)習(xí)成果。
Recon的訓(xùn)練過程分為三個主要步驟,形成了一個完整的訓(xùn)練流水線:
首先是數(shù)據(jù)集策劃和推理軌跡提取。研究團隊從各種經(jīng)濟學(xué)基準(zhǔn)測試中精選問題,并使用教師模型生成詳細(xì)的推理過程。這就像一位經(jīng)濟學(xué)教授不僅提供問題答案,還詳細(xì)展示了解題思路,讓學(xué)生能夠理解整個推理過程。
其次是通過SFT和RL進行后訓(xùn)練。基礎(chǔ)模型首先通過SFT在包含推理軌跡的數(shù)據(jù)集上學(xué)習(xí),隨后通過RL在完整的Recon數(shù)據(jù)集上進一步優(yōu)化。這類似于學(xué)習(xí)經(jīng)濟學(xué)的兩個階段:先理解基本概念和解題方法,然后通過實踐和思考來真正掌握這些知識。
最后是模型評估,包括在推理基準(zhǔn)測試、自我對弈和多智能體博弈中對模型進行測試。這相當(dāng)于通過不同難度和類型的考試來評估學(xué)生的經(jīng)濟學(xué)知識和應(yīng)用能力,從基礎(chǔ)理論題到復(fù)雜的案例分析和模擬談判。
整個過程就像一個經(jīng)濟學(xué)家的培養(yǎng)計劃:從掌握基礎(chǔ)知識,到理解推理方法,再到在實際場景中應(yīng)用這些原則。這種系統(tǒng)化的訓(xùn)練方法使Recon不僅能夠回答經(jīng)濟問題,還能在更廣泛的戰(zhàn)略互動場景中展現(xiàn)出人類經(jīng)濟學(xué)家般的思考能力。
三、數(shù)據(jù)集:經(jīng)濟推理的訓(xùn)練場
想象一下,如果要培養(yǎng)一位優(yōu)秀的經(jīng)濟學(xué)家,你需要提供什么樣的學(xué)習(xí)材料?當(dāng)然是涵蓋經(jīng)濟學(xué)各個領(lǐng)域、難度適中且高質(zhì)量的問題。研究團隊正是帶著這樣的理念構(gòu)建了Recon的訓(xùn)練數(shù)據(jù)集。
研究團隊策劃了四個核心數(shù)據(jù)集,它們共同構(gòu)成了經(jīng)濟推理的全面訓(xùn)練場:
STEER基準(zhǔn)測試提供了約60萬個多項選擇題,橫跨48個微觀經(jīng)濟學(xué)類別,包括算術(shù)、概率、心理偏差和博弈論。如果說經(jīng)濟學(xué)是一棟大樓,那么STEER就提供了這棟樓的各個房間。每個問題都包含提示、候選答案、正確標(biāo)簽和元數(shù)據(jù),為模型提供了廣泛的經(jīng)濟推理基礎(chǔ)訓(xùn)練材料。
EconLogicQA則包含650個經(jīng)過人工驗證的問題,這些問題受真實新聞啟發(fā),需要正確的時間或因果排序。想象一下,這就像給經(jīng)濟學(xué)家一系列經(jīng)濟事件,要求他們判斷"先有雞還是先有蛋"——這種訓(xùn)練有助于培養(yǎng)規(guī)劃和因果一致性的能力。
EconNLI提供了11,000對前提-假設(shè)對,標(biāo)記為蘊含或中性。這些內(nèi)容來自維基百科,評估模型推斷經(jīng)濟敘述中因果和邏輯關(guān)系的能力。這類似于訓(xùn)練經(jīng)濟學(xué)家閱讀復(fù)雜的經(jīng)濟報告,并準(zhǔn)確判斷其中的邏輯關(guān)聯(lián)。
純策略均衡博弈數(shù)據(jù)集則包含標(biāo)記有純Nash均衡和完全透明均衡的3×3支付矩陣。研究團隊將這些來自蘇黎世聯(lián)邦理工學(xué)院的矩陣轉(zhuǎn)換為自然語言提示,以評估均衡推理能力。這就像為經(jīng)濟學(xué)家提供抽象的博弈論練習(xí),測試他們找出最優(yōu)策略的能力。
在初步實驗中,研究團隊評估了不同LLM在這些數(shù)據(jù)集上的表現(xiàn)。結(jié)果顯示,閉源模型(如GPT-4o)在大多數(shù)宏觀類別中領(lǐng)先,但值得注意的是,DeepSeek-R1-Distill-Qwen-7B在數(shù)學(xué)基礎(chǔ)(0.896 vs 0.887)和多智能體環(huán)境(0.630 vs 0.625)兩個類別上略微超過了GPT-4o。這表明專門的開源推理模型能夠有效地與閉源對手在基礎(chǔ)經(jīng)濟任務(wù)上競爭。
推理提煉顯著提升了性能。DeepSeek-R1-Distill-Qwen-7B在大多數(shù)宏觀類別上優(yōu)于所有其他可比大小的開源模型,特別是在多智能體環(huán)境方面表現(xiàn)出色。這表明經(jīng)濟推理是一個特別適合精細(xì)推理能力的領(lǐng)域。
然而,復(fù)雜的博弈論任務(wù)仍然具有挑戰(zhàn)性。即使是領(lǐng)先的GPT-4o在觸發(fā)策略和可執(zhí)行性等高級推理任務(wù)上也只能達(dá)到有限的準(zhǔn)確率(分別為0.176和0.824),而大多數(shù)開源模型在這些長期推理任務(wù)上的表現(xiàn)則更低。
基于這些發(fā)現(xiàn),研究團隊選擇了DeepSeek-R1-Distill-Qwen-7B作為進一步訓(xùn)練的最佳基線。盡管存在瓶頸,但它的整體堅實表現(xiàn)(宏觀平均0.69)和在戰(zhàn)略推理方面的基線能力使其成為通過SFT和RL微調(diào)來增強經(jīng)濟推理能力的理想候選者。
最終的Recon數(shù)據(jù)集包含了15個最具挑戰(zhàn)性的經(jīng)濟類別,總計2,100個問題-答案對。這些問題根據(jù)經(jīng)驗錯誤率按比例采樣,分為訓(xùn)練集(1,800個問題)和評估集(300個問題)。每個問題都使用結(jié)構(gòu)化提示,鼓勵模型逐步推理并明確標(biāo)注最終答案。
這就像為經(jīng)濟學(xué)家設(shè)計了一套全面的訓(xùn)練課程,從基礎(chǔ)概念到高級博弈論,從行為經(jīng)濟學(xué)到邏輯推理,確保模型能夠掌握經(jīng)濟學(xué)思維的各個方面。
四、訓(xùn)練方法:從學(xué)習(xí)到掌握經(jīng)濟推理
Recon的訓(xùn)練過程可以比作一個經(jīng)濟學(xué)專家的培養(yǎng)計劃,包含兩個關(guān)鍵階段:監(jiān)督式微調(diào)(SFT)和強化學(xué)習(xí)(RL)。這兩個階段分別對應(yīng)了知識獲取和技能精煉的過程。
在監(jiān)督式微調(diào)階段,研究團隊從一個更強大的教師模型(QwQ-32B)提取思維鏈(CoT)軌跡,并篩選其正確性。想象一個學(xué)生跟隨資深經(jīng)濟學(xué)教授學(xué)習(xí),不僅記住答案,還要理解完整的推理過程。教師模型為每個問題生成詳細(xì)的思考過程,放在特殊標(biāo)記`...`內(nèi),并將最終選擇放在`\boxed{...}`中。這使得學(xué)生模型(Recon)能夠?qū)W習(xí)如何構(gòu)建結(jié)構(gòu)化的推理過程。
研究團隊只保留了教師模型回答正確的示例,最終得到了868個高質(zhì)量的(問題、黃金答案、思維鏈)三元組,覆蓋所有15個Recon類別。這些示例構(gòu)成了Recon-CoT數(shù)據(jù)集,用于SFT階段的訓(xùn)練。
在SFT過程中,模型學(xué)習(xí)從一個輸入提示x生成目標(biāo)輸出y。每個輸出是一個元組y = (c, a),其中c代表逐步推理,a是最終答案。訓(xùn)練目標(biāo)是最小化負(fù)對數(shù)似然:
``` LSFT(θ) = -E(x,y)~DSFT [log pθ(y | x)] ```
這里θ是模型參數(shù),pθ(y | x)是給定x生成y的條件概率。這個過程就像學(xué)生通過模仿專家的解題思路來學(xué)習(xí)經(jīng)濟推理。
完成SFT后,研究團隊采用了組相對策略優(yōu)化(GRPO)進行強化學(xué)習(xí)階段的訓(xùn)練。與其他RL方法不同,GRPO通過從一組采樣輸出中估計優(yōu)勢來提高效率,無需價值函數(shù)。對于每個輸入查詢q,模型生成一組G個響應(yīng),然后優(yōu)化當(dāng)前策略πθ以最大化以下目標(biāo):
``` JGRPO(θ) = Eq~Dq,{oi}G i=1~πθold(·|q) [1/G ∑G i=1 min{wiAi, clip(wi, 1-ε, 1+ε)Ai} - β KL(πθ||πref)] ```
其中wi是當(dāng)前策略與舊策略的概率比,Ai是每個響應(yīng)的標(biāo)準(zhǔn)化獎勵,反映了其相對質(zhì)量。KL懲罰通過懲罰與參考策略πref的偏差來鼓勵穩(wěn)定性。
為了支持GRPO訓(xùn)練中的結(jié)構(gòu)化輸出,研究團隊開發(fā)了一個分層的基于規(guī)則的獎勵函數(shù),對響應(yīng)進行三個階段的評分:格式有效性、答案提取和正確性。這確保模型不僅給出正確答案,還要以一種結(jié)構(gòu)化、可解析的方式呈現(xiàn)其推理過程。
整個訓(xùn)練過程就像經(jīng)濟學(xué)家從學(xué)徒到專家的成長過程:首先學(xué)習(xí)基本原理和解題方法(SFT),然后通過實踐和反饋不斷完善自己的推理能力(RL)。這種兩階段方法不僅使Recon能夠理解經(jīng)濟問題,還能展示出其推理過程,使其決策更加透明和可解釋。
五、實驗結(jié)果:從經(jīng)濟推理到戰(zhàn)略行為
研究團隊的實驗結(jié)果令人振奮,不僅證明了后訓(xùn)練技術(shù)可以顯著提升經(jīng)濟推理能力,更重要的是,這種能力能夠泛化到未曾訓(xùn)練過的多智能體博弈場景中。這就像一位經(jīng)濟學(xué)家不僅能解決教科書上的問題,還能在實際商業(yè)談判中運用這些原則一樣令人印象深刻。
在300題的Recon-Eval測試集上,模型的進步非常明顯?;A(chǔ)模型的準(zhǔn)確率為48.3%,經(jīng)過SFT后提升至59.7%(增加11.4個百分點),這表明從教師模型提取的推理軌跡有效地傳遞了結(jié)構(gòu)化推理模式。而GRPO進一步將準(zhǔn)確率提升至63.0%(再增加3.3個百分點)??傮w而言,SFT→RL流程實現(xiàn)了14.7%的絕對增益,驗證了后訓(xùn)練作為調(diào)整DeepSeek-R1-Distill-Qwen-7B進行經(jīng)濟推理的可行策略。
更令人驚嘆的是,經(jīng)濟后訓(xùn)練帶來的收益超出了單步推理,擴展到了未曾見過的交互式設(shè)置。研究團隊在兩個互動環(huán)境中評估了模型,測試經(jīng)濟推理后訓(xùn)練是否能泛化到戰(zhàn)略互動。
在自我對弈的納什均衡準(zhǔn)確率方面,隨著經(jīng)濟后訓(xùn)練的添加,模型表現(xiàn)出明顯的單調(diào)增長。相對于R1-Distill基線,Recon-SFT在同時博弈中將均衡結(jié)果的比例從0.39提高到0.47,同時在序貫博弈中保持了0.79的強水平。隨后的GRPO階段將這些數(shù)字提高到0.51和0.86,總體平均達(dá)到0.685,比R1-Distill提高了9.5個百分點,幾乎是非推理型Qwen-2.5-7B-Instruct所達(dá)到的0.345的兩倍。
這種頻繁收斂到納什均衡的現(xiàn)象表明,模型變得更善于(i)預(yù)測其他智能體的激勵,以及(ii)選擇非占優(yōu)策略。研究團隊將均衡率的提升解釋為后訓(xùn)練注入了可轉(zhuǎn)移的均衡先驗:模型已經(jīng)內(nèi)化了經(jīng)濟理性原則,即使在訓(xùn)練過程中從未見過的博弈中也能應(yīng)用這些原則。
在GTBench戰(zhàn)略博弈評估中,同樣的歸納偏差也表現(xiàn)出來。Recon-SFT已經(jīng)在7B模型中獲得了最高的平均勝率(0.53)。GRPO再次提供了一致的提升至0.56,在10個任務(wù)中有8個獲勝或平局。最大的相對收益出現(xiàn)在談判(+0.20)和突破(+0.20)兩個游戲中,這兩個游戲需要擴展的前瞻和自適應(yīng)競價能力,這些能力在我們的訓(xùn)練語料庫中從未明確包含。
與非推理模型Qwen-2.5-7B-Instruct相比,Recon-RL模型有更高的準(zhǔn)確率,驗證了推理能力幫助模型在戰(zhàn)略博弈場景中取得成功的想法。
這些改進不能用模式記憶或組合搜索來解釋;相反,它們表明離線學(xué)習(xí)的經(jīng)濟推理技能轉(zhuǎn)化為更一般的戰(zhàn)略行為,能夠?qū)箯姶蟮摹⑽匆娺^的對手。事實上,每個DeepSeek檢查點(包括Recon-RL)在nim游戲上得分都很低,這個游戲的解決方案是一個單一的XOR不變量,而不是激勵驅(qū)動的最佳響應(yīng)問題,這突顯了這一邊界:我們的后訓(xùn)練注入了尋求均衡的偏好,而不是現(xiàn)成的組合技巧。
在多智能體博弈中,Recon-RL和Recon-SFT在Draco序列博弈上的表現(xiàn)對比揭示了后訓(xùn)練帶來的幾種系統(tǒng)性行為:
首先是明確的戰(zhàn)略建模。Recon-RL自發(fā)構(gòu)建博弈樹,標(biāo)記子博弈,并訴諸"子博弈完美納什均衡"和"逆向歸納"等解決方案概念。相比之下,Recon-SFT非正式地走過支付線,從不命名底層的均衡邏輯。
其次是迭代搜索和自我糾正。RL模型展示了一個長時的"試錯"思維鏈——模擬每個分支,發(fā)現(xiàn)矛盾,并在收斂到最優(yōu)路徑之前修改中間結(jié)論。
這些觀察表明,SFT階段獲取了解決戰(zhàn)略場景的基礎(chǔ)知識,而GRPO階段教導(dǎo)模型模擬訓(xùn)練有素的經(jīng)濟學(xué)家會遵循的解決程序,而不僅僅是記憶答案模式。更豐富的內(nèi)部搜索和對正式術(shù)語的更嚴(yán)格遵守為之前報告的定量收益提供了一個合理的機制,也為在未見過的交互基準(zhǔn)上的改進勝率提供了解釋。
六、洞見與未來工作
研究團隊的實驗結(jié)果引發(fā)了對后訓(xùn)練與智能體對齊之間關(guān)系的深刻思考。從單次、教科書式的經(jīng)濟學(xué)到交互式、對抗性的博弈的躍遷尤為引人注目。研究團隊提出了兩種互補機制來解釋這種域外泛化:
首先,結(jié)構(gòu)化提示促成了模塊化潛在策略。Recon模板強制執(zhí)行明確的思考|行動分離,這反映了博弈中所需的內(nèi)部推演/外部承諾循環(huán):在假設(shè)分支上搜索,然后輸出單一行動。研究團隊推測,這種模板因此訓(xùn)練了一個策略-通過-思想模塊,當(dāng)相同的模型被要求對抗另一個智能體時,可以原封不動地調(diào)用這個模塊,產(chǎn)生更系統(tǒng)的樹構(gòu)建和自我糾正。
其次,結(jié)果對齊的獎勵培養(yǎng)了"均衡先驗"。GRPO優(yōu)化的是與最終正確性成正比的標(biāo)量信號。因此,模型保證非零回報的最簡單方法是向后規(guī)劃:選擇在任何延續(xù)中都能存活的非占優(yōu)步驟。在數(shù)千個問題上,這培養(yǎng)了一種偏向互惠最佳響應(yīng)的偏好。當(dāng)被放入多玩家環(huán)境中時,同樣的偏好表現(xiàn)為(i)拒絕占優(yōu)移動,(ii)傾向于均衡結(jié)果。
這些發(fā)現(xiàn)的意義重大,主要體現(xiàn)在兩個方面:
首先是可擴展的對齊。通常,將模型對齊到"合作和理性"行為依賴于昂貴的人類標(biāo)注。研究結(jié)果表明,單一智能體、可驗證的數(shù)據(jù)集已經(jīng)注入了相當(dāng)大一部分這種歸納偏差。
其次是可解釋性。GRPO后暴露的更豐富、自我糾正的思維鏈為從業(yè)者提供了一個透明的窗口,了解模型的決策過程,便于事后審計和安全檢查。
對于未來的工作,研究團隊計劃探索幾個方向:
工作流集成:研究團隊計劃調(diào)查集成多智能體工作流(如談判和均衡解析框架)是否能進一步增強交互推理和合作能力。
更廣泛的微觀經(jīng)濟泛化:研究團隊的目標(biāo)是調(diào)查對更廣泛的微觀經(jīng)濟場景(如討價還價、市場出清或稅收)的后訓(xùn)練是否能引發(fā)更強大、更穩(wěn)定的智能體行為。
跨域轉(zhuǎn)移:研究團隊還希望將他們的方法推廣到其他結(jié)構(gòu)化領(lǐng)域,包括醫(yī)學(xué)、法律和民用設(shè)計,以評估類似的對齊效應(yīng)是否出現(xiàn)在經(jīng)濟領(lǐng)域之外。
七、結(jié)論:從經(jīng)濟訓(xùn)練到戰(zhàn)略智能
總結(jié)這項開創(chuàng)性研究,Recon展示了如何通過經(jīng)濟推理的后訓(xùn)練打造具有戰(zhàn)略泛化能力的語言模型。利用精心策劃的2,100個問題數(shù)據(jù)集和兩階段SFT+GRPO流程,Recon在經(jīng)濟基準(zhǔn)測試上實現(xiàn)了14.7%的提升,并在多智能體博弈中將納什均衡收斂率提高了9.5個百分點。
這些結(jié)果表明,領(lǐng)域?qū)R的后訓(xùn)練不僅增強了任務(wù)級準(zhǔn)確率,還促進了新興的理性行為。就像經(jīng)濟學(xué)家需要理解激勵、預(yù)測行為和找到均衡一樣,經(jīng)過訓(xùn)練的Recon模型學(xué)會了類似的思維方式,能夠在從未直接訓(xùn)練過的戰(zhàn)略場景中做出合理決策。
這項研究為AI系統(tǒng)的對齊和訓(xùn)練提供了新的視角,表明通過特定領(lǐng)域的結(jié)構(gòu)化問題訓(xùn)練,可以培養(yǎng)出更廣泛的理性決策能力。這不僅對學(xué)術(shù)研究有意義,對實際應(yīng)用也具有深遠(yuǎn)影響——從市場設(shè)計到資源分配,再到政策分析,都可能從這種"像經(jīng)濟學(xué)家一樣思考"的AI系統(tǒng)中受益。
隨著研究繼續(xù)推進,這種將經(jīng)濟學(xué)原理注入AI系統(tǒng)的方法有望為創(chuàng)建更理性、更有戰(zhàn)略性的智能體開辟新途徑,最終幫助我們構(gòu)建能夠理解和參與復(fù)雜人類互動的AI系統(tǒng)。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。