這項(xiàng)由普林斯頓大學(xué)的Seth Karten、Wenzhe Li、Zihan Ding、Samuel Kleiner等研究者與Salesforce Research的Yu Bai共同完成的突破性研究,發(fā)表于2025年7月。這個(gè)被稱為"LLM經(jīng)濟(jì)學(xué)家"的創(chuàng)新框架首次讓大型語(yǔ)言模型學(xué)會(huì)了設(shè)計(jì)和管理復(fù)雜的經(jīng)濟(jì)政策。有興趣深入了解的讀者可以通過(guò)論文代碼庫(kù)github.com/sethkarten/LLM-Economist訪問(wèn)完整研究?jī)?nèi)容。
當(dāng)我們談?wù)撊斯ぶ悄艿奈磥?lái)時(shí),大多數(shù)人會(huì)想到聊天機(jī)器人或圖像生成器。但是,如果AI能夠管理整個(gè)社會(huì)的經(jīng)濟(jì)政策呢?普林斯頓大學(xué)的研究團(tuán)隊(duì)剛剛讓這個(gè)看似科幻的想法變成了現(xiàn)實(shí)。他們創(chuàng)造了一個(gè)名為"LLM經(jīng)濟(jì)學(xué)家"的系統(tǒng),這個(gè)系統(tǒng)就像一個(gè)虛擬世界的財(cái)政部長(zhǎng),能夠?yàn)閿?shù)百個(gè)AI"居民"制定最優(yōu)的稅收政策。
這個(gè)研究的核心魅力在于它解決了一個(gè)現(xiàn)實(shí)世界中極其復(fù)雜的問(wèn)題:如何設(shè)計(jì)既公平又有效的稅收制度。每當(dāng)政府考慮調(diào)整稅率時(shí),經(jīng)濟(jì)學(xué)家們都需要預(yù)測(cè)這些變化會(huì)如何影響不同收入群體的行為。傳統(tǒng)的經(jīng)濟(jì)學(xué)模型往往過(guò)于簡(jiǎn)化,假設(shè)所有人都會(huì)以完全理性的方式做出反應(yīng)。但現(xiàn)實(shí)中,一個(gè)企業(yè)家可能對(duì)高稅率的反應(yīng)與一個(gè)公務(wù)員完全不同。
研究團(tuán)隊(duì)巧妙地將這個(gè)問(wèn)題轉(zhuǎn)化為一個(gè)多層次的游戲。在這個(gè)虛擬經(jīng)濟(jì)體中,底層是一群"工人"AI,每個(gè)都被賦予了獨(dú)特的身份和背景故事。有些是雄心勃勃的科技創(chuàng)業(yè)者,討厭高稅收因?yàn)檫@會(huì)削減他們的投資資金;有些是關(guān)心社會(huì)公平的教師,認(rèn)為富人應(yīng)該承擔(dān)更多稅負(fù)來(lái)支持公共服務(wù);還有些是生活拮據(jù)的零售店員工,對(duì)任何可能影響收入的政策變化都格外敏感。
這些虛擬"居民"的特征并非憑空想象,而是基于美國(guó)人口普查局2023年的真實(shí)數(shù)據(jù)精心設(shè)計(jì)的。研究團(tuán)隊(duì)從龐大的人口統(tǒng)計(jì)數(shù)據(jù)中提取信息,確保這個(gè)虛擬社會(huì)在收入分布、職業(yè)構(gòu)成和人口特征方面都能真實(shí)反映美國(guó)社會(huì)的現(xiàn)狀。這就好比在電腦中重建了一個(gè)微縮版的美國(guó)社會(huì),每個(gè)虛擬居民都有自己的經(jīng)濟(jì)狀況、價(jià)值觀和對(duì)稅收政策的獨(dú)特看法。
在這個(gè)虛擬社會(huì)的頂層,有一個(gè)"規(guī)劃者"AI扮演著財(cái)政部長(zhǎng)的角色。這個(gè)AI的任務(wù)是觀察整個(gè)社會(huì)的經(jīng)濟(jì)狀況,然后提出能夠最大化全社會(huì)福利的稅收方案。但這里的挑戰(zhàn)在于,每當(dāng)規(guī)劃者調(diào)整稅率時(shí),所有的工人AI都會(huì)重新評(píng)估自己的工作意愿和努力程度。一個(gè)原本每周工作60小時(shí)的企業(yè)家可能會(huì)因?yàn)槎惵蔬^(guò)高而減少工作時(shí)間,而一個(gè)教師可能會(huì)因?yàn)榭吹礁玫墓卜?wù)而更加支持新的稅收政策。
這種互動(dòng)創(chuàng)造了經(jīng)濟(jì)學(xué)中著名的"斯塔克爾伯格均衡"局面。這個(gè)有趣的名字來(lái)源于德國(guó)經(jīng)濟(jì)學(xué)家海因里希·馮·斯塔克爾伯格,他研究的是一種特殊的競(jìng)爭(zhēng)模式:一方先行動(dòng)(在這里是規(guī)劃者制定稅收政策),然后另一方根據(jù)這個(gè)行動(dòng)做出最優(yōu)反應(yīng)(工人們調(diào)整工作努力程度)。這就像下棋時(shí),一方先走一步,對(duì)方看到這步棋后再?zèng)Q定自己的最佳應(yīng)對(duì)策略。
研究團(tuán)隊(duì)讓這個(gè)系統(tǒng)運(yùn)行了相當(dāng)于多年的時(shí)間跨度,觀察稅收政策如何在反復(fù)調(diào)整中逐漸趨于最優(yōu)。他們發(fā)現(xiàn),這個(gè)AI系統(tǒng)最終制定出的稅收方案竟然與經(jīng)濟(jì)學(xué)理論中的最優(yōu)解非常接近。更令人驚訝的是,在某些情況下,AI系統(tǒng)的表現(xiàn)甚至超越了傳統(tǒng)的經(jīng)濟(jì)學(xué)模型。
這種超越并非偶然。傳統(tǒng)的經(jīng)濟(jì)學(xué)模型,比如著名的薩艾茲公式,雖然在理論上很優(yōu)雅,但它們基于一些在現(xiàn)實(shí)中很難成立的假設(shè)。比如,這些模型通常假設(shè)所有人對(duì)稅收變化的反應(yīng)彈性是固定的,不同收入檔次之間相互獨(dú)立。但在現(xiàn)實(shí)中,當(dāng)政府調(diào)整一個(gè)收入檔次的稅率時(shí),往往會(huì)影響到其他檔次的人的行為。一個(gè)年收入15萬(wàn)美元的工程師可能會(huì)因?yàn)榭吹?0萬(wàn)美元檔次的稅率上升而調(diào)整自己的工作策略。
LLM經(jīng)濟(jì)學(xué)家系統(tǒng)的獨(dú)特之處在于,它不需要這些簡(jiǎn)化假設(shè)。每個(gè)虛擬居民都會(huì)根據(jù)完整的稅收結(jié)構(gòu)和自己的個(gè)人情況做出決策。這就像在一個(gè)真實(shí)的社會(huì)實(shí)驗(yàn)中,每個(gè)人都能看到完整的政策畫(huà)面,并據(jù)此調(diào)整自己的行為。
研究團(tuán)隊(duì)還在這個(gè)虛擬社會(huì)中引入了民主投票機(jī)制。每隔一段時(shí)間,所有的虛擬居民都可以投票選擇他們偏好的規(guī)劃者。不同的規(guī)劃者候選人會(huì)提出不同的稅收政策平臺(tái),試圖爭(zhēng)取選民支持。這創(chuàng)造了一個(gè)更加動(dòng)態(tài)和現(xiàn)實(shí)的政策制定環(huán)境。
這個(gè)投票機(jī)制帶來(lái)了一些有趣的現(xiàn)象。在小規(guī)模的三人社會(huì)實(shí)驗(yàn)中,研究團(tuán)隊(duì)觀察到了經(jīng)典的"多數(shù)暴政"現(xiàn)象:兩個(gè)收入相對(duì)較低的居民反復(fù)選舉彼此為規(guī)劃者,制定對(duì)他們有利但對(duì)第三個(gè)高收入居民不利的稅收政策。這個(gè)第三個(gè)居民的處境確實(shí)變得更加困難,其效用水平明顯低于其他兩人。
但在更大規(guī)模的100人社會(huì)中,情況變得截然不同。選舉帶來(lái)了頻繁的政策變化,幾乎每個(gè)稅收年度都會(huì)有新的規(guī)劃者上臺(tái)。這種看似混亂的狀況實(shí)際上產(chǎn)生了積極的效果:選舉過(guò)程中的競(jìng)爭(zhēng)促使候選人提出更好的政策方案,最終提升了整個(gè)社會(huì)的福利水平。這就像政治競(jìng)爭(zhēng)能夠激勵(lì)候選人提出更優(yōu)秀的施政綱領(lǐng)一樣。
研究團(tuán)隊(duì)通過(guò)大量的實(shí)驗(yàn)驗(yàn)證了系統(tǒng)的有效性。他們測(cè)試了不同的參數(shù)設(shè)置,比如稅收調(diào)整的頻率、工人適應(yīng)新政策所需的時(shí)間等。結(jié)果顯示,給工人足夠時(shí)間適應(yīng)新政策(大約128個(gè)模擬步驟)對(duì)于達(dá)到最優(yōu)結(jié)果至關(guān)重要。如果政策調(diào)整過(guò)于頻繁,工人們還沒(méi)來(lái)得及完全適應(yīng)就面臨新的變化,整個(gè)系統(tǒng)就無(wú)法穩(wěn)定在最優(yōu)狀態(tài)。
另一個(gè)重要發(fā)現(xiàn)涉及AI規(guī)劃者的決策策略。研究團(tuán)隊(duì)發(fā)現(xiàn),最有效的規(guī)劃者會(huì)采用"先探索后開(kāi)發(fā)"的策略。在初期,它們會(huì)嘗試各種不同的稅收方案,觀察社會(huì)的反應(yīng);一旦找到表現(xiàn)良好的政策,它們就會(huì)堅(jiān)持這個(gè)方向并進(jìn)行精細(xì)調(diào)整。這種策略平衡了創(chuàng)新探索和穩(wěn)定執(zhí)行的需求。
系統(tǒng)的可擴(kuò)展性也得到了驗(yàn)證。研究團(tuán)隊(duì)成功地將實(shí)驗(yàn)規(guī)模擴(kuò)展到1000個(gè)虛擬居民,證明了這個(gè)框架能夠處理更接近現(xiàn)實(shí)社會(huì)復(fù)雜度的場(chǎng)景。隨著居民數(shù)量的增加,系統(tǒng)的計(jì)算需求確實(shí)上升了,但仍然保持在可接受的范圍內(nèi)。
這個(gè)研究的技術(shù)實(shí)現(xiàn)也頗具創(chuàng)新性。整個(gè)系統(tǒng)基于Llama-3.1-8B-Instruct語(yǔ)言模型構(gòu)建,所有的決策和交互都通過(guò)自然語(yǔ)言進(jìn)行。工人AI會(huì)收到諸如"你的稅前收入是8萬(wàn)美元,按照當(dāng)前稅率你需要繳稅1.5萬(wàn)美元,獲得2000美元的稅收返還"這樣的信息,然后用自然語(yǔ)言表達(dá)他們的工作決策。規(guī)劃者AI則會(huì)分析收入分布和社會(huì)福利數(shù)據(jù),提出像"將第二檔稅率從25%調(diào)整為23%"這樣的政策建議。
研究團(tuán)隊(duì)還比較了不同語(yǔ)言模型的表現(xiàn)。他們發(fā)現(xiàn),更先進(jìn)的模型(如GPT-4)確實(shí)能夠制定出更好的經(jīng)濟(jì)政策,達(dá)到理論最優(yōu)解的98.2%,而Llama模型則達(dá)到90%。這表明AI模型的能力直接影響經(jīng)濟(jì)治理的質(zhì)量,未來(lái)隨著AI技術(shù)的進(jìn)步,這類系統(tǒng)的表現(xiàn)還有很大提升空間。
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)范疇。隨著越來(lái)越多的AI系統(tǒng)開(kāi)始參與經(jīng)濟(jì)活動(dòng)——從自動(dòng)交易算法到智能定價(jià)系統(tǒng)——我們迫切需要理解這些AI代理如何相互作用,以及如何設(shè)計(jì)治理機(jī)制來(lái)確保良好的社會(huì)結(jié)果。LLM經(jīng)濟(jì)學(xué)家提供了一個(gè)安全的"試驗(yàn)場(chǎng)",政策制定者可以在其中測(cè)試各種經(jīng)濟(jì)政策,而不必承擔(dān)現(xiàn)實(shí)世界實(shí)驗(yàn)的風(fēng)險(xiǎn)。
當(dāng)然,這個(gè)系統(tǒng)也有其局限性。虛擬居民的技能水平在實(shí)驗(yàn)中保持不變,但現(xiàn)實(shí)中人們會(huì)學(xué)習(xí)新技能、換工作、創(chuàng)業(yè)或退休。此外,系統(tǒng)目前只考慮了勞動(dòng)供給決策,而沒(méi)有包含消費(fèi)、投資、儲(chǔ)蓄等其他重要的經(jīng)濟(jì)行為。研究團(tuán)隊(duì)也坦承,他們的虛擬社會(huì)雖然基于真實(shí)的人口統(tǒng)計(jì)數(shù)據(jù),但在復(fù)雜的社會(huì)關(guān)系和文化因素方面仍有簡(jiǎn)化。
展望未來(lái),這類系統(tǒng)可能會(huì)在多個(gè)領(lǐng)域發(fā)揮作用。政府機(jī)構(gòu)可能會(huì)使用類似工具來(lái)預(yù)測(cè)政策效果,企業(yè)可能會(huì)用它來(lái)理解市場(chǎng)動(dòng)態(tài),學(xué)者們則可以用它來(lái)測(cè)試經(jīng)濟(jì)理論。更進(jìn)一步,隨著真實(shí)世界中AI代理數(shù)量的增長(zhǎng),這些模擬系統(tǒng)可能成為理解和管理AI經(jīng)濟(jì)的重要工具。
說(shuō)到底,LLM經(jīng)濟(jì)學(xué)家代表了AI研究的一個(gè)重要轉(zhuǎn)向:從單純的工具開(kāi)發(fā)轉(zhuǎn)向復(fù)雜系統(tǒng)的治理。這項(xiàng)研究告訴我們,AI不僅能夠執(zhí)行任務(wù),還能夠參與社會(huì)治理的復(fù)雜決策過(guò)程。當(dāng)然,這也提醒我們需要認(rèn)真考慮AI系統(tǒng)的設(shè)計(jì)和監(jiān)管,確保它們能夠促進(jìn)而非損害人類社會(huì)的福祉。
歸根結(jié)底,這個(gè)虛擬經(jīng)濟(jì)實(shí)驗(yàn)室為我們打開(kāi)了一扇窗,讓我們得以窺見(jiàn)AI參與社會(huì)治理的未來(lái)圖景。雖然距離AI財(cái)政部長(zhǎng)管理真實(shí)經(jīng)濟(jì)還有很長(zhǎng)的路要走,但這項(xiàng)研究已經(jīng)證明了這種可能性的存在,也為我們思考AI與人類社會(huì)的未來(lái)關(guān)系提供了寶貴的啟示。有興趣的讀者可以通過(guò)github.com/sethkarten/LLM-Economist查看完整的研究代碼和詳細(xì)文檔。
Q&A
Q1:LLM經(jīng)濟(jì)學(xué)家是什么?它能做什么? A:LLM經(jīng)濟(jì)學(xué)家是普林斯頓大學(xué)開(kāi)發(fā)的AI系統(tǒng),它能在虛擬社會(huì)中為數(shù)百個(gè)不同背景的AI"居民"設(shè)計(jì)最優(yōu)稅收政策。系統(tǒng)包含工人AI和規(guī)劃者AI兩層,通過(guò)不斷互動(dòng)找到平衡效率與公平的最佳稅收方案,甚至能模擬民主投票過(guò)程。
Q2:這個(gè)系統(tǒng)會(huì)不會(huì)真的用來(lái)管理現(xiàn)實(shí)經(jīng)濟(jì)? A:目前不會(huì)直接管理真實(shí)經(jīng)濟(jì),但可以作為政策制定的重要參考工具。它主要用于安全地測(cè)試各種經(jīng)濟(jì)政策效果,幫助政府和研究機(jī)構(gòu)在實(shí)施前預(yù)測(cè)政策影響,避免現(xiàn)實(shí)世界實(shí)驗(yàn)的風(fēng)險(xiǎn)。
Q3:虛擬居民的行為有多接近真人? A:虛擬居民基于美國(guó)人口普查真實(shí)數(shù)據(jù)設(shè)計(jì),具有不同職業(yè)、收入和價(jià)值觀。它們會(huì)像真人一樣對(duì)稅收變化做出差異化反應(yīng),比如企業(yè)家可能因高稅率減少工作,教師可能更支持用于公共服務(wù)的稅收,整體行為模式相當(dāng)接近現(xiàn)實(shí)。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。