2025年6月,來自阿聯(lián)酋穆罕默德·本·扎耶德人工智能大學(MBZUAI)、保加利亞索非亞大學、法國Quantsquare、美國康奈爾大學以及印度IIT德里的國際研究團隊聯(lián)合發(fā)布了一項開創(chuàng)性研究——FinChain:金融領域首個可驗證的符號化思維鏈推理基準測試。這項研究以預印本形式發(fā)表于arXiv(arXiv:2506.02515),旨在解決現(xiàn)有金融領域語言模型在多步推理能力評估方面的重大缺口。
想象一下,你的理財顧問在幫你做投資決策時,需要一步步計算復雜的財務數(shù)據(jù)。如果他只告訴你最終結(jié)果,而不解釋計算過程,你會信任這個建議嗎?這正是現(xiàn)今金融人工智能面臨的核心問題——它們能給出答案,但難以展示可靠的推理過程。
在金融決策中,錯誤可能代價高昂。以往的金融問答數(shù)據(jù)集如FinQA和ConvFinQA主要關(guān)注最終答案的準確性,卻忽略了中間推理步驟的評估。就好像只看學生的最終答案,而不檢查他們的解題過程,這無法全面評估模型的實際推理能力。
研究團隊創(chuàng)建了FinChain,這是一個全新的金融推理基準測試,涵蓋12個金融領域的54個主題,每個主題包含5個參數(shù)化模板(兩個簡單級別、兩個中級和一個高級)。這些模板可以生成無數(shù)不同的金融問題,每個問題都配有完整的、可執(zhí)行的Python代碼,用于驗證推理鏈的每一步驟。
簡單來說,F(xiàn)inChain就像一本詳細的金融推理"食譜書",不僅告訴你最終菜肴(答案)應該是什么樣,還詳細記錄了每一步烹飪過程(推理步驟)。這樣,我們就能評判模型是真的掌握了金融推理的"烹飪技巧",還是只是幸運地猜對了最終"菜肴"。
研究團隊還創(chuàng)建了一個名為ChainEval的評估指標,同時評估最終答案的正確性和中間推理步驟的一致性。通過對30個大型語言模型的測試,他們發(fā)現(xiàn)即使是最先進的模型在處理復雜的金融推理任務時仍有很大的提升空間。
讓我們一起深入探索這個金融推理的新基準,看看它如何改變我們評估和改進金融人工智能的方式。
一、理解現(xiàn)有金融推理評估的局限
在智能手機導航中,你不僅希望知道最終目的地,還想知道每個轉(zhuǎn)彎、每條路段的具體指引。同樣,在金融分析中,單純得到最終結(jié)果遠遠不夠,我們需要了解每一步計算和推理是如何進行的。
現(xiàn)有的金融推理數(shù)據(jù)集如FinQA和ConvFinQA主要關(guān)注最終的數(shù)值答案,而不要求模型明確生成或證明中間推理步驟。雖然某些例子可能包含中間操作的痕跡(類似于推理步驟),但這些既不全面,也沒有經(jīng)過嚴格構(gòu)建以反映金融分析的標準。特別是,它們?nèi)狈ν暾?、可驗證的推理鏈表示,而這對金融決策的透明度和問責制至關(guān)重要。
研究者指出,這些基準測試提供的診斷價值有限:它們既不能可靠地揭示模型推理在哪里成功或失敗,也不能區(qū)分真正的多步推理和淺層模式匹配。就像一個學生可能通過記憶答案而非理解解題方法獲得高分,我們需要更嚴格的測試來評估模型是否真正理解了金融推理的過程。
在數(shù)學推理領域,GSM-Symbolic(由Mirzadeh等人于2024年提出)引入的符號化模板范式已成為廣泛采用的方法。該方法重新模板化了GSM8K中的100個數(shù)學問題,提供明確的中間步驟和最終答案。研究團隊采用了類似的模板策略,但是完全從頭開始為金融領域構(gòu)建數(shù)據(jù)集。
如圖1所示,每個符號化模板編碼了一個參數(shù)化的金融問題(例如復利計算),包含可變的命名實體和數(shù)值輸入。每個模板都配有可執(zhí)行的Python代碼,用于計算中間步驟和最終結(jié)果。這種設計支持可擴展、無污染地生成一致的示例,既可用于訓練也可用于評估。
二、FinChain:構(gòu)建全面的金融推理基準
金融領域包含各種不同的領域,每個領域涉及不同的利益相關(guān)者和下游目標。因此,必須以模板化的方式設計數(shù)據(jù)集,以支持特定領域的評估。
研究團隊構(gòu)建了一個精細的金融分類系統(tǒng)(圖2),涵蓋12個高級領域(如公司金融、可持續(xù)金融、加密貨幣等),每個領域包含不同的主題,總計54個主題。這種分層結(jié)構(gòu)構(gòu)成了現(xiàn)有數(shù)據(jù)集中最詳細的金融推理任務分類。
對于每個主題,研究者開發(fā)了五個參數(shù)化模板(兩個簡單、兩個中級、一個高級),根據(jù)符號推理復雜性和所需領域知識的不同而變化。例如,在簡單級別,一個模板可能只需要計算簡單的復利;而在高級級別,可能需要結(jié)合多種金融概念進行分析,如同時考慮通貨膨脹、稅收和風險調(diào)整等因素。
每個模板化實例包括:
1. 場景卡片:描述主題、難度級別和采樣輸入(例如,"貼現(xiàn)現(xiàn)金流估值,高級")。
2. 可執(zhí)行的Python推理步驟鏈:基于特定領域的方程和概念。由于鏈中的每個操作都是明確且可執(zhí)行的,這個基準支持完全的機器可驗證性:模型輸出中任何虛構(gòu)、跳過或錯誤的步驟都可以被自動檢測。
這與現(xiàn)有數(shù)據(jù)集如FinQA和ConvFinQA形成鮮明對比,后者只監(jiān)督最終答案。就像檢查學生解題過程的老師,F(xiàn)inChain關(guān)注每一步的正確性,而不僅僅是最終結(jié)果。
數(shù)據(jù)創(chuàng)建過程首先確定和定義金融領域,這一步驟參考了已建立的文獻(如Bodie等人2025年的著作)并由金融專家指導。通過這個過程,研究團隊確定了12個不同的金融領域。為了在每個領域內(nèi)生成主題,他們從文獻中提取相關(guān)段落,并使用領域名稱作為提示,讓ChatGPT提取候選金融主題。然后,金融專家篩選和完善這些輸出,最終得到54個金融主題,平均每個領域4.5個主題。
研究團隊還實施了嚴格的質(zhì)量控制流程,包括初始模板生成后的理智檢查和專家驗證。在理智檢查階段,他們處理了幾個常見問題:跨國不一致性、精度不匹配和輸入規(guī)范不完整。在專家檢查階段,他們使用另一個大型語言模型(Claude)評估每個問題-解決方案模板的合理性,并將標記為潛在有缺陷的模板升級給金融專家進行最終判斷。
三、ChainEval:評估推理鏈的新方法
想象一下,你在評判一場烹飪比賽。你不僅要嘗嘗最終菜肴的味道,還要觀察廚師是否按照正確的步驟和技巧準備食材、調(diào)味和烹飪。同樣,評估金融推理模型時,我們需要檢查最終答案和中間推理步驟是否都正確。
研究團隊提出了ChainEval,一個評估框架,從兩個方面評估模型輸出:最終答案正確性和推理步驟一致性。這種逐步語義對齊方法受到先前關(guān)于推理一致性工作的啟發(fā)(Lyu等人2023年;Golovneva等人2023年),但研究團隊通過明確建模中間結(jié)果的驗證,通過步驟-答案匹配來擴展它。此外,與主要評估文本一致性的先前工作不同,他們的框架還驗證最終數(shù)值答案,確保對模型性能的全面視圖,同時評估推理忠實性和最終任務保真度。
ChainEval的工作原理如下:
首先,定義標準解決方案S*和預測解決方案S分別為m和n個步驟的序列: S* = (s*?, ..., s*?), S = (s?, ..., s?)
其中s*?和s?表示S*和S中的單個步驟。同時定義函數(shù)StepRes(·),提取每個步驟計算的中間結(jié)果。
然后,通過兩個組件測量推理忠實性:
1. 步驟語義相似性:使用句子編碼器Enc(·)嵌入每個步驟,計算標準步驟和預測步驟對(s*?, s?)之間的余弦相似度,得到分數(shù)SS(·)∈[0,1]。
2. 步驟答案匹配:評估中間步驟s*?和s?計算的結(jié)果是否一致。引入函數(shù)AM(·),允許對數(shù)值結(jié)果有小的容差(設為5%),以考慮數(shù)值舍入傳播的誤差。
當一對步驟的語義相似度超過閾值,且對應的中間結(jié)果一致時,這對步驟被認為是對齊的?;诖?,計算步驟級別的召回率和精確率,最終計算步驟F1分數(shù),這是步驟級別精確率和召回率的調(diào)和平均值。
最后,通過檢查預測解決方案中最后一步的結(jié)果是否與標準解決方案的最后一步一致,評估最終答案的正確性。
這種全面的評估方法不僅檢查模型是否得到了正確的最終答案,還驗證它是否按照正確的推理路徑得到了答案,這對金融領域尤為重要,因為在這里,過程的透明度和可審計性往往與結(jié)果本身一樣重要。
四、大規(guī)模模型評估與發(fā)現(xiàn)
研究團隊對30個大型語言模型進行了全面評估,使用了2,700個測試用例(54個主題×5個模板×10個實例)。所有模型都在一致的解碼配置下進行評估:溫度=0.7,top-p=0.95,最大令牌限制為4,096。他們使用了提出的ChainEval指標作為評估最終答案正確性和中間推理步驟一致性的主要指標。
評估的模型分為六類:
1. 通用模型:作為領域無關(guān)的強基線,包括GPT-4.1、GPT-4o mini、LLaMA 3系列、Mistral、Mixtral等。
2. 通用推理模型:專為廣泛多步推理任務訓練或微調(diào)的模型,如o3-mini、DeepSeek-R1系列、Qwen3等。
3. 金融微調(diào)模型:通過指令調(diào)整或在金融語料庫上繼續(xù)預訓練而適應的模型,如Finance-LLM、FinanceConnect等。
4. 金融推理模型:專為金融多步推理設計的模型,如Fino1和FinR1。
5. 數(shù)學模型:在數(shù)學中心語料庫上微調(diào)的模型,如Mathstral和Qwen2.5 Math。
6. 數(shù)學推理模型:在數(shù)學中擅長逐步問題解決的模型,如WizardMath和MetaMath。
表1展示了模型在FinChain上的綜合評估結(jié)果,包括ChainEval的四個組成部分:最終答案正確性(FAC)、步驟精確率/召回率/F1,以及ROUGE和BERTScore評分。
整體而言,通用模型如LLaMA 3.3 (70B) Instruct和GPT-4.1在準確性和一致性方面表現(xiàn)領先。這些模型也表現(xiàn)出適度的方差,表明它們不僅具有高性能,還能在各種金融場景中穩(wěn)健地泛化。關(guān)鍵的是,結(jié)果凸顯了模型大小與推理能力之間的強相關(guān)性。較大的模型始終優(yōu)于較小的模型,即使后者經(jīng)過領域特定數(shù)據(jù)的明確訓練,這表明領域暴露本身是不夠的;穩(wěn)健的推理性能還取決于處理符號和多跳推理的足夠模型容量。
開源模型如Qwen3 (8B)盡管規(guī)模較小,也表現(xiàn)出競爭力,這可能歸因于其在最新版本中增強的推理能力。金融推理模型,如Fin-R1表現(xiàn)出合理的符號對齊,但在最終答案準確性方面表現(xiàn)不佳。
研究團隊還分析了模型在不同金融領域的表現(xiàn)(圖3)。對于非推理模型,結(jié)構(gòu)化和定量領域如個人金融和加密金融表現(xiàn)出較高的準確率。這些領域往往需要直接計算或熟悉的術(shù)語,通用和數(shù)學調(diào)優(yōu)模型能夠較好地處理。相比之下,風險管理和可持續(xù)金融等領域表現(xiàn)明顯下降,這可能是因為它們需要多步邏輯、含糊場景或難以符號化編碼的監(jiān)管細微差別。
對于推理模型,在傳統(tǒng)上具有挑戰(zhàn)性的領域如金融比率和公司金融表現(xiàn)更強,表明這些模型在處理多步符號結(jié)構(gòu)方面有所改進。然而,即使是推理模型在可持續(xù)金融和并購領域仍表現(xiàn)相對較弱,這需要細微的理解和特定領域的推理策略。
研究團隊還評估了模型在不同難度級別下的魯棒性(圖4)。所有模型在復雜性增加時都表現(xiàn)出性能下降,突顯了執(zhí)行更長金融推理鏈的難度。其中,LLaMA 3.3 (70B) Instruct因其強大的絕對性能和漸進下降而脫穎而出,表明其在組合泛化方面表現(xiàn)更好。相比之下,較小的模型如Fin-R1 (7B)下降更為嚴重,表明在推理深度增加時難以保持推理連貫性。
最后,研究團隊測試了在模板中改變實體名稱和數(shù)值對模型推理性能的影響。較大模型如GPT-4.1在所有設置中保持一致的性能,反映出對名稱和值輸入的強大抽象能力。然而,較小的模型表現(xiàn)出不同的敏感性。例如,o3-mini在僅改變值時比僅改變名稱時獲得更高的準確率,GPT-4o-mini也表現(xiàn)出輕微的不穩(wěn)定性,在不同條件下性能略有變化。
五、結(jié)論與未來展望
談到金融人工智能的未來,F(xiàn)inChain代表了一個重要的里程碑。它不僅是一個評估工具,更是一面鏡子,揭示了當前最先進模型在處理復雜金融推理時的真實能力和局限性。
歸根結(jié)底,F(xiàn)inChain為我們提供了一種全新的方式來評估金融語言模型:不僅看它們能否得出正確答案,還要看它們是否通過正確的思考過程得出這些答案。這就像不僅評判廚師做出的菜肴,還要評判他們的烹飪技巧和方法。
研究發(fā)現(xiàn),即使是最強大的模型在處理復雜的多步金融推理時仍有相當大的提升空間。這提醒我們,盡管人工智能在金融領域取得了令人印象深刻的進展,但真正掌握專業(yè)金融推理的能力仍然是一個進行中的挑戰(zhàn)。
特別值得注意的是,模型大小似乎是決定推理能力的關(guān)鍵因素。較大的通用模型往往優(yōu)于專門為金融領域訓練的較小模型,這表明僅僅接觸領域知識是不夠的;模型還需要足夠的容量來處理復雜的符號推理。
展望未來,研究團隊計劃擴展FinChain以支持多語言和區(qū)域特定場景,并探索逐步推理軌跡如何增強模型生成答案的可信度和事實性,特別是在真實文檔的長篇金融問答中。這條研究路線可能有助于將符號金融推理與事實驗證結(jié)合起來,支持更強大、更可解釋的金融AI系統(tǒng)。
對于普通人來說,這項研究意味著未來的金融AI工具可能不僅會告訴你"應該投資什么",還會清晰地解釋"為什么"和"如何"得出這些建議。這種透明度對于建立信任至關(guān)重要,尤其是在金融這樣高風險的領域。
如果你對這項研究感興趣,可以通過GitHub(https://github.com/mbzuai-nlp/finchain)訪問所有FinChain的模板和評估指標。這是一個開源項目,旨在推動金融AI的透明度和可靠性向前發(fā)展。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。