當(dāng)我們談?wù)撊斯ぶ悄茉诮鹑陬I(lǐng)域的應(yīng)用時,大多數(shù)人可能會想到自動投資、風(fēng)險評估或欺詐檢測系統(tǒng)。然而,在金融世界的幕后,還有一個至關(guān)重要卻容易被忽視的場景:金融會議。這些會議通常持續(xù)一到兩小時,包含海量的信息交流,是金融決策和戰(zhàn)略制定的關(guān)鍵環(huán)節(jié)。如何利用人工智能技術(shù)來理解和處理這些冗長的會議內(nèi)容,一直是一個亟待解決的挑戰(zhàn)。
2025年6月,由蘇州大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院的朱杰、李軍輝,阿里云錢進(jìn)團(tuán)隊的溫亞龍、李賢東、郭力帆、陳鋒等研究人員聯(lián)合發(fā)表了一篇創(chuàng)新性論文《M?FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset》。這項研究首次推出了一個專為金融會議理解而設(shè)計的多語言、多行業(yè)、多任務(wù)評估數(shù)據(jù)集,為大型語言模型在金融會議場景下的應(yīng)用提供了重要的評估基準(zhǔn)。
讓我們一起深入了解這個名為M?FinMeeting的數(shù)據(jù)集,看看它如何解決金融會議理解中的核心挑戰(zhàn),以及它對金融科技發(fā)展的深遠(yuǎn)影響。
一、為什么我們需要一個金融會議理解數(shù)據(jù)集?
想象一下,你是一位金融分析師,每周需要參加十幾場長達(dá)兩小時的投資會議、季度財報電話會或行業(yè)討論會。會后,你需要整理會議要點、回答同事的問題,以及提取關(guān)鍵的問答內(nèi)容用于后續(xù)分析。這些工作不僅耗時,還容易出現(xiàn)遺漏或誤解。如果有一個人工智能助手能幫你自動總結(jié)會議內(nèi)容,提取重要問答,并回答你的疑問,那將大大提高工作效率。
然而,現(xiàn)有的金融領(lǐng)域人工智能評估基準(zhǔn)大多基于新聞文章、收益報告或公告,很少涉及真實的金融會議場景。比如,英文領(lǐng)域有FinQA、ConvFinQA、FLUE等數(shù)據(jù)集,中文領(lǐng)域有CFLUE和CCKS系列共享任務(wù),但這些數(shù)據(jù)集大多來源于金融新聞和收益報告,缺乏真實金融會議的內(nèi)容,而且通常只支持單一語言(英文或中文)。
金融會議與新聞報道或財報有著本質(zhì)區(qū)別。會議是一個動態(tài)交互的過程,參與者之間的討論、提問和回答構(gòu)成了復(fù)雜的信息網(wǎng)絡(luò)。會議內(nèi)容往往冗長、非結(jié)構(gòu)化,且充滿了行業(yè)術(shù)語和專業(yè)知識。因此,理解和處理金融會議內(nèi)容需要特殊的評估基準(zhǔn)。
正是基于這一需求,研究團(tuán)隊開發(fā)了M?FinMeeting數(shù)據(jù)集,它具有三個關(guān)鍵特點:
首先,M?FinMeeting支持多語言,包括英語、中文和日語,這使得模型能夠在不同語言環(huán)境下理解金融討論。
其次,它涵蓋全球行業(yè)分類標(biāo)準(zhǔn)(GICS)定義的所有11個行業(yè)部門,確保評估基準(zhǔn)覆蓋廣泛的金融活動范圍。
最后,M?FinMeeting包含三個任務(wù):摘要生成、問答對提取和問題回答,這些任務(wù)貼近金融專業(yè)人士的實際需求,提供了更全面的理解能力評估。
二、M?FinMeeting數(shù)據(jù)集的構(gòu)建與特點
M?FinMeeting數(shù)據(jù)集不是憑空想象出來的,而是基于數(shù)百個真實金融會議精心構(gòu)建的。研究團(tuán)隊首先收集了大量金融會議的音頻文件,包括公開路演、券商策略會議、行業(yè)交流會和財報說明會等各類會議。收集過程遵循四個標(biāo)準(zhǔn):時效性(大多數(shù)會議應(yīng)來自近年)、長度(優(yōu)先選擇較長的音頻文件)、分類性(音頻文件必須符合GICS中定義的類別)以及權(quán)威性(所有音頻文件均來自研究團(tuán)隊的金融公司合作伙伴,受版權(quán)保護(hù))。
收集到的音頻文件使用Whisper自動語音識別工具轉(zhuǎn)錄為文本,然后經(jīng)過人工校正。研究團(tuán)隊采取嚴(yán)格措施確保轉(zhuǎn)錄文本中不包含敏感或個人身份信息。最終,M?FinMeeting包含100個英語會議、400個中文會議和100個日語會議,每個會議平均持續(xù)一小時左右。
這個數(shù)據(jù)集的規(guī)模令人印象深刻。英文會議平均包含10,086個標(biāo)記(token),中文會議平均11,740個標(biāo)記,日語會議平均13,284個標(biāo)記??紤]到金融會議通常持續(xù)一到兩小時,這些長文本數(shù)據(jù)為評估大型語言模型處理長上下文的能力提供了理想的測試場景。
M?FinMeeting數(shù)據(jù)集還按照文本長度分為五組:0-5K標(biāo)記、5-10K標(biāo)記、10-15K標(biāo)記、15-20K標(biāo)記和20K標(biāo)記以上。這種分組使研究者能夠評估模型在不同長度文本上的表現(xiàn)差異。同時,數(shù)據(jù)集涵蓋GICS定義的所有11個行業(yè)部門,包括通信服務(wù)、非必需消費品、必需消費品、能源、金融、醫(yī)療保健、工業(yè)、信息技術(shù)、材料、房地產(chǎn)和公用事業(yè),確保評估的全面性和代表性。
三、M?FinMeeting的三大核心任務(wù)
M?FinMeeting設(shè)計了三個核心任務(wù),這些任務(wù)都直接對應(yīng)金融專業(yè)人士的日常工作需求:摘要生成、問答對提取和問題回答。
### 摘要生成任務(wù)
想象一下,一場持續(xù)兩小時的投資策略會議結(jié)束后,你需要快速理解主要內(nèi)容并向團(tuán)隊匯報。這時,一個能夠自動生成會議摘要的工具將非常有價值。
摘要生成任務(wù)旨在評估大型語言模型有效壓縮冗長演講內(nèi)容同時保留主要觀點的能力。典型的轉(zhuǎn)錄文本可以根據(jù)討論主題劃分為多個部分,每個部分都有自己的摘要,這些部分摘要按順序連接起來形成整個文檔的摘要。
在這個任務(wù)中,大型語言模型需要隱式識別文檔的不同部分,然后從每個部分提取關(guān)鍵點。根據(jù)統(tǒng)計,平均而言,一個英語會議包含9.20個部分摘要,總計927個標(biāo)記。在標(biāo)記級別上,原文與摘要的壓縮比為10.88,在句子級別上為10.49。
### 問答對提取任務(wù)
在金融會議中,問答環(huán)節(jié)往往包含最有價值的信息。投資者可能會詢問公司的戰(zhàn)略方向、財務(wù)狀況或市場預(yù)期,而管理層的回答提供了深入了解公司運營和前景的窗口。
問答對提取任務(wù)涉及從轉(zhuǎn)錄的金融會議中識別和提取相關(guān)的問答對。這對于分析討論內(nèi)容和使關(guān)鍵見解易于獲取至關(guān)重要。要成功執(zhí)行這項任務(wù),大型語言模型必須識別會議中提出的各類問題,并準(zhǔn)確定位其對應(yīng)的答案。
例如,像"我們剛才在討論什么?"這樣缺乏實質(zhì)性信息的問題應(yīng)該被忽略。此外,參與者可能一次提出多個問題,而回答可能按順序逐一解決這些問題。這種復(fù)雜性要求大型語言模型能夠理解對話的結(jié)構(gòu),正確地將每個問題與其答案配對。
根據(jù)統(tǒng)計,英語會議平均包含17.23個問答對,每個問題平均長度為17.62個標(biāo)記,每個答案平均長度為110.19個標(biāo)記。
### 問題回答任務(wù)
問題回答任務(wù)評估大型語言模型定位知識的能力,這對于有效的長上下文處理至關(guān)重要。為簡化起見,研究團(tuán)隊使用上述提取的問答對作為這項任務(wù)的基礎(chǔ)。
正如前面提到的,轉(zhuǎn)錄的演講文本可以劃分為多個部分,問答任務(wù)測試大型語言模型在指定部分內(nèi)查找證據(jù)的能力,而其他包含相似但不相關(guān)內(nèi)容的部分則作為干擾。這種設(shè)置確保了對模型信息檢索技能的集中評估。
四、實驗評估:七種大型語言模型的表現(xiàn)
研究團(tuán)隊使用M?FinMeeting評估了七種具有代表性的大型語言模型,包括兩種OpenAI的GPT模型和五種開源大型語言模型:
1. GPT-4o-2024-08-06-128K 2. GPT-3.5.turbo-0125-16K 3. GLM4-9B-Chat-1000K 4. Llama3.1-8b-Instruct-128K 5. Qwen2-7B-chat-128K 6. Qwen2-72B-Instruct-128K 7. Qwen2.5-72B-Instruct-128K
所有模型都支持M?FinMeeting中的語言。實驗采用零樣本設(shè)置,即不使用任何訓(xùn)練樣本,直接測試模型的能力。
對于摘要生成任務(wù),研究團(tuán)隊要求大型語言模型隱式識別文檔部分并生成單獨的摘要,然后將這些摘要組合成最終的文檔摘要。對于問答對提取任務(wù),首先提示大型語言模型提取所有問題,然后按順序為每個問題提供答案。對于問題回答任務(wù),研究團(tuán)隊將相關(guān)問題組合到一個提示中,允許大型語言模型生成包含所有答案的綜合響應(yīng)。
研究團(tuán)隊使用多種指標(biāo)評估模型性能,包括精確度、召回率和F1分?jǐn)?shù)。同時,他們使用GPT-4作為評判(GPT-4-Judge)來評估文檔級摘要和生成的問答對,基于五個標(biāo)準(zhǔn):覆蓋率、冗余度、可讀性、準(zhǔn)確性和一致性,分?jǐn)?shù)范圍從0到100。為了驗證評估的公正性,研究團(tuán)隊還使用Qwen-plus作為替代評判模型,并進(jìn)行了人工評估。
實驗結(jié)果顯示,七種大型語言模型可分為三組:
第一組包括Qwen2.5-72B-Instruct、Qwen2-72B-Instruct和GPT-4o,它們的整體GPT-4-Judge分?jǐn)?shù)接近或超過70.0。其中,Qwen2.5-72B-Instruct表現(xiàn)最佳,其次是GPT-4o和Qwen2-72B-Instruct,它們的表現(xiàn)相當(dāng)。
第二組包括Qwen2-7B-Instruct和GLM4-9B-Chat,它們的分?jǐn)?shù)約為60.0。
第三組包括GPT-3.5-turbo和LLaMA3.1-8B-Instruct,其中LLaMA3.1-8B-Instruct優(yōu)于GPT-3.5-turbo。
在摘要生成任務(wù)中,所有模型的部分級別摘要的精確度、召回率和F1分?jǐn)?shù)都低于30%,表明生成的摘要與參考摘要之間的一致性較低。這些低分?jǐn)?shù)表明大型語言模型在語義準(zhǔn)確性和文檔分段方面都存在困難。
在問答對提取任務(wù)中,精確度、召回率和F1分?jǐn)?shù)同樣較低,表明生成的問題與參考問題之間的一致性較低。例如,即使是表現(xiàn)最好的Qwen2.5-72B-Instruct,其召回率也只有45.65%,這意味著它錯過了一半以上的參考問題。這突顯了提取相關(guān)問答對的任務(wù)還有很大的改進(jìn)空間。
在問題回答任務(wù)中,所有大型語言模型的表現(xiàn)——由精確度、召回率、F1和GPT-4-Judge分?jǐn)?shù)衡量——明顯優(yōu)于問答對提取任務(wù)。這種差異并不令人意外,因為在問題回答任務(wù)中,問題是在提示中明確提供的。高F1分?jǐn)?shù)(超過90%)表明大多數(shù)大型語言模型能夠很好地遵循指令并正確重復(fù)問題。
研究團(tuán)隊還分析了不同語言、不同行業(yè)部門和不同輸入長度對模型性能的影響。他們發(fā)現(xiàn),大多數(shù)模型在日語中表現(xiàn)最佳,但在中文或英語中沒有明顯優(yōu)勢。在行業(yè)部門方面,通信服務(wù)、非必需消費品和信息技術(shù)在摘要生成和問題回答任務(wù)中通常獲得較高的GPT-4-Judge分?jǐn)?shù),但問答對提取任務(wù)的表現(xiàn)趨勢更為復(fù)雜,各部門之間的差異更大。對于輸入長度,一個關(guān)鍵觀察是GPT-3.5-turbo的性能在輸入超過15K標(biāo)記時急劇下降,這是由于它的16K標(biāo)記上下文限制。相比之下,Qwen2.5-72B-Instruct和GPT-4o在三個任務(wù)中展示了穩(wěn)定且出色的性能,特別是在處理超過15K標(biāo)記的較長上下文時表現(xiàn)卓越。
研究團(tuán)隊還探索了基于檢索增強(qiáng)生成(RAG)的問題回答方法,其中大型語言模型基于檢索的文檔塊單獨回答問題。實驗結(jié)果表明,對于超過15K標(biāo)記的文檔,在單個響應(yīng)中回答所有問題(基線1)優(yōu)于所有其他一次回答一個問題的變體。此外,對于在文檔長度超過10K標(biāo)記時一次回答一個問題的變體,研究團(tuán)隊發(fā)現(xiàn)較大的上下文會導(dǎo)致更好的性能,具體為:基線2 > RAG(前5) > RAG(前3) > RAG(前1)。值得注意的是,RAG(前5)僅在文檔短于10K標(biāo)記時優(yōu)于非RAG變體。
五、研究的意義與影響
M?FinMeeting數(shù)據(jù)集的開發(fā)填補(bǔ)了金融領(lǐng)域人工智能評估基準(zhǔn)的重要空白。與現(xiàn)有的基準(zhǔn)相比,M?FinMeeting更接近真實世界的金融場景,能夠更全面地評估大型語言模型在理解金融會議方面的能力。
這項研究的意義不僅限于學(xué)術(shù)層面。在實際應(yīng)用中,一個能夠有效理解金融會議的人工智能助手將極大地提高金融專業(yè)人士的工作效率。想象一下,投資分析師可以使用這樣的助手自動總結(jié)冗長的季度財報電話會議,提取關(guān)鍵問答,并回答特定問題,從而節(jié)省大量時間并減少信息遺漏的風(fēng)險。
此外,M?FinMeeting的多語言特性使其能夠支持全球金融市場的應(yīng)用。隨著全球金融一體化的深入,跨語言理解變得越來越重要。一個能夠同時處理英語、中文和日語金融會議的模型將為國際金融機(jī)構(gòu)提供巨大價值。
然而,實驗結(jié)果也揭示了當(dāng)前大型語言模型在處理金融會議理解任務(wù)時的局限性。即使是最先進(jìn)的長上下文模型,如Qwen2.5-72B-Instruct,在某些任務(wù)上的表現(xiàn)仍有顯著提升空間。這表明金融會議理解仍然是一個具有挑戰(zhàn)性的問題,需要進(jìn)一步的研究和創(chuàng)新。
未來的研究可能會探索結(jié)構(gòu)化建模方法,如朱杰等人在2019年提出的方法,以改進(jìn)長輸入上下文的處理。此外,針對金融領(lǐng)域的特定預(yù)訓(xùn)練和微調(diào)策略可能會進(jìn)一步提高模型在M?FinMeeting任務(wù)上的表現(xiàn)。
六、結(jié)論與未來展望
M?FinMeeting作為一個多語言、多行業(yè)、多任務(wù)的金融會議理解評估數(shù)據(jù)集,為評估大型語言模型在金融領(lǐng)域的能力提供了寶貴的資源。它不僅彌補(bǔ)了現(xiàn)有金融評估基準(zhǔn)的不足,還為未來的研究指明了方向。
實驗結(jié)果表明,雖然當(dāng)前最先進(jìn)的大型語言模型在處理金融會議理解任務(wù)時取得了一定成功,但仍然面臨挑戰(zhàn),特別是在摘要生成和問答對提取任務(wù)上。這些挑戰(zhàn)為未來的研究提供了機(jī)會,推動金融領(lǐng)域人工智能技術(shù)的進(jìn)一步發(fā)展。
隨著大型語言模型技術(shù)的不斷進(jìn)步,我們可以期待未來會出現(xiàn)更強(qiáng)大的金融會議理解系統(tǒng),這些系統(tǒng)將能夠更準(zhǔn)確地總結(jié)會議內(nèi)容,提取關(guān)鍵問答,并回答特定問題。這將為金融專業(yè)人士提供強(qiáng)大的輔助工具,提高工作效率,并可能改變金融信息處理的方式。
M?FinMeeting數(shù)據(jù)集及其項目已在GitHub上公開發(fā)布(https://github.com/aliyun/qwen-dianjin),有興趣的讀者可以訪問該鏈接獲取更多信息和資源。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強(qiáng)于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。