在2025年5月26日,一個由丹麥奧爾堡大學(xué)的馬傳濤和阿里吉特·汗,中國東南大學(xué)的陳永瑞和吳天星,以及中國同濟大學(xué)的王浩芬組成的國際研究團隊,在arXiv預(yù)印本平臺發(fā)表了一篇題為《大語言模型遇上知識圖譜的問答系統(tǒng):綜合與機遇》(Large Language Models Meet Knowledge Graphs for Question Answering: Synthesis and Opportunities)的研究論文。這篇論文全面梳理了大語言模型(LLMs)與知識圖譜(KGs)在問答系統(tǒng)中的結(jié)合方式,為這一快速發(fā)展的領(lǐng)域提供了系統(tǒng)性的指導(dǎo)。有興趣深入了解的讀者可通過arXiv:2505.20099v1 [cs.CL]訪問完整論文。
想象一下,你向谷歌助手或Siri提問:"誰是世界上最富有的人?他是如何積累財富的?"這看似簡單的問題背后,隱藏著人工智能必須克服的巨大挑戰(zhàn)。大語言模型(LLMs)憑借其強大的自然語言理解和生成能力,在問答任務(wù)上表現(xiàn)出色。然而,就像一個博覽群書但記憶有時會出錯的朋友,LLM在面對復(fù)雜問題時,常常會"編造"答案、使用過時知識,或者在推理過程中迷失方向。
知識圖譜就像是一本精確的百科全書,里面記錄著各種實體(如人物、地點、組織)之間的關(guān)系,形成一張巨大的關(guān)系網(wǎng)絡(luò)。如果我們能讓LLM在回答問題時參考這本"百科全書",是不是就能避免它"編故事"的問題呢?
這正是研究團隊探討的核心問題。他們發(fā)現(xiàn),雖然檢索增強生成(RAG)技術(shù)已經(jīng)能夠讓LLM參考外部文檔來回答問題,但在處理復(fù)雜問題時,RAG方法仍存在知識沖突、檢索內(nèi)容質(zhì)量不佳、缺乏迭代推理能力等限制。而將LLM與知識圖譜結(jié)合,形成一種"圖檢索增強生成"(GraphRAG)或"知識圖譜檢索增強生成"(KG-RAG)的方法,能夠更好地解決這些挑戰(zhàn)。
論文作者創(chuàng)新性地提出了一個結(jié)構(gòu)化分類法,基于問答類型和知識圖譜在與LLM結(jié)合時所扮演的角色進行分類。他們系統(tǒng)性地綜述了當前最先進的LLM+KG問答方法,比較分析了這些方法的優(yōu)勢、局限性及知識圖譜要求,并討論了這些方法如何應(yīng)對不同類型復(fù)雜問答任務(wù)的主要挑戰(zhàn)。
讓我們一起深入了解這個令人興奮的交叉領(lǐng)域,看看當語言的藝術(shù)家(LLM)遇上知識的守護者(KG)時,會碰撞出怎樣的智慧火花。
一、復(fù)雜問答系統(tǒng)的挑戰(zhàn)與分類
想象你是一個歷史愛好者,向AI助手提問:"誰是二戰(zhàn)期間法國的領(lǐng)導(dǎo)人,他們與英國首相丘吉爾的關(guān)系如何?"這個問題涉及多個人物、時間段和復(fù)雜關(guān)系,如果AI僅靠自己"記憶"中的知識回答,很可能會出現(xiàn)錯誤。研究團隊將這類需要多步驟、多來源信息處理的問題稱為"復(fù)雜問答"。
根據(jù)處理挑戰(zhàn)的不同,研究者將復(fù)雜問答系統(tǒng)分為六大類:
首先是多文檔問答系統(tǒng)。這類系統(tǒng)就像一位圖書館管理員,能夠從多本書中找出相關(guān)信息并綜合回答。例如,KGP系統(tǒng)(由Wang等人在2024年開發(fā))通過LLM驅(qū)動的圖遍歷代理來檢索知識圖譜中的相關(guān)知識,減少了檢索延遲并提高了檢索內(nèi)容質(zhì)量。CuriousLLM(Yang和Zhu在2025年提出)則整合了知識圖譜提示、推理增強的LLM代理和圖遍歷代理,增強LLM處理多文檔問題的能力。
第二類是多模態(tài)問答系統(tǒng)。它們就像能同時理解文字、圖像甚至聲音的全能翻譯官。視覺問答(VQA)是這類系統(tǒng)的典型代表。例如,MMJG(Wang等人在2022年提出)引入了自適應(yīng)知識選擇機制,從視覺和文本知識中聯(lián)合選擇信息。RAMQA(Bai等人在2025年開發(fā))通過多任務(wù)學(xué)習(xí)方式增強了多模態(tài)檢索增強問答系統(tǒng)。KVQA(Dong等人在2024年提出)則通過兩階段提示和偽孿生圖譜媒介融合來平衡模態(tài)內(nèi)和模態(tài)間推理。
第三類是多跳問答系統(tǒng)。這類系統(tǒng)就像解決一個需要多步驟的數(shù)學(xué)題,將復(fù)雜問題分解為多個簡單問題,逐步求解后再整合答案。GraphLLM(Qiao等人在2024年提出)利用LLM將多跳問題分解為多個子問題,并通過圖神經(jīng)網(wǎng)絡(luò)和LLM檢索子圖,基于圖推理生成子問題的答案。HOLMES(Panda等人在2024年提出)利用基于實體-文檔圖構(gòu)建的上下文感知超關(guān)系知識圖譜增強LLM的多跳問答能力。GMeLLo(Chen等人在2024年提出)通過事實三元組提取、關(guān)系鏈提取和查詢答案生成,有效整合KG的顯式知識與LLM的語言知識。
第四類是多輪對話和會話式問答系統(tǒng)。這類系統(tǒng)就像一個擅長"聽懂言外之意"的交談伙伴,能夠理解問題和中間交互。CoRnNetA(Liu等人在2024年提出)引入了基于LLM的問題重構(gòu)、強化學(xué)習(xí)代理和軟獎勵機制,以改善多輪交互的解釋。會話式問答涉及多輪交互,通過多次對話來精煉并獲得準確答案。LLMs-Graph-Reasoning(Chen等人在2024年提出)引入知識聚合模塊和圖推理,實現(xiàn)圖與LLM之間的聯(lián)合推理,解決理解問題和上下文的挑戰(zhàn)。SELF-multiRAG(Roy等人在2024年提出)利用LLM從會話歷史摘要中檢索并重用檢索到的知識進行增強。
第五類是可解釋問答系統(tǒng)。這類系統(tǒng)不僅能給出答案,還能像一位耐心的老師解釋推理過程。RoHT(Zhang等人在2023年提出)基于構(gòu)建的分層問題分解樹實現(xiàn)概率推理,從而實現(xiàn)多源知識的有效整合。EXPLAIGNN(Christmann等人在2023年提出)從檢索的KB知識和用戶解釋構(gòu)建異構(gòu)圖,并基于帶有問題級注意力的GNN生成解釋性證據(jù)。RID(Feng等人在2025年提出)直接基于強化學(xué)習(xí)驅(qū)動的知識蒸餾將無監(jiān)督檢索與LLM整合。
最后一類是時間問答系統(tǒng)。這類系統(tǒng)能理解問題中隱含的時間約束,并有效地將其與時間知識結(jié)合進行推理。TimeR4(Qian等人在2024年提出)通過檢索-檢索-重排管道,通過基于時間知識的微調(diào)來增強LLM的時間推理能力。GenTKGQA(Gao等人在2024年提出)引入時間GNN和虛擬知識指示器捕獲時間知識嵌入,并將檢索到的子圖動態(tài)集成到LLM中進行時間推理。KG-IRAG(Yang等人在2025年提出)使LLM能夠增量檢索知識并評估其充分性,以增強LLM回答涉及時間依賴的時間敏感和事件驅(qū)動查詢的能力。
二、LLM與知識圖譜結(jié)合的方法論
如果將LLM比作一位博學(xué)多才但偶爾會記錯事的演講者,知識圖譜則像一本事實詳盡的參考書。研究者們發(fā)現(xiàn),根據(jù)知識圖譜在與LLM結(jié)合時扮演的角色不同,可以將LLM+KG的方法分為三大類:背景知識、推理指南以及驗證者和優(yōu)化器。
### 知識圖譜作為背景知識
當知識圖譜作為背景知識時,它就像是LLM的"外部記憶庫",提供準確的事實信息供LLM參考。這類方法主要有兩種技術(shù)范式:知識整合與融合,以及檢索增強生成。
知識整合與融合就像是將參考書的內(nèi)容直接"植入"到演講者的大腦中。研究者們通過局部子圖提取和實體鏈接對知識圖譜和文本進行對齊,然后輸入到跨模態(tài)編碼器中,雙向融合文本和知識圖譜以聯(lián)合訓(xùn)練語言模型。為了解決知識遺忘和噪聲知識問題,InfuserKI(Wang等人在2024年提出)和KEFF(Zhao等人在2025年提出)分別引入了自適應(yīng)選擇和知識增強過濾器,選擇新知識并將其與LLM整合。用文本和知識圖譜微調(diào)LLM可以提高其在特定任務(wù)上的表現(xiàn)。例如,KG-Adapter(Tian等人在2024年提出)通過向LLM引入知識適應(yīng)層改進了參數(shù)高效微調(diào)。GAIL(Zhang等人在2024年提出)基于從知識圖譜檢索的SPARQL-問題對微調(diào)LLM,用于輕量級KGQA模型。
檢索增強生成(RAG)則像是演講者在演講過程中不斷查閱參考書。它首先基于向量相似度檢索從文本塊中檢索相關(guān)知識,然后通過將檢索到的上下文與LLM整合來增強LLM。然而,主流RAG方法從文本塊中檢索相關(guān)知識,忽略了這些文本塊的結(jié)構(gòu)化信息和相互關(guān)系。為了緩解這一限制,研究者提出了Graph RAG和KG-RAG。Graph RAG直接從圖數(shù)據(jù)中檢索相關(guān)知識。GRAG(Hu等人在2024年提出)從文本圖中檢索top-k相關(guān)子圖,然后通過基于GNN聚合和對齊圖嵌入與文本向量將檢索到的子圖與查詢集成。LEGO-GraphRAG(Cao等人在2024年提出)將檢索過程分解為子圖提取、路徑過濾和路徑細化模塊,從而提高LLM利用檢索知識的推理能力。KG2RAG(Zhu等人在2025年提出)從知識圖譜中檢索相關(guān)子圖,并用檢索到的知識圖譜擴展文本塊以增強生成。
### 知識圖譜作為推理指南
知識圖譜不僅可以提供事實信息,還可以指導(dǎo)LLM的推理過程。就像是一位導(dǎo)游不僅告訴你景點的信息,還會指導(dǎo)你如何規(guī)劃最佳游覽路線。根據(jù)知識圖譜參與LLM推理過程的方式,這類方法可分為離線知識圖譜指南、在線知識圖譜指南和基于代理的知識圖譜指南。
離線知識圖譜指南在LLM推理過程前提供潛在路徑或子圖,LLM從中選擇最相關(guān)的路徑進行推理。例如,SR(Zhang等人在2022年提出)訓(xùn)練了獨立于下游推理過程的子圖檢索器,而Keqing(Wang等人在2023年提出)使用預(yù)定義模板分解復(fù)雜問題,從知識圖譜中檢索候選實體和三元組。EtD(Liu等人在2024年提出)首先使用GNN識別有前途的候選項并提取與問題相關(guān)的細粒度知識,然后創(chuàng)建知識增強的多項選擇提示引導(dǎo)LLM生成最終答案。最近的研究開始探索新型指南格式的應(yīng)用。GCR(Luo等人在2024年提出)首先將知識圖譜轉(zhuǎn)換為KG-Trie,然后開發(fā)圖約束解碼和輕量級LLM來生成多個推理路徑和候選答案。KELDaR(Li等人在2024年提出)引入問題分解和原子檢索模塊提取隱式信息,并從知識圖譜中檢索相關(guān)子圖以增強LLM進行問答。
在線知識圖譜指南強調(diào)知識圖譜直接參與LLM的推理過程,而不僅僅依賴現(xiàn)有靜態(tài)知識。例如,Oreo(Hu等人在2022年提出)使用知識圖譜上的上下文化隨機游走,并通過特定層進行單步推理。KBIGER(Du等人在2022年提出)考慮第(k-1)步推理圖構(gòu)建第k步推理指令,并糾正中間實體的錯誤預(yù)測。LLM-ARK(Huang在2023年提出)將推理任務(wù)視為順序決策過程,并采用近端策略優(yōu)化進行優(yōu)化。ToG(Sun等人在2024年提出)允許LLM在知識圖譜上迭代執(zhí)行波束搜索,生成最有希望的推理路徑和最可能的推理結(jié)果。相比之下,ToG-2(Ma等人在2025年提出)利用實體作為中介,基于文檔與知識圖譜之間的迭代檢索引導(dǎo)LLM生成精確答案。KG-CoT(Zhao等人在2024年提出)利用外部知識圖譜生成推理路徑,實現(xiàn)LLM和知識圖譜的聯(lián)合推理,增強LLM的問答推理能力。
基于代理的知識圖譜指南將知識圖譜集成到LLM的推理過程中,作為代理系統(tǒng)的組件。這種集成允許代理利用結(jié)構(gòu)化知識增強LLM的決策和問題解決能力。KG-Agent(Jiang等人在2024年提出)是一個多功能工具箱,集成LLM與基于知識圖譜的執(zhí)行器和知識記憶系統(tǒng),自主選擇工具并更新記憶以增強LLM在知識圖譜上的推理。ODA(Sun等人在2024年提出)通過全局觀察方法融合知識圖譜推理能力,采用觀察、行動和反思的循環(huán)范式改進推理能力。GREASELM(Zhang等人在2021年提出)通過引入多種模態(tài)交互層,有效整合來自語言模型和圖神經(jīng)網(wǎng)絡(luò)的編碼表示,無縫融合結(jié)構(gòu)化知識與語言上下文。
### 知識圖譜作為驗證者和優(yōu)化器
知識圖譜還可以扮演"事實核查員"的角色,幫助LLM驗證和細化中間答案。這類方法分為知識圖譜驅(qū)動的過濾和驗證,以及知識圖譜增強的輸出細化。
知識圖譜驅(qū)動的過濾和驗證通過結(jié)構(gòu)化和已驗證的信息過濾和驗證LLM的候選答案,提高輸出的準確性和可靠性。例如,ACT-Selection(Salnikov等人在2023年提出)基于從Wikidata提取的類型過濾和重新排序答案候選。Q-KGR(Zhang等人在2024年提出)通過基于問題和知識之間相關(guān)性得分排名過濾掉不相關(guān)知識,提高LLM的推理能力。知識圖譜可以提高生成答案的事實準確性,如KG-Rank(Yang等人在2024年提出)集成醫(yī)療知識圖譜與重排技術(shù),增強生成響應(yīng)的可信度。此外,KGR(Guan等人在2024年提出)自主提取和驗證事實陳述,顯著提升事實問答性能。
知識圖譜增強的輸出細化則是將知識圖譜與LLM集成,以提高LLM輸出的清晰度和準確性。EFSUM(Ko等人在2024年提出)將LLM作為事實摘要器,從知識圖譜生成相關(guān)摘要,從而提高零樣本問答性能。InteractiveKBQA(Xiong等人在2024年提出)實現(xiàn)迭代知識交互,使LLM能夠生成邏輯形式并基于用戶反饋細化輸出。LPKG(Wang等人在2024年提出)用知識圖譜派生的規(guī)劃數(shù)據(jù)微調(diào)LLM,增強LLM在復(fù)雜問答中的復(fù)雜推理規(guī)劃能力。
### 混合方法與優(yōu)化技術(shù)
除了單一角色外,研究者們還探索了知識圖譜在與LLM結(jié)合時扮演多重角色的混合方法。例如,KG-RAG(Sanmartin在2024年提出)引入了探索鏈(Chain-of-Explorations,CoE)基于向量相似度對節(jié)點或關(guān)系進行排名并獲取top-k項,從而選擇最相關(guān)知識并輸入LLM生成最終答案。LongRAG(Zhao等人在2024年提出)基于混合檢索器檢索top-k最相關(guān)塊,并通過引入CoT引導(dǎo)過濾器分析它們與查詢的相關(guān)性。此外,知識圖譜增強提示被引入LLM以增強最終答案的生成。在KG-Rank(Yang等人在2024年提出)中,引入多種排序方法來細化檢索到的三元組,以最相關(guān)知識增強推理。FRAG(Zhao在2024年提出)引入推理感知和靈活檢索模塊從知識圖譜中檢索推理路徑,從而引導(dǎo)和增強LLM的高效推理和答案生成。KGQA(Ji等人在2024年提出)結(jié)合CoT提示與圖檢索,提高檢索質(zhì)量和LLM的多跳推理能力。
為了緩解現(xiàn)有方法在統(tǒng)一LLM和知識圖譜進行復(fù)雜問答時的低效率和高計算成本問題,研究者們提出了幾種優(yōu)化技術(shù):
基于索引的優(yōu)化旨在加速學(xué)習(xí)嵌入和向量存儲過程。例如,PG-RAG(Liang等人在2024年提出)提出基于LLM的動態(tài)自適應(yīng)知識檢索索引,能有效處理復(fù)雜查詢并改善RAG系統(tǒng)在問答任務(wù)中的整體性能。
基于提示的優(yōu)化主要通過提示工程增強提示質(zhì)量。例如,KGP(Wang等人在2024年提出)提出知識圖譜提示方法增強LLM提示并優(yōu)化知識檢索,引入知識圖譜構(gòu)建模塊和基于LLM的圖遍歷代理。
基于成本的優(yōu)化旨在通過減少對LLM的調(diào)用次數(shù)和加速知識檢索來最小化計算成本。特別是,SPOKE KG-RAG(Soman等人在2024年提出)提出基于令牌的優(yōu)化KG-RAG框架,將知識圖譜的顯式和隱式知識與LLM集成,增強LLM的成本效益問答能力。
三、評估指標與基準數(shù)據(jù)集
為了全面評估LLM+KG問答系統(tǒng)的性能,研究者們開發(fā)了一系列評估指標和基準數(shù)據(jù)集。
評估指標主要分為三類:答案質(zhì)量指標、檢索質(zhì)量指標和推理質(zhì)量指標。答案質(zhì)量指標包括BERTScore、答案相關(guān)性、幻覺度、準確性匹配和人工驗證完整性等。檢索質(zhì)量指標包括上下文相關(guān)性、忠實度得分、精確度、上下文召回率、平均倒數(shù)排名和標準化折扣累積增益等。推理質(zhì)量指標則包括跳躍準確率和推理準確率等。
基準數(shù)據(jù)集方面,研究者們總結(jié)了許多專為評估LLM+KG問答系統(tǒng)設(shè)計的數(shù)據(jù)集,如WebQSP、BioASQ-QA、CAQA、CR-LT KGQA、EXAQT等。這些數(shù)據(jù)集覆蓋了不同類型的問答任務(wù),包括基于知識庫的問答、多選題問答、多跳問答、多模態(tài)問答、時間問答等,為研究者提供了全面的評估環(huán)境。
此外,研究團隊還展示了LLM+KG問答系統(tǒng)在工業(yè)和科學(xué)應(yīng)用中的實際案例。例如,螞蟻集團的KAG是一個領(lǐng)域知識增強生成框架,利用知識圖譜和向量檢索雙向增強LLM用于知識密集型任務(wù)。微軟的PIKE-RAG則是一個專門知識和基本原理增強生成系統(tǒng),專注于提取、理解和應(yīng)用領(lǐng)域特定知識引導(dǎo)LLM生成準確響應(yīng)。NebulaGraph的GraphRAG-QA整合了多種查詢引擎,增強問答能力。此外還有南洋理工大學(xué)等機構(gòu)開發(fā)的MedRAG,弗勞恩霍夫IAIS和拜耳共同開發(fā)的Fact Finder,以及滑鐵盧大學(xué)的AprèsCoT等應(yīng)用案例。
四、未來挑戰(zhàn)與機遇
盡管LLM+KG問答系統(tǒng)取得了顯著進展,但研究者們指出,這一領(lǐng)域仍面臨幾個關(guān)鍵挑戰(zhàn):
首先是有效性和效率的平衡問題。LLM+KG系統(tǒng)在檢索事實和執(zhí)行多跳推理時面臨嚴格的延遲和內(nèi)存預(yù)算限制。三個瓶頸正在浮現(xiàn):結(jié)構(gòu)感知檢索、分攤推理和輕量級答案驗證。研究者們建議通過層次圖分區(qū)、動態(tài)鄰域擴展和學(xué)習(xí)路徑先驗提案網(wǎng)絡(luò)等方式暴露結(jié)構(gòu)給檢索器,同時保持索引的次線性特性。此外,通過緩存子圖、重用中間嵌入和利用增量計算友好的硬件可以緩解迭代推理的二次級爆炸。輕量級答案驗證方面,概率邏輯程序或布隆過濾器草圖可以提供具有O(1)附加參數(shù)的設(shè)備內(nèi)驗證。一個機會是設(shè)計檢索器和驗證器,使前者的不確定性估計指導(dǎo)后者的選擇性執(zhí)行。
其次是知識對齊和動態(tài)集成的挑戰(zhàn)。一旦知識圖譜快照被注入LLM,它就開始過時,而現(xiàn)實世界的知識圖譜通常涉及添加新實體、刪除關(guān)系和解決矛盾。未來工作應(yīng)量化對齊度,不僅評分語義重疊,還評估LLM中的參數(shù)知識與知識圖譜中的符號知識之間的結(jié)構(gòu)兼容性。對比探測與合成反事實或拓撲感知對齊損失可能填補這一空白。此外,參數(shù)高效調(diào)整(如按圖增量鍵控的LoRA模塊)和檢索時修補(帶有時間索引的流式知識圖譜)是朝向流時間知識對齊的早期步驟。檢測和解決沖突方面,貝葉斯信任網(wǎng)絡(luò)、源感知知識蒸餾和多代理辯論協(xié)議可以估計和協(xié)調(diào)跨模態(tài)和來源的置信度分數(shù)。將這些納入解碼目標是一個具有高回報的開放挑戰(zhàn)。
最后是可解釋和公平感知的問答系統(tǒng)。LLM的規(guī)模對問答中的可解釋性和公平性提出了挑戰(zhàn)。雖然集成知識圖譜提供了通向可解釋推理的路徑,但它也引入了計算挑戰(zhàn)和公平性問題。未來工作可以考慮以下方向:子圖推理、公平感知知識檢索和多輪問答。從大規(guī)模知識圖譜檢索子圖計算昂貴,常導(dǎo)致過于復(fù)雜或難以理解的解釋。結(jié)構(gòu)感知檢索和重排方法應(yīng)用于識別與黃金路徑一致的子圖。此外,CoT提示可引導(dǎo)LLM生成基于檢索子圖的顯式推理步驟。LLM可以從訓(xùn)練數(shù)據(jù)中捕獲社會偏見,但知識圖譜可能包含不完整或有偏的知識,導(dǎo)致RAG中的公平性問題仍然存在。將公平感知技術(shù)納入知識圖譜檢索(如基于偏見檢測的重排)并將其與反事實提示集成可減輕偏見。單輪問答限制了多樣化視角的探索和推理過程的探索。開發(fā)具有能動態(tài)檢測和調(diào)整偏見的檢索策略的多輪問答,可通過多輪交互進一步提高可解釋性和公平性。
五、結(jié)論
歸根結(jié)底,這項研究系統(tǒng)地審視了LLM和知識圖譜在問答系統(tǒng)中的結(jié)合,提出了一個基于問答類型和知識圖譜角色的新型分類法。通過分析當前方法的優(yōu)勢和局限性,研究者們強調(diào)了利用知識圖譜增強LLM以克服有限推理能力、過時知識和幻覺等挑戰(zhàn)的潛力。
這一交叉領(lǐng)域已取得顯著進展,但仍面臨高效推理、知識對齊和可解釋問答等挑戰(zhàn)。未來研究應(yīng)著眼于開發(fā)能動態(tài)整合最新知識的自適應(yīng)框架,以及建立高效的方法來擴展推理、解釋和公平性。
對于我們普通用戶來說,這項研究意味著未來的AI助手將更加可靠、透明且公平。它們不僅能回答"誰是世界上最富有的人"這樣的簡單問題,還能處理"比較不同時期政治制度對經(jīng)濟發(fā)展的影響"這樣的復(fù)雜多步驟問題,同時清晰解釋其推理過程并避免社會偏見。
你是否想過,當AI能夠自動更新和整合新知識,同時保持推理的準確性和可解釋性時,它會如何改變我們獲取和處理信息的方式?這個領(lǐng)域的發(fā)展無疑將重塑我們與AI交互的未來。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。