大型語(yǔ)言模型(LLM)的飛速發(fā)展帶來了前所未有的應(yīng)用可能,但同時(shí)也伴隨著一個(gè)關(guān)鍵問題:幻覺。所謂"幻覺",簡(jiǎn)單來說就是模型生成的看似可信但實(shí)際上不準(zhǔn)確或完全虛構(gòu)的內(nèi)容。這就像一個(gè)口若懸河的朋友,他的故事聽起來很精彩,但事后你發(fā)現(xiàn)其中有不少情節(jié)是他憑空編造的。這個(gè)問題對(duì)于需要高度準(zhǔn)確性的場(chǎng)景(如信息檢索、問答系統(tǒng))尤為嚴(yán)重。
近日,來自丹麥奧爾堡大學(xué)和奧地利維也納工業(yè)大學(xué)的研究團(tuán)隊(duì)聯(lián)合發(fā)布了一項(xiàng)重要研究成果。由Ernests Lavrinovics、Russa Biswas、Katja Hose和Johannes Bjerva組成的團(tuán)隊(duì)在2025年5月20日發(fā)表了一篇題為《MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations》的論文,提出了一個(gè)創(chuàng)新的多語(yǔ)言、多跳基準(zhǔn)數(shù)據(jù)集,專門用于評(píng)估大型語(yǔ)言模型的幻覺問題。這項(xiàng)研究已發(fā)布在arXiv預(yù)印本平臺(tái)(arXiv:2505.14101v1)。
為什么我們需要MultiHal?
想象一下,你在城市中導(dǎo)航時(shí)依賴的地圖時(shí)不時(shí)會(huì)在不存在的地方標(biāo)出虛構(gòu)的道路或建筑。這顯然會(huì)讓你的旅程變得困難重重。同樣地,大型語(yǔ)言模型中的幻覺問題也會(huì)嚴(yán)重影響它們?cè)趯?shí)際應(yīng)用中的可靠性和有用性。雖然目前已有一些評(píng)估LLM幻覺的基準(zhǔn)數(shù)據(jù)集,但它們大多集中在英語(yǔ)內(nèi)容上,并且缺乏結(jié)構(gòu)化的事實(shí)性支持。
研究團(tuán)隊(duì)指出,現(xiàn)有的評(píng)估方法往往依賴網(wǎng)頁(yè)鏈接或文本段落作為補(bǔ)充信息,而忽略了已有的結(jié)構(gòu)化事實(shí)資源。就像在搜索信息時(shí),你可能會(huì)迷失在大量文本中,無法迅速找到關(guān)鍵點(diǎn)。而知識(shí)圖譜(Knowledge Graph,簡(jiǎn)稱KG)恰好提供了一種結(jié)構(gòu)清晰、信息精確的方式來表示實(shí)體及其關(guān)系,這種表示方式幾乎沒有語(yǔ)言冗余。
MultiHal正是為解決這些問題而誕生的。它利用Wikidata知識(shí)圖譜中的結(jié)構(gòu)化信息,為評(píng)估LLM的事實(shí)準(zhǔn)確性提供了一個(gè)多語(yǔ)言的評(píng)估框架。這就像為檢查員提供了一套精確的度量工具,可以從多個(gè)角度和多種語(yǔ)言環(huán)境下評(píng)估模型輸出的準(zhǔn)確性。
MultiHal數(shù)據(jù)集的構(gòu)建過程
構(gòu)建MultiHal數(shù)據(jù)集的過程就像是一位珠寶匠精心挑選和加工寶石的過程。研究團(tuán)隊(duì)首先從7個(gè)現(xiàn)有的幻覺評(píng)估基準(zhǔn)數(shù)據(jù)集中收集了共計(jì)31K個(gè)獨(dú)特問題,包括Felm、TruthfulQA、HaluEval、HaluBench、SimpleQA、DefAn和Shroom2024。這些數(shù)據(jù)集雖然有價(jià)值,但都缺乏知識(shí)圖譜支持和多語(yǔ)言能力。
接下來,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)完整的數(shù)據(jù)收集框架,該框架主要包括四個(gè)步驟:
首先,研究團(tuán)隊(duì)使用Falcon 2.0工具從問題和答案中提取核心語(yǔ)義實(shí)體,并將它們映射到Wikidata實(shí)體。這就像是一個(gè)翻譯過程,將自然語(yǔ)言文本中的關(guān)鍵概念轉(zhuǎn)換為知識(shí)圖譜中的明確實(shí)體。
其次,團(tuán)隊(duì)查詢Wikidata知識(shí)圖譜,尋找這些實(shí)體之間存在的路徑,最多允許兩跳。想象一下在一張巨大的關(guān)系網(wǎng)絡(luò)中,尋找從A點(diǎn)到B點(diǎn)的最短路徑,而且每條路徑都代表著可驗(yàn)證的事實(shí)關(guān)系。通過這一步,團(tuán)隊(duì)共挖掘了約140K條知識(shí)圖譜路徑。
第三步是評(píng)估和篩選這些路徑的質(zhì)量。團(tuán)隊(duì)采用了"LLM作為評(píng)判者"的方法,使用GPT-4o Mini模型對(duì)每條路徑進(jìn)行1-5分的評(píng)分,評(píng)估它與問題-答案對(duì)的相關(guān)性。這就像請(qǐng)一位專家來判斷每條信息的價(jià)值和相關(guān)性。最終,團(tuán)隊(duì)篩選出了25.9K條高質(zhì)量路徑(評(píng)分為4-5分)。
最后,為了支持多語(yǔ)言評(píng)估,團(tuán)隊(duì)使用NLLB-200 3.3bn模型將數(shù)據(jù)集翻譯成了五種歐洲語(yǔ)言:西班牙語(yǔ)、法語(yǔ)、意大利語(yǔ)、葡萄牙語(yǔ)和德語(yǔ)。這就像是為同一套工具制作了多種語(yǔ)言版本的說明書,使得它們?cè)诓煌Z(yǔ)言環(huán)境下都能派上用場(chǎng)。
MultiHal的核心特點(diǎn)與價(jià)值
MultiHal數(shù)據(jù)集的獨(dú)特之處在于它將知識(shí)圖譜路徑與多語(yǔ)言支持相結(jié)合,為評(píng)估LLM的幻覺問題提供了一個(gè)更全面的框架。
首先,知識(shí)圖譜路徑提供了明確的事實(shí)依據(jù)。與傳統(tǒng)的文本段落相比,知識(shí)圖譜路徑更加精確和結(jié)構(gòu)化,使得事實(shí)驗(yàn)證更加直接。就像在查驗(yàn)信息時(shí),相比于閱讀一整篇長(zhǎng)文章,直接看到"A與B的關(guān)系是C"這樣清晰的陳述會(huì)更加高效。
其次,多語(yǔ)言支持使得模型的評(píng)估不再局限于英語(yǔ)。研究表明,大型語(yǔ)言模型在不同語(yǔ)言中表現(xiàn)出的事實(shí)一致性存在差異,通常英語(yǔ)輸出最穩(wěn)定,而在低資源語(yǔ)言中事實(shí)質(zhì)量會(huì)下降。MultiHal通過提供多語(yǔ)言數(shù)據(jù),使得研究人員可以評(píng)估模型在不同語(yǔ)言環(huán)境下的表現(xiàn),這對(duì)于構(gòu)建真正的多語(yǔ)言AI系統(tǒng)至關(guān)重要。
第三,知識(shí)圖譜路徑的使用使得模型輸出的可解釋性和可追溯性大大提高。當(dāng)模型生成的內(nèi)容可以直接追溯到明確的事實(shí)來源時(shí),用戶對(duì)系統(tǒng)的信任度也會(huì)相應(yīng)提高。這就像在學(xué)術(shù)寫作中,有明確的引用來源會(huì)增加論文的可信度。
基線實(shí)驗(yàn)設(shè)計(jì)與結(jié)果
為了驗(yàn)證MultiHal數(shù)據(jù)集的有效性,研究團(tuán)隊(duì)設(shè)計(jì)了一系列基線實(shí)驗(yàn),主要比較了普通問答(QA)和基于知識(shí)圖譜的檢索增強(qiáng)生成(KG-RAG)兩種情況下模型的表現(xiàn)。
在實(shí)驗(yàn)設(shè)置上,團(tuán)隊(duì)采用了一種簡(jiǎn)單的提示式知識(shí)注入方法。在QA設(shè)置中,只向模型提供問題;而在KG-RAG設(shè)置中,則同時(shí)提供知識(shí)圖譜路徑和問題。這就像是在考試中,一種情況下只給出題目,另一種情況下還提供了相關(guān)的參考資料。
實(shí)驗(yàn)使用了三種不同的模型:Gemini 2.0 Flash、GPT-4o Mini和Llama 3.3 70b instruct。評(píng)估指標(biāo)采用了多語(yǔ)言MiniLM-L12-v2模型計(jì)算的語(yǔ)義相似度,即比較模型生成的答案與標(biāo)準(zhǔn)答案之間的語(yǔ)義接近程度。
實(shí)驗(yàn)結(jié)果令人鼓舞。在所有測(cè)試語(yǔ)言和模型中,KG-RAG設(shè)置相比普通QA設(shè)置都顯示出明顯的性能提升,語(yǔ)義相似度分?jǐn)?shù)絕對(duì)增長(zhǎng)約0.12到0.36分。這表明,知識(shí)圖譜路徑確實(shí)為模型提供了有價(jià)值的事實(shí)信息,使其能夠生成更加準(zhǔn)確的答案。
具體來看,在英語(yǔ)測(cè)試中,Gemini 2.0 Flash模型在KG-RAG設(shè)置下的語(yǔ)義相似度分?jǐn)?shù)達(dá)到0.83,比普通QA設(shè)置的0.51高出0.32分。這種提升在其他語(yǔ)言中也同樣明顯,證明了知識(shí)圖譜集成的潛力。
更細(xì)粒度的分析顯示,在不同領(lǐng)域的表現(xiàn)有所差異。例如,在SimpleQA、HaluEval、Defan和Shroom2024等基準(zhǔn)數(shù)據(jù)集上(占據(jù)了約95%的數(shù)據(jù)點(diǎn)),模型表現(xiàn)出一致的改進(jìn)。這些數(shù)據(jù)集的共同特點(diǎn)是問題定義明確,通常需要單個(gè)實(shí)體作為答案,這與知識(shí)圖譜的結(jié)構(gòu)特性非常匹配。
然而,在某些特定領(lǐng)域,如TruthfulQA中的暗示性問題或HaluBench中的時(shí)間相關(guān)問題,模型表現(xiàn)則不那么理想。這些問題通常需要邏輯推理或考慮時(shí)間變化因素,這超出了簡(jiǎn)單知識(shí)圖譜路徑的表達(dá)能力。
MultiHal的應(yīng)用前景與局限性
MultiHal數(shù)據(jù)集為研究人員提供了一個(gè)強(qiáng)大的工具,可用于多種與事實(shí)性相關(guān)的任務(wù),如幻覺檢測(cè)、事實(shí)核查和基于知識(shí)圖譜的語(yǔ)言建模。它的多語(yǔ)言性質(zhì)使得這些研究可以擴(kuò)展到更廣泛的語(yǔ)言環(huán)境,而不僅限于英語(yǔ)世界。
不過,研究團(tuán)隊(duì)也坦率地指出了數(shù)據(jù)集的一些局限性。首先,MultiHal主要基于多輪問答任務(wù),沒有涵蓋多輪對(duì)話或文本摘要等使用場(chǎng)景。其次,其多語(yǔ)言支持雖然覆蓋了五種歐洲語(yǔ)言,但在類型學(xué)多樣性方面仍然有限,偏向于歐洲中心的語(yǔ)言。再者,評(píng)估方法沒有采用多提示評(píng)估,而這已被證明是LLM評(píng)估中的重要組成部分。
未來的工作方向包括擴(kuò)展MultiHal的下游任務(wù)、添加多提示評(píng)估和增加更多樣化的語(yǔ)言覆蓋。研究團(tuán)隊(duì)還建議通過將語(yǔ)義相似度評(píng)估框架為分類問題,使用自然語(yǔ)言推理或LLM作為評(píng)判者,來改進(jìn)評(píng)估方法。
總結(jié)與展望
歸根結(jié)底,MultiHal數(shù)據(jù)集的創(chuàng)建填補(bǔ)了現(xiàn)有幻覺評(píng)估基準(zhǔn)在知識(shí)圖譜路徑和多語(yǔ)言支持方面的空白。它為研究人員提供了一個(gè)強(qiáng)大的工具,可以更全面地評(píng)估大型語(yǔ)言模型的事實(shí)準(zhǔn)確性,并探索知識(shí)圖譜集成如何幫助減輕幻覺問題。
這項(xiàng)研究的意義不僅限于學(xué)術(shù)界。在實(shí)際應(yīng)用中,提高AI系統(tǒng)的事實(shí)準(zhǔn)確性是構(gòu)建可信賴系統(tǒng)的關(guān)鍵步驟。隨著大型語(yǔ)言模型在各行各業(yè)的應(yīng)用越來越廣泛,確保它們能夠提供準(zhǔn)確、可靠的信息變得愈發(fā)重要。
MultiHal數(shù)據(jù)集的開源性質(zhì)(代碼和數(shù)據(jù)已在GitHub和Huggingface上公開)使得更多研究人員可以基于此進(jìn)行進(jìn)一步的研究和創(chuàng)新。這種開放的研究氛圍對(duì)于推動(dòng)AI領(lǐng)域的進(jìn)步至關(guān)重要。
想象一下,未來的AI助手不僅能夠流暢地與我們交流,還能夠準(zhǔn)確地回答我們的問題,無論我們使用哪種語(yǔ)言。MultiHal數(shù)據(jù)集的出現(xiàn),讓這一愿景更近了一步。
如果你對(duì)這項(xiàng)研究感興趣,可以通過GitHub(https://github.com/ernlavr/multihal)和Huggingface(https://huggingface.co/datasets/ernlavr/multihal)獲取完整的代碼和數(shù)據(jù)集。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。