av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 揭秘大語言模型的假話問題:弗吉尼亞大學團隊打造可靠生物醫(yī)學假設生成評估工具

揭秘大語言模型的假話問題:弗吉尼亞大學團隊打造可靠生物醫(yī)學假設生成評估工具

2025-06-04 11:16
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-04 11:16 ? 科技行者

生物醫(yī)學研究中的一場悄然革命正在發(fā)生,而這場革命的核心角色,是我們已經(jīng)越來越熟悉的大語言模型(LLMs)。來自弗吉尼亞大學的Guangzhi Xiong、Eric Xie、Corey Williams等研究團隊最近發(fā)表了一篇重要論文,聚焦于大語言模型在生物醫(yī)學假設生成中的真實性評估。這項研究發(fā)表于2025年5月20日的預印本平臺arXiv上,題為《邁向可靠的生物醫(yī)學假設生成:評估大型語言模型中的真實性和幻覺》。

想象一下,你是一位生物醫(yī)學研究人員,面對浩如煙海的科學文獻,你需要找出其中的規(guī)律并提出新的研究方向。這項任務不僅耗時,還需要極高的專業(yè)知識。大語言模型似乎為這一挑戰(zhàn)提供了完美解決方案:它們可以分析大量文獻,識別模式,并建議研究方向。聽起來完美,對嗎?

但這里有一個大問題:我們如何確定這些模型生成的假設是真實可靠的,而不是"幻覺"出來的看似合理但實際上錯誤的信息?這就像是讓一個從未接受過專業(yè)訓練的人給你提供醫(yī)療建議——他可能聽起來很有道理,但你真的敢把健康托付給他嗎?

弗吉尼亞大學的研究團隊正是聚焦于解決這一關鍵挑戰(zhàn)。他們提出了兩個創(chuàng)新工具:TruthHypo(真實假設)和KnowHD(知識幻覺檢測器)。這些工具就像是為科學家們提供的一個"真相檢測器",幫助評估大語言模型生成的生物醫(yī)學假設的真實性,并找出其中可能存在的"幻覺"成分。

一、研究背景:為何要解決大語言模型的"說謊"問題?

想象一下,如果你有一位才華橫溢但有時會不自覺"編故事"的朋友。他知識淵博,能流暢地討論各種話題,但偶爾會自信滿滿地分享一些并不準確的"事實"。這就是大語言模型面臨的"幻覺"問題——它們有時會生成看似合理但實際上并不準確的內容。

在日常閑聊中,這種小小的不準確或許無傷大雅。但在生物醫(yī)學研究這樣的嚴肅領域,準確性就成了生死攸關的問題。想象一下,如果一個研究團隊基于大語言模型提出的假設投入大量時間和資源進行研究,最后卻發(fā)現(xiàn)這一假設完全沒有科學依據(jù),那將是多么巨大的浪費!

弗吉尼亞大學的研究團隊意識到,雖然大語言模型在生物醫(yī)學假設生成方面展現(xiàn)出巨大潛力,但其真實性評估卻面臨兩大挑戰(zhàn):

首先,驗證生成假設的準確性通常需要大量時間和資源。這就像要驗證一個謠言是否屬實,可能需要進行耗時的事實核查。

其次,大語言模型的"幻覺"問題可能導致生成看似合理但實際上錯誤的假設,這會嚴重影響其可靠性。這就像一個善于講故事的人,能讓虛構的事件聽起來栩栩如生,讓人難以分辨真假。

研究團隊注意到,當前研究主要關注提高大語言模型生成假設的新穎性和多樣性,而對真實性和基于已有知識的依據(jù)研究較少。這就像人們熱衷于評價故事的創(chuàng)意和多樣性,卻忽略了故事的真實性。

為了解決這些挑戰(zhàn),研究團隊提出了兩個關鍵工具:TruthHypo和KnowHD。TruthHypo是一個綜合基準,用于評估大語言模型生成真實生物醫(yī)學假設的能力;而KnowHD則是一個基于知識的幻覺檢測框架,設計用于評估這些假設的基礎依據(jù)。

二、TruthHypo:如何打造一個可靠的生物醫(yī)學假設生成評估基準?

想象你正在測試一系列天氣預報員的準確性。你需要知道哪些預報員能夠根據(jù)現(xiàn)有氣象數(shù)據(jù)準確預測未來天氣,而哪些只是在猜測。TruthHypo基準就扮演著類似角色,它幫助我們評估不同大語言模型在生物醫(yī)學假設生成方面的真實性和準確性。

TruthHypo基準的數(shù)據(jù)來源于PubTator 3.0,這是一個綜合性的生物醫(yī)學知識圖譜,包含從科學文章中提取的注釋關系(也稱為邊)。為了模擬科學發(fā)現(xiàn)的時間進程,研究團隊將圖譜分為"已知"和"未知"兩個子集:

"已知"子集包含2023年之前發(fā)表的論文中提取的關系,通過PMID(PubMed ID)≤ 36600000來識別。這就像是截至2023年科學界已經(jīng)確認的知識。

"未知"子集則包含2024年之后發(fā)表的論文中提取的關系,通過PMID ≥ 38200000來識別。這代表了2024年之后的新發(fā)現(xiàn),模擬未來科學研究的情況。

為確保兩個子集之間沒有重疊,研究團隊移除了未知子集中與已知子集共享頭尾實體的邊。此外,為保證質量和有效性,只保留了在測試數(shù)據(jù)中被多篇文章發(fā)現(xiàn)的關系。這種過濾過程確保未知子集僅包含2024年之前不可獲取的知識,模擬未來科學研究的條件。

在構建數(shù)據(jù)集時,研究團隊專注于三種關鍵關系類型:

"化學物質與基因":這涉及藥物與基因的互動,就像了解某種藥物如何影響特定基因的表達。 "疾病與基因":這探討疾病與基因之間的關聯(lián),例如某種基因突變如何導致特定疾病。 "基因與基因":這研究不同基因之間的相互作用,類似于了解一個基因的活動如何影響另一個基因。

這三種關系類型之所以被選中,是因為它們互補性強、注釋詳細,并且適合客觀評估。為構建全面的分類任務,研究團隊還增加了負面測試樣例,評估大語言模型是否傾向于對現(xiàn)有知識庫中缺乏直接關系的實體對做出錯誤的積極預測。最終數(shù)據(jù)集包含:

"化學物質與基因"任務:1209個實例 "疾病與基因"任務:268個實例 "基因與基因"任務:547個實例

在任務設計方面,TruthHypo基準包括三個任務,對應所選的關系類型。對于每個任務,輸入是一個包含兩個實體的假設生成查詢,大語言模型需要基于可用知識和推理,假設它們之間的潛在關系。

為全面評估大語言模型性能,研究團隊評估了它們在不同知識增強設置下生成假設的能力:

第一種設置依賴模型的參數(shù)知識——在預訓練大型語料庫期間編碼在其參數(shù)中的信息。這評估模型的內在理解和推理能力。

第二種設置通過"已知"知識圖譜中的結構化知識增強大語言模型。在這種方法中,從輸入中映射關鍵實體到圖中的節(jié)點,并探索連接這些節(jié)點的多跳鏈接鏈。這些鏈表示相關關系,被轉換為文本描述并作為上下文提供給模型在假設生成中使用。

第三種設置利用檢索增強生成(RAG)管道從生物醫(yī)學文獻中獲取信息。使用BM25從PubMed語料庫中檢索相關文檔。為保持與知識圖譜時間分割的一致性,檢索僅包括PMID ≤ 36600000的文章,模擬在特定時間點基于可用文獻生成假設的過程。

最后,研究團隊考慮了結合設置,其中來自圖譜的結構化知識和從檢索文獻中的非結構化信息都用于支持假設生成。這種綜合方法提供了更全面的上下文,使模型能夠跨兩種來源進行推理。

為評估生成的科學假設質量,研究團隊采用了一系列互補指標,針對假設生成的不同方面:

鏈接級評估:關注精確度、召回率和F1分數(shù)。精確度衡量在所有假設連接中正確識別的連接比例,強調減少假陽性。召回率評估模型全面識別所有有效連接的能力,捕捉其對真陽性的敏感性。F1分數(shù)作為精確度和召回率的調和平均值,提供性能的平衡度量,結合預測準確性和有效連接覆蓋率。

關系級評估:采用準確率來衡量生成的假設與地面真實關系標簽匹配的頻率。準確率通過考慮連接的存在和預測的關系類型來捕捉假設的整體正確性。

通過結合鏈接級和關系級評估,TruthHypo基準全面衡量了大語言模型生成的假設的真實性,評估大語言模型產(chǎn)生科學有效輸出的能力。

三、KnowHD:檢測大語言模型生成假設中的"幻覺"

我們都知道,謊言往往混雜著真相,這使得識別假信息變得困難。大語言模型生成的"幻覺"也是如此——它們往往將準確信息與不支持的聲明混合在一起,使人難以分辨。這就是KnowHD(知識幻覺檢測器)登場的地方。

KnowHD就像是一位細心的事實核查員,它檢查大語言模型生成假設背后的推理過程,評估每個聲明是否有足夠的證據(jù)支持。它的工作方式是分析生成假設的基礎依據(jù),識別可能被"幻覺"出來的不可靠組件。

KnowHD的運作基于科學文獻、知識圖譜或兩者的組合作為知識庫。讓我們來看看它的工作流程:

首先,每個假設及其推理鏈被分解為一組原子聲明。這一步至關重要,因為假設通常由復合推理步驟組成,其中一些可能得到現(xiàn)有知識支持,而其他可能不然。將這些分解為原子聲明允許更精細的評估,并能隔離不受支持的組件。這一步通過向大語言模型提示實現(xiàn)。

當使用科學文獻作為知識庫時,系統(tǒng)從PubMed語料庫中檢索與每個原子聲明相關的文檔,限制在2023年之前發(fā)布的文章(PMID ≤ 36600000)。BM25用于根據(jù)與聲明的相關性對文檔進行排名。為確保計算效率并專注于最相關信息,只保留排名最高的K個文檔。

當使用知識圖譜作為知識庫時,聲明的上下文從圖結構中推導。對于一個聲明,相關知識從圖中提取,包括聲明中提到的所有實體。

聲明的基礎依據(jù)基于給定上下文信息(來自文獻、圖譜或兩者)是否能完全支持該聲明來確定。如果連接的上下文集體蘊含該聲明,則認為該聲明是有依據(jù)的。

假設的整體基礎依據(jù)計算為其原子聲明中有依據(jù)聲明的比例。

通過同時提供基于文獻和基于圖譜的上下文,KnowHD為幻覺檢測提供了一個強大的框架,能夠適應可用的知識來源。這種對原子聲明的系統(tǒng)評估使得對假設基礎依據(jù)的詳細評估成為可能,識別不受支持的組件并提高大語言模型生成輸出的可靠性。

四、實驗結果:大語言模型在真實假設生成方面表現(xiàn)如何?

想象你正在舉辦一場烹飪比賽,參賽者需要根據(jù)有限的食材創(chuàng)造美味佳肴。類似地,研究團隊測試了不同的大語言模型,看它們如何利用現(xiàn)有知識生成真實的科學假設。結果出人意料且發(fā)人深省。

研究團隊選擇了一系列不同類型和規(guī)模的模型進行測試。Llama-3系列代表開源大語言模型,而GPT-4系列則代表專有模型。從每個系列中,研究團隊評估了兩種不同規(guī)模的大語言模型(Llama-3.1-8B和Llama-3.1-70B,GPT-4o-mini和GPT-4o),以研究規(guī)模相關的性能差異。所有大語言模型都是在2024年之前可用的知識上訓練的,防止其直接回憶假設生成的確切知識。

TruthHypo基準在四種不同設置下評估大語言模型:僅參數(shù)知識、參數(shù)知識加知識圖譜、參數(shù)知識加文獻,以及參數(shù)知識同時加知識圖譜和文獻。這些設置允許研究團隊探索外部知識源對假設生成的影響。

在所有任務中,結果表明大多數(shù)大語言模型難以生成真實的科學假設,只有GPT-4o實現(xiàn)了超過60%的平均準確率。此外,鏈接級F1分數(shù)高于關系級準確率分數(shù),這表明大語言模型可以識別實體之間的潛在連接,但往往無法準確預測具體關系。

對于來自同一系列但規(guī)模不同的模型,較大的大語言模型往往生成更有可能真實的科學假設。這可歸因于兩個主要因素:首先,較大的大語言模型通常表現(xiàn)更好,因為它們可以在參數(shù)中存儲和利用更多知識;其次,不同規(guī)模的大語言模型處理外部知識的能力各不相同。

例如,當增加知識圖譜和文獻時,GPT-4o-mini的準確率僅提高了1.14%,而GPT-4o在相同條件下實現(xiàn)了更可觀的5.14%增幅。這表明較大的大語言模型能更好地利用額外上下文推理真實的科學假設。比較Llama-3.1-8B和Llama-3.1-70B時也觀察到類似趨勢。

有趣的是,Llama-3.1-8B等較小模型在引入知識圖譜和文獻信息時有時會出現(xiàn)性能下降。這種下降可能源于有效整合內部和外部信息的挑戰(zhàn),可能會擾亂模型的推理過程。

研究團隊還評估了生成假設的基礎依據(jù)。結果表明,知識圖譜和文獻對基礎假設的貢獻不同。例如,使用文獻作為支持知識庫的KnowHD可以驗證文獻增強的"化學物質與基因"假設推理中76.30%的聲明。然而,當基于添加到參數(shù)知識的知識圖譜信息生成推理時,幻覺檢測器很難驗證,只有51.08%的聲明是有依據(jù)的。結合知識圖譜和文獻產(chǎn)生最高的基礎依據(jù)分數(shù),有效利用兩種來源的互補優(yōu)勢來識別有依據(jù)的聲明并檢測幻覺。

為進一步探索幻覺與真實性之間的關系,研究團隊還將平均準確率與基礎依據(jù)分數(shù)的函數(shù)關系進行了比較。結果表明,基礎依據(jù)分數(shù)與假設真實性之間存在正相關。隨著基礎依據(jù)分數(shù)的增加,假設真實的可能性也增加。例如,GPT-4o-mini在"化學物質與基因"任務中在組合知識圖譜+文獻設置下實現(xiàn)了60.96%的平均準確率,但對于基礎依據(jù)分數(shù)超過80%的假設,這一比例上升到72.77%。

為驗證KnowHD在增強假設生成方面的效用,研究團隊提示大語言模型為每個輸入生成五個候選假設,并選擇基礎依據(jù)分數(shù)最高的一個作為最終輸出。這種方法與兩個基線進行了比較:貪婪搜索方法(使用大語言模型的貪婪下一個標記選擇生成假設)和自一致性方法(基于多個預測的多數(shù)投票選擇假設)。

如圖4所示,基于基礎依據(jù)的假設選擇通常在大多數(shù)知識設置下優(yōu)于貪婪搜索和多數(shù)投票方法。在僅參數(shù)知識設置中,多數(shù)投票方法實現(xiàn)了略高于基于基礎依據(jù)選擇的準確率(61.86%對59.83%)。然而,隨著引入外部知識,基于基礎依據(jù)的選擇顯示出對兩個基線的一致改進。例如,在組合參數(shù)+知識圖譜+文獻設置中,當使用基于基礎依據(jù)的選擇時,GPT-4o-mini實現(xiàn)了63.44%的平均準確率,接近較大GPT-4o模型的性能。

這些結果強調了基礎依據(jù)分數(shù)在外部知識被納入的情景中的有效性,因為它們有助于識別更可能真實的假設。通過檢測推理步驟中的幻覺并專注于有依據(jù)的假設,KnowHD為增強大語言模型生成的科學假設的可靠性和真實性提供了一個強大機制。

五、人類研究:KnowHD在開放式任務中的表現(xiàn)

為進一步評估KnowHD在選擇真實假設方面有效性的通用性,研究團隊在開放式假設生成任務上進行了實驗。這些任務旨在評估KnowHD是否能夠在更廣泛、結構較少的生成場景中可靠地識別更有可能真實的假設。

對于這項分析,研究團隊利用了Qi等人(2024年)引入的公開可用假設生成數(shù)據(jù)集,其中涉及基于給定背景信息生成自由形式假設。研究團隊選擇了GPT-4o-mini作為測試的大語言模型,并通過合并來自科學文獻和知識圖譜的外部知識增強其假設生成過程。模型被提示為每個輸入生成五個不同的科學假設。然后這些假設由KnowHD評估,KnowHD基于它們與結構化(知識圖譜)和非結構化(文獻)知識源的一致性評估它們的基礎依據(jù)。

為分析基礎依據(jù)分數(shù)與假設真實性之間的關系,研究團隊過濾生成的假設以創(chuàng)建具有對比基礎依據(jù)水平的對。對于每個輸入,研究團隊識別了一個具有最高基礎依據(jù)分數(shù)的假設和另一個具有最低分數(shù)的假設。研究團隊保留了高基礎依據(jù)分數(shù)比低分數(shù)大30%以上的對。這種過濾導致了54對假設,在基礎依據(jù)水平上有顯著差異。

為驗證KnowHD的有效性,研究團隊讓兩位領域專家注釋每對假設(80%一致率),選擇他們認為基于給定信息更可能真實的假設。此外,GPT-4o被提示分析相同的對并提供其判斷。表4總結了這項注釋研究的結果,報告了每組的選擇比率,定義為在每組中被識別為更真實的假設比例。

結果表明,基礎依據(jù)分數(shù)與假設感知真實性之間存在顯著關系。具有較高基礎依據(jù)分數(shù)的假設被人類專家和GPT-4o一致地更可能選為真實,如選擇比率的實質性差異所示。這些發(fā)現(xiàn)突顯了KnowHD在區(qū)分真實假設方面的效用,甚至在非結構化的開放式生成任務中也是如此。

通過有效利用基礎依據(jù)作為標準,KnowHD提供了一個強大機制來提高大語言模型生成假設的可靠性,加強其促進現(xiàn)實世界科學發(fā)現(xiàn)過程的潛力。

六、研究意義與展望:大語言模型如何助力科學發(fā)現(xiàn)

弗吉尼亞大學研究團隊的這項工作為我們勾勒了一幅令人興奮的未來圖景。想象一下,科學家們能夠利用大語言模型作為值得信賴的合作伙伴,幫助他們?yōu)g覽復雜的科學領域,發(fā)現(xiàn)新的研究方向,并生成高質量、有依據(jù)的假設,加速科學發(fā)現(xiàn)的步伐。

通過TruthHypo基準和KnowHD框架,研究團隊為評估和提高大語言模型生成的科學假設的真實性提供了強大工具。這些工具不僅揭示了當前大語言模型在生成真實假設方面的局限性,還提供了通過基礎依據(jù)評估來識別更可靠假設的方法。

研究結果表明,雖然大語言模型在生成看似合理的假設方面顯示出巨大潛力,但它們仍然面臨生成真實、科學有效假設的挑戰(zhàn)。這突顯了繼續(xù)改進大語言模型推理能力的重要性,特別是在科學領域,準確性和可靠性至關重要。

KnowHD作為一種實用工具的價值在于其能夠分析大語言模型的推理過程并評估假設的基礎依據(jù)。這種能力可以幫助研究人員篩選大語言模型生成的大量假設,集中精力于那些更有可能經(jīng)得起科學審查的假設。這不僅可以節(jié)省時間和資源,還可以提高大語言模型作為科學發(fā)現(xiàn)工具的整體效用。

通過開放數(shù)據(jù)和源代碼(https://github.com/Teddy-XiongGZ/TruthHypo),研究團隊為研究社區(qū)提供了資源,以進一步探索和改進大語言模型在科學假設生成中的使用。這種開放和協(xié)作的方法將加速這一領域的進步,最終導致更可靠、更有用的AI輔助科學工具。

展望未來,這項研究為改進大語言模型在科學環(huán)境中的應用奠定了基礎。隨著模型和評估方法的不斷進步,我們可以期待大語言模型在科學發(fā)現(xiàn)過程中發(fā)揮越來越重要的作用,服務于研究人員,而不是取代他們。

歸根結底,TruthHypo和KnowHD等工具代表了向更負責任、更可靠的AI輔助科學邁出的關鍵一步。通過解決大語言模型在生物醫(yī)學假設生成中的真實性挑戰(zhàn),這項研究為利用AI的力量加速科學進步,同時維護科學方法的完整性和嚴謹性鋪平了道路。

這項研究最終不僅關乎技術創(chuàng)新,還關乎確保這些創(chuàng)新以支持而非削弱科學探索的基本原則的方式部署。隨著我們繼續(xù)探索AI在科學中的應用,維持真實性、準確性和科學嚴謹性的平衡將至關重要,而本研究提供的工具和見解是朝著這一目標邁出的重要一步。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-