近日,由穆罕默德·本·扎耶德人工智能大學(xué)的Imran Razzak教授領(lǐng)銜的研究團(tuán)隊,連同來自蒙納士大學(xué)、西交利物浦大學(xué)和南安普頓大學(xué)的多位研究者,共同發(fā)表了一項醫(yī)學(xué)人工智能領(lǐng)域的重要進(jìn)展。這項研究題為"TAGS: A Test-Time Generalist–Specialist Framework with Retrieval-Augmented Reasoning and Verification",于2025年5月23日發(fā)布在arXiv預(yù)印本平臺(arXiv:2505.18283v1),為醫(yī)學(xué)問答系統(tǒng)帶來了全新的解決方案。
想象一下,你詢問一個醫(yī)學(xué)問題時,不僅有一位全科醫(yī)生從寬泛角度給你解答,同時還有一位??漆t(yī)生從專業(yè)深度進(jìn)行補充,更有一位資深顧問在旁邊核實兩位醫(yī)生的回答是否合理。這正是TAGS框架的工作方式——它不是單打獨斗,而是組建了一個協(xié)作團(tuán)隊,讓醫(yī)學(xué)AI問答變得更準(zhǔn)確、更可靠。
醫(yī)學(xué)人工智能近年來取得了長足進(jìn)步,尤其是大型語言模型(LLM)在醫(yī)學(xué)問答方面展現(xiàn)了令人印象深刻的能力。然而,當(dāng)面對復(fù)雜醫(yī)學(xué)問題時,現(xiàn)有方法仍存在明顯短板:思維鏈(Chain-of-Thought)技術(shù)雖然改進(jìn)了零樣本醫(yī)學(xué)推理能力,但往往深度不足且不穩(wěn)定;而專門為醫(yī)學(xué)領(lǐng)域微調(diào)的語言模型則容易過度擬合訓(xùn)練數(shù)據(jù),在面對分布偏移和未見過的臨床場景時適應(yīng)能力有限。
"現(xiàn)有研究雖然分別在推理、檢索和領(lǐng)域適應(yīng)方面取得了進(jìn)展,但這些組件通常是孤立開發(fā)的,缺乏整合到統(tǒng)一的推理框架中,"第一作者Jianghao Wu在論文中解釋道。"我們需要一種不依賴任何參數(shù)更新,就能夠獲取最新醫(yī)學(xué)知識、支持多樣化推理策略、并確保分布偏移下答案可靠性的解決方案。"
研究團(tuán)隊受到臨床實踐的啟發(fā),提出了TAGS(Test-time Generalist–Specialist framework with retrieval-augmented reasoning and verification)框架,這是一種完全在推理時執(zhí)行的醫(yī)學(xué)問答架構(gòu),無需更新任何模型參數(shù)。TAGS由三個核心部分組成:一個"泛醫(yī)-專醫(yī)推理協(xié)作"模塊,一個"層次化檢索增強"機制,以及一個"不確定性感知的答案聚合"組件。
這套系統(tǒng)就像一個醫(yī)療團(tuán)隊會診過程。首先,系統(tǒng)會分析問題,從醫(yī)學(xué)知識庫中檢索相關(guān)的案例和推理路徑(就像查閱醫(yī)學(xué)文獻(xiàn)和病例)。然后,"泛醫(yī)"(全科醫(yī)生)和"專醫(yī)"(??漆t(yī)生)兩個智能體分別從不同角度對問題進(jìn)行分析和推理(如同兩位醫(yī)生各自提供診斷意見)。最后,系統(tǒng)會評估這些推理的一致性和可靠性,給出最終答案(相當(dāng)于資深主任醫(yī)師對各種意見進(jìn)行權(quán)衡后作出決定)。
在實驗評估中,TAGS框架在九個醫(yī)學(xué)問答基準(zhǔn)測試上展現(xiàn)了卓越表現(xiàn),將GPT-4o的準(zhǔn)確率提升了13.8%,將DeepSeek-R1的準(zhǔn)確率提升了16.8%,甚至將普通的7B模型從14.1%的基線準(zhǔn)確率提升到了23.9%。令人印象深刻的是,TAGS僅通過推理時的架構(gòu)設(shè)計,就超過了多個經(jīng)過專門微調(diào)的醫(yī)學(xué)語言模型,無需任何參數(shù)更新。
一、泛醫(yī)-專醫(yī)協(xié)作:醫(yī)學(xué)問答的智慧雙引擎
TAGS系統(tǒng)的核心是"泛醫(yī)-專醫(yī)推理協(xié)作"(GSRC)模塊。想象一下,當(dāng)你面臨復(fù)雜的健康問題時,通常會先咨詢?nèi)漆t(yī)生獲取全面評估,然后再轉(zhuǎn)診給特定領(lǐng)域的專科醫(yī)生獲取深度專業(yè)意見。GSRC正是模擬了這種醫(yī)療協(xié)作模式。
"單一智能體的提示方式往往缺乏復(fù)雜醫(yī)學(xué)推理所需的深度和多樣性,而多智能體系統(tǒng)則容易因角色分配不明確和互補性不足而產(chǎn)生冗余或不一致的輸出,"研究團(tuán)隊解釋道。
在GSRC中,兩個角色被清晰定義:泛醫(yī)智能體(Generalist)擁有廣泛的臨床視野,能夠從多個學(xué)科角度分析問題;而專醫(yī)智能體(Specialist)則專注于特定醫(yī)學(xué)領(lǐng)域的精確知識。兩者都使用相同的底層語言模型,只是通過不同的提示詞塑造了不同的專業(yè)"角色"。
這種雙智能體設(shè)計實現(xiàn)了兩個關(guān)鍵優(yōu)勢。首先,它為復(fù)雜醫(yī)學(xué)問題提供了互補視角,有效結(jié)合了廣度和深度。其次,它避免了多智能體系統(tǒng)中常見的角色混淆和冗余問題,因為每個智能體都有明確定義的專業(yè)領(lǐng)域和推理風(fēng)格。
協(xié)作過程分兩輪進(jìn)行:第一輪,泛醫(yī)和專醫(yī)各自基于初始語義檢索到的示例生成初步推理和答案;第二輪,系統(tǒng)基于第一輪的推理路徑檢索更相關(guān)的示例,兩個智能體再次進(jìn)行更精確的推理。這種迭代式協(xié)作過程類似于醫(yī)生間的討論會診,隨著討論的深入,診斷和治療方案逐步完善。
二、層次化知識檢索:像醫(yī)生查閱專業(yè)文獻(xiàn)的增強推理
想象一個醫(yī)生在解決復(fù)雜病例時會做什么?他們會查閱醫(yī)學(xué)教科書,檢索類似病例,參考最新研究文獻(xiàn),然后將這些信息與自己的專業(yè)知識結(jié)合,形成診斷和治療方案。TAGS系統(tǒng)中的"層次化檢索增強"(HRA)模塊正是這個過程的AI版本。
傳統(tǒng)的檢索增強方法通常只基于問題的表面相似性來檢索相關(guān)內(nèi)容,但這往往忽略了推理路徑層面的深度對齊。HRA克服了這一限制,引入了兩階段檢索策略:
第一階段是初始語義檢索,系統(tǒng)將問題和選項嵌入向量空間,然后檢索醫(yī)學(xué)QA語料庫中最相似的問答對,這些內(nèi)容包括問題、答案選項和詳細(xì)的推理鏈。這相當(dāng)于醫(yī)生根據(jù)患者癥狀初步查找相關(guān)醫(yī)學(xué)文獻(xiàn)。
更創(chuàng)新的是第二階段:基于推理路徑的檢索。在雙智能體生成初步推理后,HRA會基于這些推理路徑而非問題本身進(jìn)行第二輪檢索,找到推理模式相似的案例。這就像醫(yī)生不僅關(guān)注癥狀相似的病例,更關(guān)注診斷思路相似的病例,從中獲取更深層次的參考。
"通過在推理路徑層面而非表面形式上進(jìn)行對齊,第二階段檢索能夠注入超越表面相似性的補充證據(jù),減少純語義匹配的局限性,"論文作者解釋道。
這種層次化檢索不僅提供了更相關(guān)的參考案例,還實現(xiàn)了知識更新和推理多樣性,幫助模型生成更準(zhǔn)確、更可靠的醫(yī)學(xué)推理。更重要的是,當(dāng)醫(yī)學(xué)知識更新時,系統(tǒng)可以直接通過更新檢索語料庫而不需要重新訓(xùn)練模型,保持了知識的時效性。
三、醫(yī)學(xué)推理的質(zhì)量控制:不確定性感知的答案聚合
醫(yī)療實踐中,資深醫(yī)生會對年輕醫(yī)生的診斷進(jìn)行評估和驗證,確保診斷的內(nèi)在邏輯一致性和醫(yī)學(xué)合理性。TAGS的"不確定性感知答案聚合"(UAAA)模塊正是承擔(dān)了這個角色。
在泛醫(yī)和專醫(yī)完成兩輪推理后,系統(tǒng)會收集四對"推理路徑-答案"組合(泛醫(yī)和專醫(yī)各兩輪)。但問題來了:如何從這些可能不同的答案中選出最可靠的一個?
UAAA模塊引入了一個"推理一致性評估器"(RCE),它會檢查每個推理路徑是否在邏輯上支持對應(yīng)的答案。這個評估器會為每個推理-答案對分配一個0到5的可靠性分?jǐn)?shù),分?jǐn)?shù)越高表示推理越合理、越能支持最終答案。
"給定一個候選對(Rk, Ak),RCE會評估推理在原始查詢背景下對答案的支持程度,并分配整數(shù)分?jǐn)?shù)ck∈[0, 5],其中更高的值表示更強的邏輯和臨床連貫性,"研究團(tuán)隊在論文中詳細(xì)描述道。
最終系統(tǒng)會選擇可靠性分?jǐn)?shù)最高的答案作為最終輸出。如果出現(xiàn)分?jǐn)?shù)相同的情況,則按照"專醫(yī)第二輪、泛醫(yī)第二輪、專醫(yī)第一輪、泛醫(yī)第一輪"的順序進(jìn)行優(yōu)先級排序。
這種可靠性評估機制解決了醫(yī)學(xué)AI系統(tǒng)中的一個關(guān)鍵問題:推理過程可能看似合理,但最終答案卻可能不正確。通過顯式驗證推理與答案之間的一致性,TAGS大大減少了"聽起來合理但實際錯誤"的回答,提高了整體答案質(zhì)量。
四、實驗評估:從各個維度驗證TAGS的有效性
研究團(tuán)隊在九個醫(yī)學(xué)問答基準(zhǔn)測試上全面評估了TAGS系統(tǒng),這些測試集涵蓋了從醫(yī)學(xué)執(zhí)照考試(MedQA)、醫(yī)學(xué)多選題(MedMCQA)到醫(yī)學(xué)文獻(xiàn)理解(PubMedQA)等多種醫(yī)學(xué)問答場景。
簡單來說,TAGS在各個測試集上都取得了顯著進(jìn)步。使用GPT-4o作為基礎(chǔ)模型時,TAGS將平均準(zhǔn)確率從18.0%提升到31.8%;使用DeepSeek-R1時,準(zhǔn)確率從27.2%提升到了44.0%;即使是規(guī)模較小的Qwen-2.5-7B模型,也從14.1%提升到了23.9%。
最引人注目的是,TAGS在不需要任何模型參數(shù)更新的情況下,表現(xiàn)超過了多個專門為醫(yī)學(xué)領(lǐng)域微調(diào)的語言模型,如HuatuoGPT和MedLLAMA。這證明了良好的推理架構(gòu)設(shè)計可以彌補模型參數(shù)量和特定領(lǐng)域訓(xùn)練的不足。
研究團(tuán)隊還進(jìn)行了詳盡的消融實驗,分析各組件的貢獻(xiàn)。結(jié)果顯示,移除任何一個核心組件都會導(dǎo)致性能下降,證明了整個框架的每個部分都是不可或缺的。特別有趣的是,即使在排除最相似問題的情況下(通過刻意避開語義上最相近的前10個問題),TAGS依然保持強勁表現(xiàn),這表明系統(tǒng)獲益的主要是有效的推理模式,而非簡單記憶特定答案。
在推理效率方面,TAGS在GPT-4o上平均每個問題需要72秒,雖然比簡單的鏈?zhǔn)剿季S方法(27.7秒)慢,但比復(fù)雜的多智能體系統(tǒng)(109.6秒)快得多,同時準(zhǔn)確率大幅提高,這種適度的推理成本換來了顯著的性能提升,代表了一種有利的權(quán)衡。
五、TAGS框架的創(chuàng)新價值與未來展望
研究團(tuán)隊的工作為醫(yī)學(xué)AI問答領(lǐng)域帶來了四個關(guān)鍵創(chuàng)新:
首先,TAGS是一個完全在推理時執(zhí)行的框架,不需要任何模型微調(diào)或參數(shù)更新。這使它能夠輕松適應(yīng)新的醫(yī)學(xué)知識和不斷變化的臨床場景,只需更新檢索數(shù)據(jù)庫即可。
其次,泛醫(yī)-專醫(yī)協(xié)作架構(gòu)提供了一種結(jié)構(gòu)化的雙重視角,結(jié)合了一般醫(yī)學(xué)知識的廣度和??漆t(yī)學(xué)的深度,使系統(tǒng)能夠處理各種醫(yī)學(xué)問題,從基礎(chǔ)疾病診斷到復(fù)雜的??浦委煕Q策。
第三,層次化檢索增強機制不僅提供了相關(guān)示例,還通過推理路徑層面的對齊優(yōu)化了檢索質(zhì)量,使系統(tǒng)能夠?qū)W習(xí)多樣化的推理模式,而非簡單復(fù)制答案。
最后,不確定性感知的答案聚合模塊引入了一種新穎的推理驗證機制,通過評估推理與答案之間的一致性,提高了系統(tǒng)輸出的可靠性和可解釋性。
盡管取得了顯著成就,研究團(tuán)隊也坦誠承認(rèn)了TAGS的一些局限性。該系統(tǒng)高度依賴外部檢索語料庫的質(zhì)量和覆蓋范圍,對于罕見疾病或新興臨床場景可能存在知識空白。此外,推理一致性評估器本身是基于零樣本LLM提示,可能繼承基礎(chǔ)模型的幻覺傾向。在實際應(yīng)用中,兩輪檢索和雙智能體設(shè)計雖然有效,但也增加了推理延遲和API調(diào)用成本,這可能限制其在資源受限環(huán)境下的實時部署。
展望未來,研究團(tuán)隊計劃進(jìn)一步擴展TAGS框架,探索自適應(yīng)檢索策略、動態(tài)智能體協(xié)作,并擴展到多模態(tài)或真實世界臨床問答工作流程。他們也計劃加入更多人類反饋和臨床評估,確保系統(tǒng)的建議不僅在技術(shù)上準(zhǔn)確,還要在臨床實踐中有用且可靠。
這項研究代表了醫(yī)學(xué)AI問答領(lǐng)域的一個重要里程碑,為構(gòu)建更可靠、更透明的醫(yī)學(xué)AI系統(tǒng)提供了新的思路和方法。通過糅合廣泛醫(yī)學(xué)知識與??粕疃?、結(jié)構(gòu)化推理與知識檢索、以及內(nèi)在一致性驗證,TAGS為醫(yī)學(xué)人工智能走向臨床應(yīng)用邁出了堅實的一步。
論文代碼將在GitHub上開源(https://github.com/JianghaoWu/TAGS),有助于推動醫(yī)學(xué)AI研究的進(jìn)一步發(fā)展和臨床應(yīng)用。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。