這項(xiàng)由俄羅斯人工智能研究院(AIRI)與Sber AI實(shí)驗(yàn)室等機(jī)構(gòu)聯(lián)合開展的研究發(fā)表于2025年2月的arXiv預(yù)印本平臺(tái),研究團(tuán)隊(duì)包括來自莫斯科多個(gè)頂尖研究機(jī)構(gòu)的專家。有興趣深入了解的讀者可以通過arXiv:2502.21263v1訪問完整論文。
在俄羅斯的醫(yī)院里,每天都有成千上萬的醫(yī)生在做著一項(xiàng)枯燥但極其重要的工作,就像圖書管理員給每本書貼上分類標(biāo)簽一樣,他們需要給每個(gè)病人的診斷貼上國(guó)際疾病分類代碼,也就是我們常說的ICD代碼。這個(gè)過程就像給病情"貼標(biāo)簽",比如感冒可能對(duì)應(yīng)某個(gè)代碼,糖尿病對(duì)應(yīng)另一個(gè)代碼。這些代碼不僅用于醫(yī)療記錄,還關(guān)系到保險(xiǎn)理賠、醫(yī)療統(tǒng)計(jì)和科研分析。
然而,這個(gè)看似簡(jiǎn)單的"貼標(biāo)簽"工作實(shí)際上困難重重。俄羅斯的醫(yī)生們面臨著特殊的挑戰(zhàn),因?yàn)槎碚Z醫(yī)療資源相對(duì)稀缺,現(xiàn)有的自動(dòng)化工具大多是為英語設(shè)計(jì)的。就像用英文食譜做中式菜肴一樣困難,現(xiàn)有的醫(yī)療AI工具在處理俄語病歷時(shí)往往力不從心。更讓人頭疼的是,即使是經(jīng)驗(yàn)豐富的醫(yī)生,在給同一個(gè)病例分配代碼時(shí)也經(jīng)常出現(xiàn)分歧,就像不同的廚師對(duì)同一道菜的調(diào)料比例有不同看法一樣。
正是在這樣的背景下,研究團(tuán)隊(duì)決定開發(fā)一套專門針對(duì)俄語醫(yī)療記錄的智能編碼系統(tǒng)。他們的目標(biāo)很明確:讓計(jì)算機(jī)能夠像一位經(jīng)驗(yàn)豐富的醫(yī)療編碼專家一樣,準(zhǔn)確理解俄語病歷中的診斷內(nèi)容,并自動(dòng)分配正確的ICD代碼。
一、突破俄語醫(yī)療AI的數(shù)據(jù)荒漠
要訓(xùn)練一個(gè)能夠理解俄語醫(yī)療記錄的AI系統(tǒng),就像教一個(gè)外國(guó)人學(xué)習(xí)中醫(yī)術(shù)語一樣,首先需要大量高質(zhì)量的學(xué)習(xí)材料。研究團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)就是俄語醫(yī)療數(shù)據(jù)的嚴(yán)重匱乏。
為了解決這個(gè)問題,研究團(tuán)隊(duì)構(gòu)建了名為RuCCoD的數(shù)據(jù)集,這個(gè)名字代表"俄語ICD編碼數(shù)據(jù)集"。這個(gè)數(shù)據(jù)集就像一個(gè)精心編制的俄語醫(yī)療詞典,包含了3500條真實(shí)的醫(yī)療診斷記錄,每一條都經(jīng)過專業(yè)醫(yī)生的仔細(xì)標(biāo)注。這些醫(yī)生就像嚴(yán)格的老師一樣,為每個(gè)診斷中提到的疾病都分配了準(zhǔn)確的ICD代碼。
數(shù)據(jù)收集過程頗為嚴(yán)謹(jǐn)。研究團(tuán)隊(duì)從歐洲某大城市的醫(yī)療信息系統(tǒng)中獲取了匿名化的診斷結(jié)論,然后邀請(qǐng)三位擁有博士學(xué)位的資深醫(yī)療專家進(jìn)行標(biāo)注工作。這個(gè)過程就像三位裁判同時(shí)為一場(chǎng)比賽打分一樣,只有當(dāng)至少兩位專家意見一致時(shí),標(biāo)注結(jié)果才會(huì)被采納。最終,這個(gè)數(shù)據(jù)集涵蓋了超過1萬個(gè)醫(yī)療實(shí)體和1500多個(gè)獨(dú)特的ICD代碼。
然而,即使是專業(yè)醫(yī)生,在標(biāo)注同一個(gè)病例時(shí)也存在分歧。研究發(fā)現(xiàn),醫(yī)生們?cè)诰唧w代碼分配上的一致性只有50%,但在疾病大類劃分上的一致性能達(dá)到74%。這就像不同的音樂評(píng)論家可能對(duì)一首歌的具體評(píng)分有分歧,但對(duì)于它屬于哪種音樂風(fēng)格通常能達(dá)成共識(shí)。這個(gè)發(fā)現(xiàn)揭示了醫(yī)療編碼工作本身的復(fù)雜性和主觀性。
除了基礎(chǔ)的編碼數(shù)據(jù)集,研究團(tuán)隊(duì)還構(gòu)建了一個(gè)更大規(guī)模的數(shù)據(jù)集RuCCoD-DP,包含了86.5萬份電子病歷記錄,涵蓋16.4萬名患者從2017年到2021年的醫(yī)療數(shù)據(jù)。這個(gè)數(shù)據(jù)集就像一個(gè)龐大的醫(yī)療檔案庫,為研究提供了豐富的真實(shí)世界數(shù)據(jù)。
二、設(shè)計(jì)多樣化的AI醫(yī)療編碼方案
面對(duì)俄語醫(yī)療編碼這個(gè)復(fù)雜任務(wù),研究團(tuán)隊(duì)就像組織一支多技能的探險(xiǎn)隊(duì)一樣,設(shè)計(jì)了三種不同但互補(bǔ)的解決方案,每種方案都有其獨(dú)特的優(yōu)勢(shì)和適用場(chǎng)景。
第一種方案基于BERT模型,這是一種經(jīng)過專門訓(xùn)練的語言理解AI。研究團(tuán)隊(duì)使用了RuBioBERT,這是專門為俄語生物醫(yī)學(xué)文本設(shè)計(jì)的BERT版本,就像為俄語醫(yī)療量身定制的翻譯專家。這個(gè)系統(tǒng)的工作流程分為兩個(gè)步驟:首先識(shí)別診斷文本中的疾病名稱,然后將這些疾病名稱與相應(yīng)的ICD代碼匹配。這個(gè)過程就像先在一篇文章中圈出所有的專業(yè)術(shù)語,然后再查字典找到每個(gè)術(shù)語的準(zhǔn)確定義。
第二種方案使用了大型語言模型配合參數(shù)高效微調(diào)技術(shù)。研究團(tuán)隊(duì)選擇了包括LLaMA在內(nèi)的多個(gè)先進(jìn)模型,通過LoRA(低秩適應(yīng))技術(shù)對(duì)這些模型進(jìn)行專門訓(xùn)練。這種方法就像給一位博學(xué)的學(xué)者提供專業(yè)的醫(yī)學(xué)培訓(xùn),讓他能夠更好地理解和處理醫(yī)療文檔。這些模型不僅要學(xué)會(huì)識(shí)別疾病名稱,還要學(xué)會(huì)從復(fù)雜的醫(yī)療描述中提取關(guān)鍵信息。
第三種方案采用了檢索增強(qiáng)生成技術(shù),這是目前AI領(lǐng)域的前沿方法。這個(gè)系統(tǒng)就像一位擁有巨大醫(yī)學(xué)圖書館的智能助手,當(dāng)遇到新的診斷時(shí),它會(huì)先在知識(shí)庫中搜索相關(guān)信息,然后基于檢索到的信息做出判斷。具體來說,系統(tǒng)會(huì)從包含17762對(duì)代碼和診斷的官方詞典中檢索最相關(guān)的條目,然后使用語言模型從候選項(xiàng)中選擇最合適的代碼。
為了確保系統(tǒng)的實(shí)用性,研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)創(chuàng)新的評(píng)估方法。他們意識(shí)到,在實(shí)際應(yīng)用中,醫(yī)生更關(guān)心的是最終得到正確的疾病代碼,而不是系統(tǒng)識(shí)別疾病名稱的精確邊界。因此,他們開發(fā)了一種"EHR級(jí)別代碼聚合"的評(píng)估方式,這種方法更貼近真實(shí)的醫(yī)療工作流程。
三、驗(yàn)證AI系統(tǒng)的實(shí)際表現(xiàn)
為了全面評(píng)估這些AI系統(tǒng)的性能,研究團(tuán)隊(duì)設(shè)計(jì)了一系列嚴(yán)格的測(cè)試,就像對(duì)新藥進(jìn)行多期臨床試驗(yàn)一樣。他們不僅要測(cè)試系統(tǒng)在理想條件下的表現(xiàn),還要驗(yàn)證其在真實(shí)醫(yī)療環(huán)境中的實(shí)用性。
首先,研究團(tuán)隊(duì)進(jìn)行了跨領(lǐng)域遷移學(xué)習(xí)的實(shí)驗(yàn)。他們發(fā)現(xiàn),即使是在其他俄語生物醫(yī)學(xué)數(shù)據(jù)集上訓(xùn)練的模型,在ICD編碼任務(wù)上的表現(xiàn)也不盡如人意。這就像一位擅長(zhǎng)診斷內(nèi)科疾病的醫(yī)生在處理外科病例時(shí)可能遇到困難一樣。具體來說,當(dāng)系統(tǒng)嘗試使用來自學(xué)術(shù)文獻(xiàn)的醫(yī)學(xué)概念來理解臨床診斷時(shí),準(zhǔn)確率出現(xiàn)了顯著下降。
在端到端的ICD編碼測(cè)試中,研究團(tuán)隊(duì)發(fā)現(xiàn)基于RuCCoD數(shù)據(jù)訓(xùn)練的模型表現(xiàn)最佳。最好的系統(tǒng)能夠達(dá)到52.5%的F1分?jǐn)?shù),這意味著在處理100個(gè)診斷案例中,系統(tǒng)能夠正確處理大約52個(gè)。雖然這個(gè)數(shù)字看起來不夠理想,但考慮到任務(wù)的復(fù)雜性和人類專家之間也存在50%的一致性,這個(gè)結(jié)果已經(jīng)相當(dāng)不錯(cuò)了。
更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)大型語言模型在經(jīng)過專門訓(xùn)練后表現(xiàn)出色。特別是Phi3.5-mini模型在使用RuCCoD數(shù)據(jù)訓(xùn)練后,在代碼分配任務(wù)上達(dá)到了48%的F1分?jǐn)?shù)。這就像一個(gè)聰明的學(xué)生經(jīng)過專門的醫(yī)學(xué)培訓(xùn)后,能夠處理大部分常見的診斷編碼任務(wù)。
在檢索增強(qiáng)生成方面的實(shí)驗(yàn)顯示,使用ICD官方詞典結(jié)合RuCCoD訓(xùn)練數(shù)據(jù)的方法效果最好。LLaMA3-8b-Instruct模型在這種配置下達(dá)到了45.8%的F1分?jǐn)?shù)。這種方法的優(yōu)勢(shì)在于它能夠處理訓(xùn)練數(shù)據(jù)中沒有出現(xiàn)過的新疾病,就像一位醫(yī)生在遇到罕見疾病時(shí)會(huì)查閱醫(yī)學(xué)參考書一樣。
四、探索AI編碼對(duì)診斷預(yù)測(cè)的革命性影響
研究的最激動(dòng)人心的部分來自一個(gè)意想不到的發(fā)現(xiàn):AI生成的ICD代碼在訓(xùn)練診斷預(yù)測(cè)模型時(shí),竟然比醫(yī)生手工分配的代碼表現(xiàn)更好。這個(gè)發(fā)現(xiàn)就像發(fā)現(xiàn)機(jī)器翻譯的文本在某些情況下比人工翻譯更適合用于語言學(xué)習(xí)一樣令人驚訝。
為了驗(yàn)證這個(gè)假設(shè),研究團(tuán)隊(duì)進(jìn)行了一個(gè)大規(guī)模的對(duì)比實(shí)驗(yàn)。他們使用最佳性能的ICD編碼模型對(duì)86.5萬份電子病歷進(jìn)行了自動(dòng)編碼,然后分別使用原始的醫(yī)生編碼和AI生成的編碼來訓(xùn)練診斷預(yù)測(cè)模型。診斷預(yù)測(cè)模型的任務(wù)是根據(jù)患者的歷史醫(yī)療記錄預(yù)測(cè)可能的疾病,這就像根據(jù)一個(gè)人的生活習(xí)慣和身體狀況預(yù)測(cè)他可能患什么病一樣。
實(shí)驗(yàn)結(jié)果令人震驚。使用AI生成編碼訓(xùn)練的模型在宏觀平均F1分?jǐn)?shù)上比使用醫(yī)生編碼的模型高出了28個(gè)百分點(diǎn),達(dá)到了0.48的分?jǐn)?shù),而醫(yī)生編碼訓(xùn)練的模型只能達(dá)到0.2左右。這個(gè)巨大的性能差異揭示了一個(gè)重要問題:醫(yī)生在實(shí)際工作中分配ICD代碼時(shí)可能存在系統(tǒng)性的不一致或錯(cuò)誤。
更深入的分析顯示,這種改進(jìn)在常見疾病和罕見疾病上都有體現(xiàn)。對(duì)于常見疾病,AI編碼幫助模型實(shí)現(xiàn)了更穩(wěn)定的預(yù)測(cè)性能,減少了預(yù)測(cè)結(jié)果的變異性。對(duì)于罕見疾病,AI編碼的優(yōu)勢(shì)更加明顯,幫助模型在處理低頻疾病時(shí)的F1分?jǐn)?shù)提高了6倍。這就像一位經(jīng)驗(yàn)豐富的專科醫(yī)生在處理罕見病例時(shí)表現(xiàn)得比全科醫(yī)生更穩(wěn)定可靠。
研究團(tuán)隊(duì)還進(jìn)行了一個(gè)有趣的案例分析。他們發(fā)現(xiàn),對(duì)于某些復(fù)雜的疾病如"既往心肌梗死",AI編碼系統(tǒng)能夠更準(zhǔn)確地將其重新分類到相關(guān)但更具體的疾病類別,如"高血壓性心臟病"或"2型糖尿病"。這種重新分類雖然在技術(shù)上可能不完全符合原始診斷,但從疾病預(yù)測(cè)的角度來看,卻提供了更有價(jià)值的信息。
五、技術(shù)創(chuàng)新與方法學(xué)突破
這項(xiàng)研究在技術(shù)方法上也有多個(gè)創(chuàng)新點(diǎn)。首先,研究團(tuán)隊(duì)提出了一種新的評(píng)估框架,將傳統(tǒng)的實(shí)體識(shí)別和實(shí)體鏈接任務(wù)重新整合為更實(shí)用的"EHR級(jí)別代碼聚合"任務(wù)。這種方法更貼近實(shí)際的醫(yī)療工作流程,因?yàn)樵诂F(xiàn)實(shí)中,醫(yī)生關(guān)心的是為整個(gè)診斷分配正確的代碼集合,而不是精確標(biāo)注每個(gè)疾病名稱的邊界。
在模型訓(xùn)練方面,研究團(tuán)隊(duì)采用了多種先進(jìn)的技術(shù)。對(duì)于BERT類模型,他們使用了同義詞邊際化技術(shù),這種方法能夠幫助模型更好地理解同一疾病的不同表達(dá)方式。對(duì)于大型語言模型,他們使用了LoRA微調(diào)技術(shù),這種方法能夠在保持模型通用能力的同時(shí),讓其專門適應(yīng)醫(yī)療編碼任務(wù)。
在處理類別不平衡問題上,研究團(tuán)隊(duì)也有獨(dú)特的見解。他們發(fā)現(xiàn),在RuCCoD數(shù)據(jù)集中,少數(shù)幾個(gè)常見疾病代碼占據(jù)了大部分樣本,而大量罕見疾病只有很少的樣本。為了解決這個(gè)問題,他們?cè)谟?xùn)練過程中采用了診斷列表隨機(jī)打亂的策略,強(qiáng)制模型學(xué)會(huì)基于上下文區(qū)分不同的疾病代碼,而不是簡(jiǎn)單地記憶高頻代碼。
研究團(tuán)隊(duì)還探索了不同知識(shí)來源的整合。他們嘗試將UMLS(統(tǒng)一醫(yī)學(xué)語言系統(tǒng))中的同義詞信息整合到ICD編碼任務(wù)中,但發(fā)現(xiàn)這種整合反而會(huì)帶來噪聲,降低系統(tǒng)性能。這個(gè)發(fā)現(xiàn)提醒我們,不是所有的外部知識(shí)都能改善特定任務(wù)的性能,知識(shí)的質(zhì)量和相關(guān)性比數(shù)量更重要。
六、深入理解AI與人類醫(yī)生的差異
這項(xiàng)研究最引人深思的發(fā)現(xiàn)之一是AI編碼與人類醫(yī)生編碼之間的系統(tǒng)性差異。通過詳細(xì)分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:AI系統(tǒng)往往能夠捕捉到診斷文本中的顯性信息,而人類醫(yī)生在編碼時(shí)可能會(huì)受到隱性知識(shí)和經(jīng)驗(yàn)判斷的影響。
舉個(gè)具體例子,當(dāng)診斷文本明確提到"急性支氣管炎"時(shí),AI系統(tǒng)會(huì)直接分配相應(yīng)的ICD代碼。但人類醫(yī)生可能會(huì)考慮患者的整體情況、病史背景,甚至醫(yī)院的編碼習(xí)慣,最終分配一個(gè)看似不那么精確但在某種程度上"更合理"的代碼。這種差異就像嚴(yán)格按照食譜做菜的廚師與憑經(jīng)驗(yàn)調(diào)味的老廚師之間的區(qū)別。
研究還發(fā)現(xiàn),AI編碼在疾病預(yù)測(cè)任務(wù)上的優(yōu)勢(shì)主要來自其一致性和系統(tǒng)性。AI系統(tǒng)不會(huì)像人類一樣受到疲勞、情緒或工作壓力的影響,它總是以相同的標(biāo)準(zhǔn)處理相似的病例。這種一致性在機(jī)器學(xué)習(xí)模型訓(xùn)練中特別有價(jià)值,因?yàn)槟P湍軌驅(qū)W到更穩(wěn)定的模式。
另一個(gè)有趣的發(fā)現(xiàn)是關(guān)于疾病頻率的影響。研究團(tuán)隊(duì)發(fā)現(xiàn),對(duì)于高頻疾病,AI編碼和人類編碼的差異相對(duì)較小,但對(duì)于低頻罕見疾病,差異就變得很大。這可能是因?yàn)槿祟愥t(yī)生在處理罕見疾病時(shí)更容易出現(xiàn)不一致,而AI系統(tǒng)能夠保持相同的處理標(biāo)準(zhǔn)。
七、系統(tǒng)局限性與未來改進(jìn)方向
盡管這項(xiàng)研究取得了顯著成果,但研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了系統(tǒng)的局限性。首先,50%的專家間一致率提醒我們,醫(yī)療編碼本身就是一個(gè)具有主觀性的任務(wù)。即使是經(jīng)驗(yàn)豐富的醫(yī)生,在面對(duì)復(fù)雜病例時(shí)也可能產(chǎn)生不同的判斷。
數(shù)據(jù)集的規(guī)模和多樣性也是一個(gè)限制因素。雖然RuCCoD數(shù)據(jù)集在俄語醫(yī)療編碼領(lǐng)域是開創(chuàng)性的,但3500個(gè)樣本對(duì)于機(jī)器學(xué)習(xí)來說仍然相對(duì)較小。更重要的是,這些數(shù)據(jù)來自單一城市的醫(yī)療系統(tǒng),可能無法完全代表俄羅斯各地的醫(yī)療實(shí)踐差異。
在技術(shù)層面,現(xiàn)有系統(tǒng)還無法很好地處理復(fù)雜的醫(yī)療邏輯推理。比如,當(dāng)診斷提到"排除惡性腫瘤"時(shí),系統(tǒng)可能會(huì)錯(cuò)誤地分配腫瘤相關(guān)的代碼,而實(shí)際上這個(gè)表述意味著患者沒有腫瘤。這種語言理解的細(xì)微差別對(duì)AI系統(tǒng)來說仍然是挑戰(zhàn)。
類別不平衡問題也沒有得到完全解決。在真實(shí)的醫(yī)療數(shù)據(jù)中,常見疾病和罕見疾病的分布極不均勻,這會(huì)導(dǎo)致AI系統(tǒng)在處理罕見疾病時(shí)性能下降。雖然研究團(tuán)隊(duì)嘗試了多種緩解策略,但這仍然是一個(gè)需要進(jìn)一步研究的問題。
八、對(duì)醫(yī)療實(shí)踐的深遠(yuǎn)影響
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)層面的創(chuàng)新。它為俄語醫(yī)療信息化提供了重要的基礎(chǔ)設(shè)施,可能會(huì)改變俄羅斯醫(yī)療系統(tǒng)的工作方式。想象一下,如果醫(yī)生不再需要花費(fèi)大量時(shí)間進(jìn)行重復(fù)性的編碼工作,他們就能將更多精力投入到實(shí)際的診療過程中。
從醫(yī)療質(zhì)量角度來看,自動(dòng)化的ICD編碼系統(tǒng)能夠減少人為錯(cuò)誤,提高編碼的一致性和準(zhǔn)確性。這對(duì)于醫(yī)療統(tǒng)計(jì)、保險(xiǎn)理賠和科研分析都有重要意義。更準(zhǔn)確的編碼意味著更可靠的醫(yī)療數(shù)據(jù),這將有助于醫(yī)療政策制定和資源配置。
研究還顯示了AI在醫(yī)療輔助決策方面的潛力。通過使用AI生成的標(biāo)準(zhǔn)化編碼來訓(xùn)練診斷預(yù)測(cè)模型,醫(yī)療系統(tǒng)可能能夠更好地預(yù)測(cè)患者的健康風(fēng)險(xiǎn),從而實(shí)現(xiàn)更有效的預(yù)防性醫(yī)療。
對(duì)于醫(yī)學(xué)教育,這項(xiàng)研究也提供了新的思路。AI編碼系統(tǒng)的一致性和準(zhǔn)確性可能使其成為醫(yī)學(xué)生學(xué)習(xí)疾病分類的有用工具。學(xué)生可以通過與AI系統(tǒng)的對(duì)比來檢驗(yàn)自己的編碼技能,發(fā)現(xiàn)自己的不足之處。
九、技術(shù)推廣與應(yīng)用前景
從技術(shù)推廣的角度來看,這項(xiàng)研究為其他非英語國(guó)家開發(fā)本土化醫(yī)療AI系統(tǒng)提供了寶貴經(jīng)驗(yàn)。研究團(tuán)隊(duì)開源了他們的數(shù)據(jù)集和代碼,這意味著其他國(guó)家的研究者可以基于這些資源開發(fā)適合自己語言和醫(yī)療體系的系統(tǒng)。
在商業(yè)應(yīng)用方面,這種技術(shù)有著廣闊的市場(chǎng)前景。醫(yī)療機(jī)構(gòu)可以將其集成到現(xiàn)有的電子病歷系統(tǒng)中,減少醫(yī)生的工作負(fù)擔(dān),提高編碼效率。保險(xiǎn)公司可以使用這種技術(shù)來自動(dòng)化理賠處理流程,減少人工審核成本。
對(duì)于醫(yī)療科研,標(biāo)準(zhǔn)化的自動(dòng)編碼能夠幫助研究者更快地處理大規(guī)模醫(yī)療數(shù)據(jù),加速醫(yī)學(xué)發(fā)現(xiàn)的過程。特別是在流行病學(xué)研究和藥物安全監(jiān)測(cè)方面,這種技術(shù)可能發(fā)揮重要作用。
研究團(tuán)隊(duì)還提到了未來的改進(jìn)方向。他們計(jì)劃整合更多的外部醫(yī)學(xué)知識(shí)源,如醫(yī)學(xué)知識(shí)圖譜,來提高系統(tǒng)對(duì)復(fù)雜醫(yī)學(xué)概念的理解能力。他們還希望探索大型語言模型在處理罕見疾病方面的泛化能力,這對(duì)于提高系統(tǒng)的實(shí)用性至關(guān)重要。
十、對(duì)全球醫(yī)療AI發(fā)展的啟示
這項(xiàng)研究對(duì)全球醫(yī)療AI發(fā)展有著重要的啟示意義。首先,它證明了為特定語言和文化背景開發(fā)專門醫(yī)療AI系統(tǒng)的必要性。雖然英語醫(yī)療AI系統(tǒng)相對(duì)成熟,但直接遷移到其他語言往往效果不佳,需要大量的本土化工作。
研究還揭示了醫(yī)療編碼任務(wù)的復(fù)雜性。這不僅僅是一個(gè)技術(shù)問題,更涉及醫(yī)學(xué)知識(shí)、臨床實(shí)踐和文化因素的綜合考量。未來的醫(yī)療AI系統(tǒng)需要更好地平衡技術(shù)準(zhǔn)確性和臨床實(shí)用性。
另一個(gè)重要啟示是關(guān)于數(shù)據(jù)質(zhì)量的重要性。研究發(fā)現(xiàn),即使是專業(yè)醫(yī)生標(biāo)注的數(shù)據(jù)也存在不一致性,這提醒我們?cè)跇?gòu)建醫(yī)療AI系統(tǒng)時(shí)需要特別關(guān)注數(shù)據(jù)質(zhì)量控制和標(biāo)注指南的制定。
最后,這項(xiàng)研究展示了跨學(xué)科合作的重要性。成功的醫(yī)療AI項(xiàng)目需要計(jì)算機(jī)科學(xué)家、醫(yī)學(xué)專家、語言學(xué)家和臨床醫(yī)生的密切合作。只有這樣,才能開發(fā)出既技術(shù)先進(jìn)又臨床實(shí)用的系統(tǒng)。
說到底,這項(xiàng)來自俄羅斯的研究不僅為俄語醫(yī)療編碼問題提供了創(chuàng)新解決方案,更重要的是,它揭示了AI在醫(yī)療領(lǐng)域應(yīng)用的新可能性。研究發(fā)現(xiàn)AI生成的醫(yī)療編碼在某些情況下可能比人工編碼更適合用于機(jī)器學(xué)習(xí)任務(wù),這個(gè)發(fā)現(xiàn)可能會(huì)改變我們對(duì)醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化的認(rèn)識(shí)。
雖然系統(tǒng)目前還存在一些局限性,比如對(duì)復(fù)雜醫(yī)學(xué)推理的處理能力有限,以及在罕見疾病處理上的不足,但這些問題都為未來的研究指明了方向。隨著技術(shù)的不斷改進(jìn)和數(shù)據(jù)的持續(xù)積累,我們有理由相信,這類智能醫(yī)療編碼系統(tǒng)將在不久的將來成為醫(yī)療信息化的重要組成部分。
對(duì)于普通人來說,這項(xiàng)研究意味著未來看病可能會(huì)更加便捷和準(zhǔn)確。醫(yī)生不再需要花費(fèi)大量時(shí)間在繁瑣的編碼工作上,而可以將更多注意力集中在患者診療上。同時(shí),更準(zhǔn)確的醫(yī)療編碼也將有助于醫(yī)療保險(xiǎn)的處理和醫(yī)療資源的合理配置,最終讓每個(gè)人都能受益于更高效的醫(yī)療服務(wù)。
對(duì)于那些對(duì)這一領(lǐng)域感興趣的讀者,建議關(guān)注這個(gè)研究團(tuán)隊(duì)的后續(xù)工作,他們計(jì)劃在更大規(guī)模的數(shù)據(jù)集上驗(yàn)證系統(tǒng)性能,并探索將這種技術(shù)擴(kuò)展到其他醫(yī)療任務(wù)的可能性。這項(xiàng)研究的開源代碼和數(shù)據(jù)集也為其他研究者提供了寶貴的資源,相信會(huì)推動(dòng)整個(gè)醫(yī)療AI領(lǐng)域的發(fā)展。
Q&A
Q1:RuCCoD是什么?它解決了什么問題? A:RuCCoD是專門為俄語醫(yī)療記錄開發(fā)的ICD編碼數(shù)據(jù)集和AI系統(tǒng)。它解決了俄語醫(yī)療領(lǐng)域缺乏自動(dòng)化編碼工具的問題,能夠自動(dòng)將俄語診斷文本轉(zhuǎn)換為標(biāo)準(zhǔn)的國(guó)際疾病分類代碼,減輕醫(yī)生的工作負(fù)擔(dān)并提高編碼準(zhǔn)確性。
Q2:AI編碼會(huì)不會(huì)比醫(yī)生編碼更準(zhǔn)確? A:在某些方面是的。研究發(fā)現(xiàn),用AI生成的編碼訓(xùn)練診斷預(yù)測(cè)模型,其準(zhǔn)確率比用醫(yī)生手工編碼訓(xùn)練的模型高出28%。這主要是因?yàn)锳I編碼更一致、更系統(tǒng)化,減少了人為的主觀性和不一致性,特別是在處理常見疾病和罕見疾病時(shí)都表現(xiàn)更穩(wěn)定。
Q3:這個(gè)系統(tǒng)目前有什么局限性? A:主要局限包括:專業(yè)醫(yī)生間對(duì)同一病例編碼的一致性只有50%,說明任務(wù)本身具有主觀性;數(shù)據(jù)集規(guī)模相對(duì)較小,來源單一;系統(tǒng)難以處理復(fù)雜的醫(yī)學(xué)邏輯推理;在罕見疾病處理上仍有不足。但隨著數(shù)據(jù)積累和技術(shù)改進(jìn),這些問題有望逐步解決。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。