這項由美國密蘇里州默西醫(yī)院內(nèi)分泌科的約翰遜·托馬斯(Johnson Thomas)博士領導的研究團隊,聯(lián)合Starfishdata.ai、alignmentlab.ai和Solo Tech公司的專家共同完成。該研究發(fā)表于2025年,詳細探討了如何利用小型人工智能模型在瀏覽器中直接處理醫(yī)療轉錄,生成結構化病歷。有興趣深入了解的讀者可以通過研究團隊公開的數(shù)據(jù)集和模型訪問完整研究成果。
醫(yī)生們每天都在為一件事情頭疼不已:寫病歷。據(jù)統(tǒng)計,醫(yī)生們每天要花費2個小時在各種文書工作上,這幾乎占據(jù)了他們一半的工作時間。每看一個病人1小時,就要花將近2小時來整理電子病歷系統(tǒng)中的各種記錄。這種情況就像是讓一個廚師花一半時間做菜,另一半時間寫菜譜和記錄用料一樣令人沮喪。
近年來,大型語言模型(就是類似ChatGPT這樣的AI系統(tǒng))的出現(xiàn)給醫(yī)療文檔處理帶來了曙光。這些AI就像是智能的秘書,能夠聽懂醫(yī)生和病人的對話,然后自動整理成規(guī)范的病歷。但是,現(xiàn)有的解決方案面臨著三個嚴重的問題。
首先是隱私問題。目前大多數(shù)AI系統(tǒng)都需要把病人的對話錄音上傳到云端服務器進行處理,這就像是把病人的私密醫(yī)療信息交給了遠程的陌生人處理。在美國,這樣的做法必須嚴格遵守HIPAA(健康保險可攜帶性和問責法案)等法律法規(guī),一旦發(fā)生數(shù)據(jù)泄露,后果不堪設想。
其次是成本問題。這些強大的AI系統(tǒng)需要昂貴的計算資源,通常需要按月付費訂閱,對于小型診所來說這筆費用相當可觀。這就像是為了寫幾封信而雇傭一個全職秘書一樣不劃算。
最后是技術門檻問題。這些系統(tǒng)通常需要專業(yè)的技術人員來部署和維護,對于許多醫(yī)療機構來說過于復雜。
面對這些挑戰(zhàn),托馬斯博士的研究團隊提出了一個創(chuàng)新的解決方案:開發(fā)一個能夠完全在瀏覽器中運行的小型AI模型,專門用于醫(yī)療轉錄和病歷生成。這個方案的核心思想是"小而精"——雖然模型規(guī)模較小,但通過專門的訓練,它能夠在保證隱私安全的前提下,在普通電腦的瀏覽器中直接處理醫(yī)療轉錄任務。
研究團隊選擇了Meta公司開發(fā)的Llama 3.2 1B模型作為基礎。這個模型只有10億個參數(shù),相比那些動輒數(shù)千億參數(shù)的大型模型來說,它就像是一臺緊湊型汽車,雖然不如大型豪華車那樣功能全面,但足夠滿足日常通勤需求,而且更加經(jīng)濟實用。
為了讓這個通用的AI模型變成醫(yī)療專家,研究團隊采用了一種叫做"參數(shù)高效微調(diào)"的技術,具體使用了LoRA(Low-Rank Adaptation)方法。這種方法就像是給一個通用工具箱添加專業(yè)工具一樣,不需要重新制造整個工具箱,只需要添加一些專門的工具就能讓它勝任特定的工作。
訓練數(shù)據(jù)的準備是這項研究的另一個重要環(huán)節(jié)。研究團隊創(chuàng)建了1500對合成的醫(yī)療轉錄和對應的結構化病歷,這些數(shù)據(jù)主要聚焦于內(nèi)分泌科的病例。這個過程就像是為一個醫(yī)學生準備教材,需要包含各種常見的病例、癥狀討論、治療方案和隨訪指導。
數(shù)據(jù)生成過程經(jīng)過了精心設計。研究團隊首先創(chuàng)建了真實的內(nèi)分泌科咨詢話題,涵蓋了常見的內(nèi)分泌疾病、癥狀、治療方法和生活方式討論。然后,他們?yōu)槊總€話題制定了詳細的背景描述,以確保生成的對話內(nèi)容準確且相關。
接下來,研究團隊使用高級的AI提示技術,生成了自然且真實的內(nèi)分泌科醫(yī)患對話。這些對話包含了實驗室檢查結果、病情討論、用藥計劃和隨訪指導,同時還加入了真實對話中常見的打斷、澄清等自然語言特征。
為了確保數(shù)據(jù)質量,每個生成的轉錄都經(jīng)過了自動化的批評和修訂循環(huán)。系統(tǒng)會評估內(nèi)容的完整性、臨床相關性和真實性,并根據(jù)反饋進行迭代改進。最終,這些精心制作的轉錄被轉換成標準化的結構化內(nèi)分泌科病歷。
特別值得一提的是,研究團隊在擴大數(shù)據(jù)集規(guī)模之前,先生成了20個樣本,并請內(nèi)分泌科專家進行評估。只有在確認這些樣本的醫(yī)學準確性、臨床真實性和文檔標準符合專業(yè)要求后,他們才繼續(xù)生成完整的1500個樣本數(shù)據(jù)集。這種做法就像是在大規(guī)模生產(chǎn)前先制作樣品讓專家驗收一樣謹慎。
為了全面評估模型的性能,研究團隊設計了兩套不同的評估數(shù)據(jù)集。第一套是100個內(nèi)部評估數(shù)據(jù)集,包含合成的轉錄和結構化病歷。第二套是修改后的ACI基準測試,包含140個轉錄,這些轉錄的結構化病歷格式經(jīng)過調(diào)整以匹配訓練數(shù)據(jù)的格式。
評估方法也非常全面,包括了多個維度。在文本相似性方面,研究團隊使用了ROUGE、BERTScore和BLEURT等指標來衡量生成的病歷與參考病歷之間的相似度。這些指標就像是不同角度的放大鏡,能夠從詞匯重疊、語義相似性和整體質量等方面全面評估模型性能。
除了自動化評估,研究團隊還采用了"AI評委"的方法,使用GPT-4.1 mini對生成的病歷進行全面的臨床質量評估。這個評估涵蓋了事實正確性、完整性、臨床相關性、邏輯連貫性、否定檢測、術語準確性、可讀性和整體質量等多個維度,每個維度都使用1-5分的評分標準。
臨床安全性評估是這項研究的重中之重。研究團隊特別關注了兩個關鍵指標:幻覺(AI生成不存在的醫(yī)療信息)和遺漏(AI忽略了重要的醫(yī)療信息)。這些問題在醫(yī)療應用中可能造成嚴重后果,因此研究團隊將其分為輕微、中等和嚴重三個級別進行詳細分析。
經(jīng)過精心的訓練和優(yōu)化,研究團隊開發(fā)的OnDevice模型在各項評估中都表現(xiàn)出了顯著的改進。在ACI基準測試中,ROUGE-1分數(shù)從基礎模型的0.346提升到0.496,增長了43.3%。ROUGE-2分數(shù)更是從0.118提升到0.227,增長了92.7%。這些數(shù)字意味著優(yōu)化后的模型生成的病歷在內(nèi)容覆蓋和準確性方面都有了大幅提升。
在內(nèi)部評估數(shù)據(jù)集上,改進效果更加明顯。ROUGE-1分數(shù)從0.363提升到0.653,增長了79.9%。ROUGE-2分數(shù)從0.135提升到0.390,增長了188.5%。BERTScore F1分數(shù)也從0.827提升到0.907,這表明生成的病歷在語義理解方面有了顯著提升。
臨床質量評估結果同樣令人鼓舞。在事實正確性方面,模型在ACI基準測試中的得分從2.81提升到3.54,在內(nèi)部評估中從3.28提升到4.42。完整性評分也有類似的提升,從2.26提升到3.23(ACI基準),從2.50提升到3.90(內(nèi)部評估)。這些改進意味著優(yōu)化后的模型能夠生成更加準確、完整的醫(yī)療記錄。
最重要的是,在臨床安全性方面,OnDevice模型表現(xiàn)出了顯著的改進。嚴重幻覺的案例數(shù)從85個減少到35個,降低了58.8%。在內(nèi)部評估中,嚴重幻覺更是從33個減少到5個,降低了84.8%。嚴重遺漏的情況也得到了大幅改善,從107個減少到21個,降低了80.4%。在內(nèi)部評估中,嚴重遺漏幾乎完全消除,從71個減少到1個,降低了98.6%。
這些改進數(shù)字的背后,反映的是模型在理解醫(yī)療語言和生成準確病歷方面的顯著進步。研究團隊的方法證明了通過專門的訓練,即使是較小的AI模型也能在特定領域達到很高的專業(yè)水準。
研究團隊還特別強調(diào)了他們方案的三個核心優(yōu)勢。首先是隱私保護。由于整個處理過程都在用戶的瀏覽器中完成,病人的醫(yī)療信息永遠不會離開本地設備,這就像是在自己家里處理機密文件一樣安全。這種方法完全符合HIPAA等隱私法規(guī)的要求,為醫(yī)療機構提供了完全的數(shù)據(jù)主權。
其次是成本效益。傳統(tǒng)的云端AI服務需要持續(xù)的訂閱費用,而這個方案一旦部署就可以無限期使用,不需要額外的運營成本。這就像是購買一臺設備而不是租用服務,長期來看更加經(jīng)濟實用。
第三是可及性。這個方案不需要專業(yè)的技術人員來部署和維護,普通的醫(yī)療機構只需要一臺能夠運行現(xiàn)代瀏覽器的電腦就可以使用。這大大降低了技術門檻,讓更多的醫(yī)療機構能夠享受到AI技術帶來的便利。
當然,這項研究也存在一些局限性。首先,評估主要集中在內(nèi)分泌科病例上,對其他醫(yī)學??频倪m用性還需要進一步驗證。其次,雖然1500個訓練樣本對于參數(shù)高效微調(diào)來說已經(jīng)足夠,但可能限制了模型接觸更多樣化臨床場景的機會。此外,盡管LLM評委評估很全面,但可能無法捕捉到人類臨床醫(yī)生才能察覺的所有實用性方面。最后,評估是在精心準備的數(shù)據(jù)集上進行的,可能無法完全反映真實臨床轉錄環(huán)境的挑戰(zhàn)。
研究團隊為了確保研究的可重復性和推廣性,已經(jīng)將評估代碼、GPT-4.1評委的提示詞以及所有相關資源公開發(fā)布。這種開放的態(tài)度為其他研究者復制和改進這項工作提供了便利。
展望未來,研究團隊指出了幾個重要的發(fā)展方向。首先是將評估擴展到多個醫(yī)學專科,以評估模型在內(nèi)分泌科以外的泛化能力。其次是進行真實臨床環(huán)境的試驗,讓執(zhí)業(yè)醫(yī)師實際使用這個系統(tǒng),從而獲得對實用性和工作流程整合挑戰(zhàn)的重要洞察。最后是開發(fā)持續(xù)學習框架,使模型能夠根據(jù)臨床反饋不斷改進,同時保持病人隱私。
這項研究的意義不僅僅在于技術創(chuàng)新,更在于它為醫(yī)療AI的發(fā)展指出了一條可行的道路。通過證明小型化、專業(yè)化的AI模型可以在保證隱私安全的前提下實現(xiàn)高質量的醫(yī)療文檔處理,這項工作為醫(yī)療AI的普及和應用奠定了重要基礎。
研究團隊已經(jīng)將完整的模型、訓練數(shù)據(jù)、評估框架和基于瀏覽器的部署軟件開源發(fā)布,為更廣泛的應用和進一步研究提供了基礎。這種開放的做法體現(xiàn)了科學研究的共享精神,也為隱私保護、設備端AI在醫(yī)療工作流程中的應用提供了重要參考。
說到底,這項研究解決的是一個非常實際的問題:如何讓AI技術真正服務于醫(yī)療實踐,而不是成為另一個技術負擔。通過開發(fā)一個能夠在普通瀏覽器中運行的專業(yè)醫(yī)療AI助手,研究團隊為減輕醫(yī)生的文書工作負擔、提高醫(yī)療效率、同時保護病人隱私提供了一個可行的解決方案。這種方法不僅技術上可行,經(jīng)濟上也更加可持續(xù),為醫(yī)療AI的廣泛應用開辟了新的道路。
歸根結底,這項研究證明了在醫(yī)療AI發(fā)展中,有時候"小而精"比"大而全"更有價值。通過專門的訓練和優(yōu)化,即使是參數(shù)相對較少的AI模型也能夠在特定領域達到很高的專業(yè)水準,同時避免了大型模型帶來的隱私、成本和部署復雜性問題。這為未來醫(yī)療AI的發(fā)展提供了重要的參考方向,也為其他需要隱私保護和本地部署的AI應用場景提供了寶貴的經(jīng)驗。
Q&A
Q1:這個OnDevice模型能夠處理哪些類型的醫(yī)療記錄? A:目前主要針對內(nèi)分泌科的醫(yī)療轉錄和病歷生成進行了優(yōu)化,能夠處理常見的內(nèi)分泌疾病、癥狀討論、治療方案和隨訪指導。研究團隊使用了1500個內(nèi)分泌科的醫(yī)患對話樣本進行訓練,雖然理論上可以適用于其他科室,但效果可能會有所不同。
Q2:在瀏覽器中運行AI模型會不會很慢或者不穩(wěn)定? A:研究團隊選擇了只有10億參數(shù)的Llama 3.2 1B模型作為基礎,這個規(guī)模能夠在普通電腦的瀏覽器中穩(wěn)定運行。通過參數(shù)高效微調(diào)技術,模型在保持較小體積的同時實現(xiàn)了專業(yè)化的性能。測試結果顯示,模型在文本相似性和臨床質量評估方面都有顯著提升。
Q3:這個系統(tǒng)的隱私保護能力真的可靠嗎? A:是的,這是該系統(tǒng)的核心優(yōu)勢之一。所有的數(shù)據(jù)處理都在用戶的瀏覽器中完成,病人的醫(yī)療信息永遠不會上傳到云端服務器,完全符合HIPAA等隱私法規(guī)要求。這種本地處理方式為醫(yī)療機構提供了完全的數(shù)據(jù)主權,避免了數(shù)據(jù)泄露的風險。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。