在醫(yī)院的放射科,醫(yī)生們每天都要面對大量的CT掃描圖像,尋找那些可能隱藏著疾病信息的細微線索。現在,來自印度維洛爾理工學院和希夫納達爾大學的研究團隊開發(fā)出了一種名為UGPL(不確定性引導漸進學習)的AI系統(tǒng),就像給醫(yī)生配備了一位非常細心的AI助手。這項研究發(fā)表于2025年7月,詳細技術內容可通過arXiv:2507.14102v1獲取。
這個AI系統(tǒng)的工作方式很像一位經驗豐富的放射科醫(yī)生的診斷過程。當醫(yī)生第一次看到CT圖像時,會先從整體上掃視一遍,找出那些看起來"有點不對勁"的地方,然后再仔細觀察這些可疑區(qū)域。UGPL系統(tǒng)正是模仿了這種診斷思路,先對整張CT圖像進行全局分析,識別出哪些地方最不確定、最需要仔細檢查,然后集中火力對這些區(qū)域進行精細分析。
傳統(tǒng)的AI診斷系統(tǒng)就像是用同樣的力氣和注意力檢查CT圖像的每一個角落,這樣做不僅費時費力,還容易錯過真正重要的病灶。而UGPL系統(tǒng)更聰明,它知道把計算資源用在刀刃上,重點關注那些真正需要深入分析的可疑區(qū)域。
研究團隊用這套系統(tǒng)測試了三種常見的CT診斷任務:腎臟疾病檢測、肺癌識別和COVID-19診斷。結果令人振奮,UGPL系統(tǒng)在這三項任務上的準確率分別提高了3.29%、2.46%和8.08%。雖然這些數字看起來不算特別大,但在醫(yī)學診斷領域,哪怕是1%的準確率提升都可能意味著拯救更多生命。
一、智能系統(tǒng)的"全局視野":先看森林再看樹
UGPL系統(tǒng)的第一步工作就像是醫(yī)生拿到CT片子時的第一眼印象。系統(tǒng)會使用一個叫做"全局不確定性估計器"的模塊,對整張CT圖像進行初步分析。這個模塊就像是一位有著豐富經驗的主治醫(yī)生,能夠快速掃描整張圖像,并在心里對每個區(qū)域的"可疑程度"打分。
這個打分過程使用了一種稱為"證據深度學習"的技術。傳統(tǒng)的AI系統(tǒng)在做判斷時,通常只會告訴你"這里有80%的可能性是腫瘤",但不會告訴你這個80%到底有多可信。就像一個學生做選擇題,他可能選擇A,但他自己也不確定這個選擇有多靠譜。
而證據深度學習技術則像是一個更誠實的學生,他不僅會給出答案,還會告訴你他對這個答案的信心程度。具體來說,系統(tǒng)會為每個像素點生成一張"不確定性地圖",就像天氣預報中的降雨概率分布圖一樣。在這張地圖上,顏色越深的地方表示系統(tǒng)越不確定,也就是越需要進一步仔細檢查的地方。
這種不確定性的量化過程基于狄利克雷分布這一數學工具。不過我們不需要深入理解這個復雜的數學概念,只需要知道它就像是一個非常精確的"信心度量器"。系統(tǒng)通過分析大量的訓練數據,學會了識別哪些圖像特征通常與高不確定性相關。比如,圖像邊界模糊的地方、對比度異常的區(qū)域、或者紋理特征復雜的部位,通常都會被標記為高不確定性區(qū)域。
在實際應用中,這個全局分析過程使用了改進的ResNet網絡架構。ResNet本來是為處理彩色圖像設計的,但CT圖像是灰度圖像,所以研究團隊巧妙地修改了網絡的輸入層,通過平均RGB通道的權重來適應單通道輸入,同時保留了預訓練模型的有用特征。
全局分析的結果包括兩部分:一是對整張圖像的初步診斷結論,二是一張詳細的不確定性地圖。這張地圖就像是為后續(xù)的精細分析提供了一份"重點關注清單",告訴系統(tǒng)接下來應該把注意力集中在哪些地方。
二、精準定位:在海量信息中找到真正的"嫌疑犯"
有了全局的不確定性地圖之后,UGPL系統(tǒng)就要開始第二步工作:從這張"嫌疑犯名單"中選出最需要深入調查的區(qū)域。這個過程就像偵探在大量線索中篩選出最有價值的幾條一樣,既要確保不遺漏重要信息,又要避免浪費時間在無關緊要的細節(jié)上。
系統(tǒng)使用了一種叫做"漸進式補丁提取"的技術。這里的"補丁"可以理解為從原始CT圖像中切出的一小塊方形區(qū)域,就像從一張大拼圖中取出幾塊關鍵拼圖片一樣。系統(tǒng)會根據不確定性地圖,自動選擇那些最需要仔細檢查的區(qū)域作為補丁。
選擇過程非常智能化。系統(tǒng)首先會找到不確定性最高的區(qū)域作為第一個補丁。然后在選擇第二個補丁時,它不僅要考慮不確定性的高低,還要確保新選擇的補丁與之前選擇的補丁保持一定距離,避免重復分析相鄰區(qū)域。這就像是在安排巡邏路線時,既要覆蓋最危險的區(qū)域,又要確保巡邏路徑不會過于集中在一個地方。
為了實現這種智能選擇,系統(tǒng)采用了非最大值抑制機制。簡單來說,就是在選擇了一個高不確定性區(qū)域之后,系統(tǒng)會在這個區(qū)域周圍畫一個"禁區(qū)",暫時降低附近區(qū)域被選中的概率。這樣既能確保選中真正重要的區(qū)域,又能保持選擇的多樣性。
整個選擇過程還考慮了實際應用中的各種邊界情況。比如,如果選擇的區(qū)域恰好在圖像邊緣,系統(tǒng)會自動調整補丁的位置和大小,確保補丁完全在圖像范圍內。如果在某次選擇中找不到足夠高不確定性的區(qū)域(比如所有區(qū)域都已經被分析過了),系統(tǒng)會智能地轉為隨機選擇模式,確保仍然能夠提取到足夠的補丁進行分析。
這種補丁選擇策略的效果在不同類型的疾病診斷中表現出明顯的適應性。對于腎臟疾病診斷,系統(tǒng)通常選擇64×64像素的補丁,每張圖像提取3個補丁,這個配置在準確性和效率之間找到了最佳平衡點。對于肺癌檢測,由于肺部結節(jié)通常比較集中,系統(tǒng)只需要2個補丁就能獲得良好的效果。而對于COVID-19診斷,由于病變可能分布在肺部的多個區(qū)域,系統(tǒng)會提取4個補丁以確保覆蓋面足夠廣。
三、局部精細分析:用"放大鏡"檢查可疑區(qū)域
當系統(tǒng)選定了需要重點關注的補丁區(qū)域后,就進入了局部精細分析階段。這就像醫(yī)生拿起放大鏡仔細觀察可疑病灶一樣,每個補丁都會經過專門設計的"局部細化網絡"進行深度分析。
局部細化網絡的結構相對緊湊但功能強大。它包含一個特征提取器和兩個并行的分析頭:分類頭和置信度估計頭。特征提取器采用了四層卷積結構,通道數從64逐步增加到256,就像是一個逐漸聚焦的望遠鏡,先捕捉基本的形狀和紋理特征,然后逐步識別更復雜的病理模式。
每個補丁經過特征提取后,分類頭會給出這個區(qū)域的具體診斷結果,比如"正常組織"、"良性病變"或"惡性腫瘤"。同時,置信度估計頭會評估這個診斷結果的可信程度,就像醫(yī)生在給出診斷時會同時表達自己的確信度一樣。
這種雙頭設計非常巧妙。在實際醫(yī)療應用中,有時候一個區(qū)域的圖像質量可能不夠清晰,或者病變特征不夠典型,這時候即使AI給出了某個診斷結果,我們也需要知道這個結果有多可靠。置信度估計頭就承擔了這個重要職責。
局部分析的結果需要經過智能融合才能得出最終的局部診斷結論。系統(tǒng)會根據每個補丁的置信度對相應的診斷結果進行加權平均。這意味著那些置信度高的補丁會對最終結果產生更大影響,而置信度低的補丁影響較小。這種加權策略就像是一個會議中,發(fā)言更自信、論據更充分的參與者會獲得更多的話語權。
通過對比不同網絡組件的特征空間分布,研究團隊發(fā)現了一個有趣的現象。全局網絡學習到的特征在類別之間有著清晰的邊界,不同疾病類型在特征空間中形成了相對獨立的聚類。而局部網絡學習到的特征則表現出更多的類別混合,這說明局部網絡更關注細粒度的紋理和形態(tài)特征,而非直接的類別判斷。這種互補的特征學習方式為后續(xù)的自適應融合提供了基礎。
四、智能融合:讓全局視野和局部細節(jié)完美結合
UGPL系統(tǒng)最精妙的部分就是它的自適應融合機制,這就像是一位經驗豐富的主治醫(yī)生綜合考慮影像學表現和臨床細節(jié)后做出最終診斷一樣。系統(tǒng)需要智能地決定在什么情況下更相信全局分析的結果,什么時候更依賴局部精細分析的發(fā)現。
融合過程的核心是一個動態(tài)權重分配機制。系統(tǒng)會根據全局不確定性的程度來調整全局和局部預測的權重。當全局模型對整張圖像的診斷很有把握時(不確定性較低),最終結果會更多地采納全局分析的結論。相反,當全局模型表現出較高不確定性時,系統(tǒng)會更多地依賴局部精細分析的結果。
這個權重計算過程使用了一個小型的多層感知器網絡。這個網絡的輸入包括全局分類結果和全局不確定性的平均值,輸出一個介于0到1之間的融合權重。權重越接近1,表示越依賴全局分析;權重越接近0,表示越依賴局部分析。這種動態(tài)調整機制確保了系統(tǒng)能夠根據具體情況做出最合適的判斷。
在實際應用中,這種自適應融合展現出了令人印象深刻的智能性。對于那些病變特征明顯、全局模式清晰的案例,系統(tǒng)會主要依賴全局分析的高效判斷。而對于那些病變細微、需要仔細辨別的復雜案例,系統(tǒng)會更多地采用局部精細分析的結果。這種靈活性使得UGPL既能保持高效的診斷速度,又能在困難案例上保持高準確性。
融合機制的效果在不同疾病類型上表現出了明顯的差異。在COVID-19檢測任務中,由于病變往往呈現彌散性分布,局部分析的價值特別突出,融合后的準確率比單純全局分析提高了約10個百分點。而在腎臟異常檢測中,由于病變通常有著相對清晰的邊界和特征,全局和局部分析的結合帶來了更穩(wěn)定的性能提升。
五、多重訓練目標:讓AI學會"多項全能"
為了讓UGPL系統(tǒng)在各個方面都表現出色,研究團隊設計了一套綜合性的訓練方案。這就像培養(yǎng)一個醫(yī)學生不僅要學會診斷技能,還要掌握溝通技巧、風險評估和持續(xù)學習能力一樣。
訓練過程使用了七個不同的損失函數,每個都針對系統(tǒng)的特定能力進行優(yōu)化。主要的分類損失確保系統(tǒng)能夠準確識別不同的疾病類型。不確定性校準損失讓系統(tǒng)學會準確評估自己預測的可信度,避免過度自信或過度保守。一致性損失促進全局和局部分析結果之間的協(xié)調,防止兩個分析分支產生相互矛盾的結論。
置信度正則化損失特別有意思,它讓系統(tǒng)學會對正確的預測表現出高置信度,對錯誤的預測表現出低置信度。這種"自我認知"能力在醫(yī)療應用中極其重要,因為它能幫助醫(yī)生識別哪些AI診斷結果更可靠。多樣性損失則鼓勵不同補丁的分析結果保持一定的差異性,避免所有補丁都關注相同的特征,確保分析的全面性。
訓練過程中的權重分配經過了大量實驗優(yōu)化。研究團隊發(fā)現,將融合損失的權重設為1.0,全局和局部分類損失設為0.5,不確定性損失設為0.3,其他輔助損失設為0.1到0.2之間,能夠在不同任務上獲得最佳的綜合表現。這種權重配置反映了各個訓練目標的相對重要性。
訓練策略還包括了豐富的數據增強技術。系統(tǒng)在訓練過程中會看到經過隨機翻轉、旋轉、平移和對比度調整的CT圖像,這就像醫(yī)生在職業(yè)生涯中見過各種不同掃描條件下的圖像一樣,提高了模型的泛化能力和魯棒性。
六、實驗驗證:在真實醫(yī)療場景中的表現
研究團隊在三個不同的CT診斷任務上對UGPL系統(tǒng)進行了全面測試,這些任務涵蓋了放射科日常工作中的典型場景。測試使用了公開的醫(yī)學圖像數據集,確保結果的可重現性和可比性。
在腎臟疾病診斷任務中,系統(tǒng)需要區(qū)分正常腎臟、腎囊腫、腎腫瘤和腎結石四種情況。UGPL系統(tǒng)達到了99%的準確率和99%的F1分數,相比最佳的傳統(tǒng)方法提高了約3.29%。這個提升看似不大,但考慮到基線性能已經很高,這樣的改進實際上是相當顯著的。
肺癌檢測任務要求系統(tǒng)判斷肺部結節(jié)是良性、惡性還是正常組織。在這個任務上,UGPL系統(tǒng)達到了98%的準確率和97%的F1分數,超越了所有對比方法。特別值得注意的是,系統(tǒng)在識別惡性結節(jié)方面表現尤為出色,這對早期癌癥診斷具有重要價值。
COVID-19診斷任務是三個任務中最具挑戰(zhàn)性的,因為COVID-19的CT表現往往比較微妙且變化多樣。UGPL系統(tǒng)達到了81%的準確率和79%的F1分數,相比傳統(tǒng)方法有了8.08%的顯著提升。這個提升幅度在COVID-19這樣的新興疾病診斷中特別有價值。
為了深入理解系統(tǒng)性能的來源,研究團隊進行了詳細的組件分析實驗。結果顯示,單獨使用全局模型能夠獲得較好的基礎性能,但局部模型如果獨立使用效果很差,這證實了局部分析必須建立在全局指導的基礎上。而當全局和局部分析通過自適應融合機制結合后,性能有了顯著躍升,這驗證了漸進式分析策略的有效性。
消融實驗進一步揭示了各個組件的貢獻。去除不確定性引導機制后,系統(tǒng)性能大幅下降,證明了智能補丁選擇的重要性。使用固定位置的補丁替代不確定性引導的補丁選擇,同樣導致性能顯著降低。這些結果清楚地表明,UGPL的核心創(chuàng)新點確實發(fā)揮了關鍵作用。
七、技術創(chuàng)新:站在巨人肩膀上的突破
UGPL系統(tǒng)的成功建立在多個技術創(chuàng)新的基礎上。首先是證據深度學習技術的巧妙應用。傳統(tǒng)的不確定性量化方法往往計算復雜且難以解釋,而UGPL采用的狄利克雷分布建模方法不僅計算高效,還能提供直觀的不確定性解釋。
漸進式補丁選擇算法是另一個重要創(chuàng)新。傳統(tǒng)的注意力機制通?;趯W習到的權重分配注意力,而UGPL直接基于預測不確定性來引導注意力,這種方法更加直觀且可解釋。非最大值抑制機制的引入確保了補丁選擇的多樣性,避免了注意力過度集中的問題。
自適應融合機制相比傳統(tǒng)的固定權重融合更加靈活。系統(tǒng)能夠根據每個具體案例的特點動態(tài)調整全局和局部分析的權重,這種自適應性在處理不同復雜度的診斷任務時顯示出明顯優(yōu)勢。
多目標訓練策略的設計也頗具匠心。七個不同的損失函數各司其職,既保證了主要診斷任務的準確性,又優(yōu)化了系統(tǒng)的各個輔助能力。這種綜合性訓練方法雖然增加了訓練復雜度,但顯著提升了系統(tǒng)的整體性能和可靠性。
從計算效率角度看,UGPL系統(tǒng)在增加少量計算開銷的情況下獲得了顯著的性能提升。相比全局分析,完整的UGPL系統(tǒng)增加了約30-40%的計算量,但考慮到性能的顯著改善,這個開銷是完全值得的。在實際部署時,系統(tǒng)的推理速度仍然能夠滿足臨床需求。
八、實用價值:從實驗室到醫(yī)院的路徑
UGPL系統(tǒng)的設計充分考慮了實際醫(yī)療場景的需求。在準確性方面,系統(tǒng)在三個不同診斷任務上都表現出了超越現有方法的性能,這為臨床應用奠定了堅實基礎。更重要的是,系統(tǒng)提供的不確定性量化功能能夠幫助醫(yī)生識別哪些診斷結果更可靠,哪些需要進一步人工復核。
從工作流程整合角度看,UGPL系統(tǒng)的輸出格式設計得非常實用。除了給出最終的診斷結果外,系統(tǒng)還會顯示全局不確定性地圖和局部關注區(qū)域,這些可視化信息能夠直接支持醫(yī)生的診斷決策。醫(yī)生可以快速了解AI系統(tǒng)關注的重點區(qū)域,并結合自己的專業(yè)判斷做出最終診斷。
系統(tǒng)的模塊化設計也有利于實際部署。全局分析模塊可以作為初篩工具快速處理大量圖像,而局部精細分析模塊則可以在需要時提供更深入的分析。這種靈活的架構允許醫(yī)院根據實際需求和計算資源情況選擇不同的部署方案。
不過,從實驗室走向臨床應用還面臨一些挑戰(zhàn)。首先是數據集的代表性問題。目前的測試主要基于公開數據集,而實際臨床環(huán)境中的圖像質量、掃描設備差異等因素可能影響系統(tǒng)性能。其次是監(jiān)管審批問題,醫(yī)療AI系統(tǒng)在投入臨床使用前需要經過嚴格的安全性和有效性驗證。
此外,醫(yī)生接受度也是一個重要考慮因素。雖然UGPL系統(tǒng)提供了良好的可解釋性,但醫(yī)生們需要時間來理解和信任AI系統(tǒng)的判斷。這需要通過培訓和逐步推廣來實現。
九、局限性與未來發(fā)展
盡管UGPL系統(tǒng)表現出色,但研究團隊也坦誠地指出了一些局限性。首先是計算資源需求的增加。相比簡單的單次分析方法,UGPL需要進行全局分析、補丁選擇、局部分析和融合等多個步驟,這確實增加了計算開銷。雖然這個開銷在可接受范圍內,但對于計算資源有限的醫(yī)療機構來說仍然是個考慮因素。
另一個局限是補丁數量和大小的選擇需要針對不同任務進行調優(yōu)。目前的系統(tǒng)需要為不同的診斷任務設置不同的參數,這在一定程度上限制了系統(tǒng)的通用性。研究團隊正在探索自適應參數選擇機制,希望未來能夠實現更好的任務通用性。
數據依賴性也是一個需要關注的問題。UGPL系統(tǒng)的性能很大程度上依賴于訓練數據的質量和多樣性。在面對與訓練數據分布差異較大的新數據時,系統(tǒng)性能可能會有所下降。這在醫(yī)療AI領域是一個普遍存在的挑戰(zhàn)。
未來的發(fā)展方向包括幾個方面。首先是擴展到其他醫(yī)學影像模態(tài),如MRI、PET等。UGPL的核心思想可以適用于任何需要進行復雜模式識別的醫(yī)學圖像分析任務。其次是結合多模態(tài)信息,將影像學表現與臨床病史、實驗室檢查結果等信息結合,提供更全面的診斷支持。
另一個重要方向是主動學習的整合。UGPL系統(tǒng)已經具備了識別困難案例的能力,這為主動學習提供了天然的基礎。未來可以讓系統(tǒng)主動識別那些最有價值的未標注樣本,引導醫(yī)生優(yōu)先標注這些樣本,從而更高效地改進系統(tǒng)性能。
十、技術細節(jié)的深入解析
為了讓讀者更好地理解UGPL系統(tǒng)的技術實現,有必要深入介紹一些關鍵技術細節(jié)。在全局不確定性估計方面,系統(tǒng)使用了改進的ResNet架構作為特征提取骨干網絡。為了適應CT圖像的單通道特性,研究團隊將原本的三通道輸入修改為單通道,通過平均預訓練權重的方式保留了預訓練模型的知識。
證據頭的設計采用了四參數狄利克雷分布建模。對于每個類別,系統(tǒng)學習四個參數:α(濃度參數)、β(逆不確定性)、γ(輔助參數)和ν(質量信念)。這些參數通過特定的激活函數確保數值穩(wěn)定性,其中β使用softplus激活確保正值,ν使用softmax確保概率分布特性。
補丁選擇算法的實現考慮了多種邊界情況。當選擇的補丁位置接近圖像邊緣時,系統(tǒng)會自動調整補丁位置確保完全位于圖像內部。如果經過多輪選擇后剩余的高不確定性區(qū)域不足,系統(tǒng)會轉為隨機選擇模式,確保仍能提取到足夠數量的補丁。
局部細化網絡采用了相對輕量的架構設計。四層卷積網絡的通道數分別為64、128、256、256,每層后面跟隨批歸一化、ReLU激活和最大池化。最終的自適應平均池化層確保無論輸入補丁大小如何變化,都能產生固定維度的特征表示。
自適應融合網絡的實現使用了一個小型的多層感知器。輸入維度為C+1(C個類別的全局logits加上標量全局不確定性),隱藏層維度為64,輸出維度為1。網絡使用ReLU激活函數和sigmoid輸出激活,確保融合權重在合理范圍內。
訓練過程的實現細節(jié)也值得關注。系統(tǒng)使用Adam優(yōu)化器,學習率設置為1×10^-4,權重衰減為1×10^-4。批次大小為96,使用余弦退火學習率調度器。數據增強包括隨機水平和垂直翻轉(概率0.5)、隨機旋轉(±10度)、隨機仿射變換(±5%平移)和對比度亮度調整(±10%)。
七個損失函數的具體實現各有特色。分類損失使用標準交叉熵損失,不確定性校準損失使用均方誤差損失,一致性損失使用KL散度,置信度正則化損失使用置信度與準確性之間的均方誤差,多樣性損失使用補丁預測之間的余弦相似度懲罰。
結論
說到底,UGPL系統(tǒng)代表了醫(yī)療AI發(fā)展的一個重要方向:讓機器學會像醫(yī)生一樣思考。它不是簡單地用暴力計算來處理醫(yī)學圖像,而是學會了智能地分配注意力,重點關注那些真正需要仔細分析的區(qū)域。這種"先看森林再看樹"的診斷思路,不僅提高了診斷準確性,也讓AI系統(tǒng)的決策過程變得更可理解、更可信。
更令人興奮的是,UGPL系統(tǒng)展示了一種通用的問題解決框架。這種漸進式分析的思路不僅適用于CT圖像診斷,也可能在其他需要復雜模式識別的領域發(fā)揮作用。正如研究團隊所展望的那樣,未來這種技術可能擴展到MRI、PET等其他醫(yī)學影像模態(tài),甚至整合多種臨床信息提供更全面的診斷支持。
當然,從實驗室成果到臨床應用還有一段路要走。UGPL系統(tǒng)需要在更大規(guī)模的真實數據上驗證其性能,需要通過監(jiān)管部門的嚴格審批,也需要醫(yī)生們的接受和信任。但正如任何有價值的技術進步一樣,這些挑戰(zhàn)都是值得面對的。
對于普通人來說,UGPL這樣的技術進步意味著未來就醫(yī)時可能享受到更準確、更快速的診斷服務。當醫(yī)生拿著你的CT片子時,他身邊可能就有這樣一位AI助手,幫助他不遺漏任何可疑的細節(jié),提供客觀的第二意見。這不是要替代醫(yī)生,而是要讓醫(yī)生變得更加強大。
歸根結底,UGPL系統(tǒng)體現了人工智能發(fā)展的一個重要趨勢:從簡單的模式匹配走向智能的認知過程。它讓我們看到了AI系統(tǒng)具備真正"理解"能力的可能性,也為醫(yī)療AI的未來發(fā)展指明了一個充滿希望的方向。對于那些想深入了解技術細節(jié)的讀者,完整的研究論文可以通過arXiv:2507.14102v1獲取,其中包含了更詳細的實驗數據和技術實現方案。
Q&A
Q1:UGPL系統(tǒng)是什么?它與傳統(tǒng)的AI診斷系統(tǒng)有什么不同? A:UGPL是一種模仿醫(yī)生診斷思路的AI系統(tǒng),它先對整張CT圖像進行全局分析找出可疑區(qū)域,然后集中精力仔細檢查這些區(qū)域。傳統(tǒng)AI系統(tǒng)是用同樣力氣檢查圖像每個角落,而UGPL更聰明,知道把計算資源用在最需要的地方,就像經驗豐富的醫(yī)生會重點關注可疑病灶一樣。
Q2:這個系統(tǒng)在醫(yī)院里的準確率如何?真的比人工診斷更準嗎? A:在三種常見CT診斷任務中,UGPL系統(tǒng)的準確率分別達到了99%(腎臟疾病)、98%(肺癌)和81%(COVID-19),比現有AI方法提高了2-8個百分點。不過系統(tǒng)設計目標不是替代醫(yī)生,而是作為醫(yī)生的AI助手,提供客觀的第二意見,幫助醫(yī)生做出更準確的判斷。
Q3:普通患者什么時候能在醫(yī)院體驗到這種技術? A:目前UGPL還處于研究階段,從實驗室走向臨床應用還需要時間。需要在更多真實醫(yī)療數據上測試、通過醫(yī)療器械監(jiān)管審批、醫(yī)生培訓接受等步驟。預計未來3-5年內可能在一些大型醫(yī)院開始試點應用,但大規(guī)模普及還需要更長時間。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現AI根據復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數據集和MM-AlignBench評測基準,通過創(chuàng)新的數據生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經網絡技術,通過學習40年歷史數據掌握天氣變化規(guī)律,在極端天氣預測方面表現卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。