這項(xiàng)突破性研究由上海交通大學(xué)SPIRAL實(shí)驗(yàn)室的黃忠楨、耿桂、華盛翼等多位學(xué)者共同完成,并于2025年1月發(fā)表在arXiv預(yù)印本平臺(tái)上(論文編號(hào):arXiv:2501.06458v1)。這是O1復(fù)制之旅系列研究的第三部分,專門探討推理時(shí)間擴(kuò)展在醫(yī)學(xué)推理中的應(yīng)用。感興趣的讀者可以通過https://github.com/SPIRAL-MED/Ophiuchus獲取相關(guān)資源和代碼。
當(dāng)我們生病去看醫(yī)生時(shí),經(jīng)常會(huì)發(fā)現(xiàn)醫(yī)生需要花費(fèi)相當(dāng)長的時(shí)間來思考診斷。他們會(huì)仔細(xì)詢問癥狀,查看檢查結(jié)果,在腦海中權(quán)衡各種可能的疾病,然后才得出最終診斷?,F(xiàn)在,人工智能也學(xué)會(huì)了這種"深度思考"的方式,而且研究發(fā)現(xiàn),AI思考得越久,診斷就越準(zhǔn)確。
上海交通大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人興奮的現(xiàn)象:當(dāng)AI模型在診斷疾病時(shí)被允許有更多的思考時(shí)間時(shí),它們的表現(xiàn)會(huì)顯著提升。這就像給醫(yī)學(xué)生更多時(shí)間來分析復(fù)雜病例一樣,充足的思考時(shí)間能讓他們做出更準(zhǔn)確的判斷。研究團(tuán)隊(duì)通過在三個(gè)不同難度的醫(yī)學(xué)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)僅用500個(gè)訓(xùn)練樣本,AI模型的準(zhǔn)確率就能提升6%到11%。
這項(xiàng)研究建立在團(tuán)隊(duì)之前的"旅程學(xué)習(xí)"研究基礎(chǔ)上,就像是教會(huì)AI模型如何像經(jīng)驗(yàn)豐富的醫(yī)生一樣進(jìn)行系統(tǒng)性思考。研究團(tuán)隊(duì)發(fā)現(xiàn),AI生成的差異診斷過程完全符合假設(shè)-演繹方法的原理,這是醫(yī)生在臨床實(shí)踐中普遍采用的診斷思路:先列出所有可能的疾病,然后通過分析證據(jù)逐一排除不符合的選項(xiàng),最終得出最可能的診斷。
一、讓AI學(xué)會(huì)"深度思考"的秘訣
要理解這項(xiàng)研究的核心,我們可以把AI的思考過程比作醫(yī)學(xué)院學(xué)生學(xué)習(xí)診斷的過程。傳統(tǒng)的AI就像是剛?cè)雽W(xué)的醫(yī)學(xué)生,看到病例后會(huì)快速給出答案,但往往缺乏深入分析。而經(jīng)過"推理時(shí)間擴(kuò)展"訓(xùn)練的AI,更像是經(jīng)過多年臨床訓(xùn)練的住院醫(yī)師,會(huì)花更多時(shí)間仔細(xì)分析每個(gè)細(xì)節(jié)。
研究團(tuán)隊(duì)采用了一種稱為"知識(shí)蒸餾"的巧妙方法。簡單來說,就是讓表現(xiàn)優(yōu)秀的AI老師(比如OpenAI的O1模型)來教導(dǎo)學(xué)生模型如何進(jìn)行長時(shí)間、深入的思考。這個(gè)過程就像讓資深醫(yī)生帶教實(shí)習(xí)生一樣,通過觀察和模仿專家的思考過程,學(xué)生逐漸掌握了深度分析的能力。
團(tuán)隊(duì)創(chuàng)建了兩種不同類型的訓(xùn)練數(shù)據(jù):LongStep和LongMonolog。LongStep數(shù)據(jù)包含了詳細(xì)的逐步分析過程,就像醫(yī)生在病例討論會(huì)上展示的詳細(xì)推理步驟。而LongMonolog數(shù)據(jù)則更像是醫(yī)生內(nèi)心的思考獨(dú)白,包含了自我質(zhì)疑、修正錯(cuò)誤、反復(fù)權(quán)衡等真實(shí)的思維過程。這種訓(xùn)練方式讓AI學(xué)會(huì)了更加人性化和細(xì)致的診斷思考。
有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn),給AI模型更多思考時(shí)間的效果并不是對(duì)所有模型都一樣有效。就像學(xué)生的基礎(chǔ)知識(shí)水平?jīng)Q定了他們能從額外學(xué)習(xí)時(shí)間中獲得多少收益一樣,只有那些具備足夠基礎(chǔ)能力的AI模型才能真正從延長的思考時(shí)間中受益。對(duì)于能力較弱的小型模型來說,延長思考時(shí)間可能反而會(huì)讓它們陷入混亂,就像讓基礎(chǔ)薄弱的學(xué)生獨(dú)自面對(duì)復(fù)雜問題可能會(huì)越想越糊涂。
二、從簡單到復(fù)雜:AI診斷能力的階梯式提升
研究團(tuán)隊(duì)選擇了三個(gè)不同難度層次的醫(yī)學(xué)數(shù)據(jù)集來驗(yàn)證他們的發(fā)現(xiàn)。這就像是為醫(yī)學(xué)生設(shè)計(jì)了從初級(jí)到高級(jí)的考試題目。最簡單的是MedQA數(shù)據(jù)集,主要包含美國醫(yī)師執(zhí)照考試第一步的題目,這些題目主要測(cè)試基礎(chǔ)醫(yī)學(xué)知識(shí)。中等難度的是Medbullets數(shù)據(jù)集,包含了需要臨床推理能力的第二、三步考試題目。最困難的是JAMA臨床挑戰(zhàn)數(shù)據(jù)集,這些都是來自真實(shí)臨床場景的復(fù)雜病例。
令人印象深刻的是,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)規(guī)律:任務(wù)越復(fù)雜,AI需要的思考時(shí)間就越長。這完全符合我們的直覺認(rèn)知。當(dāng)面對(duì)簡單的醫(yī)學(xué)問題時(shí),AI可能只需要幾百個(gè)詞就能給出正確答案。但當(dāng)面對(duì)復(fù)雜的臨床病例時(shí),AI需要生成超過1000個(gè)詞的深度分析才能達(dá)到最佳表現(xiàn)。
這種現(xiàn)象在人類醫(yī)生身上也很常見。診斷一個(gè)典型的感冒可能只需要幾分鐘,但面對(duì)罕見疾病或復(fù)雜綜合征時(shí),醫(yī)生可能需要花費(fèi)數(shù)小時(shí)甚至數(shù)天來收集信息、分析癥狀、查閱文獻(xiàn),最終得出診斷。AI模型展現(xiàn)出的這種"難題需要長思考"的特性,說明它們正在學(xué)會(huì)像人類專家一樣處理醫(yī)學(xué)問題。
更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)不同規(guī)模的AI模型從延長思考時(shí)間中獲得的收益是不同的。大型模型(比如擁有70億參數(shù)的模型)能夠從延長的思考時(shí)間中獲得顯著的性能提升,準(zhǔn)確率可以提高11%以上。而較小的模型雖然也有提升,但幅度相對(duì)較小。這就像是有經(jīng)驗(yàn)的醫(yī)生能夠有效利用額外的思考時(shí)間來完善診斷,而經(jīng)驗(yàn)不足的醫(yī)生可能會(huì)在長時(shí)間思考中迷失方向。
三、多數(shù)投票:集體智慧的力量與局限
研究團(tuán)隊(duì)還探索了一種稱為"多數(shù)投票"的策略,這就像是召集多個(gè)醫(yī)生對(duì)同一個(gè)病例進(jìn)行獨(dú)立診斷,然后采用大多數(shù)醫(yī)生的意見作為最終診斷。在AI領(lǐng)域,這意味著讓同一個(gè)模型對(duì)同一個(gè)問題進(jìn)行多次推理,然后選擇出現(xiàn)頻率最高的答案。
然而,研究結(jié)果顯示,雖然多數(shù)投票策略確實(shí)能帶來一定的性能提升,但效果相對(duì)有限。對(duì)于基礎(chǔ)的AI模型來說,即使進(jìn)行了多輪投票,準(zhǔn)確率的提升也很微小,從74.31%只提升到74.63%。這說明如果AI模型的基礎(chǔ)推理能力不足,僅僅依靠"人多力量大"的策略并不能帶來質(zhì)的改變。
相比之下,當(dāng)多數(shù)投票策略與深度思考方法結(jié)合使用時(shí),效果會(huì)更加明顯。經(jīng)過旅程學(xué)習(xí)訓(xùn)練的AI模型在使用多數(shù)投票時(shí)能獲得1.26%到1.50%的額外提升。這就像是讓經(jīng)過良好訓(xùn)練的醫(yī)生團(tuán)隊(duì)進(jìn)行集體決策,每個(gè)人都有扎實(shí)的診斷基礎(chǔ),因此集體智慧能發(fā)揮更大作用。
這個(gè)發(fā)現(xiàn)告訴我們一個(gè)重要道理:在AI醫(yī)學(xué)診斷領(lǐng)域,質(zhì)量比數(shù)量更重要。與其讓多個(gè)能力一般的AI模型進(jìn)行投票,不如專注于提升單個(gè)AI模型的深度思考能力。這就像在醫(yī)院里,一個(gè)經(jīng)驗(yàn)豐富的主治醫(yī)師的意見往往比幾個(gè)實(shí)習(xí)生的集體意見更有價(jià)值。
四、從選擇題到開放診斷:AI醫(yī)學(xué)應(yīng)用的新突破
研究的一個(gè)重要發(fā)現(xiàn)是,當(dāng)AI模型不再局限于從預(yù)設(shè)選項(xiàng)中選擇答案,而是被允許進(jìn)行開放式診斷時(shí),它們展現(xiàn)出了更加接近真實(shí)臨床實(shí)踐的能力。這就像是從讓醫(yī)學(xué)生做選擇題轉(zhuǎn)變?yōu)樽屗麄兠鎸?duì)真實(shí)病人進(jìn)行診斷一樣,后者顯然更能反映實(shí)際的醫(yī)學(xué)水平。
研究團(tuán)隊(duì)展示了一個(gè)令人印象深刻的案例:一個(gè)72歲男性患者有多發(fā)性紅細(xì)胞增多癥病史,出現(xiàn)了功能下降、體重減輕、腹水等復(fù)雜癥狀,影像學(xué)檢查顯示多處異常。當(dāng)AI模型被要求進(jìn)行開放式差異診斷時(shí),它展現(xiàn)出了系統(tǒng)性的臨床思維過程。
AI模型首先詳細(xì)分析了患者的臨床表現(xiàn)和檢查結(jié)果,然后列出了多種可能的診斷,包括多發(fā)性紅細(xì)胞增多癥轉(zhuǎn)化為骨髓纖維化、繼發(fā)性淀粉樣變性病、惡性腫瘤等。接著,模型像經(jīng)驗(yàn)豐富的醫(yī)生一樣,逐一分析每種可能性的支持和反對(duì)證據(jù)。最終,模型得出了正確的診斷:Erdheim-Chester病,這是一種罕見的組織細(xì)胞增生性疾病。
更令人驚訝的是,AI模型在分析過程中展現(xiàn)出了自我修正的能力。在初始分析中,模型曾傾向于診斷為骨髓纖維化,但隨著思考的深入,它發(fā)現(xiàn)腎周纖維化和硬化性骨病變更符合Erdheim-Chester病的特征,于是修正了自己的判斷。這種自我修正能力正是優(yōu)秀臨床醫(yī)生的重要特質(zhì)。
這個(gè)突破意味著AI醫(yī)學(xué)診斷正在從簡單的"選擇題作答"向真正的"臨床推理"轉(zhuǎn)變。AI開始具備了處理開放性醫(yī)學(xué)問題的能力,能夠像醫(yī)生一樣進(jìn)行差異診斷、權(quán)衡證據(jù)、得出結(jié)論。這為AI在實(shí)際臨床環(huán)境中的應(yīng)用奠定了重要基礎(chǔ)。
五、技術(shù)實(shí)現(xiàn):讓AI學(xué)會(huì)醫(yī)學(xué)思維的具體方法
要讓AI學(xué)會(huì)像醫(yī)生一樣深度思考,研究團(tuán)隊(duì)采用了精心設(shè)計(jì)的技術(shù)路徑。他們選擇了幾個(gè)表現(xiàn)優(yōu)秀的大型語言模型作為基礎(chǔ),包括擁有32億、70億和72億參數(shù)的不同模型,這些模型就像是不同資質(zhì)的醫(yī)學(xué)院學(xué)生。
訓(xùn)練過程采用了LoRA(低秩適應(yīng))技術(shù),這是一種高效的模型微調(diào)方法??梢园阉胂蟪山o醫(yī)學(xué)生提供專門的臨床訓(xùn)練課程,而不是讓他們重新學(xué)習(xí)所有醫(yī)學(xué)知識(shí)。這種方法既保持了模型原有的醫(yī)學(xué)知識(shí)基礎(chǔ),又讓它們學(xué)會(huì)了更深入的診斷思維模式。
研究團(tuán)隊(duì)使用了500個(gè)精心挑選的訓(xùn)練樣本,其中350個(gè)來自MedQA數(shù)據(jù)集,150個(gè)來自JAMA臨床挑戰(zhàn)數(shù)據(jù)集。這些樣本就像是精選的經(jīng)典病例,每個(gè)都具有很高的教學(xué)價(jià)值。訓(xùn)練數(shù)據(jù)的平均長度達(dá)到729個(gè)詞(LongStep數(shù)據(jù))和1223個(gè)詞(LongMonolog數(shù)據(jù)),這比傳統(tǒng)的簡短回答長得多,包含了豐富的分析過程和思考細(xì)節(jié)。
訓(xùn)練過程中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣現(xiàn)象:不是所有的AI模型都能從延長的思考時(shí)間中受益。較小的模型(比如7億參數(shù)的模型)在某些復(fù)雜任務(wù)上反而會(huì)出現(xiàn)性能下降,就像讓基礎(chǔ)不夠扎實(shí)的學(xué)生面對(duì)過于復(fù)雜的問題可能會(huì)適得其反。只有那些具備足夠基礎(chǔ)能力的大型模型才能真正發(fā)揮"深度思考"的優(yōu)勢(shì)。
這個(gè)發(fā)現(xiàn)對(duì)AI醫(yī)學(xué)應(yīng)用具有重要指導(dǎo)意義:在部署AI診斷系統(tǒng)時(shí),必須確保模型具備足夠的基礎(chǔ)能力,否則延長思考時(shí)間可能不但無法提升性能,反而會(huì)降低效率。這就像在醫(yī)學(xué)教育中,必須確保學(xué)生掌握了扎實(shí)的基礎(chǔ)知識(shí),才能進(jìn)行復(fù)雜的臨床推理訓(xùn)練。
六、實(shí)驗(yàn)結(jié)果:數(shù)據(jù)背后的醫(yī)學(xué)智慧
研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)驗(yàn)證了他們的理論。在所有三個(gè)測(cè)試數(shù)據(jù)集上,采用深度思考策略的AI模型都表現(xiàn)出了顯著的性能提升。最令人印象深刻的是Qwen2.5-72B模型,它在使用LongMonolog策略后,平均準(zhǔn)確率從65.82%提升到了77.18%,提升幅度達(dá)到11.36%。
更細(xì)致的分析顯示,AI模型的表現(xiàn)提升與任務(wù)難度密切相關(guān)。在相對(duì)簡單的MedQA數(shù)據(jù)集上,模型的提升幅度較為溫和。但在復(fù)雜的JAMA臨床挑戰(zhàn)數(shù)據(jù)集上,提升效果更加顯著。這說明深度思考策略在處理復(fù)雜醫(yī)學(xué)問題時(shí)具有特別的優(yōu)勢(shì),正如經(jīng)驗(yàn)豐富的醫(yī)生在面對(duì)疑難雜癥時(shí)會(huì)表現(xiàn)出更大的優(yōu)勢(shì)一樣。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)重要規(guī)律:AI模型生成的分析文本長度與任務(wù)難度成正比。在處理JAMA數(shù)據(jù)集的復(fù)雜病例時(shí),模型平均生成1076個(gè)詞的詳細(xì)分析,而在處理相對(duì)簡單的MedQA問題時(shí),平均只生成873個(gè)詞。這個(gè)發(fā)現(xiàn)證實(shí)了"復(fù)雜問題需要更多思考"這一直觀認(rèn)知在AI系統(tǒng)中同樣成立。
有趣的是,研究團(tuán)隊(duì)觀察到不同規(guī)模模型的表現(xiàn)差異。較大的模型能夠更有效地利用延長的思考時(shí)間,而較小的模型雖然也會(huì)生成更長的文本,但其中往往包含更多冗余或錯(cuò)誤的推理。這就像是經(jīng)驗(yàn)豐富的醫(yī)生能夠進(jìn)行高質(zhì)量的長時(shí)間思考,而經(jīng)驗(yàn)不足的醫(yī)生可能會(huì)在冗長的思考中迷失方向。
實(shí)驗(yàn)還揭示了一個(gè)實(shí)用性很強(qiáng)的發(fā)現(xiàn):當(dāng)AI模型從多選題模式轉(zhuǎn)向開放式診斷時(shí),它們展現(xiàn)出了更強(qiáng)的臨床推理能力。這種轉(zhuǎn)變就像是從紙面考試轉(zhuǎn)向?qū)嶋H臨床實(shí)習(xí),AI開始展現(xiàn)出真正的醫(yī)學(xué)思維能力,能夠進(jìn)行系統(tǒng)的差異診斷和證據(jù)權(quán)衡。
七、臨床意義:AI醫(yī)學(xué)診斷的未來圖景
這項(xiàng)研究的臨床意義遠(yuǎn)超出了技術(shù)層面的改進(jìn)。它預(yù)示著AI醫(yī)學(xué)診斷正在從簡單的模式識(shí)別向真正的臨床推理轉(zhuǎn)變。傳統(tǒng)的AI醫(yī)學(xué)系統(tǒng)更像是一本會(huì)說話的醫(yī)學(xué)教科書,能夠快速匹配癥狀和疾病,但缺乏深度分析能力。而經(jīng)過這種訓(xùn)練的AI系統(tǒng)更像是一位思維敏捷的住院醫(yī)師,能夠進(jìn)行系統(tǒng)性的臨床思考。
在實(shí)際應(yīng)用中,這種能夠深度思考的AI系統(tǒng)可能會(huì)改變醫(yī)生的工作方式。醫(yī)生可能不再需要花費(fèi)大量時(shí)間進(jìn)行基礎(chǔ)的差異診斷工作,而是可以將更多精力投入到與患者的溝通、治療方案的制定和復(fù)雜病例的最終決策上。AI系統(tǒng)可以承擔(dān)起"第一助手"的角色,為醫(yī)生提供詳細(xì)的初步分析和可能的診斷方向。
研究結(jié)果還顯示,AI系統(tǒng)在處理罕見疾病方面展現(xiàn)出了特殊優(yōu)勢(shì)。在展示的Erdheim-Chester病診斷案例中,AI系統(tǒng)能夠從眾多可能的診斷中識(shí)別出這種罕見疾病,這對(duì)于臨床實(shí)踐具有重要價(jià)值。許多罕見疾病由于發(fā)病率低,即使是經(jīng)驗(yàn)豐富的醫(yī)生也可能缺乏足夠的接觸機(jī)會(huì),而AI系統(tǒng)可以通過學(xué)習(xí)大量文獻(xiàn)和病例資料,在罕見疾病診斷方面提供有價(jià)值的建議。
然而,研究團(tuán)隊(duì)也強(qiáng)調(diào)了這種技術(shù)的局限性。AI系統(tǒng)的深度思考能力仍然依賴于訓(xùn)練數(shù)據(jù)的質(zhì)量和基礎(chǔ)模型的能力。在面對(duì)完全新穎的臨床情況或需要直覺判斷的場景時(shí),AI系統(tǒng)仍然無法完全替代人類醫(yī)生的經(jīng)驗(yàn)和智慧。因此,這種技術(shù)更應(yīng)該被視為增強(qiáng)醫(yī)生能力的工具,而不是替代醫(yī)生的解決方案。
從醫(yī)學(xué)教育的角度來看,這項(xiàng)研究也提供了有價(jià)值的啟示。它證實(shí)了深度思考和系統(tǒng)化分析在醫(yī)學(xué)診斷中的重要性,這對(duì)于培養(yǎng)未來的醫(yī)學(xué)人才具有指導(dǎo)意義。醫(yī)學(xué)院可能需要更加重視培養(yǎng)學(xué)生的臨床推理能力,而不僅僅是知識(shí)記憶能力。
結(jié)語
歸根結(jié)底,這項(xiàng)來自上海交通大學(xué)團(tuán)隊(duì)的研究揭示了一個(gè)簡單卻深刻的道理:在醫(yī)學(xué)診斷這樣的復(fù)雜任務(wù)中,給予足夠的思考時(shí)間確實(shí)能帶來更好的結(jié)果,無論是對(duì)人類醫(yī)生還是對(duì)AI系統(tǒng)都是如此。
這項(xiàng)研究的意義不僅在于技術(shù)上的突破,更在于它為我們展示了AI醫(yī)學(xué)應(yīng)用的一個(gè)可能方向:不是簡單地追求速度和效率,而是注重質(zhì)量和深度。就像培養(yǎng)一位優(yōu)秀醫(yī)生需要時(shí)間和耐心一樣,訓(xùn)練一個(gè)優(yōu)秀的AI醫(yī)學(xué)助手也需要讓它學(xué)會(huì)慢下來、深度思考。
研究團(tuán)隊(duì)通過僅500個(gè)訓(xùn)練樣本就實(shí)現(xiàn)了6%到11%的性能提升,這個(gè)結(jié)果令人鼓舞。它表明我們不需要海量的數(shù)據(jù)就能顯著改善AI的醫(yī)學(xué)推理能力,關(guān)鍵在于找到正確的訓(xùn)練方法和思路。
展望未來,隨著這種"深度思考"技術(shù)的進(jìn)一步發(fā)展和完善,我們可能會(huì)看到更多能夠進(jìn)行真正臨床推理的AI系統(tǒng)出現(xiàn)在醫(yī)院里。它們將成為醫(yī)生的得力助手,幫助提高診斷準(zhǔn)確率,減少誤診漏診,特別是在處理復(fù)雜和罕見疾病方面發(fā)揮重要作用。
當(dāng)然,我們也應(yīng)該保持理性的期待。AI系統(tǒng)再智能,也無法完全替代醫(yī)生的專業(yè)判斷和人文關(guān)懷。最理想的未來可能是人機(jī)協(xié)作的模式:AI負(fù)責(zé)快速篩查和初步分析,醫(yī)生負(fù)責(zé)最終決策和患者溝通,兩者優(yōu)勢(shì)互補(bǔ),共同為患者提供最好的醫(yī)療服務(wù)。
對(duì)于普通人來說,這項(xiàng)研究給我們的啟示是:無論是在醫(yī)學(xué)領(lǐng)域還是其他專業(yè)領(lǐng)域,深度思考都是不可替代的寶貴能力。在這個(gè)追求快速和高效的時(shí)代,或許我們都需要學(xué)會(huì)給自己更多的思考時(shí)間,就像這些AI模型學(xué)會(huì)的那樣。
如果您對(duì)這項(xiàng)研究的技術(shù)細(xì)節(jié)或?qū)嶒?yàn)結(jié)果感興趣,可以訪問研究團(tuán)隊(duì)提供的開源資源https://github.com/SPIRAL-MED/Ophiuchus,或查閱發(fā)表在arXiv上的完整論文(編號(hào):arXiv:2501.06458v1)。
Q&A
Q1:推理時(shí)間擴(kuò)展技術(shù)是什么?它如何提高AI醫(yī)學(xué)診斷準(zhǔn)確率?
A:推理時(shí)間擴(kuò)展技術(shù)就是給AI模型更多時(shí)間來"思考"診斷問題,就像給醫(yī)生更多時(shí)間分析復(fù)雜病例一樣。研究發(fā)現(xiàn),當(dāng)AI被允許生成更長、更詳細(xì)的分析過程時(shí),診斷準(zhǔn)確率會(huì)顯著提升6%-11%。這種技術(shù)讓AI學(xué)會(huì)了像經(jīng)驗(yàn)豐富的醫(yī)生一樣進(jìn)行深度臨床推理,而不是快速給出答案。
Q2:這種AI診斷技術(shù)會(huì)不會(huì)完全取代醫(yī)生?
A:不會(huì)完全取代醫(yī)生。研究團(tuán)隊(duì)強(qiáng)調(diào)這種技術(shù)更應(yīng)該被視為增強(qiáng)醫(yī)生能力的工具。AI系統(tǒng)可以承擔(dān)"第一助手"的角色,進(jìn)行初步分析和差異診斷,但最終的診斷決策、治療方案制定和患者溝通仍需要醫(yī)生來完成。理想的未來是人機(jī)協(xié)作模式,AI和醫(yī)生各自發(fā)揮優(yōu)勢(shì)。
Q3:普通人什么時(shí)候能用上這種AI醫(yī)學(xué)診斷技術(shù)?
A:雖然研究顯示了巨大潛力,但這種技術(shù)目前還處于實(shí)驗(yàn)階段。實(shí)際應(yīng)用還需要經(jīng)過大量臨床驗(yàn)證、監(jiān)管審批等流程。研究團(tuán)隊(duì)已在GitHub開源了相關(guān)代碼和數(shù)據(jù),這有助于更多研究者參與改進(jìn)。預(yù)計(jì)未來幾年內(nèi)可能會(huì)看到這種技術(shù)在醫(yī)院的輔助診斷系統(tǒng)中試用。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。