這項由約翰斯·霍普金斯大學的金志雄(Ji Woong Kim)教授團隊聯(lián)合斯坦福大學的切爾西·芬恩(Chelsea Finn)教授等多位研究者完成的突破性研究,于2025年7月發(fā)表。該研究首次實現(xiàn)了機器人在真實手術(shù)環(huán)境中的完全自主操作,成功率達到100%。感興趣的讀者可以通過項目網(wǎng)站 https://h-surgical-robot-transformer.github.io/ 了解更多詳情。
要理解這項研究的重要性,我們可以把手術(shù)機器人想象成一個正在學習成為外科醫(yī)生的學徒。傳統(tǒng)的機器人就像一個只會按照固定步驟操作的工廠機器人,一旦遇到意外情況就會"卡住"。而這個新系統(tǒng)就像是給了機器人一個"大腦"和一雙"眼睛",讓它能夠像真正的外科醫(yī)生一樣觀察、思考、判斷,甚至在出錯時自我糾正。
研究團隊選擇了膽囊切除術(shù)作為測試對象。膽囊切除術(shù)是一種常見的微創(chuàng)手術(shù),每年僅在美國就有超過70萬例。這種手術(shù)需要精確地在膽囊的血管和膽管上夾放金屬夾子,然后用剪刀切斷,整個過程就像在一個狹小的空間里進行精密的"剪紙"工作。
傳統(tǒng)的手術(shù)機器人完全依賴人類醫(yī)生的遙控操作,就像遙控玩具車一樣。醫(yī)生坐在控制臺前,通過操縱桿控制機器人的每一個動作。雖然這種方式已經(jīng)很先進,但仍然需要醫(yī)生全程專注,而且操作的精確度很大程度上取決于醫(yī)生的經(jīng)驗和當時的狀態(tài)。
這個新系統(tǒng)的革命性在于它采用了"分層決策"的思維方式。我們可以把它比作一個優(yōu)秀的廚師團隊:主廚(高層決策系統(tǒng))負責整體規(guī)劃,決定"現(xiàn)在應(yīng)該做什么",比如"開始切菜"或"調(diào)整火候";而副廚(低層執(zhí)行系統(tǒng))則負責具體的動作執(zhí)行,比如"把刀向右移動2厘米"或"用力按壓3秒鐘"。
更令人驚嘆的是,這個系統(tǒng)還具備了"自我糾錯"的能力。當主廚發(fā)現(xiàn)副廚的動作有問題時,會立即發(fā)出糾正指令,比如"停止切菜,先把菜板清理一下"或"刀子拿得太高了,降低一點"。這種實時糾錯能力讓機器人能夠處理手術(shù)過程中的各種意外情況。
研究團隊訓練這個系統(tǒng)的方式也很有趣。他們讓系統(tǒng)觀看了大量真人手術(shù)的錄像,就像讓一個醫(yī)學生反復觀看手術(shù)視頻學習一樣。系統(tǒng)不僅學會了正常的操作步驟,還學會了當事情出錯時應(yīng)該如何應(yīng)對。這個過程收集了約16000個操作軌跡,相當于17小時的手術(shù)錄像,覆蓋了34個不同的豬膽囊樣本。
為了讓訓練更高效,研究團隊使用了一些巧妙的技巧。他們使用了可以反復開合的特殊夾子,這樣就能在同一個膽囊上重復練習多次,就像練習書法時可以用水寫字,干了以后重新再寫一樣。對于剪切練習,他們讓機器人做剪切的動作但不真正剪斷,在后期數(shù)據(jù)處理時再模擬完整的剪切過程。
系統(tǒng)的"眼睛"也經(jīng)過了精心設(shè)計。除了常規(guī)的內(nèi)窺鏡視野,研究團隊還在機器人的"手腕"上安裝了微型攝像頭,就像給外科醫(yī)生戴上了放大鏡一樣。這些攝像頭能夠提供更清晰的近距離視圖,幫助機器人更精確地定位和操作。
在實際測試中,這個系統(tǒng)的表現(xiàn)令人矚目。研究團隊在8個從未見過的豬膽囊上進行了完整的手術(shù)測試,每次手術(shù)都包含17個不同的任務(wù)步驟。結(jié)果顯示,機器人在所有8次手術(shù)中都取得了100%的成功率,完全沒有人為干預(yù)。平均每次手術(shù)耗時約5分17秒,期間系統(tǒng)自主進行了6次糾錯操作。
這些糾錯操作涵蓋了各種可能出現(xiàn)的問題。比如當夾子沒有準確夾住目標血管時,系統(tǒng)會自動調(diào)整位置重新嘗試;當一只機械臂擋住了另一只臂的視線時,系統(tǒng)會自動移開障礙物;當剪刀的角度不合適時,系統(tǒng)會重新調(diào)整角度再進行切割。
研究團隊還進行了詳細的對比實驗,驗證了系統(tǒng)各個組件的重要性。他們發(fā)現(xiàn),如果去掉"自我糾錯"功能,成功率會下降到77.8%;如果移除手腕攝像頭,成功率降至66.7%;如果使用傳統(tǒng)的單層決策系統(tǒng)而不是分層系統(tǒng),成功率僅為33.3%。這些數(shù)據(jù)清楚地表明,每個創(chuàng)新組件都對系統(tǒng)的整體性能起到了關(guān)鍵作用。
為了進一步驗證系統(tǒng)的魯棒性,研究團隊還進行了"故意刁難"的測試。他們?nèi)藶榈貙C器人放置在各種困難的位置,比如讓夾子卡在兩根血管之間,或者讓機械臂處于完全錯誤的位置。結(jié)果顯示,系統(tǒng)在大多數(shù)情況下都能夠自主恢復到正確的操作狀態(tài)。
與專業(yè)外科醫(yī)生的對比實驗也很有意思。雖然醫(yī)生在速度上仍然占優(yōu)勢,但機器人在動作平滑性和路徑精確性方面表現(xiàn)更好。機器人的手術(shù)軌跡更短、更直接,抖動更少,這意味著對組織的損傷可能更小。當然,目前機器人的操作速度還比較慢,這主要是為了確保安全性。
研究團隊也坦誠地討論了當前系統(tǒng)的局限性。目前的測試是在離體的豬膽囊上進行的,真實的人體手術(shù)環(huán)境會更復雜,包括呼吸運動、出血、器官間的相互影響等。手腕攝像頭的尺寸也需要進一步縮小才能適用于真正的微創(chuàng)手術(shù)。
從技術(shù)角度來看,這個系統(tǒng)使用了當前最先進的人工智能技術(shù)。它的"大腦"基于Transformer架構(gòu),這是目前處理序列數(shù)據(jù)最有效的方法之一,也是ChatGPT等大型語言模型的核心技術(shù)。通過將手術(shù)過程理解為一個"語言序列",系統(tǒng)能夠更好地理解操作的上下文關(guān)系和時間邏輯。
系統(tǒng)的學習方式也很值得關(guān)注。它采用了"模仿學習"的方法,就像人類學徒通過觀察師傅工作來學習技能一樣。但與簡單的模仿不同,這個系統(tǒng)還能理解每個動作背后的"意圖",這讓它能夠在面對新情況時做出合理的調(diào)整。
更有趣的是,系統(tǒng)還支持實時的人工干預(yù)。如果手術(shù)過程中出現(xiàn)了系統(tǒng)無法處理的復雜情況,醫(yī)生可以通過語音指令臨時接管控制,就像駕駛員在自動駕駛汽車遇到復雜路況時接管方向盤一樣。這些人工干預(yù)的數(shù)據(jù)還會被記錄下來,用于進一步改進系統(tǒng)的性能。
研究團隊將這種方法稱為SRT-H(分層手術(shù)機器人變換器)。這個名字很形象地概括了系統(tǒng)的核心特點:它是專門為手術(shù)設(shè)計的(Surgical),基于機器人平臺的(Robot),使用變換器技術(shù)的(Transformer),并且采用分層架構(gòu)的(Hierarchical)。
從醫(yī)療應(yīng)用的角度來看,這項技術(shù)的潛在影響是巨大的。首先,它可以幫助解決外科醫(yī)生短缺的問題,特別是在偏遠地區(qū)或發(fā)展中國家。其次,它可以減少手術(shù)中的人為錯誤,提高手術(shù)的一致性和可預(yù)測性。第三,它可以讓經(jīng)驗不足的醫(yī)生也能進行復雜手術(shù),相當于給了他們一個"超級助手"。
當然,這項技術(shù)距離真正的臨床應(yīng)用還有一段路要走。從技術(shù)角度,需要在更復雜的手術(shù)環(huán)境中進行驗證,處理更多種類的解剖變異,提高操作速度,減小設(shè)備體積。從監(jiān)管角度,需要通過嚴格的安全性和有效性驗證,建立相應(yīng)的操作標準和責任體系。從社會角度,需要醫(yī)生和患者的接受,以及相關(guān)法律法規(guī)的完善。
研究團隊也提到了一些有趣的技術(shù)細節(jié)。比如,系統(tǒng)使用了一種叫做"混合相對動作表示"的方法來描述機器人的動作,這種方法能夠更好地處理機器人運動學中的不一致性問題。系統(tǒng)還使用了"動作分塊"技術(shù),一次預(yù)測未來2秒的動作序列,這樣可以讓動作更流暢、更連貫。
在訓練數(shù)據(jù)的處理上,研究團隊也下了很多功夫。他們不僅收集了正常操作的數(shù)據(jù),還特意收集了各種錯誤操作和恢復操作的數(shù)據(jù)。這就像讓學生不僅學習正確答案,還要學習常見的錯誤類型和糾正方法。他們還使用了數(shù)據(jù)增強技術(shù),通過對圖像進行旋轉(zhuǎn)、縮放、顏色調(diào)整等處理,讓系統(tǒng)能夠適應(yīng)更多樣的視覺條件。
系統(tǒng)的語言理解能力也很值得關(guān)注。它能夠理解18種不同的糾錯指令,比如"把左臂向右移動"、"把右臂抬高一點"、"張開夾子"等。這些指令使用了日常語言而不是復雜的技術(shù)術(shù)語,這讓醫(yī)生能夠很自然地與系統(tǒng)交流。
研究團隊還嘗試了使用GPT-4這樣的通用人工智能模型來擔任高層決策者的角色。然而結(jié)果顯示,通用模型在這種專業(yè)領(lǐng)域的表現(xiàn)并不理想。它經(jīng)常會跳過重要步驟,或者在不合適的時機發(fā)出指令。這說明了專門訓練的專業(yè)系統(tǒng)的重要性,也解釋了為什么這個研究選擇了從頭開始訓練專門的手術(shù)系統(tǒng)。
從更廣闊的視角來看,這項研究代表了機器人技術(shù)發(fā)展的一個重要里程碑。它展示了如何將最新的人工智能技術(shù)應(yīng)用到現(xiàn)實世界的復雜任務(wù)中,如何讓機器人具備類似人類的推理和適應(yīng)能力。這些技術(shù)不僅可以應(yīng)用于手術(shù),還可能推廣到其他需要精密操作的領(lǐng)域,比如精密制造、太空探索、深海作業(yè)等。
研究的另一個重要貢獻是開源了部分代碼和數(shù)據(jù)集,這將有助于全球研究者共同推進這個領(lǐng)域的發(fā)展。這種開放的研究態(tài)度體現(xiàn)了科學界的合作精神,也有助于加速技術(shù)的成熟和應(yīng)用。
值得注意的是,這個系統(tǒng)的成功也離不開硬件的支持。研究使用的da Vinci手術(shù)機器人系統(tǒng)本身就是一個非常精密的平臺,具有高精度的運動控制能力和優(yōu)秀的機械設(shè)計。新的人工智能算法與成熟的硬件平臺的結(jié)合,展現(xiàn)了軟硬件協(xié)同發(fā)展的重要性。
從數(shù)據(jù)的角度來看,這個研究也展現(xiàn)了機器學習時代的一些特點。系統(tǒng)的訓練需要大量的標注數(shù)據(jù),研究團隊花費了大量時間來收集和處理這些數(shù)據(jù)。數(shù)據(jù)的質(zhì)量和多樣性直接影響了系統(tǒng)的性能,這也提醒我們在發(fā)展人工智能技術(shù)時,數(shù)據(jù)收集和處理的重要性不亞于算法設(shè)計。
安全性始終是醫(yī)療機器人最重要的考慮因素。研究團隊在設(shè)計時就充分考慮了各種安全機制。系統(tǒng)具有多重故障檢測機制,一旦發(fā)現(xiàn)異常情況會立即停止操作。所有的操作都在專業(yè)醫(yī)生的監(jiān)督下進行,醫(yī)生可以隨時接管控制。系統(tǒng)還具有詳細的操作記錄功能,方便事后分析和審查。
展望未來,這項技術(shù)可能會朝著幾個方向發(fā)展。首先是擴展到更多類型的手術(shù),從簡單的切除手術(shù)到復雜的重建手術(shù)。其次是提高系統(tǒng)的智能水平,讓它能夠處理更復雜的解剖變異和并發(fā)癥。第三是改善人機交互界面,讓醫(yī)生能夠更自然地與系統(tǒng)協(xié)作。最后是降低成本,讓這種技術(shù)能夠在更多醫(yī)院得到應(yīng)用。
這項研究也引發(fā)了一些有趣的哲學思考。當機器人能夠獨立完成復雜的手術(shù)時,我們?nèi)绾味x"醫(yī)療責任"?醫(yī)生的角色會如何變化?患者對機器人手術(shù)的接受度如何?這些問題沒有標準答案,需要醫(yī)學界、法律界和社會各界共同探討。
從教育的角度來看,這種技術(shù)也可能改變醫(yī)學教育的模式。未來的外科醫(yī)生可能需要學習如何與智能機器人協(xié)作,如何監(jiān)督和指導機器人的操作,如何處理機器人無法應(yīng)對的復雜情況。這將要求醫(yī)學教育體系做出相應(yīng)的調(diào)整。
說到底,這項研究最令人興奮的地方在于它展示了技術(shù)進步為人類帶來的實實在在的好處。通過讓機器人具備類似人類醫(yī)生的判斷能力和適應(yīng)能力,我們有可能讓更多患者享受到高質(zhì)量的醫(yī)療服務(wù),減少手術(shù)風險,縮短康復時間。當然,技術(shù)的發(fā)展需要時間,從實驗室到臨床還有很長的路要走,但這個研究無疑為我們指明了一個非常有前景的方向。
歸根結(jié)底,這不僅僅是一個技術(shù)成就,更是人類智慧和創(chuàng)造力的體現(xiàn)。它告訴我們,通過科學研究和技術(shù)創(chuàng)新,我們能夠不斷突破原有的限制,為人類的健康和福祉做出更大的貢獻。對于普通人來說,雖然我們可能不會直接參與這樣的研究,但了解這些前沿進展有助于我們更好地理解科技發(fā)展的方向,也讓我們對未來的醫(yī)療服務(wù)充滿期待。
有興趣深入了解技術(shù)細節(jié)的讀者,可以訪問研究團隊的項目網(wǎng)站或查閱發(fā)表在相關(guān)學術(shù)期刊上的完整論文,那里有更多關(guān)于算法設(shè)計、實驗數(shù)據(jù)和技術(shù)實現(xiàn)的詳細信息。
Q&A
Q1:這個手術(shù)機器人系統(tǒng)是否會完全取代外科醫(yī)生? A:不會完全取代。目前系統(tǒng)主要是作為醫(yī)生的"超級助手",在醫(yī)生監(jiān)督下執(zhí)行特定的手術(shù)步驟。它可以減少醫(yī)生的疲勞,提高手術(shù)精確度,但醫(yī)生仍然負責整體決策、處理復雜情況和承擔醫(yī)療責任。未來外科醫(yī)生的角色可能會從"操作者"轉(zhuǎn)變?yōu)?指揮者"和"監(jiān)督者"。
Q2:這種技術(shù)什么時候能在醫(yī)院里真正使用? A:目前還需要幾年時間。研究團隊需要先在更復雜的真實手術(shù)環(huán)境中驗證系統(tǒng)性能,通過嚴格的安全性測試,獲得醫(yī)療器械監(jiān)管部門的批準,并培訓醫(yī)生使用這套系統(tǒng)。預(yù)計最早可能在5-10年內(nèi)開始小規(guī)模臨床試驗,更廣泛的應(yīng)用可能需要更長時間。
Q3:普通患者如何判斷是否適合接受機器人手術(shù)? A:這主要由專業(yè)醫(yī)生根據(jù)患者的具體情況來判斷。一般來說,機器人手術(shù)更適合標準化程度較高、操作相對簡單的手術(shù)類型?;颊邞?yīng)該關(guān)注醫(yī)院和醫(yī)生的經(jīng)驗、設(shè)備的成熟度、以及自身的身體狀況。最重要的是要充分了解手術(shù)的風險和益處,與醫(yī)生進行詳細溝通后做出決定。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領(lǐng)域帶來了效率和精度的雙重突破。