在我們?nèi)粘I钪?,測量心跳通常需要專門的醫(yī)療設(shè)備,但俄羅斯Sber AI實(shí)驗(yàn)室的研究團(tuán)隊卻在2024年8月完成了一項(xiàng)令人驚嘆的研究——他們開發(fā)出了一種技術(shù),能夠僅僅通過觀察你的面部視頻就準(zhǔn)確測量出心跳、血壓等多達(dá)13種健康指標(biāo)。這項(xiàng)名為"Gaze into the Heart: A Multi-View Video Dataset for rPPG and Health Biomarkers Estimation"的研究已發(fā)表在arXiv預(yù)印本平臺,研究團(tuán)隊包括來自Sber AI實(shí)驗(yàn)室的康斯坦丁·葉戈羅夫、斯捷潘·博特曼、帕維爾·布里諾夫等研究人員,以及來自薩馬拉國立醫(yī)科大學(xué)的安東·伊瓦先科和亞歷山大·科爾薩諾夫等醫(yī)學(xué)專家。感興趣的讀者可以通過https://huggingface.co/datasets/kyegorov/mcd_rppg訪問完整數(shù)據(jù)集,或通過https://github.com/ksyegorov/mcd_rppg獲取實(shí)驗(yàn)代碼。
這項(xiàng)研究的核心原理基于一個有趣的生理現(xiàn)象:當(dāng)血液在我們的血管中流動時,會引起極其微小的顏色變化,這些變化肉眼幾乎無法察覺,但攝像頭卻能捕捉到。研究團(tuán)隊將這種技術(shù)稱為"遠(yuǎn)程光電容積脈搏波描記法",簡稱rPPG,就像是給攝像頭裝上了一雙能看透皮膚的"透視眼",能夠感知血管中血液流動的節(jié)拍。
想象一下,這就像是隔著窗戶觀察房間里的燈光變化來判斷房間內(nèi)的活動情況。當(dāng)心臟每次跳動時,血液就會涌入面部的毛細(xì)血管,使得皮膚的顏色發(fā)生極其細(xì)微的變化。雖然這種變化人眼看不出來,但高精度的攝像頭配合智能算法就能夠檢測到這些變化,并從中提取出心跳信息。
這項(xiàng)技術(shù)的潛在應(yīng)用前景極為廣闊。在未來,你可能只需要坐在電腦前進(jìn)行視頻通話,系統(tǒng)就能自動監(jiān)測你的健康狀況。對于醫(yī)療資源匱乏的偏遠(yuǎn)地區(qū),這種技術(shù)能夠讓普通的智能手機(jī)變成強(qiáng)大的健康監(jiān)測工具。對于需要長期健康監(jiān)護(hù)的老年人或慢性病患者,這種非接觸式的監(jiān)測方式既方便又不會給日常生活造成干擾。
研究團(tuán)隊面臨的最大挑戰(zhàn)是現(xiàn)有數(shù)據(jù)集的局限性。就像烹飪需要足夠多樣的食材才能做出美味佳肴一樣,訓(xùn)練一個準(zhǔn)確的AI模型需要大量高質(zhì)量、多樣化的數(shù)據(jù)。之前的研究數(shù)據(jù)集通常只包含幾十到一百多名參與者,這就像是只用幾種蔬菜就想做出滿漢全席一樣困難。更重要的是,許多現(xiàn)有數(shù)據(jù)集由于隱私保護(hù)等原因無法公開獲取,這嚴(yán)重阻礙了這一領(lǐng)域的發(fā)展進(jìn)步。
為了解決這些問題,研究團(tuán)隊創(chuàng)建了迄今為止最大規(guī)模的公開rPPG數(shù)據(jù)集,他們將其命名為"MCD-rPPG"(Multi-Camera Dataset for rPPG)。這個數(shù)據(jù)集包含了600名不同年齡、性別的參與者的視頻數(shù)據(jù),每個人都進(jìn)行了兩次錄制——一次是在安靜狀態(tài)下,另一次是在做完15個深蹲運(yùn)動后。這種設(shè)計就像是給每道菜都準(zhǔn)備了兩種不同的烹飪狀態(tài),能夠讓AI模型學(xué)會在不同生理狀態(tài)下準(zhǔn)確識別健康指標(biāo)。
在數(shù)據(jù)收集過程中,研究團(tuán)隊使用了三個不同角度的攝像頭同時拍攝每位參與者,包括手機(jī)攝像頭、專業(yè)視頻相機(jī)和網(wǎng)絡(luò)攝像頭。這就像是從正面、側(cè)面和斜角同時觀察同一個人,確保無論參與者怎樣轉(zhuǎn)頭或移動,至少有一個角度能夠清晰捕捉到面部信息。每次拍攝持續(xù)約3分鐘,使用標(biāo)準(zhǔn)的VGA分辨率(640×480像素),幀率為24或30幀每秒。
同時,研究團(tuán)隊還使用專業(yè)醫(yī)療設(shè)備記錄了真實(shí)的生理數(shù)據(jù)作為對照。他們使用了Eldar和AXMA HemoCard-BT等醫(yī)療級設(shè)備來測量真實(shí)的脈搏波信號,采樣頻率高達(dá)100赫茲,確保捕捉到每一次心跳的細(xì)微變化。除了基礎(chǔ)的心跳數(shù)據(jù),他們還收集了血壓、血氧飽和度、體溫、血糖、膽固醇、呼吸頻率、心電圖等13種不同的健康指標(biāo),創(chuàng)建了一個真正全面的健康數(shù)據(jù)檔案。
為了確保視頻數(shù)據(jù)和生理數(shù)據(jù)的精確同步,研究團(tuán)隊采用了一個巧妙的方法。他們在拍攝現(xiàn)場放置了一個顯示精確時間的平板電腦,這個電子時鐘出現(xiàn)在所有攝像頭的畫面中。通過光學(xué)字符識別技術(shù),他們能夠精確計算出不同攝像頭之間的時間差異,確保所有數(shù)據(jù)都能夠完美對齊,就像指揮家確保樂隊中每個樂器都按照同一個節(jié)拍演奏一樣。
在數(shù)據(jù)質(zhì)量控制方面,研究團(tuán)隊發(fā)現(xiàn)大約6.3%的記錄由于光學(xué)字符識別失敗而被排除,但剩余的數(shù)據(jù)顯示出良好的同步性能。不同攝像頭之間的時間差異通??刂圃?plusmn;0.2秒以內(nèi),這個精度對于心跳檢測來說完全足夠,因?yàn)檎H说男奶芷诖蠹s是0.8到1.2秒。
基于這個龐大的數(shù)據(jù)集,研究團(tuán)隊開發(fā)了一個高效的AI模型來實(shí)現(xiàn)心跳和其他健康指標(biāo)的檢測。這個模型的設(shè)計理念就像是制作一道精致菜肴的流程:首先使用人臉識別技術(shù)定位面部區(qū)域,然后選擇血管分布密集的區(qū)域作為"觀察窗口",接著提取這些區(qū)域的顏色變化信息,最后通過神經(jīng)網(wǎng)絡(luò)分析這些信號并輸出健康指標(biāo)。
這個AI模型采用了一種被稱為"特征金字塔網(wǎng)絡(luò)"的架構(gòu),能夠同時處理不同長度的視頻片段而無需將其切割成固定大小的窗口。這就像是一個經(jīng)驗(yàn)豐富的醫(yī)生,能夠根據(jù)患者的不同情況靈活調(diào)整檢查時間,而不是機(jī)械地按照固定流程操作。
更令人印象深刻的是,這個模型不僅能夠檢測心跳,還能同時預(yù)測多種健康指標(biāo),包括收縮壓和舒張壓、糖化血紅蛋白、膽固醇水平、呼吸頻率、動脈硬度、年齡、性別、體重指數(shù)、壓力水平和血氧飽和度。這種多任務(wù)處理能力就像是一個全科醫(yī)生,能夠通過一次檢查獲得患者的全面健康狀況。
在性能測試中,這個新模型展現(xiàn)出了令人滿意的準(zhǔn)確性。對于心跳檢測,模型在自有數(shù)據(jù)集上的平均絕對誤差僅為4.86拍每分鐘,這個精度已經(jīng)接近專業(yè)醫(yī)療設(shè)備的水平。在跨數(shù)據(jù)集測試中,雖然精度有所下降,但仍然保持在可接受的范圍內(nèi),證明了模型的泛化能力。
研究團(tuán)隊特別關(guān)注了不同攝像頭角度對檢測精度的影響。結(jié)果顯示,正面拍攝的效果最好,這是因?yàn)檎娼嵌饶軌蜃钋宄赜^察到面部血管豐富的區(qū)域,就像正面觀察一幅畫能夠獲得最完整的信息一樣。側(cè)面或斜角拍攝的精度會有所下降,但仍然能夠提供有用的健康信息。
在運(yùn)算效率方面,新模型表現(xiàn)出色。在CPU上的處理速度比現(xiàn)有的最佳模型快13%,模型文件大小僅為3.9MB,這使得它能夠在智能手機(jī)等移動設(shè)備上流暢運(yùn)行。這種高效性對于實(shí)際應(yīng)用來說至關(guān)重要,因?yàn)榇蠖鄶?shù)用戶希望能夠隨時隨地進(jìn)行健康監(jiān)測,而不是需要專門的高性能計算機(jī)。
對于其他健康指標(biāo)的預(yù)測,模型同樣展現(xiàn)出了超越簡單基線方法的性能。例如,在血壓預(yù)測方面,收縮壓的平均絕對誤差為12.82毫米汞柱,舒張壓為8.39毫米汞柱。雖然這個精度還不足以完全替代專業(yè)的血壓計,但已經(jīng)能夠提供有價值的健康趨勢信息。
研究團(tuán)隊還發(fā)現(xiàn),運(yùn)動前后的生理狀態(tài)差異對模型訓(xùn)練非常有幫助。運(yùn)動后,參與者的心率、血壓和呼吸頻率都會發(fā)生明顯變化,這為模型提供了更豐富的訓(xùn)練樣本,就像是給廚師提供了更多種類的食材,能夠做出更加美味多樣的菜肴。
這項(xiàng)研究的重要意義不僅在于技術(shù)突破,更在于它為整個研究社區(qū)提供了一個寶貴的公共資源。通過公開發(fā)布這個大規(guī)模數(shù)據(jù)集,研究團(tuán)隊為其他科研人員提供了一個標(biāo)準(zhǔn)化的測試平臺,這將大大加速相關(guān)技術(shù)的發(fā)展進(jìn)步。這就像是建立了一個公共圖書館,讓所有研究人員都能夠獲得高質(zhì)量的研究資料。
從實(shí)際應(yīng)用的角度來看,這項(xiàng)技術(shù)有望在多個領(lǐng)域產(chǎn)生深遠(yuǎn)影響。在遠(yuǎn)程醫(yī)療領(lǐng)域,醫(yī)生可以通過視頻通話實(shí)時監(jiān)測患者的健康狀況,這對于行動不便的老年患者或居住在偏遠(yuǎn)地區(qū)的人們來說特別有價值。在健身和運(yùn)動監(jiān)測方面,用戶可以通過手機(jī)攝像頭實(shí)時了解自己的運(yùn)動強(qiáng)度和身體反應(yīng),從而制定更科學(xué)的鍛煉計劃。
在心理健康監(jiān)測方面,這項(xiàng)技術(shù)也展現(xiàn)出了潛在價值。研究數(shù)據(jù)包括了基于PSM-25量表的壓力水平評估,這意味著未來可能通過面部視頻分析來識別用戶的心理壓力狀態(tài),為心理健康干預(yù)提供客觀的生理指標(biāo)支持。
當(dāng)然,這項(xiàng)技術(shù)也面臨一些挑戰(zhàn)和限制。首先是隱私保護(hù)問題,雖然研究團(tuán)隊已經(jīng)獲得了所有參與者的同意,但在實(shí)際應(yīng)用中需要建立完善的隱私保護(hù)機(jī)制。其次是技術(shù)準(zhǔn)確性問題,雖然在實(shí)驗(yàn)室條件下表現(xiàn)良好,但在復(fù)雜的真實(shí)環(huán)境中,光照變化、攝像頭抖動等因素可能會影響檢測精度。
研究團(tuán)隊也坦誠地指出了模型的一些局限性。在跨數(shù)據(jù)集測試中,模型的性能會有明顯下降,這說明不同拍攝條件、人群特征等因素會影響模型的泛化能力。這就像是一個在特定地區(qū)訓(xùn)練的廚師,到了新的地方可能需要適應(yīng)當(dāng)?shù)氐氖巢暮涂谖镀谩?/p>
為了解決這些問題,研究團(tuán)隊建議未來的工作應(yīng)該關(guān)注幾個方向。首先是擴(kuò)大數(shù)據(jù)集的多樣性,包括不同種族、年齡段和健康狀況的人群,以提高模型的普適性。其次是改進(jìn)算法的魯棒性,使其能夠在各種光照條件和拍攝角度下穩(wěn)定工作。最后是探索更多的健康指標(biāo)檢測,如血糖水平、炎癥指標(biāo)等,進(jìn)一步擴(kuò)展技術(shù)的應(yīng)用范圍。
從技術(shù)發(fā)展趨勢來看,這項(xiàng)研究代表了人工智能在醫(yī)療健康領(lǐng)域應(yīng)用的一個重要方向。隨著攝像頭技術(shù)的不斷進(jìn)步和AI算法的持續(xù)優(yōu)化,未來我們可能會看到更加精確、便捷的非接觸式健康監(jiān)測解決方案。這種技術(shù)不僅能夠降低醫(yī)療成本,還能夠?qū)崿F(xiàn)真正的個性化健康管理,讓每個人都能夠隨時了解自己的健康狀況。
研究團(tuán)隊的工作也體現(xiàn)了開放科學(xué)的重要價值。通過公開分享數(shù)據(jù)集和實(shí)驗(yàn)代碼,他們?yōu)槿虻难芯咳藛T提供了寶貴的資源,這種開放合作的精神將推動整個領(lǐng)域的快速發(fā)展。正如研究論文中所說,他們希望這項(xiàng)工作能夠"顯著加速AI醫(yī)療助手發(fā)展的進(jìn)步"。
說到底,這項(xiàng)研究最令人興奮的地方在于它將科幻電影中的場景變成了現(xiàn)實(shí)。通過一個簡單的攝像頭,我們就能夠獲得豐富的健康信息,這種技術(shù)的普及將徹底改變我們對健康監(jiān)測的認(rèn)知。雖然目前還存在一些技術(shù)挑戰(zhàn),但隨著技術(shù)的不斷完善,我們有理由相信,在不遠(yuǎn)的將來,每個人都能夠擁有一個便攜的、智能的健康守護(hù)神,隨時隨地關(guān)注我們的身體狀況,讓健康管理變得像查看手機(jī)時間一樣簡單自然。
這項(xiàng)由俄羅斯Sber AI實(shí)驗(yàn)室主導(dǎo)的研究不僅在技術(shù)層面取得了重要突破,更為整個行業(yè)樹立了開放合作的典范。通過600名參與者的大規(guī)模實(shí)驗(yàn)和13種健康指標(biāo)的全面監(jiān)測,他們創(chuàng)造了一個前所未有的科研平臺,為未來的智能健康監(jiān)測技術(shù)奠定了堅實(shí)基礎(chǔ)。
Q&A
Q1:什么是rPPG技術(shù),它是如何通過攝像頭檢測心跳的?
A:rPPG(遠(yuǎn)程光電容積脈搏波描記法)是一種通過攝像頭檢測血液流動變化的技術(shù)。當(dāng)心臟跳動時,血液涌入面部毛細(xì)血管會引起極其微小的皮膚顏色變化,雖然肉眼看不出來,但高精度攝像頭配合AI算法能夠檢測到這些變化并提取心跳信息,就像通過觀察窗戶里燈光的變化來判斷房間內(nèi)的活動。
Q2:MCD-rPPG數(shù)據(jù)集相比其他數(shù)據(jù)集有什么優(yōu)勢?
A:MCD-rPPG是目前最大的公開rPPG數(shù)據(jù)集,包含600名參與者(比以往數(shù)據(jù)集多數(shù)倍),每人都在安靜和運(yùn)動后兩種狀態(tài)下錄制,使用三個不同角度攝像頭同時拍攝,并配有13種健康指標(biāo)的專業(yè)醫(yī)療設(shè)備測量數(shù)據(jù)。最重要的是它完全公開可獲取,而大部分現(xiàn)有數(shù)據(jù)集都無法公開使用。
Q3:這種技術(shù)在實(shí)際生活中能達(dá)到什么樣的準(zhǔn)確度?
A:在研究團(tuán)隊的測試中,心跳檢測的平均誤差為4.86拍每分鐘,接近專業(yè)醫(yī)療設(shè)備的精度。血壓檢測方面,收縮壓誤差約12.8毫米汞柱,舒張壓誤差約8.4毫米汞柱。雖然還不能完全替代專業(yè)醫(yī)療設(shè)備,但已經(jīng)能夠提供有價值的健康趨勢監(jiān)測,特別適合日常健康管理。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。