雖然尚存在隱私難題,但人臉識別技術(shù)已經(jīng)能夠幫助人們完成診療預(yù)約與度假登記。
▲ 皇家加勒比渡輪公司實行人臉識別系統(tǒng)進行乘客安檢與身份驗證,效率更高
想象一下,你和家人正站在碼頭,等待登上巨型渡輪,開始一段陽光沙灘海浪仙人掌的舒適假期,然而,回到現(xiàn)實,視野中出現(xiàn)的是等待安檢、拖運以及對照身份的長隊。乘客通常需要 75 分鐘的等候才能完成登船手續(xù),加上迫切心情,近在咫尺的甲板變得如天涯般遙不可及。
皇家加勒比游輪公司認為,有必要進一步加快乘客的檢查速度,而其中的關(guān)鍵,就是AI人臉識別技術(shù)。
去年12月,該公司組織了一個試點項目,讓乘客們搭上一艘前往佛羅里達州勞德代爾堡的郵輪。乘客們首先利用該公司提供的應(yīng)用程序進行自拍,然后在港口位置由AI數(shù)據(jù)庫對真人相貌進行匹配,經(jīng)過快速復(fù)核,快速進入了自己的船艙。
結(jié)果是:客戶滿意度得到顯著提升。
皇家加勒比游輪公司邁阿密分部數(shù)字運營負責人 Jay Schneider 表示,“我們希望將原本冷冰冰的檢查變成一場熱烈的歡迎儀式。”他們的目標,是確保乘客“在10分鐘內(nèi)從車里進入酒吧。”
皇家加勒比游輪公司并不是這場實驗性嘗試中的唯一一員。事實上,人臉識別技術(shù)已經(jīng)被Facebook用于尋找好友,被蘋果公司用于解鎖iPhone,被用于各地機場、收銀機以及家庭安全系統(tǒng)等場景。換言之,人臉識別有可能很快充斥我們生活的各個角落。
我們生活在一個AI能力有望超越人類大腦的時代下。
人臉識別系統(tǒng)的普及,可謂人工智能技術(shù)的一場巨大飛躍。這種技術(shù)旨在為計算機提供一部分與人類思維相似的能力、功能性甚至是創(chuàng)造力。其中的最大改進,源自AI中的一個特定領(lǐng)域,即神經(jīng)網(wǎng)絡(luò),這一概念受到人腦細胞具體運作方式的啟發(fā)。另外,硬件與軟件層面的改進還實現(xiàn)了一種被稱為深度學習的具體方法——通過多層數(shù)字神經(jīng)元,深度學習模型已經(jīng)能夠提供越來越精細的圖像分析結(jié)果。
總體而言,這代表著一場深刻的變化。認識與解釋人臉對我們來說非常重要,我們?nèi)祟惖拇竽X也把相當一部分時間與精力投入到這項工作當中。當我們向計算機傳授這項技能時,我們將能夠與機器完成更為便捷的交互——這就像是對原有數(shù)據(jù)庫命令提交方法的一場進化。但另一方面,人臉識別也會影響到我們的匿名性水平,最終嚴重削弱每一個人保障隱私權(quán)的能力。
>>> 神經(jīng)網(wǎng)絡(luò)的工作原理
在訓(xùn)練階段,神經(jīng)網(wǎng)絡(luò)會認真檢查大量人臉圖像,并自行學習識別過程中的重要訣竅。相較于由程序員負責對眼睛、鼻子以及嘴巴的形狀進行描述的舊有方式,這種新技術(shù)的準確度可以說不知道高到哪里去了。
加州大學河濱分校電氣與計算機工程系主任Amit Roy-Chowdhury表示,“其中一些層能夠捕捉顏色、紋理與漸變。當神經(jīng)層深度增加時,其會進一步捕捉物體上不同部分的形狀,并最終勾勒出目標物體的整體形態(tài)。”
經(jīng)過訓(xùn)練之后,神經(jīng)網(wǎng)絡(luò)將為每張人臉創(chuàng)建一種精簡的數(shù)學表示。該表示可以與其它人臉的表示進行快速比較,從而由人臉識別系統(tǒng)判斷進入辦公室的家伙到底在不在擁有授權(quán)的員工名單內(nèi)。而如果出現(xiàn)的人與警察逮捕記錄信息匹配,那么系統(tǒng)即可針對這位潛在的盜竊犯發(fā)出警報。
為了更好地工作,人臉識別系統(tǒng)需要獲得光照良好且效果清晰的人臉圖像,用以為神經(jīng)網(wǎng)絡(luò)提供詳細、準確的數(shù)據(jù)。正因為如此,護照照片才要求必須光照均勻、背景簡單、表情自然且拍攝對象必須正面朝向相機。施樂公司PARC交互與分析實驗室負責人Raj Minhas指出,“只有盡可能確保所有輸入內(nèi)容間的一致性,分析工作才會變得更為輕松。”
>>> 系統(tǒng)中的錯誤
人臉識別系統(tǒng)的水平確定在不斷提升,但有時候仍然會犯下一些錯誤。當不存在匹配時,例如數(shù)據(jù)庫中不存在某一對象的圖像,系統(tǒng)偶爾也會誤將對方視為已匹配。另一方面,系統(tǒng)時不時也會將本來應(yīng)該正確匹配的對象視為陌生人物。
美國國家標準與技術(shù)研究院在其 2018 年的研究當中發(fā)現(xiàn),目前一流的人臉識別系統(tǒng)在光照條件良好的情況下,能夠?qū)崿F(xiàn)高達99.7%的判斷準確率。
卡耐基梅隆大學CyLab生物識別中心主任Marios Savvides表示,減少此類錯誤的途徑之一,在于推送一系列數(shù)據(jù)以調(diào)整系統(tǒng),從而提高神經(jīng)網(wǎng)絡(luò)準確性,并降低誤報狀況的發(fā)生機率。
Savvides的團隊還將現(xiàn)代AI與一種被稱為濾波器的舊有技術(shù)加以結(jié)合,從而確保當面部被遮擋、光線不足或者背離相機時,神經(jīng)網(wǎng)絡(luò)仍能夠提高人臉識別的準確性。他指出,總體而言,Savvides團隊已經(jīng)能夠在人們看向別處或者佩戴口罩時較為準確地重建面部輪廓。他表示,“我們生活在一個AI能力有望超越人類大腦的時代下。”
改善人臉識別技術(shù)的另一種方法,是將其與其它屬性進行匹配,例如指紋、聲紋以及其它生物識別數(shù)據(jù)或密碼等因素。這種方式雖然不太適合掃描商店進出口人群這類較為隨機的場景,但在登錄網(wǎng)絡(luò)以及其它受控程度較高的情況下,卻能夠發(fā)揮極佳的作用。
Unisys公司(一家向美國海關(guān)與邊境保護局等客戶出售生物識別認證技術(shù)的廠商)首席技術(shù)官Vishal Gupta表示,“我們將其稱為無可辯駁的身份。”Unisys公司原本的人臉識別系統(tǒng)僅擁有99%的準確率,但在結(jié)合其它生物識別因素后,其準確率快速提升至99.9%甚至99.99%。
雖然人臉識別技術(shù)能夠帶來巨大的便利性,但同時也讓不少人產(chǎn)生了顧慮。隱私權(quán)倡導(dǎo)者們擔心其將引發(fā)新的“老大哥在注視你”這類監(jiān)控時代,或者令企業(yè)出于利益驅(qū)動而追蹤人們的行跡。此外,AI技術(shù)還面臨著偏見問題的挑戰(zhàn);如果使用大量白人圖像進行系統(tǒng)訓(xùn)練——這也是目前的常見作法——那么系統(tǒng)可能會很難識別有色人種。根據(jù)用于AI訓(xùn)練的數(shù)據(jù)集的不同,這種偏見還會以其它方式進入數(shù)據(jù)集。舉例來說,如果用于AI訓(xùn)練的照片中包含大量女性烹飪的內(nèi)容,那么系統(tǒng)可能天然認定女性就歸屬于廚房。
Broad Daylight公司安全顧問Nick Merrill指出,“目前在實際發(fā)現(xiàn)數(shù)據(jù)集問題之前,還沒有太好的辦法來提前判斷數(shù)據(jù)集內(nèi)是否存在偏見。然而,當偏見性算法在現(xiàn)實場景中造成破壞時,一切都為時已晚。”
盡管如此,仍有很多企業(yè)在考慮如何利用人臉識別技術(shù)增強客戶、訪客、患者以及用戶的體驗。他們希望通過人臉識別技術(shù)簡化交互流程,而非帶來令人毛骨悚然的隱私危機。
>>> 你好,醫(yī)院
Northwell Health醫(yī)院為350萬名患者提供服務(wù),亦是紐約規(guī)模最大的醫(yī)療保健服務(wù)供應(yīng)方。其正在利用人臉識別程序簡化患者就診流程,減少文書錯誤,并最終借此改善人們的健康狀況。
其系統(tǒng)中的硬件與軟件由RightPatient公司制造,負責利用復(fù)雜的相機拍攝患者的面部與虹膜。當患者進行檢查時,接待員使用的計算機將確認患者身份并彈出他或她的醫(yī)生圖表。而如果沒有記錄,則當場為患者注冊ID。
我們相當于把名字寫在了臉上。
除了簡化整個就診流程之外,該系統(tǒng)還具有諸多其它優(yōu)點,包括精簡ID相關(guān)信息。舉例來說,它不太會受到同一患者重復(fù)記錄問題的影響。如果你已經(jīng)存在于系統(tǒng)當中,那么即使您結(jié)婚并改變了名字,系統(tǒng)同樣能夠?qū)⒛J出。此外,身份盜竊活動也將受到扼制,畢竟壞蛋們很難偽造出一張足以蒙混過關(guān)的人臉。
在車禍等緊急情況之下,該系統(tǒng)能夠快速識別出已經(jīng)失去意識的患者,以便護士及醫(yī)生能夠找到其病史并快速與家人取得聯(lián)系。
數(shù)字病患體驗組織副總裁Laura Semlies評論稱,“我們相當于把名字寫在了臉上。而這,只會帶來更好的臨床關(guān)系。”
她解釋道,生物識別數(shù)據(jù)將受到加密保護,并遵循與其它健康數(shù)據(jù)相同的嚴重隱私限制。
到目前為止,Northwell醫(yī)院的350萬名患者當中只有約12000人加入這套系統(tǒng)。但該網(wǎng)絡(luò)的發(fā)展速度很快,并沿該機構(gòu)的業(yè)務(wù)體系廣泛傳播。
>>> 人臉識別的光明前景
皇家加勒比游輪公司項目負責人Schneider表示,該公司的乘客數(shù)量達到Northwell醫(yī)院患者的兩倍,而且隨著計劃規(guī)模的擴大,將有更多乘客享受到人臉識別的服務(wù)。
在可選自助系統(tǒng)上完成自拍及護照掃描之后,乘客即可直接動身前往港口。抵達之后,乘客可以通過入口處的攝像機看到自己的實時動態(tài),并快速得到安排,以避免遭遇機場中常見的安檢擁塞。
在幕后,計算機會將乘客的面孔與記錄中的面孔進行匹配。一旦匹配成功,乘客就會在屏幕上看到一個綠色的提示框。這時,人類接待員將確認匹配,叫出乘客的姓名并檢查他們的護照。
皇家加勒比公司原本就要求乘客提供照片,因此人臉識別系統(tǒng)并不會顯著增加該公司的數(shù)據(jù)存量。該公司數(shù)字負責人Schneider表示,他們還將在出游結(jié)束之后刪除乘客提供的照片。
結(jié)果就是,這套系統(tǒng)使得乘客們能夠更快登船——換言之,更快開始這段激動人心的假期。
Schneider最后總結(jié)稱,“客人們不希望到第二天才能真正開始享受假期。我們的目標,就是把這失去的一天重新還給乘客。”
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學解題中,為AI訓(xùn)練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。