CNET科技行者 9月20日 特別報(bào)道(文/周雅):小米、vivo、蘋(píng)果新機(jī)幾乎同期撲面而來(lái),讓業(yè)界嗅到智能手機(jī)的一個(gè)熱點(diǎn):“人臉識(shí)別”——小米Note 3、vivo V7+、iPhone X都支持刷臉解鎖,另外一個(gè)熱點(diǎn)是“全面屏”,然而智能手機(jī)蓄勢(shì)待發(fā)的技術(shù)何其多:機(jī)器智能、千兆級(jí)LTE、2X2雙通路Wi-Fi、射頻前端、快充等等(如下圖)讓人猝不及防,為了搞清楚這些炫酷的招數(shù),我們采訪了高通工程技術(shù)副總裁ChienChung (CC) Chang,梳理出智能手機(jī)之4件熱門(mén)技術(shù)。
圖:高通持續(xù)深耕智能手機(jī)的技術(shù)研發(fā)
3D傳感器技術(shù)的重要性在于它可以表現(xiàn)出很多2D無(wú)法表達(dá)的東西。通俗點(diǎn)說(shuō),當(dāng)人臉識(shí)別那幾秒,3D能感應(yīng)到人臉輪廓中凹凸不平的部位,比如眼睛是凹進(jìn)去的,耳朵是凸出來(lái)的,但如果是2D,這些器官都會(huì)顯示在同一平面中。
人臉識(shí)別的第一步,需要3D成像——結(jié)構(gòu)光模組負(fù)責(zé)采集深度數(shù)據(jù)、與攝像頭接收的2D影像數(shù)據(jù)整合,從而形成完整的3D影像。這顯然要求多個(gè)模組(結(jié)構(gòu)光發(fā)射端、結(jié)構(gòu)光接收端、前攝像頭等)有團(tuán)隊(duì)協(xié)作精神。
而高通在這一領(lǐng)域耕耘多年,高通第二代Spectra ISP支持人臉識(shí)別技術(shù)和3D深度感知技術(shù)。在3D深度感知方案上,高通采用面向計(jì)算機(jī)視覺(jué)、圖像質(zhì)量和功效提升而設(shè)計(jì)的全新攝像頭架構(gòu),以完成密集的深度圖生成、圖像分割等各種智能視覺(jué)應(yīng)用。
圖解高通3D深度傳感器,利用紅外線接受三維深度數(shù)據(jù),形成高分辨率的深度數(shù)據(jù),可以準(zhǔn)確識(shí)別人臉,即使在低光環(huán)境下也能進(jìn)行三維重建
高通與奇景光電同時(shí)還在加快推進(jìn)SLiM(結(jié)構(gòu)光模組)3D解決方案,可以為廠商提供完整的3D攝像頭模組和技術(shù)。除了手機(jī)之外,汽車(chē)、無(wú)人機(jī)、監(jiān)視器等產(chǎn)品也都會(huì)廣泛使用這個(gè)技術(shù)。
有消息稱,SLiM的3D攝像頭模組方案將會(huì)在明年1月份量產(chǎn),而搭載它的安卓手機(jī)也會(huì)在明年Q1亮相。
ChienChung (CC) Chang延伸介紹了高通3D深度傳感器技術(shù)的其他應(yīng)用(如下圖)。第一個(gè)應(yīng)用是將單反相機(jī)的景深感測(cè)功能遷移到手機(jī)上,可以將鏡頭聚焦某一個(gè)人,背景虛化,呈現(xiàn)出一種單反拍人的效果;還有一個(gè)應(yīng)用是VR的感測(cè)避障功能,如果戴上VR眼鏡的你周遭環(huán)境很黑暗,VR眼鏡內(nèi)置的3D傳感器可以幫你感測(cè)四周障礙物,以免磕傷撞傷。
H.265編碼是4K視頻的好幫手
通常我們看網(wǎng)絡(luò)視頻,流量會(huì)跑得很快,保存視頻也會(huì)占用大量存儲(chǔ),這是因?yàn)橐曨l未被壓縮、占用帶寬的緣故。ChienChung (CC) Chang告訴我們,假如一段每秒30幀的高清視頻未經(jīng)過(guò)壓縮,那么每秒約使用10億比特(帶寬單位),而壓縮之后,每秒可以降低到2000萬(wàn)比特。結(jié)論就是,壓縮技術(shù)可以將視頻的大小縮減到原有版本的1/50。
國(guó)際上有許多視頻壓縮的標(biāo)準(zhǔn),最新的一項(xiàng)標(biāo)準(zhǔn)是H.265高效率視頻編碼(High Efficiency Video Coding,簡(jiǎn)稱HEVC),由ITU-T視頻編碼專家組與ISO/IEC動(dòng)態(tài)圖像專家組聯(lián)合成立的視頻編碼聯(lián)合協(xié)作組(JCT-VC)在2013年建立,很多公司參與建立了這一標(biāo)準(zhǔn),高通也參與其中。
圖:HEVC驅(qū)動(dòng)多媒體消費(fèi)革命,有益于OEM廠商、視頻供應(yīng)商、內(nèi)容創(chuàng)作者
H.265 標(biāo)準(zhǔn)被認(rèn)為不僅提升視頻質(zhì)量、縮減帶寬成本,還能達(dá)到上一代 H.264/MPEG-4 AVC 兩倍之壓縮率——等于同樣畫(huà)質(zhì)下,比特率減少了50%,存儲(chǔ)大小相同的條件下,使用H.264只能錄2個(gè)小時(shí)的視頻,H.265則可以錄4個(gè)小時(shí)。H.265 還能支持 4K 甚至超高清電視(UHDTV),最高分辨率可達(dá) 8192×4320(8K 分辨率)。
隨著手機(jī)、電腦、相機(jī)、電視的攝像頭、視頻解析度逐漸往越來(lái)越高分辨率發(fā)展,H.265編碼迎來(lái)了風(fēng)口。“高通是H.265標(biāo)準(zhǔn)的主要支持者和開(kāi)發(fā)者,其中多項(xiàng)技術(shù)都是由高通團(tuán)隊(duì)負(fù)責(zé)研發(fā)的。”ChienChung (CC) Chang介紹。
高通正致力于推動(dòng)中國(guó)主要的視頻供應(yīng)商和內(nèi)容制造者使用H.265標(biāo)準(zhǔn),意味著國(guó)內(nèi)的視頻壓縮技術(shù)水平能再向前邁進(jìn)一步。而在國(guó)外,隨著蘋(píng)果最新一代手機(jī)和電視使用H.265標(biāo)準(zhǔn),包括安卓手機(jī)在內(nèi)的其他手機(jī)制造商,以及包括Netflix和YouTube在內(nèi)的視頻內(nèi)容供應(yīng)商,都會(huì)迅速跟上這股潮流。
談完視頻,音頻自然必不可少,然而不論什么場(chǎng)景,音頻質(zhì)量最重要的一點(diǎn)是令人感到身臨其境的“臨場(chǎng)感”。聲音的臨場(chǎng)感不只來(lái)自于周?chē)?60度的環(huán)境,也來(lái)自四面八方,這些來(lái)源構(gòu)成了立體的三維空間,只有當(dāng)聲音以一種三維立體環(huán)繞的方式傳入耳朵時(shí),人們才會(huì)產(chǎn)生臨場(chǎng)感。
在這個(gè)過(guò)程中,如何通過(guò)麥克風(fēng)收集三維空間中的音頻信息,經(jīng)過(guò)壓縮后再傳輸?shù)搅硪贿叄⒉槐纫曨l壓縮技術(shù)簡(jiǎn)單。
高通研發(fā)出一項(xiàng)技術(shù)叫HOA(Higher Order Ambisonics,高階高保真立體聲)。在實(shí)際操作中,它虛擬設(shè)置了一個(gè)360度的球狀麥克風(fēng),麥克風(fēng)搜集不同方向的聲音,經(jīng)由一個(gè)虛擬的數(shù)學(xué)函數(shù)值對(duì)聲音進(jìn)行加權(quán),再把函數(shù)的加成值進(jìn)行壓縮,最后傳輸出去。所以,這個(gè)音頻文件可以利用很低的頻段傳輸。這是HOA的基本功能。
更重要的功能在于,經(jīng)過(guò)壓縮的聲音可以通過(guò)HOA技術(shù)在不同的環(huán)境里播放。例如,電視機(jī)只有兩個(gè)喇叭,汽車(chē)上有很多喇叭,而會(huì)議廳和音樂(lè)廳里有更多喇叭。有了HOA技術(shù),無(wú)論設(shè)備有多少個(gè)喇叭,都可以根據(jù)喇叭向四面八方播放,讓人產(chǎn)生身臨其境的感覺(jué)。
圖:HOA(Higher Order Ambisonics,高階高保真立體聲),沉浸式音頻的新標(biāo)準(zhǔn)
也就是說(shuō),假如你身處音樂(lè)廳,無(wú)論坐在什么位置,聽(tīng)的聲音都是一樣,都能感受到與收音最好的位置一樣的臨場(chǎng)感。該技術(shù)將來(lái)也能適用于VR眼鏡,即使觀眾不在現(xiàn)場(chǎng),也不影響試聽(tīng)享受。
超聲波指紋識(shí)別大行其道
指紋識(shí)別雖是如今手機(jī)的標(biāo)配,仍然有優(yōu)勝劣汰之分。ChienChung (CC) Chang說(shuō),目前智能手機(jī)大多使用電容式指紋識(shí)別,存在局限性:碰到手過(guò)于潮濕、不太干凈、抹完護(hù)手霜等情況,指紋識(shí)別的效果會(huì)變差。
在上一代Snapdragon Sense™ ID指紋技術(shù)基礎(chǔ)上,高通今年推出了新一代指紋傳感器,支持全新增強(qiáng)的特性,包括面向顯示屏、玻璃和金屬的傳感器、定向手勢(shì)檢測(cè)、水下指紋匹配和設(shè)備喚醒,是首個(gè)商用發(fā)布的集成式超聲波移動(dòng)解決方案。
這種技術(shù)的優(yōu)勢(shì)在于,超聲波可以穿透很高很厚的地方,可以透過(guò)玻璃面板和厚至 650 微米鋁材質(zhì)外殼實(shí)現(xiàn)掃描,即使手上有水也很容易識(shí)別出。
另外一個(gè)巨大的優(yōu)勢(shì)是,超聲波指紋識(shí)別可以說(shuō)是手機(jī)全面屏的前提。因?yàn)槟壳按蟛糠质謾C(jī)屏幕下方都有一個(gè)按鍵,用來(lái)指紋解鎖,電容式指紋識(shí)別技術(shù)無(wú)法安置在屏幕底下,也就無(wú)法摒棄屏幕下方的按鍵,而超聲波指紋識(shí)別因?yàn)榇┩感詮?qiáng)的原因,可以實(shí)現(xiàn)屏幕底下識(shí)別,即使全面屏也不在話下。
高通超聲波指紋識(shí)別還有一個(gè)優(yōu)勢(shì)在于,可以避免用戶的指紋被盜用。因?yàn)槌暡ㄒ笥脩舯仨氂檬种附佑|屏幕,而超聲波會(huì)深入皮膚下層,感應(yīng)到血液的流動(dòng),以此辨別手指和紙片的區(qū)別。符合美國(guó)FBI(美國(guó)聯(lián)邦調(diào)查局)標(biāo)準(zhǔn)。
ChienChung (CC) Chang透露,為了研發(fā)超聲波指紋技術(shù),高通與面板和屏幕制造商都達(dá)成了合作。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。
關(guān)注科技創(chuàng)新、技術(shù)投資。
以文會(huì)友,左手硬核科技,右手浪漫主義。