CNET科技資訊網(wǎng) 1月9日 特別報道(文/周雅):當你把宜家產(chǎn)品目錄置于地上,嗖,一個3D虛擬的草綠色宜家沙發(fā)出現(xiàn)了,然后你慢慢后退,發(fā)現(xiàn)這個沙發(fā)與背后真實的窗簾顏色很搭,與周邊柜子的距離也恰到好處。你再試著用兩個手指旋轉(zhuǎn)宜家沙發(fā),發(fā)現(xiàn)或許它換個朝向更合適落座……不用把這些產(chǎn)品搬到家里,用手機應用就可以掃出搭配,免得買回家發(fā)現(xiàn)不合適。
這僅是AR在消費端應用的一個小例子。從游戲、早教、醫(yī)療到各種工業(yè)制造,AR無處不在,而讓AR能夠沉浸到行業(yè)應用,則是像Vuforia這樣的公司正在做的事情。
CNET近期采訪了PTC公司Vuforia總裁兼總經(jīng)理Jay Wright,“在市面上AR/VR類應用中,Vuforia公司的市場份額已超過了75%”,而其中很多應用,已經(jīng)在市面上商用了。
PTC公司Vuforia總裁兼總經(jīng)理Jay Wright
現(xiàn)在,Vuforia是PTC的一家子公司,在2015年10月份,PTC以6500萬美元的價格收購了Vuforia。Vuforia既做軟件,也為智能眼鏡、平板、智能手機等硬件廠商提供AR解決方案,覆蓋iOS、安卓、Windows10等全平臺操作系統(tǒng),當開發(fā)者開發(fā)出基于Vuforia的應用之后,不管是小米手機、聯(lián)想手機還是蘋果的iPhone,都能兼容。
正如蓋房子中的地基部分,Vuforia的使命就是要做一個增強現(xiàn)實開發(fā)技術(shù)的推手——開發(fā)出各種AR應用的底層技術(shù)模塊,橫跨不同的應用領(lǐng)域、應用場景和硬件平臺。
用Jay Wright的話來說,Vuforia每進入一個產(chǎn)業(yè)鏈,就給這個產(chǎn)業(yè)按上一雙“電子眼”,換個角度“看見”這個世界,可以識別平面,可以透視立體,可以解讀事先編制的符號,然后用更酷炫的方式跟它進行交互。
說到立體交互,當下既有VR,又有AR,虛擬與現(xiàn)實,難免“傻傻分不清楚”。
實際上VR和AR有一個非常大的技術(shù)重疊,特別是在頭戴的體驗上:一方面是虛擬模型,兩者的開發(fā)流程類似,都是要布置場景;第二特別是在戴眼鏡的時候,有一個頭部動作的追蹤,這個是AR和VR都需要的。
除此之外就很不一樣了。VR基本上就是切斷你與周圍現(xiàn)實世界的聯(lián)系,把你置身于一個完全虛擬的環(huán)境中,給你一種沉浸式的體驗。這也是為什么VR體驗往往更多的用于娛樂端,比如說游戲和視頻直播;或者生產(chǎn)環(huán)節(jié),比如做產(chǎn)品評審,必須走進去看看內(nèi)部的構(gòu)造。
Jay Wright指出,AR是基于現(xiàn)實的,所以需要一個設定的環(huán)境,在這個環(huán)境里去增強一部分信息。因此,AR應用的場所和機會更多,市場空間更廣闊。比如,智能眼鏡能帶來更具顛覆性的AR體驗,其關(guān)鍵在于取代現(xiàn)有的各種屏幕,構(gòu)成所謂的第五屏或是第六屏,從而呈現(xiàn)虛擬和現(xiàn)實的重合疊加。
舉例AR在寶馬展示中的應用,當用AR應用識別地上的目標物之后,這個屋子就變成了一個4S店,真車大小的一個模型就出來了,你甚至可以模擬打開它的車門,踩踩油門,進行一種交互體驗。
換句話說,以后就也許不需要筆記本電腦、顯示屏、投影儀等媒體了。人們既看實景,又看虛擬部分,用手勢等方式進行交互。但是這些技術(shù)并不是一蹴而就的,需要一個很長的循序漸進。
這個循序漸進的過程就是AR不斷發(fā)展的過程。比如很多人都感興趣的微軟HoloLens,作為一款AR設備,它提出的是概念是體積感知。“感”是靠傳感器感應,“知”是知道平面或立面,有縱深,有起伏。這只是一個層次。更高級層次就要靠識別,“識”是要有先驗知識,“別”是像我們用二維碼的信息,能分辨出不同的個體——以上,這就是理解層次不斷上升的過程。
僅僅是為了娛樂,AR就顯得膚淺了,其實AR最能體現(xiàn)價值的地方,則在制造業(yè)領(lǐng)域,這一點卻往往被人們忽視,用Vuforia的技術(shù)開發(fā)工業(yè)端的應用,才是Vuforia的精髓所在。
工業(yè)應用強調(diào)一個持續(xù)交互、按步驟進行指南的過程,要把一個非常復雜的過程用AR這種方式簡單地表現(xiàn)出來,讓操作者跟著程序走,就能夠準確無誤地完成一項操作。Vuforia與一個電動公交車公司的合作就能解釋這一點,公交車定期維護修理的過程中,經(jīng)常要做的是配電箱維護的操作,但是配電箱里到處是高壓高容量的電阻絲和電子器件,復雜而危險,而培訓的環(huán)節(jié)就使用了AR技術(shù),這樣所有的步驟操作,包括要更換的電阻絲,都以三維模型的方式非常精準地疊加在實物上,不用死記硬背,看著它進行操作,就能準確無誤地完成。
Jay Wright認為Vuforia在工業(yè)應用上的強項主要是兩點。第一是模型,模型來源自PLM,這是一個在線系統(tǒng),可以確保實時、最新的模型被隨時獲取,并非常容易地導入到AR的開發(fā)環(huán)境里;另外一個是物聯(lián)網(wǎng),來自于互聯(lián)網(wǎng)的動態(tài)信息可以最實時、最準確地反映到AR的開發(fā)過程中,同時非常簡便地生成AR的內(nèi)容,并且在移動端通過Vuforia 應用進行瀏覽。整個這個環(huán)節(jié)都統(tǒng)統(tǒng)的被Vuforia的一套工具打通,被認為是業(yè)界的一個創(chuàng)舉。
而AR面臨的一個挑戰(zhàn)是,硬件沒跟上。比如工業(yè)特別是制造業(yè)當中,最關(guān)心的是要解放工人的雙手,讓他看著指示進行相應的操作,那么這些體驗一定要在眼鏡這個新硬件平臺上進行,然而AR眼鏡還遠沒有成熟到真正可以量產(chǎn)的階段,這是一個很大的課題。
由于AR應用的不斷延伸,AR開發(fā)者隊伍也在逐漸壯大。
Vuforia在全球大概是30萬注冊開發(fā)者,中國占了12%,今年中國注冊開發(fā)者的總?cè)藬?shù)在去年一年翻了一番,這是非常強的勁頭,背后的原因當然是AR/VR在中國的火爆。
在技術(shù)層面的訴求上,中國和其他國家地區(qū)沒有什么區(qū)別,但Jay Wright覺得,在市場方面,中國有非常強勁的上升勢頭,這個是在其他國家都觀測不到的情況,這是一個爆發(fā)性的趨勢:“Vuforia用戶社區(qū)中,很大一個推動力來自中國,占整個下載量逾23%,超越了美國,也超越了歐洲全體。在2016年,中國用戶的人數(shù)翻了一番。”
在消費端市場,AR即將變成一種主流的體驗方式。就像前段時間現(xiàn)象級的AR游戲Pokemon Go,它的出現(xiàn)快速地啟發(fā)人們,讓大家都明白了什么叫AR,這種現(xiàn)象級的事件把AR確立成為一種主流體驗模式。
中國隨之產(chǎn)生了很多AR的產(chǎn)業(yè)熱點。比如在玩具行業(yè)里,一個新趨勢就是把游戲和早教結(jié)合,這個領(lǐng)域涌進來中國本土的一些初創(chuàng)團隊。比如央數(shù)文化公司的“小熊尼奧”產(chǎn)品,它是最早的AR卡片產(chǎn)品,掃描每個卡片,會騰空出現(xiàn)一些動物形象,跟著出現(xiàn)這個動物的中英文名稱,幫助小朋友學習?,F(xiàn)在,小熊尼奧往前又走了一步,不光做閃卡,還做了一個專用的AR設備,專給兒童打造的尼奧放大鏡,所以小孩自己就可以愉快的學習了。
產(chǎn)業(yè)熱點很多,圍繞這些熱點所要產(chǎn)生的商業(yè)模式,才是圈里人更關(guān)心的問題。Vuforia做了一些探索,Vuforia目前是一個復合型的商業(yè)模式,并非完全單一的所謂銷售分成的模式,也不是每個應用都收取授權(quán)費的模式。
比如一般的營銷工具,在很多情況下,大家在Vuforia網(wǎng)上直接買一個一次性499美金的應用授權(quán)就可以了。還有其他一些情況,比如玩具廠商,通過AR的技術(shù)已經(jīng)獲取新的價值增長點,此時Vuforia的授權(quán)方法就轉(zhuǎn)變成了一種類似于銷售分成的手段,大致可理解為在玩具銷售收入中收取提成費。
從這個角度延伸來看,AR的發(fā)展空間很大。Jay Wright預測AR市場前景分兩個部分——手機或者是平板這種傳統(tǒng)終端設備上的AR技術(shù),實際上已經(jīng)到了開始普及的前沿階段,到2017年或后年,AR技術(shù)將迎來大提升。但頭顯類的AR,則需要更長時間,它的爆發(fā)點應該是在企業(yè)端,一是因為企業(yè)端的用戶支付意愿強,有利于變現(xiàn);其次因為企業(yè)用戶要求酷炫的程度低一些,硬件還比較貴,需先在企業(yè)端進行迭代,此后才演進到消費端。
“企業(yè)端AR普及的起爆點,是新設備的產(chǎn)生,2017年人們將看到不少新設備出現(xiàn),從而加速AR推廣的進程。”Jay Wright做出保守估計,“AR工業(yè)端的成熟需要3到5年,而要傳到消費端,則需要5到10年的演進過程。”
根據(jù)這個數(shù)字,一言以蔽之,AR雖屬于前沿技術(shù),但是基于現(xiàn)實,借著人工智能的發(fā)展勢頭,爆發(fā)期或許比任何人預想的要早,很多難題現(xiàn)在還未解決,但是大家正在解決。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。
關(guān)注科技創(chuàng)新、技術(shù)投資。
以文會友,左手硬核科技,右手浪漫主義。