CNET科技資訊網(wǎng) 7月6日 北京報道(文/周雅):上周,關(guān)于阿里巴巴旗下人工智能實驗室(A.I. Labs)誕生的消息不脛而走,殊不知該實驗室早在2016年低調(diào)成立。昨天下午,這個專門研發(fā)消費級AI產(chǎn)品的實驗室高調(diào)推出研發(fā)的第一款智能語音終端設(shè)備——天貓精靈X1,內(nèi)置阿里第一代人機(jī)交流系統(tǒng)——AliGenie。
現(xiàn)場,阿里人工智能實驗室負(fù)責(zé)人淺雪兩句開場白,道出阿里入局智能語音助手市場的初衷:
“語言是人與人之間最主要的溝通方式,也應(yīng)該是人與另外一種智能進(jìn)行交流的主要方式。”“云端一體化帶來的趨勢是高度智能化,智能終端需要一個比手機(jī)觸屏更強(qiáng)大的人機(jī)交互方式。”
智能語音群龍紛爭
自從亞馬遜Echo、谷歌Home、微軟Invoke、蘋果HomePod、京東和科大訊飛的“叮咚”系列、百度的“小魚在家”相繼問世,加上項目代號為Vega的三星智能音箱也在緊鑼密鼓的研發(fā)中。語音交互市場為人工智能時代添了一把火。
我們不禁要問,玩家之多,投入之大,當(dāng)中原因是什么?
如淺雪所言,上個世紀(jì)90年代dos系統(tǒng),是一個黑底白字字符界面,敲著鍵盤打著代碼是常態(tài);隨后比爾蓋茨的Windows震驚世界,一個操作系統(tǒng)加上多任務(wù)的可視化窗口,可以讓溝通更簡單;十年前,喬布斯告訴大家,人類其實有一個天然的操作工具就是雙手,于是觸屏的iPhone一代誕生;十年之后,人工智能告訴我們,人和物的交互其實可以解放雙手。
究其原因是因為,人工智能時代,機(jī)器和人類都在加深了解,對于機(jī)器來說,通過不同方式理解人,難度不同。例如,智能手機(jī)可以視為人工智能1.0時代的產(chǎn)物,它和人類的交流方式就是把所有的選項都呈現(xiàn)在屏幕上讓人類指導(dǎo)。但顯然,無論是遙控控制還是APP化的觸摸點按的操作,都不是最理想的交互方式,并不適用于所有人群,比如,中老年群體使用手機(jī)更多的用作交流。
阿里巴巴深諳其道,認(rèn)為語音是最早最原始的信息交流渠道,與圖像、動作并為公認(rèn)的三大交互方式。
而家居環(huán)境的屬性使得語音成為最合適的交互方式,智能語音應(yīng)用主要圍繞智能電視、冰箱、音箱、家用機(jī)器人展開,解決的需求包括搜片、搜歌、提醒、簡單交互、應(yīng)用調(diào)取等等。
細(xì)觀全球市場,亞馬遜并不是最早推出語音助手的,或者也不是在人工智能領(lǐng)域的技術(shù)實力最強(qiáng)的,甚至在硬件產(chǎn)品的研發(fā)上并非第一,開發(fā)者生態(tài)建設(shè)更不是佼佼者,但echo的成功至少說明了兩點:
1、這是一個全新的市場;
2、除了技術(shù)實力和硬件研發(fā)制造能力之外,在語音助手領(lǐng)域,對后段商業(yè)和服務(wù)生態(tài)的整合能力決定了競爭的寬度,實則更高門檻。
從這個角度反觀中國市場,如果以“智能音箱”這個品類看,毫無疑問音樂內(nèi)容的豐富是最重要的,但如果是“智能語音助手”這個品類,對后端商業(yè)和服務(wù)的整合能力是關(guān)鍵。
阿里的入局
這正是阿里巴巴的思路。天貓精靈X1除了具備語音控制音樂和音頻內(nèi)容播放等功能外,還通過AliGenie接入了眾多生活服務(wù)。目前已經(jīng)達(dá)成的合作伙伴包括美泰、KEEP、西溪天堂綜合體、優(yōu)酷、高德地圖、淘票票、支付寶、蝦米音樂、天貓超市、菜鳥裹裹、喜馬拉雅FM、淘寶網(wǎng)、阿里智能聯(lián)盟、阿里數(shù)娛、天貓魔盒、繪兒樂、吳曉波頻道、飛豬、盒馬鮮生等。
說一聲“天貓精靈”,就可以召喚云端的AliGenie提供服務(wù),播音樂、聽故事、講笑話、查運勢、玩游戲、查天氣、找手機(jī)、問百科、設(shè)鬧鐘/定時器、充話費、查快遞、查價格、天貓魔盒控制、智能家電操控,樣樣拿手,功能還將隨著開發(fā)者的入駐而增加。依靠阿里云機(jī)器學(xué)習(xí)技術(shù)和計算能力,AliGenie能不斷進(jìn)化成長,越用越聰明。
“天貓精靈,蘋果的熱量是多少?”——“每一百克可食部分為54卡。”
“天貓精靈,我的手機(jī)在哪里?”——“正在搜尋你的手機(jī)。”
“天貓精靈,給我手機(jī)充值100元。”
“天貓精靈,買一箱可樂。”
……
這一幕同樣發(fā)生在當(dāng)天,天貓精靈X1首席產(chǎn)品體驗官、zealer中國創(chuàng)始人王自如和天貓精靈X1的互動場景,知無不言言無不盡的天貓精靈十分討喜。
天貓精靈X1和AliGenie背后,由阿里巴巴人工智能實驗室坐鎮(zhèn),基于阿里語音識別、自然語言處理、人機(jī)交互等技術(shù)。其中,阿里人工智能實驗室正在對聲紋識別、聲紋購、NLP中文對話引擎等核心技術(shù)申請專利。
天貓精靈X1外觀圓柱形,有黑白兩種配色,直徑83毫米,頂部中央配有一枚靜音鍵,一觸發(fā)此鍵,X1立刻暫停,以保證用戶隱私。X1底部設(shè)計一圈隱藏指示燈,會通過聲音判斷用戶方位,亮起燈光以示提醒,燈光還會根據(jù)不同使用功能和場景配合進(jìn)行提示。
配置方面,X1采用SmartAudio專業(yè)處理芯片,相比此前市面上的主流芯片,處理效率提升25%,功耗降低32%;搭載了6麥克風(fēng)環(huán)形陣列,在家庭環(huán)境下支持5米范圍語音識別。
X1還具備一定的自我學(xué)習(xí)功能,可以根據(jù)環(huán)境噪音進(jìn)行優(yōu)化,適應(yīng)不同家庭環(huán)境噪音。
考慮到中文語義環(huán)境的復(fù)雜性,阿里人工智能實驗室通過眾包平臺等方式,征集生活中的各種生活場景所需要用到的語義問法,僅天氣預(yù)報就能夠理解786種中文問法,通過深度學(xué)習(xí), X1已覆蓋20個領(lǐng)域的中文自然語義理解,能夠理解人類80%的意圖。
這套語義理解系統(tǒng)還帶有記憶功能和總結(jié)歸納能力,加上模擬的“長期記憶”和“短期記憶”功能,更容易理解用戶。除此之外,阿里人工智能實驗室還已經(jīng)著手其他多個語種的研究。
這背后是大量的數(shù)據(jù)積累,以及遠(yuǎn)程計算能力的提升。
X1可以通過聲紋識別技術(shù)分辨家里的每一個人。淺雪介紹,聲紋識別技術(shù)是生物識別的重要識別手段之一,結(jié)合服務(wù)鏈多重安全機(jī)制,已達(dá)到商用的級別。這也是阿里在語音深度學(xué)習(xí)領(lǐng)域的核心技術(shù)之一。
天貓精靈目前最多可以識別6個人的身份。通過個性化推薦,聲紋識別在辨別出使用者的身份后還能夠?qū)崿F(xiàn)“千人千面”,根據(jù)每個人的喜好設(shè)定和推送不同的內(nèi)容。
比如,聲紋識別技術(shù)可以應(yīng)用到一些購物場景中。用戶先將自己的聲音注冊后生成聲音密碼,與機(jī)器綁定后,確認(rèn)開啟聲紋購功能。隨后,當(dāng)說出 “幫我買一箱牛奶”這樣的需求時,天貓精靈會要求用戶跟著念一串隨機(jī)數(shù)字進(jìn)行聲紋校驗,如果確認(rèn)為用戶本人,天貓精靈會從用戶綁定的支付寶中進(jìn)行扣款完成交易。
AliGenie開發(fā)者平臺主要面向四種類型的開發(fā)者,包括內(nèi)容開發(fā)者、應(yīng)用開發(fā)者、智能家居開發(fā)商和硬件生產(chǎn)商。
(1)向應(yīng)用開發(fā)者免費開放NLP語義理解、TTS語音合成等多項自然語言處理技術(shù)。開發(fā)者既可以創(chuàng)建技能,為更多的語音用戶提供服務(wù),也可以將自己的設(shè)備接入云端服務(wù),獲取語音交互能力。
(2)針對內(nèi)容創(chuàng)作者,AliGenie還提供了語音公眾號功能,開發(fā)者只需將語音或文字上傳至后臺就可以完成應(yīng)用的創(chuàng)建和發(fā)布,文字將通過語音合成引擎轉(zhuǎn)換為語音,用戶可以通過訂閱實現(xiàn)定時播放、點播,開發(fā)者也可以進(jìn)行主動推送,或聯(lián)合其他應(yīng)用進(jìn)行深入集成,組合播放。
(3)為硬件制造企業(yè)準(zhǔn)備了單麥克風(fēng)到多麥克風(fēng)陣列的參考設(shè)計方案,并提供包括喚醒詞定制,聲學(xué)結(jié)構(gòu),核心電路設(shè)計和芯片方案在內(nèi)的相關(guān)套件的參考設(shè)計,以及云端服務(wù)和應(yīng)用管理所必要的全套工具和用戶APP SDK組件。接入的硬件設(shè)備能夠快速具備人機(jī)語音交互能力,并共享應(yīng)用商店的所有應(yīng)用技能。
按照阿里的邏輯,除了技術(shù)的開放外,生態(tài)的開放合作也重要。目前,天貓超市、菜鳥、KEEP等已推出基于天貓精靈X1的語音應(yīng)用,用戶只需動動口就可以完成話費充值、購買商品、健身語音提示等服務(wù),很快還將上線打車、叫外賣、叫保潔等服務(wù)。開發(fā)者可以自由發(fā)揮。
現(xiàn)場,阿里人工智能實驗室也公布了首個硬件開放合作伙伴:將與國際玩具巨頭美泰合作探索其旗下主要核心IP的合作開發(fā)機(jī)會,如費雪、芭比、托馬斯和朋友等智能玩具。
除了生態(tài)的開放合作,后續(xù)的場景植入也關(guān)鍵。阿里目前已經(jīng)或正在拓展的行業(yè)解決方案涉及六個方面,包括兒童領(lǐng)域、酒店領(lǐng)域、家庭場景、TO B其他商業(yè)場景、線下零售場景以及與其他顯示設(shè)備結(jié)合的場景。
天貓精靈X1于7月5日開始進(jìn)行限量公測,8月8日將進(jìn)行首批正式發(fā)售,定價人民幣499元。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。