2017年3月9日上海AWE,物聯(lián)網(wǎng)第三方云服務(wù)第一品牌機智云發(fā)布人工智能產(chǎn)品機智瑪莉。機智瑪莉是通過多維度感知(Sensor Fusion) 與深度學(xué)習(xí) (Deep Learning) 技術(shù)的支撐,在生態(tài)智能 (Smart Home-Ecosystems) 理論框架之下實現(xiàn)的新一代智能家居服務(wù)平臺。
機智云總經(jīng)理黃錫雄接受記者采訪時表示:“機智瑪莉是基于機智云基礎(chǔ)服務(wù)的一個平臺服務(wù),她能夠幫助家電企業(yè)訓(xùn)練出一個能夠像人一樣理解客戶需求,并提供設(shè)備服務(wù)推薦的智能管家,接入機智云的智能家電企業(yè)可以根據(jù)自己的需求進行定制。機智云接入全球眾多品牌、多品類的設(shè)備,我們以生態(tài)的方式實現(xiàn)用戶真正需要的智能家居。”
要訓(xùn)練出這種智能管家,首先需要賦予她一般人所具備的基礎(chǔ)感官能力,例如視覺,機智云這次AWE展示的AR虛實結(jié)合控制技術(shù)用到的就是基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network) 實現(xiàn)的圖像識別能力,無論對于一般物體,或是人,甚至是小到人的動作手勢,機智瑪莉都能在毫秒級精確地進行識別。
除了視覺,機智瑪莉還有良好的聽覺。目前是結(jié)合科大訊飛的語音引擎(Speech To Text)和機智云獨有的基于智能家居的語義引擎(Semantic Engine),機智瑪莉能高效準確的理解用戶說話的含義,隨心所欲地跟家庭里的智能設(shè)備進行語音互動。
但是光有感官能力并不是一個完整的人,人還需要有感知能力。例如知道你是誰,你喜歡什么,最重要的是知道你想做什么。機智瑪莉具備優(yōu)秀的多維度感官能力,能處理來自攝像頭、Wi-Fi Beacon、多普勒和紅外體感等各種傳感器的數(shù)據(jù),能感應(yīng)用戶在哪里,或者是在做什么動作。機智瑪莉?qū)崿F(xiàn)和人一樣的能力,需要五個方面的數(shù)據(jù)進行支撐。
首先是用戶數(shù)據(jù),機智瑪莉需要區(qū)分并識別出,用戶是誰、和誰在一起、曾發(fā)出過什么指令或者操作過什么設(shè)備?,F(xiàn)階段通過多普勒傳感器、視覺識別與Wi-Fi Beacon等技術(shù),機智瑪莉能很好地獲取這些數(shù)據(jù)。
其次是地點數(shù)據(jù),這個地點指的是準確的地點,例如地點是在哪個房間,是臥室還是大廳。機智瑪莉通過多維度感知,通過設(shè)備與設(shè)備之間Wi-Fi Beacon的相對數(shù)據(jù),利用算法得知他們之間的物理位置關(guān)系,然后通過設(shè)備特性,估算出所在房間的特性,例如有電視的房間一般是臥室或者客廳。這樣無需用戶自己配置場景設(shè)備,瑪莉就能感知這個地點在哪里,有什么設(shè)備,屬于什么功能區(qū)。
然后就是情景數(shù)據(jù),就是做什么。機智瑪莉獲取了用戶與地點數(shù)據(jù)之后,加上時間數(shù)據(jù),整合起來就能夠通過深度學(xué)習(xí)的方式,還原部分情景,例如早上用戶在洗手間,一般是在洗漱,或者工作日9點用戶離家就是去上班等等。當然用戶也可以通過語音等交互方式告訴智能管家(機智瑪莉),她現(xiàn)在在哪,想要做什么。
有了以上三個方面的數(shù)據(jù),接下來就是確定服務(wù)數(shù)據(jù),就是這個人,在這個地點,要做這個事情,需要什么服務(wù)來支撐。用戶需要的家居服務(wù)由設(shè)備提供,例如空調(diào)可以提供三種服務(wù):制冷、制熱、過濾空氣,又或者制熱這個服務(wù)可以同時有空調(diào)或者取暖器提供。所以智能管家首先會理解用戶到底想要什么樣的服務(wù),而不是直接判斷用戶需要操作什么設(shè)備。
最后是設(shè)備數(shù)據(jù)。確定了服務(wù),還要根據(jù)所在地點所存在的設(shè)備來實現(xiàn)這個服務(wù)。機智云總經(jīng)理黃錫雄補充:“這個對于機智云來說是最熟悉的領(lǐng)域了。因為這么多年來,機智云積累了大量項目經(jīng)驗,對各類設(shè)備的特性,包括傳感器獲取的數(shù)據(jù)和所能提供的服務(wù),以及背后的邏輯,都有一個很深刻的理解與認知。”
基于以上五個方面多個維度的數(shù)據(jù),機智云的智能管家系統(tǒng)就能像一個人一樣理解用戶的指令了。例如用戶說“我想更暖和一點”,機智云就開始獲取以上說到的數(shù)據(jù),例如她是誰,在哪里的哪個房間,她現(xiàn)在可能在做什么,她對“一點”的定義到底是1度、5度還是10度,加熱這個服務(wù)是由空調(diào)、取暖器還是地熱提供,還是一起提供。全部運算完畢后,管家會通過詢問的方式來與用戶確認,例如跟用戶確認“是否需要打開空調(diào)并調(diào)至28度?”
不過,在初期的時候這個管家可能會讓人覺得比較“笨”,什么都要問,這是因為深度學(xué)習(xí)需要訓(xùn)練集來優(yōu)化她的學(xué)習(xí)結(jié)果,先通過對話跟用戶確認服務(wù)目的,因此在經(jīng)過不斷的訓(xùn)練后,她會變得越來越聰明,未來用戶可能只需要通過一個手勢或者眼神,機智瑪莉就會默契地為用戶做好一切。
機智云作為國內(nèi)最大的第三方物聯(lián)網(wǎng)云服務(wù)平臺,具有跨國內(nèi)外先進品牌、眾多品類的接入能力和運營能力,打造生態(tài)化的智能用戶體驗有先天的優(yōu)勢。通過這樣的一個平臺服務(wù),機智云希望為廣大家電企業(yè)訓(xùn)練出既有企業(yè)特色,又符合消費者需求的智能管家,讓智能家居真正在主流消費人群中普及起來。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。