CNET科技資訊網 7月5日 北京消息(文/周雅):在今天百度AI開發(fā)者大會上,百度度秘事業(yè)部的總經理景鯤一上場,接連從口袋里掏出了三款DuerOS開發(fā)套件和一款硬件參考設計。比景鯤的“魔術”更神奇的,就是他變出來的這些開發(fā)套件。“只要接一個電源,接一個麥克風,就可以讓你身邊的家電設備‘說話’了。”
百度人工智能操作系統(tǒng)DuerOS于今年1月在CES上推出。在百度的官方定義中,DuerOS 是一個“開放平臺”,一種承載新技術應用的生態(tài)系統(tǒng)。
DuerOS開放平臺,包括智能設備開放平臺和技能開放平臺。而支撐這兩個平臺的則是DuerOS對話核心系統(tǒng),通過幫助開發(fā)者最大程度降低對話式人工智能系統(tǒng)的應用門檻,實現(xiàn)“喚醒萬物”。
在景鯤看來,喚醒萬物的核心三要素在于:聽清,聽懂和滿足。
1、聽清是喚醒萬物的第一要素。目前,百度語音識別準確率達到97%,百度深度語音識別系統(tǒng)Deep Speech2入選MIT 2016十大突破性技術。但這些語音技術在AI時代還遠遠不夠。景鯤表示,“百度還做了非常多先進的技術,包括麥克風陣列、回聲消除、語音喚醒、遠場識別等,并將這些技術根植入家庭場景、移動場景、車載場景,實現(xiàn)用戶聽清的需求。”
2、DuerOS是最能聽懂用戶的開放平臺,而數據多和技術深成為DuerOS聽懂用戶的重要支撐。數據層面,百度擁有億級用戶請求、十億級的知識圖譜實體、語音調用和音頻數據、千億的圖片和網頁等數據;技術層面,百度在深度學習、自然語言處理技術、多輪對話技術、搜索技術等方面具有深厚的實踐經驗積。
3、聽懂并滿足“聽一首某某的歌”這樣的用戶需求還不夠,真正用戶想要的是更自然、更復雜的需求,比如“我要聽我手一杯品嘗你的美這首歌”,比如“想聽哥哥的歌”,只有把用戶在真實場景中表達的復雜請求做好,才能真正做出一個真正聽懂用戶需求的產品。
景鯤說,“‘聽懂’的目標,就是要FreeStyle,讓用戶最自然地跟設備進行交互,毫無拘束。”他現(xiàn)場演示了利用DuerOS的多輪交互過程,這種交互只有百度的技術才能驅動。通過連續(xù)發(fā)問:“找一找本地人氣最火爆的家常菜”、“雍和宮附近有嗎”、“第二家有什么推薦菜”、“有wifi嗎”、“好停車嗎”……多輪連續(xù)展開的對話,景鯤都得到了答案。
為了更好地“喚醒萬物”,百度宣布將全資收購KITT.AI,并將智能設備語音喚醒和自然語言處理等核心能力免費開放,賦能合作伙伴。KITT.AI是一家專注于語音喚醒和自然語言理解的人工智能創(chuàng)業(yè)公司,在2017年1月入選了CB Insights公布的“最值得關注的100家人工智能公司”,曾獲得亞馬遜Alexa和AI2(微軟聯(lián)合創(chuàng)始人保羅阿倫)的投資,擁有世界領先的人工智能技術。
“在聽清聽懂的基礎上,也需要有優(yōu)質豐富的資源來滿足用戶的需求。”景鯤介紹說,DuerOS將為開發(fā)者提供最容易上手的軟硬件一體化解決方案,包括多樣化的開發(fā)套件和完全開放的參考設計:
1、搭載樹莓派,利用科勝訊技術的個人版。即刻申請就可以搭載一個個人可以對話的語音設備。
2、輕量版。把一元錢大小的芯片放在任何一個設備里面,設備就可以對話。
3、標準版。兩麥、四麥、六麥、八麥的標準版都可以即刻申請。
4、完整一體化的參考設計。如開放電路板設計、開放結構設計、開放麥克風陣列等等。
手機、電視、冰箱等任何設備,都可以搭載DuerOS,變成一個能“聽懂”的設備。
個人開發(fā)者杜志鵬現(xiàn)場講述的故事,也印證了設備開放平臺非常容易上手。這位來自深圳的電子工程師利用DuerOS的開發(fā)套件,將外甥的樂高玩具改造成為會說話的智能玩具。
來自度秘的百度工程師羅興現(xiàn)場演示了“如何將百度DuerOS的能力接入搭載Alexa的Anker音箱”,展示了智能設備開放平臺的便捷性。羅興通過十七行代碼,用1分鐘的時間,讓原本只會英文的音箱馬上變得能聽懂中國話。
景鯤表示,“目前很多公司都在做智能音箱,而百度通過打造AI時代的安卓——DuerOS,讓每個人,無論你是大公司還是小公司,甚至普通開發(fā)者,都能夠以低門檻打造屬于自己的智能語音交互設備。”
目前,百度DuerOS已經與中信國安廣視、小魚在家、美的、海爾、聯(lián)想、HTC等企業(yè)達成合作,將DuerOS的對話能力應用到多個生活場景。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數據集和MM-AlignBench評測基準,通過創(chuàng)新的數據生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經網絡技術,通過學習40年歷史數據掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。