CNET科技資訊網(wǎng) 9月2日 北京消息(文/齊豐潤(rùn)): 百度世界作為每年一屆百度展示自己實(shí)力與成績(jī)的大會(huì),一直對(duì)于整個(gè)科技行業(yè)的熱點(diǎn)都有著引導(dǎo)的作用,在此次百度世界2016上自然也不例外。
2016年,人工智能成為了科技圈最大的焦點(diǎn)之一,在走過(guò)了大半年的時(shí)間之后,越來(lái)越多的行業(yè)應(yīng)用也讓我們看到了人工智能所蘊(yùn)含的潛力,而此次百度世界的主題也定位AI,圍繞著行業(yè)、應(yīng)用、發(fā)展、前景等多個(gè)方面進(jìn)行了全方位的闡述。
會(huì)議開(kāi)始,李彥宏一身正裝登上舞臺(tái)顯得氣場(chǎng)十足,在今年6月份的百度聯(lián)盟峰會(huì)上,李彥宏曾提出了“互聯(lián)網(wǎng)的下一幕”的概念,剛登上舞臺(tái),李彥宏就對(duì)這個(gè)概念做出了定義:“互聯(lián)網(wǎng)的下一幕就是人工智能”。
對(duì)于這樣的結(jié)論,李彥宏給出了解釋:“互聯(lián)網(wǎng)的發(fā)展在此之前已經(jīng)經(jīng)過(guò)了兩個(gè)非常重要的階段,第一個(gè)階段大概持續(xù)了十幾年的時(shí)間,就是我們講的PC互聯(lián)網(wǎng)階段。第二個(gè)階段是在最近四五年,我們把它叫做移動(dòng)互聯(lián)網(wǎng)的階段。對(duì)于中國(guó)市場(chǎng)來(lái)說(shuō),隨著上網(wǎng)人數(shù)越來(lái)越多,上網(wǎng)人口的滲透率越來(lái)越高,這意味著,未來(lái)互聯(lián)網(wǎng)的增長(zhǎng)不能再靠人口紅利來(lái)驅(qū)動(dòng)了,移動(dòng)互聯(lián)網(wǎng)的時(shí)代其實(shí)正在離開(kāi)我們,而能夠接替移動(dòng)互聯(lián)網(wǎng)的下一幕,自然是人工智能。”
人工智能對(duì)于百度意味著什么呢?李彥宏覺(jué)得是百度核心中的核心,就是百度大腦。百度大腦由人工智能算法、百度的計(jì)算能力以及數(shù)據(jù)三個(gè)部分組成,正是有了這三個(gè)部分,百度大腦才得以運(yùn)作起來(lái)。
在說(shuō)完了百度大腦的組成部分后,李彥宏又給出了在這些組成部分之下,百度大腦能夠?qū)崿F(xiàn)的四大功能:語(yǔ)音能力、圖像能力、自然語(yǔ)言理解能力、用戶畫像能力。
根據(jù)介紹,這幾個(gè)能力都是屬于人工智能中比較典型的應(yīng)用,但是它們的發(fā)展階段卻很不一樣。
語(yǔ)音技術(shù)現(xiàn)在已經(jīng)進(jìn)入了相對(duì)比較成熟的階段,在很多領(lǐng)域中都開(kāi)始進(jìn)入實(shí)用階段,識(shí)別的準(zhǔn)確率也已經(jīng)很高了,同時(shí)圖像技術(shù)最近幾年也有了長(zhǎng)足的進(jìn)展。這兩者都屬于人工智能當(dāng)中認(rèn)知的部分,所以深度學(xué)習(xí)的算法非常適合處理這些形式。
相對(duì),自然語(yǔ)言的理解或處理能力就更加難一些,還處在一個(gè)更加早期的階段。用戶畫像能力,其實(shí)從傳統(tǒng)意義上來(lái)講并不是人工智能的領(lǐng)域,但是由于近年來(lái)大數(shù)據(jù)的發(fā)展,再加上用人工智能和機(jī)器學(xué)習(xí)的方法,就可以把一個(gè)人的特征描繪得非常非常清楚。
作為目前人工智能最成熟的一部分功能,語(yǔ)音技術(shù)還可以被分為兩個(gè)方向,語(yǔ)音合成和語(yǔ)音識(shí)別。語(yǔ)音識(shí)別的應(yīng)用非常常見(jiàn),而且隨著技術(shù)的發(fā)展,準(zhǔn)確率也越來(lái)越高。
語(yǔ)音合成則與語(yǔ)音識(shí)別功能相反,機(jī)器可以把文字轉(zhuǎn)換成語(yǔ)音,并念讀出來(lái)。而且,今天的語(yǔ)音合成也可以用比較自然的人的聲音讀出來(lái),而不是像過(guò)去的機(jī)器一樣。據(jù)悉,目前百度每天要響應(yīng)2.5億次的語(yǔ)音合成請(qǐng)求,而這一功能也被應(yīng)用到了百度導(dǎo)航之中。
李彥宏表示:“百度大腦的語(yǔ)音合成能力可以讓每個(gè)人都有自己的聲音模型,只要按照要求說(shuō)50句話,百度大腦就學(xué)會(huì)了你說(shuō)話的方式,這些語(yǔ)音的能力會(huì)帶來(lái)各種各樣新的可能性。”
圖像技術(shù)在專業(yè)術(shù)語(yǔ)中又被稱為計(jì)算機(jī)視覺(jué),也是現(xiàn)在廣義的人工智能中非常重要的領(lǐng)域。除了應(yīng)用在準(zhǔn)確率高達(dá)99.7%的人臉識(shí)別中,計(jì)算機(jī)視覺(jué)也成為了百度無(wú)人車的重要組成部分。無(wú)人車的視野要比人類駕駛員好得多,這是站在車的角度所看到的世界。
除此之外,AR也是圖像識(shí)別的一個(gè)重要應(yīng)用,做到場(chǎng)景識(shí)別后,才能更好的跟用戶進(jìn)行交互和體驗(yàn)。
雖然成熟的不高,但也能夠?yàn)榇蠹規(guī)?lái)不一樣的體驗(yàn),度秘就是李彥宏拿出來(lái)的最好的例子。李彥宏讓度秘在現(xiàn)場(chǎng)實(shí)時(shí)解說(shuō)了一段籃球視頻,語(yǔ)言比較豐富,而且將球員的名字也都準(zhǔn)確地叫了出來(lái)。李彥宏說(shuō):“當(dāng)人工智能對(duì)于自然語(yǔ)言的理解一旦能夠達(dá)到一定程度,它又會(huì)打開(kāi)很多新的可能性。”
“用戶畫像是基于百度的大數(shù)據(jù)以及機(jī)器學(xué)習(xí)的方式所獲得的一個(gè)能力,現(xiàn)在我們已經(jīng)有接近10億的用戶畫像,其中已經(jīng)用到了千萬(wàn)級(jí)的細(xì)分標(biāo)簽。這些標(biāo)簽主要在兩個(gè)維度上體現(xiàn),一個(gè)是通用的維度,人口學(xué)特征、短期的意圖、位置屬性;另一個(gè)是垂直行業(yè)的特征,他在金融領(lǐng)域是什么樣的情況,他在保險(xiǎn)、醫(yī)療、旅游、健康等領(lǐng)域都有什么樣的愛(ài)好、習(xí)慣,這些東西都共同構(gòu)成了我們的用戶畫像。”
用戶畫像在應(yīng)用中可以將用戶打上標(biāo)簽,并將這些標(biāo)簽組合后描畫出來(lái),針對(duì)每一個(gè)不同的個(gè)體,做到億人億面,更準(zhǔn)確地找到受眾群體,創(chuàng)造出真正的效益。
演講最后,李彥宏還表示,“百度大腦擁有各種各樣的能力,如果這些能力賦予到全社會(huì)的每個(gè)人,它能夠變換出來(lái)無(wú)窮無(wú)盡的可能性。有了這樣的能力,將給各行各業(yè)的人群帶來(lái)過(guò)去大家做不到的、不敢想的能力。”
同時(shí)李彥宏還表示,百度大腦會(huì)把語(yǔ)音、圖像、自然語(yǔ)言理解和用戶畫像等能力完全開(kāi)放出來(lái),在大多數(shù)情況下免費(fèi)提供這些能力。
在李彥宏的演講結(jié)束后,百度首席科學(xué)家吳恩達(dá)也上臺(tái)進(jìn)行了演說(shuō),不過(guò)相比于李彥宏的應(yīng)用流派,吳恩達(dá)所帶來(lái)的則是對(duì)未來(lái)的分享。
演講開(kāi)始,吳恩達(dá)就表示,百度是一家人工智能公司,其旗下的眾多重要產(chǎn)品都依賴于人工智能技術(shù)。“人工智能能做什么?第一,假如有一件事是一個(gè)正常人可以一秒以下做到的,也可以使用人工智能來(lái)自動(dòng)做。第二,假如在一個(gè)具體重復(fù)發(fā)生的事情中,你可以拿到海量數(shù)據(jù),并可以用這些數(shù)據(jù)來(lái)預(yù)測(cè)下一次的結(jié)果,那么人工智能也能做到。”
吳恩達(dá)的演講從始至終都圍繞著他帶來(lái)的“三件禮物”展開(kāi),第一件是百度語(yǔ)音技術(shù)的應(yīng)用,一款叫做百度語(yǔ)音輸入法的APP,這款輸入法兩個(gè)月后會(huì)上線,從現(xiàn)場(chǎng)演示視頻來(lái)看,它表現(xiàn)更像是一款智能語(yǔ)音助手,但功能顯然要更豐富得多。
第二和第三件禮物分別是開(kāi)放百度深度學(xué)習(xí)平臺(tái)以及開(kāi)放百度大腦平臺(tái),從這兩點(diǎn)中我們可以看出,未來(lái)在人工智能方面,百度希望作為一個(gè)技術(shù)輸出的角色,為更多的企業(yè)和開(kāi)發(fā)者提供技術(shù)支持。
吳恩達(dá)在演講的最后表示:“今年百度世界大會(huì)的主題是AI is the new electricity,一百年前電力為人類帶來(lái)很大改變,今天人工智能也會(huì)對(duì)行業(yè)帶來(lái)一樣大的改變,我希望百度的人工智能技術(shù)可以幫助大家改變行業(yè)、改變社會(huì),也希望我們可以協(xié)助你走進(jìn)人工智能時(shí)代。”
以下是李彥宏、吳恩達(dá)的演講內(nèi)容全文:
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。