CNET科技資訊網(wǎng) 9月2日 北京消息(文/齊豐潤): 百度世界作為每年一屆百度展示自己實力與成績的大會,一直對于整個科技行業(yè)的熱點都有著引導的作用,在此次百度世界2016上自然也不例外。
2016年,人工智能成為了科技圈最大的焦點之一,在走過了大半年的時間之后,越來越多的行業(yè)應用也讓我們看到了人工智能所蘊含的潛力,而此次百度世界的主題也定位AI,圍繞著行業(yè)、應用、發(fā)展、前景等多個方面進行了全方位的闡述。
會議開始,李彥宏一身正裝登上舞臺顯得氣場十足,在今年6月份的百度聯(lián)盟峰會上,李彥宏曾提出了“互聯(lián)網(wǎng)的下一幕”的概念,剛登上舞臺,李彥宏就對這個概念做出了定義:“互聯(lián)網(wǎng)的下一幕就是人工智能”。
對于這樣的結論,李彥宏給出了解釋:“互聯(lián)網(wǎng)的發(fā)展在此之前已經(jīng)經(jīng)過了兩個非常重要的階段,第一個階段大概持續(xù)了十幾年的時間,就是我們講的PC互聯(lián)網(wǎng)階段。第二個階段是在最近四五年,我們把它叫做移動互聯(lián)網(wǎng)的階段。對于中國市場來說,隨著上網(wǎng)人數(shù)越來越多,上網(wǎng)人口的滲透率越來越高,這意味著,未來互聯(lián)網(wǎng)的增長不能再靠人口紅利來驅動了,移動互聯(lián)網(wǎng)的時代其實正在離開我們,而能夠接替移動互聯(lián)網(wǎng)的下一幕,自然是人工智能。”
人工智能對于百度意味著什么呢?李彥宏覺得是百度核心中的核心,就是百度大腦。百度大腦由人工智能算法、百度的計算能力以及數(shù)據(jù)三個部分組成,正是有了這三個部分,百度大腦才得以運作起來。
在說完了百度大腦的組成部分后,李彥宏又給出了在這些組成部分之下,百度大腦能夠實現(xiàn)的四大功能:語音能力、圖像能力、自然語言理解能力、用戶畫像能力。
根據(jù)介紹,這幾個能力都是屬于人工智能中比較典型的應用,但是它們的發(fā)展階段卻很不一樣。
語音技術現(xiàn)在已經(jīng)進入了相對比較成熟的階段,在很多領域中都開始進入實用階段,識別的準確率也已經(jīng)很高了,同時圖像技術最近幾年也有了長足的進展。這兩者都屬于人工智能當中認知的部分,所以深度學習的算法非常適合處理這些形式。
相對,自然語言的理解或處理能力就更加難一些,還處在一個更加早期的階段。用戶畫像能力,其實從傳統(tǒng)意義上來講并不是人工智能的領域,但是由于近年來大數(shù)據(jù)的發(fā)展,再加上用人工智能和機器學習的方法,就可以把一個人的特征描繪得非常非常清楚。
作為目前人工智能最成熟的一部分功能,語音技術還可以被分為兩個方向,語音合成和語音識別。語音識別的應用非常常見,而且隨著技術的發(fā)展,準確率也越來越高。
語音合成則與語音識別功能相反,機器可以把文字轉換成語音,并念讀出來。而且,今天的語音合成也可以用比較自然的人的聲音讀出來,而不是像過去的機器一樣。據(jù)悉,目前百度每天要響應2.5億次的語音合成請求,而這一功能也被應用到了百度導航之中。
李彥宏表示:“百度大腦的語音合成能力可以讓每個人都有自己的聲音模型,只要按照要求說50句話,百度大腦就學會了你說話的方式,這些語音的能力會帶來各種各樣新的可能性。”
圖像技術在專業(yè)術語中又被稱為計算機視覺,也是現(xiàn)在廣義的人工智能中非常重要的領域。除了應用在準確率高達99.7%的人臉識別中,計算機視覺也成為了百度無人車的重要組成部分。無人車的視野要比人類駕駛員好得多,這是站在車的角度所看到的世界。
除此之外,AR也是圖像識別的一個重要應用,做到場景識別后,才能更好的跟用戶進行交互和體驗。
雖然成熟的不高,但也能夠為大家?guī)聿灰粯拥捏w驗,度秘就是李彥宏拿出來的最好的例子。李彥宏讓度秘在現(xiàn)場實時解說了一段籃球視頻,語言比較豐富,而且將球員的名字也都準確地叫了出來。李彥宏說:“當人工智能對于自然語言的理解一旦能夠達到一定程度,它又會打開很多新的可能性。”
“用戶畫像是基于百度的大數(shù)據(jù)以及機器學習的方式所獲得的一個能力,現(xiàn)在我們已經(jīng)有接近10億的用戶畫像,其中已經(jīng)用到了千萬級的細分標簽。這些標簽主要在兩個維度上體現(xiàn),一個是通用的維度,人口學特征、短期的意圖、位置屬性;另一個是垂直行業(yè)的特征,他在金融領域是什么樣的情況,他在保險、醫(yī)療、旅游、健康等領域都有什么樣的愛好、習慣,這些東西都共同構成了我們的用戶畫像。”
用戶畫像在應用中可以將用戶打上標簽,并將這些標簽組合后描畫出來,針對每一個不同的個體,做到億人億面,更準確地找到受眾群體,創(chuàng)造出真正的效益。
演講最后,李彥宏還表示,“百度大腦擁有各種各樣的能力,如果這些能力賦予到全社會的每個人,它能夠變換出來無窮無盡的可能性。有了這樣的能力,將給各行各業(yè)的人群帶來過去大家做不到的、不敢想的能力。”
同時李彥宏還表示,百度大腦會把語音、圖像、自然語言理解和用戶畫像等能力完全開放出來,在大多數(shù)情況下免費提供這些能力。
在李彥宏的演講結束后,百度首席科學家吳恩達也上臺進行了演說,不過相比于李彥宏的應用流派,吳恩達所帶來的則是對未來的分享。
演講開始,吳恩達就表示,百度是一家人工智能公司,其旗下的眾多重要產(chǎn)品都依賴于人工智能技術。“人工智能能做什么?第一,假如有一件事是一個正常人可以一秒以下做到的,也可以使用人工智能來自動做。第二,假如在一個具體重復發(fā)生的事情中,你可以拿到海量數(shù)據(jù),并可以用這些數(shù)據(jù)來預測下一次的結果,那么人工智能也能做到。”
吳恩達的演講從始至終都圍繞著他帶來的“三件禮物”展開,第一件是百度語音技術的應用,一款叫做百度語音輸入法的APP,這款輸入法兩個月后會上線,從現(xiàn)場演示視頻來看,它表現(xiàn)更像是一款智能語音助手,但功能顯然要更豐富得多。
第二和第三件禮物分別是開放百度深度學習平臺以及開放百度大腦平臺,從這兩點中我們可以看出,未來在人工智能方面,百度希望作為一個技術輸出的角色,為更多的企業(yè)和開發(fā)者提供技術支持。
吳恩達在演講的最后表示:“今年百度世界大會的主題是AI is the new electricity,一百年前電力為人類帶來很大改變,今天人工智能也會對行業(yè)帶來一樣大的改變,我希望百度的人工智能技術可以幫助大家改變行業(yè)、改變社會,也希望我們可以協(xié)助你走進人工智能時代。”
以下是李彥宏、吳恩達的演講內(nèi)容全文:
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構聯(lián)合提出SparseLoRA技術,通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。