CNET科技資訊網(wǎng) 9月1日 北京消息: 9月1日,2016年百度世界大會在北京中國大飯店盛大舉行。會上,百度首次向外界全面展示百度人工智能成果——“百度大腦”,并宣布對廣大開發(fā)者、創(chuàng)業(yè)者及傳統(tǒng)企業(yè)開放其核心能力和底層技術。開放的百度大腦,將引領整個互聯(lián)網(wǎng)行業(yè)進入下一幕。
百度創(chuàng)始人、董事長兼首席執(zhí)行官李彥宏在會上表示,移動互聯(lián)網(wǎng)利用人口紅利帶來的增長已經(jīng)逐漸見頂,互聯(lián)網(wǎng)正在進下一幕人工智能時代,人工智能將使全社會迎來變革性的發(fā)展。
作為最早布局人工智能的技術公司之一,百度大腦已建成超大規(guī)模的神經(jīng)網(wǎng)絡,擁有萬億級的參數(shù)、千億樣本、千億特征訓練,能模擬人腦的工作機制。相比三年前2-3歲孩子的智力水平,百度大腦如今智商已經(jīng)有了超前的發(fā)展,在一些能力上甚至超越了人類。
百度大腦之所以擁有如此強大的“智商”,得益于百度大腦背后強大的硬件和軟件支撐。數(shù)十萬臺服務器構成了百度大腦的實體,幾年前百度便開始自建中國最大的GPU集群,保證了百度大腦超強的計算能力。而在軟件方面,搜索起家的百度具備了得天獨厚的優(yōu)勢:全網(wǎng)的網(wǎng)頁數(shù)據(jù)、十多年來累積的搜索數(shù)據(jù),以及百億級的圖像、視頻、定位數(shù)據(jù)成為了百度大腦不斷學習、快速成長的養(yǎng)料。
會上,李彥宏詳細闡釋了百度大腦在語音、圖像、自然語言處理和用戶畫像領域的前沿進展。目前,百度大腦語音合成日請求量2.5億,語音識別率達97%。強大的語音能力,不僅可以幫助一位年輕的銷售員快速成為熟練、干練的金牌銷售,也可以合成一代巨星張國榮的聲音,實現(xiàn)與粉絲13年后的”隔空對話”。
在圖像能力方面,百度大腦人臉識別準確率達到99.7%;百度無人車刷新了KITTI測試的多個世界記錄——在KITTI競爭最激烈的車輛檢測評比中排名第一。而在最難的自然語言處理方面,度秘與知名體育評論員楊毅同臺解說。用戶畫像領域,百度大腦擁有千萬級別的用戶標簽體系,實現(xiàn)“通用與垂直領域”相結合。
語音、圖像、自然語言處理和用戶畫像是當下人工智能領域最強大、最核心的能力。百度在這四大領域的應用,已經(jīng)深入到了日常生活當中。
在時代變革大幕開啟之際,為了助力廣大合作伙伴全面共享AI時代,完成下一幕的轉型升級,百度大腦將全面開放未來,百度大腦將與各行各業(yè)結合,衍生出不同領域的行業(yè)大腦,比如醫(yī)療大腦、交通大腦、金融大腦等等。
目前,百度大腦已經(jīng)與不同領域發(fā)生了碰撞。例如,歐萊雅基于百度AR技術,在品牌營銷領域做創(chuàng)新,實現(xiàn)銷售突破;《魔獸》出品方傳奇影業(yè)利用百度的用戶畫像能力,實現(xiàn)精準推薦,提升票房。值得一提的是,英偉達公司聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁勛在大會現(xiàn)場發(fā)表了主題演講,并攜手百度聯(lián)合宣布繼續(xù)在無人駕駛汽車領域深化合作,雙方將匯聚百度云平臺、地圖技術和NVIDIA汽車人工智能計算平臺,創(chuàng)建從云服務到汽車自動駕駛的平臺。
最后,百度首席科學家吳恩達公布了百度人工智能的兩大開放平臺:百度深度學習平臺與百度大腦開放平臺。與其他第三方平臺相比,百度深度學習平臺以更少的數(shù)據(jù)準備及訓練配置,實現(xiàn)易學易用、性能高效;而百度大腦開放平臺則向合作伙伴開放技術與培訓資料,實現(xiàn)因智而能,促進行業(yè)發(fā)展。
百度作為最早布局人工智能領域的公司,在互聯(lián)網(wǎng)下一幕開啟之際全面開放助力傳統(tǒng)企業(yè)和開發(fā)者升級,也是在經(jīng)濟新常態(tài)下促進整個社會經(jīng)濟發(fā)展的體現(xiàn)。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構聯(lián)合提出SparseLoRA技術,通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。