CNET科技資訊網(wǎng) 9月1日 北京消息: 9月1日,2016年百度世界大會在北京中國大飯店盛大舉行。會上,百度首次向外界全面展示百度人工智能成果——“百度大腦”,并宣布對廣大開發(fā)者、創(chuàng)業(yè)者及傳統(tǒng)企業(yè)開放其核心能力和底層技術(shù)。開放的百度大腦,將引領(lǐng)整個互聯(lián)網(wǎng)行業(yè)進入下一幕。
百度創(chuàng)始人、董事長兼首席執(zhí)行官李彥宏在會上表示,移動互聯(lián)網(wǎng)利用人口紅利帶來的增長已經(jīng)逐漸見頂,互聯(lián)網(wǎng)正在進下一幕人工智能時代,人工智能將使全社會迎來變革性的發(fā)展。
作為最早布局人工智能的技術(shù)公司之一,百度大腦已建成超大規(guī)模的神經(jīng)網(wǎng)絡(luò),擁有萬億級的參數(shù)、千億樣本、千億特征訓(xùn)練,能模擬人腦的工作機制。相比三年前2-3歲孩子的智力水平,百度大腦如今智商已經(jīng)有了超前的發(fā)展,在一些能力上甚至超越了人類。
百度大腦之所以擁有如此強大的“智商”,得益于百度大腦背后強大的硬件和軟件支撐。數(shù)十萬臺服務(wù)器構(gòu)成了百度大腦的實體,幾年前百度便開始自建中國最大的GPU集群,保證了百度大腦超強的計算能力。而在軟件方面,搜索起家的百度具備了得天獨厚的優(yōu)勢:全網(wǎng)的網(wǎng)頁數(shù)據(jù)、十多年來累積的搜索數(shù)據(jù),以及百億級的圖像、視頻、定位數(shù)據(jù)成為了百度大腦不斷學(xué)習(xí)、快速成長的養(yǎng)料。
會上,李彥宏詳細闡釋了百度大腦在語音、圖像、自然語言處理和用戶畫像領(lǐng)域的前沿進展。目前,百度大腦語音合成日請求量2.5億,語音識別率達97%。強大的語音能力,不僅可以幫助一位年輕的銷售員快速成為熟練、干練的金牌銷售,也可以合成一代巨星張國榮的聲音,實現(xiàn)與粉絲13年后的”隔空對話”。
在圖像能力方面,百度大腦人臉識別準(zhǔn)確率達到99.7%;百度無人車刷新了KITTI測試的多個世界記錄——在KITTI競爭最激烈的車輛檢測評比中排名第一。而在最難的自然語言處理方面,度秘與知名體育評論員楊毅同臺解說。用戶畫像領(lǐng)域,百度大腦擁有千萬級別的用戶標(biāo)簽體系,實現(xiàn)“通用與垂直領(lǐng)域”相結(jié)合。
語音、圖像、自然語言處理和用戶畫像是當(dāng)下人工智能領(lǐng)域最強大、最核心的能力。百度在這四大領(lǐng)域的應(yīng)用,已經(jīng)深入到了日常生活當(dāng)中。
在時代變革大幕開啟之際,為了助力廣大合作伙伴全面共享AI時代,完成下一幕的轉(zhuǎn)型升級,百度大腦將全面開放未來,百度大腦將與各行各業(yè)結(jié)合,衍生出不同領(lǐng)域的行業(yè)大腦,比如醫(yī)療大腦、交通大腦、金融大腦等等。
目前,百度大腦已經(jīng)與不同領(lǐng)域發(fā)生了碰撞。例如,歐萊雅基于百度AR技術(shù),在品牌營銷領(lǐng)域做創(chuàng)新,實現(xiàn)銷售突破;《魔獸》出品方傳奇影業(yè)利用百度的用戶畫像能力,實現(xiàn)精準(zhǔn)推薦,提升票房。值得一提的是,英偉達公司聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁勛在大會現(xiàn)場發(fā)表了主題演講,并攜手百度聯(lián)合宣布繼續(xù)在無人駕駛汽車領(lǐng)域深化合作,雙方將匯聚百度云平臺、地圖技術(shù)和NVIDIA汽車人工智能計算平臺,創(chuàng)建從云服務(wù)到汽車自動駕駛的平臺。
最后,百度首席科學(xué)家吳恩達公布了百度人工智能的兩大開放平臺:百度深度學(xué)習(xí)平臺與百度大腦開放平臺。與其他第三方平臺相比,百度深度學(xué)習(xí)平臺以更少的數(shù)據(jù)準(zhǔn)備及訓(xùn)練配置,實現(xiàn)易學(xué)易用、性能高效;而百度大腦開放平臺則向合作伙伴開放技術(shù)與培訓(xùn)資料,實現(xiàn)因智而能,促進行業(yè)發(fā)展。
百度作為最早布局人工智能領(lǐng)域的公司,在互聯(lián)網(wǎng)下一幕開啟之際全面開放助力傳統(tǒng)企業(yè)和開發(fā)者升級,也是在經(jīng)濟新常態(tài)下促進整個社會經(jīng)濟發(fā)展的體現(xiàn)。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。