CNET科技資訊網(wǎng) 1月8日 北京消息: 1月6日晚,江蘇衛(wèi)視播出的第四季《最強大腦》節(jié)目中迎來一位特殊選手,百度派出搭載百度大腦的人工智能機(jī)器人“小度”,挑戰(zhàn)最強大腦的名人堂選手。
本場比賽經(jīng)過兩小時的鏖戰(zhàn),“小度”,憑借在人工智能和人臉識別領(lǐng)域的深厚積累,以3:2險勝人類最強大腦的代表王峰。
代表著目前代表中國人工智能最高水平——百度大腦的“小度”,背后是萬億級的參數(shù)、千億樣本和千億特征訓(xùn)練,能模擬人腦的工作機(jī)制,學(xué)習(xí)訓(xùn)練極其復(fù)雜的模型。有著世界記憶大師美譽的名人堂代表王峰,曾率領(lǐng)中國代表隊4:0完勝德國隊,打破快速記憶撲克牌世界紀(jì)錄。
小度與王峰進(jìn)行了對人臉識別能力的兩輪比拼,非常緊張激烈,最難的是用于比對的真人及其照片,年齡跨度居然有二十年之多。以至于章子怡現(xiàn)場高呼:這可比電影好看多了。
在第一輪比賽中,小度和人類選手需要通過分析照片中出現(xiàn)的幼年人臉,來識別出現(xiàn)場20年后的成年人,面對雙胞胎識別這一難題,小度精準(zhǔn)識別,以72.99%—高于第二張0.01%的識別率成功鎖定目標(biāo),而名人堂王峰則1:0落敗。
在第二輪比賽中,小度和王峰面對照片中出現(xiàn)的人數(shù)眾多、現(xiàn)場實時照片傳輸、現(xiàn)場攝像機(jī)捕捉晃動、燈光干擾、化妝、微整形等影響,頂住壓力,表現(xiàn)同樣優(yōu)秀,在30張共近千人臉的小學(xué)畢業(yè)照中成功選出了主人公。最終小度機(jī)器人以3:2擊敗名人堂選手王峰。
對于小度機(jī)器人贏得勝利,現(xiàn)場嘉賓、北京大學(xué)心理學(xué)系教授魏坤琳認(rèn)為,人的面貌在成長過程中受很多因素的影響,兒童時期的面部特征隨時間而改變,甚至有些特征會消失。從機(jī)器和人類對圖像感知來看,機(jī)器似乎更不占優(yōu)勢。的確,人類經(jīng)過幾百萬年的進(jìn)化,能夠在聽覺、視覺上做的很好。而人工智能誕生才60年,相對而言,語音識別、圖像識別對機(jī)器來說更難。
百度首席科學(xué)家吳恩達(dá)則表示,這次人機(jī)大戰(zhàn),是頂級的人臉識別選手和擅長棋類游戲的人工智能比拼。人臉識別技術(shù)不同于一般的圖像識別,人臉本身太相似,不易區(qū)分;其次表情、光照條件、整容等外因會增加識別難度。而賽場上意外出現(xiàn)了雙胞胎,無疑更增加了辨認(rèn)難度,因為雙胞胎骨骼太相似,導(dǎo)致差別特別細(xì)微,所以取的面部骨骼點不夠多的話是識別不出來。
百度深度學(xué)習(xí)實驗室主任林元慶指出,百度這幾年在人工智能上投入了相當(dāng)?shù)牧α?。這次人機(jī)大戰(zhàn)是以實戰(zhàn)的方式來,來檢驗百度人工智能和人類差距。但是,打敗人類并不是參賽的目的,而是希望在此過程中不斷進(jìn)步,演化出很好的技術(shù)來服務(wù)人類。
此前,百度董事長兼CEO李彥宏也在《最強大腦》第四季預(yù)告片中表示,如果最強大腦代表人類腦力的極限,那么百度大腦代表人工智能的最高水平。無論輸贏,都會對人工智能的技術(shù)發(fā)展做出突破性的貢獻(xiàn)。
1月6日當(dāng)天,百度大腦還同步宣布了多項技術(shù)開放的決定。百度大腦將全新開放十二項場景化技術(shù)服務(wù),將基于圖像、語音、自然語言、用戶畫像、機(jī)器學(xué)習(xí)、AR增強現(xiàn)實等領(lǐng)域的能力,面向不同行業(yè)定制的四大解決方案,全部對外共享。開發(fā)者只要訪問百度大腦官網(wǎng)(ai.baidu.com),即可通過開放接口進(jìn)行接入。
據(jù)了解,小度在即將舉行的《最強大腦》第四季第二場比賽中將和名人堂選手在聲音識別領(lǐng)域進(jìn)行較量。和圖像識別類似,機(jī)器識別聲音的難度大于人類。人類能否扳回一局,讓我們拭目以待。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。