在聯(lián)想Tech World 科技創(chuàng)新大會(huì)上,李彥宏作為壓軸嘉賓出場(chǎng),他一出場(chǎng)便邀請(qǐng)楊元慶去吃韓國(guó)菜,面對(duì)講韓語(yǔ)的服務(wù)員和寫(xiě)滿了韓語(yǔ)的菜單,李彥宏的解決辦法是運(yùn)用百度的人工智能,將韓文菜單進(jìn)行語(yǔ)音翻譯。
聯(lián)想TechWorld科技創(chuàng)新大會(huì)現(xiàn)場(chǎng)
早在今年兩會(huì)期間,李彥宏提出了中國(guó)大腦提議,今天他對(duì)外展示了百度在這方面的研發(fā)進(jìn)展,他說(shuō):“事實(shí)上百度在過(guò)去幾年想做的一個(gè)項(xiàng)目是百度大腦,這相當(dāng)于中國(guó)大腦的迷你版本。迷你版的智能水平達(dá)到了三四歲孩子的智力。”
百度公司創(chuàng)始人、董事長(zhǎng)兼首席執(zhí)行官李彥宏
計(jì)算機(jī)的人工智能不僅可以讓你聽(tīng)得懂,也可以讓你看得明白。李彥宏開(kāi)場(chǎng)演示的百度語(yǔ)音翻譯就是百度人工智能的一個(gè)體現(xiàn)。
李彥宏在現(xiàn)場(chǎng)進(jìn)行演講
根據(jù)李彥宏介紹:百度翻譯APP目前可支持包括希臘語(yǔ)、葡萄牙語(yǔ)在內(nèi)的18種語(yǔ)言。而百度翻譯的運(yùn)行原理就是通過(guò)大數(shù)據(jù)、人工智能以及機(jī)器的學(xué)習(xí)來(lái)實(shí)現(xiàn)。語(yǔ)音識(shí)別通過(guò)語(yǔ)音翻譯,來(lái)領(lǐng)會(huì)到不同語(yǔ)種間的每句話的意思。當(dāng)然他建議"計(jì)算機(jī)的人工智能不僅要讓人聽(tīng)得懂,并且還要看得明白。怎樣使得機(jī)器看得懂信息,是百度在人工智能方面當(dāng)前需要努力解決的重要問(wèn)題。"
此外百度人工智能還可以通過(guò)2D照片還原出3D場(chǎng)景。比如在尼泊爾地震中,很多加德滿都的文化遺產(chǎn)都被毀了,很多用戶將自己拍攝的古建筑圖片傳到網(wǎng)絡(luò)上,如果是傳統(tǒng)意義上,我們看圖片都是靜態(tài)孤立的一張張圖,并且由于每個(gè)人拍照角度不同,就會(huì)形成無(wú)數(shù)人圍繞很多古建筑拍攝了多張照片的錯(cuò)覺(jué)。那百度要做什么?李彥宏說(shuō)“百度可以根據(jù)一張照片來(lái)判斷這個(gè)人拍攝的角度是什么角度,是站在地上的什么位置去拍了古建筑。單單靠一個(gè)照片我們判斷不出來(lái)角度,判斷不出來(lái)時(shí)間。但是當(dāng)無(wú)數(shù)個(gè)照片都串在一起的時(shí)候,我們用人工智能的技術(shù)就可以搞清楚在哪個(gè)角度是哪個(gè)時(shí)間拍的,合成起來(lái)就成為了還原的古建筑的形象。”
李彥宏還現(xiàn)場(chǎng)演示了看圖說(shuō)話,“它的原理是通過(guò)百度大腦智能讀取信息內(nèi)容,從而理解人在問(wèn)什么問(wèn)題。”從演示中我們可以看到看圖說(shuō)話能辨識(shí)人打網(wǎng)球、用網(wǎng)球拍照、辨識(shí)道路禁止停車紅色標(biāo)志等。
李彥宏現(xiàn)場(chǎng)演示看圖說(shuō)話
從歷史的角度看,人工智能已經(jīng)有50-60年歷史,但基本上都不實(shí)用,因?yàn)轭^50年基本上都是學(xué)術(shù)性的探討。不過(guò)李彥宏對(duì)人工智能的未來(lái)表示樂(lè)觀。他說(shuō)"最近幾年隨著計(jì)算能力的增加、計(jì)算成本的降低,原來(lái)我們不敢想、不能做的事情現(xiàn)在能想了、能做了。"而隨著聯(lián)想、微軟、英特爾包括百度等眾多公司間的不斷競(jìng)爭(zhēng)與促進(jìn),人才的激發(fā)與創(chuàng)造,從而可以讓技術(shù)真正改變普通人的生活,從而改變整個(gè)世界。
所以,他認(rèn)為:"現(xiàn)在只是剛剛開(kāi)始,其實(shí)其實(shí)人工智能還可以做很多的東西。未來(lái)隨著我們創(chuàng)新的繼續(xù),隨著大數(shù)據(jù)積累越來(lái)越多,隨著人工智能技術(shù)不斷推進(jìn),百度大腦會(huì)越來(lái)越接近一個(gè)普通人或成年人的智力水平。"
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。