在聯(lián)想Tech World 科技創(chuàng)新大會(huì)上,李彥宏作為壓軸嘉賓出場(chǎng),他一出場(chǎng)便邀請(qǐng)楊元慶去吃韓國(guó)菜,面對(duì)講韓語(yǔ)的服務(wù)員和寫(xiě)滿(mǎn)了韓語(yǔ)的菜單,李彥宏的解決辦法是運(yùn)用百度的人工智能,將韓文菜單進(jìn)行語(yǔ)音翻譯。
聯(lián)想TechWorld科技創(chuàng)新大會(huì)現(xiàn)場(chǎng)
早在今年兩會(huì)期間,李彥宏提出了中國(guó)大腦提議,今天他對(duì)外展示了百度在這方面的研發(fā)進(jìn)展,他說(shuō):“事實(shí)上百度在過(guò)去幾年想做的一個(gè)項(xiàng)目是百度大腦,這相當(dāng)于中國(guó)大腦的迷你版本。迷你版的智能水平達(dá)到了三四歲孩子的智力。”
百度公司創(chuàng)始人、董事長(zhǎng)兼首席執(zhí)行官李彥宏
計(jì)算機(jī)的人工智能不僅可以讓你聽(tīng)得懂,也可以讓你看得明白。李彥宏開(kāi)場(chǎng)演示的百度語(yǔ)音翻譯就是百度人工智能的一個(gè)體現(xiàn)。
李彥宏在現(xiàn)場(chǎng)進(jìn)行演講
根據(jù)李彥宏介紹:百度翻譯APP目前可支持包括希臘語(yǔ)、葡萄牙語(yǔ)在內(nèi)的18種語(yǔ)言。而百度翻譯的運(yùn)行原理就是通過(guò)大數(shù)據(jù)、人工智能以及機(jī)器的學(xué)習(xí)來(lái)實(shí)現(xiàn)。語(yǔ)音識(shí)別通過(guò)語(yǔ)音翻譯,來(lái)領(lǐng)會(huì)到不同語(yǔ)種間的每句話(huà)的意思。當(dāng)然他建議"計(jì)算機(jī)的人工智能不僅要讓人聽(tīng)得懂,并且還要看得明白。怎樣使得機(jī)器看得懂信息,是百度在人工智能方面當(dāng)前需要努力解決的重要問(wèn)題。"
此外百度人工智能還可以通過(guò)2D照片還原出3D場(chǎng)景。比如在尼泊爾地震中,很多加德滿(mǎn)都的文化遺產(chǎn)都被毀了,很多用戶(hù)將自己拍攝的古建筑圖片傳到網(wǎng)絡(luò)上,如果是傳統(tǒng)意義上,我們看圖片都是靜態(tài)孤立的一張張圖,并且由于每個(gè)人拍照角度不同,就會(huì)形成無(wú)數(shù)人圍繞很多古建筑拍攝了多張照片的錯(cuò)覺(jué)。那百度要做什么?李彥宏說(shuō)“百度可以根據(jù)一張照片來(lái)判斷這個(gè)人拍攝的角度是什么角度,是站在地上的什么位置去拍了古建筑。單單靠一個(gè)照片我們判斷不出來(lái)角度,判斷不出來(lái)時(shí)間。但是當(dāng)無(wú)數(shù)個(gè)照片都串在一起的時(shí)候,我們用人工智能的技術(shù)就可以搞清楚在哪個(gè)角度是哪個(gè)時(shí)間拍的,合成起來(lái)就成為了還原的古建筑的形象。”
李彥宏還現(xiàn)場(chǎng)演示了看圖說(shuō)話(huà),“它的原理是通過(guò)百度大腦智能讀取信息內(nèi)容,從而理解人在問(wèn)什么問(wèn)題。”從演示中我們可以看到看圖說(shuō)話(huà)能辨識(shí)人打網(wǎng)球、用網(wǎng)球拍照、辨識(shí)道路禁止停車(chē)紅色標(biāo)志等。
李彥宏現(xiàn)場(chǎng)演示看圖說(shuō)話(huà)
從歷史的角度看,人工智能已經(jīng)有50-60年歷史,但基本上都不實(shí)用,因?yàn)轭^50年基本上都是學(xué)術(shù)性的探討。不過(guò)李彥宏對(duì)人工智能的未來(lái)表示樂(lè)觀(guān)。他說(shuō)"最近幾年隨著計(jì)算能力的增加、計(jì)算成本的降低,原來(lái)我們不敢想、不能做的事情現(xiàn)在能想了、能做了。"而隨著聯(lián)想、微軟、英特爾包括百度等眾多公司間的不斷競(jìng)爭(zhēng)與促進(jìn),人才的激發(fā)與創(chuàng)造,從而可以讓技術(shù)真正改變普通人的生活,從而改變整個(gè)世界。
所以,他認(rèn)為:"現(xiàn)在只是剛剛開(kāi)始,其實(shí)其實(shí)人工智能還可以做很多的東西。未來(lái)隨著我們創(chuàng)新的繼續(xù),隨著大數(shù)據(jù)積累越來(lái)越多,隨著人工智能技術(shù)不斷推進(jìn),百度大腦會(huì)越來(lái)越接近一個(gè)普通人或成年人的智力水平。"
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在A(yíng)udioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀(guān)和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線(xiàn)性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話(huà)問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀(guān)對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。