人工智能對計算需求的高速增長,給了英偉達(dá)這家24歲的公司巨大的機會。以GPU計算為基點,其正在把圖像處理能力推向無人機、高級自動駕駛、自主機器人、AI城市等領(lǐng)域。
在過去的兩年里,英偉達(dá)市值一路飆升,令許多企業(yè)“分外眼紅”。而在今天的GTC CHINA大會上,英偉達(dá)又發(fā)布了Tesla V100 GPU、可編程推理平臺TensorRT 3,自動駕駛平臺、自主機器處理器 Xavier及虛擬機器人訓(xùn)練環(huán)境這五個新項目,可以說是向AI各個領(lǐng)域全面鋪開。
英偉達(dá)CEO黃仁勛在會上說:“人工智能計算的新紀(jì)元,就是要讓企業(yè)省錢。”老黃之于英偉達(dá),就如喬布斯之于蘋果。他領(lǐng)導(dǎo)下的英偉達(dá),仍然像一個初創(chuàng)公司一樣不斷創(chuàng)新、果斷決策、快速執(zhí)行,這與他敏銳的戰(zhàn)略直覺和個性不無關(guān)系。在外人看來,他親切隨和,但對待工作卻十分嚴(yán)苛。
在長達(dá)2小時的演講過后,黃仁勛接受了媒體采訪,沒有追求“形式感”的入場,而是伴著一聲“Hey you guys!”,未見其人先聞其聲。然后隨性地往椅子上一坐,輕松地開啟了“話匣子”。
他表示,傳統(tǒng)的計算機產(chǎn)業(yè)正在被顛覆,大數(shù)據(jù)、深度學(xué)習(xí)、人工智能等新技術(shù)的出現(xiàn),使得硬件的制造方式被改變,軟件運行也不再完全依賴于代碼。目前我們遇面臨著一個百年一遇的也是令人興奮的機會。
記者:英偉達(dá)接下來將在AI領(lǐng)域全面布局,那么各項業(yè)務(wù)之間是否有側(cè)重,下一個階段的重點的什么?
黃仁勛:英偉達(dá)今天發(fā)布的五個重點項目,有個共同點就是沒有GPU是不可能實現(xiàn)的。這五個領(lǐng)域的研究本身挑戰(zhàn)性就非常高,同時,英偉達(dá)給予它們的也都是獨一無二的價值。雖然,目前我們還不敢保證所有這些項目都會100%成功,但可以確定的是,如果一旦成功它們一定會給社會帶來巨大的價值,這也將給英偉達(dá)帶來非常大的滿足感。
記者:英偉達(dá)所發(fā)布的自主機器什么時候能夠進(jìn)行商用和普及?
黃仁勛:目前,對于自主機器而言需要解決三大關(guān)鍵的問題。首先,是為自主機器打造一個人工智能平臺,類似于增強學(xué)習(xí)等等;另外,是提供一個能夠讓自主機器進(jìn)行自主學(xué)習(xí)的虛擬環(huán)境;在此基礎(chǔ)上,第三步再將人工智能的“大腦”放到自主機器的框架中。
坦率說,目前這三個問題還沒有完全解決,但是三項工作在英偉達(dá)正在并行中。比如說今天推出的自主機器處理器 Xavier,虛擬的學(xué)習(xí)環(huán)境、以及英偉達(dá)的人工智能平臺等等,都是在為自主機器的商用和普及做準(zhǔn)備工作。
明年,英偉達(dá)會將這三方面的基礎(chǔ)都打好,之后就可以進(jìn)行自主機器的生產(chǎn)。另外,我也相信,在未來的十到十五年,我們還會看到更加令人難以置信的創(chuàng)新和進(jìn)步。
記者:您認(rèn)為未來的人工智能發(fā)展是端主導(dǎo)的還是云主導(dǎo)的?
黃仁勛:可以肯定的是,智能將無處不在。它會在麥克風(fēng)上、手表上、鞋子上、保溫杯中,甚至是耳環(huán)里。但是,智能又分為通用型和專用型。如果是小型的終端設(shè)備,比如說保溫杯、咖啡機,就是專門型的智能,只需要滿足某個方面的需求,更側(cè)重物聯(lián)網(wǎng)和邊緣計算。而云端的智能是通用型的,通常具備各種各樣的軟件,并且必須是靈活、可編程的,需要滿足跨領(lǐng)域的需求。因此,未來,端上的智能和云上的智能都會非常重要。
記者:GPU的出現(xiàn)顛覆了CPU的架構(gòu)核心。您認(rèn)為將來GPU是否可以覆蓋所有的場景,或者將來還會有更多的新型的GPU出現(xiàn)為更多的計算需求提供支持?
黃仁勛:首先,GPU不會替代CPU,而是與CPU更好地結(jié)合實現(xiàn)計算,這也是我們?yōu)槭裁窗袵PU稱為加速器的原因。它們二者各有優(yōu)勢和分工,CPU是通用的,什么場景都可以適用。而GUP在一些專門問題的處理上會發(fā)揮非常大的作用,它非常擅長圖形處理和人工智能類型的工作,比如在圖像識別中GUP的性能是CPU的十倍、五十倍甚至百倍。因此我們認(rèn)為事實上最完美的架構(gòu)是把CPU和GPU結(jié)合起來。從這方面來說,英偉達(dá)的研究重心其實不是升級每次只好一點點的通用型處理器,而是推出在專門的領(lǐng)域能夠提供超強性能的處理器,也就是我們推出的CUDA的架構(gòu),即CPU+GPU。
記者:是否可以談一下GPU與FPGA的區(qū)別?
黃仁勛:這兩者的區(qū)別很大。FPGA非常靈活,可以在是在以太網(wǎng)卡里、音頻卡中、或者視頻卡中,是可配置的。在設(shè)計階段,它就可以被設(shè)計用于成各種各樣的用途。但是,GPU沒有那么大的靈活性,它是一種并行計算的加速器,是“術(shù)業(yè)有專攻”。當(dāng)然,F(xiàn)PGA也可以被轉(zhuǎn)變?yōu)镚PU,但是性能無法滿足要求,它的速度要比GPU慢1000倍。
三年前,英偉達(dá)決定把GPU做成Tensor執(zhí)行處理器。而如今,它已經(jīng)成為世界上最優(yōu)秀的Tensor處理器,但它只是一個芯片,要做高性能的計算處理還需要軟件。因為每一張AI計算的圖片都是不一樣的,并且每一張圖片在指定處理器上為了達(dá)到性能的調(diào)優(yōu),都必須進(jìn)行編譯解碼。
當(dāng)然,你還有另一個選擇,就是為每一個神經(jīng)網(wǎng)絡(luò)都可以設(shè)計一個專門的FPGA,只是設(shè)計起來很困難,工作量也很大。如果市場上沒有人可以為你提供一個可編程的、推理的加速器,F(xiàn)PGA就成了唯一的選擇。這也是為什么幾年前,BAT對自己的人工智能推理進(jìn)行加速時,只能通過定制FPGA來實現(xiàn)。而現(xiàn)在有了TensorRT,就為企業(yè)提供了非常大的便利。
記者:TensorRT與TPU的性能對比有什么優(yōu)勢?
黃仁勛:TPU只有一款,并且只支持Tensorflow,而GPU還可以支持其它的任務(wù),如視頻編解碼、圖像處理等等。比如在上午演示的《權(quán)力的游戲》影片中,GPU就可以做視頻的解碼,并根據(jù)解碼進(jìn)行搜索。GPU可以做的事情比TPU多得多。正因為我們有TensorRT,GPU架構(gòu)又是完全靈活可編程的,支持任何人工智能的框架如TensorFlow、Microsoft Cognitive Tookit、MXNet、PyTorch、Caffe2、PaddlePaddle 、Theano等等,因此,從長遠(yuǎn)來看,我們認(rèn)為能夠針對深度學(xué)習(xí)進(jìn)行優(yōu)化的GPU能夠獲得最大的成功。
記者:英偉達(dá)在選擇投資的公司時會有什么樣的考慮?
黃仁勛:英偉達(dá)投資的公司非常多,我們在選擇時有三個基本標(biāo)準(zhǔn):一是與英偉達(dá)有一樣的愿景和目標(biāo),二是這些公司確實需要英偉達(dá)的幫助(這一點是我們非常看重的),三是這個公司本身必須是非常優(yōu)秀的公司。
記者:英偉達(dá)在與很多大型企業(yè)合作的同時也在與許多創(chuàng)業(yè)公司合作,在這個過程中英偉達(dá)的目的是?
黃仁勛:英偉達(dá)提供的是一個平臺,希望賦予其它公司更多的能力,希望大家都成功。作為一個平臺提供者,我們的任務(wù)主要是為了讓平臺不斷升級、與時俱進(jìn)。同時,這個平臺是開放的,任何一個人和公司都可以進(jìn)來。英偉達(dá)不是自閉公司,也不是垂直的集成公司,而是一個開放的平臺公司。我們非常樂于與大眾、豐田合作、奧迪這樣的大型企業(yè)合作,同時也非常希望與很多初創(chuàng)企業(yè)合作,我們甚至還在與空客合作,因為我們認(rèn)為如果能發(fā)明出一個可以飛的汽車,這是非常酷的。我認(rèn)為,英偉達(dá)所做的這些事沒有“愛”是無法做成的。
記者:英偉達(dá)在自動駕駛領(lǐng)域是如何布局的?
黃仁勛:對于英偉達(dá)自動駕駛來說,DRIVE PX是硬件基礎(chǔ),DRIVE OS是操作系統(tǒng),DRIVEWORKS SDK是API,而DRIVE AV是最頂層的無人駕駛應(yīng)用,把所有的這些結(jié)合在一起我們統(tǒng)稱為英偉達(dá)的DRIVE。以上說的每一個層面都可以單獨開放,適用于不同類型、不同公司的需求。你可以選擇用DRIVE PX硬件基礎(chǔ),其它部分自己開發(fā),也可以選擇用DRIVE AV應(yīng)用,其它底層堆棧自己搭建,這些都是沒有問題的。
我們認(rèn)為,自動駕駛在未來是一個非常大的市場,中國也有很多在算法或是認(rèn)知等領(lǐng)域非常擅長的公司,眾人拾柴火焰高,我們也希望能夠與更多的公司在這方面展開合作。
記者:汽車電子產(chǎn)品對于使用環(huán)境的要求非常高,您認(rèn)為如果要推出符合L5自動駕駛級別的汽車,價格適合大眾需求,同時可以量產(chǎn),還需要多長時間?
黃仁勛:我認(rèn)為這在不到10年時間內(nèi)就會實現(xiàn),自動駕駛汽車是軟件定義的,這要比現(xiàn)在“黑盒子式”行車電腦的汽車生產(chǎn)起來要方便得多。我們看到現(xiàn)在的汽車的儀表板、無線電系統(tǒng)、后視鏡等都是獨立的,而未來自動駕駛汽車的“超級電腦”各個功能都是軟件定義的,軟件是輕量級的、綠色的,更便于設(shè)計和使用。
記者:英偉達(dá)是否看好自動駕駛在中國的發(fā)展前景?未來在中國還將投資哪些領(lǐng)域的公司?
黃仁勛:事實上,英偉達(dá)最核心的業(yè)務(wù)還是GPU計算,這是英偉達(dá)的基礎(chǔ),它正在被用于各種各樣的應(yīng)用領(lǐng)域,比如科學(xué)探索發(fā)現(xiàn)、計算圖譜、人工智能等等。因此,英偉達(dá)提供的是一個基于GPU計算的服務(wù)。
我們目前重點關(guān)注的垂直領(lǐng)域是人工智能和交通運輸行業(yè)。我們認(rèn)為,交通運輸行業(yè)不只包括交通工具,還包括了人工智能化的交通,所以滴滴是一家大型的人工智能公司。未來,無論是物流、還是交通,所有海陸空的領(lǐng)域都可以是自主的,都可以是人工智能的。這一點是非常重要的。
英偉達(dá)已經(jīng)有三個非常大、有潛力的業(yè)務(wù)的市場,即游戲、人工智能和交通運輸。,三個市場本身的體量非常大。未來我們關(guān)注的重點是醫(yī)療衛(wèi)生和健康產(chǎn)業(yè),我們希望幫助健康產(chǎn)業(yè)從三個方面實現(xiàn)變革:首先是新藥研發(fā),包括新藥制造本身的研發(fā),以及通過人工智能技術(shù)讓醫(yī)生以更少的成本和時間發(fā)現(xiàn)哪些新藥是可以對癥的;其二是疾病的早期檢測,這就涉及到醫(yī)療影像問題;其三,新藥臨床效果的實驗中大規(guī)模取樣的問題。我們認(rèn)為在這三個健康產(chǎn)業(yè)的重要問題之上,人工智能都是大有所為的,并且這個時間很快就會到來。
仔細(xì)想一下,無論是交通、物流還是醫(yī)療領(lǐng)域,很多很多以前我們認(rèn)為不能解決的問題,通過人工智能都在慢慢被解決。這就是為什么我們說未來將變得難以置信的原因。
記者:發(fā)展自動駕駛,安全問題如何考慮?
黃仁勛:安全分為兩個概念,一種是人身的安全、一種是系統(tǒng)安全。對于車而言,如果車被黑了,人的安全也會受到威脅,這才是最關(guān)鍵的。其實,如果一個黑客黑了一臺車,本身這個問題并不大,但如果把威脅擴(kuò)大到云端,通過云來控制所有的車,就比較危險了。當(dāng)然我們也可以通過各種方法降低這樣的風(fēng)險,未來想黑一臺車并不那么容易,因為每臺車都是有防火墻的,我們也會給傳輸?shù)男畔⒆黾用埽诳兔滥敲慈菀缀诘酵ㄓ嵍丝凇?/p>
記者:AR相關(guān)的技術(shù)發(fā)展與人工智能有哪些交叉?
黃仁勛:我們上午介紹的虛擬機器人訓(xùn)練環(huán)境是為了機器人學(xué)習(xí)而創(chuàng)造的在虛擬世界,本身就是虛擬現(xiàn)實。但如果要讓人進(jìn)入到虛擬環(huán)境去對機器人進(jìn)行訓(xùn)練,還需要用到很多其它的技術(shù)??傮w而言,AI和AR兩者是互補的,互相不可或缺。未來的AI需要AR,未來的AR也需要AI。
記者:既然AI領(lǐng)域是多個領(lǐng)域技術(shù)的結(jié)合,英偉達(dá)會考慮用什么樣的方式促進(jìn)這方面的發(fā)展?
黃仁勛:英偉達(dá)是一家平臺公司,這也意味著必須與很多生態(tài)內(nèi)的公司進(jìn)行合作,并在這個過程中提供自己最為專長的技術(shù)。
記者:英偉達(dá)將如何與學(xué)界展開合作,共同推動ai領(lǐng)域的發(fā)展?
黃仁勛:事實上,英偉達(dá)最初做人工智能時就是把它當(dāng)作學(xué)術(shù)研究而不是業(yè)務(wù)。5-7年前,深度學(xué)習(xí)取得的進(jìn)展主要都是由大學(xué)主導(dǎo)的,如斯坦福、多倫多、紐約大學(xué)等等。因此,我們認(rèn)為在人工智能領(lǐng)域,學(xué)術(shù)領(lǐng)域的作用是非常大的。目前,英偉達(dá)也在與全球?qū)W術(shù)界的研究人員展開深度合作,與他們共同做開發(fā)、為他們的研究項目提供資金,甚至也邀請這些學(xué)者到英偉達(dá)進(jìn)行研究,我們把它稱為英偉達(dá)人工智能實驗室。在中國,我們也與中科院、清華、香港中文大學(xué)正在展開合作。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。