OpenAI再次投下一顆重磅炸彈。
本月初,曾于去年夏季推出高人氣語言模型GPT-3的OpenAI研究小組再次公布一套名為DALL-E的全新AI模型。雖然它在熱度上不及GPT-3,但卻很可能對(duì)AI的未來發(fā)展擁有更加深遠(yuǎn)的影響。
簡而言之,DALL-E能夠?qū)⑽谋久枋鲎鳛檩斎?,?jù)此生成原始圖像輸出。(DALL-E這一名稱,源自對(duì)超現(xiàn)實(shí)主義藝術(shù)家薩爾瓦多·達(dá)利及皮克斯工作室創(chuàng)造的可愛機(jī)器人形象WALL-E的致敬。)
例如,當(dāng)輸入“五角形綠色時(shí)鐘”、“火球”或者“建筑物墻面上的藍(lán)色南瓜壁畫”之后,DALL-E即可生成令人震驚的準(zhǔn)確視覺效果。
▲ 在要求生成“建筑物墻面上的藍(lán)色南瓜壁畫”后,OpenAI的全新深度學(xué)習(xí)模型DALL-E能夠生成以上原始圖像
DALL-E為什么意義重大?
首先,它預(yù)示著一種所謂“多模AI”的全新AI范式的出現(xiàn)。這種范式似乎代表著人工智能的未來面貌。以DALL-E為例,多模AI系統(tǒng)能夠?qū)Χ喾N信息模式進(jìn)行解釋、合成與翻譯,由此把情境、語言與圖像映射起來。雖然DALL-E并不是第一套多模AI方案,但卻擁有迄今為止最令人驚嘆的實(shí)際效果。
OpenAI聯(lián)合創(chuàng)始人Ilya Sutskever總結(jié)道,“這個(gè)世界不僅由文字 構(gòu)成。人類在表達(dá)之余,還會(huì)訴諸視覺。視覺元素非常重要。”
目前存在的大部分AI系統(tǒng)只能處理一種數(shù)據(jù)類型。以自然語言處理模型(NLP模型,例如GPT-3)只能處理文本;計(jì)算機(jī)視覺模型(例如人臉識(shí)別系統(tǒng))只能處理圖像。但人腦所表現(xiàn)出的智能明顯適應(yīng)性更強(qiáng),所能處理的信息也更為靈活。
人類能夠不斷從五種感官處接收并整合信息——我們也正是通過視覺、聽覺、觸覺、嗅覺與味覺的結(jié)合理解周遭世界。以此為基礎(chǔ),我們又以語音、文本、肢體表達(dá)、面部表情與音樂等多種形式將信息傳遞回這個(gè)豐富多彩的世界。
通過將自然語言理解與視覺表示生成的能力結(jié)合起來(也就是將「閱讀」與「視覺」相結(jié)合),DALL-E再次證明多模AI中蘊(yùn)藏的巨大潛力。
這還僅僅只是開始。在之后的幾個(gè)月乃至幾年中,新的AI系統(tǒng)有望將音頻、視頻、語音、圖像、書面文本、觸覺以及其他要素?zé)o縫銜接起來。隨著AI學(xué)會(huì)以越來越復(fù)雜的方式將多種信息結(jié)合起來,其理解世界并產(chǎn)生新穎洞見的能力也將迎來爆發(fā)式增長。
DALL-E還有另一層,或者說更為根本的重要意義:人類越來越無法否認(rèn)人工智能中蘊(yùn)含的巨大創(chuàng)造力。
DALL-E生成的圖像遠(yuǎn)超人類的想象力范疇。這絕不只是對(duì)互聯(lián)網(wǎng)上的現(xiàn)成圖像進(jìn)行簡單修改——相反,這些是前所未有的效果圖,其中的巧妙性與獨(dú)創(chuàng)性足以令藝術(shù)家們?yōu)橹潎@。事實(shí)上,就連DALL-E的創(chuàng)造者們往往也理解不了其生成原理。
下面來看DALL-E的幾幅作品。首先是“一碗拉面表情符號(hào)”,接下來的一幅是“牛油果組成的企鵝”。如果這些成果來自人類設(shè)計(jì)師,我們無疑會(huì)將其視為實(shí)實(shí)在在的創(chuàng)作產(chǎn)物。既然如此,我們還有理由否定或者拒絕DALL-E嗎?
▲ DALL-E根據(jù)“一碗拉面表情符號(hào)”輸出的圖像
▲ DALL-E根據(jù)“牛油果組成的企鵝”生成的圖像
憑借這種強(qiáng)大的創(chuàng)造力,DALL-E足以在產(chǎn)品設(shè)計(jì)、時(shí)尚以及建筑等領(lǐng)域證明AI技術(shù)的現(xiàn)實(shí)意義。不久之后,人類設(shè)計(jì)師也許會(huì)習(xí)慣使用DALL-E等AI系統(tǒng)作為構(gòu)思助手甚至是靈感來源。
舉個(gè)例子,在要求設(shè)計(jì)“甜甜圈風(fēng)格的扶手椅”時(shí),DALL-E帶來了種種富有構(gòu)圖的選擇。當(dāng)然,它的設(shè)計(jì)與外觀還頗具水準(zhǔn)。不難想象,未來一定會(huì)有家具設(shè)計(jì)師反復(fù)使用DALL-E以探索模型輸出,調(diào)整輸入文本進(jìn)行設(shè)計(jì)迭代,最終將AI元素引入自己的作品當(dāng)中。從汽車到燈具、從珠寶到房屋,類似的創(chuàng)意過程將適用于眾多產(chǎn)品。
▲ DALL-E根據(jù)“甜甜圈風(fēng)格的扶手椅”生成的輸出圖像
當(dāng)然,DALL-E還遠(yuǎn)非完美,它所生成的圖像也并不總能準(zhǔn)確表現(xiàn)輸入文本:例如,它經(jīng)常會(huì)在顏色、數(shù)量或空間關(guān)系方面犯錯(cuò)誤。
OpenAI公開發(fā)布的DALL-E工作示例已經(jīng)由CLIP神經(jīng)網(wǎng)絡(luò)進(jìn)行排序與篩選。對(duì)于每項(xiàng)文本輸入,篩選后系統(tǒng)將僅顯示512個(gè)樣本中置信度最高前32個(gè)樣本。換句話說,DALL-E實(shí)際生成的圖像更多,只是其中大部分效果不佳。
綜上所述,DALL-E的創(chuàng)造能力令人驚訝,而這項(xiàng)技術(shù)本身也仍在快速迭代當(dāng)中。
與AI技術(shù)的其他重大發(fā)展一樣,DALL-E再次讓我們想起一個(gè)古老的問題:機(jī)器的智能水平是否越來越接近人類?
一方面,DALL-E的誕生激發(fā)起關(guān)于超級(jí)智能技術(shù)的夸張表述。但在另一方面,以著名深度學(xué)習(xí)評(píng)論家Gary Marcus為代表的懷疑論者,則認(rèn)為DALL-E并沒有給AI技術(shù)的發(fā)展帶來任何切實(shí)推動(dòng)。
Marcus的觀點(diǎn)值得認(rèn)真對(duì)待。深度學(xué)習(xí)(包括為DALL-E、GPT-3提供基礎(chǔ)的前沿transformer架構(gòu))在智能概念建模方面仍然存在著嚴(yán)重的局限性。
但從某種意義上講,這場(chǎng)爭論其實(shí)偏離了真正的重點(diǎn)。無論OpenAI的新模型是否代表著邁向“人工通用智能”的下一步,也無論深度學(xué)習(xí)能否真正帶來與人類擁有同等認(rèn)知水平的機(jī)器智能成果,DALL-E本身仍然具備非凡的新能力——這已經(jīng)成為不爭的事實(shí)。
DALL-E及其后續(xù)方案有望在人與機(jī)器間的創(chuàng)造關(guān)系中帶來新的可能性,并由此衍生出巨大的經(jīng)濟(jì)價(jià)值,為新一波創(chuàng)新型初創(chuàng)企業(yè)及產(chǎn)品奠定基礎(chǔ)。
面對(duì)無限的可能,我們只需要充滿期待。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。