作者| 金旺
2021年的某一天,在亞馬遜科技組織的一個創(chuàng)業(yè)者圓桌論壇上,趙彬第一次遇到黃碩。
黃碩曾是螞蟻金服人工智能部高級總監(jiān),在人工智能,尤其是計算機視覺算法領(lǐng)域有著多年的開發(fā)經(jīng)驗和項目管理經(jīng)驗,彼時,已經(jīng)創(chuàng)業(yè)多年的黃碩,是以一家與亞馬遜科技有著深度合作的人工智能公司創(chuàng)始人的身份受邀參加活動。
黃碩當(dāng)時創(chuàng)立的公司叫大觥科技,這一年,大觥科技剛好處于一個特殊時期——前兩年保持高速增長的圖像修復(fù)與增強業(yè)務(wù)已經(jīng)相當(dāng)成熟,黃碩開始尋找符合公司未來發(fā)展方向的新項目。
同樣作為人工智能、計算機視覺領(lǐng)域的技術(shù)專家,趙彬當(dāng)時在另一家人工智能明星創(chuàng)業(yè)企業(yè)中負責(zé)著數(shù)字人項目的研發(fā)與業(yè)務(wù)搭建工作。對技術(shù)有著自己的執(zhí)念的趙彬,彼時也在尋找一個有足夠彈藥和機會,尋找一個踏踏實實做事兒的公司,繼續(xù)將自己對數(shù)字人的執(zhí)念進行下去。
數(shù)字人,剛好也在大觥科技的射程之內(nèi),于是,兩人就這樣你來我往地攀談起來。
同為科班出身,又有著相似的技術(shù)理念,再加上當(dāng)時數(shù)字人的未知和潛力本就是一個足以令技術(shù)從業(yè)者興奮的話題,兩人相談甚歡之余,黃碩向趙彬拋出了橄欖枝:
要不要一起做一個更酷的產(chǎn)品?
來自好萊塢的靈感
2022年4月1日,張國榮逝世19周年,這一天,張國榮2000年《熱·情》演唱會在網(wǎng)上瘋狂轉(zhuǎn)發(fā),整個朋友圈都在懷念張國榮,懷念那個被風(fēng)吹過的夏天。
這次復(fù)刻版線上演唱會除了讓人們再次懷念起一代歌神張國榮,也讓騰訊和它的多媒體視頻修復(fù)技術(shù)浮出水面,據(jù)當(dāng)時媒體報道,騰訊云的相關(guān)團隊花了21天,將這場20年前的演唱會視頻分辨率提升了6倍,從480P提升到了將近4K畫質(zhì)。
成立于2018年的大觥科技,同樣是以影像修復(fù)算法起家,只不過,他們最初更多是為商業(yè)客戶提供專業(yè)影視級的視頻修復(fù)解決方案,例如為新華社、中影基地、CCTV提供影像修復(fù)解決方案,并應(yīng)用到國家級影像修復(fù)項目中。
實際上,大觥科技當(dāng)時不只服務(wù)于中國的影視機構(gòu),也在為國際知名機構(gòu)提供影像修復(fù)解決方案,一次,黃碩出差美國在為好萊塢某個項目奔忙時,一位好萊塢專業(yè)電影制片人向黃碩提了一個問題:
你們有這么棒的技術(shù),為什么不把它用在街頭,讓大家都用起來呢?
商機往往就這樣來自于旁觀者的奇思妙想。
于是,大觥科技開始嘗試將專業(yè)影像處理技術(shù)應(yīng)用到消費端,準(zhǔn)確地來說,他們將這些“高階”算法封裝到了一款手機APP中。
2019年,大觥科技制作的這款圖像增強APP在海外上線,當(dāng)時他們只是抱著試一試的心態(tài),沒有想到的是,這款產(chǎn)品市場反響出奇地好,上線不到一年時間里,用戶注冊數(shù)就從0增長到了1.2億。
后來大觥科技內(nèi)部復(fù)盤這次產(chǎn)品成功的關(guān)鍵時,總結(jié)了以下三點:算法獨一無二、效果直觀明顯、成本足夠便宜。
說是三點,其實也可以歸結(jié)為一點,也就是出色的AI算法研發(fā)與工程化能力。
2019年,語音識別、計算機視覺在商用領(lǐng)域已經(jīng)有所突破,智能音箱出現(xiàn)在普通人的家庭,安防攝像頭甚至在張學(xué)友的演唱會上還幫助警察抓到了逃犯,但這還遠談不上什么智能。據(jù)趙彬回憶,“當(dāng)年的深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)算法還沒有那么先進,開箱即用的AI算法依然稀缺,算力成本也比較高,不像現(xiàn)在,有很多成熟好用的算法可以直接調(diào)用。”
趙彬認為,AI算法大爆發(fā),實際上是在2022年。
也是在這一年,大觥科技的老舊照片修復(fù)業(yè)務(wù)日漸成熟,他們也開始尋找新的業(yè)務(wù)方向。
用一個時髦的說法是,那時的他們需要尋找自己的“第二增長曲線”。
初識數(shù)字人
2020年,抗疫成了全球主色調(diào),潛藏在疫情之下的,還有全球經(jīng)濟衰退,尤其是伴隨著互聯(lián)網(wǎng)流量增速放緩、廣告營收下降,互聯(lián)網(wǎng)經(jīng)濟也再次進入萎靡期。
面對這樣的大環(huán)境,以及企業(yè)自身的增長壓力,全球互聯(lián)網(wǎng)企業(yè)都開始尋找新的“增長曲線”,在這個過程中,兩大新興產(chǎn)業(yè)開始甚囂塵上,一個是元宇宙,另一個則是Web3。
元宇宙在隨著全球互聯(lián)網(wǎng)巨頭Facebook更名為Meta進入白熱化狀態(tài)后,2021年也被稱為元宇宙元年,這時,隨著一同跨入“元年”的,其實還有功能同樣炫酷但更容易落地的數(shù)字人。
2021年6月,騰訊虛擬數(shù)字人星瞳開始嘗試在B站直播;2021年9月,華為首個虛擬數(shù)字人“云笙”上線并入職華為云;2021年9月,阿里官宣超寫實數(shù)字人AYAYI入職阿里,成為天貓超級品牌日數(shù)字主理人;2021年11月,百度超寫實數(shù)字人龔俊在百度APP上線……,數(shù)字人這一年紛紛在互聯(lián)網(wǎng)大廠入職上崗。
在互聯(lián)網(wǎng)巨頭集中發(fā)力下,在各地政策、扶持基金的共同推動下,數(shù)字人迅速井噴。
當(dāng)年虛擬數(shù)字人被熱捧到一個怎樣的夸張程度?
據(jù)中國電子學(xué)會統(tǒng)計數(shù)據(jù)顯示,2021年國內(nèi)數(shù)字人相關(guān)企業(yè)融資共有2843起,融資金額達2540億元。另有數(shù)據(jù)顯示,2021年我國僅僅是新增虛擬數(shù)字人企業(yè)就超過了6萬家。
在數(shù)字人井噴式增長的同時,這一年,數(shù)字人也在經(jīng)歷著需求不明和全民吐槽。
花上百萬元做出一個數(shù)字人后,不知道如何用數(shù)字人開展業(yè)務(wù)的企業(yè)在這一年比比皆是,而拋開各種穿模、肢體僵硬、頻頻卡死數(shù)字人不談,這一年在網(wǎng)絡(luò)上紅極一時的數(shù)字人博主柳夜熙,僅僅制作費就已經(jīng)是百萬元級,就連第一條短視頻成本也要幾十萬元。
這樣的數(shù)字人,顯然無法做到“人均一個數(shù)字人”。
在數(shù)字人席卷中國的這一年里,趙彬正在一家人工智能明星創(chuàng)業(yè)企業(yè)里帶隊研發(fā)虛擬數(shù)字人,推動數(shù)字人在實際場景中應(yīng)用落地。
趙彬告訴科技行者,“當(dāng)年的數(shù)字人分為2D數(shù)字人和3D數(shù)字人,2D數(shù)字人圈內(nèi)也叫紙片人,當(dāng)時大家看了這類數(shù)字人除了做虛擬迎賓、虛擬主播,也干不了別的事兒。”
“直到星瞳、AYAYI這類3D超寫實數(shù)字人出現(xiàn)后,我們發(fā)現(xiàn),它的表現(xiàn)力很強,既可以自由地在3D空間中移動,也可以做出非常流暢的動作,還可以與其他數(shù)字人、場景及商品進行互動,超寫實的數(shù)字人無論是在美感上,還是質(zhì)感上,都已經(jīng)能夠打造成獨立的 IP 形象應(yīng)用于文化傳播、直播帶貨、虛擬社交等。”
3D數(shù)字人的出現(xiàn),讓像趙彬這樣的技術(shù)從業(yè)者興奮起來,也讓他們更確定了數(shù)字人的價值和意義。
不過,趙彬真正著手研發(fā)3D數(shù)字人,還要再晚一年。2022年,趙彬接受了黃碩的邀請,加入大觥科技,并于這年3月在大觥科技正式啟動了3D數(shù)字人項目。
3D世界的“學(xué)費”與“路費”
2022年,當(dāng)大觥科技正式啟動數(shù)字人項目時,最初選擇的是一條最為艱辛的路。
通過Maya或3DMax根據(jù)手繪圖、立繪圖、三視圖進行建模,是動畫、影視行業(yè)最常用的一種建模方式,也是最成熟的一種建模方式,這一方式,同樣延續(xù)到了后來3D數(shù)字人的建模中。
作為行業(yè)中的“新人”, 大觥科技需要親歷整個過程,才能了解數(shù)字人制作各個環(huán)節(jié)中涉及到的技術(shù)和知識,也只有掌握了這些基礎(chǔ)知識,才能更精準(zhǔn)地進行技術(shù)選型與開發(fā)迭代。
然而,讓趙彬沒有想到的是,以此方法,僅僅研發(fā)第一個數(shù)字人,大觥科技花了整整三個月。
談到這個數(shù)字人,趙彬用了一個很形象的詞——“雕”來形容開發(fā)過程。
“我們首先需要雕出一個數(shù)字人,之后還需要為她雕衣服、雕頭發(fā)、做綁定,中間涉及到大量的修改、優(yōu)化與重做,一個細節(jié)修改通常要花幾天到幾周的時間,整個過程往往需要花費2-3個月的時間,成本則是在幾十萬到上百萬不等。”
當(dāng)時大觥科技用3D建模方式做出的數(shù)字人效果已經(jīng)很不錯,也有一些B端用戶提出了這樣的需求,但在評估了盈利模式后,他們最終還是放棄了這條技術(shù)線。
“一個數(shù)字人做3個月,我們自己的團隊一年也就只能做出4-6個數(shù)字人,無論是從投入成本還是研發(fā)周期來看,我們都無法接受。”趙彬如是說。
不過,這次的研發(fā)經(jīng)歷讓趙彬和他的團隊親身實踐并學(xué)到了很多基礎(chǔ)知識和技術(shù)能力,用趙彬的話說就是“弄明白了3D世界是怎么玩的”。
除去3D建模方式,業(yè)界還有三種主流數(shù)字人構(gòu)建方式:相機陣列、掃描和手機自拍。
相機陣列多用于游戲制作場景,具體是在一個房間中,通過在房間各個方位布設(shè)的專業(yè)相機,對進入房間的人進行環(huán)拍,并基于此建模,制作數(shù)字人。
這一模式存在兩個問題,首先是拍攝完生成的數(shù)據(jù)需要進行二次處理,建模時間依然需要很久,最重要的是,其中使用的專業(yè)相機動輒幾萬、十幾萬。據(jù)悉,騰訊游戲團隊購置的空間掃描的整套設(shè)備一套就要2000多萬。
此外,掃描方式同樣存在類似的問題。
因而,要想造出大家都能用得起的3D數(shù)字人,通過「手機自拍」就成了最適合的模式。
在選定使用「手機自拍」這一模式后,大觥科技逐漸摸索出一條屬于自己的技術(shù)路線,據(jù)趙彬介紹,大觥科技現(xiàn)在通過3-4秒的自拍視頻或者幾張不同角度的照片,就可以在幾分鐘內(nèi)快速生成一個人3D數(shù)字人形象。
與此同時,在前期調(diào)研中,趙彬還發(fā)現(xiàn),當(dāng)時市面上很多開源解決方案并沒有解決語音與數(shù)字人模型匹配的問題。
“一是中文口型不夠自然,二是面部表情不夠豐富,只有嘴動、面部沒有動。”
趙彬認為,這些都將會成為大觥科技數(shù)字人后續(xù)商業(yè)化道路上的障礙。于是,在研發(fā)數(shù)字人的過程中,趙彬和他的團隊基于主流的蘋果ARKit blendshape 52同步研發(fā)了一套語音與數(shù)字人進行模型匹配的算法。
由于這是大觥科技基于行業(yè)標(biāo)準(zhǔn)做的一套標(biāo)準(zhǔn)算法,而且當(dāng)時在行業(yè)中也有稀缺性,這套算法后來也被一些做短視頻內(nèi)容生成的企業(yè)采購用于解決他們3D數(shù)字人的口型驅(qū)動問題。
至于數(shù)字人的商業(yè)應(yīng)用場景,大觥科技最先找到的是電商直播。大觥科技第一代3D數(shù)字人在2023年2月正式落地到一家跨境電商的直播場景中,通過引入大觥科技的3D數(shù)字人,這家跨境電商的營收增加了數(shù)十萬美金。
也是在這次合作中,趙彬意識到,他們的數(shù)字人,需要繼續(xù)加速迭代。
數(shù)字人的3D時刻
2023年,ChatGPT的出現(xiàn)震驚了全世界,ChatGPT背后的AGI(通用人工智能)也開始在各行業(yè)中形成蝴蝶效應(yīng)。
這時,數(shù)字人這個本就歸屬于人工智能產(chǎn)業(yè)中的一個細分領(lǐng)域,也難免會受到“波及”,更準(zhǔn)確地來說,應(yīng)該是加速了數(shù)字人產(chǎn)業(yè)的進程。
據(jù)趙彬觀察,今年數(shù)字人產(chǎn)業(yè)會發(fā)生兩個大的變化:
一個是 stable diffusion+ControlNet+Mov2Mov,再加上一些新的類D-ID人工智能技術(shù),將會引發(fā)新一輪2D數(shù)字人產(chǎn)業(yè)變革;
另一個是數(shù)字人與GPT結(jié)合已成必然趨勢。
趙彬說,他現(xiàn)在已經(jīng)在用ChatGPT寫代碼了。
“之前把一個復(fù)雜的C#代碼轉(zhuǎn)成C++是一件費時費力的事兒,轉(zhuǎn)成C++還需要查語法,重新寫代碼、調(diào)BUG,現(xiàn)在我只需要把C#代碼扔給ChatGPT,它就可以幫我把代碼翻譯成C++版本,之后再稍微花些時間進行調(diào)試就好了,比傳統(tǒng)方法省時省力很多。”
更重要的是,趙彬和他的團隊已經(jīng)在針對數(shù)字人與GPT的結(jié)合進行著緊鑼密鼓的技術(shù)研發(fā)。
趙彬說,對于用戶而言,數(shù)字人的使用實際上是通過一套SaaS軟件來實現(xiàn)的——用戶通過將商品信息錄入數(shù)據(jù)庫,數(shù)字人就可以按照商品排列順序,進行24小時直播。
在大觥科技第一代數(shù)字人中,用戶還需要將商品信息以文字形式錄入數(shù)據(jù)庫,趙彬和他的團隊現(xiàn)在正在做的是通過引入ChatGPT,直接由ChatGPT生成商品介紹,此外,GPT 還可以提供內(nèi)容的改寫、翻譯、縮擴容等功能,可以根據(jù)不同的使用場景調(diào)整語言語義表達,數(shù)字人直播過程中的背景圖,也可以直接由AIGC生成并接入到直播視頻中。
針對數(shù)字人電商直播場景,趙彬和他的團隊也在思考如何補齊數(shù)字人在交互能力上的短板。
趙彬告訴科技行者,大觥科技正在為第二代數(shù)字人加入問題回復(fù)能力。
具體而言,通過后臺服務(wù)監(jiān)聽直播間的彈幕信息,針對諸如發(fā)貨、物流、倉儲周期等同類問題進行智能匯總,并通過ChatGPT的PDF檢索能力及私有化知識庫訓(xùn)練,數(shù)字人就可以從大觥科技為商家構(gòu)建的本地知識庫中提取出相應(yīng)內(nèi)容,在介紹下一個商品前做統(tǒng)一回復(fù)。
2023年,隨著ChatGPT爆火,AGI成了科技巨頭的新寵,作為舊寵的數(shù)字人開始趨于理性,大家更多開始思考數(shù)字人能為業(yè)務(wù)帶來怎樣的提升,也對數(shù)字人提出了更接地氣的需求。
趙彬經(jīng)歷了數(shù)字人最狂熱的年代,也參與了大觥科技數(shù)字人從0到1的構(gòu)建,他判斷,2023年會是
3D數(shù)字人的元年,數(shù)字人在這一年將真正跨越2D時代。
而這一年數(shù)字人產(chǎn)業(yè)的巨變、3D數(shù)字人的“量產(chǎn)”,也將讓我們離“人均一個數(shù)字人”的時代更近一步。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。
關(guān)注智造、硬件、機器人。