av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 大觥科技趙彬:數(shù)字人,跨時代

大觥科技趙彬:數(shù)字人,跨時代

2023-05-09 09:14
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2023-05-09 09:14 ? 金旺

作者| 金旺

2021年的某一天,在亞馬遜科技組織的一個創(chuàng)業(yè)者圓桌論壇上,趙彬第一次遇到黃碩。

黃碩曾是螞蟻金服人工智能部高級總監(jiān),在人工智能,尤其是計算機視覺算法領(lǐng)域有著多年的開發(fā)經(jīng)驗和項目管理經(jīng)驗,彼時,已經(jīng)創(chuàng)業(yè)多年的黃碩,是以一家與亞馬遜科技有著深度合作的人工智能公司創(chuàng)始人的身份受邀參加活動。

黃碩當(dāng)時創(chuàng)立的公司叫大觥科技,這一年,大觥科技剛好處于一個特殊時期——前兩年保持高速增長的圖像修復(fù)與增強業(yè)務(wù)已經(jīng)相當(dāng)成熟,黃碩開始尋找符合公司未來發(fā)展方向的新項目。

同樣作為人工智能、計算機視覺領(lǐng)域的技術(shù)專家,趙彬當(dāng)時在另一家人工智能明星創(chuàng)業(yè)企業(yè)中負責(zé)著數(shù)字人項目的研發(fā)與業(yè)務(wù)搭建工作。對技術(shù)有著自己的執(zhí)念的趙彬,彼時也在尋找一個有足夠彈藥和機會,尋找一個踏踏實實做事兒的公司,繼續(xù)將自己對數(shù)字人的執(zhí)念進行下去。

數(shù)字人,剛好也在大觥科技的射程之內(nèi),于是,兩人就這樣你來我往地攀談起來。

同為科班出身,又有著相似的技術(shù)理念,再加上當(dāng)時數(shù)字人的未知和潛力本就是一個足以令技術(shù)從業(yè)者興奮的話題,兩人相談甚歡之余,黃碩向趙彬拋出了橄欖枝:

要不要一起做一個更酷的產(chǎn)品?

大觥科技趙彬:數(shù)字人,跨時代

來自好萊塢的靈感

2022年4月1日,張國榮逝世19周年,這一天,張國榮2000年《熱·情》演唱會在網(wǎng)上瘋狂轉(zhuǎn)發(fā),整個朋友圈都在懷念張國榮,懷念那個被風(fēng)吹過的夏天。

這次復(fù)刻版線上演唱會除了讓人們再次懷念起一代歌神張國榮,也讓騰訊和它的多媒體視頻修復(fù)技術(shù)浮出水面,據(jù)當(dāng)時媒體報道,騰訊云的相關(guān)團隊花了21天,將這場20年前的演唱會視頻分辨率提升了6倍,從480P提升到了將近4K畫質(zhì)。

大觥科技趙彬:數(shù)字人,跨時代

成立于2018年的大觥科技,同樣是以影像修復(fù)算法起家,只不過,他們最初更多是為商業(yè)客戶提供專業(yè)影視級的視頻修復(fù)解決方案,例如為新華社、中影基地、CCTV提供影像修復(fù)解決方案,并應(yīng)用到國家級影像修復(fù)項目中。

實際上,大觥科技當(dāng)時不只服務(wù)于中國的影視機構(gòu),也在為國際知名機構(gòu)提供影像修復(fù)解決方案,一次,黃碩出差美國在為好萊塢某個項目奔忙時,一位好萊塢專業(yè)電影制片人向黃碩提了一個問題:

你們有這么棒的技術(shù),為什么不把它用在街頭,讓大家都用起來呢?

商機往往就這樣來自于旁觀者的奇思妙想。

于是,大觥科技開始嘗試將專業(yè)影像處理技術(shù)應(yīng)用到消費端,準(zhǔn)確地來說,他們將這些“高階”算法封裝到了一款手機APP中。

2019年,大觥科技制作的這款圖像增強APP在海外上線,當(dāng)時他們只是抱著試一試的心態(tài),沒有想到的是,這款產(chǎn)品市場反響出奇地好,上線不到一年時間里,用戶注冊數(shù)就從0增長到了1.2億。

后來大觥科技內(nèi)部復(fù)盤這次產(chǎn)品成功的關(guān)鍵時,總結(jié)了以下三點:算法獨一無二、效果直觀明顯、成本足夠便宜。

說是三點,其實也可以歸結(jié)為一點,也就是出色的AI算法研發(fā)與工程化能力。

2019年,語音識別、計算機視覺在商用領(lǐng)域已經(jīng)有所突破,智能音箱出現(xiàn)在普通人的家庭,安防攝像頭甚至在張學(xué)友的演唱會上還幫助警察抓到了逃犯,但這還遠談不上什么智能。據(jù)趙彬回憶,“當(dāng)年的深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)算法還沒有那么先進,開箱即用的AI算法依然稀缺,算力成本也比較高,不像現(xiàn)在,有很多成熟好用的算法可以直接調(diào)用。”

趙彬認為,AI算法大爆發(fā),實際上是在2022年。

也是在這一年,大觥科技的老舊照片修復(fù)業(yè)務(wù)日漸成熟,他們也開始尋找新的業(yè)務(wù)方向。

用一個時髦的說法是,那時的他們需要尋找自己的“第二增長曲線”。

初識數(shù)字人

2020年,抗疫成了全球主色調(diào),潛藏在疫情之下的,還有全球經(jīng)濟衰退,尤其是伴隨著互聯(lián)網(wǎng)流量增速放緩、廣告營收下降,互聯(lián)網(wǎng)經(jīng)濟也再次進入萎靡期。

面對這樣的大環(huán)境,以及企業(yè)自身的增長壓力,全球互聯(lián)網(wǎng)企業(yè)都開始尋找新的“增長曲線”,在這個過程中,兩大新興產(chǎn)業(yè)開始甚囂塵上,一個是元宇宙,另一個則是Web3。

元宇宙在隨著全球互聯(lián)網(wǎng)巨頭Facebook更名為Meta進入白熱化狀態(tài)后,2021年也被稱為元宇宙元年,這時,隨著一同跨入“元年”的,其實還有功能同樣炫酷但更容易落地的數(shù)字人。

2021年6月,騰訊虛擬數(shù)字人星瞳開始嘗試在B站直播;2021年9月,華為首個虛擬數(shù)字人“云笙”上線并入職華為云;2021年9月,阿里官宣超寫實數(shù)字人AYAYI入職阿里,成為天貓超級品牌日數(shù)字主理人;2021年11月,百度超寫實數(shù)字人龔俊在百度APP上線……,數(shù)字人這一年紛紛在互聯(lián)網(wǎng)大廠入職上崗。

大觥科技趙彬:數(shù)字人,跨時代

在互聯(lián)網(wǎng)巨頭集中發(fā)力下,在各地政策、扶持基金的共同推動下,數(shù)字人迅速井噴。

當(dāng)年虛擬數(shù)字人被熱捧到一個怎樣的夸張程度?

據(jù)中國電子學(xué)會統(tǒng)計數(shù)據(jù)顯示,2021年國內(nèi)數(shù)字人相關(guān)企業(yè)融資共有2843起,融資金額達2540億元。另有數(shù)據(jù)顯示,2021年我國僅僅是新增虛擬數(shù)字人企業(yè)就超過了6萬家。

在數(shù)字人井噴式增長的同時,這一年,數(shù)字人也在經(jīng)歷著需求不明和全民吐槽。

花上百萬元做出一個數(shù)字人后,不知道如何用數(shù)字人開展業(yè)務(wù)的企業(yè)在這一年比比皆是,而拋開各種穿模、肢體僵硬、頻頻卡死數(shù)字人不談,這一年在網(wǎng)絡(luò)上紅極一時的數(shù)字人博主柳夜熙,僅僅制作費就已經(jīng)是百萬元級,就連第一條短視頻成本也要幾十萬元。

這樣的數(shù)字人,顯然無法做到“人均一個數(shù)字人”。

在數(shù)字人席卷中國的這一年里,趙彬正在一家人工智能明星創(chuàng)業(yè)企業(yè)里帶隊研發(fā)虛擬數(shù)字人,推動數(shù)字人在實際場景中應(yīng)用落地。

趙彬告訴科技行者,“當(dāng)年的數(shù)字人分為2D數(shù)字人和3D數(shù)字人,2D數(shù)字人圈內(nèi)也叫紙片人,當(dāng)時大家看了這類數(shù)字人除了做虛擬迎賓、虛擬主播,也干不了別的事兒。”

“直到星瞳、AYAYI這類3D超寫實數(shù)字人出現(xiàn)后,我們發(fā)現(xiàn),它的表現(xiàn)力很強,既可以自由地在3D空間中移動,也可以做出非常流暢的動作,還可以與其他數(shù)字人、場景及商品進行互動,超寫實的數(shù)字人無論是在美感上,還是質(zhì)感上,都已經(jīng)能夠打造成獨立的 IP 形象應(yīng)用于文化傳播、直播帶貨、虛擬社交等。”

大觥科技趙彬:數(shù)字人,跨時代

3D數(shù)字人的出現(xiàn),讓像趙彬這樣的技術(shù)從業(yè)者興奮起來,也讓他們更確定了數(shù)字人的價值和意義。
不過,趙彬真正著手研發(fā)3D數(shù)字人,還要再晚一年。2022年,趙彬接受了黃碩的邀請,加入大觥科技,并于這年3月在大觥科技正式啟動了3D數(shù)字人項目。

3D世界的“學(xué)費”與“路費”

2022年,當(dāng)大觥科技正式啟動數(shù)字人項目時,最初選擇的是一條最為艱辛的路。

通過Maya或3DMax根據(jù)手繪圖、立繪圖、三視圖進行建模,是動畫、影視行業(yè)最常用的一種建模方式,也是最成熟的一種建模方式,這一方式,同樣延續(xù)到了后來3D數(shù)字人的建模中。

作為行業(yè)中的“新人”, 大觥科技需要親歷整個過程,才能了解數(shù)字人制作各個環(huán)節(jié)中涉及到的技術(shù)和知識,也只有掌握了這些基礎(chǔ)知識,才能更精準(zhǔn)地進行技術(shù)選型與開發(fā)迭代。

然而,讓趙彬沒有想到的是,以此方法,僅僅研發(fā)第一個數(shù)字人,大觥科技花了整整三個月。

談到這個數(shù)字人,趙彬用了一個很形象的詞——“雕”來形容開發(fā)過程。

“我們首先需要雕出一個數(shù)字人,之后還需要為她雕衣服、雕頭發(fā)、做綁定,中間涉及到大量的修改、優(yōu)化與重做,一個細節(jié)修改通常要花幾天到幾周的時間,整個過程往往需要花費2-3個月的時間,成本則是在幾十萬到上百萬不等。”

大觥科技趙彬:數(shù)字人,跨時代

當(dāng)時大觥科技用3D建模方式做出的數(shù)字人效果已經(jīng)很不錯,也有一些B端用戶提出了這樣的需求,但在評估了盈利模式后,他們最終還是放棄了這條技術(shù)線。

“一個數(shù)字人做3個月,我們自己的團隊一年也就只能做出4-6個數(shù)字人,無論是從投入成本還是研發(fā)周期來看,我們都無法接受。”趙彬如是說。

不過,這次的研發(fā)經(jīng)歷讓趙彬和他的團隊親身實踐并學(xué)到了很多基礎(chǔ)知識和技術(shù)能力,用趙彬的話說就是“弄明白了3D世界是怎么玩的”。

除去3D建模方式,業(yè)界還有三種主流數(shù)字人構(gòu)建方式:相機陣列、掃描和手機自拍。

相機陣列多用于游戲制作場景,具體是在一個房間中,通過在房間各個方位布設(shè)的專業(yè)相機,對進入房間的人進行環(huán)拍,并基于此建模,制作數(shù)字人。

這一模式存在兩個問題,首先是拍攝完生成的數(shù)據(jù)需要進行二次處理,建模時間依然需要很久,最重要的是,其中使用的專業(yè)相機動輒幾萬、十幾萬。據(jù)悉,騰訊游戲團隊購置的空間掃描的整套設(shè)備一套就要2000多萬。

此外,掃描方式同樣存在類似的問題。

因而,要想造出大家都能用得起的3D數(shù)字人,通過「手機自拍」就成了最適合的模式。

在選定使用「手機自拍」這一模式后,大觥科技逐漸摸索出一條屬于自己的技術(shù)路線,據(jù)趙彬介紹,大觥科技現(xiàn)在通過3-4秒的自拍視頻或者幾張不同角度的照片,就可以在幾分鐘內(nèi)快速生成一個人3D數(shù)字人形象。

大觥科技趙彬:數(shù)字人,跨時代

與此同時,在前期調(diào)研中,趙彬還發(fā)現(xiàn),當(dāng)時市面上很多開源解決方案并沒有解決語音與數(shù)字人模型匹配的問題。

“一是中文口型不夠自然,二是面部表情不夠豐富,只有嘴動、面部沒有動。”

趙彬認為,這些都將會成為大觥科技數(shù)字人后續(xù)商業(yè)化道路上的障礙。于是,在研發(fā)數(shù)字人的過程中,趙彬和他的團隊基于主流的蘋果ARKit blendshape 52同步研發(fā)了一套語音與數(shù)字人進行模型匹配的算法。

由于這是大觥科技基于行業(yè)標(biāo)準(zhǔn)做的一套標(biāo)準(zhǔn)算法,而且當(dāng)時在行業(yè)中也有稀缺性,這套算法后來也被一些做短視頻內(nèi)容生成的企業(yè)采購用于解決他們3D數(shù)字人的口型驅(qū)動問題。

至于數(shù)字人的商業(yè)應(yīng)用場景,大觥科技最先找到的是電商直播。大觥科技第一代3D數(shù)字人在2023年2月正式落地到一家跨境電商的直播場景中,通過引入大觥科技的3D數(shù)字人,這家跨境電商的營收增加了數(shù)十萬美金。

也是在這次合作中,趙彬意識到,他們的數(shù)字人,需要繼續(xù)加速迭代。

數(shù)字人的3D時刻

2023年,ChatGPT的出現(xiàn)震驚了全世界,ChatGPT背后的AGI(通用人工智能)也開始在各行業(yè)中形成蝴蝶效應(yīng)。

這時,數(shù)字人這個本就歸屬于人工智能產(chǎn)業(yè)中的一個細分領(lǐng)域,也難免會受到“波及”,更準(zhǔn)確地來說,應(yīng)該是加速了數(shù)字人產(chǎn)業(yè)的進程。

據(jù)趙彬觀察,今年數(shù)字人產(chǎn)業(yè)會發(fā)生兩個大的變化:

一個是 stable diffusion+ControlNet+Mov2Mov,再加上一些新的類D-ID人工智能技術(shù),將會引發(fā)新一輪2D數(shù)字人產(chǎn)業(yè)變革;

另一個是數(shù)字人與GPT結(jié)合已成必然趨勢。

趙彬說,他現(xiàn)在已經(jīng)在用ChatGPT寫代碼了。

“之前把一個復(fù)雜的C#代碼轉(zhuǎn)成C++是一件費時費力的事兒,轉(zhuǎn)成C++還需要查語法,重新寫代碼、調(diào)BUG,現(xiàn)在我只需要把C#代碼扔給ChatGPT,它就可以幫我把代碼翻譯成C++版本,之后再稍微花些時間進行調(diào)試就好了,比傳統(tǒng)方法省時省力很多。”

更重要的是,趙彬和他的團隊已經(jīng)在針對數(shù)字人與GPT的結(jié)合進行著緊鑼密鼓的技術(shù)研發(fā)。

趙彬說,對于用戶而言,數(shù)字人的使用實際上是通過一套SaaS軟件來實現(xiàn)的——用戶通過將商品信息錄入數(shù)據(jù)庫,數(shù)字人就可以按照商品排列順序,進行24小時直播。

在大觥科技第一代數(shù)字人中,用戶還需要將商品信息以文字形式錄入數(shù)據(jù)庫,趙彬和他的團隊現(xiàn)在正在做的是通過引入ChatGPT,直接由ChatGPT生成商品介紹,此外,GPT 還可以提供內(nèi)容的改寫、翻譯、縮擴容等功能,可以根據(jù)不同的使用場景調(diào)整語言語義表達,數(shù)字人直播過程中的背景圖,也可以直接由AIGC生成并接入到直播視頻中。

針對數(shù)字人電商直播場景,趙彬和他的團隊也在思考如何補齊數(shù)字人在交互能力上的短板。

趙彬告訴科技行者,大觥科技正在為第二代數(shù)字人加入問題回復(fù)能力。

具體而言,通過后臺服務(wù)監(jiān)聽直播間的彈幕信息,針對諸如發(fā)貨、物流、倉儲周期等同類問題進行智能匯總,并通過ChatGPT的PDF檢索能力及私有化知識庫訓(xùn)練,數(shù)字人就可以從大觥科技為商家構(gòu)建的本地知識庫中提取出相應(yīng)內(nèi)容,在介紹下一個商品前做統(tǒng)一回復(fù)。

2023年,隨著ChatGPT爆火,AGI成了科技巨頭的新寵,作為舊寵的數(shù)字人開始趨于理性,大家更多開始思考數(shù)字人能為業(yè)務(wù)帶來怎樣的提升,也對數(shù)字人提出了更接地氣的需求。

趙彬經(jīng)歷了數(shù)字人最狂熱的年代,也參與了大觥科技數(shù)字人從0到1的構(gòu)建,他判斷,2023年會是

3D數(shù)字人的元年,數(shù)字人在這一年將真正跨越2D時代。

而這一年數(shù)字人產(chǎn)業(yè)的巨變、3D數(shù)字人的“量產(chǎn)”,也將讓我們離“人均一個數(shù)字人”的時代更近一步。

分享至
0贊

好文章,需要你的鼓勵

金旺

Wille
關(guān)注智造、硬件、機器人。
推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-