5月21日,搜狗聯(lián)合新華社推出的全球首個(gè)3D AI合成主播“新小微”正式亮相,為全國(guó)觀眾帶來(lái)最新的兩會(huì)新聞資訊報(bào)道。基于搜狗人工智能核心技術(shù)“搜狗分身”打造的“新小微”,將拉開中國(guó)傳媒行業(yè)全面進(jìn)入智慧時(shí)代的序幕。
作為AI合成主播的開創(chuàng)者和引領(lǐng)者,自2018年基于搜狗分身技術(shù)推出全球首個(gè)AI合成主播后,搜狗分身持續(xù)取得重大突破,此次的3D AI合成主播就是搜狗分身最新的突破性成果。
“新小微”以新華社記者趙琬微為原型,基于超寫實(shí)3D數(shù)字人建模、多模態(tài)識(shí)別及生成、實(shí)時(shí)面部動(dòng)作生成及驅(qū)動(dòng)、遷移學(xué)習(xí)等多項(xiàng)人工智能前沿技術(shù),使機(jī)器可以基于輸入文本生成逼真度極高的3D數(shù)字人視頻內(nèi)容。
3D AI合成主播結(jié)合了原力科技提供的業(yè)界領(lǐng)先的掃描還原、面部肌肉驅(qū)動(dòng)、表情肢體捕捉等技術(shù),生產(chǎn)出了高度還原真人發(fā)膚、形象逼真的數(shù)字人模型;同時(shí)基于搜狗分身領(lǐng)先的端到端多模態(tài)建模技術(shù),使用語(yǔ)音、圖像、文本、3D肌肉運(yùn)動(dòng)數(shù)據(jù)等多模態(tài)信息完成聯(lián)合建模訓(xùn)練。在AI算法的驅(qū)動(dòng)下,只需輸入文本內(nèi)容,“新小微”就能根據(jù)語(yǔ)義實(shí)時(shí)播報(bào)新聞,其表情唇動(dòng)、肢體動(dòng)作和語(yǔ)音表達(dá)高度契合、自然逼真。
搜狗推出全球第一位AI合成主播后,通過(guò)不斷迭代更新使AI合成主播具備了多語(yǔ)種播報(bào)、對(duì)話交互等諸多能力,用最前沿的技術(shù)能力和產(chǎn)品效果,不斷推動(dòng)傳媒行業(yè)內(nèi)容生產(chǎn)的效率變革。據(jù)統(tǒng)計(jì),首位 AI 合成主播“新小浩”已在新華社客戶端上持續(xù)為觀眾服務(wù)500 多天,先后產(chǎn)出13,000多條新聞報(bào)道,累計(jì)時(shí)長(zhǎng)超過(guò)35,000分鐘。
較之前的2D AI合成主播,3D“新小微”不僅立體、靈活,可控,還具有同時(shí)支持多機(jī)位多景深,360°任意角度呈現(xiàn)內(nèi)容等能力,在應(yīng)用空間上擁有更多的可能性,為新聞節(jié)目多樣化制作和呈現(xiàn)帶來(lái)了更多選擇。
從最初的2D到今天的3D AI合成主播,其背后不僅僅是搜狗分身技術(shù)的一次次突破迭代,更體現(xiàn)出人工智能驅(qū)動(dòng)傳媒行業(yè)生產(chǎn)效率與生產(chǎn)流程的不斷革新。不僅減輕了行業(yè)從業(yè)者的重復(fù)性工作,更讓相關(guān)工作“擬人化”、“生動(dòng)化”,讓傳媒新聞播報(bào)更加有趣,更具現(xiàn)場(chǎng)性。不久的將來(lái),3D AI合成主播還會(huì)走出演播廳,支持外景播報(bào)和互動(dòng)采訪,為觀眾帶來(lái)最前沿的新聞?dòng)嵪ⅰ?/p>
在5G全面鋪展的新技術(shù)時(shí)代,隨著分身技術(shù)落地經(jīng)驗(yàn)的不斷積累以及產(chǎn)品技術(shù)的突破創(chuàng)新,搜狗分身也會(huì)從傳媒領(lǐng)域出發(fā),快速向影音娛樂(lè)、醫(yī)療健康、教育金融等眾多領(lǐng)域蔓延輻射,持續(xù)推動(dòng)大眾智能生活的建設(shè)。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。