5月21日,搜狗聯(lián)合新華社推出的全球首個3D AI合成主播“新小微”正式亮相,為全國觀眾帶來最新的兩會新聞資訊報道。基于搜狗人工智能核心技術“搜狗分身”打造的“新小微”,將拉開中國傳媒行業(yè)全面進入智慧時代的序幕。
作為AI合成主播的開創(chuàng)者和引領者,自2018年基于搜狗分身技術推出全球首個AI合成主播后,搜狗分身持續(xù)取得重大突破,此次的3D AI合成主播就是搜狗分身最新的突破性成果。
“新小微”以新華社記者趙琬微為原型,基于超寫實3D數(shù)字人建模、多模態(tài)識別及生成、實時面部動作生成及驅動、遷移學習等多項人工智能前沿技術,使機器可以基于輸入文本生成逼真度極高的3D數(shù)字人視頻內(nèi)容。
3D AI合成主播結合了原力科技提供的業(yè)界領先的掃描還原、面部肌肉驅動、表情肢體捕捉等技術,生產(chǎn)出了高度還原真人發(fā)膚、形象逼真的數(shù)字人模型;同時基于搜狗分身領先的端到端多模態(tài)建模技術,使用語音、圖像、文本、3D肌肉運動數(shù)據(jù)等多模態(tài)信息完成聯(lián)合建模訓練。在AI算法的驅動下,只需輸入文本內(nèi)容,“新小微”就能根據(jù)語義實時播報新聞,其表情唇動、肢體動作和語音表達高度契合、自然逼真。
搜狗推出全球第一位AI合成主播后,通過不斷迭代更新使AI合成主播具備了多語種播報、對話交互等諸多能力,用最前沿的技術能力和產(chǎn)品效果,不斷推動傳媒行業(yè)內(nèi)容生產(chǎn)的效率變革。據(jù)統(tǒng)計,首位 AI 合成主播“新小浩”已在新華社客戶端上持續(xù)為觀眾服務500 多天,先后產(chǎn)出13,000多條新聞報道,累計時長超過35,000分鐘。
較之前的2D AI合成主播,3D“新小微”不僅立體、靈活,可控,還具有同時支持多機位多景深,360°任意角度呈現(xiàn)內(nèi)容等能力,在應用空間上擁有更多的可能性,為新聞節(jié)目多樣化制作和呈現(xiàn)帶來了更多選擇。
從最初的2D到今天的3D AI合成主播,其背后不僅僅是搜狗分身技術的一次次突破迭代,更體現(xiàn)出人工智能驅動傳媒行業(yè)生產(chǎn)效率與生產(chǎn)流程的不斷革新。不僅減輕了行業(yè)從業(yè)者的重復性工作,更讓相關工作“擬人化”、“生動化”,讓傳媒新聞播報更加有趣,更具現(xiàn)場性。不久的將來,3D AI合成主播還會走出演播廳,支持外景播報和互動采訪,為觀眾帶來最前沿的新聞訊息。
在5G全面鋪展的新技術時代,隨著分身技術落地經(jīng)驗的不斷積累以及產(chǎn)品技術的突破創(chuàng)新,搜狗分身也會從傳媒領域出發(fā),快速向影音娛樂、醫(yī)療健康、教育金融等眾多領域蔓延輻射,持續(xù)推動大眾智能生活的建設。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。