視頻化已是各行業(yè)大勢(shì)所趨,激發(fā)出多元化需求。面臨機(jī)遇與挑戰(zhàn),快手StreamLake專注于成為視頻化升級(jí)助推器,推出視頻化升級(jí)全鏈路解決方案。近期,快手StreamLake亮相LiveVideoStackCon 2022北京站,展示了一站式音視頻+AI解決方案。
快手高級(jí)副總裁、研發(fā)線負(fù)責(zé)人于冰在主論壇帶來《匯聚音視頻新能量,探索行業(yè)新藍(lán)?!分黝}演講,從視頻行業(yè)趨勢(shì)和痛點(diǎn)出發(fā),結(jié)合快手自身的探索、演進(jìn)歷程,探討AIGC、編解碼和AI結(jié)合等方向,分享了技術(shù)變革和突破的新思路。演講中,于冰表示,“在激發(fā)行業(yè)增長點(diǎn)方向上,快手StreamLake圍繞音視頻+AI方向打造新產(chǎn)品,聚焦視頻質(zhì)量評(píng)估、PCDN、媒體傳輸協(xié)議、芯片等方向,推動(dòng)新一代視頻標(biāo)準(zhǔn)核心候選算法平臺(tái)ECM的發(fā)展,助力更多客戶實(shí)現(xiàn)視頻化業(yè)務(wù)轉(zhuǎn)型與增長。”
圖:快手高級(jí)副總裁、研發(fā)線負(fù)責(zé)人于冰
活動(dòng)現(xiàn)場,快手StreamLake舉辦了品牌專場。來自快手音視頻技術(shù)團(tuán)隊(duì)的專家們進(jìn)行了主題演講,結(jié)合行業(yè)發(fā)展最新動(dòng)態(tài),聚焦極致體驗(yàn),分享了在媒體處理、媒體傳輸協(xié)議、播放器等方向上最新進(jìn)展與落地應(yīng)用。
快手智能處理與編碼算法產(chǎn)品化之路
快手視頻圖像算法引擎負(fù)責(zé)人陳宇聰分享了在智能處理與編碼算法方向上的探索和應(yīng)用。基于在業(yè)務(wù)場景中的沉淀,他講述了如何將算法從0到1、從1到100實(shí)現(xiàn)落地應(yīng)用,通過內(nèi)部業(yè)務(wù)的積累和打磨,團(tuán)隊(duì)將算法產(chǎn)品化,并結(jié)合外部客戶業(yè)務(wù)需求,加速解決方案的迭代。此外,他還分享了StreamLake轉(zhuǎn)碼產(chǎn)品的技術(shù)亮點(diǎn)以及在客戶合作中的應(yīng)用案例,展示了質(zhì)臻輕流、質(zhì)臻影音對(duì)于視頻化業(yè)務(wù)發(fā)展的重要性。
媒體傳輸協(xié)議的演進(jìn)與未來
身處視頻大時(shí)代,視頻化需求飛速增長??焓謧鬏斔惴ㄘ?fù)責(zé)人周超分享了在泛VoD、泛Live、泛RTC等場景中,媒體傳輸協(xié)議所面臨的挑戰(zhàn)?;诳焓諯TP、KLP、LAS等協(xié)議和標(biāo)準(zhǔn),周超講述了團(tuán)隊(duì)如何結(jié)合業(yè)務(wù)需求,在媒體傳輸上的優(yōu)化與實(shí)踐。他表示,“下一代媒體傳輸協(xié)議CMTP(Common Media Transport Protocol)具有四個(gè)特點(diǎn):架構(gòu)通用、全場景、高擴(kuò)展性、特性豐富,后續(xù)將逐步在業(yè)務(wù)中落地,以持續(xù)探索更多可能”。
打造音視頻極致消費(fèi)體驗(yàn)
長期以來,視頻方向都在追求清晰度,流暢度和互動(dòng)性??焓植シ偶夹g(shù)中心負(fù)責(zé)人蒼鵬在分享中從端側(cè)播放的視角來講述消費(fèi)體驗(yàn),介紹了規(guī)模龐大而設(shè)計(jì)精巧的快手點(diǎn)播鏈路?;诳焓趾A繑?shù)據(jù),建立了快手音視頻大數(shù)據(jù)體系及播放數(shù)據(jù)體系與指標(biāo)體系,實(shí)現(xiàn)量化度量,讓用戶體驗(yàn)可視化。同時(shí),蒼鵬還介紹了快手播放核心技術(shù)、自研內(nèi)核與優(yōu)化方案,展示了快手HDR播放、移動(dòng)端超分、3D環(huán)繞音效、6DoF自由視角播放、VR全景視頻和全景直播等特色功能。目前,相關(guān)技術(shù)及產(chǎn)品能力均已對(duì)外開放,為StreamLake業(yè)務(wù)中的眾多客戶提供服務(wù)。
在音視頻硬件互動(dòng)體驗(yàn)區(qū),快手StreamLake專業(yè)級(jí)會(huì)議麥克風(fēng)SoundMatrix A10也進(jìn)行了展示,其集成了先進(jìn)的AI多通道降噪算法、AI回聲消除算法和AI混響抑制算法,為高質(zhì)量的音頻會(huì)議保駕護(hù)航。該設(shè)備由一臺(tái)主設(shè)備、2個(gè)擴(kuò)展麥克風(fēng)組成,主設(shè)備配備四個(gè)高信噪比麥克風(fēng),能夠?qū)崿F(xiàn)360°全向拾音和10米超遠(yuǎn)拾音,可以支持大中小會(huì)議室的全方位覆蓋。
作為此次快手StreamLake特邀合作伙伴,NVIDIA也在活動(dòng)中分享了其在音視頻技術(shù)探索和應(yīng)用實(shí)踐的思考。在《元宇宙入局之路——新風(fēng)口,新挑戰(zhàn)》圓桌上,NVIDIA深度學(xué)習(xí)解決方案架構(gòu)師劉一鳴,以NVIDIA Omniverse為基礎(chǔ)介紹了NVIDIA在構(gòu)建元宇宙上的技術(shù)布局以及相關(guān)案例。在 “AI與多媒體” 分會(huì)場上,NVIDIA GPU計(jì)算專家團(tuán)隊(duì)高級(jí)工程師張毅帶來了以《CV-CUDA:高性能圖像處理加速庫》為題的主題分享。CV-CUDA是NVIDIA攜手合作伙伴推出的計(jì)算機(jī)視覺和圖像處理管道開源庫,能高效運(yùn)行在GPU上,算子速度能達(dá)到OpenCV(運(yùn)行在CPU)的百倍左右。目前,CV-CUDA在例如搜索多模態(tài)、圖片分類等多個(gè)實(shí)際場景中已經(jīng)得到了應(yīng)用。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。