視頻化已是各行業(yè)大勢所趨,激發(fā)出多元化需求。面臨機遇與挑戰(zhàn),快手StreamLake專注于成為視頻化升級助推器,推出視頻化升級全鏈路解決方案。近期,快手StreamLake亮相LiveVideoStackCon 2022北京站,展示了一站式音視頻+AI解決方案。
快手高級副總裁、研發(fā)線負(fù)責(zé)人于冰在主論壇帶來《匯聚音視頻新能量,探索行業(yè)新藍海》主題演講,從視頻行業(yè)趨勢和痛點出發(fā),結(jié)合快手自身的探索、演進歷程,探討AIGC、編解碼和AI結(jié)合等方向,分享了技術(shù)變革和突破的新思路。演講中,于冰表示,“在激發(fā)行業(yè)增長點方向上,快手StreamLake圍繞音視頻+AI方向打造新產(chǎn)品,聚焦視頻質(zhì)量評估、PCDN、媒體傳輸協(xié)議、芯片等方向,推動新一代視頻標(biāo)準(zhǔn)核心候選算法平臺ECM的發(fā)展,助力更多客戶實現(xiàn)視頻化業(yè)務(wù)轉(zhuǎn)型與增長。”
圖:快手高級副總裁、研發(fā)線負(fù)責(zé)人于冰
活動現(xiàn)場,快手StreamLake舉辦了品牌專場。來自快手音視頻技術(shù)團隊的專家們進行了主題演講,結(jié)合行業(yè)發(fā)展最新動態(tài),聚焦極致體驗,分享了在媒體處理、媒體傳輸協(xié)議、播放器等方向上最新進展與落地應(yīng)用。
快手智能處理與編碼算法產(chǎn)品化之路
快手視頻圖像算法引擎負(fù)責(zé)人陳宇聰分享了在智能處理與編碼算法方向上的探索和應(yīng)用?;谠跇I(yè)務(wù)場景中的沉淀,他講述了如何將算法從0到1、從1到100實現(xiàn)落地應(yīng)用,通過內(nèi)部業(yè)務(wù)的積累和打磨,團隊將算法產(chǎn)品化,并結(jié)合外部客戶業(yè)務(wù)需求,加速解決方案的迭代。此外,他還分享了StreamLake轉(zhuǎn)碼產(chǎn)品的技術(shù)亮點以及在客戶合作中的應(yīng)用案例,展示了質(zhì)臻輕流、質(zhì)臻影音對于視頻化業(yè)務(wù)發(fā)展的重要性。
媒體傳輸協(xié)議的演進與未來
身處視頻大時代,視頻化需求飛速增長??焓謧鬏斔惴ㄘ?fù)責(zé)人周超分享了在泛VoD、泛Live、泛RTC等場景中,媒體傳輸協(xié)議所面臨的挑戰(zhàn)?;诳焓諯TP、KLP、LAS等協(xié)議和標(biāo)準(zhǔn),周超講述了團隊如何結(jié)合業(yè)務(wù)需求,在媒體傳輸上的優(yōu)化與實踐。他表示,“下一代媒體傳輸協(xié)議CMTP(Common Media Transport Protocol)具有四個特點:架構(gòu)通用、全場景、高擴展性、特性豐富,后續(xù)將逐步在業(yè)務(wù)中落地,以持續(xù)探索更多可能”。
打造音視頻極致消費體驗
長期以來,視頻方向都在追求清晰度,流暢度和互動性??焓植シ偶夹g(shù)中心負(fù)責(zé)人蒼鵬在分享中從端側(cè)播放的視角來講述消費體驗,介紹了規(guī)模龐大而設(shè)計精巧的快手點播鏈路。基于快手海量數(shù)據(jù),建立了快手音視頻大數(shù)據(jù)體系及播放數(shù)據(jù)體系與指標(biāo)體系,實現(xiàn)量化度量,讓用戶體驗可視化。同時,蒼鵬還介紹了快手播放核心技術(shù)、自研內(nèi)核與優(yōu)化方案,展示了快手HDR播放、移動端超分、3D環(huán)繞音效、6DoF自由視角播放、VR全景視頻和全景直播等特色功能。目前,相關(guān)技術(shù)及產(chǎn)品能力均已對外開放,為StreamLake業(yè)務(wù)中的眾多客戶提供服務(wù)。
在音視頻硬件互動體驗區(qū),快手StreamLake專業(yè)級會議麥克風(fēng)SoundMatrix A10也進行了展示,其集成了先進的AI多通道降噪算法、AI回聲消除算法和AI混響抑制算法,為高質(zhì)量的音頻會議保駕護航。該設(shè)備由一臺主設(shè)備、2個擴展麥克風(fēng)組成,主設(shè)備配備四個高信噪比麥克風(fēng),能夠?qū)崿F(xiàn)360°全向拾音和10米超遠拾音,可以支持大中小會議室的全方位覆蓋。
作為此次快手StreamLake特邀合作伙伴,NVIDIA也在活動中分享了其在音視頻技術(shù)探索和應(yīng)用實踐的思考。在《元宇宙入局之路——新風(fēng)口,新挑戰(zhàn)》圓桌上,NVIDIA深度學(xué)習(xí)解決方案架構(gòu)師劉一鳴,以NVIDIA Omniverse為基礎(chǔ)介紹了NVIDIA在構(gòu)建元宇宙上的技術(shù)布局以及相關(guān)案例。在 “AI與多媒體” 分會場上,NVIDIA GPU計算專家團隊高級工程師張毅帶來了以《CV-CUDA:高性能圖像處理加速庫》為題的主題分享。CV-CUDA是NVIDIA攜手合作伙伴推出的計算機視覺和圖像處理管道開源庫,能高效運行在GPU上,算子速度能達到OpenCV(運行在CPU)的百倍左右。目前,CV-CUDA在例如搜索多模態(tài)、圖片分類等多個實際場景中已經(jīng)得到了應(yīng)用。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。