近日,第二十九屆中國國際廣播電視信息網(wǎng)絡展覽會(CCBN2023)在北京舉行??焓諷treamLake展示一站式音視頻+AI能力,攜StreamLake硬件編碼器首次亮相本次大會。快手StreamLake專注于成為視頻化升級助推器,致力于助力各行業(yè)客戶實現(xiàn)視頻化業(yè)務轉型與升級,在視頻化大趨勢下,助推視聽領域共同蓬勃發(fā)展。
作為業(yè)界知名的廣播電視和網(wǎng)絡視聽技術設備行業(yè)盛會,本屆CCBN以“大視聽,向未來”為主題,展會聚焦高新技術在視聽行業(yè)的廣泛深度融合應用,促進科技自立自強和產(chǎn)業(yè)高質量發(fā)展,助力構建現(xiàn)代化大視聽發(fā)展格局。
在快手StreamLake展臺上,首次亮相的StreamLake硬件編碼器引發(fā)行業(yè)人士和參展觀眾的高度關注。據(jù)悉,該產(chǎn)品集成了快手自研SL200編碼卡及質臻影音算法,利用快手領先的視頻編解碼及增強和修復算法,提升多媒體處理環(huán)節(jié)的質量與效率,可應用于IPTV、OTT、互聯(lián)網(wǎng)視頻直播等多個領域的超高清直播平臺建設及視頻壓縮編碼。
StreamLake硬件編碼器具有三大產(chǎn)品核心能力——極致的編碼質量、領先的AI畫質增強算法、超高清實時編碼。展會現(xiàn)場,視頻畫面對比中可明顯看到在StreamLake硬件編碼器驅動下,視頻畫面中呈現(xiàn)出的每一處細節(jié)清晰細膩,色彩飽和豐富,動態(tài)影像高清流暢,帶來極致的視頻體驗。
搭載快手StreamLake首款自研芯片,帶來卓越編碼質量與性能
作為產(chǎn)品的核心技術之一,StreamLake硬件編碼器內置首款自研智能視頻處理芯片StreamLake - 200(后文簡稱SL200芯片)。該芯片具有業(yè)界極佳的編碼性能和廣泛的適用范圍,集成了快手領先的視頻編解碼、圖像處理、AI推理、內容自適應編碼等關鍵技術,具備高質量、高密度、智能化的特點。
在質量方面,SL200芯片可提供行業(yè)領先的壓縮效率,相比x265 medium節(jié)省約30%碼率;密度方面,單卡可支持8路4K@60fps轉碼,達到業(yè)界領先水平。其低功耗設計可在高密度視頻處理的同時節(jié)省大量能耗,可應用于短視頻、長視頻、視頻直播、視頻會議、云游戲以及廣電等多種場景下的智能轉碼需求。
業(yè)界領先的AI畫質增強算法,打造極致視聽體驗
為了呈現(xiàn)超高清的極致視聽體驗,在視頻處理方向上,StreamLake硬件編碼器支持質臻影音算法以及豐富的轉碼參數(shù)配置,通過畫質增強、AI超分等核心算法能力,支持對視頻中的模糊、塊效應、偽紋理等失真進行針對性修復,以及將低分辨率視頻重建為高分辨率視頻等方式,從而整體提升視頻主觀質量。
支持4K/8K 10bit HDR實時轉碼,助力超高清直播平臺建設
在國家產(chǎn)業(yè)政策的大力支持以及超高清、5G、AI、VR、大數(shù)據(jù)等技術的融合應用推動下,超高清產(chǎn)業(yè)高速發(fā)展。面對用戶對超高清視頻和直播觀看日益增長的需求,廣播電視和網(wǎng)絡視聽領域的超高清技術全面升級。StreamLake硬件編碼器可支持4K/8K 10bit HDR實時轉碼,為超高清直播平臺的建設提供有力的技術支持和保障,推動超高清產(chǎn)業(yè)在編碼技術方向上的發(fā)展。
在國家廣播電視總局科技創(chuàng)新和傳輸覆蓋成果展上,快手StreamLake六自由度在互動視聽板塊進行了相關內容展示。該技術通過多攝像頭同步采集、3D重建、壓縮傳輸和實時渲染技術,可以實現(xiàn)子彈時間、虛擬運鏡、自由視角交互等效果并支持3D空間剪輯創(chuàng)作,為用戶帶來沉浸式體驗。伴隨視聽內容呈現(xiàn)多樣化形態(tài),未來六自由度技術在體育賽事、影視娛樂、智慧場館等場景的落地應用具有廣闊空間。
基于開放的產(chǎn)品能力,快手StreamLake已攜手知乎、中國聯(lián)通、央視頻、浙江廣播電視集團、蒙牛、小米等眾多合作伙伴,在視頻化、智能化領域展開深入合作。未來,快手StreamLake也將繼續(xù)以開放的心態(tài),基于前沿的技術和產(chǎn)品優(yōu)勢,為電商、廣電傳媒、泛娛樂等各行業(yè)合作伙伴提供一站式音視頻+AI解決方案,助推視聽產(chǎn)業(yè)和數(shù)字經(jīng)濟的高質量發(fā)展。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。