Fraunhofer IIS在音頻編解碼領域擁有超過25年的經(jīng)驗,先后發(fā)明了MP3格式和AAC技術(shù),現(xiàn)如今很多的技術(shù)也應用在許多不同的場景當中。目前致力于研發(fā)兩大塊技術(shù):第一是xHE-AAC和MPEG H的音頻解碼,xHE-AAC是下一代廣播電視將會主要使用的編解碼;第二個是EVS(增強語音服務),將主要應用于4G LTE領域。目前,有超過1000家公司在使用Fraunhofer IIS的授權(quán)許可軟件,全球超過70億臺的設備部署了HE-AAC。
AAC系列編解碼
Fraunhofer先后研發(fā)了MP3格式、能夠提高編碼效率的AAC技術(shù)以及其組件、目前最流行的也是幾乎在每部手機中都配備的HE-AAC技術(shù)。此外,AAC-ELD是主要應用在通信領域,能夠?qū)崿F(xiàn)雙向低延遲通信的技術(shù)。目前,應用于4G LTE電信通信的技術(shù)也正在研發(fā)中。
Fraunhofer音頻技術(shù)最大的特征是向后兼容。如果企業(yè)使用了最新的解碼器xHE-AAC,那么之前所有的技術(shù)均能夠使用。一些主流的電視臺,比如BBC、NHK、新加坡的MediaCorp都使用了這一技術(shù)。
目前諸如廣播電視、IP網(wǎng)絡和移動網(wǎng)絡的技術(shù)都在不斷融合的過程中,也與很多標準組織進行合作,比如:歐洲智能電視標準HbbTV,網(wǎng)絡標準DASH,以及為好萊塢影院提供在線語音播放標準Ultra violet。HE-AAC技術(shù)是以上標準的必選技術(shù)。幾乎所有的主流媒體、廣播電視設備及服務廠商均支持HE-AAC多聲道,與此同時,越來越多的服務供應方也在使用HE-AAC的技術(shù),HE-AAC被廣泛應用于全球最受歡迎的流媒體服務中。
下一代廣播電視
下一代廣播電視的話題在包括中國、歐洲、美國、日本在內(nèi)的國家都在進行熱烈的討論。所以基于這樣一個背景,也產(chǎn)生了一個新的機構(gòu)——FOBTV。來自于全世界各地的會員都集中于此,共同探討未來廣播電視標準的發(fā)展。Fraunhofer希望未來電視系統(tǒng)能夠?qū)崿F(xiàn)全球化的兼容,但這并不意味著全世界各地的電視標準全是一樣的,而是能夠開發(fā)出一個更為靈活的系統(tǒng),來更好地滿足各地方的標準,但與此同時又能夠相互兼容。值得一提的是,這個機構(gòu)的技術(shù)委員會的主席是一名中國人,來自上海交通大學的張文軍教授。
Fraunhofer Cingo
這個產(chǎn)品的理念是希望能夠在移動設備當中為客戶提供環(huán)繞音效。這是一個非常重要的技術(shù)進步,一般來說高品質(zhì)的音效都需要在非常理想的音樂環(huán)境下才能得以實現(xiàn)。但隨著技術(shù)的進步,目前有越來越多的用戶會在小型設備上,比如平板電腦或手機中欣賞音樂或觀看電影。
而這項技術(shù)就能夠滿足用戶即使在小型設備中也能獲得優(yōu)質(zhì)的聽覺體驗。雖然人類只有兩只耳朵,但也能夠聽到各種環(huán)繞聲音效,并且能夠非常清晰地分辨聲音來自于前面、后面或者是上面、下面。所以Fraunhofer認為,人的兩個耳朵能夠?qū)崿F(xiàn)這些效果的話,如果有兩個揚聲器,應該也能夠?qū)崿F(xiàn)這種環(huán)繞音效的效果。目前這項技術(shù)能夠?qū)崿F(xiàn)一種虛擬的環(huán)繞音效效果,即使只有兩個揚聲器也可以。谷歌已經(jīng)將這項技術(shù)嵌入到他們的設備當中去,所以現(xiàn)在Google Play里面,你下載一個音頻便可以享受5.1聲道音效的影音效果。
對白增強技術(shù)——掌控音頻平衡
為了讓電視和廣播聽眾能夠擁有音頻的掌控權(quán),F(xiàn)raunhofer研發(fā)了對白增強技術(shù)。這項備受贊譽的技術(shù)幫助廣播電視領域克服了一個長期困擾的問題,即觀眾依照個人需求來改變環(huán)境音和對白之間的平衡。Fraunhofer在2013年IBC期間攜手Thomson Video Networks演示了對白增強技術(shù)在實時數(shù)字視頻廣播(DVB)鏈中的應用。此外,在2011年的溫布爾登網(wǎng)球錦標賽期間,F(xiàn)raunhofer IIS與BBC共同針對對白增強技術(shù)的可用性進行了用戶體驗反饋實驗。
對白增強技術(shù)正在完成DVB標準化的進程中,因此這項技術(shù)能夠應用于基于DVB標準(如DVB-T2)的傳輸系統(tǒng)中。
對白增強技術(shù)是HE-AAC編解碼器的理想補充。作為目前最高效的電視廣播音頻編解碼器,在英國、瑞典等大多數(shù)推出了第二代地面電視的國家,HE-AAC都是指定的音頻編解碼器。此外,HE-AAC還是 HbbTV(Hybrid Broadcast Broadband TV,混合廣播寬帶電視)指定的音頻編解碼器。
Fraunhofer IIS在中國
Fraunhofer幾乎在和中國所有的移動運營商進行溝通,希望他們將HE-AAC技術(shù)應用在更多的應用場景當中,比如VoIP、VoLTE等技術(shù)在音樂和在移動設備領域的應用。此外還與中小企業(yè)的合作。對于Fraunhofer來說,最為重要的一點就是幫助中國制造商以正確的方式來實施我們的技術(shù),以使得他們在全球范圍內(nèi)保持競爭優(yōu)勢。就在昨天,F(xiàn)raunhofer剛剛宣布了一項與香港公司的合作項目,為客戶提供測試套件,以保證他們的測試能夠滿足各個不同市場的需要。中國的客戶希望按照Fraunhofer的標準做測試,并由Fraunhofer提供認證。目前,從歐洲、新加坡、馬來西亞等國家進口的廣電設備必須得到Fraunhofer的相關(guān)認證才得以進口。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。