移動互聯(lián)網(wǎng)已經(jīng)成為互聯(lián)網(wǎng)行業(yè)兵家競爭最激烈的領(lǐng)域之一,各路企業(yè)紛紛以用戶需求為導(dǎo)向進(jìn)行發(fā)展布局。
9月3日,2014年百度世界大會上,百度董事長兼CEO李彥宏與業(yè)界分享了一個關(guān)于用戶行為變化的重要洞察:未來五年用戶的移動需求會發(fā)生質(zhì)的變化,通過語音、圖像等非文字形式表達(dá)的用戶需求將超過50%。
李彥宏指出,移動用戶正在逐漸脫離傳統(tǒng)鍵盤輸入習(xí)慣,相比較鍵盤這樣需要經(jīng)過長久學(xué)習(xí)才能掌握的工具,通過語音、圖像等方式表達(dá)搜索請求,是最自然的,本能的表達(dá)需求方式。它所帶來用戶行為的轉(zhuǎn)變,也注定會成為移動互聯(lián)網(wǎng)最重要入口。
發(fā)展心理學(xué)的研究表明,人類所獲取的70%的外部信息來自視覺,因此人類跟周邊世界中人和物的溝通以及交互,極其依賴于圖像;而從嬰幼兒牙牙學(xué)語開始,通過語言溝通實(shí)現(xiàn)需求表達(dá)即成為人類的本能。因此,在李彥宏看來,移動互聯(lián)網(wǎng)正不斷推動語音、圖像等需求表達(dá),這樣的用戶行為變化也說明未來的科技將更加回歸自然、貼近人性。
當(dāng)前移動網(wǎng)絡(luò)基礎(chǔ)能力的增強(qiáng)使網(wǎng)速大幅提高,為用戶使用語音提供了良好的環(huán)境;智能設(shè)備的推陳出新,也為語音提供了高質(zhì)量的輸入條件。而全民低成本造圖,日均數(shù)億量級的社會化圖片分享也為移動互聯(lián)網(wǎng)提供了大量圖片數(shù)據(jù)。這一趨勢,在移動互聯(lián)網(wǎng)技術(shù)依托下,讓圖像識別、語義理解和人機(jī)對話連在一起,幫助用戶完成任務(wù)。當(dāng)用戶需求隨著技術(shù)自由實(shí)現(xiàn)急劇增長,未來將足夠引起一個劃時代的變革。
“我們正在積極的努力,在技術(shù)上進(jìn)行研發(fā),不斷提升我們的語音識別和圖像識別能力,更好地滿足用戶的需求”,李彥宏說。
試想一下,當(dāng)你在街上看到一個商標(biāo),用攝像頭對其進(jìn)行拍照,后臺可以先進(jìn)行提取,再進(jìn)行模板匹配的方法進(jìn)行圖像結(jié)算——與其特征進(jìn)行匹配,給出用戶最想要的結(jié)果——包括價格、購買信息甚至一鍵下單;對手機(jī)說“中午我想吃漢堡”,12點(diǎn)準(zhǔn)時外賣在敲門,這樣的行為真正地回歸了自然的方式,更方便、更人性地傳遞著互聯(lián)網(wǎng)技術(shù)改變?nèi)藗兩畹闹卮笠饬x。而這些想象,以李彥宏的趨勢洞察來審視,相信會在不遠(yuǎn)的將來即將實(shí)現(xiàn)。
不僅如此,李彥宏在百度世界上還宣布“百度筷搜”1.0版本問世,對于這樣一款僅憑概念就火爆業(yè)界的產(chǎn)品,“百度筷搜”已經(jīng)能夠?qū)崿F(xiàn)檢測油質(zhì)優(yōu)劣、水質(zhì)酸堿度等交互功能,無疑正在向成為“非文字需求”的更多典型應(yīng)用場景而努力。
尼葛洛·龐帝早在《數(shù)字化生存》中提到,信息完全取決于我們眼中所見的品質(zhì)。經(jīng)過近年的技術(shù)研究與布局,百度的語音、圖像技術(shù)現(xiàn)在已經(jīng)到了破繭而出的關(guān)鍵時刻,而李彥宏和他掌舵的百度,正依靠技術(shù)積累和創(chuàng)新,在把握未來用戶移動需求之路上得以先行,并催生移動互聯(lián)網(wǎng)變革的春天
好文章,需要你的鼓勵
騰訊ARC實(shí)驗室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。