移動(dòng)互聯(lián)網(wǎng)已經(jīng)成為互聯(lián)網(wǎng)行業(yè)兵家競爭最激烈的領(lǐng)域之一,各路企業(yè)紛紛以用戶需求為導(dǎo)向進(jìn)行發(fā)展布局。
9月3日,2014年百度世界大會(huì)上,百度董事長兼CEO李彥宏與業(yè)界分享了一個(gè)關(guān)于用戶行為變化的重要洞察:未來五年用戶的移動(dòng)需求會(huì)發(fā)生質(zhì)的變化,通過語音、圖像等非文字形式表達(dá)的用戶需求將超過50%。
李彥宏指出,移動(dòng)用戶正在逐漸脫離傳統(tǒng)鍵盤輸入習(xí)慣,相比較鍵盤這樣需要經(jīng)過長久學(xué)習(xí)才能掌握的工具,通過語音、圖像等方式表達(dá)搜索請求,是最自然的,本能的表達(dá)需求方式。它所帶來用戶行為的轉(zhuǎn)變,也注定會(huì)成為移動(dòng)互聯(lián)網(wǎng)最重要入口。
發(fā)展心理學(xué)的研究表明,人類所獲取的70%的外部信息來自視覺,因此人類跟周邊世界中人和物的溝通以及交互,極其依賴于圖像;而從嬰幼兒牙牙學(xué)語開始,通過語言溝通實(shí)現(xiàn)需求表達(dá)即成為人類的本能。因此,在李彥宏看來,移動(dòng)互聯(lián)網(wǎng)正不斷推動(dòng)語音、圖像等需求表達(dá),這樣的用戶行為變化也說明未來的科技將更加回歸自然、貼近人性。
當(dāng)前移動(dòng)網(wǎng)絡(luò)基礎(chǔ)能力的增強(qiáng)使網(wǎng)速大幅提高,為用戶使用語音提供了良好的環(huán)境;智能設(shè)備的推陳出新,也為語音提供了高質(zhì)量的輸入條件。而全民低成本造圖,日均數(shù)億量級(jí)的社會(huì)化圖片分享也為移動(dòng)互聯(lián)網(wǎng)提供了大量圖片數(shù)據(jù)。這一趨勢,在移動(dòng)互聯(lián)網(wǎng)技術(shù)依托下,讓圖像識(shí)別、語義理解和人機(jī)對話連在一起,幫助用戶完成任務(wù)。當(dāng)用戶需求隨著技術(shù)自由實(shí)現(xiàn)急劇增長,未來將足夠引起一個(gè)劃時(shí)代的變革。
“我們正在積極的努力,在技術(shù)上進(jìn)行研發(fā),不斷提升我們的語音識(shí)別和圖像識(shí)別能力,更好地滿足用戶的需求”,李彥宏說。
試想一下,當(dāng)你在街上看到一個(gè)商標(biāo),用攝像頭對其進(jìn)行拍照,后臺(tái)可以先進(jìn)行提取,再進(jìn)行模板匹配的方法進(jìn)行圖像結(jié)算——與其特征進(jìn)行匹配,給出用戶最想要的結(jié)果——包括價(jià)格、購買信息甚至一鍵下單;對手機(jī)說“中午我想吃漢堡”,12點(diǎn)準(zhǔn)時(shí)外賣在敲門,這樣的行為真正地回歸了自然的方式,更方便、更人性地傳遞著互聯(lián)網(wǎng)技術(shù)改變?nèi)藗兩畹闹卮笠饬x。而這些想象,以李彥宏的趨勢洞察來審視,相信會(huì)在不遠(yuǎn)的將來即將實(shí)現(xiàn)。
不僅如此,李彥宏在百度世界上還宣布“百度筷搜”1.0版本問世,對于這樣一款僅憑概念就火爆業(yè)界的產(chǎn)品,“百度筷搜”已經(jīng)能夠?qū)崿F(xiàn)檢測油質(zhì)優(yōu)劣、水質(zhì)酸堿度等交互功能,無疑正在向成為“非文字需求”的更多典型應(yīng)用場景而努力。
尼葛洛·龐帝早在《數(shù)字化生存》中提到,信息完全取決于我們眼中所見的品質(zhì)。經(jīng)過近年的技術(shù)研究與布局,百度的語音、圖像技術(shù)現(xiàn)在已經(jīng)到了破繭而出的關(guān)鍵時(shí)刻,而李彥宏和他掌舵的百度,正依靠技術(shù)積累和創(chuàng)新,在把握未來用戶移動(dòng)需求之路上得以先行,并催生移動(dòng)互聯(lián)網(wǎng)變革的春天
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。