億次。”
阿里巴巴高級技術(shù)專家 羅金鵬
4月20日, UBDC全域大數(shù)據(jù)峰會·2016上,阿里巴巴公共數(shù)據(jù)平臺負(fù)責(zé)人羅金鵬首次對外披露了在阿里中臺戰(zhàn)略下,如何推動數(shù)據(jù)中臺落地的個中細(xì)節(jié)。
據(jù)悉,中臺戰(zhàn)略是阿里巴巴于2015年底首次提出。作為阿里中臺戰(zhàn)略的核心之一——數(shù)據(jù)中臺旨在對內(nèi)提供數(shù)據(jù)基礎(chǔ)建設(shè)和統(tǒng)一的數(shù)據(jù)服務(wù),對外提供服務(wù)商家的數(shù)據(jù)產(chǎn)品。
OneData是阿里數(shù)據(jù)中臺的核心,羅金鵬介紹,OneData體系建立的集團(tuán)數(shù)據(jù)公共層,從設(shè)計(jì)、開發(fā)、部署和使用上保障了數(shù)據(jù)口徑的規(guī)范和統(tǒng)一,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)全鏈路管理,提供標(biāo)準(zhǔn)數(shù)據(jù)輸出。
統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)是一項(xiàng)非常復(fù)雜的工作,譬如,針對UV這一相同的指標(biāo),在統(tǒng)一之前阿里內(nèi)部竟然有10多種數(shù)據(jù)定義。據(jù)介紹,OneData數(shù)據(jù)公共層總共對30000多個數(shù)據(jù)指標(biāo)進(jìn)行了口徑的規(guī)范和統(tǒng)一,梳理后縮減為3000余個。
盡管工程浩大,但是此舉卻為阿里帶來了顯著的收效。借助于OneData平臺實(shí)時(shí)數(shù)據(jù)分析能力,在2015年雙11當(dāng)天,淘寶搜索排序中引入實(shí)時(shí)數(shù)據(jù)影響因子,實(shí)現(xiàn)增收數(shù)十億元,羅金鵬表示。
在DT時(shí)代,數(shù)據(jù)暴增對存儲計(jì)算成本帶來很大的挑戰(zhàn)。據(jù)羅金鵬介紹在沒有建設(shè)統(tǒng)一的數(shù)據(jù)公共層時(shí),阿里內(nèi)部服務(wù)器需求量會在5年之后達(dá)到現(xiàn)在的100倍之多。而經(jīng)過數(shù)據(jù)公共層的統(tǒng)一建設(shè),5年后的服務(wù)器需求量相對會節(jié)約90%。
此外,阿里基于數(shù)據(jù)中臺孵化了一個內(nèi)部名叫“GProfile”全域用戶檔案的標(biāo)簽服務(wù)。“GProfile”根據(jù)用戶行為,打上不同的標(biāo)簽,再推薦與買家消費(fèi)能力和喜好匹配的商品?;诖嗣總€用戶在手機(jī)淘寶上搜索“連衣裙”,每個人看到的搜索結(jié)果都是不一樣。
千人千面的個性化服務(wù)背后的數(shù)據(jù)基礎(chǔ)就是“GProfile”。據(jù)羅金鵬的介紹,目前標(biāo)簽有300多種,如此多的標(biāo)簽,都是為了更精準(zhǔn)地定位用戶,從而實(shí)現(xiàn)更好的用戶體驗(yàn)與精準(zhǔn)營銷。
除對內(nèi)挖掘數(shù)據(jù)的價(jià)值,用技術(shù)驅(qū)動和創(chuàng)新內(nèi)部的業(yè)務(wù),阿里數(shù)據(jù)同時(shí)也將數(shù)據(jù)能力通過產(chǎn)品對外服務(wù)。而這一產(chǎn)品即是“生意參謀”,為商家提供多維度的數(shù)據(jù)服務(wù),幫助商家通過數(shù)據(jù)分析來進(jìn)行商業(yè)決策。
羅金鵬告訴記者,生意參謀可以用數(shù)據(jù)化來貫穿到企業(yè)管理的整體鏈路中,包括了,品類管理數(shù)據(jù)化、營銷數(shù)據(jù)化、品牌數(shù)據(jù)化以及服務(wù)數(shù)據(jù)化。
據(jù)悉到目前為止,生意參謀已經(jīng)為千萬商家服務(wù),月成交額30萬元以上的商家中,逾90%在使用生意參謀;月成交金額100萬元以上的商家中,逾90%每月登錄生意參謀天次達(dá)20次以上。
在DT時(shí)代,數(shù)據(jù)已經(jīng)成為推動商業(yè)發(fā)展的新能源,而數(shù)據(jù)中臺的建設(shè)成為新能源能否在阿里巴巴生態(tài)中發(fā)揮價(jià)值的關(guān)鍵。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個任務(wù)上驗(yàn)證有效性。