研究稱,整個(gè)人類文明所獲得的全部數(shù)據(jù)量,有90%是最近兩年內(nèi)產(chǎn)生的。隨著移動(dòng)互聯(lián)大潮的席卷,預(yù)計(jì)通過網(wǎng)路產(chǎn)生的數(shù)據(jù)量還將呈幾何級增長。龐大的數(shù)據(jù)資源蘊(yùn)藏著無限的寶藏,過去的一年無論是企業(yè)、政府還是媒體,都在談?wù)摯髷?shù)據(jù)。有人說大數(shù)據(jù)是黃金、是競爭力,然而在這一切談?wù)摰谋澈髤s鮮有人關(guān)注數(shù)據(jù)質(zhì)量這個(gè)最根本的問題。
普元數(shù)據(jù)產(chǎn)品總監(jiān)王軒認(rèn)為,大數(shù)據(jù)處理的關(guān)鍵就是解決數(shù)據(jù)質(zhì)量問題,規(guī)避數(shù)據(jù)錯(cuò)誤、保障數(shù)據(jù)質(zhì)量才能真正讓企業(yè)從大數(shù)據(jù)應(yīng)用中獲得利益。
保障數(shù)據(jù)質(zhì)量成為大數(shù)據(jù)發(fā)揮價(jià)值的先決條件
“企業(yè)做數(shù)據(jù)集成、數(shù)據(jù)處理的核心價(jià)值我認(rèn)為是兩個(gè)方面,首先當(dāng)然能為企業(yè)帶來更多的盈利,其次是規(guī)避風(fēng)險(xiǎn),而實(shí)現(xiàn)這兩個(gè)核心價(jià)值的關(guān)鍵就是解決數(shù)據(jù)質(zhì)量問題?,F(xiàn)在大數(shù)據(jù)環(huán)境也好,傳統(tǒng)數(shù)據(jù)環(huán)境也好,大家面臨很嚴(yán)重的問題在哪兒?我們做了很多數(shù)據(jù)分析和挖掘,這種分析挖掘到底對不對靠什么來衡量?有的企業(yè)是基于數(shù)據(jù)分析作出了一些營銷的趨勢性結(jié)論,但如果你的數(shù)據(jù)本身是錯(cuò)的,分析出來的結(jié)論未必有用。” 普元數(shù)據(jù)產(chǎn)品總監(jiān)王軒表示,保證數(shù)據(jù)質(zhì)量是大數(shù)據(jù)為企業(yè)帶來價(jià)值的先決條件。
《大數(shù)據(jù)資產(chǎn):聰明的企業(yè)怎樣致勝于數(shù)據(jù)治理》一書的作者 Tony Fisher 曾提到,如果基本數(shù)據(jù)不可靠,大多數(shù)企業(yè)的大數(shù)據(jù)計(jì)劃要么會失敗,要么效果會低于預(yù)期。造成上述結(jié)果的關(guān)鍵原因在于,數(shù)據(jù)生命周期之中流入了不一致、不準(zhǔn)確、不可靠的數(shù)據(jù)。在數(shù)據(jù)領(lǐng)域最流行的一個(gè)說法是“更好的數(shù)據(jù)意味著更好的決策”,這句話從來不假,在當(dāng)今的大數(shù)據(jù)時(shí)代甚至更為真切。
“在我們接觸的眾多銀行案例中,經(jīng)常會遇到這種情況,做完一個(gè)數(shù)據(jù)倉庫,客戶信息重名的上萬個(gè),一個(gè)人1000多個(gè)賬戶,這都是數(shù)據(jù)質(zhì)量的問題。為什么會出現(xiàn)這種數(shù)據(jù)問題呢?數(shù)據(jù)處理是一個(gè)復(fù)雜的過程,這其中有很多環(huán)節(jié),從前期的數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)集成到數(shù)據(jù)處理等等,任何一個(gè)環(huán)節(jié)出錯(cuò)都有可能導(dǎo)致數(shù)據(jù)質(zhì)量問題。其中數(shù)據(jù)處理是清洗數(shù)據(jù)和規(guī)避數(shù)據(jù)風(fēng)險(xiǎn)的重要環(huán)節(jié),在這個(gè)技術(shù)領(lǐng)域普元做得很專注,在業(yè)內(nèi)也是領(lǐng)先的。”王軒認(rèn)為除了現(xiàn)有數(shù)據(jù)的處理,規(guī)避實(shí)時(shí)數(shù)據(jù)風(fēng)險(xiǎn)尤為重要的,如何在交易錯(cuò)誤時(shí)即時(shí)阻斷數(shù)據(jù)錯(cuò)誤是保障數(shù)據(jù)質(zhì)量的重要手段。由此普元早就提出大數(shù)據(jù)平臺產(chǎn)品線的概念,把所有這些環(huán)節(jié)需要的技術(shù)手段都囊括進(jìn)來,這正是普元正在修煉的‘秘籍’。”
普元大數(shù)據(jù)產(chǎn)品家族 助力企業(yè)大數(shù)據(jù)淘金
一直以來,國內(nèi)大型企業(yè)主要采用國外的數(shù)據(jù)處理軟件,隨著技術(shù)的扁平化,國內(nèi)的數(shù)據(jù)處理軟件技術(shù)越來越純熟,價(jià)格相對于國外‘大佬’來說更具競爭力。在數(shù)據(jù)處理市場國產(chǎn)軟件越來越受青睞,一方面原因是企業(yè)成本,一方面則是信息安全。
“本土化的軟件更適合國內(nèi)企業(yè)的業(yè)務(wù)需求,自主掌握知識產(chǎn)權(quán)的產(chǎn)品對企業(yè)來說安全性更高,IT成本極大降低的同時(shí)安全性又得到了提高,企業(yè)何樂而不為。”王軒表示。
普元從2010年開始涉足大數(shù)據(jù)領(lǐng)域, “普元數(shù)據(jù)處理軟件平臺領(lǐng)先的技術(shù)和方法論可以從根本幫助用戶解決數(shù)據(jù)質(zhì)量的問題,普元的復(fù)雜事件處理平臺則幫助用戶實(shí)時(shí)規(guī)避數(shù)據(jù)風(fēng)險(xiǎn),普元完備的大數(shù)據(jù)產(chǎn)品家族提供從咨詢、數(shù)據(jù)集成、數(shù)據(jù)治理到可視化的‘一站式’服務(wù)更是解除了企業(yè)大數(shù)據(jù)應(yīng)用的后顧之憂。”王軒指出普元大數(shù)據(jù)產(chǎn)品已具備豐富的功能。
目前普元的大數(shù)據(jù)產(chǎn)品家族分為四大平臺,分別是智慧數(shù)據(jù)應(yīng)用平臺、復(fù)雜事件處理平臺、數(shù)據(jù)質(zhì)量平臺和元數(shù)據(jù)管理平臺。“普元的大數(shù)據(jù)產(chǎn)品線在業(yè)內(nèi)是一流和領(lǐng)先的,這一點(diǎn)并非空穴來風(fēng)。我們的產(chǎn)品在業(yè)內(nèi)特別是金融行業(yè)有多年的積淀,普元的數(shù)據(jù)平臺基礎(chǔ)軟件已經(jīng)應(yīng)用于國家開發(fā)銀行、中信銀行、北京銀行、上海銀行等國內(nèi)金融行業(yè)的重點(diǎn)企業(yè),普元數(shù)據(jù)線軟件產(chǎn)品也受到用戶的廣泛認(rèn)可。”王軒強(qiáng)調(diào)。
談到普元大數(shù)據(jù)產(chǎn)品在未來的發(fā)展方向時(shí),王軒表示“普元的大數(shù)據(jù)產(chǎn)品家族是非常豐滿的,未來普元會持續(xù)加大在大數(shù)據(jù)研發(fā)方面的投入,繼續(xù)完善和擴(kuò)充大數(shù)據(jù)產(chǎn)品,以適應(yīng)新技術(shù)時(shí)代企業(yè)不斷變化的數(shù)據(jù)應(yīng)用需求。”
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。