CNET科技資訊網(wǎng) 5月25日 北京消息(文/齊豐潤(rùn)): 隨著信息技術(shù)的發(fā)展,如今,信息爆炸已成為常態(tài),對(duì)于所有企業(yè)來說,數(shù)據(jù)的管理和維護(hù)都已經(jīng)成為了一項(xiàng)十分重要且關(guān)系到企業(yè)健康發(fā)展的工作。近日,Veritas發(fā)布了《數(shù)據(jù)冰山報(bào)告》,根據(jù)報(bào)告顯示,當(dāng)前全球企業(yè)存儲(chǔ)的數(shù)據(jù)中,52%的數(shù)據(jù)為價(jià)值尚不明確的暗數(shù)據(jù),33%的數(shù)據(jù)屬于對(duì)企業(yè)沒有價(jià)值的冗余、過期或不重要的陳舊數(shù)據(jù)。每年,企業(yè)都會(huì)在數(shù)據(jù)管理上投入大量的財(cái)力和精力,而這85%的數(shù)據(jù)對(duì)這些投入都造成了極大的浪費(fèi)。
同時(shí),報(bào)告還指出對(duì)于那些擁有1,000TB數(shù)據(jù)的普通中型企業(yè)來講,企業(yè)每年存儲(chǔ)非關(guān)鍵業(yè)務(wù)數(shù)據(jù)的成本將超過400萬元人民幣。
據(jù)悉,Veritas發(fā)布的全球《數(shù)據(jù)冰山報(bào)告》基于對(duì)22個(gè)國(guó)家、地區(qū)中的2500多名IT專業(yè)人士進(jìn)行調(diào)研而成。在此之前,Veritas就在之前發(fā)布的《數(shù)據(jù)基因指數(shù)》報(bào)告中指出,40%以上的企業(yè)存儲(chǔ)數(shù)據(jù)在三年內(nèi)未曾修改,屬于“過期”數(shù)據(jù)。本次發(fā)布的《數(shù)據(jù)冰山報(bào)告》也證實(shí),企業(yè)IT領(lǐng)導(dǎo)層已經(jīng)認(rèn)識(shí)到數(shù)據(jù)囤積的問題。這兩份業(yè)內(nèi)領(lǐng)先的調(diào)研報(bào)告從員工角度和文件系統(tǒng)現(xiàn)狀出發(fā),希望能夠同時(shí)幫助企業(yè)應(yīng)對(duì)當(dāng)前嚴(yán)峻的數(shù)據(jù)增長(zhǎng)態(tài)勢(shì),促使他們采取行動(dòng)。
報(bào)告中提及,全球約52%的企業(yè)存儲(chǔ)數(shù)據(jù)為暗數(shù)據(jù)(Dark Data)或陳舊數(shù)據(jù) (ROT Data)。中國(guó)位居世界第10名,暗數(shù)據(jù)比例為54.5%,比全球平均水平高2.5%。在純凈數(shù)據(jù)和已標(biāo)記為關(guān)鍵業(yè)務(wù)數(shù)據(jù)方面,與15%的全球平均水平相比,排名前三的國(guó)家分別為中國(guó) (25%)、以色列 (24%) 以及巴西 (22%)。由此可以看出,超過75%的中國(guó)企業(yè)數(shù)據(jù)為暗數(shù)據(jù)或?qū)I(yè)務(wù)而言毫無價(jià)值的陳舊數(shù)據(jù)。
細(xì)分原因,造成大量暗數(shù)據(jù)與陳舊數(shù)據(jù)出現(xiàn)的原因除了數(shù)據(jù)的量級(jí)越來越大之外,數(shù)據(jù)囤積文化以及員工對(duì)待數(shù)據(jù)冷漠的態(tài)度也成為了十分重要的原因。
在全球企業(yè)中,平均有26.5%的員工會(huì)在工作設(shè)備中存儲(chǔ)個(gè)人數(shù)據(jù)。從員工遵從企業(yè)數(shù)據(jù)策略方面看,中國(guó)排名居中,員工在工作設(shè)備上存儲(chǔ)個(gè)人數(shù)據(jù)的比例為26%。由于企業(yè)中存儲(chǔ)的大部分?jǐn)?shù)據(jù)是暗數(shù)據(jù),IT人員無法分辨出哪些數(shù)據(jù)擁有業(yè)務(wù)價(jià)值。
在中國(guó),員工將企業(yè)網(wǎng)絡(luò)用于個(gè)人的情況越發(fā)普遍,這導(dǎo)致企業(yè)存儲(chǔ)資源中,個(gè)人法律和ID文檔比率占68%、照片文件占64%,而未經(jīng)批準(zhǔn)的軟件則占32%。雖然這些內(nèi)容看上去無關(guān)緊要,但部分文件也許會(huì)觸犯數(shù)據(jù)隱私或造成潛在版權(quán)隱患。
Veritas公司大中華區(qū)總裁蕭建生表示:“企業(yè)解決‘數(shù)據(jù)冰山’現(xiàn)狀的首要舉措是去認(rèn)識(shí)并了解所存在的數(shù)據(jù)囤積文化。當(dāng)下,中國(guó)企業(yè)迫切需要掌控他們的‘數(shù)據(jù)冰山’,并發(fā)現(xiàn)數(shù)據(jù)中的業(yè)務(wù)價(jià)值和風(fēng)險(xiǎn)。企業(yè)應(yīng)該根據(jù)數(shù)據(jù)保留策略對(duì)數(shù)據(jù)進(jìn)行分類,目前,中國(guó)僅有19%的企業(yè)采用基于數(shù)據(jù)保留策略進(jìn)行數(shù)據(jù)分類這樣的舉措。我們可以看到,企業(yè)對(duì)實(shí)施有效的暗數(shù)據(jù)信息治理的需求呈現(xiàn)出上升的態(tài)勢(shì)。”
隨著云服務(wù)產(chǎn)品的興起,許多企業(yè)都選擇將自己的數(shù)據(jù)向云上遷移,而這也加劇了“數(shù)據(jù)冰山”現(xiàn)象的產(chǎn)生。2016年,云服務(wù)和云技術(shù)的利用率將從33%增長(zhǎng)至46%,Veritas預(yù)計(jì)到2016年底,中國(guó)將有約47%的數(shù)據(jù)遷移至云。Veritas認(rèn)為,數(shù)據(jù)的云遷移只是將問題越推越遠(yuǎn),為企業(yè)增加更多未經(jīng)分類的暗數(shù)據(jù)。
而針對(duì)這些潛在的威脅,企業(yè)們應(yīng)當(dāng)如何做好對(duì)策和防范也成為了一個(gè)相當(dāng)重要的課題。首先是觀念上的改變,并不是越多的數(shù)據(jù)就會(huì)帶來越多的價(jià)值,通過技術(shù)手段發(fā)現(xiàn)并整理暗數(shù)據(jù)以及陳舊數(shù)據(jù)才會(huì)為企業(yè)保持健康,創(chuàng)造更多價(jià)值。
除此之外,制定最適合企業(yè)自身的數(shù)據(jù)規(guī)范,有公司高層制定可行的信息策略,也是消除數(shù)據(jù)冰山現(xiàn)象的可行之路。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。