作為任何企業(yè)進(jìn)行新的應(yīng)用部署或系統(tǒng)更新的重要組成部分,數(shù)據(jù)遷移可以完成的遠(yuǎn)不止簡單的數(shù)據(jù)傳輸。我們完全可以把它當(dāng)作改進(jìn)現(xiàn)有數(shù)據(jù)質(zhì)量的一個機(jī)會,而且還可以對信息應(yīng)用采用更高標(biāo)準(zhǔn),為公司增添力量。它也可作為數(shù)據(jù)治理計劃的理想試點。
數(shù)據(jù)治理是一個不斷發(fā)展的學(xué)科。其目的是通過持續(xù)應(yīng)用標(biāo)準(zhǔn)流程及方法,給予公司對數(shù)據(jù)質(zhì)量和安全性的控制。
數(shù)據(jù)治理著眼于:提高數(shù)據(jù)質(zhì)量、保護(hù)敏感數(shù)據(jù)、鼓勵信息共享、提供關(guān)鍵業(yè)務(wù)數(shù)據(jù)、信息生命周期中的管理。
“許多數(shù)據(jù)遷移項目存在這樣的問題:過于頻繁地把遺留環(huán)境中的壞數(shù)據(jù)移動到全新系統(tǒng)中。”Informatica產(chǎn)品戰(zhàn)略副總裁RobKarel說。“在您把數(shù)據(jù)遷移到新的應(yīng)用系統(tǒng)之前,您必須先要詢問哪些數(shù)據(jù)可以放入新的干凈環(huán)境中。”
Karel主張將應(yīng)用數(shù)據(jù)清理規(guī)則、統(tǒng)協(xié)重復(fù)數(shù)據(jù)以及清除孤立和未使用數(shù)據(jù)作為邁向數(shù)據(jù)治理標(biāo)準(zhǔn)的良好開端。
“因為對數(shù)據(jù)治理項目的支持或許可望而不可及,通常需要一套有用的具體步驟來開始。”Karel建議要像TDWI研究概括的那樣,使用以下八個步驟,啟動一個包含數(shù)據(jù)遷移的數(shù)據(jù)治理方案:
學(xué)習(xí)數(shù)據(jù)質(zhì)量技術(shù)并加以應(yīng)用。數(shù)據(jù)質(zhì)量是一整套技術(shù)和實踐,它能為企業(yè)數(shù)據(jù)遷移工作的成功做出巨大貢獻(xiàn)。
及早并經(jīng)常剖析數(shù)據(jù)質(zhì)量。剖析數(shù)據(jù)質(zhì)量奠定了企業(yè)為新系統(tǒng)制定數(shù)據(jù)質(zhì)量、模型、架構(gòu)及使用規(guī)則標(biāo)準(zhǔn)的基礎(chǔ)。
在前進(jìn)過程中創(chuàng)建業(yè)務(wù)詞匯表。根據(jù)業(yè)務(wù)使用情況定義遺留或新系統(tǒng)中的數(shù)據(jù)。
使用數(shù)據(jù)質(zhì)量度量標(biāo)準(zhǔn)。使用這些度量標(biāo)準(zhǔn)持續(xù)改進(jìn)數(shù)據(jù),并治理數(shù)據(jù)遷移前后的整個生命周期。
糾正不合規(guī)數(shù)據(jù)。使用有利工具,以允許運行時自動及手動數(shù)據(jù)遷移數(shù)據(jù)的一致性問題。
通過驗證和確認(rèn)治理實時數(shù)據(jù)。一旦新系統(tǒng)啟動并運行,在持續(xù)基礎(chǔ)上監(jiān)測關(guān)鍵信息,以確保數(shù)據(jù)與數(shù)據(jù)治理政策及標(biāo)準(zhǔn)相容。
使用管理技術(shù)以調(diào)整數(shù)據(jù)治理和業(yè)務(wù)目標(biāo)。數(shù)據(jù)管理非常重要,因為這一角色為業(yè)務(wù)和技術(shù)團(tuán)隊的溝通服務(wù)。
協(xié)作管理。跨職能團(tuán)隊決定遷移過程中哪些數(shù)據(jù)應(yīng)該被治理以及如何治理,所有數(shù)據(jù)并非同等重要。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強(qiáng)于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。