CNET科技資訊網(wǎng) 1月20日 上海消息: 1月20日,2016云棲大會上海峰會在上??萍拣^開幕。阿里云宣布開放阿里巴巴十年的大數(shù)據(jù)能力,發(fā)布全球首個一站式大數(shù)據(jù)平臺“數(shù)加”,首批亮相20款產(chǎn)品。
這些產(chǎn)品覆蓋數(shù)據(jù)采集、計算引擎、數(shù)據(jù)加工、數(shù)據(jù)分析、機器學習、數(shù)據(jù)應用等數(shù)據(jù)生產(chǎn)全鏈條。“在技術上至少領先業(yè)界三年”,阿里云大數(shù)據(jù)事業(yè)部資深總監(jiān)徐常亮說,“數(shù)加”承載了阿里巴巴EB級別的數(shù)據(jù)加工計算,經(jīng)歷了上萬名工程師的實戰(zhàn)檢驗。
Datahub是數(shù)加上的一款數(shù)據(jù)采集產(chǎn)品,可為用戶提供實時數(shù)據(jù)的發(fā)布和訂閱功能。寫入的數(shù)據(jù)可直接進行流式數(shù)據(jù)處理,也可參與后續(xù)的離線作業(yè)計算。Datahub同主流插件和客戶端保持高度兼容。
大數(shù)據(jù)計算服務MaxCompute(原ODPS)、分析型數(shù)據(jù)庫Analytic DB、流計算StreamCompute共同組成了底層強大的計算引擎。
1、大數(shù)據(jù)計算服務可6小時處理100PB數(shù)據(jù),相當于1億部高清電影。單集群規(guī)模過萬臺,并支持多集群聯(lián)合計算。做到了速度更快,成本更低。
經(jīng)測算,自建Hadoop集群的成本是數(shù)加的1.5倍,國外計算廠商AWS 的EMR成本更是數(shù)加的5倍。阿里云當天還宣布,大數(shù)據(jù)計算服務再降價50%。
2、分析型數(shù)據(jù)庫可實現(xiàn)對數(shù)據(jù)的實時多維分析,百億量級多維查詢只需100毫秒。
3、流計算擅長對實時流式數(shù)據(jù)進行分析,具有低延時、高性能的特點。每秒查詢率可以達到千萬級,日均處理萬億條消息、PB量級的數(shù)據(jù)。
計算引擎之上,“數(shù)加”提供了最豐富的云端數(shù)據(jù)開發(fā)套件,開發(fā)者可一站式完成數(shù)據(jù)加工。這些產(chǎn)品包含:數(shù)據(jù)集成、數(shù)據(jù)開發(fā)、調(diào)度系統(tǒng)、數(shù)據(jù)管理、運維視屏、數(shù)據(jù)質量、任務監(jiān)控。
整體來看,大數(shù)據(jù)開發(fā)套件的優(yōu)勢包括:支持100人以上協(xié)同設計、開發(fā)、運維;具有良好的擴展性;提供各個產(chǎn)品功能模塊的Open API,可二次開發(fā);多個數(shù)據(jù)實例之間的數(shù)據(jù)授權機制,確保數(shù)據(jù)只能使用卻不可見;提供白屏化的運維能力,以及字段級數(shù)據(jù)質量監(jiān)控、機器預警、資源使用率監(jiān)控等功能,讓用戶更好的掌控自己的數(shù)據(jù)及數(shù)據(jù)任務。
在數(shù)據(jù)分析方面,數(shù)加提供了3款產(chǎn)品供開發(fā)者使用:
1、 通過移動數(shù)據(jù)分析產(chǎn)品,開發(fā)者可快速搭建日志采集、分析系統(tǒng),從而為用戶提供個性化服務;
2、 通過數(shù)加BI報表產(chǎn)品,3分鐘即可完成海量數(shù)據(jù)的分析報告。產(chǎn)品支持多種云數(shù)據(jù)源,提供近20種可視化效果。
3、 通過數(shù)據(jù)可視化產(chǎn)品DataV,一星期就能做出雙11同款大屏。這款產(chǎn)品,曾支持了阿里巴巴多年的雙11、雙12作戰(zhàn)指揮。
同時,基于DataV,數(shù)加還發(fā)布了面向政府的行業(yè)應用產(chǎn)品“郡縣圖治”。通過這款產(chǎn)品,縣長可以在一個屏幕下統(tǒng)覽全縣各項經(jīng)濟民生數(shù)據(jù),為政府決策提供輔助。
對于時下大熱的機器學習,數(shù)加更是提供了全面支持。“數(shù)加”發(fā)布的機器學習工具,可基于海量數(shù)據(jù)實現(xiàn)對用戶行為、行業(yè)走勢、天氣、交通等的預測。圖形化編程讓用戶無需編碼、只需用鼠標拖拽標準化組件即可完成開發(fā)。產(chǎn)品還集成了阿里巴巴核心算法庫,包括特征工程、大規(guī)模機器學習、深度學習等。
為了能夠幫助開發(fā)者更快捷在應用中集成大數(shù)據(jù)功能,“數(shù)加”同時提供了規(guī)則引擎、推薦引擎、文字識別、智能語音交互等數(shù)據(jù)應用產(chǎn)品。
1、規(guī)則引擎是一款用于解決業(yè)務規(guī)則頻繁變化的在線服務,可通過簡單組合預定義的條件因子編寫業(yè)務規(guī)則,并做出業(yè)務決策。比如,銀行會設置如果10分鐘內(nèi)用戶在兩個省份交易,則需要電話確認。
2、推薦引擎是一款用于實時預測用戶對物品偏好的數(shù)據(jù)工具,它能夠幫助客戶發(fā)現(xiàn)眾多物品中用戶最感興趣什么。
3、文字識別提供自然場景下拍攝的圖片中英文文字檢測、識別以及常見的證件類檢測和識別。
4、智能語音交互基于語音和自然語言技術構建的在線服務,為智能手機,智能電視以及物聯(lián)網(wǎng)等產(chǎn)品提供“能聽、會說、懂你”式的智能人機交互體驗。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構聯(lián)合提出SparseLoRA技術,通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。