作者 | 金旺
來源 | 科技行者
IDC預測數(shù)據(jù)顯示,2024年全球人工智能產業(yè)規(guī)模將達到6233億美元,同比增幅高達21.5%。
中國信通院在相關分析報告中也指出,人工智能產業(yè)之所以能保持高速增長,除了大模型的涌現(xiàn),另一個重要原因是生成式AI正在加速產業(yè)化。
要想推動以生成式AI為代表的人工智能技術在產業(yè)中快速落地應用,事關AI計算、存儲等的基礎設施技術升級就成了其中關鍵。
1月16日,OceanBase公共云產品總監(jiān)陳小偉在OB Cloud見面會上透露,面向AP實時分析場景的首個LTS(長期支持)版本OceanBase 4.3.5 LTS版本即將上線OB Cloud。
這將成為OceanBase接下來支撐企業(yè)AI應用落地的一次重要產品更新。
01 構建現(xiàn)代數(shù)據(jù)架構,OB Cloud迎來AP更新
據(jù)中國信通院在《中國數(shù)字經濟發(fā)展研究報告(2024年)》中公布數(shù)據(jù)顯示,2023年我國數(shù)字經濟規(guī)模達53.9萬億元,較上年增長3.7萬億元,占GDP比重達42.8%。
在數(shù)字經濟規(guī)模持續(xù)增長背后,是數(shù)字化已成大勢所趨,越來越多企業(yè)加入到了數(shù)字化轉型浪潮中。
不過,在企業(yè)數(shù)字化轉型過程中,尤其是中國數(shù)以千萬計的中小企業(yè),雖然得益于互聯(lián)網技術紅利,但也備受這些復雜技術維護和硬件成本投入的困擾。
于是,云服務就成了一個不錯的選擇。
OceanBase是在2022年推出的云數(shù)據(jù)庫產品OB Cloud,并啟動了云數(shù)據(jù)庫戰(zhàn)略。
彼時的OceanBase更多是為了屏蔽和簡化互聯(lián)網技術的復雜度,讓企業(yè)在受益于互聯(lián)網技術的同時,簡化技術棧并降低維護成本。
在經過這兩年持續(xù)技術更新后,OB Cloud在傳統(tǒng)數(shù)據(jù)庫云上遷移、高并發(fā)場景支持、TP&AP融合方面有了很好的表現(xiàn),不僅服務了理想、上汽大眾、vivo等超700家企業(yè),也成為了OceanBase的第二增長曲線。
例如全球零售巨頭寶潔正是在完成了多種數(shù)據(jù)庫向1個OceanBase集群遷移后,ELT最高提速了324%,得益于技術棧整合和存儲壓縮技術,實現(xiàn)了40%的降本。
作為中國跨境物流領域頭部企業(yè),縱騰物流此前由于原有自建數(shù)據(jù)庫對大規(guī)模數(shù)據(jù)處理和復雜查詢的支持有限,數(shù)據(jù)準確性和及時性不足,嚴重影響了物流過程的順利運行。
在將自建數(shù)據(jù)庫切換到OB Cloud后,縱騰物流數(shù)據(jù)庫整體擁有成本降低了56%,集團業(yè)務系統(tǒng)各項性能也得到了一定的提升。
時至今日,云數(shù)據(jù)庫已然成為行業(yè)發(fā)展的一個主流趨勢,據(jù)Flexera發(fā)布的《云狀態(tài)報告 2023》數(shù)據(jù)顯示,環(huán)境更復雜、決策較緩慢的大型企業(yè)已有50%的工作負載和數(shù)據(jù)在公有云上,中小企業(yè)比例更大,有超過三分之二的工作負載和63%的數(shù)據(jù)位于公有云中。
作為國內頭部數(shù)據(jù)庫廠商,OceanBase的OB Cloud客戶數(shù)量在2024年更是實現(xiàn)了130%的增長。
也就在云服務成為大勢所趨時,隨著生成式AI成為各類應用構建的核心功能,在企業(yè)數(shù)字化轉型過程中,人工智能技術開始加速在企業(yè)中得到應用。
來自Gartner的預測數(shù)據(jù)顯示,到2026年,超過80%的企業(yè)將會使用生成式AI的API或部署生成式AI應用程序。
這時,企業(yè)對于數(shù)據(jù)庫的實時分析能力提出了更高的需求。
1月16日,OceanBase公共云產品總監(jiān)陳小偉在OB Cloud見面會上官宣,面向AP實時分析場景的首個LTS版本OceanBase 4.3.5 LTS即將上線OB Cloud。
相較于2024年10月OceanBase年度發(fā)布會上發(fā)布的4.3.3 GA版本,OceanBase4.3.5 LTS版本在性能、功能、兼容性和易用性上得到了全面的提升。
在功能層面,4.3.5 LTS版本引入了對嵌套物化視圖的支持,并對全文索引和向量索引功能進行了完善。
這使得OceanBase數(shù)據(jù)庫在應對多模數(shù)據(jù)分析時更加靈活高效,與此同時,數(shù)據(jù)導入導出的能力也得到了顯著增強。
在向量索引方面,4.3.5 LTS版本在4.3.3版本基礎上增強了向量索引功能,支持的最大向量維度從2000維提升到了4096維,進一步擴大了OceanBase的適用范圍。
與此同時,4.3.5 LTS版本新增了對cosine距離算法的支持,用戶可以在創(chuàng)建向量索引時指定此算法,并在查詢時通過cosine_distance表達式進行過濾條件設置。
這讓OceanBase得以高效處理基于向量的多模數(shù)據(jù)查詢,為復雜的AI應用場景提供了更強的能力支持。
此外,4.3.5 LTS版本不僅對MySQL和Oracle場景的支持更加全面,還在表級恢復性能、旁路導入性能、DML性能和DDL性能方面都進行了不同程度的優(yōu)化。
值得注意的是,作為首個面向AP實時分析場景的LTS版本,在OceanBase 4.3.5 LTS版本發(fā)布之前,面向AP實時分析場景的OceanBase數(shù)據(jù)庫產品已經經歷了從4.3.1 Beta版本到4.3.3 GA版本多次迭代,有上百家企業(yè)客戶驗證了OceanBase的AP能力,在OceanBase 4.3.3 GA版本中運行的實例也已經超過100個。
正因如此,OB Cloud得以在OceanBase 4.3.5 LTS版本中構建起面向現(xiàn)代企業(yè)數(shù)字化、智能化轉型的數(shù)據(jù)架構,更好地應對實時數(shù)據(jù)分析、混合負載管理、多模數(shù)據(jù)處理等需求。
而這樣的現(xiàn)代數(shù)據(jù)架構另一項重要能力,是支持企業(yè)業(yè)務的跨云部署。
02 跨云雙活,消弭云上屏障
OceanBase首席科學家陽振坤曾指出,“今天全球有很多云平臺,這些云平臺提供了很好的數(shù)據(jù)庫服務,但是他們都存在一個局限性,那就是每個云平臺提供的數(shù)據(jù)庫本質上只能在該云平臺上使用。”
無論是基于故障、容災方面的考慮,還是基于企業(yè)出海和全球化對于更多云的可選擇性方面的考慮,企業(yè)業(yè)務往往需要在多個云上進行部署。
然而,即便是同樣基于MySQL的數(shù)據(jù)庫,不同云上的MySQL數(shù)據(jù)庫往往有著諸多不同,因而,企業(yè)業(yè)務的跨云部署就成了一大難題。
作為云中立的數(shù)據(jù)庫供應商,OceanBase早在2022年OB Cloud發(fā)布之初,就開始支持多云部署。
OB Cloud的跨云高可用方案為了解決單元基礎設施不穩(wěn)定問題,按業(yè)務需求不同,又分為跨云冷備和跨云熱備兩種模式:
跨云冷備是基于OB Cloud兼容不同云服務的對象存儲系統(tǒng)的能力,通過數(shù)據(jù)備份+實時日志備份,提供快速的集群恢復服務;
跨云熱備是OB Cloud直接通過OMS(數(shù)據(jù)遷移服務)打通不同云產品,在企業(yè)某項業(yè)務使用的云服務出現(xiàn)異常時,直接切換入口至備用云產品。
此外,OB Cloud的云內高可用方案,也為企業(yè)業(yè)務在節(jié)點、機房、地域多級之間提供了高可用保障:
在節(jié)點級高可用方案中,OB Cloud通過三副本Paxos保證企業(yè)業(yè)務不在相同機器,以避免機器級故障;
在機房級高可用方案中,OB Cloud是通過單地域三機房和單地域雙機房+異地仲裁節(jié)點保證機房級高可用;
在地域級高可用方案中,OB Cloud則是通過數(shù)據(jù)備份+日志實時備份快速做集群恢復,實現(xiàn)異地冷備。
正是基于這樣的云內高可用和跨云高可用方案,OB Cloud如今已經在美洲、歐洲、亞洲30多個地理區(qū)域的100多個可用區(qū),支持阿里云、亞馬遜云科技、谷歌云、華為云、騰訊云五大主流公有云基礎設施,提供一致的云數(shù)據(jù)庫服務。
例如映宇宙(原映客)一直與阿里云、騰訊云、亞馬遜云科技等多個云廠商有著密切合作,這一方面是因為映宇宙不同業(yè)務對云產品的需求不同,另一方面也是因為多云部署有著更強的靈活性,也有更強的議價能力。
不過,由于各大云廠商數(shù)據(jù)庫產品之間有著技術與合規(guī)壁壘的存在,能夠進行多云部署,也就成了映宇宙選擇OB Cloud的一個主要原因。
正是在選用OB Cluod后,映宇宙實現(xiàn)了多云下的統(tǒng)一技術棧,簡化了運維流程,實現(xiàn)了超30%的降本。
映宇宙的多云部署更多是基于業(yè)務發(fā)展需求的考慮,此外,隨著近年來云故障事件頻發(fā),多云部署方案的熱度還在繼續(xù)升溫,越來越多企業(yè)基于對云上安全和容災的考慮,開始基于多云方案部署核心業(yè)務系統(tǒng)。
也是在這時,在OceanBase 4.3.5 LST版本上新的同時,OB Cloud推出了跨云雙活的主備庫新特性,以滿足企業(yè)跨云容災的業(yè)務訴求。
以企業(yè)部署在阿里云上的實例為例,OB Cloud可以為該實例在AWS上創(chuàng)建備實例,以實現(xiàn)從阿里云到AWS之間的主備容災訴求。
在這個過程中,通過基于日志備份的物理備庫,將日志歸檔寫入到主庫所在同地域的對象存儲中,備庫通過公網來獲取主庫的備份歸檔日志,相較于以往的專線方案,這一方案無需額外打通成本,也無需管理復雜的VPC網絡連接,降低了使用成本和技術架構的復雜性。
與此同時,通過在不同站點保留完整的數(shù)據(jù)副本,OB Cloud跨云雙活架構大幅提升了系統(tǒng)的可靠性和抗風險能力,即使某一云產品出現(xiàn)不可用的極端情況,也能快速切換至其他云基礎設施,確保服務不中斷。
這讓OceanBase成了國內首個實現(xiàn)跨云容災的云數(shù)據(jù)庫服務商。
03 人工智能時代,需要怎樣的數(shù)據(jù)庫?
2012-2023年這11年間,我國數(shù)字經濟規(guī)模由2012年的11.2萬億元增長至2023年的53.9萬億元,數(shù)字經濟規(guī)模擴張了3.8倍,數(shù)字經濟占GDP比重高到42.8%。
在潛移默化中,數(shù)字經濟已經成為全球經濟增長的重要引擎。
與此同時,在生成式AI新模式的帶動下,人工智能技術正在成為驅動全球經濟發(fā)展的另一個重要變量。
人工智能技術的階躍式發(fā)展背后帶來的是數(shù)據(jù)量的暴增,據(jù)中國信通院研究報告顯示,在2020年6月1750億規(guī)模參數(shù)的GPT-3大模型發(fā)布后,大模型的知識密度在持續(xù)增強,平均每8個月翻一番。
尤其是在多模態(tài)大模型成為行業(yè)發(fā)展的主流趨勢后,非結構化數(shù)據(jù)爆發(fā)式增長,對數(shù)據(jù)庫提出了多模態(tài)需求。
陳小偉指出,人工智能時代非結構化數(shù)據(jù)的爆發(fā)式增長帶來了三方面挑戰(zhàn):
第一,數(shù)據(jù)體量大,企業(yè)級的非結構化數(shù)據(jù)通常以PB、EB量級存在,存儲和使用這些數(shù)據(jù)需要大量的存儲和計算資源;
第二,數(shù)據(jù)格式多,包括文本、圖片、音視頻、日志等格式;
第三,數(shù)據(jù)理解困難,由于非結構化數(shù)據(jù)的多樣性和復雜性,使得快速、準確地查詢信息變得非常困難。
這時,OceanBase打造的多模一體化技術架構的優(yōu)勢就凸顯了出來。
例如,OceanBase與支付寶“百寶箱”團隊合作,基于LBS搭建了一個可以實現(xiàn)周邊服務問答的智能體。
現(xiàn)在在支付寶的百寶箱中,你只需要對著它說出諸如“請推薦距離3000米內,評分4.5分以上,人均消費200元以內的潮汕牛肉火鍋店”,它就可以自動將符合條件的火鍋店推送給你。
在這個過程中,雖然僅僅是一次簡單的問答交互,對于數(shù)據(jù)庫而言,背后卻涉及到了空間搜索和計算、標量過濾、向量檢索在內一整套復雜流程和計算過程。
如果基于傳統(tǒng)數(shù)據(jù)庫方案,開發(fā)一個這樣的AI應用需要使用多個數(shù)據(jù)庫產品,由于不同數(shù)據(jù)庫查詢關注的維度有所不同,往往又需要基于不同數(shù)據(jù)庫召回大量數(shù)據(jù)并在內存中對多路召回數(shù)據(jù)進行重新排序,這不僅會消耗大量內存和算力,還需要較長的開發(fā)周期。
由于OceanBase多模一體化數(shù)據(jù)庫原生支持各類數(shù)據(jù)類型和索引,這類AI應用的數(shù)據(jù)庫架構從多庫簡化到了一個庫,支付寶“百寶箱”團隊僅僅用了一個星期的時間就完成了這一應用從0到1的開發(fā)。
OceanBase CEO楊冰在2024年OceanBase年度發(fā)布會上曾指出,“在未來數(shù)智化時代,數(shù)據(jù)庫技術由分走向合已經是一個必然趨勢。”
在經過這十幾年的技術研發(fā)、產品迭代,以及2000多家商業(yè)客戶實際應用場景中的打磨,如今的OceanBase已經形成了面向數(shù)字化、智能化時代的數(shù)據(jù)架構,OB Cloud也完成了向一體化多模分布式數(shù)據(jù)庫、一體化多云、一體化云平臺、一體化數(shù)據(jù)庫生態(tài)的進化。
而基于“一體化”數(shù)據(jù)架構的OB Cloud,不僅支撐了零售頭部企業(yè)和中國超60%的千億規(guī)模消費電子企業(yè)的數(shù)字化轉型,在接下來人工智能大潮下,也將成為支撐更多企業(yè)數(shù)智化轉型的一體化云數(shù)據(jù)庫。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經網絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。
關注智造、硬件、機器人。