作者 | 金旺
來源 | 科技行者
4月27日,OceanBase CEO楊冰發(fā)布全員信,宣布OceanBase將全面進(jìn)入AI時(shí)代,打造“Data×AI”核心能力,建設(shè)AI時(shí)代的數(shù)據(jù)底座。
“Data×AI”由此正式被寫入OceanBase的公司戰(zhàn)略。
這一戰(zhàn)略公布不到一個(gè)月,OceanBase第三屆開發(fā)者大會(huì)就在廣州召開。
大會(huì)上,OceanBase CTO楊傳輝就這一戰(zhàn)略解釋稱,“本質(zhì)上我們是要做Data,用AI,實(shí)現(xiàn)Data與AI的融合。”
關(guān)于這一戰(zhàn)略中的另一個(gè)關(guān)鍵信息——不是數(shù)據(jù)庫,而是數(shù)據(jù)底座,楊傳輝表示,“希望通過一體化的產(chǎn)品、一體化的引擎,同時(shí)處理TP、AP和AI的混合負(fù)載。”
也是在這場(chǎng)開發(fā)者大會(huì)上,OceanBase不僅發(fā)布了首個(gè)面向AI的應(yīng)用產(chǎn)品——PowerRAG,還再次升級(jí)一體化架構(gòu),發(fā)布了業(yè)內(nèi)首款深度集成對(duì)象存儲(chǔ)與TP數(shù)據(jù)庫的“共享存儲(chǔ)”產(chǎn)品。
作為OceanBase第三次技術(shù)架構(gòu)升級(jí)特別打造的產(chǎn)品,共享存儲(chǔ)為數(shù)據(jù)庫產(chǎn)業(yè)帶來了怎樣的創(chuàng)新思路?
OceanBase又在打造怎樣的數(shù)據(jù)底座?
01 AI應(yīng)用爆發(fā),亟需存儲(chǔ)技術(shù)革新
2025年1月20日,開源大模型DeepSeek R1的面世,讓大模型應(yīng)用產(chǎn)業(yè)落地開始加速。
OceanBase團(tuán)隊(duì)同樣感受到了DeepSeek對(duì)大模型應(yīng)用產(chǎn)業(yè)落地帶來的加速作用,楊傳輝在接受媒體采訪時(shí)透露,“DeepSeek的準(zhǔn)確率和成本相較之前的開源大模型有了質(zhì)的提升,我們由此判斷,未來五年,大模型應(yīng)用場(chǎng)景會(huì)迎來大爆發(fā)。”
以大模型為代表的AI應(yīng)用爆發(fā),對(duì)數(shù)據(jù)基礎(chǔ)設(shè)施也提出了更高的要求。
首先是數(shù)據(jù)量的暴增。
據(jù)IDC預(yù)測(cè)數(shù)據(jù)顯示,預(yù)計(jì)2028年全球新生成數(shù)據(jù)量規(guī)模將達(dá)到393.8ZB,相較于2018年增長(zhǎng)9.8倍,從2024到2028五年間生成的數(shù)據(jù)量將至少是過去10年生成的數(shù)據(jù)總量的2.2倍。
如此海量的數(shù)據(jù),亟需更低成本的數(shù)據(jù)存儲(chǔ)技術(shù)。
其次是數(shù)據(jù)模態(tài)的多樣化。
2023年9月25日,OpenAI正式官宣,ChatGPT新增語音、圖像對(duì)話功能,更具產(chǎn)業(yè)價(jià)值的多模態(tài)大模型已經(jīng)成為人工智能技術(shù)競(jìng)爭(zhēng)焦點(diǎn)。
而隨著大模型從NLP走向多模態(tài),原始訓(xùn)練數(shù)據(jù)集也從純文本變成了文本、圖片、語音、視頻等多種數(shù)據(jù)模態(tài)。
數(shù)據(jù)模態(tài)的多樣化,要求數(shù)據(jù)庫能夠更高效地存儲(chǔ)半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。
如何高效存儲(chǔ)海量多模態(tài)數(shù)據(jù),就成了在大模型應(yīng)用場(chǎng)景迎來大爆發(fā)前,面向AI時(shí)代的數(shù)據(jù)庫廠商必須考慮的問題。
這時(shí),已經(jīng)被廣泛應(yīng)用于分析型數(shù)據(jù)庫(AP)、企業(yè)存儲(chǔ)備份、歸檔和數(shù)據(jù)湖等場(chǎng)景的對(duì)象存儲(chǔ)技術(shù)成了解決問題的關(guān)鍵。
所謂對(duì)象存儲(chǔ),是一種將數(shù)據(jù)存儲(chǔ)為“對(duì)象”的數(shù)據(jù)存儲(chǔ)方法,不僅具有高可靠、低成本、可無限擴(kuò)展等特性,更重要的是,對(duì)象存儲(chǔ)已經(jīng)成為云上海量數(shù)據(jù)存儲(chǔ)的主流方案,諸如圖片、視頻等信息的非結(jié)構(gòu)化、半結(jié)構(gòu)化原始數(shù)據(jù),正是存儲(chǔ)在對(duì)象存儲(chǔ)中。
這讓對(duì)象存儲(chǔ)成了構(gòu)建AI時(shí)代數(shù)據(jù)底座的選擇之一。
然而,卻至今未能在事務(wù)型數(shù)據(jù)庫(TP)中得到廣泛應(yīng)用。
據(jù)楊傳輝在第三屆OceanBase開發(fā)者大會(huì)上介紹,“實(shí)際上,業(yè)內(nèi)已經(jīng)有很多面向?qū)ο蟠鎯?chǔ)的多云原生數(shù)據(jù)庫,但這些數(shù)據(jù)庫往往因?yàn)闊o法做到低延遲、實(shí)時(shí)寫入,只能在AP中應(yīng)用對(duì)象存儲(chǔ);而能夠?qū)?duì)象存儲(chǔ)應(yīng)用到TP的云原生數(shù)據(jù)庫,又往往無法將對(duì)象存儲(chǔ)構(gòu)建在共享存儲(chǔ)之上,性價(jià)比無法做到極致。”
是否能夠在TP場(chǎng)景下推出一款基于對(duì)象存儲(chǔ)的共享存儲(chǔ)產(chǎn)品,也成了OceanBase在大模型技術(shù)風(fēng)起云涌這兩年一直在思考的一個(gè)問題。
02 讓TP場(chǎng)景的共享存儲(chǔ)成為可能
什么是共享存儲(chǔ)?
按節(jié)點(diǎn)之間資源共享模式,數(shù)據(jù)庫有Shared Nothing、Shared Storage兩類主流存儲(chǔ)架構(gòu)。
Shared Nothing是指每個(gè)節(jié)點(diǎn)都擁有獨(dú)立的計(jì)算和存儲(chǔ)資源,彼此獨(dú)立運(yùn)行,沒有共享存儲(chǔ)或計(jì)算資源,數(shù)據(jù)存儲(chǔ)在不同的節(jié)點(diǎn)上,節(jié)點(diǎn)之間通過網(wǎng)絡(luò)進(jìn)行通信,這種架構(gòu)通常具有高性能、低延時(shí)特性。
Shared Storage,即共享存儲(chǔ),是指多個(gè)計(jì)算節(jié)點(diǎn)共享一個(gè)存儲(chǔ)集群,每個(gè)節(jié)點(diǎn)可以訪問共享存儲(chǔ)上的數(shù)據(jù),這種架構(gòu)簡(jiǎn)化了數(shù)據(jù)訪問,節(jié)省了存儲(chǔ)空間并保證了數(shù)據(jù)一致性,但性能會(huì)存在一定損失。
由于Shared Nothing架構(gòu)天然具備高性能、低延時(shí),可以做到實(shí)時(shí)寫入,主流TP數(shù)據(jù)庫往往采用的正是這一架構(gòu)。
OceanBase之所以能解決TP數(shù)據(jù)庫無法支持對(duì)象存儲(chǔ)的問題,源于其100%根自研的技術(shù)掌控力,包括存儲(chǔ)引擎也是由團(tuán)隊(duì)自研的LSM-Tree引擎。
實(shí)際上,據(jù)楊傳輝透露,“OceanBase早在六七年前就開始研發(fā)對(duì)象存儲(chǔ)技術(shù),并在兩三年前開始構(gòu)思在TP場(chǎng)景下的共享存儲(chǔ)產(chǎn)品。”
OceanBase產(chǎn)品部總經(jīng)理?xiàng)钪矩S是OceanBase的對(duì)象存儲(chǔ)和共享存儲(chǔ)整個(gè)研發(fā)過程的親歷者,他告訴我們,在這個(gè)過程中,OceanBase在針對(duì)共享存儲(chǔ)的訪問通路做了如下幾個(gè)方面的優(yōu)化:
首先,由于共享存儲(chǔ)本身性能不高,這對(duì)緩存提出了很高的要求,OceanBase為此特別設(shè)計(jì)了一套由內(nèi)存緩存、本地持久化緩存和對(duì)象存儲(chǔ)三層構(gòu)成的專為TP場(chǎng)景設(shè)計(jì)的多級(jí)緩存架構(gòu)。
相較而言,傳統(tǒng)基于Shared Nothing架構(gòu)的數(shù)據(jù)庫,熱點(diǎn)數(shù)據(jù)往往主要依賴內(nèi)存緩存,在共享存儲(chǔ)架構(gòu)下,OceanBase增加了本地持久化緩存層緩存,優(yōu)化了對(duì)象存儲(chǔ)的訪問延遲問題。
無論是緩存對(duì)象存儲(chǔ)讀出的數(shù)據(jù)、預(yù)讀預(yù)熱機(jī)制,還是緩存數(shù)據(jù)在節(jié)點(diǎn)間的數(shù)據(jù)同步機(jī)制,均確保了 TP、AP、KV多種負(fù)載下的性能與容災(zāi)恢復(fù)能力。
其次,OceanBase自研的LSM-Tree引擎具有天然適配“只追加、不修改”的對(duì)象存儲(chǔ)特性,基于這一存儲(chǔ)引擎設(shè)計(jì)的緩存架構(gòu)很好地避免了因數(shù)據(jù)寫入帶來的緩存失效問題,提升了IOPS利用效率。
同樣是基于LSM-Tree引擎,OceanBase團(tuán)隊(duì)在對(duì)象存儲(chǔ)天然為大塊順序I/O優(yōu)化、小I/O性能差且超過1萬IOPS容易被限流的前提下,通過聚合小I/O、異步寫入、讀寫路徑優(yōu)化、并發(fā)控制等深度工程手段,極大緩解了TP場(chǎng)景下頻繁事務(wù)訪問對(duì)底層存儲(chǔ)帶來的壓力。
第三,OceanBase通過獨(dú)特的持久化緩存彈性伸縮能力,進(jìn)一步解決了TP場(chǎng)景下熱點(diǎn)數(shù)據(jù)隨業(yè)務(wù)波動(dòng)而動(dòng)態(tài)變化的問題。
相較于業(yè)界普遍的固定緩存策略,OceanBase的本地緩存空間可隨負(fù)載自動(dòng)擴(kuò)縮,保障高并發(fā)讀寫的同時(shí),降低資源成本。
共享存儲(chǔ)版本下,OceanBase還同步改造了日志系統(tǒng)。
在傳統(tǒng)share-nothing三副本架構(gòu)中,日志服務(wù)分布在每個(gè)副本內(nèi)部。在新架構(gòu)下,日志被抽象成一個(gè)獨(dú)立服務(wù),不僅實(shí)現(xiàn)更穩(wěn)定的日志 I/O、日志的跨集群共享,還能進(jìn)一步降低存儲(chǔ)成果,提高資源利用率。
最后,OceanBase還優(yōu)化了對(duì)象存儲(chǔ)的訪問鏈路——從 I/O 調(diào)度機(jī)制、緩存命中率、預(yù)取策略,到跨可用區(qū)的副本同步機(jī)制,全面壓低延遲波動(dòng),確保TP 業(yè)務(wù)毫秒級(jí)響應(yīng)的穩(wěn)定性。
經(jīng)過這一系列對(duì)對(duì)象存儲(chǔ)訪問通路的重構(gòu),OceanBase最終在5月17日的開發(fā)者大會(huì)上正式發(fā)布了共享存儲(chǔ)產(chǎn)品,OB Cloud由此成為了業(yè)界首個(gè)在TP場(chǎng)景下支持對(duì)象存儲(chǔ)的多云原生數(shù)據(jù)庫。
03 OceanBase第三次技術(shù)架構(gòu)升級(jí)
成立于2010年的OceanBase團(tuán)隊(duì),在過去十五年里,OceanBase經(jīng)歷了兩次重要技術(shù)升級(jí):
第一次是2016年OceanBase 1.0版本的發(fā)布,在這一版本中,OceanBase團(tuán)隊(duì)解決了所有節(jié)點(diǎn)可讀可寫的問題;
第二次是2020年OceanBase 4.0版本的發(fā)布,在這一版本中,OceanBase團(tuán)隊(duì)在業(yè)內(nèi)首次提出了單機(jī)分布式一體化架構(gòu),在一套系統(tǒng)中實(shí)現(xiàn)了分布式的擴(kuò)展性和單機(jī)的功能和性能。
2025年,OceanBase迎來了第三次技術(shù)架構(gòu)升級(jí),楊傳輝稱這次技術(shù)架構(gòu)升級(jí)為“多云原生”。
作為業(yè)界首個(gè)基于對(duì)象存儲(chǔ)面向TP場(chǎng)景的多云原生數(shù)據(jù)庫產(chǎn)品,OceanBase此次發(fā)布的共享存儲(chǔ)產(chǎn)品也成了這次技術(shù)架構(gòu)升級(jí)關(guān)鍵。
在此次開發(fā)者大會(huì)上,楊傳輝特別就OceanBase工作負(fù)載由AWS的EBS模式遷移到S3對(duì)象存儲(chǔ)進(jìn)行了一次成本核算:
據(jù)AWS官網(wǎng)數(shù)據(jù)顯示,EBS每GB每月使用成本為0.1美元,S3每GB每月使用成本為0.023美元。
以100TB數(shù)據(jù)存儲(chǔ)為例,對(duì)于使用3份EBS的Shared Nothing架構(gòu)而言,數(shù)據(jù)存儲(chǔ)成本總計(jì)需要3萬美元。
對(duì)于使用共享存儲(chǔ)而言,它的成本分成兩部分:
第一部分還是S3,總計(jì)需要2300美元;
第二部分是需要把熱點(diǎn)數(shù)據(jù)緩存到本地需要的成本,假設(shè)3個(gè)副本,每個(gè)副本緩存1/3,緩存到本地的成本就是1萬美元。
這樣計(jì)算下來,使用共享存儲(chǔ)的總成本約為1.2萬美金。
由此可見,對(duì)于TP工作負(fù)載,假設(shè)每個(gè)副本緩存1/3的熱點(diǎn)數(shù)據(jù),OceanBase共享存儲(chǔ)產(chǎn)品可以將存儲(chǔ)成本降低一半。
如果是對(duì)極致高可用沒有強(qiáng)需求的AP工作負(fù)載,實(shí)際生產(chǎn)系統(tǒng)往往采用的是單副本模式,采用OceanBase共享存儲(chǔ)產(chǎn)品則可以將存儲(chǔ)成本降低近90%。
然而,極致性價(jià)比只是OceanBase此次發(fā)布的共享存儲(chǔ)產(chǎn)品的特性之一,這款產(chǎn)品的另外兩個(gè)顯著特性是Serverless和多云原生。
在Serverless方面,OceanBase這款共享存儲(chǔ)產(chǎn)品支持存儲(chǔ)和計(jì)算資源獨(dú)立彈性伸縮,按量付費(fèi),由于支持Serverless式的資源調(diào)度,從而實(shí)現(xiàn)了存儲(chǔ)不動(dòng)、計(jì)算可彈的能力。
在多云原生方面,OceanBase這款共享存儲(chǔ)產(chǎn)品全面支持Amazon S3、阿里云OSS等主流云服務(wù)及兼容S3協(xié)議的對(duì)象存儲(chǔ)。
實(shí)際上,由于主流云廠商均已兼容S3協(xié)議,這意味著OceanBase共享存儲(chǔ)產(chǎn)品已經(jīng)能夠支持大多數(shù)主流云服務(wù),這為企業(yè)在多云、混合云環(huán)境下構(gòu)建統(tǒng)一的數(shù)據(jù)基礎(chǔ)設(shè)施提供更多可能。
不過,楊傳輝也特別指出,“如果用戶是應(yīng)用在要求極為苛刻的核心業(yè)務(wù)場(chǎng)景,每個(gè)查詢都需要再一兩個(gè)毫秒內(nèi)返回,這樣的應(yīng)用依然可以選擇存算一體的Shared Nothing本地盤模式;如果是更看重平均延時(shí)或95%比例的請(qǐng)求延時(shí)的業(yè)務(wù)場(chǎng)景,則完全可以選擇性價(jià)比更高的存算分離的共享存儲(chǔ)方案。”
04 AI需要怎樣的數(shù)據(jù)底座?
來自IDC預(yù)測(cè)數(shù)據(jù)顯示,到2028年,整個(gè)AI市場(chǎng)規(guī)模相較于2022年預(yù)計(jì)將會(huì)增長(zhǎng)400%,生成式AI市場(chǎng)份額預(yù)計(jì)在整個(gè)AI市場(chǎng)占比將達(dá)到39.5%。
IDC中國軟件行業(yè)研究經(jīng)理李凌霄指出,“無論是從市場(chǎng)側(cè)反饋來看,還是從IDC內(nèi)部研究來看,大家對(duì)于生成式AI技術(shù)發(fā)展的疑慮已經(jīng)全部打消,對(duì)于生成式AI未來發(fā)展都持有著樂觀態(tài)度。”
而生成式AI和大模型的快速發(fā)展,讓數(shù)據(jù)庫廠商也迎來了新機(jī)遇。
4月27日,OceanBase CEO楊冰發(fā)布全員信,宣布OceanBase將全面進(jìn)入AI時(shí)代,打造“Data×AI”核心能力,建設(shè)AI時(shí)代的數(shù)據(jù)底座。
為什么OceanBase會(huì)提出這樣一個(gè)“Data×AI”戰(zhàn)略?
楊傳輝告訴我們,“在AI時(shí)代,我們需要的是一個(gè)一體化的數(shù)據(jù)底座,它的底層需要實(shí)現(xiàn)單機(jī)分布式一體化,也需要實(shí)現(xiàn)云上云下一體化,這就是單機(jī)分布式一體化架構(gòu)和多云原生架構(gòu)。對(duì)于用戶而言,他們需要的是一套數(shù)據(jù)庫,一套可以統(tǒng)一支持TP、AP和AI工作負(fù)載數(shù)據(jù)底座。”
與此同時(shí),“Data×AI”一體化數(shù)據(jù)底座實(shí)際上也是OceanBase一體化數(shù)據(jù)庫的延伸,它的核心在于如何做好數(shù)據(jù)處理。
為了做好AI時(shí)代的數(shù)據(jù)處理,OceanBase一直在加強(qiáng)支持混合檢索的向量引擎的研發(fā),并在過去兩年里將共享存儲(chǔ)產(chǎn)品做到了TP生產(chǎn)級(jí)水準(zhǔn)。
在接受媒體采訪時(shí),楊冰告訴我們,“很少有數(shù)據(jù)引擎能把TP架在對(duì)象存儲(chǔ)上,我們?cè)诎堰@個(gè)難題攻克后,企業(yè)在技術(shù)棧層面存儲(chǔ)AI需要的數(shù)據(jù)時(shí),就可以在數(shù)據(jù)存儲(chǔ)上統(tǒng)一到一套技術(shù)架構(gòu)上。”
OceanBase堅(jiān)持的上述一體化產(chǎn)品思路,為企業(yè)和開發(fā)者帶來的最直接的好處是,在進(jìn)行大模型應(yīng)用開發(fā)時(shí),開發(fā)者就可以通過一條SQL語句處理所有工作負(fù)載。
2025年是OceanBase走過的第十五個(gè)年頭,站在這一年的OceanBase開發(fā)者大會(huì)上展望未來十五年,楊傳輝指出:
“未來十五年一定是一個(gè)AI大爆炸的時(shí)代,隨著全世界對(duì)AI產(chǎn)品的不斷打磨,我們也將成為AI時(shí)代的一體化數(shù)據(jù)底座。”
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。
關(guān)注智造、硬件、機(jī)器人。