作者 | 金旺
來(lái)源 | 科技行者
預(yù)計(jì)2027年,云數(shù)據(jù)庫(kù)將占據(jù)整個(gè)數(shù)據(jù)庫(kù)市場(chǎng)份額的70%。
這是Gartner在2019年給出的預(yù)測(cè)數(shù)據(jù),從Gartner最新的統(tǒng)計(jì)數(shù)據(jù)來(lái)看,截至2023年年底,云數(shù)據(jù)庫(kù)在整個(gè)數(shù)據(jù)庫(kù)市場(chǎng)中占比已經(jīng)高達(dá)61%,這時(shí)的云數(shù)據(jù)庫(kù)已經(jīng)成為大勢(shì)所趨。
與此同時(shí),人工智能技術(shù)的驟變,開始影響數(shù)據(jù)庫(kù)產(chǎn)業(yè),數(shù)據(jù)庫(kù)再次成為人工智能從技術(shù)到商業(yè)化的一個(gè)關(guān)鍵平臺(tái)。
Gartner高級(jí)研究總監(jiān)顧星宇指出,“到2028年,80%的生成式AI業(yè)務(wù)應(yīng)用將在企業(yè)現(xiàn)有的數(shù)據(jù)管理平臺(tái)上開發(fā),從而將實(shí)施復(fù)雜性和交付時(shí)間縮短50%。”
作為云數(shù)據(jù)庫(kù)的堅(jiān)實(shí)擁躉,阿里云智能集團(tuán)副總裁、阿里云智能數(shù)據(jù)庫(kù)產(chǎn)品事業(yè)部負(fù)責(zé)人李飛飛則斷言,“第一波人工智能浪潮是由Native AI群體掀起,但在人工智能進(jìn)入下半場(chǎng)后,本質(zhì)上已經(jīng)回歸到系統(tǒng)領(lǐng)域,回到了工程化問題上。”
也是在這時(shí),阿里云PolarDB看到了他們的機(jī)會(huì),進(jìn)行了又一次產(chǎn)品迭代,也面向人工智能推出了PolarDB-Model as an Operator。
01 千機(jī)集群打出一個(gè)世界紀(jì)錄
2月26日,在2025阿里云PolarDB開發(fā)者大會(huì)上,阿里云官宣,PolarDB登頂全球數(shù)據(jù)庫(kù)性能及性價(jià)比排行榜, 并刷新了TPC-C性能和性價(jià)比雙榜的世界紀(jì)錄。
TPC-C測(cè)試,是由國(guó)際數(shù)據(jù)庫(kù)事務(wù)處理性能委員會(huì)(TPC)組織制定的模擬電商訂單服務(wù)場(chǎng)景,針對(duì)數(shù)據(jù)庫(kù)在線事務(wù)處理(OLTP)系統(tǒng)性能的一場(chǎng)長(zhǎng)達(dá)40小時(shí)的極限基準(zhǔn)測(cè)試。
其中,數(shù)據(jù)庫(kù)系統(tǒng)需要在極限壓力下運(yùn)行8小時(shí)以上,在這期間,tpmC的波動(dòng)率不能超過(guò)2%,還要保證數(shù)據(jù)正確率為100%,與此同時(shí),測(cè)試模型還會(huì)模擬各種硬件故障情況,參與測(cè)試的產(chǎn)品需要確保數(shù)據(jù)不丟失,并能快速恢復(fù)正常性能。
這一基準(zhǔn)測(cè)試歷來(lái)也有著數(shù)據(jù)庫(kù)領(lǐng)域“奧林匹克”之稱。
正是在這樣一個(gè)極為嚴(yán)苛的數(shù)據(jù)庫(kù)測(cè)試中,阿里云PolarDB團(tuán)隊(duì)在2025年1月27日用1170臺(tái)物理機(jī)搭建了一個(gè)PolarDB集群,這個(gè)集群擁有2340個(gè)PolarDB主節(jié)點(diǎn)和2340個(gè)PolarDB從節(jié)點(diǎn),最終支撐1.6億家商店、16億用戶跑出了每分鐘20.55億筆交易(tpmC),刷新了TPC-C性能排行榜,打破了世界紀(jì)錄。
在這次TPC-C測(cè)試過(guò)程中,阿里云PolarDB數(shù)據(jù)庫(kù)還刷新了另外三項(xiàng)成績(jī):
第一,使用物理機(jī)數(shù)量相較于此前紀(jì)錄保持者(1650臺(tái))少了三分之一;
第二,單虛擬核性能達(dá)到了18297tpmC,是此前紀(jì)錄保持者的1.8倍;
第三,單位成本0.8元(price/tpmC),是此前紀(jì)錄保持者的60%。
為什么PolarDB能在這場(chǎng)全行業(yè)矚目的基準(zhǔn)測(cè)試中打出這樣的成績(jī)?
這其中的原因之一是PolarDB集群網(wǎng)絡(luò)部署從去年的25G Lossless RDMA升級(jí)到了100G Lossy高性能RDMA網(wǎng)絡(luò),基于這樣的RDMA網(wǎng)絡(luò),PolarDB團(tuán)隊(duì)可以搭建連接數(shù)千臺(tái),乃至上萬(wàn)臺(tái)物理機(jī)的集群,并實(shí)現(xiàn)了高性能事務(wù)一致性執(zhí)行能力,多節(jié)點(diǎn)復(fù)制能力也由此提升了1倍。
具體到TPC-C測(cè)試中,這樣的高性能RDMA網(wǎng)絡(luò)帶來(lái)的一個(gè)變化是,PolarDB的上千臺(tái)物理機(jī)集群跨機(jī)業(yè)務(wù)對(duì)性能的影響得以被控制到7%以內(nèi)。
據(jù)阿里云智能集團(tuán)數(shù)據(jù)庫(kù)產(chǎn)品事業(yè)部PolarDB MySQL及PostgreSQL負(fù)責(zé)人楊辛軍在發(fā)布會(huì)上透露,“PolarDB這次打榜最終達(dá)到的20.55億tpmC成績(jī)并不是我們的極限,實(shí)際上,PolarDB可以跑得更好。”
TPC-C是一個(gè)相當(dāng)真實(shí)的情景模擬,它會(huì)模擬用戶在電商進(jìn)行購(gòu)買操作,這其中,每個(gè)商店能夠支持的客戶人數(shù)和交易速度都有限制,每個(gè)商店僅支持10個(gè)虛擬用戶同時(shí)進(jìn)行交易,商品數(shù)量也有一定限制,因此,最終交易性能與商品數(shù)量相關(guān)。
據(jù)楊辛軍介紹,“我們打榜后發(fā)現(xiàn),我們的限制并不是單機(jī)性能,而是存儲(chǔ),由于我們當(dāng)時(shí)并沒有購(gòu)買足夠的存儲(chǔ)資源,如果當(dāng)時(shí)我們購(gòu)買了更更存儲(chǔ)資源,我們打出的成績(jī)理論上可以再提升,在相同物理機(jī)和節(jié)點(diǎn)數(shù)量下一直可以提升到28億tpmC。”
而之所以會(huì)有這次打榜,楊辛軍告訴我們,“這其實(shí)相當(dāng)于是一次檢閱,在PolarDB的新升級(jí)的硬件上線給所有用戶用之前進(jìn)行的一次檢閱,而這些硬件在打榜后,最終將會(huì)進(jìn)入商用市場(chǎng),為用戶提供服務(wù)。”
一并在這次發(fā)布會(huì)上發(fā)布的,不只有隨PolarDB打破世界紀(jì)錄并將進(jìn)入市場(chǎng)的數(shù)據(jù)庫(kù)集群,還有阿里云第一個(gè)CXL Switch內(nèi)存池?cái)?shù)據(jù)庫(kù)。
02 打破“內(nèi)存墻”,CXL-Powered PolarDB亮相
作為新一代云原生數(shù)據(jù)庫(kù),PolarDB的獨(dú)特之處在哪里?
李飛飛給出的解釋是:
“PolarDB通過(guò)三層解耦架構(gòu),在數(shù)據(jù)中心規(guī)模上實(shí)現(xiàn)了馮諾依曼架構(gòu),將擁有成千上萬(wàn)臺(tái)服務(wù)器的數(shù)據(jù)中心變成一臺(tái)實(shí)現(xiàn)了計(jì)算、內(nèi)存、存儲(chǔ)三層解構(gòu)的云原生計(jì)算機(jī)。”
基于這樣的技術(shù)架構(gòu),PolarDB此次正式對(duì)外預(yù)發(fā)布了第一臺(tái)基于CXL Switch的數(shù)據(jù)庫(kù)專屬機(jī)型。
什么是CXL?
CXL是基于PCIe一種新型高速互聯(lián)技術(shù),旨在解決計(jì)算系統(tǒng)中數(shù)據(jù)處理延遲、速度減慢和可擴(kuò)展性問題,提供更高的數(shù)據(jù)吞吐量和更低的延時(shí)的接口標(biāo)準(zhǔn),可以連接CPU、GPU、DRAM、存儲(chǔ)設(shè)備,解決CPU與設(shè)備、設(shè)備與設(shè)備之間的內(nèi)存鴻溝。
在當(dāng)下大模型時(shí)代,內(nèi)存發(fā)展與算力增長(zhǎng)速度的不匹配導(dǎo)致了“內(nèi)存墻”問題的出現(xiàn),基于CXL Switch的數(shù)據(jù)庫(kù)專屬機(jī)型在硬件上契合了PolarDB的三層解耦架構(gòu),并為解決大模型的“內(nèi)存墻”問題提供了解決思路。
據(jù)楊辛軍介紹,“以配備單根256GB內(nèi)存、連接7臺(tái)物理機(jī)的CXL Switch內(nèi)存池的PolarDB數(shù)據(jù)庫(kù)為例,一個(gè)機(jī)柜可以支持16TB的內(nèi)存容量,這時(shí),每臺(tái)物理機(jī)都可以使用這16TB內(nèi)存容量。”
PolarDB通過(guò)使用CXL技術(shù)構(gòu)建三層分離數(shù)據(jù)庫(kù),部署在遠(yuǎn)端的數(shù)據(jù)庫(kù)并沒有因?yàn)榭鐧C(jī)和跨地域?qū)е聰?shù)據(jù)庫(kù)性能下降,反而擴(kuò)展性提升了3倍,而通過(guò)遠(yuǎn)端數(shù)據(jù)庫(kù)替代本地?cái)?shù)據(jù)庫(kù)的形式,數(shù)據(jù)庫(kù)成本也得以下降了50%。
對(duì)于基于CXL Switch內(nèi)存池化的機(jī)型,李飛飛在接受媒體采訪時(shí)特別強(qiáng)調(diào),“我們并不是要做線下市場(chǎng)、做一體機(jī),這些機(jī)型最終都將會(huì)用到公共云上的PolarDB專屬資源池構(gòu)建中。”
PolarDB在Kernel層有各類壓縮算法,但李飛飛認(rèn)為,“僅做這些還不夠,PolarDB還需要在磁盤SSD的控制上做優(yōu)化,由此才能真正做到軟硬件協(xié)同創(chuàng)新。”
李飛飛指出,“云原生是必然趨勢(shì),任何系統(tǒng)向前演進(jìn)僅做軟件創(chuàng)新是沒有未來(lái)的,一定要做軟硬件協(xié)同創(chuàng)新,DeepSeek證明了這一點(diǎn),PolarDB的突破同樣證明了這一點(diǎn)。”
至于此次在發(fā)布會(huì)上亮相的CXL-Powered PolarDB,楊辛軍在發(fā)布會(huì)也強(qiáng)調(diào),“這次基于CXL Switch內(nèi)存池化的PolarDB數(shù)據(jù)庫(kù)只是預(yù)發(fā)布,還沒有正式應(yīng)用到生產(chǎn)環(huán)境中。”
據(jù)悉,接下來(lái)PolarDB團(tuán)隊(duì)還將會(huì)在GPU+CPU異構(gòu)資源池上繼續(xù)優(yōu)化,滿足大模型對(duì)于異構(gòu)算力的應(yīng)用需求。
03 將大模型,裝進(jìn)PolarDB里
隨著DeepSeek在年初的開源,大模型正式進(jìn)入到了人工智能應(yīng)用爆發(fā)的元年。
誰(shuí)能抓住這波人工智能應(yīng)用爆發(fā)的機(jī)會(huì)?
李飛飛認(rèn)為,“只有那些將大模型更好地與現(xiàn)有業(yè)務(wù)流程、數(shù)據(jù)流程結(jié)合,把成本降低、把資源優(yōu)勢(shì)打滿、讓數(shù)據(jù)真正發(fā)揮出價(jià)值的企業(yè),才能抓住這波機(jī)會(huì)。”
自2025年,以大模型為代表的人工智能時(shí)代被劃分為上下半場(chǎng),上半場(chǎng)的競(jìng)爭(zhēng)焦點(diǎn)是大模型的預(yù)訓(xùn)練,接下來(lái)大模型的預(yù)訓(xùn)練將會(huì)呈現(xiàn)出在線化、集中式的趨勢(shì),而下半場(chǎng)本質(zhì)上又回到了傳統(tǒng)的系統(tǒng)和工程領(lǐng)域。
對(duì)于數(shù)據(jù)庫(kù)廠商而言,“模型即算子”已經(jīng)不再是一個(gè)“if”,而成了正在發(fā)生的事,也是在此次發(fā)布會(huì)上,PolarDB-Model as an Operator正式對(duì)外發(fā)布。
李飛飛在發(fā)布會(huì)上介紹稱,“我們現(xiàn)在已經(jīng)可以把包括大模型在內(nèi)的各種各樣的模型作為算子內(nèi)嵌到數(shù)據(jù)庫(kù)引擎中,這樣為我們從數(shù)據(jù)中發(fā)現(xiàn)價(jià)值帶來(lái)了便利,為傳統(tǒng)OLAP的意義和方向會(huì)因此得到極大的拓展。”
這是李飛飛堅(jiān)定看好的發(fā)展趨勢(shì)。
為此,PolarDB團(tuán)隊(duì)將包括通義千問、DeepSeek等在內(nèi)的大模型作為算子內(nèi)嵌到了PolarDB數(shù)據(jù)庫(kù)中,利用PolarDB的三層解耦架構(gòu)和多主多寫能力彈性伸縮出人工智能推理節(jié)點(diǎn)。
這一波操作下來(lái),極大地簡(jiǎn)化了企業(yè)部署和應(yīng)用大模型過(guò)程中數(shù)據(jù)管道,企業(yè)不再需要將數(shù)據(jù)轉(zhuǎn)移到專有推理平臺(tái)上,將推理結(jié)果拿回來(lái)再進(jìn)行業(yè)務(wù)判斷。
實(shí)際上,PolarDB-Model as an Operator不僅僅是將大模型內(nèi)嵌到了PolarDB數(shù)據(jù)庫(kù)中,還針對(duì)大模型做了一系列優(yōu)化。
楊辛軍告訴我們,“由于PolarDB特有的三層解耦架構(gòu)可以實(shí)現(xiàn)內(nèi)存的解耦,部署在PolarDB中的大模型就可以將CPU和GPU的資源充分利用起來(lái),在同等GPU算力條件下,部署在PolarDB上的DeepSeek并行用戶訪問量可以提升35倍。”
與此同時(shí),將大模型裝進(jìn)數(shù)據(jù)庫(kù)也避免了企業(yè)私有數(shù)據(jù)出域,為企業(yè)數(shù)據(jù)安全和大模型應(yīng)用提供了一個(gè)新思路。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。
關(guān)注智造、硬件、機(jī)器人。