文|周雅
若是用技術(shù)的語(yǔ)言來(lái)表達(dá),這就是物理世界「圖數(shù)據(jù)庫(kù)」的概念。
說(shuō)到這套技術(shù),就不得不提一家公司——Neo4j。
2000年的某天,瑞典人Emil Eifrem坐飛機(jī)飛往孟買,當(dāng)他正在為解決數(shù)據(jù)系統(tǒng)的性能問(wèn)題發(fā)愁時(shí),突然靈感乍現(xiàn),隨手抓起一張餐巾紙,迅速勾勒出一個(gè)圖數(shù)據(jù)庫(kù)模型。當(dāng)時(shí)的Emil Eifrem或許并不會(huì)想到,那張餐巾草圖會(huì)是一家公司的開(kāi)端。
2007年,懷揣「圖數(shù)據(jù)庫(kù)」理想的Neo4j公司正式在瑞典成立了。十幾年之后,Neo4j公司已經(jīng)成為全球領(lǐng)先的圖數(shù)據(jù)庫(kù)平臺(tái),服務(wù)全球400多家企業(yè)客戶(包括空客、康卡斯特、eBay、美國(guó)宇航局、瑞銀、沃爾瑪?shù)龋?,坐擁?shù)百萬(wàn)社區(qū)用戶。
關(guān)系型數(shù)據(jù)庫(kù)沒(méi)有關(guān)系,它純粹就是數(shù)據(jù);圖數(shù)據(jù)庫(kù)存的不是圖,它存的是關(guān)系。”
「圖數(shù)據(jù)庫(kù)」,是以圖的結(jié)構(gòu)形式來(lái)存儲(chǔ)數(shù)據(jù),它所存儲(chǔ)的就是聯(lián)系的數(shù)據(jù),是關(guān)聯(lián)數(shù)據(jù)本身。
“圖數(shù)據(jù)庫(kù)的美妙之處在于,它基本上適合于每一個(gè)行業(yè)。”
此外在Neo4j 社區(qū),也一直在用圖數(shù)據(jù)庫(kù)技術(shù)解決一些社會(huì)緊迫問(wèn)題:比如氣候變化、癌癥治療、加速人類的火星之旅、推進(jìn)性別平等、提高政府透明度、以及推動(dòng)人類知識(shí)的邊界等。
持久互信的商業(yè)關(guān)系,也是職業(yè)與業(yè)務(wù)可持續(xù)發(fā)展的關(guān)鍵。
以下是科技行者訪談Neo4j亞太區(qū)副總裁Nik Vora的實(shí)錄(經(jīng)整理):
“關(guān)系型數(shù)據(jù)庫(kù)沒(méi)有關(guān)系,圖數(shù)據(jù)庫(kù)存的是關(guān)系”
科技行者:Neo4j成立于2000年,公司成立之初,整個(gè)市場(chǎng)環(huán)境是怎么樣的?
Nik Vora:2000年的時(shí)候,Neo4j創(chuàng)始人萌生了一個(gè)(做圖數(shù)據(jù)庫(kù)的)想法,并成立了公司,但想法只停留在理論階段,而真正把想法付諸于實(shí)施、變成商業(yè)化落地的產(chǎn)品是在2007年。當(dāng)時(shí),我們的創(chuàng)始人在飛機(jī)上,提出了具體的想法,并且和伙伴們把它付諸實(shí)施。
2007年,面臨的第一個(gè)挑戰(zhàn)就是,怎么把它做一個(gè)技術(shù)的歸類和分類。因?yàn)樵谀莻€(gè)時(shí)候,剛開(kāi)始在美國(guó)和歐洲市場(chǎng),基本上很多客戶無(wú)論是大學(xué)里面學(xué)的、還是現(xiàn)實(shí)用的都是「關(guān)系型數(shù)據(jù)庫(kù)」,他們很疑惑為什么這么一個(gè)小公司過(guò)來(lái)給我講「圖數(shù)據(jù)庫(kù)」,它到底是做什么用的?這是當(dāng)時(shí)最大一個(gè)挑戰(zhàn),在于普及。
Neo4j創(chuàng)始人和初創(chuàng)團(tuán)隊(duì)都是開(kāi)發(fā)者,所以我們剛開(kāi)始的產(chǎn)品版本,是OpenSource(開(kāi)源)的方式,通過(guò)發(fā)展社區(qū),社區(qū)的開(kāi)發(fā)者們都可以對(duì)這個(gè)OpenSource做貢獻(xiàn),讓大家更多地去了解什么是圖數(shù)據(jù)庫(kù)?,F(xiàn)在在亞洲,可以看到很多開(kāi)源社區(qū)的貢獻(xiàn)者。
科技行者:既然當(dāng)時(shí)市場(chǎng)的主流是「關(guān)系型數(shù)據(jù)庫(kù)」,那為什么Neo4j會(huì)看好「圖數(shù)據(jù)庫(kù)領(lǐng)域」呢?
Nik Vora:當(dāng)初的市場(chǎng)環(huán)境主要是關(guān)系型數(shù)據(jù)庫(kù),但隨著互聯(lián)網(wǎng)尤其是移動(dòng)互聯(lián)網(wǎng)的發(fā)展,大量數(shù)據(jù)涌現(xiàn),關(guān)系型數(shù)據(jù)庫(kù)已滿足不了客戶的需求。Neo4j看到市場(chǎng)的這種需求,并投身到圖數(shù)據(jù)庫(kù)這個(gè)領(lǐng)域。
在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)里,要找到一個(gè)人,需要找數(shù)據(jù)之間的關(guān)系,可能要花費(fèi)幾天的時(shí)間去做關(guān)聯(lián)。但是在圖數(shù)據(jù)庫(kù)里,發(fā)現(xiàn)可以做到毫秒級(jí),相對(duì)于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),它的作用在于——發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系。
所以說(shuō),關(guān)系型數(shù)據(jù)庫(kù)沒(méi)有關(guān)系,它純粹就是數(shù)據(jù);圖數(shù)據(jù)庫(kù)存的不是圖,它存的是關(guān)系。
科技行者:目前看來(lái),圖數(shù)據(jù)庫(kù)主要用在哪些行業(yè),可否描述一下具體的應(yīng)用場(chǎng)景?
Nik Vora:圖數(shù)據(jù)庫(kù)基本上適合于每一個(gè)行業(yè)。回看過(guò)去一兩年,中國(guó)變成了這一行業(yè)里的開(kāi)路先鋒,在圖數(shù)據(jù)庫(kù)的推廣方面,很多中國(guó)的客戶都在試用。
當(dāng)然了,一些行業(yè)的普及程度會(huì)比另外一些行業(yè)高,比如執(zhí)法部門。譬如,A認(rèn)識(shí)B,通過(guò)圖數(shù)據(jù)庫(kù),如果A是一個(gè)嫌疑人,而A與B之間已經(jīng)有認(rèn)識(shí)關(guān)系的話,那B也很有可能變成一個(gè)嫌疑人。通常,執(zhí)法機(jī)關(guān)在處理移民工作中,大量地使用了人和人之間的關(guān)系。
還有諸如航空公司、運(yùn)輸公司(比如滴滴出行),都廣泛的應(yīng)用圖數(shù)據(jù)庫(kù):分析一個(gè)乘客從A處到B處,一些航空公司都是用數(shù)據(jù)庫(kù)表現(xiàn)出來(lái),非常方便;還有銀行里面欺詐檢測(cè)和反洗錢這些場(chǎng)景也非常適合,尤其今天我們看到反欺詐呈一個(gè)上升趨勢(shì),欺詐者變得越來(lái)越聰明,銀行再用傳統(tǒng)的方式很難發(fā)現(xiàn)他,而通過(guò)圖數(shù)據(jù)技術(shù),可以把人和人之間的關(guān)系,把邏輯事件指出來(lái),很容易就發(fā)現(xiàn)新型的欺詐關(guān)系;另外在保險(xiǎn)行業(yè),圖數(shù)據(jù)庫(kù)也非常流行,因?yàn)楸kU(xiǎn)的欺詐也很多。
圖數(shù)據(jù)庫(kù)在制造業(yè)也有廣泛的應(yīng)用。比如汽車制造業(yè),一輛汽車有很多的零件,一個(gè)零件壞了之后,它會(huì)影響上下游的關(guān)系,比如一個(gè)小零件壞了,可能影響到發(fā)動(dòng)機(jī)的最大功率,通過(guò)圖數(shù)據(jù)庫(kù),很容易把所有零部件之間的各種關(guān)系串起來(lái)。
智能手機(jī)行業(yè)也同理。手機(jī)零部件,如果用圖數(shù)據(jù)庫(kù)把它關(guān)聯(lián)起來(lái),很容易發(fā)現(xiàn)中間極小的問(wèn)題,甚至產(chǎn)生蝴蝶效應(yīng),一個(gè)小螺絲釘壞了有可能會(huì)影響到顯示屏幕,此前沒(méi)有圖數(shù)據(jù)庫(kù),是很難去發(fā)現(xiàn)這些問(wèn)題的。
其他包括醫(yī)療等很多重要行業(yè)在內(nèi)的千行百業(yè),都在使用圖數(shù)據(jù)庫(kù)。
“說(shuō)明我們當(dāng)時(shí)做了一件對(duì)的事情”
科技行者:在圖數(shù)據(jù)庫(kù)領(lǐng)域,有很多巨頭和玩家先后進(jìn)入,相比之下,Neo4j的核心優(yōu)勢(shì)是什么?
Nik Vora:首先我們很高興看到市場(chǎng)上面有很多的競(jìng)爭(zhēng)對(duì)手出來(lái),這說(shuō)明我們當(dāng)時(shí)做了一件對(duì)的事情。
Neo4j的核心優(yōu)勢(shì)有三方面:
開(kāi)源。讓更多人可以使用。
目前在圖數(shù)據(jù)科學(xué)方面,Neo4j已經(jīng)積累了60多種不同的算法,可以幫助用戶獲得最大程度的投資回報(bào)。
比如國(guó)內(nèi)最大的某個(gè)制造廠商,在擴(kuò)展性、速度方面,只有Neo4j可以滿足它的需求。
科技行者:這些數(shù)據(jù)的隱私安全方面怎么保障呢?
Nik Vora:數(shù)據(jù)的合規(guī)、安全、隱私是一個(gè)非常重要的話題,Neo4j也充分地考慮到這一點(diǎn)。
除了開(kāi)源版,Neo4j還有企業(yè)版,有非常重要的一些安全特性,可以幫助企業(yè)保護(hù)隱私和數(shù)據(jù)安全。比如基于角色實(shí)現(xiàn)安全控制,什么樣的人可以訪問(wèn)哪些數(shù)據(jù),什么樣的人只能讀取但不可以修改數(shù)據(jù)等等。還有通過(guò)加密保護(hù)保存在數(shù)據(jù)中心的一些數(shù)據(jù)。
科技行者:Neo4j的客戶也很強(qiáng)勢(shì),比如NASA、沃爾沃、瑞銀等等,可否舉例描述一下,這些客戶找到你們,主要的訴求是什么?
Nik Vora:我們很榮幸有這些客戶。以NASA為例,NASA有數(shù)以千計(jì)的數(shù)據(jù)中心,NASA的科學(xué)家或工程師之前找數(shù)據(jù)非常困難,因?yàn)橛刑嗟奈臋n,查找極其耗時(shí)。NASA登陸火星項(xiàng)目應(yīng)用了Neo4j,創(chuàng)建了知識(shí)圖譜,把上億信息關(guān)聯(lián)起來(lái),方便工程師,將項(xiàng)目縮短了兩年的時(shí)間,能提前完成項(xiàng)目并節(jié)省成本。
中國(guó)很多公司也在投入和學(xué)習(xí)知識(shí)圖譜。在中國(guó)很多大型機(jī)構(gòu),知識(shí)圖譜都是非常流行的一個(gè)應(yīng)用,大家投入很多的精力去學(xué)習(xí),甚至已經(jīng)開(kāi)始研究知識(shí)圖譜如何幫助企業(yè)。Neo4j在中國(guó)已經(jīng)積累了很多客戶,包括來(lái)自電信、銀行、金融、制造行業(yè)的領(lǐng)先公司。
“中國(guó)創(chuàng)新勢(shì)頭更強(qiáng)勁”
科技行者:相比之下,在圖數(shù)據(jù)庫(kù)領(lǐng)域,中國(guó)市場(chǎng)和國(guó)外市場(chǎng)存在哪些異同之處?
Nik Vora:在應(yīng)用上差不多。市場(chǎng)方面,中國(guó)有幾處不同:1)中國(guó)創(chuàng)新勢(shì)頭強(qiáng)勁;2)互聯(lián)網(wǎng)的應(yīng)用更廣泛,規(guī)模更大,特別是移動(dòng)互聯(lián)網(wǎng);3)云。中國(guó)70%應(yīng)用在云上。
科技行者:您工作過(guò)的幾個(gè)國(guó)家很有特色,比如新加坡、悉尼、孟買和上海,中國(guó)在工作環(huán)境上,與它們有何區(qū)別?
Nik Vora:如果中國(guó)客戶喜歡你的產(chǎn)品,會(huì)很快采用。而且中國(guó)客戶注重產(chǎn)品的本地化,滿足本地化需求。
科技行者:6月份,Neo4j剛剛拿到3.25億美元F輪融資,你們吸引投資人的秘訣是什么?
Nik Vora:投資者對(duì)我們都是長(zhǎng)期投資。我們把投資者視為合作伙伴。
我們吸引投資人之處主要在于:1)我們是市場(chǎng)上排名第一的廠商; 2) 我們擁有成千上萬(wàn)的開(kāi)發(fā)者社區(qū);3)我們和投資人有著共同的價(jià)值觀和愿景。
公司最新一輪的3.25億美金的融資,不僅僅是在圖數(shù)據(jù)庫(kù)領(lǐng)域,實(shí)際上在所有數(shù)據(jù)庫(kù)歷史記錄里,這都是最大的一筆融資。
科技行者:Neo4j將如何消化這筆融資?
Nik Vora:1) 加速市場(chǎng)擴(kuò)張,比如中國(guó)和其他市場(chǎng);2)繼續(xù)投資圖數(shù)據(jù)庫(kù)和數(shù)據(jù)科學(xué);3)持續(xù)成為處理萬(wàn)億節(jié)點(diǎn)的市場(chǎng)領(lǐng)導(dǎo)者。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。
關(guān)注科技創(chuàng)新、技術(shù)投資。
以文會(huì)友,左手硬核科技,右手浪漫主義。