2021年最值得期待的科技股是如何“與虎謀皮”的?

2月1日,大數(shù)據(jù)公司Databricks宣布完成10億美元的融資,公司估值達(dá)到280億美元。與2019年10月完成的F輪融資相比,飆升了近5倍。
依靠開(kāi)源軟件起家的軟件公司,商業(yè)化過(guò)程中,都不可避免地會(huì)與云服務(wù)商有利益糾葛。但這家由Apache Spark初始成員創(chuàng)立的大數(shù)據(jù)公司,在這輪融資中,卻出乎意料地贏得了全球最大的三家云服務(wù)商亞馬遜云服務(wù)、谷歌云、微軟,以及SaaS巨頭Salesforce等的投資。
“與虎謀皮”的背后是怎樣的需求匹配?Databricks手中究竟有幾張王牌?

01
與云服務(wù)商“共舞”的兩種道路
在典型的開(kāi)源商業(yè)模式下,軟件免費(fèi),廠商會(huì)收取支持和服務(wù)費(fèi)用,如典型的“紅帽模式”。在本地部署的軟件世界里,這種模式或許可行,但到了新的云計(jì)算世界,就很難找到自己的位置。
通常來(lái)說(shuō),依靠開(kāi)源軟件發(fā)展的軟件公司,會(huì)面臨著兩條截然不同的發(fā)展道路。
一條就是修改許可協(xié)議,然后依靠許可協(xié)議,走上與云服務(wù)商的合作發(fā)展之路。
1月15日,全球著名的大數(shù)據(jù)搜索與實(shí)時(shí)處理公司Elastic公司CEO Shay Banon就突然發(fā)文宣布:開(kāi)源軟件Elasticsearch和Kibana的其中一項(xiàng)開(kāi)源許可協(xié)議將發(fā)生變更。
Elastic聲稱,此次許可協(xié)議變更對(duì)大部分免費(fèi)使用默認(rèn)發(fā)行版的社區(qū)用戶沒(méi)有影響,主要限制的是云服務(wù)提供商。
這并不是Elastic第一次更改開(kāi)源許可協(xié)議。早在2018年,Elastic就曾更改過(guò)一次開(kāi)源許可協(xié)議。
同樣,在開(kāi)源領(lǐng)域,早在2018年,數(shù)據(jù)庫(kù)軟件MongDB、Redis Lab、圖數(shù)據(jù)庫(kù)Neo4j等,就修改過(guò)相關(guān)的開(kāi)源許可協(xié)議,試圖改變其在數(shù)據(jù)庫(kù)商業(yè)化方面面臨被云服務(wù)商“吸血”的困境。
隨后,MongoDB與阿里云、騰訊云達(dá)成合作協(xié)議,走上共贏之路。而與AWS等云服務(wù)商的合作在破局。目前,還很難說(shuō)誰(shuí)是贏家。
同時(shí)可以看到,近些年來(lái),云服務(wù)提供商一直在使用開(kāi)源產(chǎn)品,修改其代碼,并開(kāi)發(fā)托管(收費(fèi))服務(wù)解決方案版本。然而,修改后的代碼將無(wú)法作為開(kāi)源代碼加以訪問(wèn)。而且,云服務(wù)商的商業(yè)行為也妨礙了開(kāi)源軟件公司商業(yè)化。
在開(kāi)源許可下,如何實(shí)現(xiàn)盈利,實(shí)現(xiàn)更健康的發(fā)展,則成為開(kāi)源軟件公司面臨的最大挑戰(zhàn)。
另一路發(fā)展路徑則是與云服務(wù)商合作,放長(zhǎng)線,釣大魚。
公有云在歐美國(guó)家已經(jīng)成為主流。如果無(wú)法擊敗云服務(wù)商,那就加入他們。
首先成功的是數(shù)據(jù)倉(cāng)庫(kù)軟件SnowFlake。它將自己變成了數(shù)據(jù)云服務(wù)商,并成為云服務(wù)商的用戶,通過(guò)提供PaaS平臺(tái)和SaaS服務(wù),擴(kuò)大云服務(wù)商和自己的收益。
剛剛提到的Databricks更是如此。Databricks的CEO Ali Ghodsi曾經(jīng)表示,公司是依靠開(kāi)源軟件發(fā)展,但卻有意識(shí)地將Databricks的業(yè)務(wù)模式與典型的開(kāi)源商業(yè)模式區(qū)分開(kāi)來(lái)。

Databricks ?CEO Ali Ghodsi
這種策略的一個(gè)很好的例子就是Databricks與Microsoft Azure合作。Databricks用戶可以直接通過(guò)其Azure帳戶購(gòu)買其產(chǎn)品。本質(zhì)上,Azure已成為Databricks產(chǎn)品的分銷商,以增加雙方的收入。
Azure也獲得了通過(guò)每個(gè)新的Azure上Databricks群集出售更多計(jì)算基礎(chǔ)結(jié)構(gòu)和存儲(chǔ)的好處。當(dāng)然,此模型的挑戰(zhàn)是要有足夠的杠桿作用來(lái)協(xié)商公平的收益分享協(xié)議。
當(dāng)然,Databricks不與微軟合作,也擁有龐大且忠誠(chéng)的開(kāi)發(fā)人員社區(qū),因此它具有與云服務(wù)商進(jìn)行談判的實(shí)力。
02
投資Databricks,云服務(wù)商看重什么?
2020年,云服務(wù)商們?cè)e(cuò)過(guò)了收割數(shù)據(jù)倉(cāng)庫(kù)服務(wù)商SnowFlake IPO紅利的機(jī)會(huì)。
2020年9月,云原生的數(shù)據(jù)倉(cāng)庫(kù)提供商SnowFlakeIPO時(shí),市值達(dá)到330億美元,此后不斷攀升,一度超過(guò)1000億美元。但是云服務(wù)商卻沒(méi)有抓住這一投資機(jī)會(huì)。
因此,當(dāng)Databricks融資時(shí),幾大云服務(wù)商集體出動(dòng),就不足為怪了。
另外,由于云原生將成為新一代數(shù)據(jù)架構(gòu)的主流標(biāo)準(zhǔn),因此公有云所提供的對(duì)象存儲(chǔ)、彈性計(jì)算、按需使用等特性在架構(gòu)設(shè)計(jì)時(shí)需要重新設(shè)計(jì)。除了公有云廠商的標(biāo)配服務(wù)外,如 SnowFlake、Databricks 等跨云平臺(tái)的第三方服務(wù)提供商自然也受到用戶和資本市場(chǎng)的追捧。
目前,大數(shù)據(jù)云服務(wù)Databricks正在尋求直接在美國(guó)上市,它被投行認(rèn)為是2021年最值得期待的科技股公開(kāi)發(fā)行之一。華爾街的投資人估計(jì), Databricks上市時(shí),其市值可能會(huì)達(dá)到350億美元,甚至可能高達(dá)500億美元。
Databricks公司創(chuàng)建于2013年創(chuàng)立,專注于機(jī)器學(xué)習(xí)、流數(shù)據(jù)處理、數(shù)據(jù)湖和SQL分析。2020年Databricks年經(jīng)常性收入(ARR)將達(dá)到4.25億美元,比2019年同期增長(zhǎng)了75%。
Databricks之所以脫穎而出,并成為大數(shù)據(jù)領(lǐng)域的一面旗幟,源于其四張王牌。
首先,Databricks最大的成功源于它幫助公司實(shí)施Apache Spark版本。這是大數(shù)據(jù)技術(shù)Hadoop技術(shù)的替代方案,用于存儲(chǔ)客戶大量不同類型的數(shù)據(jù)。Spark是2009年在伯克利開(kāi)發(fā)一個(gè)大數(shù)據(jù)開(kāi)源項(xiàng)目。目前,Spark已經(jīng)取代Hadoop MapReduce成為大數(shù)據(jù)默認(rèn)的計(jì)算引擎。
“成立Databricks的目的是繼續(xù)加速Spark的改進(jìn),增加程序的功能、穩(wěn)定性和對(duì)開(kāi)源社區(qū)的貢獻(xiàn)。另一方面是將其放在易于使用的軟件包中,那就是Databricks云服務(wù)。”Databricks的CEO Ali Ghodsi 曾經(jīng)表示。
Databricks提供了一個(gè)基于Spark的云托管平臺(tái),使客戶可以在一個(gè)環(huán)境中實(shí)施其整個(gè)大數(shù)據(jù)方案——從數(shù)據(jù)提取、數(shù)據(jù)轉(zhuǎn)換、交互式處理,到數(shù)據(jù)產(chǎn)品。它使用機(jī)器學(xué)習(xí)、圖形處理以及構(gòu)建和運(yùn)行數(shù)據(jù)產(chǎn)品,提供交互式可視化,釋放數(shù)據(jù)價(jià)值。

Databricks Cloud先進(jìn)的群集管理功能,使企業(yè)能夠在幾秒鐘內(nèi)啟動(dòng),并調(diào)整大小和拆除群集。最重要的是,它豐富的工具集使企業(yè)可以交互式查詢和可視化數(shù)據(jù)并構(gòu)建交互式儀表板。
Spark之于Databricks,就像Hadoop之于 Cloudera,或者NoSQL數(shù)據(jù)庫(kù)之于MongoDB。Spark確實(shí)是Databricks公司規(guī)劃的關(guān)鍵部分,但也只是多元化SaaS產(chǎn)品的一個(gè)組成部分。
其次, DataBricks迄今為止所做的最大的創(chuàng)新應(yīng)該是 Delta Lake,有超過(guò) 80%的用戶在使用它。它是 Databricks 最有價(jià)值的項(xiàng)目,盡管它沒(méi)有Spark那么有名。而且DataBricks選擇了將Delta Lake開(kāi)源,從而解決數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)湖的融合問(wèn)題。
第三張王牌是Koalas。它將Pandas社區(qū)的數(shù)據(jù)科學(xué)創(chuàng)新帶給了Spark用戶。Koalas可以讓數(shù)據(jù)科學(xué)家在筆記本電腦上使用Pandas編程,然后調(diào)用幾個(gè)API就可以將工作負(fù)載部署到大型的分布式Spark集群上。
最后一張王牌是MLFlow。它為數(shù)據(jù)科學(xué)家構(gòu)建、測(cè)試和部署機(jī)器學(xué)習(xí)模型這個(gè)復(fù)雜的過(guò)程提供標(biāo)準(zhǔn)化的工具。MLFlow的下載量以每月80萬(wàn)的速度增長(zhǎng),而且比 Spark 有更多的貢獻(xiàn)者。而且Databricks將MLflow項(xiàng)目捐贈(zèng)給Linux基金會(huì),并正式成為一個(gè)開(kāi)源項(xiàng)目。兩年前,開(kāi)源一來(lái),該平臺(tái)每月下載超過(guò)200 萬(wàn)次。
03
“共舞”中如何保持自我?

然而,Databricks也將迎來(lái)新的問(wèn)題。
比如公共云提供商AWS、Microsoft Azure等都提供Apache Spark開(kāi)源軟件的托管版本,所以難免不會(huì)優(yōu)先推廣自己的產(chǎn)品,而這勢(shì)必會(huì)與Databricks的核心產(chǎn)品Spark云服務(wù)展開(kāi)競(jìng)爭(zhēng)。
如何應(yīng)對(duì)這種局面呢?Ghodsi表示,并不會(huì)把這些云服務(wù)商視為競(jìng)爭(zhēng)對(duì)手,因?yàn)樗鼈兊目蛻粢残枰夹g(shù)服務(wù)支持。
同樣,SaaS租賃模式還為 Databricks 的資產(chǎn)提供了適當(dāng)?shù)谋Wo(hù)。Databricks的核心知識(shí)產(chǎn)權(quán)并不存在于它所贊助的開(kāi)源軟件項(xiàng)目中。事實(shí)上,Databricks 最有價(jià)值的知識(shí)產(chǎn)權(quán)存在于用來(lái)監(jiān)控和管理云端軟件的工具和技術(shù),它們不會(huì)像經(jīng)典的開(kāi)源模式那么容易被泄露。
Ghodsi 說(shuō):“在云端,用戶租賃Databricks的服務(wù),我們負(fù)責(zé)保證安全性、可靠性和可用性,負(fù)責(zé)監(jiān)控,確保服務(wù)保持運(yùn)行狀態(tài),并保持最新,讓用戶高枕無(wú)憂?!?/p>
“我們每天需要在AWS上啟動(dòng)一百萬(wàn)個(gè)虛擬機(jī),確保正常運(yùn)行,這也就是用戶付費(fèi)的原因。”
Databricks使用開(kāi)源工具如Kubernetes為各種數(shù)據(jù)工程、數(shù)據(jù)分析和機(jī)器學(xué)習(xí)負(fù)載提供伸縮能力,還開(kāi)發(fā)了專有軟件來(lái)保證云服務(wù)的可用性。
為了滿足用戶大數(shù)據(jù)應(yīng)用新需求,把數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖融合的技術(shù)正在進(jìn)行。當(dāng)Synapse 將數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖服務(wù)捆綁在一起時(shí),Databricks推出了數(shù)據(jù)湖/數(shù)據(jù)倉(cāng)庫(kù)融合Lakehouse“湖屋”。
數(shù)據(jù)倉(cāng)庫(kù)保存定義良好的結(jié)構(gòu)化歷史數(shù)據(jù),以便運(yùn)行快速、重復(fù)的分析查詢,通常使用 SQL,常用于核心業(yè)務(wù)報(bào)告。
數(shù)據(jù)湖包含來(lái)自多個(gè)數(shù)據(jù)源的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)治理可能很弱,重復(fù)或沖突的數(shù)據(jù)可能很常見(jiàn)。數(shù)據(jù)科學(xué)團(tuán)隊(duì)通常使用數(shù)據(jù)湖執(zhí)行探索性分析,包括數(shù)據(jù)發(fā)現(xiàn)和可視化,以及機(jī)器學(xué)習(xí)模型培訓(xùn)。
"數(shù)據(jù)湖屋",融合數(shù)據(jù)湖/數(shù)據(jù)倉(cāng)庫(kù)平臺(tái),其數(shù)據(jù)湖平臺(tái)Delta Lake也非常適合數(shù)據(jù)倉(cāng)庫(kù)工作負(fù)載。結(jié)合其機(jī)器學(xué)習(xí)功能,包括Spark MLlib和MLflow,Databrick將自己視為一個(gè)全面的分析和AI平臺(tái)。
Ali Ghodsi 透露了公司的終極目標(biāo):構(gòu)建世界上第一個(gè)企業(yè) AI 平臺(tái),Databricks手里握著幾張王牌。
在企業(yè)計(jì)算領(lǐng)域,未來(lái)會(huì)選出一兩個(gè)AI 平臺(tái)作為標(biāo)桿,就像之前出現(xiàn)的數(shù)據(jù)庫(kù)、ERP、CRM、HR 軟件等標(biāo)桿企業(yè)一樣。但目前還沒(méi)有出現(xiàn)AI平臺(tái)標(biāo)桿企業(yè),盡管一些玩家如AWS、微軟和 Salesforce等已經(jīng)躍躍欲試。


