為什么云原生數(shù)據(jù)湖值得關注?

數(shù)據(jù)湖的崛起
2010年Pentaho公司的創(chuàng)始人兼首席技術官詹姆斯·狄克遜(James Dixon)首次提出數(shù)據(jù)湖的概念。詹姆斯·狄克遜把數(shù)據(jù)湖中的數(shù)據(jù)比作原生態(tài)的水——它是未經(jīng)處理的,保留原始結構的。
數(shù)據(jù)湖中的水從源頭流入湖中,各種用戶都可以來湖里獲取、蒸餾提純這些水(數(shù)據(jù))。于是,早期業(yè)界和用戶多把數(shù)據(jù)湖定義為一個集中式的儲存原始格式數(shù)據(jù)的系統(tǒng),可存儲任意規(guī)模的結構化、半結構化、非結構化及二進制的數(shù)據(jù)。
隨著大數(shù)據(jù)技術的融合發(fā)展,數(shù)據(jù)湖的邊界不斷擴展,內(nèi)涵不斷變化,逐步演變成為集多源異構數(shù)據(jù)統(tǒng)一儲存、多范式計算分析及統(tǒng)一管理調(diào)用的大數(shù)據(jù)綜合解決方案。
這就讓數(shù)據(jù)湖與數(shù)據(jù)倉庫有了很大的不同。
數(shù)據(jù)倉庫誕生于數(shù)據(jù)庫時代,它的核心思路是把數(shù)據(jù)庫眾多數(shù)據(jù)進行一定格式轉(zhuǎn)換后,定時地復制到另一個庫里做列式存儲,從而滿足企業(yè)查詢和數(shù)據(jù)分析的需求。
在過去,很多企業(yè)的數(shù)據(jù)以ERP、CRM數(shù)據(jù)為主,數(shù)據(jù)規(guī)模往往是TB級,企業(yè)通常在本地采用數(shù)據(jù)倉庫解決方案來存儲和分析數(shù)據(jù)。但數(shù)據(jù)倉庫這種方式模型范式固定,底層數(shù)據(jù)無法做到多樣變化。
隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)量暴增,非結構化數(shù)據(jù)越來越多,企業(yè)業(yè)務變化越來越快,數(shù)字化轉(zhuǎn)型成為IT行業(yè)的熱點,數(shù)據(jù)需要更深度的價值挖掘,因此需要確保數(shù)據(jù)中保留的原始信息不丟失,應對未來不斷變化的需求。
傳統(tǒng)的數(shù)據(jù)倉庫無法滿足大數(shù)據(jù)時代企業(yè)對于實時、交互式分析等方面的需求,而數(shù)據(jù)湖擇了“前松后緊”的設計思路,初始化階段放棄嚴格的模式,后置schme,從而獲得更強的靈活性,同時通過統(tǒng)一存儲和計算優(yōu)化來保證數(shù)據(jù)的一致性和性能,這就讓數(shù)據(jù)湖開始在大數(shù)據(jù)領域逐漸受到關注。
發(fā)展至今,數(shù)據(jù)湖已經(jīng)不再局限于某個技術、某個軟件產(chǎn)品,而是涵蓋數(shù)據(jù)湖存儲、數(shù)據(jù)湖計算、數(shù)據(jù)湖AI的多元化數(shù)據(jù)架構,滿足企業(yè)級用戶的生產(chǎn)管理需求。
展望云原生數(shù)據(jù)湖的未來
如果對云原生數(shù)據(jù)湖做一個概括的話,云原生數(shù)據(jù)湖是大數(shù)據(jù)計算平臺借助云計算理論發(fā)展出來的新技術產(chǎn)品,其支持異構數(shù)據(jù)靈活存儲、計算資源彈性伸縮,能夠幫助企業(yè)應對當前數(shù)據(jù)結構愈發(fā)復雜、數(shù)據(jù)處理時效性要求不斷變高的業(yè)務環(huán)境。
也就是說,云原生數(shù)據(jù)湖只是一種架構原理,其具體實現(xiàn)的方式多種多樣,基于EMR可以做云原生數(shù)據(jù)湖,基于Flink也可以做云原生數(shù)據(jù)湖。
不過需要說明的是,雖然中國數(shù)據(jù)湖技術正在逐年發(fā)展與突破,公有云廠商及其他廠商紛紛在嘗試,但目前在數(shù)據(jù)感知收集及歸類清洗方面存在壁壘和難度,數(shù)據(jù)湖建模經(jīng)驗不足。總的來說,我國數(shù)據(jù)湖市場整體發(fā)展處于初期階段,技術路線不統(tǒng)一,業(yè)內(nèi)產(chǎn)品能力良莠不齊。
從應用現(xiàn)狀來看,數(shù)據(jù)湖在國內(nèi)的落地還存在許多痛點。
產(chǎn)品層面,數(shù)據(jù)湖的數(shù)據(jù)治理能力和全鏈路能力仍需要進一步加強。
就數(shù)據(jù)治理而言,數(shù)據(jù)治理要求在目錄中包含數(shù)據(jù)的分類、規(guī)則,如果企業(yè)對于數(shù)據(jù)湖的掌控能力不足,會導致數(shù)據(jù)湖目錄及整體架構設計不良,湖內(nèi)數(shù)據(jù)未得到充分歸檔或維護,容易形成數(shù)據(jù)沼澤。因缺少上下文元數(shù)據(jù)關聯(lián),數(shù)據(jù)沼澤無法進行數(shù)據(jù)檢索,致使用戶無法有效分析和利用數(shù)據(jù)。
就全鏈路能力而言,現(xiàn)階段國內(nèi)可以提供全鏈路云原生數(shù)據(jù)湖服務的供應商較少,大多廠商僅提供數(shù)據(jù)湖組件的支持,因此下游需求企業(yè)只能采購多家供應商來滿足自身從數(shù)據(jù)采集治理到分析可視化的需求。
應用層面,云原生數(shù)據(jù)湖的行業(yè)認知和人才培養(yǎng)較為薄弱。人才方面,目前大數(shù)據(jù)、AI技術棧的發(fā)展日新月異,企業(yè)缺乏專業(yè)人才。從企業(yè)內(nèi)部來看,管理者對數(shù)據(jù)治理一知半解,若在沒有深入梳理企業(yè)業(yè)務現(xiàn)狀及需求的情況下盲目搭建數(shù)據(jù)湖,追求大而全的概念,可能導致數(shù)據(jù)湖的落地效果不佳。行業(yè)認知方面,盡管數(shù)據(jù)的價值屬性已經(jīng)獲得業(yè)界的廣泛共識,但是選擇觀望的企業(yè)仍舊占絕大多數(shù),數(shù)據(jù)湖在認知和推廣上仍面臨多方面的挑戰(zhàn)。
另外,隨著企業(yè)數(shù)字化轉(zhuǎn)型進入深水區(qū),數(shù)據(jù)已經(jīng)成為企業(yè)的核心生產(chǎn)要素,而數(shù)據(jù)湖的最大風險之一就是安全性和訪問控制。大量數(shù)據(jù)在沒有任何監(jiān)管的情況下流入湖泊,一旦某些數(shù)據(jù)包含其他數(shù)據(jù)沒有的隱私和法規(guī)要求,將可能發(fā)生數(shù)據(jù)泄露和遺失,帶來不可估量的后果。
當然,任何一個行業(yè)在發(fā)展初期都會存在這樣那樣的問題,有不完善的地方恰恰意味著這個行業(yè)還有發(fā)展的空間。根據(jù)艾瑞咨詢的分析,由于國家政策利好,比如國家接連出臺《促進大數(shù)據(jù)發(fā)展行動綱要》《全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實施方案》等文件推動大數(shù)據(jù)產(chǎn)業(yè)走向成熟,以及互聯(lián)網(wǎng)技術高速發(fā)展的驅(qū)動、企業(yè)數(shù)字化轉(zhuǎn)型加速等因素,預計中國云原生數(shù)據(jù)湖市場未來會以39.7%的復合增長率快速發(fā)展。
所以,云原生數(shù)據(jù)湖未來的發(fā)展前景值得我們期待和關注。
(歡迎大家加入數(shù)據(jù)工匠知識星球獲取更多資訊。)

掃描二維碼關注我們

我們的使命:發(fā)展數(shù)據(jù)治理行業(yè)、普及數(shù)據(jù)治理知識、改變企業(yè)數(shù)據(jù)管理現(xiàn)狀、提高企業(yè)數(shù)據(jù)質(zhì)量、推動企業(yè)走進大數(shù)據(jù)時代。
我們的愿景:打造數(shù)據(jù)治理專家、數(shù)據(jù)治理平臺、數(shù)據(jù)治理生態(tài)圈。
我們的價值觀:凝聚行業(yè)力量、打造數(shù)據(jù)治理全鏈條平臺、改變數(shù)據(jù)治理生態(tài)圈。

了解更多精彩內(nèi)容
長按,識別二維碼,關注我們吧!
數(shù)據(jù)工匠俱樂部
微信號:zgsjgjjlb
專注數(shù)據(jù)治理,推動大數(shù)據(jù)發(fā)展。
