數(shù)據(jù)湖 VS 數(shù)據(jù)倉庫,哪個(gè)更好用?

目前,數(shù)據(jù)仍然是技術(shù)創(chuàng)新的關(guān)鍵之一,任何數(shù)據(jù)都需要保護(hù)、存儲(chǔ)和管理以便更好地應(yīng)用。毋庸置疑,有效和合理的數(shù)據(jù)利用確實(shí)可以為各類企業(yè)帶來不一樣的收益。
本文涉及大數(shù)據(jù)存儲(chǔ)和處理的兩個(gè)不同概念:數(shù)據(jù)倉庫和數(shù)據(jù)湖。你將認(rèn)識(shí)到它們的主要優(yōu)點(diǎn),并為業(yè)務(wù)作出正確的選擇。
數(shù)據(jù)倉庫是一個(gè)用于實(shí)現(xiàn)和支持各種業(yè)務(wù)活動(dòng)的系統(tǒng),關(guān)系到大數(shù)據(jù)分析和結(jié)構(gòu)化。通常情況下,數(shù)據(jù)倉庫系統(tǒng) 產(chǎn)出的報(bào)告被用于目標(biāo)分析、業(yè)務(wù)戰(zhàn)略發(fā)展和工作匯報(bào)。
由于采用實(shí)時(shí)數(shù)據(jù)分析,該系統(tǒng)可以提供最新的信息,進(jìn)而很容易應(yīng)用在業(yè)務(wù)的各個(gè)方面。
數(shù)據(jù)倉庫系統(tǒng)的基本功能包括 報(bào)告、可視化和商業(yè)智能,這使它成為完美的業(yè)務(wù)分析工具。此外,以下特點(diǎn)也促成了它的廣泛應(yīng)用:
靈活性,無論數(shù)據(jù)的原始來源是什么,它總能用相同的算法進(jìn)行提取和轉(zhuǎn)換。
可靠性,數(shù)據(jù)倉庫通常在預(yù)定時(shí)間更新,這大大減少了實(shí)時(shí)變化的影響。
可擴(kuò)展性,能利用任何大小的數(shù)據(jù),并適用于任何存儲(chǔ)空間。
數(shù)據(jù)倉庫適用于結(jié)構(gòu)化和已處理的數(shù)據(jù)類型,并提供數(shù)據(jù)聚合和匯總的只讀查詢,寫入機(jī)制和預(yù)處理功能使其成為商業(yè)分析 實(shí)施 的完美選擇。
數(shù)據(jù)倉庫一般應(yīng)用于銀行、金融、公共部門或酒店業(yè),數(shù)據(jù)存儲(chǔ)之前通常要進(jìn)行預(yù)處理。

數(shù)據(jù)湖系統(tǒng)以原始格式存儲(chǔ)數(shù)據(jù),可以存儲(chǔ)結(jié)構(gòu)化(表格或圖形)、半結(jié)構(gòu)化(CSV、JSON、日志)、非結(jié)構(gòu)化(電子郵件、文檔)和二進(jìn)制數(shù)據(jù)(音頻、照片等)。
數(shù)據(jù)湖與其他數(shù)據(jù)系統(tǒng)主要區(qū)別如下:
易用,數(shù)據(jù)湖可以存儲(chǔ)不同來源、不同類型的數(shù)據(jù),方便進(jìn)一步分析和重新安置
組織和結(jié)構(gòu)化,數(shù)據(jù)是以原始格式進(jìn)行實(shí)時(shí)收集和存儲(chǔ)
實(shí)惠,能為任何規(guī)模的數(shù)據(jù)提供劃算的價(jià)格
適用于任何時(shí)間框架,可以實(shí)時(shí)或按需更新
無限存儲(chǔ)空間,為大數(shù)據(jù)存儲(chǔ)提供優(yōu)秀的解決方案。
不同于數(shù)據(jù)倉庫,數(shù)據(jù)湖可以完美地處理不同類型的數(shù)據(jù),而且因?yàn)槟芴峁└咝詢r(jià)比的大數(shù)據(jù)存儲(chǔ)而備受贊賞。
它的這些功能主要提供給數(shù)據(jù)科學(xué)家和工程師,他們需要足夠的空間來存儲(chǔ)所有的重要數(shù)據(jù)和項(xiàng)目細(xì)節(jié),并在深度學(xué)習(xí)、實(shí)時(shí)分析及其他方面采用該系統(tǒng)。
圖片來自 https://www.n-ix.com
數(shù)據(jù)湖通常應(yīng)用于醫(yī)療、教育、交通這些行業(yè),它既可以提供實(shí)時(shí)洞察,還能提供一個(gè)檢測(cè)和預(yù)防各種潛在問題的未來預(yù)測(cè)清單。這些領(lǐng)域通常都需要數(shù)據(jù)后處理程序,而此類程序可以通過數(shù)據(jù)湖系統(tǒng)輕松實(shí)現(xiàn)。
總而言之,是用數(shù)據(jù)湖還是數(shù)據(jù)倉庫,完全取決于你的需求、目標(biāo)和期望。
有了數(shù)據(jù)倉庫系統(tǒng),你可以利用經(jīng)過組織和預(yù)分類的數(shù)據(jù)達(dá)成更進(jìn)一步的目的,而數(shù)據(jù)湖系統(tǒng)則可以按原始大小和格式為你存儲(chǔ)數(shù)據(jù)。
在了解每種系統(tǒng)的主要特點(diǎn)以及傳統(tǒng)上用于哪些行業(yè)之后,你應(yīng)該會(huì)更容易確定哪個(gè)系統(tǒng)最適合你的業(yè)務(wù)。
作者介紹:
Conrad Sturdy,自由撰稿人,熱愛戶外活動(dòng),相信新鮮空氣會(huì)帶來新的靈感。
原文鏈接:
https://www.datasciencecentral.com/profiles/blogs/data-lake-vs-data-warehouse-what-is-the-difference
--end--
掃描下方二維碼 添加好友,備注【交流】 可私聊交流,也可進(jìn)資源豐富學(xué)習(xí)群
更文不易,點(diǎn)個(gè)“在看”支持一下??
