數(shù)據(jù)湖存儲(chǔ)架構(gòu)選型

一、數(shù)據(jù)湖是個(gè)潮流

熟悉 Hadoop 整個(gè)生態(tài)的話,過去經(jīng)常會(huì)談到一個(gè)非常大的、非常復(fù)雜的生態(tài)的大圖。那個(gè)圖里面涉及到非常多的組件,結(jié)構(gòu)關(guān)系非常復(fù)雜。而基于數(shù)據(jù)湖的架構(gòu),可以得到大大的簡(jiǎn)化。
二、湖存儲(chǔ)/加速:挑戰(zhàn)很大



三、完美選項(xiàng)之 checklist
第一, 基于對(duì)象存儲(chǔ),大規(guī)模存儲(chǔ)能力。
第二,大目錄元數(shù)據(jù)操作能力。
第三,策略靈活的緩存加速能力。
第四,和計(jì)算打通優(yōu)化的能力。

第五,支持?jǐn)?shù)據(jù)湖新型表格存儲(chǔ)的能力。
第六,歸檔/壓縮/安全存儲(chǔ)的能力。
第七,全面的大數(shù)據(jù)+ AI 生態(tài)支持。
第八,強(qiáng)大遷移能力,甚至是無縫遷移能力。
四、阿里云上的 JindoFS



第一,基于對(duì)象存儲(chǔ),大規(guī)模存儲(chǔ)能力。支持,基于阿里云對(duì)象存儲(chǔ) OSS , OSS 支持 EB 級(jí)海量存儲(chǔ)。 第二,大目錄元數(shù)據(jù)操作能力。支持,JindoFS 在超大目錄數(shù)據(jù)加載、檢索、統(tǒng)計(jì)、rename 上具有幾倍的性能優(yōu)勢(shì)。 第三, 緩存加速的能力。支持,JindoFS 支持在大數(shù)據(jù)分析場(chǎng)景、交互式查詢場(chǎng)、機(jī)器學(xué)習(xí)訓(xùn)練 場(chǎng)景和云原生應(yīng)用場(chǎng)景提供策略靈活的分布式緩存加速能力;緩存加速的性能提升大于 50% 的效果優(yōu)于開源方案。 第四,和計(jì)算打通優(yōu)化的能力。支持,和 JindoFS co-design 的 JindoTable 提供對(duì)數(shù)倉(cāng)表的緩存、計(jì)算加速、治理優(yōu)化和歸檔存儲(chǔ)支持。

第五,支持?jǐn)?shù)據(jù)湖新型表格存儲(chǔ)的能力。支持,JindoFS 提供 Delta 、Hudi 和 Iceberg 所需要的存儲(chǔ)接口和事務(wù)支持語(yǔ)義,并支持 Flink 實(shí)時(shí)入湖。 第六,歸檔/壓縮/安全存儲(chǔ)的能力。支持, JindoFS 在目錄、表、分區(qū)級(jí)別支持 OSS 歸檔;提供透明壓縮;支持 AK 免密保護(hù),Ranger 授權(quán)和審計(jì)擴(kuò)展功能。 第七,全面的大數(shù)據(jù)+ AI 生態(tài)支持。支持,JindoFS 全面兼容和支持開源生態(tài),提供:Hadoop JindoFS SDK;Jindo Job Committer ; POSIX fuse 支持 JindoFuse ;TensorFlow FileSystem ;Flink connector ;Kite SDK 。 第八,強(qiáng)大遷移能力甚至是無縫遷移的能力。部分支持,提供優(yōu)化的 JindoDistCp 工具,支持 Hadoop 數(shù)據(jù)源導(dǎo)入。

評(píng)論
圖片
表情
