XUANWU云原生數(shù)據(jù)底座
玄武(XUANWU)是國產化云原生數(shù)據(jù)底座開源項目,包含低代碼開發(fā)平臺白澤(Byzer)、向量化執(zhí)行引擎 Gluten、資源和服務管理控制臺 XUANWU Manager 三大模塊。
繼 Hadoop 之后,云原生的 Kubernetes 技術上將形成新一代大數(shù)據(jù)底座,以 Spark 為統(tǒng)一的計算引擎,以湖倉為統(tǒng)一的存儲核心,大幅簡化數(shù)據(jù)棧復雜度,上建低代碼、低門檻的數(shù)據(jù)應用,是未來的大勢所趨。 經過以金融生產場景的初步測評,云原生數(shù)據(jù)底座可以讓:
- 整體 IT 資源利用率提升 20-50%,受益于底層的計算統(tǒng)一和存儲統(tǒng)一,資源能在企業(yè)更大范圍內靈活調配
- 整體計算性能提升約 20%,受益于存算分離架構,計算任務能更有彈性的分布到更多計算節(jié)點高速完成
- 系統(tǒng)運維成本大幅降低,受益于理論上無限的擴容能力,和整合多系統(tǒng)到統(tǒng)一底座的能力
- 實現(xiàn)國產化、自主可控的技術換代
Kyligence 云原生數(shù)據(jù)底座能做什么?
Kyligence 云原生數(shù)據(jù)底座簡稱 KYLIGENCE XUANWU,它是一個開源套件,旨在提供一個快速體驗和驗證新技術的平臺,推動國產化云原生技術的交流和發(fā)展。
- 快速安裝,一行命令完成 Kubernetes 上的安裝,30 分鐘開始體驗云原生的數(shù)據(jù)能力
- 一鍵運行 TPC-H 基準測試,云原生的 SparkSQL 相比 Hadoop 提速約 20%
- 一鍵體驗彈性伸縮,快速響應業(yè)務變化,精準應對潮汐峰谷
- 在低代碼平臺上體驗 AI 機器學習,從數(shù)據(jù)準備、模型訓練、到模型發(fā)布的全鏈路
后續(xù)展望
- 下一代 Native Spark Engine 核心升級,性能全面提升約 2.5 倍,預計能整體節(jié)省 IT 成本約 40%!
- 自建 Serverless 計算集群,實現(xiàn)企業(yè)內的無限擴容 和 pay-as-you-go
Quick Start
1. 快速部署
1.1 部署 Xuanwu Manager 步驟
Xuanwu Manager 提供對資源、作業(yè)和服務的管理與觀測能力,它是數(shù)據(jù)服務運行的基礎。
1.1.1 獲取安裝腳本
wget --no-check-certificate https://s3.cn-north-1.amazonaws.com.cn/public.kyligence.io/xuanwu/release/alpha20221230/install_opensource.sh
1.1.2 執(zhí)行安裝腳本
bash install_opensource.sh
正確部署后,使用瀏覽器即可訪問 Xuanwu Manager 各項功能,目前支持兩種身份登錄:
- 租戶管理員:xuanwu/ADMIN/Xuanwu@319(默認)
- 平臺管理員:ADMIN/KYLIN(默認)
1.2 部署數(shù)據(jù)服務步驟
1.2.1 獲取安裝腳本
# 獲取安裝包并解壓
wget --no-check-certificate https://s3.cn-north-1.amazonaws.com.cn/public.kyligence.io/xuanwu-services/release/alpha20221230_opensource.tar.gz
1.2.2 配置對象存儲
請修改 xuanwu-1.0-alpha-part-1/values.yaml
# 對象存儲 storage: type: obs # 華為填寫 obs,阿里填寫 oss bucket: https://mybucket.obs.cn-east-3.myhuaweicloud.com # bucket 地址(obs 為例) accessKey: yourAccessKey secretKey: yourSecretKey
1.2.3 配置 RSS
為提高存算分離架構下計算引擎執(zhí)行穩(wěn)定性,推薦部署 RSS 服務,請將 RSS Master 地址填入文件 xuanwu-1.0-alpha-part-1/values.yaml ,示例如下:
kyuubi: spark: rss: # RSS 地址 - addresses: - ip: 10.1.2.146 ports: - port: 9097 protocol: TCP - addresses: - ip: 10.1.2.147 ports: - port: 9097 protocol: TCP - addresses: - ip: 10.1.2.148 ports: - port: 9097 protocol: TCP
1.2.4 執(zhí)行安裝腳本
在安裝包目錄下找到 install.sh 并執(zhí)行
2. 快速使用
2.1 一行命令,生成 TPC-DS 數(shù)據(jù)集
進入安裝包根目錄,執(zhí)行
kubectl apply -f ./tpcds-setup.yaml
查看數(shù)據(jù)集生成進度,執(zhí)行 kubectl get job tpcds-setup -n xuanwu ,當 COMPLETIONS 顯示 1/1 表示完成
NAME COMPLETIONS DURATION AGE
tpcds-setup 1/1 33m 48m
2.2 一行命令,運行 TPC-DS 基準測試
進入安裝包根目錄,執(zhí)行
kubectl apply -f ./tpcds-run.yaml
查看數(shù)據(jù)集生成進度,執(zhí)行 kubectl get job tpcds-run -n xuanwu ,當 COMPLETIONS 顯示 1/1 表示完成
NAME COMPLETIONS DURATION AGE
tpcds-run 1/1 33m 48m
查看測試結果,執(zhí)行 kubectl logs job.batch/tpcds-run -n xuanwu
3. 部署 Byzer
為在低代碼平臺上體驗 AI 機器學習,從數(shù)據(jù)準備、模型訓練、到模型發(fā)布的全鏈路,通過 Xuanwu Manager 的 Web GUI 可以快速部署 Byzer
