Amundsen數(shù)據(jù)發(fā)現(xiàn)和元數(shù)據(jù)引擎
Amundsen 是一個(gè)數(shù)據(jù)發(fā)現(xiàn)和元數(shù)據(jù)引擎,用于提高數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家和工程師在與數(shù)據(jù)交互時(shí)的工作效率。
它通過索引數(shù)據(jù)資源(表、儀表板、流等)和基于使用模式(例如,查詢次數(shù)多的表比次數(shù)少的表出現(xiàn)得更早)支持頁面排名樣式搜索來實(shí)現(xiàn)這一點(diǎn)。包括三個(gè)微服務(wù)、一個(gè)數(shù)據(jù)提取庫和一個(gè)公共庫。
- amundsenfrontendlibrary:前端服務(wù),它是一個(gè)帶有 React 前端的 Flask 應(yīng)用程序。
- amundsensearchlibrary:利用 Elasticsearch 進(jìn)行搜索功能的搜索服務(wù)用于支持前端元數(shù)據(jù)搜索。
- amundsenmetadatalibrary:元數(shù)據(jù)服務(wù),利用 Neo4j 或 Apache Atlas 作為持久層,提供各種元數(shù)據(jù)。
- amundsendatabuilder : 用于構(gòu)建元數(shù)據(jù)圖和搜索索引的數(shù)據(jù)攝取庫。用戶可以使用帶有庫的 python 腳本或?qū)霂斓?a >Airflow DAG加載數(shù)據(jù)。
- amundsencommon:Amundsen Common 庫包含 Amundsen 微服務(wù)之間的通用代碼。
- amundsengremlin:Amundsen Gremlin 庫包含用于將模型對象轉(zhuǎn)換為 gremlin 中的頂點(diǎn)和邊的代碼。它用于將數(shù)據(jù)加載到 AWS Neptune 后端。
- amundsenrds:Amundsenrds 包含 ORM 模型以支持關(guān)系數(shù)據(jù)庫作為 Amundsen 中的元數(shù)據(jù)后端存儲(chǔ)。ORM 模型中的模式遵循數(shù)據(jù)構(gòu)建器模型的邏輯。Amundsenrds 將用于數(shù)據(jù)構(gòu)建器和元數(shù)據(jù)庫,用于關(guān)系數(shù)據(jù)庫的元數(shù)據(jù)存儲(chǔ)和檢索。
主頁
文檔
要求
- Python = 3.6 或 3.7
- Node = v10 或 v12(v14 可能存在兼容性問題)
- npm >= 6
入門
請?jiān)L問 Amundsen 安裝文檔以 快速開始 使用虛擬數(shù)據(jù)引導(dǎo)默認(rèn)版本的 Amundsen。
Amundsen 是 LF AI & Data Foundation 的孵化階段項(xiàng)目。
評論
圖片
表情
