Apache Gobblin分布式數(shù)據(jù)集成框架
Gobblin 是 Hadoop 通用數(shù)據(jù)攝取框架,可以從各種數(shù)據(jù)源中提取,轉換和加載海量數(shù)據(jù)。比如:數(shù)據(jù)庫,rest APIs,filers,等等。Gobblin 處理日常規(guī)劃任務需要所有數(shù)據(jù)攝取 ETLs,包括作業(yè)/任務規(guī)劃,任務分配,錯誤處理,狀態(tài)管理,數(shù)據(jù)質量檢測,數(shù)據(jù)發(fā)布等等。
Gobblin 通過同樣的執(zhí)行框架從不同數(shù)據(jù)源攝取數(shù)據(jù),在同一個地方管理所有不同數(shù)據(jù)源的元數(shù)據(jù)。同時結合了其他特性,比如自動伸縮,容錯,數(shù)據(jù)質量保證,可擴展和處理數(shù)據(jù)模型改革等等。Gobblin 變得更容易使用,是個高效的數(shù)據(jù)攝取框架。
評論
圖片
表情
