亚洲国产毛片,国产91后入,一区二区三区四区视频,91九九,无码群交东京热,AV天天艹,夜夜撸大香蕉,人妻久久久久免费肉丝足交

本文目錄CONTENTS

? ETL同步之道 [ Sqoop、DataX、Kettle、Canal、StreamSets ]

? ETL之技術棧 [ 重工具 vs 開發(fā)語言 ]

? ETL加載策略 [ Merge、Delta、拉鏈 ]

ETL，是英文 Extract-Transform-Load 的縮寫，用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉換(transform)、加載(load)至目的端的過程。

ETL工具或類ETL的數(shù)據(jù)集成同步工具或語言，企業(yè)生產(chǎn)中工具也非常之多，主流的etl工具有Sqoop、DataX、Canal、flume、Logstash、kettle、DataStage、Informatica、Talend等，語言有強悍的SQL、Shell、Python、Java、Scala等。而數(shù)據(jù)源多為業(yè)務系統(tǒng)，埋點日志，離線文件，第三方數(shù)據(jù)等。

數(shù)據(jù)同步之道

01. sqoop

Sqoop，SQL-to-Hadoop 即 “SQL到Hadoop和Hadoop到SQL”。

是Apache開源的一款在Hadoop和關系數(shù)據(jù)庫服務器之間傳輸數(shù)據(jù)的工具。主要用于在Hadoop與關系型數(shù)據(jù)庫之間進行數(shù)據(jù)轉移，可以將一個關系型數(shù)據(jù)庫（MySQL ,Oracle等）中的數(shù)據(jù)導入到Hadoop的HDFS中，也可以將HDFS的數(shù)據(jù)導出到關系型數(shù)據(jù)庫中。

sqoop命令的本質是轉化為MapReduce程序。sqoop分為導入（import）和導出（export），策略分為table和query，模式分為增量和全量。

命令簡單示例：

02. DataX

DataX 是阿里巴巴集團內被廣泛使用的離線數(shù)據(jù)同步工具/平臺，實現(xiàn)包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各種異構數(shù)據(jù)源之間高效的數(shù)據(jù)同步功能。

github地址：https://github.com/alibaba/DataX

支持數(shù)據(jù)源：

DataX本身作為離線數(shù)據(jù)同步框架，采用Framework + plugin架構構建。將數(shù)據(jù)源讀取和寫入抽象成為Reader+Writer插件，納入到整個同步框架中。

目前已到datax3.0框架設計：

datax使用示例，核心就是編寫json配置文件job：

03. kettle

Kettle，中文名：水壺，是一款國外免費開源的、可視化的、功能強大的ETL工具，純java編寫，可以在Windows、Linux、Unix上運行，數(shù)據(jù)抽取高效穩(wěn)定。

Kettle家族目前包括4個產(chǎn)品：Spoon、Pan、CHEF、Kitchen。

Kettle的最大特點：

免費開源：基于Java免費開源軟件
易配置：可跨平臺，綠色無需安裝
不同數(shù)據(jù)庫：ETL工具集，可管理不同數(shù)據(jù)庫的數(shù)據(jù)
兩種腳本文件：transformation和job，transformation完成針對數(shù)據(jù)的基礎轉換，job則完成整個工作流的控制
圖形界面設計：托拉拽，無需寫代碼
定時功能：在Job下的start模塊，有一個定時功能，可以每日，每周等方式進行定時

福利：需要Kettle資源教程視頻的同學，公眾號后臺回復關鍵字：kettle，即可獲取哦~

04. canal

canal是阿里巴巴旗下的一款開源項目，純Java開發(fā)。基于數(shù)據(jù)庫增量日志解析，提供增量數(shù)據(jù)實時訂閱和消費，目前主要支持了MySQL，也支持mariaDB。

很多大型的互聯(lián)網(wǎng)項目生產(chǎn)環(huán)境中使用，包括阿里、美團等都有廣泛的應用，是一個非常成熟的數(shù)據(jù)庫同步方案，基礎的使用只需要進行簡單的配置即可。

github地址：https://github.com/alibaba/canal

當前的 canal 支持源端 MySQL 版本包括 5.1.x , 5.5.x , 5.6.x , 5.7.x , 8.0.x

canal是通過模擬成為mysql 的slave的方式，監(jiān)聽mysql 的binlog日志來獲取數(shù)據(jù)，binlog設置為row模式以后，不僅能獲取到執(zhí)行的每一個增刪改的腳本，同時還能獲取到修改前和修改后的數(shù)據(jù)，基于這個特性，canal就能高性能的獲取到mysql數(shù)據(jù)數(shù)據(jù)的變更。

05. StreamSets

Streamsets是一個大數(shù)據(jù)實時采集ETL工具，可以實現(xiàn)不寫一行代碼完成數(shù)據(jù)的采集和流轉。通過拖拽式的可視化界面，實現(xiàn)數(shù)據(jù)管道(Pipelines)的設計和定時任務調度。

數(shù)據(jù)源支持MySQL、Oracle等結構化和半/非結構化，目標源支持HDFS、Hive、Hbase、Kudu、Solr、Elasticserach等。創(chuàng)建一個Pipelines管道需要配置數(shù)據(jù)源(Origins)、操作(Processors)、目的地(Destinations)三部分。

Streamsets的強大之處：