<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          一文搞懂ETL和ELT的區(qū)別

          共 2052字,需瀏覽 5分鐘

           ·

          2022-01-10 15:38

          在過(guò)去的十年,我們對(duì)存儲(chǔ)和管理數(shù)據(jù)的方式發(fā)生了很大的變化,并從ETL模式逐漸轉(zhuǎn)向ELT,然而,小編認(rèn)為這并不會(huì)是終點(diǎn);未來(lái)極有可能會(huì)向EL(T)發(fā)展,也就是EL和T進(jìn)行完全解耦。當(dāng)然這只是一種猜想。本篇主要對(duì)ETL和ELT兩種模式進(jìn)行展開來(lái)說(shuō),如果有朋友對(duì)這兩個(gè)概念有些困惑的話,希望本篇文章能夠幫助你。

          ELT和ETL這兩種模式從字面上來(lái)看就是一個(gè)順序顛倒的問(wèn)題,每個(gè)單詞拆開來(lái)看其實(shí)都是一樣的。E代表的是Extract,即抽取,也就是從源端拉取數(shù)據(jù);T代表的是Transform即轉(zhuǎn)換,對(duì)一些結(jié)構(gòu)化或者半結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行一些處理,比如數(shù)據(jù)加密,字段轉(zhuǎn)換映射,拼接等等操作;L代表的是Load即加載,也就是將數(shù)據(jù)寫入到目標(biāo)系統(tǒng)中。

          ETL

          如上圖所示,我們來(lái)回顧一下ETL的流程:1、首先從源端拉取數(shù)據(jù),這個(gè)過(guò)程就是extract。通常我們所熟知的sqoop,datax這些數(shù)據(jù)同步工具就是干這個(gè)事情的。

          2、當(dāng)從源端拉取數(shù)據(jù)后,并沒(méi)有直接灌入到目標(biāo)表,大家可以理解成是先放到一個(gè)緩沖區(qū),在這個(gè)區(qū)域內(nèi)進(jìn)行一些符合目標(biāo)系統(tǒng)標(biāo)準(zhǔn)的預(yù)處理,比如我們建設(shè)數(shù)倉(cāng)的時(shí)候?qū)τ跀?shù)據(jù)同步后會(huì)把一些空值置為一些默認(rèn)值,以此來(lái)保障數(shù)據(jù)完整性,對(duì)于不同源端的同一種含義的字段信息會(huì)進(jìn)行統(tǒng)一格式轉(zhuǎn)換,對(duì)于敏感數(shù)據(jù)會(huì)進(jìn)行加密等等這些操作,一般是在入倉(cāng)之前處理掉的。大家也可以當(dāng)作是在ODS層。

          3、當(dāng)預(yù)處理完之后,將數(shù)據(jù)寫入到目標(biāo)系統(tǒng)中,那么這個(gè)時(shí)候也就是真正的入倉(cāng),也就是說(shuō)倉(cāng)中的數(shù)據(jù)都是要符合數(shù)倉(cāng)標(biāo)準(zhǔn)的。
          那么這種流程有什么好處呢?1、首先入倉(cāng)之后的數(shù)據(jù)肯定是已經(jīng)標(biāo)準(zhǔn)化的了,那么對(duì)于下游的使用方是不是很方便了呢?比如說(shuō)分析師想要統(tǒng)計(jì)一些指標(biāo),直接使用數(shù)倉(cāng)的表是不是可以省略掉復(fù)雜的數(shù)據(jù)規(guī)范處理。

          2、對(duì)于一些敏感數(shù)據(jù),如果在入倉(cāng)之前就進(jìn)行加密處理,這種模式更加符合GDPR、HIPAA 和 CCPA 標(biāo)準(zhǔn)。

          3、目前市面上有很多集成的ETL工具,可以很容易實(shí)施并完成這一整套的流程,而不需要過(guò)于復(fù)雜的操作。

          任何事物都有正反兩面,既然ETL有以上的好處,那么肯定是有一些缺點(diǎn)的。這里以敏感數(shù)據(jù)加密場(chǎng)景為例:比如敏感數(shù)據(jù)12332234在入倉(cāng)之前,要對(duì)敏感數(shù)據(jù)進(jìn)行一些定制的加密算法處理,而這種算法需要調(diào)用三方接口或者外部接口才能夠完成(即要把加密后的結(jié)果Encryt_sdfdsfsfd入倉(cāng)),那么大家思考一下,如果敏感數(shù)據(jù)量達(dá)到上千萬(wàn),那么ETL整個(gè)流程所需的耗時(shí)是不是肯定會(huì)很長(zhǎng)(考慮到外部接口限流的情況)?那么或許有朋友說(shuō)這種可以通過(guò)大數(shù)據(jù)技術(shù)(比如寫MR或者Spark程序)來(lái)解決,也不會(huì)很慢的。但是想一想,這個(gè)時(shí)候數(shù)據(jù)是不是已經(jīng)入倉(cāng)了呢?為什么這樣說(shuō),請(qǐng)問(wèn)數(shù)據(jù)這個(gè)時(shí)候是不是已經(jīng)落到了ODS層了呢?這種模式就是等下介紹的ELT模式。通過(guò)這個(gè)示例也足以看出,ETL模式適用于小數(shù)據(jù)量集

          ELT

          如上圖所示,我們來(lái)介紹下ELT的流程:
          1、和ETL中的E作用一樣,即從源端系統(tǒng)抽取數(shù)據(jù),比如Mysql,Oracle,PG等等。
          2、該步驟的流程就和ETL不一樣了,T和L進(jìn)行了位置置換,這里是先加載到目標(biāo)系統(tǒng),大家也可以理解成是數(shù)據(jù)入了倉(cāng)
          3、當(dāng)數(shù)據(jù)入了倉(cāng)之后,再進(jìn)行T操作,也就是進(jìn)行轉(zhuǎn)換。也就是說(shuō)數(shù)據(jù)轉(zhuǎn)換標(biāo)準(zhǔn)化操作由緩沖區(qū)轉(zhuǎn)移到了倉(cāng)中進(jìn)行。
          那么T和L進(jìn)行置換之后,有什么好處呢?
          1、首先針對(duì)于ETL模式下介紹的敏感數(shù)據(jù)加密的例子就得到了很好的效率提升,借助于我們目前所使用的大數(shù)據(jù)技術(shù),比如定義UDF之類的在倉(cāng)中進(jìn)行加密處理,那么速度肯定會(huì)比在ETL模型下要快。這也就是說(shuō)ELT其實(shí)是適用于大數(shù)據(jù)量集的,但是需要注意安全管控防止出現(xiàn)數(shù)據(jù)泄露問(wèn)題。

          2、站在消費(fèi)方來(lái)說(shuō),當(dāng)要使用數(shù)據(jù)的時(shí)候,無(wú)需等待轉(zhuǎn)換標(biāo)準(zhǔn)化處理完成入倉(cāng)之后才能使用,而是可以直接在倉(cāng)中訪問(wèn)原始數(shù)據(jù),但是這樣一來(lái)會(huì)加重分析師對(duì)數(shù)據(jù)清洗的操作。

          3、目前大多數(shù)公司都有現(xiàn)成的平臺(tái)來(lái)建設(shè)數(shù)倉(cāng),而且隨著云上數(shù)倉(cāng)的模式逐漸成熟,ELT受益于這種平臺(tái)生態(tài)系統(tǒng),這樣一來(lái)轉(zhuǎn)換過(guò)程通常是自動(dòng)化或者說(shuō)是配置化的,所以在維護(hù)方面帶來(lái)了便利。

          ETL vs ELT

          在實(shí)際場(chǎng)景中,小編認(rèn)為這兩種模式普遍是共存的。只是針對(duì)不同的場(chǎng)景選擇不同的模式來(lái)解決而已。對(duì)于小數(shù)據(jù)量集而且轉(zhuǎn)換過(guò)程不會(huì)過(guò)于耗時(shí)的場(chǎng)景可以采取ETL處理,例如使用sqoop同步數(shù)據(jù),日志采集過(guò)程當(dāng)中直接清洗數(shù)據(jù)這類場(chǎng)景;對(duì)于數(shù)據(jù)體量較大而且轉(zhuǎn)換邏輯比較復(fù)雜的場(chǎng)景可以采取ELT處理,例如前面提到的數(shù)據(jù)加密場(chǎng)景。目前比較火的數(shù)據(jù)湖和中臺(tái)的建設(shè)多數(shù)是以ELT模式開展的,當(dāng)然這兩種處理模式之間的區(qū)別不僅僅局限于這一點(diǎn),這里做一下匯總便于大家理解:加下方好友,領(lǐng)取670頁(yè)大數(shù)據(jù)技術(shù)架構(gòu)手冊(cè),無(wú)套路!

          瀏覽 38
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  69精品无码成人久久久久久 | 三级片www. | 成人深爱激情网 | av天天看 | 天天天干夜夜夜 |