<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          數(shù)據(jù)湖在大數(shù)據(jù)典型場景下應(yīng)用調(diào)研個人筆記

          共 2331字,需瀏覽 5分鐘

           ·

          2021-03-27 12:50

          點擊上方藍(lán)色字體,選擇“設(shè)為星標(biāo)
          回復(fù)”資源“獲取更多資源


          數(shù)據(jù)湖是一種不斷演進(jìn)中、可擴(kuò)展的大數(shù)據(jù)存儲、處理、分析的基礎(chǔ)設(shè)施;以數(shù)據(jù)為導(dǎo)向,實現(xiàn)任意來源、任意速度、任意規(guī)模、任意類型數(shù)據(jù)的全量獲取、全量存儲、多模式處理與全生命周期管理;并通過與各類外部異構(gòu)數(shù)據(jù)源的交互集成,支持各類企業(yè)級應(yīng)用。
          目前在生產(chǎn)上可以用的經(jīng)驗不多,筆者個人在調(diào)研技術(shù)方案時參考了目前市面上公開的眾多資料,供團(tuán)隊在數(shù)據(jù)架構(gòu)設(shè)計和選型上進(jìn)行參考。

          華為生產(chǎn)場景數(shù)據(jù)湖平臺建設(shè)實踐

          該平臺圍繞數(shù)據(jù)分如下三大邏輯模塊:

          典型數(shù)據(jù)應(yīng)用場景按應(yīng)用場景,對數(shù)據(jù)流程、處理平臺進(jìn)行的標(biāo)注:
          • (綠色)結(jié)構(gòu)化數(shù)據(jù)通過批處理、虛擬鏡像到Hive數(shù)據(jù),再通過Kylin預(yù)處理將數(shù)據(jù)儲存在Cube中,封裝成RESTAPI服務(wù),提供高并發(fā)亞秒級查詢服務(wù),監(jiān)測物料質(zhì)量情況;

          • (紅色)IoT數(shù)據(jù),通過sensor采集上報到MQS,走storm實時分揀到HBase,通過算法模型加工后進(jìn)行ICT物料預(yù)警監(jiān)測;

          • (黃色)條碼數(shù)據(jù)通過ETLloader到IQ列式數(shù)據(jù)湖,經(jīng)過清洗加工后,提供千億規(guī)模條碼掃描操作。

          非結(jié)構(gòu)化質(zhì)檢圖片數(shù)據(jù):
          通過web前臺、數(shù)據(jù)API服務(wù),進(jìn)行圖片數(shù)據(jù)的上傳及查詢,圖片需要有唯一ID作為標(biāo)示,確??蓹z索。海量圖片數(shù)據(jù)以ID為rowkey,儲存于Hbase平臺,提供快速儲存及查詢能力。數(shù)據(jù)資產(chǎn)上有以下方面的構(gòu)建:
          • 統(tǒng)一索引描述非結(jié)構(gòu)數(shù)據(jù),方便數(shù)據(jù)檢索分析。

          • 增加維護(hù)及更新時間作為對象描述字段(圖片類型、像素大小、尺寸規(guī)格)。非對象方式及數(shù)字化屬性編目(全文文本、圖像、聲音、影視、超媒體等信息),自定義元數(shù)據(jù)。

          • 不同類型的數(shù)據(jù)可以形成了關(guān)聯(lián)并處理非結(jié)構(gòu)化數(shù)據(jù)。

          實時金融數(shù)據(jù)湖的應(yīng)用

          在功能上,包括數(shù)據(jù)源、統(tǒng)一的數(shù)據(jù)接入、數(shù)據(jù)存儲、數(shù)據(jù)開發(fā)、數(shù)據(jù)服務(wù)和數(shù)據(jù)應(yīng)用。
          • 第一,數(shù)據(jù)源。不僅僅支持結(jié)構(gòu)化數(shù)據(jù),也支持半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。

          • 第二,統(tǒng)一數(shù)據(jù)接入。數(shù)據(jù)通過統(tǒng)一數(shù)據(jù)接入平臺,按數(shù)據(jù)的不同類型進(jìn)行智能的數(shù)據(jù)接入。

          • 第三,數(shù)據(jù)存儲。包括數(shù)據(jù)倉庫和數(shù)據(jù)湖,實現(xiàn)冷熱溫智能數(shù)據(jù)分布。

          • 第四,數(shù)據(jù)開發(fā)。包括任務(wù)開發(fā),任務(wù)調(diào)度,監(jiān)控運維,可視化編程。

          • 第五,數(shù)據(jù)服務(wù)。包括交互式查詢,數(shù)據(jù) API,SQL 質(zhì)量評估,元數(shù)據(jù)管理,血緣管理。

          • 第六,數(shù)據(jù)應(yīng)用。包括數(shù)字化營銷,數(shù)字化風(fēng)控,數(shù)據(jù)化運營,客戶畫像。

          在邏輯上,實時金融數(shù)據(jù)湖的邏輯架構(gòu)主要有 4 層,包括存儲層、計算層、服務(wù)層和產(chǎn)品層。
          • 在存儲層,有 MPP 數(shù)據(jù)倉庫和基于 OSS/HDFS 的數(shù)據(jù)湖,可以實現(xiàn)智能存儲管理。

          • 在計算層,實現(xiàn)統(tǒng)一的元數(shù)據(jù)服務(wù)。

          • 在服務(wù)層,有聯(lián)邦數(shù)據(jù)計算和數(shù)據(jù)服務(wù) API 兩種方式。其中,聯(lián)邦數(shù)據(jù)計算服務(wù)是一個聯(lián)邦查詢引擎,可以實現(xiàn)數(shù)據(jù)跨庫查詢,它依賴的就是統(tǒng)一元數(shù)據(jù)服務(wù),查詢的是數(shù)據(jù)倉庫和數(shù)據(jù)湖中的數(shù)據(jù)。

          • 在產(chǎn)品層,提供智能服務(wù):包 RPA、證照識別、語言分析、客戶畫像、智能推薦。商業(yè)分析服務(wù):包括自助分析、客戶洞察、可視化。數(shù)據(jù)開發(fā)服務(wù):包括數(shù)據(jù)開發(fā)平臺,自動化治理。

          整個實時場景架構(gòu):
          數(shù)據(jù)源被實時接入到 Kafka 之后,F(xiàn)link 可以實時處理 Kafka 的數(shù)據(jù),并將處理的結(jié)果寫入到數(shù)據(jù)湖中。數(shù)據(jù)湖整體基于開源方案搭建,數(shù)據(jù)的存儲是用的 HDFS 和 S3,表格式用的是 Iceberg。Flink 讀取完 Kafka 的數(shù)據(jù)之后進(jìn)行實時處理,這時候可以把處理的中間結(jié)果寫入到數(shù)據(jù)湖中,然后再進(jìn)行逐步處理,最終得到業(yè)務(wù)想要的結(jié)果。處理的結(jié)果可以通過查詢引擎對接應(yīng)用,包括 Flink、Spark、Presto 等。

          Soul的Delta Lake數(shù)據(jù)湖應(yīng)用實踐

          數(shù)據(jù)由各端埋點上報至Kafka,通過Spark任務(wù)分鐘級以Delta的形式寫入HDFS,然后在Hive中自動化創(chuàng)建Delta表的映射表,即可通過Hive MR、Tez、Presto等查詢引擎直接進(jìn)行數(shù)據(jù)查詢及分析。
          我們基于Spark,封裝了通用化ETL工具,實現(xiàn)了配置化接入,用戶無需寫代碼即可實現(xiàn)源數(shù)據(jù)到Hive的整體流程接入。并且,為了更加適配業(yè)務(wù)場景,我們在封裝層實現(xiàn)了多種實用功能:
          • 實現(xiàn)了類似Iceberg的hidden partition功能,用戶可選擇某些列做適當(dāng)變化形成一個新的列,此列可作為分區(qū)列,也可作為新增列,使用SparkSql操作。如:有日期列date,那么可以通過 'substr(date,1,4) as year' 生成新列,并可以作為分區(qū)。

          • 為避免臟數(shù)據(jù)導(dǎo)致分區(qū)出錯,實現(xiàn)了對動態(tài)分區(qū)的正則檢測功能,比如:Hive中不支持中文分區(qū),用戶可以對動態(tài)分區(qū)加上'\w+'的正則檢測,分區(qū)字段不符合的臟數(shù)據(jù)則會被過濾。

          • 實現(xiàn)自定義事件時間字段功能,用戶可選數(shù)據(jù)中的任意時間字段作為事件時間落入對應(yīng)分區(qū),避免數(shù)據(jù)漂移問題。

          • 嵌套Json自定義層數(shù)解析,我們的日志數(shù)據(jù)大都為Json格式,其中難免有很多嵌套Json,此功能支持用戶選擇對嵌套Json的解析層數(shù),嵌套字段也會被以單列的形式落入表中。

          • 實現(xiàn)SQL化自定義配置動態(tài)分區(qū)的功能,解決埋點數(shù)據(jù)傾斜導(dǎo)致的實時任務(wù)性能問題,優(yōu)化資源使用,此場景后面會詳細(xì)介紹。



          基于Flink和Druid的實時多維分析系統(tǒng)在蔚來汽車的應(yīng)用

          實時方案之?dāng)?shù)據(jù)湖探究調(diào)研筆記

          生產(chǎn)上的坑才是真的坑 | 盤一盤Flink那些經(jīng)典線上問題


          歡迎點贊+收藏+轉(zhuǎn)發(fā)朋友圈素質(zhì)三連

          文章不錯?點個【在看】吧!
          瀏覽 82
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产无遮挡无黄又爽农村妇女 | 国产黄视频在线免费看 | 国产69精品久久久久久久久久久久 | 无码一区二区吧 | 爱情岛 论坛成人AV |