<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          關(guān)于大數(shù)據(jù)的完整講解

          共 2788字,需瀏覽 6分鐘

           ·

          2021-01-14 19:49

          ↑↑↑關(guān)注后"星標(biāo)"Datawhale
          每日干貨?&?每月組隊(duì)學(xué)習(xí),不錯(cuò)過(guò)
          ?Datawhale干貨?
          作者:牧小熊,華中農(nóng)業(yè)大學(xué),Datawhale原創(chuàng)作者

          1.什么是大數(shù)據(jù)

          1.1 大數(shù)據(jù)特征

          我們引用了大數(shù)據(jù)的4V特征

          • Volume 大數(shù)據(jù)數(shù)據(jù)量大,數(shù)據(jù)量單位為T 或者P級(jí)
          • Variety 數(shù)據(jù)類型多,大數(shù)據(jù)包含多種數(shù)據(jù)維度 比如 日志、視頻、圖片
          • Value 價(jià)值密度低,商業(yè)價(jià)值高 比如監(jiān)控視頻,其中關(guān)鍵1-2秒可能具有極高的價(jià)值
          • Velocity 要求處理速度塊

          1.2 大數(shù)據(jù)的4個(gè)關(guān)鍵技術(shù)

          1.3 ETL/ELT的區(qū)別

          ETL 包含的過(guò)程是 Extract、Transform、Load的縮寫

          包括了數(shù)據(jù)抽取 => 轉(zhuǎn)換 => 加載三個(gè)過(guò)程

          在數(shù)據(jù)源抽取后首先進(jìn)行轉(zhuǎn)換,然后將轉(zhuǎn)換的結(jié)果寫入目的地

          ETL 包含的過(guò)程是 Extract、Load、Transform的縮寫

          ELT的過(guò)程是,在抽取后將結(jié)果先寫入目的地,然后利用數(shù)據(jù)庫(kù)的聚合分析能力或者外部計(jì)算框架,如Spark來(lái)完成轉(zhuǎn)換

          目前數(shù)據(jù)主流框架是ETL,重抽取和加載,輕轉(zhuǎn)換,搭建的數(shù)據(jù)平臺(tái)屬于輕量級(jí)

          ELT架構(gòu),在提取完成之后,數(shù)據(jù)加載會(huì)立即開(kāi)始,更省時(shí),數(shù)據(jù)變換這個(gè)過(guò)程根據(jù)后續(xù)使用需求在 SQL 中進(jìn)行,而不是在加載階段

          ELT框架的優(yōu)點(diǎn)就是保留了原始數(shù)據(jù),能夠?qū)⒃紨?shù)據(jù)展現(xiàn)給數(shù)據(jù)分析人員

          ETL相關(guān)軟件:

          • 商業(yè)軟件:Informatica PowerCenter、IBM InfoSphere DataStage、Oracle Data Integrator、Microsoft SQL Server Integration Services等
          • 開(kāi)源軟件:Kettle、DataX、Sqoop

          1.4 大數(shù)據(jù)與數(shù)據(jù)庫(kù)管理系統(tǒng)

          DataBase Management System,數(shù)據(jù)庫(kù)管理系統(tǒng),可以管理多個(gè)數(shù)據(jù)庫(kù)

          目前關(guān)系型數(shù)據(jù)庫(kù)在DBMS中占據(jù)主流地位,常用的關(guān)系型數(shù)據(jù)庫(kù)有Oracle、MySQL和SQL Server

          其中SQL就是關(guān)系型數(shù)據(jù)庫(kù)的查詢語(yǔ)言

          SQL是與數(shù)據(jù)直接打交道的語(yǔ)言,是與前端、后端語(yǔ)言進(jìn)行交互的“中臺(tái)”語(yǔ)言

          SQL語(yǔ)言特點(diǎn):

          • 價(jià)值大,技術(shù)、產(chǎn)品、運(yùn)營(yíng)人員都要掌握SQL,使用無(wú)處不在
          • 很少變化,SQL語(yǔ)言從誕生到現(xiàn)在,語(yǔ)法很少變化
          • 入門并不難,很多人都會(huì)寫SQL語(yǔ)句,但是效率差別很大

          除了關(guān)系型數(shù)據(jù)庫(kù)還有文檔型數(shù)據(jù)庫(kù)MongoDB、鍵值型數(shù)據(jù)庫(kù)Redis、列存儲(chǔ)數(shù)據(jù)庫(kù)Cassandra等

          提到大數(shù)據(jù)就不得不說(shuō)Hive

          Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,用來(lái)進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化、加載,這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。

          Hive與關(guān)聯(lián)型數(shù)據(jù)庫(kù)RDBMS相比

          不足:

          • 不能像 RDBMS 一般實(shí)時(shí)響應(yīng),Hive 查詢延時(shí)大
          • 不能像 RDBMS 做事務(wù)型查詢,Hive 沒(méi)有事務(wù)機(jī)制
          • 不能像 RDBMS 做行級(jí)別的變更操作(包括插入、更新、刪除)

          優(yōu)點(diǎn):

          • Hive 沒(méi)有定長(zhǎng)的 varchar 這種類型,字符串都是 string
          • Hive 是讀時(shí)模式,保存表數(shù)據(jù)時(shí)不會(huì)對(duì)數(shù)據(jù)進(jìn)行校驗(yàn),而在讀數(shù)據(jù)時(shí)將校驗(yàn)不符合格式的數(shù)據(jù)設(shè)置為NULL

          1.5 OLTP/OLAP

          在數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)中有非常相關(guān)的2個(gè)概念,一個(gè)是OLTP,一個(gè)是OLAP


          • OLTP( On-Line Transaction Processing )

          聯(lián)機(jī)事務(wù)處理,主要是對(duì)數(shù)據(jù)的增刪改

          記錄業(yè)務(wù)發(fā)生,比如購(gòu)買行為,發(fā)生后,要記錄是誰(shuí)在什么時(shí)候做了什么事,數(shù)據(jù)會(huì)以增刪改的方式在數(shù)據(jù)庫(kù)中進(jìn)行數(shù)據(jù)的更新處理操作

          實(shí)時(shí)性高、穩(wěn)定性強(qiáng),ATM,ERP,CRM,OA等都屬于OLTP

          • OLAP( On-Line Analytical Processing )

          聯(lián)機(jī)分析處理,主要是對(duì)數(shù)據(jù)的分析查詢

          當(dāng)數(shù)據(jù)積累到一定的程度,需要做總結(jié)分析,BI報(bào)表=> OLAP

          OLTP產(chǎn)生的數(shù)據(jù)通常在不同的業(yè)務(wù)系統(tǒng)中

          OLAP需要將不同的數(shù)據(jù)源 => 數(shù)據(jù)集成 => 數(shù)據(jù)清洗 => 數(shù)據(jù)倉(cāng)庫(kù),然后由數(shù)據(jù)倉(cāng)庫(kù)統(tǒng)一提供OLAP分析

          2.大數(shù)據(jù)計(jì)算

          2.1 大數(shù)據(jù)計(jì)算模式

          大數(shù)據(jù)計(jì)算模式解決問(wèn)題代表產(chǎn)品
          批處理計(jì)算針對(duì)大規(guī)模數(shù)據(jù)的批量處理MapReduce、Spark等
          流計(jì)算針對(duì)流數(shù)據(jù)的實(shí)時(shí)計(jì)算Storm、S4、Flume、Streams、Puma、DStream、Super Mario、銀河流數(shù)據(jù)處理平臺(tái)
          圖計(jì)算針對(duì)大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)的處理Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等
          查詢分析計(jì)算大規(guī)模數(shù)據(jù)的存儲(chǔ)管理和查詢分析Dremel、Hive、Cassandra、Impala等

          2.2 Lambda大數(shù)據(jù)框架

          Lambda架構(gòu):

          Batch Layer(批處理層),對(duì)離線的歷史數(shù)據(jù)進(jìn)行預(yù)計(jì)算,能讓下游進(jìn)行快速查詢。因?yàn)榛谕暾臄?shù)據(jù)集,準(zhǔn)確性能得到保證。可以用Hadoop、Spark 和 Flink 等計(jì)算框架

          Speed Layer(加速處理層),處理實(shí)時(shí)的增量數(shù)據(jù),加速層的數(shù)據(jù)不如批處理層完整和準(zhǔn)確,但重點(diǎn)在于低延遲??梢杂?Spark streaming、Storm 和 Flink 等計(jì)框架算

          Serving Layer(合并層),將歷史數(shù)據(jù)計(jì)算與實(shí)時(shí)數(shù)據(jù)計(jì)算合并,輸出到數(shù)據(jù)庫(kù),供下游分析

          2.3 大數(shù)據(jù)典型技術(shù)

          • Hadoop

          一個(gè)文件系統(tǒng),外加一個(gè)離線處理框架MapReduce,由于提供的上層api不太友好,加上MapReduce 處理框架比較慢,基本上都用作文件系統(tǒng)

          • Spark

          本身是一個(gè)執(zhí)行引擎,不保存數(shù)據(jù),所以需要外部的文件系統(tǒng)(通常會(huì)基于hadoop)提出了內(nèi)存計(jì)算的概念,即盡可能把數(shù)據(jù)放到內(nèi)存中,還提供了良好的上層使用接口,包括spl語(yǔ)句(spark sql)處理數(shù)據(jù)十分方便。相比 Hadoop MapReduce 獲得了百倍的性能提升,基本上用它來(lái)做離線數(shù)據(jù)處理

          • Flink

          分布式實(shí)時(shí)計(jì)算框架,具有超高的性能,支持Flink流式計(jì)算與Storm性能差不多,支持毫秒級(jí)計(jì)算

          Spark 和 Flink的區(qū)別

          3.大數(shù)據(jù)實(shí)踐

          本文主要講解了大數(shù)據(jù)的概念和基礎(chǔ)知識(shí),幫助讀者對(duì)大數(shù)據(jù)有一個(gè)基本了解。如果對(duì)實(shí)踐有學(xué)習(xí)需要(可以留言),我再花時(shí)間整理大數(shù)據(jù)的實(shí)踐講解:Pyspark進(jìn)行Titanic乘客生存預(yù)測(cè)。使用pyspark進(jìn)行初步的大數(shù)據(jù)操作,數(shù)據(jù)選取Kaggle泰坦尼克號(hào)項(xiàng)目的數(shù)據(jù),通過(guò)Spark讀取數(shù)據(jù),并利用Spark中的ML工具對(duì)數(shù)據(jù)進(jìn)行構(gòu)建模型。
          “整理不易,點(diǎn)三連
          瀏覽 52
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩毛片免费 | 成人六区| 国产勾引 | 秘 黄 视频在线观看 | 大香蕉最新视频精品 |