九哥操逼逼视频一区二区,国产插穴,亚洲高清无码中文字幕视频,青青91,黄色小视频在线免费观看,欧美成人精品三级网站,成人午夜网站,蜜桃视频成人app ios

點擊關注公眾號，Java干貨及時送達

我們先來看看這張圖，這是某公司使用的大數據平臺架構圖，大部分公司應該都差不多：

從這張大數據的整體架構圖上看來，大數據的核心層應該是：數據采集層、數據存儲與分析層、數據共享層、數據應用層，可能叫法有所不同，本質上的角色都大同小異。

所以我下面就按這張架構圖上的線索，慢慢來剖析一下，大數據的核心技術都包括什么。

一、數據采集

數據采集的任務就是把數據從各種數據源中采集和存儲到數據存儲上，期間有可能會做一些簡單的清洗。

數據源的種類比較多：

網站日志：

作為互聯(lián)網行業(yè)，網站日志占的份額最大，網站日志存儲在多臺網站日志服務器上，一般是在每臺網站日志服務器上部署flume agent，實時的收集網站日志并存儲到HDFS上；

業(yè)務數據庫：

業(yè)務數據庫的種類也是多種多樣，有Mysql、Oracle、SqlServer等，這時候，我們迫切的需要一種能從各種數據庫中將數據同步到HDFS上的工具，Sqoop是一種，但是Sqoop太過繁重，而且不管數據量大小，都需要啟動MapReduce來執(zhí)行，而且需要Hadoop集群的每臺機器都能訪問業(yè)務數據庫；應對此場景，淘寶開源的DataX，是一個很好的解決方案，有資源的話，可以基于DataX之上做二次開發(fā)，就能非常好的解決。

當然，Flume通過配置與開發(fā)，也可以實時的從數據庫中同步數據到HDFS。

來自于Ftp/Http的數據源：

有可能一些合作伙伴提供的數據，需要通過Ftp/Http等定時獲取，DataX也可以滿足該需求；

其他數據源：

比如一些手工錄入的數據，只需要提供一個接口或小程序，即可完成；

二、數據存儲與分析

毋庸置疑，HDFS是大數據環(huán)境下數據倉庫/數據平臺最完美的數據存儲解決方案。

離線數據分析與計算，也就是對實時性要求不高的部分，在筆者看來，Hive還是首當其沖的選擇，豐富的數據類型、內置函數；壓縮比非常高的ORC文件存儲格式；非常方便的SQL支持，使得Hive在基于結構化數據上的統(tǒng)計分析遠遠比MapReduce要高效的多，一句SQL可以完成的需求，開發(fā)MR可能需要上百行代碼；

另外，MySQL 系列面試題和答案全部整理好了，微信搜索Java技術棧，在后臺發(fā)送：面試，可以在線閱讀。

當然，使用Hadoop框架自然而然也提供了MapReduce接口，如果真的很樂意開發(fā)Java，或者對SQL不熟，那么也可以使用MapReduce來做分析與計算；最新面試題整理好了，點擊Java面試庫小程序在線刷題。

Spark是這兩年非常火的，經過實踐，它的性能的確比MapReduce要好很多，而且和Hive、Yarn結合的越來越好，因此，必須支持使用Spark和SparkSQL來做分析和計算。因為已經有Hadoop Yarn，使用Spark其實是非常容易的，不用單獨部署Spark集群。

三、數據共享

這里的數據共享，其實指的是前面數據分析與計算后的結果存放的地方，其實就是關系型數據庫和NOSQL數據庫；

前面使用Hive、MR、Spark、SparkSQL分析和計算的結果，還是在HDFS上，但大多業(yè)務和應用不可能直接從HDFS上獲取數據，那么就需要一個數據共享的地方，使得各業(yè)務和產品能方便的獲取數據；和數據采集層到HDFS剛好相反，這里需要一個從HDFS將數據同步至其他目標數據源的工具，同樣，DataX也可以滿足。

另外，一些實時計算的結果數據可能由實時計算模塊直接寫入數據共享。

點擊關注公眾號，Java干貨及時送達