大數(shù)據(jù)到底應該如何學?大數(shù)據(jù)生態(tài)圈技術組件解析

大數(shù)據(jù)文摘投稿作品
作者:小山豬的沙塔
這是一篇技術雜談類的文章。
下面是食用須知:
本文適合還不十分了解大數(shù)據(jù)的你,同樣適合不確定要不要學習大數(shù)據(jù)的你,將帶你了解行業(yè)的需求以及與之相關的崗位,也同樣適合剛剛踏入大數(shù)據(jù)領域工作的你,歡迎收藏并將文章分享給身邊的朋友。 筆者從事大數(shù)據(jù)開發(fā)和培訓多年,曾為多家機構優(yōu)化完整大數(shù)據(jù)課程體系,也為多所高校設計并實施大數(shù)據(jù)專業(yè)培養(yǎng)方案,并進行過多次大數(shù)據(jù)師資培訓、高校骨干教師學習交流,希望自己的一點粗淺認識能夠幫助到大家。 本文并不是要將大數(shù)據(jù)描述成一個萬能的、可以解決所有問題的東西,而是客觀的闡述其作用,能夠解決的一些問題。希望將這一領域盡可能完整的介紹給你,至于如何選擇需要根據(jù)自己的實際情況來決定。
大數(shù)據(jù)的基本概念
什么是大數(shù)據(jù)

數(shù)據(jù)是如何采集的
對于用戶行為數(shù)據(jù)更多的來自于應用埋點和捕獲,因為用戶使用應用必須通過鼠標點擊或者手指觸碰來和用戶界面進行交互。以網(wǎng)頁應用(網(wǎng)站)為例,對于鼠標的所有行為基本上都可以通過事件監(jiān)聽的方式來捕獲,鼠標在某個區(qū)域停留的時間、是否進行點擊,我們甚至可以根據(jù)用戶的行為數(shù)據(jù)刻畫出整個頁面的熱力圖。

在不同的應用場景中,我們可以對行為類型、功能模塊、用戶信息等維度進一步的劃分,做更加深入的分析。
對于非機構化的數(shù)據(jù)指的就是除結構化數(shù)據(jù)以外的另一大類數(shù)據(jù),通常沒有預期的數(shù)據(jù)機構,存儲在非關系型數(shù)據(jù)庫中,如:Redis、MongoDB,使用NoSQL來進行操作。也可能是非文本類型的數(shù)據(jù),需要特別對應的手段來處理和分析。
大數(shù)據(jù)真的能預測嗎
但是我們可以明確的一點是,大數(shù)據(jù)的預測也好、推薦也好,都是基于算法的,是數(shù)學的,也是科學的,但并不會百分之百的準確。
什么是大數(shù)據(jù)開發(fā)



如果是分析公司自身的業(yè)務數(shù)據(jù),一般會更偏重于使用大數(shù)據(jù)組件和算法庫,構建出一個可行的數(shù)據(jù)分析方案。大家可以看出,現(xiàn)在完全不涉及算法的大數(shù)據(jù)崗位已經(jīng)比較少了。這里的算法指的并不是數(shù)據(jù)結構,而是指機器學習庫,與數(shù)據(jù)挖掘相關的算法,至少要知道如何控制算法的輸入與輸出,算法能夠解決的問題,可能不會涉及到親自建模,在大數(shù)據(jù)分析的小節(jié)中會詳細介紹。

操作系統(tǒng):Linux(基本操作、軟件維護、權限管理、定時任務、簡單Shell等) 編程語言:Java(主要)、Scala、Python等 數(shù)據(jù)采集組件及中間件:Flume、Sqoop、Kafka、Logstash、Splunk等 大數(shù)據(jù)集群核心組件:Hadoop、Hive、Impala、HBase、Spark(Core、SQL、Streaming、MLlib)、Flink、Zookeeper等 素養(yǎng)要求:計算機或大數(shù)據(jù)相關專業(yè)
什么是大數(shù)據(jù)分析



編程語言:Python、R、SQL等 建模工具:MATLAB、Mathematica等 熟悉機器學習庫及數(shù)據(jù)挖掘經(jīng)典算法 數(shù)學、統(tǒng)計學、計算機相關專業(yè),對數(shù)據(jù)敏感
應如何學習大數(shù)據(jù)
涉及到了這么多的技術點,如何學習才更加高效呢?首先好入門的自然是大數(shù)據(jù)開發(fā),對于Linux的操作系統(tǒng)和編程語言的部分沒什么過多說明的,不要覺得有些東西沒用就跳過,有些時候編程思想和解決問題的方法同樣很重要,課本上有的一定要扎實。對于和大數(shù)據(jù)相關的組件,看上去十分的繁雜,很多小伙伴可能都是鉆研于每個組件的用法、算子、函數(shù)、API,這當然沒有錯,但是同時一定不要忘記埋在其中的主線,那就是:完整的數(shù)據(jù)分析流程。在學習的過程中一定要了解各組件的特點、區(qū)別和應用的數(shù)據(jù)場景。
數(shù)據(jù)源:數(shù)據(jù)文件、數(shù)據(jù)庫中的數(shù)據(jù)等
數(shù)據(jù)采集:Sqoop、HDFS數(shù)據(jù)上傳、Hive數(shù)據(jù)導入等
數(shù)據(jù)存儲:HDFS
數(shù)據(jù)分析:MapReduce、Hive QL
計算結果:Hive結果表(HiveJDBC查詢)、導出至關系型數(shù)據(jù)庫
實時計算
數(shù)據(jù)源:日志文件增量監(jiān)聽等 數(shù)據(jù)采集:Flume 中間件:Kafka 數(shù)據(jù)分析:Spark-Streaming,F(xiàn)link等 計算結果:HBase
作者介紹:資深開發(fā)者,全棧開發(fā)工程師,大數(shù)據(jù)高級開發(fā)工程師。具有多年開發(fā)及培訓經(jīng)驗,實施過多次面向學生、企業(yè)、高校骨干教師等各種形式的培訓。
個人主頁:
實習/全職編輯記者招聘ing
加入我們,親身體驗一家專業(yè)科技媒體采寫的每個細節(jié),在最有前景的行業(yè),和一群遍布全球最優(yōu)秀的人一起成長。坐標北京·清華東門,在大數(shù)據(jù)文摘主頁對話頁回復“招聘”了解詳情。簡歷請直接發(fā)送至[email protected]

評論
圖片
表情
