沒有工程能力的數(shù)據(jù)分析師也是扯淡!
背景
你們好
很早之前提到一個觀點(diǎn):一個優(yōu)秀的數(shù)據(jù)人應(yīng)該是思維、業(yè)務(wù)、分析和工程能力的綜合體,談思維、業(yè)務(wù)等能力可能大家覺得飄在空中。
確實(shí),在我一開始入門數(shù)據(jù)行業(yè)的時候,我也有這樣的感覺,為什么那些大佬老是跟我吹產(chǎn)品Sense,業(yè)務(wù)感等等。
那好,今天我們拋開這些,就談工程能力,或者再細(xì)化一點(diǎn),就談數(shù)據(jù)人應(yīng)該了解和學(xué)習(xí)哪些技術(shù)棧。
到底要不要精通Python
首先說觀點(diǎn),我不清楚精通Python是什么樣的體驗(yàn),因?yàn)槲艺娴牟痪āN抑皇鞘煜ython語法,相關(guān)的函數(shù)、模塊和包以及一些面向?qū)ο蟮膶懛ǖ鹊取?/p>
對于數(shù)據(jù)人,我覺得更重要的是去思考哪些問題可以利用Python擴(kuò)展而來的一些程序庫處理,比如遇到大型矩陣的數(shù)值計算問題,你就應(yīng)該想到Numpy來解決。
類似的我會問,那Pandas呢?其實(shí)Pandas和SQL幾乎是一致的數(shù)據(jù)處理方式,都只是提供了快速便捷地處理數(shù)據(jù)的函數(shù)和方法,這也是Python為什么會經(jīng)常會被認(rèn)為可以高效應(yīng)用于數(shù)據(jù)分析原因之一了。
對于Python相關(guān)要掌握的程度,我整理了一些學(xué)習(xí)視頻和課件(文末自由獲取)。


談下數(shù)據(jù)架構(gòu)
大部分小伙伴應(yīng)該是了解HiveSQL的,但如果仔細(xì)問他什么是Hive這類的問題其實(shí)不能理解的很好,這樣學(xué)往往不能很扎實(shí)。
通俗的理解Hive是一個基于Hadoop的開源數(shù)據(jù)倉庫工具,用于存(HDFS)和處理(MapReduce)海量結(jié)構(gòu)化數(shù)據(jù)。使用MapReduce計算,HDFS儲存。
之前我說數(shù)據(jù)分析師不精通Hadoop、MapReduce、HDFS這些是啥,但不代表你不需要了解和學(xué)習(xí)基本的內(nèi)容。其實(shí)不只是需要了解這些,還有Storm、Hbase、Flume、Spark、SparkSQL等等都是需要數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)算法等崗位去學(xué)習(xí)和了解的。
對于想從事數(shù)據(jù)開發(fā)的朋友來說,上面的那些技術(shù)棧更是應(yīng)該非常熟練的掌握(我個人建議沒有項(xiàng)目經(jīng)歷和工作經(jīng)驗(yàn)的朋友不要轉(zhuǎn)數(shù)據(jù)分析,因?yàn)檎娴腍C太少,可以考慮數(shù)據(jù)開發(fā),很吃香,工資也很高,競爭系數(shù)相對算法和分析來說要小一些)。
不用慌,我也給大家準(zhǔn)備了一套學(xué)習(xí)資料(文末自由獲取),非常詳細(xì)的講解了這些內(nèi)容:

學(xué)些數(shù)據(jù)挖掘模型有好處
有些業(yè)務(wù)場景的任務(wù)不是簡單的對比、交叉之類的分析可以解決(一般是提供一些探索性過程結(jié)果)。比如分類、預(yù)測、人群聚類、文本挖掘等等。
我之前提到說數(shù)據(jù)分析一般可以分成定量和定性的分析,定量的大家都比較清楚,也比較常見,但是定性的會去研究用戶的主動反饋意見,而這些一般都是文本,當(dāng)數(shù)據(jù)量較大的時候,肯定不是一條條自己去分析用戶的情感、觀點(diǎn)等維度,這時候完全可以利用文本挖掘的方法快速準(zhǔn)確的抽取出用戶觀點(diǎn)、主題和情感分析等等。
同樣,這部分我也給大家整理了一套學(xué)習(xí)資料(文末自由獲取)

以上整理內(nèi)容【獲取方式】
掃描以下二維碼添加好友 備注:一行
備注:python
