數(shù)據(jù)分析要懂多少算法模型?高薪崗位是這樣要求的...

數(shù)據(jù)領(lǐng)域的名詞特別多,經(jīng)常把同學(xué)們繞暈。數(shù)據(jù)分析、商業(yè)策略、運營分析、銷售分析、數(shù)據(jù)挖掘、算法模型、統(tǒng)計學(xué)、智能分析……似乎每個都和數(shù)據(jù)有關(guān)系,似乎每個又各自有一個領(lǐng)域的知識。
如何區(qū)別這些讓人眼花繚亂的概念,今天我們來講解一下。
01
學(xué)習(xí)數(shù)據(jù)分析三類常見錯誤
正是因為知識點太多,所以有同學(xué)很容陷入某個細節(jié),結(jié)果產(chǎn)生三大流派:
理論流:
喜歡搬書,尤其喜歡搬統(tǒng)計學(xué),還有把高數(shù)搬出來的。似乎是理論越厚越好。實際上企業(yè)里相當(dāng)多的數(shù)據(jù)工作是全量統(tǒng)計,根本不需要用到統(tǒng)計學(xué)抽樣概念。
工具流:
尤其以ESP(excel,sql,python)或者EST(excel,sql,tableau)流為典型,每天都在努力學(xué)習(xí)各種操作工具,可每一種操作工具,又止于最大值、最小值、平均值、百分比,最多再做個RFM聊以自慰。結(jié)果面試時候總糾結(jié):到底這個算不算熟練。
思維流:
總是把“底層思維”“核心邏輯”“內(nèi)功心法”掛在嘴邊,“分析無非拆解、對比”,對數(shù)據(jù)怎么采集一無所知,對數(shù)據(jù)質(zhì)量、數(shù)據(jù)治理一竅不通,結(jié)果就是真實工作中連個需求表都講不清……開發(fā)看了直撓頭。
當(dāng)然,更夸張的是以上三個都信了,桌面擺了20本書每天看一章,結(jié)果頭昏腦漲還是不懂,那畫面太美真不敢看……
之所以有這些問題,是因為數(shù)據(jù)分析工作本身是一個交叉領(lǐng)域的知識,并非像財務(wù)會計那樣從理論到實操能用一套體系講完。真實的數(shù)據(jù)分析工作上呈業(yè)務(wù),下接技術(shù),每個子模塊都有豐富的內(nèi)容。如果不梳理出一條主線,很容易扎進細節(jié)無法自拔。
02
數(shù)據(jù)分析與算法模型
從本質(zhì)上看,數(shù)據(jù)分析與算法是兩個應(yīng)用方向:
數(shù)據(jù)分析:
數(shù)據(jù)分析對抗的是不確定性,核心任務(wù)是把可量化的流程、操作、行為量化,用數(shù)據(jù)化、科學(xué)化的管理,代替:“決策拍腦袋、承諾拍胸口、出事拍大腿”的隨意的管理。
算法:
算法對抗的是低效率,核心任務(wù)是通過訓(xùn)練模型,把低級、重復(fù)、可標準化的操作轉(zhuǎn)移到機器完成,釋放人力資源,解決人力計算困難的問題。
所以我們能看到,算法的成功案例,在工業(yè)界比管理界多,在業(yè)務(wù)流程比決策流程多。比如人臉識別,在身份驗證、安防監(jiān)控、違章取證方面有大量應(yīng)用。
比如基于機器學(xué)習(xí)預(yù)測和線性規(guī)劃分配的調(diào)度算法,在人流控制、物流管理、派送分配方面有大量應(yīng)用。這些都是生產(chǎn)系統(tǒng),和數(shù)據(jù)分析、商業(yè)決策沒啥關(guān)系。
和商業(yè)決策相對距離較近的是推薦類算法。但注意:有推薦算法的推薦系統(tǒng),都是平臺方用于應(yīng)對大量商品(數(shù)以億計的SKU)的情況,品牌方自己才幾百個SKU的商品,做商品管理的時候還是要根據(jù)產(chǎn)品調(diào)性、賣點、用戶需求,設(shè)計宣傳思路,主打文案、賣點、價格策略、售后服務(wù)、禮品回饋。這些復(fù)雜的商業(yè)決策還是需要人來做,靠的是數(shù)據(jù)分析的支持。
本質(zhì)上,算法崗位和數(shù)據(jù)分析崗位是兩個工作,但這并不妨礙做數(shù)據(jù)分析的人向算法崗位靠攏。如果一個做分析的同學(xué),真的對業(yè)務(wù)不感興趣,更希望深鉆技術(shù)的話,完全可以向算法方向發(fā)展。做分析的同學(xué),對于數(shù)據(jù)開發(fā)有一定的能力積累,可以進一步強化開發(fā)能力。
強化的方向,當(dāng)然不是打開SKlearn對著一個已經(jīng)處理好的數(shù)據(jù)集調(diào)參。可預(yù)見的未來是:AutoML興起以后,調(diào)參俠第一個失業(yè)。強化的第一步,強烈建議從特征工程做起。
俗話說:數(shù)據(jù)和特征決定了機器學(xué)習(xí)的上限,而模型和算法只是逼近這個上限而已。特征工程是最基礎(chǔ)也是最重要的工作(如下圖,利用特征工程提升預(yù)測效能)

縱觀Kaggle, KDD等國內(nèi)外大大小小的比賽,每個競賽的冠軍其實并沒有用到很高深的算法,大多數(shù)都是在特征工程這個環(huán)節(jié)做出了出色的工作,然后使用一些常見的算法就能得到出色的性能。
因此,特征工程可以說是機器學(xué)習(xí)成功的關(guān)鍵因素。并且這些基礎(chǔ)的工作,可以在比賽數(shù)據(jù)集上反復(fù)訓(xùn)練,通過大量實踐加深認識,比起蜻蜓點水的敲一遍案例代碼連打字技巧,是一個更好的上手路徑。
03
看看boss高薪崗位的要求
對于求職者,自然薪酬是最受關(guān)注的,怎樣的水平才能算得上高薪白領(lǐng)?
我們看了3000+boss直聘上數(shù)據(jù)算法的崗位,整理出了如下干貨。
崗位薪酬分布
算法崗位的薪酬分布集中在月薪2萬-5萬之間
崗位需求最多的公司(北京)

算法崗位最多的公司是理想汽車、滴滴出行、京東。果然是造車新勢力,理想汽車光在北京就超過50個算法崗位在招聘。當(dāng)然如果你還對其他城市感興趣,歡迎給我們留言。
除了薪資高,福利也要好,看看他們的福利,有哪些是吸引到你的?
福利的詞云圖
公司好自然福利也就好,算法崗位的福利看圖,是不是滿滿的幸福感?
怎么才能找到這樣的工作呢?該學(xué)什么技能呢?快來看看下面的技能描述。
崗位技能要求

算法崗位要求最高的技能就是:深度學(xué)習(xí)算法、機器學(xué)習(xí)算法、視覺圖像算法;而最常用的語言Python、C、SQL。
職位描述詞云圖

以上,我們可以看出在企業(yè)給出的職位描述里面最強調(diào)的點是:算法、數(shù)據(jù)、項目、經(jīng)驗、模型。
對照上面的需求,在尋求更好工作機會前,你一定要搞清楚以下幾個問題:
