轉(zhuǎn)崗大數(shù)據(jù)了,先用數(shù)據(jù)看看行情
導(dǎo)讀
作為一名數(shù)據(jù)從業(yè)者,當(dāng)然干什么事都喜歡用數(shù)據(jù)說(shuō)話。2020年上半年,在個(gè)人正式入職數(shù)據(jù)分析師前,專門從數(shù)據(jù)分析的角度探索了一把數(shù)據(jù)分析師就業(yè)現(xiàn)狀,近日,剛好自己開啟大數(shù)據(jù)崗位,所以就再分析下大數(shù)據(jù)相關(guān)崗位就業(yè)招聘現(xiàn)狀,僅供參考。

數(shù)據(jù)來(lái)源:以某直聘平臺(tái)為數(shù)據(jù)來(lái)源,以“大數(shù)據(jù)”為關(guān)鍵詞,設(shè)置搜索條件為:杭州市規(guī)模在10000人以上的上市公司。由于平臺(tái)限制僅可顯示10頁(yè),每頁(yè)30條招聘信息,除去個(gè)別無(wú)效記錄,最終獲取有效數(shù)據(jù)大概在280條招聘記錄。當(dāng)然,由于這里僅獲取到了10頁(yè)數(shù)據(jù)而并非海量數(shù)據(jù),所以樣本排序先后將對(duì)數(shù)據(jù)真實(shí)分布有一定影響。
分析目標(biāo):為了從多角度描述大數(shù)據(jù)崗位就業(yè)現(xiàn)狀,擬從以下幾個(gè)方面著手分析:
大數(shù)據(jù)崗位畫像,包括崗位類型分布,公司分布、區(qū)域分布、招聘學(xué)歷要求、工作經(jīng)驗(yàn)要求、薪資分布
主要技術(shù)棧,主要是利用招聘崗位標(biāo)簽信息,分析大數(shù)據(jù)崗位招聘技能需求,并對(duì)頭部企業(yè)進(jìn)行細(xì)分
影響薪資因素,包括分析各區(qū)域、各公司、各崗位類型以及各技能對(duì)應(yīng)的薪資分布情況
薪酬福利情況,簡(jiǎn)單分析大數(shù)據(jù)崗位整體福利詞云
注:因樣本數(shù)據(jù)隨機(jī)性以及分析結(jié)果主觀性,本文所屬觀點(diǎn)結(jié)論僅供參考!
Garbage in,garbage out!
選取某直聘平臺(tái),按照目標(biāo)崗位設(shè)置搜索條件,可以直接訪問(wèn)10頁(yè)數(shù)據(jù),以此為目標(biāo),分別爬取各招聘記錄的如下信息,且各字段信息直接從查詢首頁(yè)即可完整獲取,無(wú)需分別訪問(wèn)各崗位詳情頁(yè):
崗位title
地理區(qū)域
薪酬范圍
經(jīng)驗(yàn)要求
學(xué)歷要求
招聘公司
崗位標(biāo)簽信息
崗位福利描述

招聘信息搜索結(jié)果
這里直接爬取的字段相對(duì)較為整齊,多數(shù)字段均無(wú)需清洗處理,但為了后續(xù)分析需要,這里做以下4步處理:
過(guò)濾實(shí)習(xí)生招聘記錄,即通過(guò)薪酬范圍字段按天計(jì)算的記錄,抓取記錄中共2條;
將招聘公司統(tǒng)一為集團(tuán)公司名稱,主要是阿里巴巴包括“阿里巴巴集團(tuán)”、“阿里云”以及“阿里健康”等不同描述;網(wǎng)易包括“網(wǎng)易游戲”和“網(wǎng)易杭州”等子公司名稱;海康威視包括“杭州海康威視”和“海康威視武漢研發(fā)中心”兩個(gè)別稱。處理過(guò)程中統(tǒng)一將這些同一公司的不同名稱描述進(jìn)行統(tǒng)一;
薪酬提取,不失一般性,將給定薪酬范圍上下限間的1/3分位數(shù)作為崗位薪酬,例如標(biāo)定20-35K的薪酬范圍,最終按25K參與分析,實(shí)現(xiàn)薪酬字段的標(biāo)簽向數(shù)值轉(zhuǎn)換;
崗位類型劃分:主要依據(jù)崗位title關(guān)鍵詞情況,區(qū)分開發(fā)(關(guān)鍵詞:開發(fā)、研發(fā))、算法(關(guān)鍵詞:算法、挖掘、分析)、架構(gòu)師(關(guān)鍵詞:架構(gòu))、產(chǎn)品(關(guān)鍵詞:產(chǎn)品)以及其他,共5種崗位類型。這一定程度上也涵蓋了大數(shù)據(jù)相關(guān)崗位的不同類別。

畫像的本質(zhì)的在于降維描述!

從中可以得出以下基本結(jié)論:
大數(shù)據(jù)崗位中,絕大部分崗位仍然是研發(fā)崗位,常規(guī)的研發(fā)崗位包括測(cè)試、前后端、數(shù)據(jù)倉(cāng)庫(kù)管理等等;而算法、產(chǎn)品和架構(gòu)則更傾向于開發(fā)崗位基礎(chǔ)之上的屬性,各崗位之間形成完整的數(shù)據(jù)采集、存儲(chǔ)、治理直至創(chuàng)造價(jià)值的完整閉環(huán);
杭州市招聘大數(shù)據(jù)崗位的萬(wàn)人以上上市公司中,主要集中在濱江區(qū)(以網(wǎng)易、海康威視、浙江大華和吉利集團(tuán)為代表)、西湖區(qū)和余杭區(qū)(均以阿里巴巴為代表);
阿里巴巴以接近50%的比例毫無(wú)懸念的成為大數(shù)據(jù)崗位招聘龍頭企業(yè),這既與其本身的人員規(guī)模體量直接相關(guān),也與其業(yè)務(wù)生態(tài)圈有密切聯(lián)系,當(dāng)然還可能是由于其運(yùn)營(yíng)得力,使得崗位搜索排名較為靠前;
大數(shù)據(jù)崗位的就業(yè)門檻要求并不高,絕大部分仍然是只要本科學(xué)歷即可;但對(duì)工作經(jīng)驗(yàn)往往有一定要求,尤其是要求具有3-5年以及5-10年工作經(jīng)驗(yàn)的大數(shù)據(jù)崗位居多;
薪資情況,整體位于20-40K之間,頂薪接近60K,也有10K以下低薪崗位;平均值28.3K,中位數(shù)27K。后續(xù)將對(duì)影響薪資因素重點(diǎn)分析。
大數(shù)據(jù)技術(shù)的核心是存儲(chǔ)和計(jì)算!


對(duì)比分析各公司大數(shù)據(jù)崗位的TOP5技能標(biāo)簽,一定程度上可以管窺各企業(yè)的大數(shù)據(jù)技術(shù)棧信息,例如阿里巴巴和海康威視更注重?cái)?shù)據(jù)分析與挖掘;浙江大華除了Java之外還較多的運(yùn)用Python以及Spark;而無(wú)一例外的,Java都入選了各大公司的技術(shù)棧。
不以薪資衡量崗位價(jià)值就是不講武德。

透過(guò)圖表,值得關(guān)注的幾個(gè)細(xì)節(jié)是:
公司層面,阿里和網(wǎng)易整體薪酬更高,不僅在于更具吸引力的平均薪酬,更在于具有更高的薪資天花板;
崗位屬性方面,研發(fā)崗和架構(gòu)師則略勝一籌,近年火熱的算法崗(挖掘)則反而不夠突出,這可能與數(shù)據(jù)量不足有一定關(guān)系;
學(xué)歷層面,不同學(xué)歷間薪酬差距不大,但這并不等價(jià)于高學(xué)歷無(wú)用論,只能歸因于工作經(jīng)驗(yàn)的重要性;因?yàn)橥ㄟ^(guò)工作經(jīng)驗(yàn)來(lái)看,明顯工作年限要求更長(zhǎng)的崗位具有更高的薪酬區(qū)間(經(jīng)驗(yàn)不限例外,因?yàn)檫@里的經(jīng)驗(yàn)不限通常并不意味著真的經(jīng)驗(yàn)不限,更不等價(jià)于零經(jīng)驗(yàn))
技能標(biāo)簽方面,整體來(lái)看差距不大,畢竟大廠的大數(shù)據(jù)崗位通常不會(huì)僅要求掌握相對(duì)單一或孤立的技術(shù)棧,而更多的是綜合能力和技術(shù)體系。
最后,以一張崗位福利詞云結(jié)束本篇分析,主要是依托jieba分詞和wordcloud庫(kù),對(duì)崗位福利描述繪制詞云,得到如下結(jié)果:

基本都是互聯(lián)網(wǎng)公司的常規(guī)福利,只能說(shuō)除了股票期權(quán)真的是毫無(wú)吸引力……

相關(guān)閱讀:
