<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          基于Python|“數(shù)據(jù)分析崗位”招聘情況分析!

          共 7192字,需瀏覽 15分鐘

           ·

          2020-09-12 15:27


          ◆?◆?◆ ?◆?


          前言


          數(shù)據(jù)分析崗位,的確是最近兩年最火爆、話題度最高的崗位。


          根據(jù)從業(yè)經(jīng)驗、技能要求的不同,可細分為數(shù)據(jù)分析工程師、數(shù)據(jù)分析師、數(shù)據(jù)專員。

          小編我特別榮幸于2017年7月份開始逐步在工作中接觸到數(shù)據(jù)分析,并且運用數(shù)據(jù)分析得到的結(jié)果來指導業(yè)務,增進業(yè)績,實現(xiàn)了公司數(shù)據(jù)化運營的短期目標。

          可以說,我轉(zhuǎn)行轉(zhuǎn)的特別輕松,我是幸運的;

          也可以說,我轉(zhuǎn)行轉(zhuǎn)的著實被動,我是被迫的。嘿嘿,看到這里,有沒有想打死我的沖動?!

          不管怎么說,小編我現(xiàn)在非常熱愛數(shù)據(jù)分析師這份職業(yè),也希望盡自己的一份努力與辛苦,幫助更多仍在迷茫中前行的萌新。

          今天,給大家?guī)淼氖牵?/span>基于Python——“數(shù)據(jù)分析崗位”招聘情況分析!

          數(shù)據(jù)分析實戰(zhàn)


          今天,我們將用網(wǎng)絡爬蟲爬取過來的1193847條數(shù)據(jù)進行深度數(shù)據(jù)分析,剖析一下到底值不值得放棄現(xiàn)有的工作、成就毅然決然地轉(zhuǎn)行數(shù)據(jù)分析呢?!


          • 數(shù)據(jù)處理

          ??????????異常值處理
          ??????????重復值處理
          ??????????空值處理
          ??????????類型轉(zhuǎn)換


          • 數(shù)據(jù)分析

          ??????????崗位數(shù)量、招聘人數(shù)
          ????????? 所處行業(yè)、工作地點
          ????????? 學歷要求、薪資水平

          • 分析報告


          一、導包、讀取數(shù)據(jù)
          import pandas as pd
          import warningsimport numpy as npwarnings.simplefilter(action='ignore', category=FutureWarning)warnings.simplefilter(action='ignore', category=UserWarning)
          import matplotlib as mltimport matplotlib.pyplot as plt
          %matplotlib inline
          # 讀取txt格式的數(shù)據(jù)dataset = pd.read_table(r'C:/Users/Administrator/Desktop/recruits.txt',low_memory = False)
          dataset.info()# 全覽數(shù)據(jù)可以發(fā)現(xiàn):數(shù)據(jù)缺少字段名
          RangeIndex: 1193846 entries, 0 to 1193845Data columns (total 13 columns):940864 1193846 non-null int64UI 1193846 non-null object用戶界面(UI)設(shè)計 1193846 non-null object8001-10000 1193846 non-null object3-5 1193846 non-null object本科 1193846 non-null object全職 1193846 non-null object2017-11-15 1193846 non-null object1 1193846 non-null object杭州****技術(shù)有限公司 1193846 non-null object計算機軟件 1193690 non-null object20-99 1193669 non-null object杭州 1193801 non-null objectdtypes: int64(1), object(12)memory usage: 118.4+ MB
          # 自定義字段名data = pd.read_table(r'C:/Users/Administrator/Desktop/recruits.txt',header = None,index_col = '序號',low_memory = False, names =['序號','崗位職責','崗位名稱','薪資','工作時長','學歷','職業(yè)類型','發(fā)布時間','招聘人數(shù)','公司名稱','所處行業(yè)','公司規(guī)模','工作地點'])data.head()


          # 自定義字段名添加成功data.info()
          # resultInt64Index: 1193847 entries, 940864 to 926760Data columns (total 12 columns):崗位職責 1193847 non-null object崗位名稱 1193847 non-null object薪資 1193847 non-null object工作時長 1193847 non-null object學歷 1193847 non-null object職業(yè)類型 1193847 non-null object發(fā)布時間 1193847 non-null object招聘人數(shù) 1193847 non-null object公司名稱 1193847 non-null object所處行業(yè) 1193691 non-null object公司規(guī)模 1193670 non-null object工作地點 1193802 non-null objectdtypes: object(12)memory usage: 118.4+ MBNone
          # 重置索引data = data.reset_index()data.tail()


          # 獲取數(shù)據(jù)集的列名data.columns
          #?resultIndex(['崗位職責', '崗位名稱', '薪資', '工作時長', '學歷', '職業(yè)類型', '發(fā)布時間', '招聘人數(shù)', '所處行業(yè)', '公司規(guī)模', '工作地點'], dtype='object')
          ? ? ??
          # 轉(zhuǎn)換數(shù)據(jù)集,去掉序號,去掉公司名稱(脫敏)data = data[['崗位職責', '崗位名稱', '薪資', '工作時長', '學歷', '職業(yè)類型', '發(fā)布時間', '招聘人數(shù)','所處行業(yè)', '公司規(guī)模', '工作地點']]data.info()
          # resultdata = data[['崗位職責', '崗位名稱', '薪資', '工作時長', '學歷', '職業(yè)類型', '發(fā)布時間', '招聘人數(shù)','所處行業(yè)', '公司規(guī)模', '工作地點']]
          data.info()
          RangeIndex: 1193847 entries, 0 to 1193846Data columns (total 11 columns):崗位職責 1193847 non-null object崗位名稱 1193847 non-null object薪資 1193847 non-null object工作時長 1193847 non-null object學歷 1193847 non-null object職業(yè)類型 1193847 non-null object發(fā)布時間 1193847 non-null object招聘人數(shù) 1193847 non-null object所處行業(yè) 1193691 non-null object公司規(guī)模 1193670 non-null object工作地點 1193802 non-null objectdtypes: object(11)memory usage: 100.2+ MB
          data.head(10)


          二、數(shù)據(jù)處理
          # 查看數(shù)據(jù)集是否存在異常值print('最早發(fā)布時間:',data['發(fā)布時間'].unique().min(),',最晚發(fā)布時間:',data['發(fā)布時間'].unique().max())
          #?可以發(fā)現(xiàn):發(fā)布時間異常最早發(fā)布時間:1970-01-01 ,最晚發(fā)布時間:2017-11-23
          # 查看異常數(shù)據(jù)data[(data['發(fā)布時間']<'2017-01-01')]


          # 僅保留17年及以后的招聘信息data = data[(data['發(fā)布時間']>='2017-01-01')]
          # 重復值統(tǒng)計data.duplicated().sum()
          # result35950
          # 去重data.drop_duplicates(inplace=True)
          # 再次查看數(shù)據(jù)集情況,發(fā)現(xiàn)存在空值data.info()
          # resultInt64Index: 1157827 entries, 0 to 1193846Data columns (total 11 columns):崗位職責 1157827 non-null object崗位名稱 1157827 non-null object薪資 1157827 non-null object工作時長 1157827 non-null object學歷 1157827 non-null object職業(yè)類型 1157827 non-null object發(fā)布時間 1157827 non-null object招聘人數(shù) 1157827 non-null object所處行業(yè) 1157674 non-null object公司規(guī)模 1157667 non-null object工作地點 1157796 non-null objectdtypes: object(11)memory usage: 106.0+ MB
          # 空值處理:統(tǒng)計空值數(shù)量data.isnull().sum()
          # result崗位職責 0崗位名稱 0薪資 0工作時長 0學歷 0職業(yè)類型 0發(fā)布時間 0招聘人數(shù) 0所處行業(yè) 153公司規(guī)模 160工作地點 31dtype: int64
          # 公司規(guī)模列空值較多,可具體查看data[data['公司規(guī)模'].isnull()]



          # 刪除空值data.dropna(inplace=True)
          # 再次查看,發(fā)現(xiàn)所有數(shù)據(jù)都處理完畢data.info()
          # resultInt64Index: 1157647 entries, 0 to 1193846Data columns (total 11 columns):崗位職責 1157647 non-null object崗位名稱 1157647 non-null object薪資 1157647 non-null object工作時長 1157647 non-null object學歷 1157647 non-null object職業(yè)類型 1157647 non-null object發(fā)布時間 1157647 non-null object招聘人數(shù) 1157647 non-null object所處行業(yè) 1157647 non-null object公司規(guī)模 1157647 non-null object工作地點 1157647 non-null objectdtypes: object(11)memory?usage:?106.0+?MB

          三、數(shù)據(jù)分析
          # 僅選擇數(shù)據(jù)分析師崗位進行分析,大家還可以進行數(shù)據(jù)分析專員等分析data_da = data[data['崗位名稱']=='數(shù)據(jù)分析師'].copy() # 不加copy()容易警告:SettingWithCopyWarningdata_da[ data_da['招聘人數(shù)']=='若干'] # 為了分析的方便,去掉“若干”情況


          # 數(shù)據(jù)處理,重新賦值data_da.loc[ data_da['招聘人數(shù)']=='若干','招聘人數(shù)'] = 0data_da['招聘人數(shù)'].value_counts()
          # result1 35313 9575 9492 9346 7224 4328 2427 16210 14512 7830 719 2920 1518 1415 760 40 225 116 113 1Name: 招聘人數(shù), dtype: int64
          # 查看招聘人數(shù)data_da['招聘人數(shù)'] = data_da['招聘人數(shù)'].astype(int)grb = data_da.groupby(['工作地點']).agg({'崗位名稱':'count','招聘人數(shù)':sum}).sort_values(by = '崗位名稱',ascending = False).head(10)grb



          四、可視化
          # 繪圖說明不同城市對數(shù)據(jù)分析師的需求數(shù)量grb.plot(kind = 'bar',figsize=(10,5),fontsize=12)
          plt.legend(['崗位數(shù)量','招聘人數(shù)'])
          plt.xlabel('工作地點',fontsize=15)plt.show()


          # 查看所處行業(yè)情況data['所處行業(yè)'].value_counts().head(10)
          # result互聯(lián)網(wǎng)/電子商務 267519計算機軟件 261188IT服務(系統(tǒng)/數(shù)據(jù)/維護) 95320教育/培訓/院校 94988專業(yè)服務/咨詢(財會/法律/力資源等) 52931媒體/出版/影視/文化傳播 49300基金/證券/期貨/投資 32005電子技術(shù)/半導體/集成電路 28652房地產(chǎn)/建筑/建材/工程 25118通信/電信/網(wǎng)絡設(shè)備 24828Name: 所處行業(yè), dtype: int64
          # 篩選出北京地區(qū)互聯(lián)網(wǎng)公司數(shù)據(jù)分析師招聘數(shù)據(jù)subdata = data[data['所處行業(yè)'].isin(['互聯(lián)網(wǎng)/電子商務'])][(data['崗位名稱']=='數(shù)據(jù)分析師')&(data['工作地點']=='北京')]subdata.iloc[:20,:]



          # 學歷因素subdata['學歷'].value_counts(normalize = True)
          # result本科 0.568910碩士 0.174679大專 0.142628不限 0.113782Name: 學歷, dtype: float64
          # 其他城市可能會用到-- subdata[subdata['學歷'].isin(['中專','中技'])]--?subdata.loc[(subdata['學歷']=='中專')|(subdata['學歷']=='中技'),'學歷']?=?'不限'
          # 繪圖說明數(shù)據(jù)分析師對學歷的要求subdata['學歷'].value_counts(normalize = True)plt.pie(subdata['學歷'].value_counts(normalize = True),labels = ['本科','碩士','大專','不限'],autopct='%.1f%%',startangle=180)plt.show()plt.close()


          #?薪資情況subdata.groupby(['學歷','工作時長'])[['薪資']].describe()



          分析報告


          1.本次共計處理元數(shù)據(jù)1193847條,來源于某著名求職類APP,可用于分析的數(shù)據(jù)為1157647條,所有數(shù)據(jù)發(fā)布時間均在17年,所以此分析報告代表17年數(shù)據(jù)分析師崗位情況,不過對19年、甚至20年求職的萌新具有現(xiàn)實指導意義。

          2.由文中條形圖可以看出,數(shù)據(jù)分析師崗位集中在一線城市,如北京、上海、深圳、廣州;另外,西安對數(shù)據(jù)分析師的需求量是事先沒有預料到的。

          3.北京地區(qū)互聯(lián)網(wǎng)行業(yè)對數(shù)據(jù)分析師的需求量最為旺盛,其次為計算機軟件、IT服務業(yè)等。

          4.北京地區(qū)互聯(lián)網(wǎng)行業(yè)對數(shù)據(jù)分析師的學歷要求本科占五成多,說明學歷依然是篩選人才的門檻,不過大專學歷也可以從事數(shù)據(jù)分析,需要更多的技能加持,良好的機遇。

          5.北京地區(qū)互聯(lián)網(wǎng)行業(yè)的數(shù)據(jù)分析師,相同工作年限本科、??茖W歷的薪資水平相差不大,對于剛轉(zhuǎn)行的薪資水平基本處于8k-12k。


          --------------------------------?END ----------------------------------


          讀者朋友,如果您能認認真真地將文章看完,記得一定要幫嚴小樣兒點點在看,就在文章右下角。

          記得掃描二維碼關(guān)注我哦,“轉(zhuǎn)行數(shù)據(jù)分析,關(guān)注我就會特別簡單”!

          對您有幫助的話,記得轉(zhuǎn)發(fā)、分享朋友圈,轉(zhuǎn)行更順利~







          在看”的永遠18歲~
          瀏覽 87
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  高潮喷水在线 | 手机看片婷婷青青草 | 亚洲自拍中文字幕 | 逼逼逼逼五月情 | 免费精品久久久久久中文字幕-无删减 |