Python爬取的BOSS直聘的數(shù)據(jù)
臨近年末,“互聯(lián)網(wǎng)寒冬”的來臨讓大家倍感壓力,大家紛紛感嘆寒冬將至。但是,越是這個時候,越要明確自己的奮斗目標,不斷的充實自己,提高自己的能力,為找工作打下堅實的基礎(chǔ)。
本次我們爬取了招聘網(wǎng)站上關(guān)于計算機視覺方向的招聘信息,并對于招聘信息進行分析,看一下目前計算機視覺方向?qū)τ趹刚叩男枨笕绾巍?/span>
首先招聘信息的爬取采用的是selenium 庫,對boss 直聘招聘網(wǎng)站進行爬取,因為網(wǎng)站對于反爬的驗證碼比較復雜,即便是利用tesserocr 來對這種驗證碼識別的也很難將其識別準確,因此直接采用selenium庫,對于網(wǎng)頁信息進行爬取。對于驗證碼仍需要人工來進行識別并進行操作。但是由于爬取的過程中,對網(wǎng)頁進行了模擬瀏覽過程,因此幾乎不會產(chǎn)生反爬環(huán)節(jié)。
對于招聘信息的提取首先是打開我們所要查詢的招聘方向的鏈接,這里我們查詢的是計算機視覺方向(自己更改所需即可),然后針對每一頁上的每一個招聘鏈接,在新的網(wǎng)頁進行打開,然后爬取其網(wǎng)頁信息。整體的運行效果圖如下動圖所示。
對于每一個招聘鏈接,利用BeautifulSoup進行網(wǎng)頁信息的提取,并將其保存到csv文件當中,具體代碼如下圖所示。

完整代碼獲取見文末
這里我們爬取了招聘信息中,對于應聘者的學歷、經(jīng)驗的要求,以及招聘者提出的工作要求和薪金待遇以及工作地點。將爬取后的信息保存為csv文件放到根文件夾下,至此爬取招聘信息的工作便完成。爬取的信息如下如所示。

首先,我們想觀察一下目前招聘者對于應聘者的工作要求,因此為了更加直觀的展示工作要求,我們采用詞云的形式,對于工作要求中的關(guān)鍵詞進行展示。
采用詞云的優(yōu)勢在于:第一,展示起來比較美觀,第二是出現(xiàn)頻率越高的關(guān)鍵詞,其字體也越大,因此更能直觀的進行展示。
對于爬取得到的信息,利用pandas進行讀取,然后將“工作要求”一項進行提取后,采用jieba進行分析,并結(jié)合WordCloud庫進行展示,得到的結(jié)果如下如所示。
由詞云我們可以看出,目前計算機視覺領(lǐng)域深度學習技術(shù)是最杯招聘者所看重的一項技能,因此它的出現(xiàn)頻率也是最高的。其次對于機器學習、圖像處理技術(shù)也要進行掌握,并能達到熟練掌握的程度。如果有小伙伴想要進軍計算機視覺領(lǐng)域的話,那么上述的詞云所體現(xiàn)的信息,將會對你有很大的幫助,在處理完“工作需求之后”,我們還對大家普遍關(guān)心的“工資”水平和“經(jīng)驗”要求進行了分析。
由于招聘者對于工資都是提供一個大概的范圍,因此,這里我們采取招聘者提供的平均工資來作為我們的“工資”數(shù)據(jù),根據(jù)平均工資的最大值跟最小值將工資分為五類,可視化數(shù)據(jù)如下圖所示。
由工資圖可以看出,目前計算機視覺領(lǐng)域的工資水平大都集中在20K到30K之間,還是一個相當不錯的工資水平。
對于經(jīng)驗的分析,我們也進行了分析,如下圖所示。
由上圖可以看出,招聘者對于應聘者的經(jīng)驗還是十分看重的,因此如果小伙伴是在校生的話,還是抓住機會出去實習,增長自己的經(jīng)驗吧。
完整代碼和爬取結(jié)果 csv 文件,在后臺回復關(guān)鍵詞 boss 即可
掃碼回復“boss”?
