GitHub出了一款爬蟲神器!還給出了詳細教程!
點上方藍色“菜鳥學Python”,選“星標”公眾號
重磅干貨,第一時間送到

對于做爬蟲和數據分析方向的小伙伴來說,對于數據的獲取是十分重要的,尤其是關于大數據分析的數據,非常難以獲取,最近小編在瀏覽Github時,就發(fā)現了一個寶庫——gopup。是由一個國內的大神開源的python庫,該庫包含了大量的大數據分析相關的數據,一起來看看吧。

01.神器GoPup
項目的地址為:https://github.com/justinzm/gopup。該庫所采集的數據都是公開的數據源,作者也指出了通過該庫所獲取的數據主要目的是用于學術的研究。
該項目所涉及到的數據庫包含了微博指數數據、百度指數數據、頭條指數數據、新經濟公司、生活數據、疫情數據等信息。

可以看到,上述的數據中,都包含了大量的大數據分析數據,可以通過該項目庫直接獲取來使用。gopup的安裝也十分的便捷,在終端運行pip install gopup即可安裝。
02.如何使用
接下來,我們通過程序來看一下如何使用gopup來獲取數據。首先來看一下,百度指數的數據獲取,程序和結果如下圖所示:

上圖中,可以看到,首先我們需要先在網頁端登錄百度指數,然后獲取cookie數據,拿到cookie數據后,就可以調用gopup庫的baidu_search_index函數來查詢指定時間段內的指定關鍵詞的搜索熱度。這里我們搜索的就是2020年10月1號到2020年12月1號的62天的“口罩”搜索指數。返回的是DataFrame格式的數據。那么如何獲得cookie呢?

首先打開百度指數網站并登錄,然后點擊F12進入開發(fā)者模式后,點擊Network后,點擊任意一個url的鏈接,翻到最下方就可以獲取到cookie數據。
接下來我們來獲取一下汽油和柴油的歷史調價信息,程序和結果如下所示:

可以看到,對于調價信息,只需要一行代碼即可幫助我們搞定。
gopup不僅僅可以抓取到生活信息,還可以幫助我們抓取影視信息方面的數據,例如實時的電影票房數據、實時電視劇播映指數、藝人商業(yè)價值等信息,程序和結果如下圖所示:

上述的程序給出的是實時電視劇播映指數數據,可以看到,最近比較火的電視劇為張魯一、段奕宏領銜主演的《大秦賦》和李易峰、金晨主演的《隱秘而偉大》。這兩部劇在豆瓣上的評分都在8分以上,可謂是收視率和口碑的雙豐收。

上圖給出的是藝人商業(yè)價值的排行榜(詳細的csv可以在文末獲取),楊紫、易烊千璽和楊冪分列前三位,這份榜單是根據商業(yè)價值來進行排序,在專業(yè)熱度、關注熱度等信息方面,不同的明星熱度排名也是不相同的。
03.詳細的文檔

以百度的搜索數據為例,我們需要重點關注的有四個點,分別是目標地址、輸入參數、輸出參數和接口示例,其中接口示例給出了程序如何調用的詳細說明,讓大家一看就明白該如何使用。
還要注意的是,影視數據獲取的程序,必須在Ubuntu環(huán)境下運行,否則js數據無法正確返回結果。

以上就是小編為大家?guī)淼膅opup庫的介紹,大家也趕快安裝gopup,發(fā)現更多更有趣的大數據應用吧。
另外使用這個庫需要一個js補丁,小編已經為大家準備好了!
直接后臺輸入:補丁

爆款文案
菜鳥編程本營,從菜鳥進階高手
點這里,獲取新手福利

