<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          鮮為人知的數(shù)據(jù)科學(xué) Python 庫(kù)

          共 4143字,需瀏覽 9分鐘

           ·

          2020-10-29 01:51

          ↑↑↑點(diǎn)擊上方藍(lán)字,回復(fù)資料,10個(gè)G的驚喜

          當(dāng)當(dāng)網(wǎng)1024大促

          40元優(yōu)惠碼JHSCSB(注意要大寫(xiě))

          相當(dāng)于滿(mǎn)160元買(mǎi)400元的硬核技術(shù)書(shū)!

          原文地址:https://dwz.cn/FBj1Ktxv

          譯文鏈接:https://dwz.cn/moEU7xzr

          Python 是一個(gè)很棒的語(yǔ)言。它是世界上發(fā)展最快的編程語(yǔ)言之一。它一次又一次地證明了在開(kāi)發(fā)人員職位中和跨行業(yè)的數(shù)據(jù)科學(xué)職位中的實(shí)用性。整個(gè) Python 及其庫(kù)的生態(tài)系統(tǒng)使它成為全世界用戶(hù)(初學(xué)者和高級(jí)用戶(hù))的合適選擇。它的成功和流行的原因之一是它強(qiáng)大的第三方庫(kù)的集合,這些庫(kù)使它可以保持活力和高效。

          在本文中,我們會(huì)研究一些用于數(shù)據(jù)科學(xué)任務(wù)的 Python 庫(kù),而不是常見(jiàn)的比如 panda、scikit-learn 和 matplotlib 等的庫(kù)。盡管像 panda 和 scikit-learn 這樣的庫(kù),是在機(jī)器學(xué)習(xí)任務(wù)中經(jīng)常出現(xiàn)的,但是了解這個(gè)領(lǐng)域中的其它 Python 產(chǎn)品總是很有好處的。

          Wget

          從網(wǎng)絡(luò)上提取數(shù)據(jù)是數(shù)據(jù)科學(xué)家的重要任務(wù)之一。Wget 是一個(gè)免費(fèi)的實(shí)用程序,可以用于從網(wǎng)絡(luò)上下載非交互式的文件。它支持 HTTP、HTTPS 和 FTP 協(xié)議,以及通過(guò) HTTP 的代理進(jìn)行文件檢索。由于它是非交互式的,即使用戶(hù)沒(méi)有登錄,它也可以在后臺(tái)工作。所以下次當(dāng)你想要下載一個(gè)網(wǎng)站或者一個(gè)頁(yè)面上的所有圖片時(shí),wget 可以幫助你。安裝:

          $?pip?install?wget

          例子:

          import?wgeturl?=?'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'filename?=?wget.download(url)100%?[................................................]?3841532?/?3841532filename'razorback.mp3'###?Pendulum

          對(duì)于那些在 python 中處理日期時(shí)間時(shí)會(huì)感到沮喪的人來(lái)說(shuō),Pendulum 很適合你。它是一個(gè)簡(jiǎn)化日期時(shí)間操作的 Python 包。它是 Python 原生類(lèi)的簡(jiǎn)易替代。請(qǐng)參閱文檔深入學(xué)習(xí)。

          安裝:

          $?pip?install?pendulum

          例子:

          import?pendulumdt_toronto?=?pendulum.datetime(2012,?1,?1,?tz='America/Toronto')dt_vancouver?=?pendulum.datetime(2012,?1,?1,?tz='America/Vancouver')print(dt_vancouver.diff(dt_toronto).in_hours())3?

          imbalanced-learn

          可以看出,當(dāng)每個(gè)類(lèi)的樣本數(shù)量基本相同時(shí),大多數(shù)分類(lèi)算法的效果是最好的,即需要保持?jǐn)?shù)據(jù)平衡。但現(xiàn)實(shí)案例中大多是不平衡的數(shù)據(jù)集,這些數(shù)據(jù)集對(duì)機(jī)器學(xué)習(xí)算法的學(xué)習(xí)階段和后續(xù)預(yù)測(cè)都有很大影響。幸運(yùn)的是,這個(gè)庫(kù)就是用來(lái)解決此問(wèn)題的。它與 scikit-learn 兼容,是 scikit-lear-contrib 項(xiàng)目的一部分。下次當(dāng)你遇到不平衡的數(shù)據(jù)集時(shí),請(qǐng)嘗試使用它。

          安裝:

          pip?install?-U?imbalanced-learn#?或者conda?install?-c?conda-forge?imbalanced-learn

          例子:

          使用方法和例子請(qǐng)參考文檔。

          FlashText

          在 NLP 任務(wù)中,清理文本數(shù)據(jù)往往需要替換句子中的關(guān)鍵字或從句子中提取關(guān)鍵字。通常,這種操作可以使用正則表達(dá)式來(lái)完成,但是如果要搜索的術(shù)語(yǔ)數(shù)量達(dá)到數(shù)千個(gè),這就會(huì)變得很麻煩。Python 的 FlashText 模塊是基于 FlashText 算法為這種情況提供了一個(gè)合適的替代方案。FlashText 最棒的一點(diǎn)是,不管搜索詞的數(shù)量如何,運(yùn)行時(shí)間都是相同的。你可以在這里了解更多內(nèi)容。

          安裝:

          $?pip?install?flashtext

          例子:

          提取關(guān)鍵字

          from?flashtext?import?KeywordProcessorkeyword_processor?=?KeywordProcessor()#?keyword_processor.add_keyword(,?)keyword_processor.add_keyword('Big?Apple',?'New?York')keyword_processor.add_keyword('Bay?Area')keywords_found?=?keyword_processor.extract_keywords('I?love?Big?Apple?and?Bay?Area.')keywords_found['New?York',?'Bay?Area']

          替換關(guān)鍵字

          keyword_processor.add_keyword('New?Delhi',?'NCR?region')new_sentence?=?keyword_processor.replace_keywords('I?love?Big?Apple?and?new?delhi.')new_sentence'I?love?New?York?and?NCR?region.'Fuzzywuzzy

          這個(gè)庫(kù)的名字聽(tīng)起來(lái)很奇怪,但是在字符串匹配方面,fuzzywuzzy 是一個(gè)非常有用的庫(kù)。可以很方便地實(shí)現(xiàn)計(jì)算字符串匹配度、令牌匹配度等操作,也可以很方便地匹配保存在不同數(shù)據(jù)庫(kù)中的記錄。

          安裝:

          $?pip?install?fuzzywuzzy

          例子:

          from?fuzzywuzzy?import?fuzzfrom?fuzzywuzzy?import?process#?簡(jiǎn)單匹配度f(wàn)uzz.ratio("this?is?a?test",?"this?is?a?test!")97#?模糊匹配度f(wàn)uzz.partial_ratio("this?is?a?test",?"this?is?a?test!")?100

          更多有趣例子可以在 GitHub 倉(cāng)庫(kù)找到。

          PyFlux

          時(shí)間序列分析是機(jī)器學(xué)習(xí)領(lǐng)域中最常見(jiàn)的問(wèn)題之一。PyFlux 是 Python 中的一個(gè)開(kāi)源庫(kù),它是為處理時(shí)間序列問(wèn)題而構(gòu)建的。該庫(kù)擁有一系列優(yōu)秀的現(xiàn)代時(shí)間序列模型,包括但不限于 ARIMA、GARCH 和 VAR 模型。簡(jiǎn)而言之,PyFlux 為時(shí)間序列建模提供了一種概率方法。值得嘗試一下。

          安裝

          pip?install?pyflux

          例子

          詳細(xì)用法和例子請(qǐng)參考官方文檔。

          Ipyvolume

          結(jié)果展示也是數(shù)據(jù)科學(xué)中的一個(gè)重要方面。能夠?qū)⒔Y(jié)果進(jìn)行可視化將具有很大優(yōu)勢(shì)。IPyvolume 是一個(gè)可以在 Jupyter notebook 中可視化三維體和圖形(例如三維散點(diǎn)圖等)的 Python 庫(kù),并且只需要少量配置。但它目前還是 1.0 之前的版本階段。用一個(gè)比較恰當(dāng)?shù)谋扔鱽?lái)解釋就是:IPyvolume 的 volshow 對(duì)于三維數(shù)組就像 matplotlib 的 imshow 對(duì)于二維數(shù)組一樣好用。可以在這里獲取更多。

          使用 pip

          $?pip?install?ipyvolume

          使用 Conda/Anaconda

          $?conda?install?-c?conda-forge?ipyvolume

          例子

          • 動(dòng)畫(huà)
          • 體繪制

          Dash

          Dash 是一個(gè)高效的用于構(gòu)建 web 應(yīng)用程序的 Python 框架。它是在 Flask、Plotly.js 和 React.js 基礎(chǔ)上設(shè)計(jì)而成的,綁定了很多比如下拉框、滑動(dòng)條和圖表的現(xiàn)代 UI 元素,你可以直接使用 Python 代碼來(lái)寫(xiě)相關(guān)分析,而無(wú)需再使用 javascript。Dash 非常適合構(gòu)建數(shù)據(jù)可視化應(yīng)用程序。然后,這些應(yīng)用程序可以在 web 瀏覽器中呈現(xiàn)。用戶(hù)指南可以在這里獲取。

          安裝

          pip?install?dash==0.29.0??#?核心 dash 后端pip install dash-html-components==0.13.2 ?# HTML 組件pip install dash-core-components==0.36.0??#?增強(qiáng)組件pip install dash-table==3.1.3 ?#?交互式 DataTable 組件(最新!)

          例子下面的例子展示了一個(gè)具有下拉功能的高度交互式圖表。當(dāng)用戶(hù)在下拉菜單中選擇一個(gè)值時(shí),應(yīng)用程序代碼將動(dòng)態(tài)地將數(shù)據(jù)從 Google Finance 導(dǎo)出到 panda DataFrame。

          Gym

          OpenAI 的 Gym 是一款用于增強(qiáng)學(xué)習(xí)算法的開(kāi)發(fā)和比較工具包。它兼容任何數(shù)值計(jì)算庫(kù),如 TensorFlow 或 Theano。Gym 庫(kù)是測(cè)試問(wèn)題集合的必備工具,這個(gè)集合也稱(chēng)為環(huán)境 —— 你可以用它來(lái)開(kāi)發(fā)你的強(qiáng)化學(xué)習(xí)算法。這些環(huán)境有一個(gè)共享接口,允許你進(jìn)行通用算法的編寫(xiě)。

          安裝

          pip?install?gym

          例子這個(gè)例子會(huì)運(yùn)行CartPole-v0環(huán)境中的一個(gè)實(shí)例,它的時(shí)間步數(shù)為 1000,每一步都會(huì)渲染整個(gè)場(chǎng)景。

          總結(jié)

          以上這些有用的數(shù)據(jù)科學(xué) Python 庫(kù)都是我精心挑選出來(lái)的,不是常見(jiàn)的如 numpy 和 pandas 等庫(kù)。如果你知道其它庫(kù),可以添加到列表中來(lái),請(qǐng)?jiān)谙旅娴脑u(píng)論中提一下。另外別忘了先嘗試運(yùn)行一下它們。

          我的朋友圈更精彩

          推薦閱讀

          (點(diǎn)擊標(biāo)題可跳轉(zhuǎn)閱讀)

          兩 個(gè) AI 黑 科 技!!

          學(xué)完NumPy,直接開(kāi)始玩神經(jīng)網(wǎng)絡(luò)

          特朗普:沒(méi)有人比我更懂?dāng)?shù)據(jù)分析

          眾所周知,YouTube是個(gè)學(xué)習(xí)網(wǎng)站

          2020年度最佳的23個(gè)的機(jī)器學(xué)習(xí)項(xiàng)目

          劍橋大學(xué):PyTorch 已 碾 壓 TensorFlow

          老鐵,三連支持一下,好嗎?↓↓↓

          瀏覽 41
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  AV无码免费一区二区三区不卡 | 国产精品久久免费 | 免费在线观看操逼视频 | 亚洲精品成人AV电影 | 成人婷婷五月 |