<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          0.052秒打開(kāi)100GB數(shù)據(jù)!這個(gè)Python開(kāi)源庫(kù)牛X了

          共 1449字,需瀏覽 3分鐘

           ·

          2021-02-21 03:19

          當(dāng)今的數(shù)據(jù)集越來(lái)越大,臺(tái)式機(jī)的內(nèi)存甚至都裝不下,更不用說(shuō)你的筆記本電腦了,盡管如此,在大數(shù)據(jù)時(shí)代,我們總是避免不了要使用大數(shù)據(jù)集,于是Vaex誕生了。


          什么是Vaex?


          Vaex是一個(gè)高性能Python庫(kù),可以可視化和探索大型表格數(shù)據(jù)集,它以在 N 維網(wǎng)格上計(jì)算每秒超過(guò)十億(10^9)個(gè)對(duì)象 / 行的統(tǒng)計(jì)信息,例如均值、總和、計(jì)數(shù)、標(biāo)準(zhǔn)差等,?磁盤(pán)上大小超過(guò)100GB的數(shù)據(jù),用Vaex只需要0.052秒就可以打開(kāi)。

          使用直方圖、密度圖和三維體繪制完成可視化,從而可以交互式探索大數(shù)據(jù)。Vaex 使用內(nèi)存映射、零內(nèi)存復(fù)制策略獲得最佳性能(不浪費(fèi)內(nèi)存)。

          Vaex具有以下功能特性:
          • 基于Python數(shù)據(jù)科學(xué)站(例如Panda、Scikit-Learn、arrow、xgboost、lightgbm),標(biāo)準(zhǔn)API易于采用。為Jupyter環(huán)境量身定制。

          • 電腦運(yùn)算,結(jié)合了內(nèi)存映射,復(fù)雜的表達(dá)系統(tǒng)和快速核外算法。有效地可視化和探索大型數(shù)據(jù)集,并在一臺(tái)機(jī)器上構(gòu)建機(jī)器學(xué)習(xí)模型。

          • 基準(zhǔn)測(cè)試,每秒可視化10億個(gè)樣本。與標(biāo)準(zhǔn)實(shí)現(xiàn)相比,PCA轉(zhuǎn)換速度提高了10倍,可在2分鐘內(nèi)處理10億個(gè)樣本。完全超出核心。



          高效

          Vaex不僅僅是Panda的替代品。盡管在執(zhí)行諸如的表達(dá)式時(shí),它具有類(lèi)似于panda的API用于列訪問(wèn)np.sqrt(ds.x**2 + ds.y**2),但不會(huì)進(jìn)行任何計(jì)算。而是創(chuàng)建一個(gè)vaex表達(dá)式對(duì)象,并在打印輸出時(shí)顯示一些預(yù)覽值。



          使用表達(dá)式系統(tǒng),vaex僅在需要時(shí)執(zhí)行計(jì)算。同樣,數(shù)據(jù)也不必是本地的:表達(dá)式可以通過(guò)發(fā)送的方式,統(tǒng)計(jì)信息可以遠(yuǎn)程計(jì)算,這是vaex-server程序包提供的。


          虛擬列

          我們還可以將表達(dá)式添加到DataFrame中,從而生成虛擬列。虛擬列的行為類(lèi)似于常規(guī)列,但不占用任何內(nèi)存。Vaex在實(shí)列和虛列之間沒(méi)有區(qū)別,



          如果表達(dá)式在運(yùn)行時(shí)真的很復(fù)雜怎么辦?通過(guò)使用Pythran或Numba,我們可以使用手動(dòng)實(shí)時(shí)(JIT)編譯來(lái)優(yōu)化計(jì)算。



          遠(yuǎn)程數(shù)據(jù)幀甚至支持JIT版本的表達(dá)式,擔(dān)心RAM不夠?你還可以選擇以RAM為代價(jià)擠出額外的性能。




          可視化

          進(jìn)行有意義的繪圖和可視化是了解數(shù)據(jù)的最佳方法。。但是,當(dāng)你的DataFrame包含10億行時(shí),制作標(biāo)準(zhǔn)散點(diǎn)圖不僅會(huì)花費(fèi)很長(zhǎng)時(shí)間,而且會(huì)導(dǎo)致毫無(wú)意義且難以理解的可視化。

          讓我們看看這些想法的一些實(shí)際例子。我們可以使用直方圖可視化單個(gè)列的內(nèi)容。



          可以將其擴(kuò)展為兩個(gè)維度,從而生成熱圖。我們可以像典型的熱圖那樣簡(jiǎn)單地計(jì)算落入每個(gè)樣本中,而不是計(jì)算平均值,取總和的對(duì)數(shù)或幾乎任何自定義統(tǒng)計(jì)量。



          我們甚至可以使用ipyvolume進(jìn)行3維體積渲染。



          最后附上相關(guān)地址:
          • Vaex 官方網(wǎng)站:https://vaex.io/??

          • 文檔https://docs.vaex.io/?

          • GitHub:https : //github.com/vaexio/vaex

          • PyPi:https://pypi.python.org/pypi/vaex/



          來(lái)源:開(kāi)源最前線(ID:OpenSourceTop)

          版權(quán)申明:內(nèi)容來(lái)源網(wǎng)絡(luò),版權(quán)歸原創(chuàng)者所有。除非無(wú)法確認(rèn),我們都會(huì)標(biāo)明作者及出處,如有侵權(quán)煩請(qǐng)告知,我們會(huì)立即刪除并表示歉意。謝謝!





          感謝閱讀



          瀏覽 124
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  人妻疯狂3p三年珍贵视频 | 91射在线播放 | 影音先锋av资源网站 | 曰日骚| 欧美三区四区 |