<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          愛了愛了!0.052 秒打開 100GB 數據,這個Python開源庫火爆了!

          共 4239字,需瀏覽 9分鐘

           ·

          2020-11-20 16:20







          編譯?|?AI科技大本營(ID:rgznai100)


          許多組織都在嘗試收集和利用盡可能多的數據,以改善其經營方式,增加收入和提升影響力。因此,數據科學家面對50GB甚至500GB大小的數據集情況變得越來越普遍。
          ?
          不過,這類數據集使用起來不太容易。它們足夠小,可以裝入日常筆記本電腦的硬盤驅動器中,但同時大到無法裝入RAM,導致它們已經很難打開和檢查,更不用說探索或分析了。
          ?
          處理此類數據集時,通常采用3種策略。
          ?
          第一種是對數據進行二次采樣,但缺點很明顯:你可能因為忽視相關部分數據而錯過關鍵洞察,甚至更糟的是,這會誤解了數據所闡釋的含義。
          ?
          第二種策略是使用分布式計算。在某些情況下這是一種有效的方法,但它需要管理和維護集群的大量開銷。
          ?
          又或者,你可以租用一個強大的云實例,該實例具有處理相關數據所需的內存。例如,AWS提供具有TB級RAM的實例。在這種情況下,你仍然必須管理云數據存儲區(qū),每次實例啟動時,都需要等待數據從存儲空間傳輸到實例,同時,還要考慮將數據存儲在云上的合規(guī)性問題,以及在遠程計算機上工作帶來的不便。更不別說成本,盡管一開始成本很低,但后續(xù)往往會增加。
          ?
          Vaex是解決這個問題的新方法。它是一種幾乎可以對任意大小的數據進行數據科學研究的更快、更安全、更方便的方法,只要數據集可以安裝在你的筆記本電腦,臺式機或服務器硬盤上。

          什么是Vaex?
          ?
          Vaex 是一個開源的 DataFrame 庫(類似于Pandas),對和你硬盤空間一樣大小的表格數據集,它可以有效進行可視化、探索、分析甚至進行實踐機器學習。
          ?

          它可以在N維網格上計算每秒超過十億(10^9)個對象/行的統(tǒng)計信息,例如均值、總和、計數、標準差等?。使用直方圖、密度圖和三維體繪制完成可視化,從而可以交互式探索大數據。Vaex使用內存映射、零內存復制策略獲得最佳性能(不浪費內存)。
          ?
          為實現這些功能,Vaex 采用內存映射、高效的核外算法和延遲計算等概念。所有這些都封裝為類 Pandas 的 API,因此,任何人都能快速上手。
          ?
          十億級計程車的數據分析

          為了說明這一概念,讓我們對一個數據集進行簡單的探索性數據分析,該數據集并不適合典型筆記本電腦的RAM。
          ?
          本文中將使用紐約市(NYC)出租車數據集,其中包含標志性的黃色出租車在2009年至2015年之間進行的超過10億次出行的信息。數據可以從網站(https://www1.nyc.gov/site/tlc/about/tlc-trip-record-data.page)下載,并且為CSV格式。完整的分析可以在此Jupyter筆記本中單獨查看(https://nbviewer.jupyter.org/github/vaexio/vaex-examples/blob/master/medium-nyc-taxi-data-eda/vaex-taxi-article.ipynb)。

          為什么要選擇vaex?

          • 性能:處理海量表格數據,每秒處理超過十億行
          • 虛擬列:動態(tài)計算,不浪費內存
          • 高效的內存在執(zhí)行過濾/選擇/子集時沒有內存副本。
          • 可視化:直接支持,單線通常就足夠了。
          • 用戶友好的API:只需處理一個數據集對象,制表符補全和docstring可以幫助你:ds.mean,類似于Pandas。
          • 精益:分成多個包
          • Jupyter集成:vaex-jupyter將在Jupyter筆記本和Jupyter實驗室中提供交互式可視化和選擇。
          ?

          第一步是將數據轉換為內存可映射文件格式,例如Apache Arrow,Apache Parquet或HDF5。在此處也可以找到如何將CSV數據轉換為HDF5的示例。數據變?yōu)閮却婵捎成涓袷胶?,即使在磁盤上的大小超過100GB,也可以使用Vaex即時打開(只需0.052秒?。?/span>
          為什么這么快?當使用Vaex打開內存映射文件時,實際上沒有進行任何數據讀取。Vaex僅讀取文件的元數據,例如磁盤上數據的位置,數據結構(行數、列數、列名和類型),文件說明等。那么,如果我們要檢查數據或與數據交互怎么辦?打開數據集會生成一個標準的DataFrame并對其進行快速檢查:
          注意,單元執(zhí)行時間太短了。這是因為顯示Vaex DataFrame或列僅需要從磁盤讀取前后5行數據。這將我們引向另一個重點:Vaex只會在需要時遍歷整個數據集,并且會嘗試通過盡可能少的數據傳遞來做到這一點。
          無論如何,讓我們從極端異常值或錯誤數據輸入值開始清除此數據集。一個很好的方法是使用describe方法對數據進行高級概述,其中顯示了樣本數、缺失值數和每一列的數據類型。如果列的數據類型為數字,則還將顯示平均值、標準偏差以及最小值和最大值。所有這些統(tǒng)計信息都是通過對數據的一次傳遞來計算的。
          使用describe方法獲得 DataFrame 的高級概覽,注意這個 DataFrame 包含 18 列數據,不過截圖只展示了前 7 列。
          該describe方法很好地體現了Vaex的功能和效率:所有這些統(tǒng)計數據都是在我的MacBook Pro(2018款15英寸,2.6GHz Intel Core i7,32GB RAM)上用不到3分鐘的時間計算出來的。其他庫或方法都需要分布式計算或擁有超過100GB的云實例來執(zhí)行相同的計算。而使用Vaex,你所需要的只是數據,以及只有幾GB RAM的筆記本電腦。
          查看describe的輸出,很容易注意到數據包含一些嚴重的異常值。
          首先開始檢查上車地點。消除異常值的最簡單方法是簡單地繪制上下車地點的位置,并直觀地定義我們要集中分析的NYC區(qū)域。由于我們正在使用如此大的數據集,因此直方圖是最有效的可視化效果。使用Vaex創(chuàng)建和顯示直方圖和熱力圖的速度很快,而且圖表可以交互!
          一旦我們通過交互決定要關注的NYC區(qū)域,就可以簡單地創(chuàng)建一個篩選后的DataFrame:?
          關于上面的代碼,最酷的事情是它需要執(zhí)行的內存量可以忽略不計!在篩選Vaex DataFrame時不會復制數據,而是僅創(chuàng)建對原始對象的引用,在該引用上應用二進制掩碼。用掩碼選擇要顯示的行,并將其用于將來的計算。這將為我們節(jié)省100GB的RAM,而像今天許多標準數據科學工具卻要復制數據。
          現在,檢查一下該passenger_count列。單次出租車行程記錄的最大乘客數為255,這似乎有些夸張。計算每次行程的乘客人數,使用以下value_counts方法很容易做到這一點:
          在 10 億行數據上使用 value_counts 方法只需要 20 秒
          從上圖可以看出,載客超過6人的行程可能是罕見的異常值,或者僅僅是錯誤的數據輸入,還有大量的0位乘客的行程。由于目前我們尚不了解這些行程是否合法,因此我們也將其過濾掉。??
          讓我們對行程距離進行類似的練習。由于這是一個連續(xù)變量,因此我們可以繪制行程距離的分布圖。讓我們繪制一個更合理范圍的直方圖。
          紐約出租車數據行程距離直方圖
          從上圖可以看出,出行次數隨著距離的增加而減少。在距離約100英里處,分布有明顯下降。目前,我們將以此為起點,根據行程距離消除極端離群值:
          出行距離一列中存在極端異常值,這也是研究出行時間和出租車平均速度的動機。這些功能在數據集中尚不可用,但計算起來很簡單:
          上面的代碼塊無需內存,無需花費時間即可執(zhí)行!這是因為代碼只會創(chuàng)建虛擬列。這些列僅包含數學表達式,并且僅在需要時才進行評估。此外,虛擬列的行為與任何其他常規(guī)列都相同。注意,其他標準庫將需要10 GB的RAM才能進行相同的操作。
          好了,讓我們來繪制行程耗費時間的分布:
          紐約超過 10 億次出租車行程耗費時間的直方圖
          從上面的圖中可以看出,盡管有一些行程可能需要花費4至5個小時,但95%的出租車花費不到30分鐘即可到達目的地。你能想象在紐約市被困出租車中超過3個小時嗎?無論如何,我們要保持開放的態(tài)度,并考慮所有花費時間少于3小時的行程:
          現在,讓我們研究出租車的平均速度,同時選擇一個合理的數據范圍:
          出租車平均速度分布
          根據分布趨平的位置,我們可以推斷出在每小時1到60英里之間合理的平均滑行速度,因此可以更新篩選后的DataFrame:
          將重點轉移到出租車費用上。從describe方法的輸出中,我們可以看到在fare_amount,total_amount和tip_amount列中有一些瘋狂的異常值。對于初學者,任何這些列中的任何值都不應為負。同時數字表明,一些幸運的司機僅憑開一次出租車便幾乎成為了百萬富翁。讓我們看一下在相對合理的范圍內這些數量的分布:
          紐約超過 10 億次出租車行程的車費、總額和小費的分布。在筆記本上繪制這些圖表只用了 31 秒!
          我們看到上述所有三個分布都有相當長的尾部。尾部的某些值可能是合法的,而其他值可能是錯誤的數據輸入。無論如何,讓我們先保守下,只考慮fare_amount,total_amount和tip_amount少于$200的行程。我們還要求fare_amount,total_amount值大于$0。
          最后,在初步清理完所有數據之后,讓我們看看有多少出租車數據需要進行分析:
          還有超過11億次旅行!大量的數據可以使你深入了解出租車行程背后的信息。

          后記
          此外,作者還從出租車司機最大化利潤等角度利用Vaex進行分析數據??傊琕aex會幫你緩解可能面臨的一些數據挑戰(zhàn)的問題。
          有了 Vaex,你可以在短短幾秒內遍歷超過 10 億行數據,計算各種統(tǒng)計、聚合并產出信息圖表,這一切都能在你的筆記本電腦上完成。它免費且開源。
          如果你對探索本文中用到的數據集感興趣,可以直接在 S3 中配合 Vaex 使用它,請參閱完整的 Jupyter notebook 了解如何實現。
          Vaex 官方網站:https://vaex.io/??
          文檔:https://docs.vaex.io/?
          GitHub:https :?//github.com/vaexio/vaex?
          PyPi:https://pypi.python.org/pypi/vaex/
          習Python

          關注戀習Python,Python都好練
          好文章,我在看??
          瀏覽 63
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  午夜福利性爱视频 | 91 国产 爽 黄 在线 | 国产视频综合在线 | 婷婷免费 | 高清无码视频观看 |