<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Python八種數(shù)據(jù)導(dǎo)入方法,你掌握了嗎?

          共 7058字,需瀏覽 15分鐘

           ·

          2021-06-08 01:20

          數(shù)據(jù)分析過(guò)程中,需要對(duì)獲取到的數(shù)據(jù)進(jìn)行分析,往往第一步就是導(dǎo)入數(shù)據(jù)。導(dǎo)入數(shù)據(jù)有很多方式,不同的數(shù)據(jù)文件需要用到不同的導(dǎo)入方式,相同的文件也會(huì)有幾種不同的導(dǎo)入方式。下面總結(jié)幾種常用的文件導(dǎo)入方法。

          大多數(shù)情況下,會(huì)使用NumPyPandas來(lái)導(dǎo)入數(shù)據(jù),因此在開(kāi)始之前,先執(zhí)行:

          import numpy as np
          import pandas as pd

          兩種獲取help的方法

          很多時(shí)候?qū)σ恍┖瘮?shù)方法不是很了解,此時(shí)Python提供了一些幫助信息,以快速使用Python對(duì)象。

          • 使用Numpy中的info方法。
          np.info(np.ndarray.dtype)
          • Python內(nèi)置函數(shù)
          help(pd.read_csv)

          一、文本文件

          1、純文本文件

          filename = 'demo.txt'
          file = open(filename, mode='r'# 打開(kāi)文件進(jìn)行讀取
          text = file.read() # 讀取文件的內(nèi)容
          print(file.closed) # 檢查文件是否關(guān)閉
          file.close() # 關(guān)閉文件
          print(text)

          使用上下文管理器 -- with

          with open('demo.txt''r'as file:
              print(file.readline()) # 一行一行讀取
              print(file.readline())
              print(file.readline())

          2、表格數(shù)據(jù):Flat文件

          使用 Numpy 讀取 Flat 文件

          Numpy 內(nèi)置函數(shù)處理數(shù)據(jù)的速度是 C 語(yǔ)言級(jí)別的。

          Flat 文件是一種包含沒(méi)有相對(duì)關(guān)系結(jié)構(gòu)的記錄的文件。(支持Excel、CSV和Tab分割符文件 )

          • 具有一種數(shù)據(jù)類(lèi)型的文件

          用于分隔值的字符串跳過(guò)前兩行。
          在第一列和第三列讀取結(jié)果數(shù)組的類(lèi)型。

          filename = 'mnist.txt'
          data = np.loadtxt(filename,
                            delimiter=',',
                            skiprows=2,
                            usecols=[0,2],
                            dtype=str)
          • 具有混合數(shù)據(jù)類(lèi)型的文件

          兩個(gè)硬的要求:

          • 跳過(guò)表頭信息
          • 區(qū)分橫縱坐標(biāo)
          filename = 'titanic.csv'
          data = np.genfromtxt(filename,
                               delimiter=',',
                               names=True,
                               dtype=None)


          使用 Pandas 讀取Flat文件

          filename = 'demo.csv' 
          data = pd.read_csv(filename, 
                             nrows=5,        # 要讀取的文件的行數(shù)
                             header=None,    # 作為列名的行號(hào)
                             sep='\t',       # 分隔符使用
                             comment='#',    # 分隔注釋的字符
                             na_values=[""]) # 可以識(shí)別為NA/NaN的字符串

          二、Excel 電子表格

          Pandas中的ExcelFile()pandas中對(duì)excel表格文件進(jìn)行讀取相關(guān)操作非常方便快捷的類(lèi),尤其是在對(duì)含有多個(gè)sheetexcel文件進(jìn)行操控時(shí)非常方便。

          file = 'demo.xlsx'
          data = pd.ExcelFile(file)
          df_sheet2 = data.parse(sheet_name='1960-1966',
                                 skiprows=[0],
                                 names=['Country',
                                        'AAM: War(2002)'])
          df_sheet1 = pd.read_excel(data,
                                    sheet_name=0,
                                    parse_cols=[0],
                                   skiprows=[0],
                                   names=['Country'])

          使用sheet_names屬性獲取要讀取工作表的名稱(chēng)。

          data.sheet_names

          三、SAS 文件

          SAS (Statistical Analysis System)是一個(gè)模塊化、集成化的大型應(yīng)用軟件系統(tǒng)。其保存的文件即sas是統(tǒng)計(jì)分析文件。

          from sas7bdat import SAS7BDAT
          with SAS7BDAT('demo.sas7bdat'as file:
            df_sas = file.to_data_frame()

          四、Stata 文件

          Stata 是一套提供其使用者數(shù)據(jù)分析、數(shù)據(jù)管理以及繪制專(zhuān)業(yè)圖表的完整及整合性統(tǒng)計(jì)軟件。其保存的文件后綴名為.dta的Stata文件。

          data = pd.read_stata('demo.dta')

          五、Pickled 文件

          python中幾乎所有的數(shù)據(jù)類(lèi)型(列表,字典,集合,類(lèi)等)都可以用pickle來(lái)序列化。python的pickle模塊實(shí)現(xiàn)了基本的數(shù)據(jù)序列和反序列化。通過(guò)pickle模塊的序列化操作我們能夠?qū)⒊绦蛑羞\(yùn)行的對(duì)象信息保存到文件中去,永久存儲(chǔ);通過(guò)pickle模塊的反序列化操作,我們能夠從文件中創(chuàng)建上一次程序保存的對(duì)象。

          import pickle
          with open('pickled_demo.pkl''rb'as file:
             pickled_data = pickle.load(file) # 下載被打開(kāi)被讀取到的數(shù)據(jù)

          與其相對(duì)應(yīng)的操作是寫(xiě)入方法pickle.dump()

          六、HDF5 文件

          HDF5文件是一種常見(jiàn)的跨平臺(tái)數(shù)據(jù)儲(chǔ)存文件,可以存儲(chǔ)不同類(lèi)型的圖像和數(shù)碼數(shù)據(jù),并且可以在不同類(lèi)型的機(jī)器上傳輸,同時(shí)還有統(tǒng)一處理這種文件格式的函數(shù)庫(kù)。

          HDF5 文件一般以 .h5 或者 .hdf5 作為后綴名,需要專(zhuān)門(mén)的軟件才能打開(kāi)預(yù)覽文件的內(nèi)容。

          import h5py
          filename = 'H-H1_LOSC_4_v1-815411200-4096.hdf5'
          data = h5py.File(filename, 'r')

          七、Matlab 文件

          其由matlab將其工作區(qū)間里的數(shù)據(jù)存儲(chǔ)的后綴為.mat的文件。

          import scipy.io
          filename = 'workspace.mat'
          mat = scipy.io.loadmat(filename)

          八、關(guān)系型數(shù)據(jù)庫(kù)

          from sqlalchemy import create_engine
          engine = create_engine('sqlite://Northwind.sqlite')

          使用table_names()方法獲取一個(gè)表名列表

          table_names = engine.table_names()

          1、直接查詢(xún)關(guān)系型數(shù)據(jù)庫(kù)

          con = engine.connect()
          rs = con.execute("SELECT * FROM Orders")
          df = pd.DataFrame(rs.fetchall())
          df.columns = rs.keys()
          con.close()

          使用上下文管理器 -- with

          with engine.connect() as con:
              rs = con.execute("SELECT OrderID FROM Orders")
             df = pd.DataFrame(rs.fetchmany(size=5))
             df.columns = rs.keys()

          2、使用Pandas查詢(xún)關(guān)系型數(shù)據(jù)庫(kù)

          df = pd.read_sql_query("SELECT * FROM Orders", engine)

          數(shù)據(jù)探索

          數(shù)據(jù)導(dǎo)入后會(huì)對(duì)數(shù)據(jù)進(jìn)行初步探索,如查看數(shù)據(jù)類(lèi)型,數(shù)據(jù)大小、長(zhǎng)度等一些基本信息。這里簡(jiǎn)單總結(jié)一些。

          1、NumPy Arrays

          data_array.dtype  # 數(shù)組元素的數(shù)據(jù)類(lèi)型
          data_array.shape  # 陣列尺寸
          len(data_array)   # 數(shù)組的長(zhǎng)度

          2、Pandas DataFrames

          df.head()  # 返回DataFrames前幾行(默認(rèn)5行)
          df.tail()  # 返回DataFrames最后幾行(默認(rèn)5行)
          df.index   # 返回DataFrames索引
          df.columns # 返回DataFrames列名
          df.info()  # 返回DataFrames基本信息
          data_array = data.values # 將DataFrames轉(zhuǎn)換為NumPy數(shù)組

          推薦閱讀


          Pandas處理數(shù)據(jù)太慢,來(lái)試試Polars吧!
          懶人必備!只需一行代碼,就能導(dǎo)入所有的Python庫(kù)
          絕!關(guān)于pip的15個(gè)使用小技巧
          介紹10個(gè)常用的Python內(nèi)置函數(shù),99.99%的人都在用!
          可能是全網(wǎng)最完整的 Python 操作 Excel庫(kù)總結(jié)!

          瀏覽 53
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  天天爱天天射天天爽 | 最新一区二区在线 | 色拍拍最新网址 | 俺来操| 国产免费一区二区三区四区午夜视频 |