<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          實用的 Pandas 技巧,估計 80% 的人不知道

          共 3111字,需瀏覽 7分鐘

           ·

          2021-01-14 11:06



          之前跟大家分享了在 pandas 的 apply 函數(shù)中用?pd.Series?功能來拆分文本,文章鏈接如下:

          數(shù)據(jù)來源于 akshare,由于 akshare 版本的更新,部分接口發(fā)生變化,致使上面文章里的代碼運行會出錯。因此今天也會更新下代碼。

          此外,在上面文章里應(yīng)用到了 apply 使用自定義函數(shù)的功能,之前文章里,自定義函數(shù)只有一個參數(shù)。有同學(xué)提了一個問題,如果自定義函數(shù)有兩個參數(shù),該怎么辦?

          嗯嗯嗯,這是一個好問題!

          今天,Lemon也會分享下自定義函數(shù)有兩個參數(shù)的情況,該如何解決。

          接下來,還是先更新此前文章的代碼。

          01 使用apply拆分文本

          Pandas 中 apply 函數(shù),應(yīng)用廣泛,今天要跟大家分享一個使用的技巧,使用 apply 將 dataframe 中內(nèi)容為 list 的列拆分為多列。

          拆分前的數(shù)據(jù)情況,如下圖紅色標(biāo)注所示:

          拆分后,如下圖所示:

          這個案例中,Lemon 使用的數(shù)據(jù)來自?akshare?,在開始前,引入相關(guān) package :

          # -*- coding: utf-8 -*-
          """
          @Author: Lemon
          @出品:Python數(shù)據(jù)之道
          @Homepage: liyangbit.com
          """


          import numpy as np
          import pandas as pd
          import akshare as ak

          Lemon 使用的幾個 Python 庫的版本信息如下:

          print('numpy版本:{}'.format(np.__version__))
          print('pandas版本:{}'.format(pd.__version__))
          print('akshare版本:{}'.format(ak.__version__))

          # numpy版本:1.18.1
          # pandas版本:1.0.3
          # akshare版本:0.7.53

          如果代碼運行出現(xiàn)問題,請先檢查下這幾個Python庫的版本是否與上面的一致

          先從 akshare 獲取需要的數(shù)據(jù),分為兩步,第一步是獲取基金代碼的列表,如下:

          df = ak.fund_em_fund_name().head(20).tail(5)
          df = df[['基金代碼','基金簡稱']]
          print(df)

          第二步是獲取基金凈值數(shù)據(jù)和凈值日期,通過一個自定義函數(shù)來獲取,自定義函數(shù)如下:

          # 自定義函數(shù)只有一個參數(shù)的情形
          # 獲取基金單位凈值以及凈值日期
          def get_mutual_fund(code):
          df = ak.fund_em_open_fund_info(fund=code, indicator="單位凈值走勢")
          df = df[['凈值日期', '單位凈值','日增長率']]
          # df.columns = ['凈值日期', '單位凈值', 'equityReturn', 'unitMoney']
          df['凈值日期'] = pd.to_datetime(df['凈值日期'])
          df = df.sort_values('凈值日期',ascending=False)
          unit_equity = df.head(1)['單位凈值'].values[0]
          date_latest = df.head(1)['凈值日期'].values[0]
          return [unit_equity, date_latest]

          對于這個自定義函數(shù),在 pandas 使用 apply 來應(yīng)用自定義函數(shù),這是使用 apply 的一種常用的方法,如下:

          # 獲取基金最新的單位凈值和凈值日期
          df['tmp'] = df['基金代碼'].apply(get_mutual_fund)
          print(df)

          獲取的數(shù)據(jù)截圖如下:

          文本拆分

          上圖中的?tmp?列,就是我們這次需要進(jìn)行處理的對象。

          處理方法可以有多種,這里 Lemon 使用 pandas 中的 apply 來處理,相對來說,也是比較便捷的方式。

          在 apply 函數(shù)中,使用?pd.Series?就可以達(dá)到我們的目的。

          # 將單位凈值和凈值日期單獨成列
          df[['最新單位凈值','凈值日期']] = df['tmp'].apply(pd.Series)
          df = df.drop('tmp',axis=1)
          print(df)

          結(jié)果如下:

          02 有兩個參數(shù)的函數(shù)

          pandas 中的 apply 函數(shù)應(yīng)用自定義函數(shù)時,通常情況下,都是沒有參數(shù)或者一個參數(shù),那么如果有兩個參數(shù),是否還可以使用apply函數(shù)呢?

          答案是可以的。

          這里我們也來探討下。

          還是以上面的案例為基礎(chǔ)雛形,同樣的,先從 akshare 獲取數(shù)據(jù)

          df1 = ak.fund_em_fund_name().head(20).tail(5)
          df1 = df1[['基金代碼','基金簡稱']]

          接下來,自定義一個帶有兩個參數(shù)的函數(shù),如下:

          # 自定義函數(shù)有兩個參數(shù)的情形
          # 獲取年度年底基金凈值數(shù)據(jù)
          def get_mutual_fund_year(code,year):
          year = str(year)
          df = ak.fund_em_open_fund_info(fund=code, indicator="單位凈值走勢")
          df = df[['凈值日期', '單位凈值', '日增長率']]
          # df.columns = ['凈值日期', '單位凈值', 'equityReturn', 'unitMoney']
          df['凈值日期'] = pd.to_datetime(df['凈值日期'])
          df = df.sort_values('凈值日期',ascending=False)
          df = df.set_index('凈值日期')[year]
          df = df.reset_index()
          unit_equity = df.head(1)['單位凈值'].values[0]
          date = df.head(1)['凈值日期'].values[0]
          return [unit_equity,date]

          帶有兩個參數(shù)的自定義函數(shù)

          然后,使用 apply 來應(yīng)用上面這個帶兩個參數(shù)的自定義函數(shù),核心要點就是嵌套使用?lambda?函數(shù),固定其中一個參數(shù),具體如下

          df1['tmp'] = df1['基金代碼'].apply(lambda code: get_mutual_fund_year(code, 2019))

          后續(xù),依舊是文本拆分,實現(xiàn)代碼如下:

          # 將單位凈值和凈值日期單獨成列
          df1[['最新單位凈值','凈值日期']] = df1['tmp'].apply(pd.Series)
          df1 = df1.drop('tmp',axis=1)
          print(df1)

          應(yīng)用場景

          有同學(xué)可能會問,使用兩個參數(shù)的自定義函數(shù),有什么用呢?

          這里,Lemon 也分享一個應(yīng)用場景:

          根據(jù)上面的基礎(chǔ)雛形數(shù)據(jù),針對具體的年度,建立一個下拉列表,選擇不同的年份時,返回不同年份的結(jié)果,包括文本數(shù)據(jù)、表格數(shù)據(jù)以及圖表等。

          效果如下:

          涉及到一些個人的數(shù)據(jù),就沒有完整展示啦~~

          其他的應(yīng)用場景,歡迎大家來分享!

          瀏覽 42
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美成人A片AAA片在线播放 | 亲子伦一区二区三区 | 日韩无码一级片 | 亚洲高清无码在线视频 | 尤物视频最新网址 |