大香蕉三级在线视频,日韩人妻无码中文字幕,97自拍超碰,俺也去最新网址,青青草免费在线公开视频播放,污污污视频网站,国产精品卡一卡二卡三卡4在线,中文字幕AV在线播放


↑ 關(guān)注 + 星標(biāo) ，每天學(xué)Python新技能
后臺(tái)回復(fù)【大禮包】送你Python自學(xué)大禮包

人生苦短，快學(xué)Python！

python 有自己的多進(jìn)包 multiprocessing 去實(shí)現(xiàn)并行計(jì)算，但在Pandas處理數(shù)據(jù)中，使用 multiprocessing 并不好使，只聽見風(fēng)扇轉(zhuǎn)啊轉(zhuǎn)，就不見運(yùn)行完畢。為了提高一點(diǎn)數(shù)據(jù)清洗的速度，找到一個(gè)Pandas多進(jìn)程的方法，pandarallel 庫，做了一下測(cè)試。

小數(shù)據(jù)集（先試過了1w）可能多進(jìn)程還沒單進(jìn)程快，因?yàn)檫M(jìn)程開啟關(guān)閉也要一點(diǎn)時(shí)間。于是我弄了 100w 數(shù)據(jù)來測(cè)試：

利用以上數(shù)據(jù)做以下處理：

剔除 titile，comment 兩列文本中的表情符號(hào)
title，comment 兩列做一個(gè)分詞處理，覆蓋原來的列

單進(jìn)程

在交互式環(huán)境中輸入如下命令：

'''單進(jìn)程'''
import jieba
import re
import time
import pandas as pd

def filter_emoji(desstr, restr=''):
    if (desstr is None) or str(desstr) == 'nan':
        return ''
    # 過濾表情
    try:
        co = re.compile(u'[\U00010000-\U0010ffff]')
    except:
        co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')
    return co.sub(restr, desstr)

if __name__ == '__main__':
    start = time.time()
    data = pd.read_csv('feike.csv',encoding='gbk')
    data['comment'] = data['comment'].map(filter_emoji)
    data['title'] = data['title'].map(filter_emoji)
    data['comment'] = data['comment'].map(lambda s: jieba.lcut(s))
    data['title'] = data['title'].map(lambda s: jieba.lcut(s))
    end = time.time()
    print(end - start)

輸出：

在單進(jìn)程的情況下，可以看到用時(shí) 294s，接近 5min 了。

多進(jìn)程

multiprocessing多進(jìn)程寫法，這種寫法網(wǎng)上一搜一大把，代碼沒有錯(cuò)，多進(jìn)程任務(wù)可以執(zhí)行。

例如 run_task 函數(shù)中的任務(wù)是爬蟲代碼時(shí)，沒有什么問題，但如果是數(shù)據(jù)清洗的代碼，我測(cè)試就很久都跑不出來：

接下來換成Pandas多進(jìn)程 pandarallel 的寫法就可以：

'''pandarallel 多進(jìn)程'''
import jieba
import re
import time
import pandas as pd
from pandarallel import pandarallel
pandarallel.initialize(nb_workers=4)

def filter_emoji(desstr, restr=''):
    if (desstr is None) or str(desstr) == 'nan':
        return ''
    # 過濾表情
    try:
        co = re.compile(u'[\U00010000-\U0010ffff]')
    except:
        co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')
    return co.sub(restr, desstr)

if __name__ == '__main__':
    start = time.time()
    data = data = pd.read_csv('feike.csv',encoding='gbk') 
    data['comment'] = data['comment'].parallel_apply(filter_emoji)
    data['title'] = data['title'].parallel_apply(filter_emoji)
    data['comment'] = data['comment'].parallel_apply(lambda s: jieba.lcut(s))
    data['title'] = data['title'].parallel_apply(lambda s: jieba.lcut(s))
    end = time.time()
    print(end - start)

輸出：

可以看到改寫后時(shí)間用時(shí) 154s（2min30s），比單進(jìn)程快了一倍。關(guān)于 pandarallel 可以查看文檔：https://github.com/nalepae/pandarallel/tree/v1.5.2

對(duì)應(yīng)的多進(jìn)程寫法函數(shù)對(duì)照表，Pandas中的 apply，applymap，map 三個(gè)函數(shù)的區(qū)別，寫對(duì)應(yīng)的代碼：



只需一個(gè)文件，Python 實(shí)現(xiàn)迷你 Web 框架！

Pandas 多進(jìn)程處理數(shù)據(jù)，速度快了不少！

↑ 關(guān)注 + 星標(biāo) ，每天學(xué)Python新技能

后臺(tái)回復(fù)【大禮包】送你Python自學(xué)大禮包

單進(jìn)程

多進(jìn)程

Pandas 多進(jìn)程處理數(shù)據(jù)，速度快了不少！