Python中最簡單易用的并行加速技巧

添加微信號"CNFeffery"加入技術(shù)交流群
?本文示例代碼及文件已上傳至我的
?Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes
1 簡介
我們在日常使用Python進(jìn)行各種數(shù)據(jù)計(jì)算處理任務(wù)時,若想要獲得明顯的計(jì)算加速效果,最簡單明了的方式就是想辦法將默認(rèn)運(yùn)行在單個進(jìn)程上的任務(wù),擴(kuò)展到使用多進(jìn)程或多線程的方式執(zhí)行。
而對于我們這些從事數(shù)據(jù)分析工作的人員而言,以最簡單的方式實(shí)現(xiàn)等價的加速運(yùn)算的效果尤為重要,從而避免將時間過多花費(fèi)在編寫程序上。而今天的文章費(fèi)老師我就來帶大家學(xué)習(xí)如何利用joblib這個非常簡單易用的庫中的相關(guān)功能,來快速實(shí)現(xiàn)并行計(jì)算加速效果。

2 使用joblib進(jìn)行并行計(jì)算
作為一個被廣泛使用的第三方Python庫(譬如scikit-learn項(xiàng)框架中就大量使用joblib進(jìn)行眾多機(jī)器學(xué)習(xí)算法的并行加速),我們可以使用pip install joblib對其進(jìn)行安裝,安裝完成后,下面我們來學(xué)習(xí)一下joblib中有關(guān)并行運(yùn)算的常用方法:
2.1 使用Parallel與delayed進(jìn)行并行加速
joblib中實(shí)現(xiàn)并行計(jì)算只需要使用到其Parallel和delayed方法即可,使用起來非常簡單方便,下面我們直接以一個小例子來演示:
joblib實(shí)現(xiàn)并行運(yùn)算的思想是將一組通過循環(huán)產(chǎn)生的串行計(jì)算子任務(wù),以多進(jìn)程或多線程的方式進(jìn)行調(diào)度,而我們針對自定義的運(yùn)算任務(wù)需要做的僅僅是將它們封裝為函數(shù)的形式即可,譬如:
import?time
def?task_demo1():
????
????time.sleep(1)
????
????return?time.time()
接著只需要像下面的形式一樣,為Parallel()設(shè)置相關(guān)參數(shù)后,銜接循環(huán)創(chuàng)建子任務(wù)的列表推導(dǎo)過程,其中利用delayed()包裹自定義任務(wù)函數(shù),再銜接()傳遞任務(wù)函數(shù)所需的參數(shù)即可,其中n_jobs參數(shù)用于設(shè)置并行任務(wù)同時執(zhí)行的worker數(shù)量,因此在這個例子中可以看到進(jìn)度條是按照4個一組遞增的,可以看到最終時間開銷也達(dá)到了并行加速效果:

其中可以根據(jù)計(jì)算任務(wù)以及機(jī)器CPU核心數(shù)具體情況為Parallel()調(diào)節(jié)參數(shù),核心參數(shù)有:
backend:用于設(shè)置并行方式,其中多進(jìn)程方式有 'loky'(更穩(wěn)定)和'multiprocessing'兩種可選項(xiàng),多線程有'threading'一種選項(xiàng)。默認(rèn)為'loky'n_jobs:用于設(shè)置并行任務(wù)同時執(zhí)行的worker數(shù)量,當(dāng)并行方式為多進(jìn)程時, n_jobs最多可設(shè)置為機(jī)器CPU邏輯核心數(shù)量,超出亦等價于開啟全部核心,你也可以設(shè)置為-1來快捷開啟全部邏輯核心,若你不希望全部CPU資源均被并行任務(wù)占用,則可以設(shè)置更小的負(fù)數(shù)來保留適當(dāng)?shù)目臻e核心,譬如設(shè)置為-2則開啟全部核心-1個核心,設(shè)置為-3則開啟全部核心-2個核心
譬如下面的例子,在我這臺邏輯核心數(shù)為8的機(jī)器上,保留兩個核心進(jìn)行并行計(jì)算:

關(guān)于并行方式的選擇上,由于Python中多線程時全局解釋器鎖的限制,如果你的任務(wù)是計(jì)算密集型,則推薦使用默認(rèn)的多進(jìn)程方式加速,如果你的任務(wù)是IO密集型譬如文件讀寫、網(wǎng)絡(luò)請求等,則多線程是更好的方式且可以將n_jobs設(shè)置的很大,舉個簡單的例子,可以看到,通過多線程并行,我們在5秒的時間里完成了1000次請求,遠(yuǎn)快于單線程17秒請求100次的成績(此例僅供參考,大家在學(xué)習(xí)嘗試時請不要過于頻繁訪問他人的網(wǎng)站):

你可以根據(jù)自己實(shí)際任務(wù)的不同,好好利用joblib來加速你的日常工作。
以上就是本文的全部內(nèi)容,歡迎在評論區(qū)與我進(jìn)行討論~

加入知識星球【我們談?wù)摂?shù)據(jù)科學(xué)】
500+小伙伴一起學(xué)習(xí)!
·?推薦閱讀?·
盤點(diǎn)2021最佳數(shù)據(jù)可視化作品
