jupyter平臺最強插件沒有之一

點擊上方"藍字"關(guān)注我們
記錄? ?分享? ?成長
?本文示例文件已上傳至我的
?Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes
1 簡介
jupyter lab是我最喜歡的編輯器,在過往的文章中也給大家介紹過很多相關(guān)資源和實用插件,但本文要給大家介紹的jupyter lab插件elyra,絕對是我使用過的最強大的jupyter lab插件沒有之一,因為它的核心功能就是幫助我們解決數(shù)據(jù)分析工作中非常重要的問題——「搭建工作流」。

2 利用elyra搭建工作流
在安裝elyra插件集之前,請確保你的jupyter lab版本在2.0及以上,并且已經(jīng)安裝好了nodejs也就是所有jupyter lab拓展插件都需要的依賴。
不像常規(guī)的jupyter lab插件的安裝方法,我們執(zhí)行下列命令即可安裝elyra下集成的多個插件:
pip?install?--upgrade?elyra?&&?jupyter?lab?build
安裝完之后,你的jupyter lab操作界面外觀會發(fā)生一些變化,我們先記住在安裝elyra之前我們的jupyter lab界面長啥樣(我使用的主題感興趣的朋友可以通過jupyter labextension install jupyterlab-tailwind-theme來安裝):

而在安裝完成重啟jupyter lab之后,除了左上角的jupyterlogo變化了之外,還新增了圖中我用紅框框選出來的地方:

接下來我們就來介紹如何利用elyra交互式地「搭建工作流」。
elyra賦予了我們通過交互的方式將若干個ipynb文件組織成工作流的能力,為了方便演示,這里我們創(chuàng)建幾個帶有簡單流程代碼的ipynb文件:




接著我們在「Launcher」頁面點擊Pipeline Editor打開用來交互式編輯「notebook流水線」的界面:


直接將側(cè)邊欄中對應的step1.ipynb文件拖拽進來:

點擊流水線界面中ipynb文件對應節(jié)點右側(cè)的三個圓點,可以打開更多功能選項:

因為我們是本地環(huán)境,所以這里只需要在properties下必填參數(shù)Runtime Image中隨便選一個就行:

保存之后,就完成了本地環(huán)境下單個節(jié)點的必要參數(shù)設置,同樣的將其他ipynb文件拖拽進來,各自配置好必要參數(shù)再如圖13所示將各節(jié)點聯(lián)結(jié)起來:

這樣我們的流水線就搭建好了,是不是非常滴好玩~,接著點擊左上角的運行按鈕,輸入流水線名稱后即可開始運行我們的工作流:

工作流執(zhí)行成功之后也會有提示:

如果工作流執(zhí)行到某個節(jié)點發(fā)生程序錯誤,也會有非常人性化的提示:

對應出錯的ipynb錯誤代碼塊上方,elyra也會幫我們創(chuàng)建記錄錯誤信息的markdown單元格:

最好用的是,配合魔術(shù)命令%store,我們就可以跨notebook傳遞全局變量,而不需要再往外寫出先前節(jié)點的結(jié)果文件:
利用%store 變量名將某個變量轉(zhuǎn)化為跨kernel的全局變量:

利用%store -r 變量名將跨kernel全局變量中的指定變量加載到當前kernel中:

而除了「搭建工作流」這個核心功能外,elyra還有很多其他的實用功能,感興趣的朋友可以前往官方文檔(https://elyra.readthedocs.io/en/latest/)自行閱讀學習。

以上就是本文的全部內(nèi)容,歡迎在評論區(qū)與我進行討論~

加入我們的知識星球【Python大數(shù)據(jù)分析】
愛上數(shù)據(jù)分析!
Vaex :突破pandas,快速分析100GB大數(shù)據(jù)集
Python大數(shù)據(jù)分析
data creates?value
掃碼關(guān)注我們

