前沿技術(shù) | 自動機(jī)器學(xué)習(xí)綜述
點(diǎn)擊下方卡片,關(guān)注“新機(jī)器視覺”公眾號
視覺/圖像重磅干貨,第一時間送達(dá)
來源:小金博士公眾號 本文約5000字,建議閱讀10分鐘 本文將探索目前可用于自動化過程的框架,以幫助讀者了解在自動化機(jī)器學(xué)習(xí)方面可能出現(xiàn)的情況。
自動機(jī)器學(xué)習(xí)綜述
自動化工程特點(diǎn) 自動的模型選擇和超參數(shù)調(diào)優(yōu) 自動神經(jīng)網(wǎng)絡(luò)架構(gòu)選擇(NAS) 自動部署

自動特征工程
“客戶下單的頻率” “上次購買后的天數(shù)或小時數(shù)” “顧客通常購買的商品類型”
框架
「數(shù)據(jù)科學(xué)機(jī)器」是由麻省理工學(xué)院的Max Kanter和Kalyan Verramachaneni進(jìn)行的一個研究項(xiàng)目。他們的研究論文概述了深度特征合成算法的內(nèi)部工作原理,該算法使用原語的概念來為實(shí)體(數(shù)據(jù)中唯一的觀察)和實(shí)體之間的關(guān)系生成特征。基本類型本質(zhì)上是應(yīng)用于數(shù)據(jù)的數(shù)學(xué)函數(shù)(sum、mean、max、min、average等),這些函數(shù)返回不區(qū)分大小寫的數(shù)字結(jié)果,并且可以由人類解釋為表示不同的東西。在我們的電子商務(wù)示例中,sum可用于計算針對特定客戶的所有訂單所花費(fèi)的美元金額。以飛機(jī)票務(wù)平臺為例,它可用于計算客戶已購買的當(dāng)年機(jī)票的數(shù)量。不同的用例但是相同的數(shù)學(xué)原語。這是在Featuretools Python庫下開源的,可以嘗試下載并試用它。Featuretools是由Feature Labs開發(fā)的,它將數(shù)據(jù)科學(xué)機(jī)器研究論文中的工作進(jìn)行了操作化。Feature Labs是數(shù)據(jù)科學(xué)機(jī)器的創(chuàng)造者M(jìn)ax和Kalyan創(chuàng)建的一家公司。 DataRobot使用一個稱為模型藍(lán)圖的概念來實(shí)現(xiàn)自動化特征工程,該概念在機(jī)器學(xué)習(xí)管道中堆疊了不同的預(yù)處理步驟。特性工程部分不像在Featuretools中那樣利用原語的概念。然而,它確實(shí)對數(shù)據(jù)應(yīng)用了一些標(biāo)準(zhǔn)的預(yù)處理技術(shù)(基于所使用的ML算法,例如隨機(jī)森林、邏輯回歸等),如單熱編碼、輸入、類別計數(shù)、在自由文本列中出現(xiàn)的n個字符標(biāo)記、比率等。 H2O的無人駕駛?cè)斯ぶ悄苁且粋€自動機(jī)器學(xué)習(xí)的平臺。它可以用于自動化特性工程、模型驗(yàn)證、模型調(diào)優(yōu)、模型選擇和模型部署。在這一部分,我們將只討論無人駕駛AI的自動特性工程部分。無人駕駛智能支持一系列的所謂的“transformers”,可以應(yīng)用于一個數(shù)據(jù)集。 tsfresh是一個用于從時間序列數(shù)據(jù)中計算和提取特征的Python庫。它提取了中位數(shù)、均值、樣本熵、分位數(shù)、偏度、方差、值計數(shù)、峰數(shù)等特征。它沒有泛化所有類型的數(shù)據(jù)集。它更針對于時間序列數(shù)據(jù)。但是,它可以與上面提到的其他工具一起使用。
自動選擇模型和超參數(shù)調(diào)整
auto-sklearn是由Mathias Feurer, Aaron Klein, Katharina Eggensperger等人創(chuàng)建的Python庫。這個庫主要處理機(jī)器學(xué)習(xí)中的兩個核心過程:從分類和回歸算法的廣泛列表中選擇算法和超參數(shù)優(yōu)化。這個庫不執(zhí)行特性工程,因?yàn)閿?shù)據(jù)集特性是通過組合使用數(shù)學(xué)原語(如Featuretools)來創(chuàng)建新特性的。Auto-sklearn類似于Auto-WEKA和Hyperopt-sklearn。下面是auto-sklearn可以從決策樹、高斯樸素貝葉斯、梯度增強(qiáng)、kNN、LDA、SVM、隨機(jī)森林和線性分類器(SGD)中選擇的一些分類器。在預(yù)處理步驟上,它支持以下幾個方面:內(nèi)核主成分分析,選擇百分位數(shù),選擇率,一熱編碼,歸位,平衡,縮放,特征聚集,等等。同樣,從通過組合現(xiàn)有特性來豐富數(shù)據(jù)集的角度來看,這些都不能理解為特性工程步驟。 有些算法會自動地通過一系列不同的變量配置來優(yōu)化某些指標(biāo)。這類似于尋找可變的重要性。通常,通過理解變量存在的上下文和域,人們可以很好地完成這項(xiàng)工作。例如:“夏季銷量增加”或“最昂貴的商品來自西倫敦居民”。這些變量可以由人類領(lǐng)域?qū)<易匀坏匕凳境鰜?。然而,還有另一種方法來理解一個變量的重要性,那就是看這個變量在統(tǒng)計上有多重要。這是由決策樹(使用所謂的基尼指數(shù)或信息增益)等算法自動完成的。隨機(jī)森林也這樣做,但與決策樹不同,隨機(jī)森林運(yùn)行多個決策樹,以創(chuàng)建引入了隨機(jī)性的多個模型。 對于時間序列數(shù)據(jù),我們傾向于討論汽車。R中的arima包使用AIC作為優(yōu)化指標(biāo)。自動生成的算法。arima在后臺使用Hyndman-Khandakar來實(shí)現(xiàn)這一點(diǎn),在下面的OText書中有詳細(xì)的解釋。 如前所述,H2O無人駕駛AI可以用于自動化特征工程。它還可以用來自動訓(xùn)練多個算法在同一時間。這是由h2o實(shí)現(xiàn)的。automl包。它可以自動訓(xùn)練您的數(shù)據(jù)使用多種不同的算法與不同的參數(shù),如GLM, Xgboost隨機(jī)森林,深度學(xué)習(xí),集成模型,等等。 DataRobot還可以用于同時自動訓(xùn)練多個算法。這是通過使用經(jīng)DataRobot科學(xué)家調(diào)整過的模型實(shí)現(xiàn)的,因此能夠使用預(yù)先設(shè)置的超參數(shù)運(yùn)行幾十個模型。它最終會選擇一個準(zhǔn)確率最高的算法。它還允許數(shù)據(jù)科學(xué)家手動干預(yù)和調(diào)整模型,以提高準(zhǔn)確性。 微軟在9月宣布了自己的自動化機(jī)器學(xué)習(xí)工具包。事實(shí)上,該產(chǎn)品本身被稱為automatic ML,屬于Azure機(jī)器學(xué)習(xí)產(chǎn)品。微軟的自動ML利用協(xié)同過濾和貝葉斯優(yōu)化來搜索機(jī)器學(xué)習(xí)的空間。Microsoft指的是數(shù)據(jù)預(yù)處理步驟、學(xué)習(xí)算法和超參數(shù)配置的組合。在上面討論的許多模型選擇技術(shù)中,ML學(xué)習(xí)過程中自動化的典型部分是超參數(shù)設(shè)置。微軟的研究人員發(fā)現(xiàn),只調(diào)優(yōu)超參數(shù)有時可以與隨機(jī)搜索相媲美,因此理想情況下,整個端到端流程應(yīng)該是自動化的。

谷歌也在這個領(lǐng)域進(jìn)行了創(chuàng)新,推出了谷歌云自動化。在Cloud AutoML谷歌中,通過只從用戶獲取標(biāo)記數(shù)據(jù)并自動構(gòu)建和訓(xùn)練算法,數(shù)據(jù)科學(xué)家能夠訓(xùn)練計算機(jī)視覺、自然語言處理和翻譯的模型。

TPOT是用于自動化機(jī)器學(xué)習(xí)的Python庫,它利用遺傳編程優(yōu)化機(jī)器學(xué)習(xí)管道。ML管道包括數(shù)據(jù)清理、特征選擇、特征預(yù)處理、特征構(gòu)建、模型選擇和參數(shù)優(yōu)化。TPOT庫利用了scikit-learn中可用的機(jī)器學(xué)習(xí)庫。

Amazon Sage Maker提供了建模、培訓(xùn)和部署的能力。它可以自動調(diào)整算法,為了做到這一點(diǎn),它使用了一種叫做貝葉斯優(yōu)化的技術(shù) HyperDrive是微軟的產(chǎn)品,是為全面的超參數(shù)探索而建立的。超參數(shù)搜索空間可以用隨機(jī)搜索、網(wǎng)格搜索或貝葉斯優(yōu)化來覆蓋。它實(shí)現(xiàn)了一個調(diào)度器列表,您可以選擇通過聯(lián)合優(yōu)化質(zhì)量和成本來提前終止探索階段。
神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇
NASNet-學(xué)習(xí)可擴(kuò)展的圖像識別的可轉(zhuǎn)移的體系結(jié)構(gòu)

AmoebaNet-基于AmoebaNet正則化演化的圖像分類器體系結(jié)構(gòu)搜索 ENAS-高效的神經(jīng)結(jié)構(gòu)搜索
自動部署
Seldon-提供了一些方法來包裝用R、Python、Java和NodeJS構(gòu)建的模型,并將其部署到Kubernetes集群中。它提供與kubeflow、IBM用于深度學(xué)習(xí)的fabric、NVIDIA TensorRT、DL推理服務(wù)器、Tensorflow服務(wù)等的集成。 Redis-ML-是Redis(內(nèi)存中分布式鍵值數(shù)據(jù)庫)中的一個模塊,它允許將模型部署到生產(chǎn)環(huán)境中。它目前只支持以下算法:隨機(jī)森林(分類和回歸)、線性回歸和邏輯回歸。 Apache MXNet的模型服務(wù)器用于服務(wù)從MXNet或Open Neural Network Exchange (ONNX)導(dǎo)出的深度學(xué)習(xí)模型。 Microsoft機(jī)器學(xué)習(xí)服務(wù)允許您將模型作為web服務(wù)部署在可伸縮的Kubernetes集群上,并且可以將模型作為web服務(wù)調(diào)用。 可以使用Amazon SageMaker將模型部署到HTTPS端點(diǎn),應(yīng)用程序利用該端點(diǎn)對新數(shù)據(jù)觀察進(jìn)行推斷/預(yù)測。 谷歌云ML還支持模型部署和通過對托管模型的web服務(wù)的HTTP調(diào)用進(jìn)行推斷。默認(rèn)情況下,它將模型的大小限制為250 MB。 H2O通過利用Java mojo(優(yōu)化的模型對象)的概念來支持模型的部署。mojo支持自動、深度學(xué)習(xí)、DRF、GBM、GLM、GLRM、K-Means、堆棧集成、支持向量機(jī)、Word2vec和XGBoost模型。它與Java類型環(huán)境高度集成。對于非java編程模型(如R或Python),可以將模型保存為序列化對象,并在推斷時加載。 TensorFlow服務(wù)用于將TensorFlow模型部署到生產(chǎn)環(huán)境中。在幾行代碼中,您就可以將tensorflow模型用作預(yù)測的API。 如果您的模型已經(jīng)被訓(xùn)練并導(dǎo)出為PMML格式,那么Openscoring可以幫助您將這些PMML模型作為推斷的REST api提供服務(wù)。 創(chuàng)建GraphPipe的目的是將ML模型部署與框架特定的模型實(shí)現(xiàn)(例如Tensorflow、Caffe2、ONNX)解耦。
編輯:黃繼彥
—版權(quán)聲明—
僅用于學(xué)術(shù)分享,版權(quán)屬于原作者。
若有侵權(quán),請聯(lián)系微信號:yiyang-sy 刪除或修改!
評論
圖片
表情
