【機(jī)器學(xué)習(xí)】推薦一個(gè)好用的開源automl工具
AutoX
AutoX是第四范式開源的針對(duì)表數(shù)據(jù)的自動(dòng)機(jī)器學(xué)習(xí)工具。
主要功能包括兩點(diǎn):?
一、提供全流程的自動(dòng)機(jī)器學(xué)習(xí)pipeline;
二、用戶可以把它的某一個(gè)某功能單獨(dú)拿出來,作為生產(chǎn)力工具,完成機(jī)器學(xué)習(xí)中的某一個(gè)環(huán)節(jié),例如,自動(dòng)特征篩選、自動(dòng)調(diào)參等。
項(xiàng)目地址
Github地址:
https://github.com/4paradigm/autox
效果對(duì)比
選取的數(shù)據(jù)包含分類/回歸/時(shí)間序列預(yù)測、單表/多表,AutoX在大多數(shù)的數(shù)據(jù)上,效果都由于其他產(chǎn)品。

不同任務(wù)下的效果對(duì)比:

AutoX技術(shù)方案
AutoX的整體技術(shù)方案包含了機(jī)器學(xué)習(xí)的全流程,我們在每一個(gè)流程都做了打磨和優(yōu)化。廢話不多說,直接上圖。

數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理模塊包含了異常值處理,缺失值填充,自動(dòng)類型推斷,內(nèi)存優(yōu)化。
自動(dòng)拼表
表關(guān)系的識(shí)別和自動(dòng)拼表,這一步讓autox具有了處理多表數(shù)據(jù)的能力。
特征工程
特征工程這一塊也是我們效果優(yōu)于其他產(chǎn)品的關(guān)鍵點(diǎn)。
特征構(gòu)造方面,主要是通過對(duì)比賽、行業(yè)數(shù)據(jù)的top方案的總結(jié)和抽象,設(shè)計(jì)出一系列關(guān)鍵特征。
特征選擇方面,包括兩塊,一個(gè)是常規(guī)的特征選擇模型,另一方面是通過mate特征的方式來實(shí)現(xiàn)特征的抽象聚合。
模型選擇
模型選擇采用了主流的樹模型和nn模型。
模型調(diào)參
基于貝葉斯的調(diào)參,也使用了目前較優(yōu)秀的第三方庫optuna。
模型融合
包含bagging和stacking策略。
模型可解釋方法
autox也實(shí)現(xiàn)了一些優(yōu)秀的模型可解釋方法。包括全局代理模型、局部代理模型、影響力樣本、代表性樣本和非代表性樣本。
往期精彩回顧 本站qq群955171419,加入微信群請(qǐng)掃碼:
