處理不平衡數(shù)據(jù)的十大 Python 庫(kù)
共 3139字,需瀏覽 7分鐘
·
2024-04-18 17:20
↓推薦關(guān)注↓
1、imbalanced-learn
imbalanced-learn是scikit-learn的擴(kuò)展,提供了各種重新平衡數(shù)據(jù)集的技術(shù)。它提供過采樣、欠采樣和組合方法。
from imblearn.over_sampling import RandomOverSampler
ros = RandomOverSampler()
X_resampled, y_resampled = ros.fit_resample(X, y)
2、SMOTE
SMOTE生成合成樣本來平衡數(shù)據(jù)集。
from imblearn.over_sampling import SMOTE
smote = SMOTE()
X_resampled, y_resampled = smote.fit_resample(X, y)
3、ADASYN
ADASYN根據(jù)少數(shù)樣本的密度自適應(yīng)生成合成樣本。
from imblearn.over_sampling import ADASYN
adasyn = ADASYN()
X_resampled, y_resampled = adasyn.fit_resample(X, y)
4、RandomUnderSampler
RandomUnderSampler隨機(jī)從多數(shù)類中移除樣本。
from imblearn.under_sampling import RandomUnderSampler
rus = RandomUnderSampler()
X_resampled, y_resampled = rus.fit_resample(X, y)
5、Tomek Links
Tomek Links可以移除的不同類的最近鄰居對(duì),減少多樣本的數(shù)量
from imblearn.under_sampling import TomekLinks
tl = TomekLinks()
X_resampled, y_resampled = tl.fit_resample(X, y)
6、SMOTEENN (SMOTE +Edited Nearest Neighbors)
SMOTEENN結(jié)合SMOTE和Edited Nearest Neighbors。
from imblearn.combine import SMOTEENN
smoteenn = SMOTEENN()
X_resampled, y_resampled = smoteenn.fit_resample(X, y)
7、SMOTETomek (SMOTE + Tomek Links)
SMOTEENN結(jié)合SMOTE和Tomek Links進(jìn)行過采樣和欠采樣。
from imblearn.combine import SMOTETomek
smotetomek = SMOTETomek()
X_resampled, y_resampled = smotetomek.fit_resample(X, y)
8、EasyEnsemble
EasyEnsemble是一種集成方法,可以創(chuàng)建多數(shù)類的平衡子集。
from imblearn.ensemble import EasyEnsembleClassifier
ee = EasyEnsembleClassifier()
ee.fit(X, y)
9、BalancedRandomForestClassifier
BalancedRandomForestClassifier是一種將隨機(jī)森林與平衡子樣本相結(jié)合的集成方法。
from imblearn.ensemble import BalancedRandomForestClassifier
brf = BalancedRandomForestClassifier()
brf.fit(X, y)
10、RUSBoostClassifier
RUSBoostClassifier是一種結(jié)合隨機(jī)欠采樣和增強(qiáng)的集成方法。
from imblearn.ensemble import RUSBoostClassifier
rusboost = RUSBoostClassifier()
rusboost.fit(X, y)
總結(jié)
處理不平衡數(shù)據(jù)對(duì)于建立準(zhǔn)確的機(jī)器學(xué)習(xí)模型至關(guān)重要。這些Python庫(kù)提供了各種技術(shù)來應(yīng)對(duì)這一問題。根據(jù)你的數(shù)據(jù)集和問題,可以選擇最合適的方法來有效地平衡數(shù)據(jù)。
長(zhǎng)按或掃描下方二維碼,后臺(tái)回復(fù):加群,即可申請(qǐng)入群。一定要備注:來源+研究方向+學(xué)校/公司,否則不拉入群中,見諒!
(長(zhǎng)按三秒,進(jìn)入后臺(tái))
推薦閱讀
