
本文約1000字,建議閱讀5分鐘
在本文中,我們引入了數(shù)據(jù)移除(DaRE)森林,這是隨機(jī)森林的一種變體,可以在最少的再訓(xùn)練的情況下刪除訓(xùn)練數(shù)據(jù)。

考慮到用戶數(shù)據(jù)刪除請(qǐng)求、刪除噪聲的示例或刪除損壞的訓(xùn)練數(shù)據(jù),這只是希望從機(jī)器學(xué)習(xí)(ML)模型中刪除實(shí)例的幾個(gè)原因。然而,從ML模型中有效地刪除這些數(shù)據(jù)通常是困難的。在本文中,我們引入了數(shù)據(jù)移除(DaRE)森林,這是隨機(jī)森林的一種變體,可以在最少的再訓(xùn)練的情況下刪除訓(xùn)練數(shù)據(jù)。森林中每棵DaRE樹的模型更新都是精確的,這意味著從DaRE模型中刪除實(shí)例產(chǎn)生的模型與對(duì)更新后的數(shù)據(jù)進(jìn)行從頭再訓(xùn)練完全相同。
DaRE樹利用隨機(jī)性和緩存來高效刪除數(shù)據(jù)。DaRE樹的上層使用隨機(jī)節(jié)點(diǎn),它均勻隨機(jī)地選擇分割屬性和閾值。這些節(jié)點(diǎn)很少需要更新,因?yàn)樗鼈儗?duì)數(shù)據(jù)的依賴性很小。在較低的層次上,選擇分割是為了貪婪地優(yōu)化分割標(biāo)準(zhǔn),如基尼指數(shù)或互信息。DaRE樹在每個(gè)節(jié)點(diǎn)上緩存統(tǒng)計(jì)信息,在每個(gè)葉子上緩存訓(xùn)練數(shù)據(jù),這樣當(dāng)數(shù)據(jù)被刪除時(shí),只更新必要的子樹。對(duì)于數(shù)值屬性,貪婪節(jié)點(diǎn)在閾值的隨機(jī)子集上進(jìn)行優(yōu)化,以便在逼近最優(yōu)閾值的同時(shí)保持統(tǒng)計(jì)量。通過調(diào)整貪婪節(jié)點(diǎn)的閾值數(shù)量和隨機(jī)節(jié)點(diǎn)的數(shù)量,DaRE樹可以在更準(zhǔn)確的預(yù)測和更有效的更新之間進(jìn)行權(quán)衡。在13個(gè)真實(shí)數(shù)據(jù)集和一個(gè)合成數(shù)據(jù)集上的實(shí)驗(yàn)中,我們發(fā)現(xiàn)DaRE森林刪除數(shù)據(jù)的速度比從頭開始訓(xùn)練的速度快幾個(gè)數(shù)量級(jí),同時(shí)幾乎不犧牲預(yù)測能力。
https://icml.cc/Conferences/2021/Schedule?showEvent=10523
編輯:文婧