來!一起捋一捋機器學(xué)習(xí)分類算法
日期 : 2021年04月13日
正文共 :5700字

KNN算法的優(yōu)缺點是什么?
Naive Bayes算法的基本假設(shè)是什么?
entropy loss是如何定義的?
最后,分類算法調(diào)參常用的圖像又有哪些?

機器學(xué)習(xí)是使計算機無需顯式編程就能學(xué)習(xí)的研究領(lǐng)域。 ——阿瑟·塞繆爾,1959年
“如果一個程序在使用既有的經(jīng)驗(E)執(zhí)行某類任務(wù)(T)的過程中被認為是“具備學(xué)習(xí)能力的”,那么它一定需要展現(xiàn)出:利用現(xiàn)有的經(jīng)驗(E),不斷改善其完成既定任務(wù)(T)的性能(P)的特性。” ——Tom Mitchell, 1997
監(jiān)督學(xué)習(xí)
分類問題

邏輯回歸




K-近鄰算法(K-NN)




支持向量機(SVM)



前文討論的就是線性SVM。
多項式核中需要指定多項式的次數(shù)。它允許在輸入空間中使用曲線進行分割。
徑向基核(radial basis function, RBF)可用于非線性可分變量。使用平方歐幾里德距離,參數(shù)的典型值會導(dǎo)致過度擬合。sklearn中默認使用RBF。
類似于與邏輯回歸類似,sigmoid核用于二分類問題。


樸素貝葉斯


決策樹分類



分類的集成算法

隨機森林分類器


梯度提升分類器

使用淺層決策樹初始化預(yù)測結(jié)果。
計算殘差值(實際預(yù)測值)。
構(gòu)建另一棵淺層決策樹,將上一棵樹的殘差作為輸入進行預(yù)測。
用新預(yù)測值和學(xué)習(xí)率的乘積作為最新預(yù)測結(jié)果,更新原有預(yù)測結(jié)果。
重復(fù)步驟2-4,進行一定次數(shù)的迭代(迭代的次數(shù)即為構(gòu)建的決策樹的個數(shù))。

分類器的性能
混淆矩陣

假正例&假負例






接受者操作曲線(ROC)和曲線下的面積(AUC)

累積精度曲線
— THE END —

評論
圖片
表情
