機(jī)器學(xué)習(xí)基礎(chǔ)知識(shí)詳解!
Q1
?板給了你?個(gè)關(guān)于癌癥檢測(cè)的數(shù)據(jù)集,你構(gòu)建了?分類器然后計(jì)算了準(zhǔn)確率為 98%, 你是否對(duì)這個(gè)模型滿意?為什么?如果還不算理想,接下來(lái)該怎么做?
首先模型主要是找出患有癌癥的患者,模型關(guān)注的實(shí)際是壞樣本。其次一般來(lái)說(shuō)癌癥的數(shù)據(jù)集中壞樣本比較少,正負(fù)樣本不平衡。
準(zhǔn)確率指的是分類正確的樣本占總樣本個(gè)數(shù)的比率
其中為正確分類樣本的個(gè)數(shù),為總樣本分類的個(gè)數(shù)。
當(dāng)好樣本(未患病)的樣本數(shù)占99%時(shí),模型把所有的樣本全部預(yù)測(cè)為好樣本也可以獲得99%的準(zhǔn)確率,所以當(dāng)正負(fù)樣本非常不平衡時(shí),準(zhǔn)確率往往會(huì)偏向占比大的類別,因此這個(gè)模型使用準(zhǔn)確率作為模型的評(píng)估方式并不合適。
鑒于模型關(guān)注的實(shí)際是壞樣本,建議使用召回率(Recall)作為模型的評(píng)估函數(shù)。
Recall 是分類器所預(yù)測(cè)正確的正樣本占所有正樣本的比例,取值范圍為[0,1],取值越大,模型預(yù)測(cè)能力越好。
其次,使用類別不平衡的解決方案:
常見(jiàn)的處理數(shù)據(jù)不平衡的方法有:重采樣、Tomek links、SMOTE、NearMiss等
除此之外:還可以使用模型處理:使用多種樹模型算法,使用多種重采樣的訓(xùn)練集,對(duì)少數(shù)樣本預(yù)測(cè)錯(cuò)誤增大懲罰,避免使用Accuracy,可以用confusion matrix,precision,recall,f1-score,AUC,ROC等指標(biāo)。
Q2
怎么判斷?個(gè)訓(xùn)練好的模型是否過(guò)擬合?如果判斷成了過(guò)擬合,那通過(guò)什么辦法 可以解決過(guò)擬合問(wèn)題?
模型在驗(yàn)證集合上和訓(xùn)練集合上表現(xiàn)都很好,而在測(cè)試集合上變現(xiàn)很差。
解決過(guò)擬合的辦法:
特征降維
添加正則化,降低模型的復(fù)雜度
Dropout
Early stopping
交叉驗(yàn)證
決策樹剪枝
選擇合適的網(wǎng)絡(luò)結(jié)構(gòu)
Q3
什么是閉式解(Closed-Form Solution)?
解析解(Analytical solution) 就是根據(jù)嚴(yán)格的公式推導(dǎo),給出任意的自變量就可以求出其因變量,也就是問(wèn)題的解,然后可以利用這些公式計(jì)算相應(yīng)的問(wèn)題。所謂的解析解是一種包含分式、三角函數(shù)、指數(shù)、對(duì)數(shù)甚至無(wú)限級(jí)數(shù)等基本函數(shù)的解的形式。用來(lái)求得解析解的方法稱為解析法(Analytical techniques),解析法即是常見(jiàn)的微積分技巧,例如分離變量法等。解析解是一個(gè)封閉形式(Closed-form) 的函數(shù),因此對(duì)任一自變量,我們皆可將其帶入解析函數(shù)求得正確的因變量。因此,解析解也被稱為封閉解(Closed-form solution)。
數(shù)值解(Numerical solution) 是采用某種計(jì)算方法,如有限元法, 數(shù)值逼近法,插值法等得到的解。別人只能利用數(shù)值計(jì)算的結(jié)果,而不能隨意給出自變量并求出計(jì)算值。當(dāng)無(wú)法藉由微積分技巧求得解析解時(shí),這時(shí)便只能利用數(shù)值分析的方式來(lái)求得其數(shù)值解了。在數(shù)值分析的過(guò)程中,首先會(huì)將原方程加以簡(jiǎn)化,以利于后來(lái)的數(shù)值分析。例如,會(huì)先將微分符號(hào)改為差分(微分的離散形式)符號(hào)等,然后再用傳統(tǒng)的代數(shù)方法將原方程改寫成另一種方便求解的形式。這時(shí)的求解步驟就是將一自變量帶入,求得因變量的近似解,因此利用此方法所求得的因變量為一個(gè)個(gè)離散的數(shù)值,不像解析解為一連續(xù)的分布,而且因?yàn)榻?jīng)過(guò)上述簡(jiǎn)化的操作,其正確性也不如解析法可靠。
簡(jiǎn)而言之,解析解就是給出解的具體函數(shù)形式,從解的表達(dá)式中就可以算出任何對(duì)應(yīng)值;數(shù)值解就是用數(shù)值方法求出近似解,給出一系列對(duì)應(yīng)的自變量和解。
參考:https://blog.csdn.net/weicao1990/article/details/90742414
什么時(shí)候不能求出其逆矩陣?
滿秩矩陣或者方陣才有逆矩陣,當(dāng)一個(gè)矩陣不滿秩,在對(duì)角線上存在為0的特征值,求逆的時(shí)候無(wú)法計(jì)算從而不可逆,那我們給它加上一個(gè)單位矩陣,這樣它就不為0了,
求解的時(shí)候加上單位矩陣其實(shí)就是對(duì)線性回歸引入正則化的過(guò)程
參考:https://zhuanlan.zhihu.com/p/44612139
Q4
關(guān)于正則,我們?般采? L2 或者 L1, 這兩個(gè)正則之間有什么區(qū)別?什么時(shí)候需要? L2, 什么時(shí)候需要? L1?
L1正則化(也叫Lasso回歸)是在目標(biāo)函數(shù)中加上與系數(shù)的絕對(duì)值相關(guān)的項(xiàng),而L2正則化(也叫嶺回歸)則是在目標(biāo)函數(shù)中加上與系數(shù)的平方相關(guān)的項(xiàng)。
Lasso 和嶺回歸系數(shù)估計(jì)是由橢圓和約束函數(shù)域的第一個(gè)交點(diǎn)給出的。因?yàn)閹X回歸的約束函數(shù)域沒(méi)有尖角,所以這個(gè)交點(diǎn)一般不會(huì)產(chǎn)生在一個(gè)坐標(biāo)軸上,也就是說(shuō)嶺回歸的系數(shù)估計(jì)全都是非零的。然而,Lasso 約束函數(shù)域在每個(gè)軸上都有尖角,因此橢圓經(jīng)常和約束函數(shù)域相交。發(fā)生這種情況時(shí),其中一個(gè)系數(shù)就會(huì)等于 0。
L2正則化會(huì)使參數(shù)的絕對(duì)值變小,增強(qiáng)模型的穩(wěn)定性(不會(huì)因?yàn)閿?shù)據(jù)變化而產(chǎn)生很大的震蕩);而L1正則化會(huì)使一些參數(shù)為零,可以實(shí)現(xiàn)特征稀疏, 增強(qiáng)模型解釋性。
參考:https://blog.csdn.net/zouxy09/article/details/24971995/
Q5
相關(guān)概念:凸集,凸函數(shù)


因此證明正則項(xiàng)是否是凸函數(shù),需要證明:
1. ?在 上二階連續(xù)可微
2.的Hessian(海塞)矩陣在 上是半正定
3.半正定矩陣的判定定理之一:若實(shí)對(duì)稱矩陣的所有順序主子式均為非負(fù),則該矩陣為半 正定矩陣。
參考:https://www.bilibili.com/video/BV1Mh411e7VU?p=2
Q6
什么叫 ElasticNet? 它主要?來(lái)解決什么問(wèn)題?具體如何去優(yōu)化?
彈性回歸是嶺回歸和lasso回歸的混合技術(shù),它同時(shí)使用 L2 和 L1 正則化。當(dāng)有多個(gè)相關(guān)的特征時(shí),彈性網(wǎng)絡(luò)是有用的。lasso回歸很可能隨機(jī)選擇其中一個(gè),而彈性回歸很可能都會(huì)選擇。
在高度相關(guān)變量的情況下,它支持群體效應(yīng)。 它對(duì)所選變量的數(shù)目沒(méi)有限制 它具有兩個(gè)收縮因子 λ1 和 λ2。
Q7
什么叫?成模型,什么叫判別模型?樸素?貝葉斯,邏輯回歸,HMM,語(yǔ)?模型 中哪?個(gè)是?成模型,哪?個(gè)是判別模型?
生成模型(Generaive Model)一般以概率的方式描述了數(shù)據(jù)的產(chǎn)生方式,通過(guò)對(duì)模型采樣就可以產(chǎn)生數(shù)據(jù)。
判別模型(Discriminative Model)對(duì)數(shù)據(jù)之間的映射關(guān)系建模,而不考慮數(shù)據(jù)本身是如何生成的。判別模型可以根據(jù)給定的數(shù)據(jù)x預(yù)測(cè)對(duì)應(yīng)的y(回歸),或根據(jù)不同的映射結(jié)果y來(lái)區(qū)分(discriminate)給定的數(shù)據(jù)x (分類)。但模型自身并不能產(chǎn)生數(shù)據(jù)x 。
生成模型對(duì)數(shù)據(jù)本身建模,更基礎(chǔ)。判別模型只考慮輸入和輸出之間的關(guān)系,更直接地面向問(wèn)題。如果希望用生成模型完成判定模型的任務(wù),一般需要額外的步驟。
優(yōu)點(diǎn) | 缺點(diǎn) | 代表算法 | |
生 成 式 模 型 | 1. ?由于統(tǒng)計(jì)了數(shù)據(jù)的分布情況,所以其實(shí)際帶的信息要比判別模型豐富,對(duì)于研究單類問(wèn)題來(lái)說(shuō)也比判別模型靈活性強(qiáng); | 1. 學(xué)習(xí)和計(jì)算過(guò)程比較復(fù)雜,由于學(xué)習(xí)了更多的樣本信息,所以計(jì)算量大,如果我們只是做分類,就浪費(fèi)了這部分的計(jì)算量; | 樸素貝葉斯、貝葉斯網(wǎng)絡(luò)、隱馬爾可夫模型、隱馬爾可夫模型 |
判 別 式 模 型 | 1. 由于關(guān)注的是數(shù)據(jù)的邊界,所以能清晰的分辨出多類或某一類與其他類之間的差異,所以準(zhǔn)確率相對(duì)較高; | 1. 不能反映訓(xùn)練數(shù)據(jù)本身的特性; | k 近鄰法、決策樹、邏輯斯諦回歸模型、最大熵模型、支持向量機(jī)、條件隨機(jī)場(chǎng) |
本文來(lái)自Datawhale面經(jīng)項(xiàng)目,致力做一份小而美、及時(shí)更新的大廠面經(jīng)。開源地址:
https://github.com/datawhalechina/Daily-interview
長(zhǎng)按關(guān)注Datawhale,更多開源內(nèi)容一起學(xué)習(xí)成長(zhǎng)↓
