国产黄色片免费在线观看,91探花视频在线观看,狼人永久地址在线观看高清无码,丁香婷婷五月天影院,成人黄色av,人人草超碰,中文字幕日韩人妻在线,性爱少妇高手无码

↑↑↑關(guān)注后"星標(biāo)"Datawhale

每日干貨?&?每月組隊(duì)學(xué)習(xí)，不錯(cuò)過(guò)

?Datawhale干貨?

作者：胡聯(lián)粵，Datawhale面經(jīng)小組

?板給了你?個(gè)關(guān)于癌癥檢測(cè)的數(shù)據(jù)集，你構(gòu)建了?分類器然后計(jì)算了準(zhǔn)確率為 98%，你是否對(duì)這個(gè)模型滿意？為什么？如果還不算理想，接下來(lái)該怎么做？

首先模型主要是找出患有癌癥的患者，模型關(guān)注的實(shí)際是壞樣本。其次一般來(lái)說(shuō)癌癥的數(shù)據(jù)集中壞樣本比較少，正負(fù)樣本不平衡。

準(zhǔn)確率指的是分類正確的樣本占總樣本個(gè)數(shù)的比率

其中為正確分類樣本的個(gè)數(shù)，為總樣本分類的個(gè)數(shù)。

當(dāng)好樣本(未患病)的樣本數(shù)占99%時(shí)，模型把所有的樣本全部預(yù)測(cè)為好樣本也可以獲得99%的準(zhǔn)確率，所以當(dāng)正負(fù)樣本非常不平衡時(shí)，準(zhǔn)確率往往會(huì)偏向占比大的類別，因此這個(gè)模型使用準(zhǔn)確率作為模型的評(píng)估方式并不合適。

鑒于模型關(guān)注的實(shí)際是壞樣本，建議使用召回率(Recall)作為模型的評(píng)估函數(shù)。

Recall 是分類器所預(yù)測(cè)正確的正樣本占所有正樣本的比例，取值范圍為[0,1]，取值越大，模型預(yù)測(cè)能力越好。

其次，使用類別不平衡的解決方案：

常見(jiàn)的處理數(shù)據(jù)不平衡的方法有：重采樣、Tomek links、SMOTE、NearMiss等

除此之外：還可以使用模型處理：使用多種樹模型算法，使用多種重采樣的訓(xùn)練集，對(duì)少數(shù)樣本預(yù)測(cè)錯(cuò)誤增大懲罰，避免使用Accuracy，可以用confusion matrix，precision，recall，f1-score，AUC，ROC等指標(biāo)。

怎么判斷?個(gè)訓(xùn)練好的模型是否過(guò)擬合？如果判斷成了過(guò)擬合，那通過(guò)什么辦法可以解決過(guò)擬合問(wèn)題？

模型在驗(yàn)證集合上和訓(xùn)練集合上表現(xiàn)都很好，而在測(cè)試集合上變現(xiàn)很差。

解決過(guò)擬合的辦法：

特征降維
添加正則化，降低模型的復(fù)雜度
Dropout
Early stopping
交叉驗(yàn)證
決策樹剪枝
選擇合適的網(wǎng)絡(luò)結(jié)構(gòu)

對(duì)于線性回歸，我們可以使? Closed-Form Solution, 因?yàn)榭梢灾苯影褜?dǎo)數(shù)設(shè)置為 0，并求出參數(shù)。在這個(gè) Closed-Form ?涉及到了求逆矩陣的過(guò)程，什么時(shí)候不能求出其逆矩陣？這時(shí)候如何處理？

什么是閉式解(Closed-Form Solution)？

解析解(Analytical solution) 就是根據(jù)嚴(yán)格的公式推導(dǎo)，給出任意的自變量就可以求出其因變量，也就是問(wèn)題的解，然后可以利用這些公式計(jì)算相應(yīng)的問(wèn)題。所謂的解析解是一種包含分式、三角函數(shù)、指數(shù)、對(duì)數(shù)甚至無(wú)限級(jí)數(shù)等基本函數(shù)的解的形式。用來(lái)求得解析解的方法稱為解析法(Analytical techniques)，解析法即是常見(jiàn)的微積分技巧，例如分離變量法等。解析解是一個(gè)封閉形式(Closed-form) 的函數(shù)，因此對(duì)任一自變量，我們皆可將其帶入解析函數(shù)求得正確的因變量。因此，解析解也被稱為封閉解(Closed-form solution)。

數(shù)值解(Numerical solution) 是采用某種計(jì)算方法，如有限元法，數(shù)值逼近法，插值法等得到的解。別人只能利用數(shù)值計(jì)算的結(jié)果，而不能隨意給出自變量并求出計(jì)算值。當(dāng)無(wú)法藉由微積分技巧求得解析解時(shí)，這時(shí)便只能利用數(shù)值分析的方式來(lái)求得其數(shù)值解了。在數(shù)值分析的過(guò)程中，首先會(huì)將原方程加以簡(jiǎn)化，以利于后來(lái)的數(shù)值分析。例如，會(huì)先將微分符號(hào)改為差分（微分的離散形式）符號(hào)等，然后再用傳統(tǒng)的代數(shù)方法將原方程改寫成另一種方便求解的形式。這時(shí)的求解步驟就是將一自變量帶入，求得因變量的近似解，因此利用此方法所求得的因變量為一個(gè)個(gè)離散的數(shù)值，不像解析解為一連續(xù)的分布，而且因?yàn)榻?jīng)過(guò)上述簡(jiǎn)化的操作，其正確性也不如解析法可靠。

簡(jiǎn)而言之，解析解就是給出解的具體函數(shù)形式，從解的表達(dá)式中就可以算出任何對(duì)應(yīng)值；數(shù)值解就是用數(shù)值方法求出近似解，給出一系列對(duì)應(yīng)的自變量和解。

參考：https://blog.csdn.net/weicao1990/article/details/90742414

什么時(shí)候不能求出其逆矩陣？

滿秩矩陣或者方陣才有逆矩陣，當(dāng)一個(gè)矩陣不滿秩，在對(duì)角線上存在為0的特征值，求逆的時(shí)候無(wú)法計(jì)算從而不可逆，那我們給它加上一個(gè)單位矩陣，這樣它就不為0了，

求解的時(shí)候加上單位矩陣其實(shí)就是對(duì)線性回歸引入正則化的過(guò)程

參考：https://zhuanlan.zhihu.com/p/44612139

關(guān)于正則，我們?般采? L2 或者 L1, 這兩個(gè)正則之間有什么區(qū)別？什么時(shí)候需要? L2，什么時(shí)候需要? L1?

L1正則化（也叫Lasso回歸）是在目標(biāo)函數(shù)中加上與系數(shù)的絕對(duì)值相關(guān)的項(xiàng)，而L2正則化（也叫嶺回歸）則是在目標(biāo)函數(shù)中加上與系數(shù)的平方相關(guān)的項(xiàng)。

Lasso 和嶺回歸系數(shù)估計(jì)是由橢圓和約束函數(shù)域的第一個(gè)交點(diǎn)給出的。因?yàn)閹X回歸的約束函數(shù)域沒(méi)有尖角，所以這個(gè)交點(diǎn)一般不會(huì)產(chǎn)生在一個(gè)坐標(biāo)軸上，也就是說(shuō)嶺回歸的系數(shù)估計(jì)全都是非零的。然而，Lasso 約束函數(shù)域在每個(gè)軸上都有尖角，因此橢圓經(jīng)常和約束函數(shù)域相交。發(fā)生這種情況時(shí)，其中一個(gè)系數(shù)就會(huì)等于 0。

L2正則化會(huì)使參數(shù)的絕對(duì)值變小，增強(qiáng)模型的穩(wěn)定性（不會(huì)因?yàn)閿?shù)據(jù)變化而產(chǎn)生很大的震蕩）；而L1正則化會(huì)使一些參數(shù)為零,可以實(shí)現(xiàn)特征稀疏, 增強(qiáng)模型解釋性。

參考：https://blog.csdn.net/zouxy09/article/details/24971995/

正則項(xiàng)是否是凸函數(shù)？請(qǐng)給出證明過(guò)程。

相關(guān)概念：凸集，凸函數(shù)

因此證明正則項(xiàng)是否是凸函數(shù)，需要證明：

1. ?在上二階連續(xù)可微

2.的Hessian(海塞)矩陣在上是半正定

3.半正定矩陣的判定定理之一：若實(shí)對(duì)稱矩陣的所有順序主子式均為非負(fù)，則該矩陣為半正定矩陣。

參考：https://www.bilibili.com/video/BV1Mh411e7VU?p=2

什么叫 ElasticNet? 它主要?來(lái)解決什么問(wèn)題？具體如何去優(yōu)化？

彈性回歸是嶺回歸和lasso回歸的混合技術(shù)，它同時(shí)使用 L2 和 L1 正則化。當(dāng)有多個(gè)相關(guān)的特征時(shí)，彈性網(wǎng)絡(luò)是有用的。lasso回歸很可能隨機(jī)選擇其中一個(gè)，而彈性回歸很可能都會(huì)選擇。

在高度相關(guān)變量的情況下，它支持群體效應(yīng)。
它對(duì)所選變量的數(shù)目沒(méi)有限制
它具有兩個(gè)收縮因子 λ1 和 λ2。

參考：https://www.zhihu.com/search?type=content&q=ElasticNet

什么叫?成模型，什么叫判別模型？樸素?貝葉斯，邏輯回歸，HMM，語(yǔ)?模型中哪?個(gè)是?成模型，哪?個(gè)是判別模型？

生成模型（Generaive Model）一般以概率的方式描述了數(shù)據(jù)的產(chǎn)生方式，通過(guò)對(duì)模型采樣就可以產(chǎn)生數(shù)據(jù)。

判別模型（Discriminative Model）對(duì)數(shù)據(jù)之間的映射關(guān)系建模，而不考慮數(shù)據(jù)本身是如何生成的。判別模型可以根據(jù)給定的數(shù)據(jù)x預(yù)測(cè)對(duì)應(yīng)的y（回歸），或根據(jù)不同的映射結(jié)果y來(lái)區(qū)分（discriminate）給定的數(shù)據(jù)x （分類）。但模型自身并不能產(chǎn)生數(shù)據(jù)x 。

生成模型對(duì)數(shù)據(jù)本身建模，更基礎(chǔ)。判別模型只考慮輸入和輸出之間的關(guān)系，更直接地面向問(wèn)題。如果希望用生成模型完成判定模型的任務(wù)，一般需要額外的步驟。

	優(yōu)點(diǎn)	缺點(diǎn)	代表算法
生成式模型	1. ?由于統(tǒng)計(jì)了數(shù)據(jù)的分布情況，所以其實(shí)際帶的信息要比判別模型豐富，對(duì)于研究單類問(wèn)題來(lái)說(shuō)也比判別模型靈活性強(qiáng)； 2. 模型可以通過(guò)增量學(xué)習(xí)得到（增量學(xué)習(xí)是指一個(gè)學(xué)習(xí)系統(tǒng)能不斷地從新樣本中學(xué)習(xí)新的知識(shí)，并能保存大部分以前已經(jīng)學(xué)習(xí)到的知識(shí)。）； 3. 收斂速度更快，當(dāng)樣本容量增加的時(shí)，生成模型可以更快的收斂于真實(shí)模型； 4. 隱變量存在時(shí)，也可以使用。	1. 學(xué)習(xí)和計(jì)算過(guò)程比較復(fù)雜，由于學(xué)習(xí)了更多的樣本信息，所以計(jì)算量大，如果我們只是做分類，就浪費(fèi)了這部分的計(jì)算量； 2. 準(zhǔn)確率較差； 3. 往往需要對(duì)特征進(jìn)行假設(shè)，比如樸素貝葉斯中需要假設(shè)特征間獨(dú)立同分布，所以如果所選特征不滿足這個(gè)條件，將極大影響生成式模型的性能。	樸素貝葉斯、貝葉斯網(wǎng)絡(luò)、隱馬爾可夫模型、隱馬爾可夫模型
判別式模型	1. 由于關(guān)注的是數(shù)據(jù)的邊界，所以能清晰的分辨出多類或某一類與其他類之間的差異，所以準(zhǔn)確率相對(duì)較高； 2. 計(jì)算量較小，需要的樣本數(shù)量也較小；	1. 不能反映訓(xùn)練數(shù)據(jù)本身的特性； 2. 收斂速度較慢? ??	k 近鄰法、決策樹、邏輯斯諦回歸模型、最大熵模型、支持向量機(jī)、條件隨機(jī)場(chǎng)

參考：https://cloud.tencent.com/developer/article/1544597；https://www.zhihu.com/question/22374366/answer/155544744

本文來(lái)自Datawhale面經(jīng)項(xiàng)目，致力做一份小而美、及時(shí)更新的大廠面經(jīng)。開源地址：

https://github.com/datawhalechina/Daily-interview

長(zhǎng)按關(guān)注Datawhale，更多開源內(nèi)容一起學(xué)習(xí)成長(zhǎng)↓

整理不易，點(diǎn)贊三連↓

機(jī)器學(xué)習(xí)基礎(chǔ)知識(shí)詳解！