<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          機(jī)器學(xué)習(xí)基礎(chǔ)知識(shí)詳解!

          共 3782字,需瀏覽 8分鐘

           ·

          2021-10-08 22:31

          ↑↑↑關(guān)注后"星標(biāo)"Datawhale
          每日干貨?&?每月組隊(duì)學(xué)習(xí),不錯(cuò)過(guò)
          ?Datawhale干貨?
          作者:胡聯(lián)粵,Datawhale面經(jīng)小組

          Q1

          ?板給了你?個(gè)關(guān)于癌癥檢測(cè)的數(shù)據(jù)集,你構(gòu)建了?分類器然后計(jì)算了準(zhǔn)確率為 98%, 你是否對(duì)這個(gè)模型滿意?為什么?如果還不算理想,接下來(lái)該怎么做?

          首先模型主要是找出患有癌癥的患者,模型關(guān)注的實(shí)際是壞樣本。其次一般來(lái)說(shuō)癌癥的數(shù)據(jù)集中壞樣本比較少,正負(fù)樣本不平衡。

          準(zhǔn)確率指的是分類正確的樣本占總樣本個(gè)數(shù)的比率

          其中為正確分類樣本的個(gè)數(shù),為總樣本分類的個(gè)數(shù)。

          當(dāng)好樣本(未患病)的樣本數(shù)占99%時(shí),模型把所有的樣本全部預(yù)測(cè)為好樣本也可以獲得99%的準(zhǔn)確率,所以當(dāng)正負(fù)樣本非常不平衡時(shí),準(zhǔn)確率往往會(huì)偏向占比大的類別,因此這個(gè)模型使用準(zhǔn)確率作為模型的評(píng)估方式并不合適。

          鑒于模型關(guān)注的實(shí)際是壞樣本,建議使用召回率(Recall)作為模型的評(píng)估函數(shù)。

          Recall 是分類器所預(yù)測(cè)正確的正樣本占所有正樣本的比例,取值范圍為[0,1],取值越大,模型預(yù)測(cè)能力越好。

          其次,使用類別不平衡的解決方案:

          常見(jiàn)的處理數(shù)據(jù)不平衡的方法有:重采樣、Tomek links、SMOTE、NearMiss等

          除此之外:還可以使用模型處理:使用多種樹模型算法,使用多種重采樣的訓(xùn)練集,對(duì)少數(shù)樣本預(yù)測(cè)錯(cuò)誤增大懲罰,避免使用Accuracy,可以用confusion matrix,precision,recall,f1-score,AUC,ROC等指標(biāo)。

          Q2

          怎么判斷?個(gè)訓(xùn)練好的模型是否過(guò)擬合?如果判斷成了過(guò)擬合,那通過(guò)什么辦法 可以解決過(guò)擬合問(wèn)題?

          模型在驗(yàn)證集合上和訓(xùn)練集合上表現(xiàn)都很好,而在測(cè)試集合上變現(xiàn)很差。

          解決過(guò)擬合的辦法:

          • 特征降維

          • 添加正則化,降低模型的復(fù)雜度

          • Dropout

          • Early stopping

          • 交叉驗(yàn)證

          • 決策樹剪枝

          • 選擇合適的網(wǎng)絡(luò)結(jié)構(gòu)

          Q3

          對(duì)于線性回歸,我們可以使? Closed-Form Solution, 因?yàn)榭梢灾苯影褜?dǎo)數(shù)設(shè)置 為 0,并求出參數(shù)。在這個(gè) Closed-Form ?涉及到了求逆矩陣的過(guò)程,什么時(shí)候不能求出其逆矩陣?這時(shí)候如何處理?

          什么是閉式解(Closed-Form Solution)?

          解析解(Analytical solution) 就是根據(jù)嚴(yán)格的公式推導(dǎo),給出任意的自變量就可以求出其因變量,也就是問(wèn)題的解,然后可以利用這些公式計(jì)算相應(yīng)的問(wèn)題。所謂的解析解是一種包含分式、三角函數(shù)、指數(shù)、對(duì)數(shù)甚至無(wú)限級(jí)數(shù)等基本函數(shù)的解的形式。用來(lái)求得解析解的方法稱為解析法(Analytical techniques),解析法即是常見(jiàn)的微積分技巧,例如分離變量法等。解析解是一個(gè)封閉形式(Closed-form) 的函數(shù),因此對(duì)任一自變量,我們皆可將其帶入解析函數(shù)求得正確的因變量。因此,解析解也被稱為封閉解(Closed-form solution)。

          數(shù)值解(Numerical solution) 是采用某種計(jì)算方法,如有限元法, 數(shù)值逼近法,插值法等得到的解。別人只能利用數(shù)值計(jì)算的結(jié)果,而不能隨意給出自變量并求出計(jì)算值。當(dāng)無(wú)法藉由微積分技巧求得解析解時(shí),這時(shí)便只能利用數(shù)值分析的方式來(lái)求得其數(shù)值解了。在數(shù)值分析的過(guò)程中,首先會(huì)將原方程加以簡(jiǎn)化,以利于后來(lái)的數(shù)值分析。例如,會(huì)先將微分符號(hào)改為差分(微分的離散形式)符號(hào)等,然后再用傳統(tǒng)的代數(shù)方法將原方程改寫成另一種方便求解的形式。這時(shí)的求解步驟就是將一自變量帶入,求得因變量的近似解,因此利用此方法所求得的因變量為一個(gè)個(gè)離散的數(shù)值,不像解析解為一連續(xù)的分布,而且因?yàn)榻?jīng)過(guò)上述簡(jiǎn)化的操作,其正確性也不如解析法可靠。

          簡(jiǎn)而言之,解析解就是給出解的具體函數(shù)形式,從解的表達(dá)式中就可以算出任何對(duì)應(yīng)值;數(shù)值解就是用數(shù)值方法求出近似解,給出一系列對(duì)應(yīng)的自變量和解。

          參考:https://blog.csdn.net/weicao1990/article/details/90742414

          什么時(shí)候不能求出其逆矩陣?

          滿秩矩陣或者方陣才有逆矩陣,當(dāng)一個(gè)矩陣不滿秩,在對(duì)角線上存在為0的特征值,求逆的時(shí)候無(wú)法計(jì)算從而不可逆,那我們給它加上一個(gè)單位矩陣,這樣它就不為0了,

          求解的時(shí)候加上單位矩陣其實(shí)就是對(duì)線性回歸引入正則化的過(guò)程

          參考:https://zhuanlan.zhihu.com/p/44612139

          Q4

          關(guān)于正則,我們?般采? L2 或者 L1, 這兩個(gè)正則之間有什么區(qū)別?什么時(shí)候需要? L2, 什么時(shí)候需要? L1?

          L1正則化(也叫Lasso回歸)是在目標(biāo)函數(shù)中加上與系數(shù)的絕對(duì)值相關(guān)的項(xiàng),而L2正則化(也叫嶺回歸)則是在目標(biāo)函數(shù)中加上與系數(shù)的平方相關(guān)的項(xiàng)。

          Lasso 和嶺回歸系數(shù)估計(jì)是由橢圓和約束函數(shù)域的第一個(gè)交點(diǎn)給出的。因?yàn)閹X回歸的約束函數(shù)域沒(méi)有尖角,所以這個(gè)交點(diǎn)一般不會(huì)產(chǎn)生在一個(gè)坐標(biāo)軸上,也就是說(shuō)嶺回歸的系數(shù)估計(jì)全都是非零的。然而,Lasso 約束函數(shù)域在每個(gè)軸上都有尖角,因此橢圓經(jīng)常和約束函數(shù)域相交。發(fā)生這種情況時(shí),其中一個(gè)系數(shù)就會(huì)等于 0。

          L2正則化會(huì)使參數(shù)的絕對(duì)值變小,增強(qiáng)模型的穩(wěn)定性(不會(huì)因?yàn)閿?shù)據(jù)變化而產(chǎn)生很大的震蕩);而L1正則化會(huì)使一些參數(shù)為零,可以實(shí)現(xiàn)特征稀疏, 增強(qiáng)模型解釋性。

          參考:https://blog.csdn.net/zouxy09/article/details/24971995/

          Q5

          正則項(xiàng)是否是凸函數(shù)?請(qǐng)給出證明過(guò)程。

          相關(guān)概念:凸集,凸函數(shù)

          因此證明正則項(xiàng)是否是凸函數(shù),需要證明:

          1. ?在 上二階連續(xù)可微

          2.的Hessian(海塞)矩陣在 上是半正定

          3.半正定矩陣的判定定理之一:若實(shí)對(duì)稱矩陣的所有順序主子式均為非負(fù),則該矩陣為半 正定矩陣。

          參考:https://www.bilibili.com/video/BV1Mh411e7VU?p=2

          Q6

          什么叫 ElasticNet? 它主要?來(lái)解決什么問(wèn)題?具體如何去優(yōu)化?

          彈性回歸是嶺回歸和lasso回歸的混合技術(shù),它同時(shí)使用 L2 和 L1 正則化。當(dāng)有多個(gè)相關(guān)的特征時(shí),彈性網(wǎng)絡(luò)是有用的。lasso回歸很可能隨機(jī)選擇其中一個(gè),而彈性回歸很可能都會(huì)選擇。

          • 在高度相關(guān)變量的情況下,它支持群體效應(yīng)。
          • 它對(duì)所選變量的數(shù)目沒(méi)有限制
          • 它具有兩個(gè)收縮因子 λ1 和 λ2。
          參考:https://www.zhihu.com/search?type=content&q=ElasticNet

          Q7

          什么叫?成模型,什么叫判別模型?樸素?貝葉斯,邏輯回歸,HMM,語(yǔ)?模型 中哪?個(gè)是?成模型,哪?個(gè)是判別模型?

          生成模型(Generaive Model)一般以概率的方式描述了數(shù)據(jù)的產(chǎn)生方式,通過(guò)對(duì)模型采樣就可以產(chǎn)生數(shù)據(jù)。

          判別模型(Discriminative Model)對(duì)數(shù)據(jù)之間的映射關(guān)系建模,而不考慮數(shù)據(jù)本身是如何生成的。判別模型可以根據(jù)給定的數(shù)據(jù)x預(yù)測(cè)對(duì)應(yīng)的y(回歸),或根據(jù)不同的映射結(jié)果y來(lái)區(qū)分(discriminate)給定的數(shù)據(jù)x (分類)。但模型自身并不能產(chǎn)生數(shù)據(jù)x 。

          生成模型對(duì)數(shù)據(jù)本身建模,更基礎(chǔ)。判別模型只考慮輸入和輸出之間的關(guān)系,更直接地面向問(wèn)題。如果希望用生成模型完成判定模型的任務(wù),一般需要額外的步驟。


          _

          優(yōu)點(diǎn)

          缺點(diǎn)

          代表算法

          1. ?由于統(tǒng)計(jì)了數(shù)據(jù)的分布情況,所以其實(shí)際帶的信息要比判別模型豐富,對(duì)于研究單類問(wèn)題來(lái)說(shuō)也比判別模型靈活性強(qiáng);
          2. 模型可以通過(guò)增量學(xué)習(xí)得到(增量學(xué)習(xí)是指一個(gè)學(xué)習(xí)系統(tǒng)能不斷地從新樣本中學(xué)習(xí)新的知識(shí),并能保存大部分以前已經(jīng)學(xué)習(xí)到的知識(shí)。);
          3. 收斂速度更快,當(dāng)樣本容量增加的時(shí),生成模型可以更快的收斂于真實(shí)模型;
          4. 隱變量存在時(shí),也可以使用。

          1. 學(xué)習(xí)和計(jì)算過(guò)程比較復(fù)雜,由于學(xué)習(xí)了更多的樣本信息,所以計(jì)算量大,如果我們只是做分類,就浪費(fèi)了這部分的計(jì)算量;
          2. 準(zhǔn)確率較差;
          3. 往往需要對(duì)特征進(jìn)行假設(shè),比如樸素貝葉斯中需要假設(shè)特征間獨(dú)立同分布,所以如果所選特征不滿足這個(gè)條件,將極大影響生成式模型的性能。

          樸素貝葉斯、貝葉斯網(wǎng)絡(luò)、隱馬爾可夫模型、隱馬爾可夫模型

          1. 由于關(guān)注的是數(shù)據(jù)的邊界,所以能清晰的分辨出多類或某一類與其他類之間的差異,所以準(zhǔn)確率相對(duì)較高;
          2. 計(jì)算量較小,需要的樣本數(shù)量也較小;

          1. 不能反映訓(xùn)練數(shù)據(jù)本身的特性;
          2. 收斂速度較慢? ??

          k 近鄰法、決策樹、邏輯斯諦回歸模型、最大熵模型、支持向量機(jī)、條件隨機(jī)場(chǎng)

          參考https://cloud.tencent.com/developer/article/1544597;https://www.zhihu.com/question/22374366/answer/155544744

          本文來(lái)自Datawhale面經(jīng)項(xiàng)目,致力做一份小而美、及時(shí)更新的大廠面經(jīng)。開源地址:

          https://github.com/datawhalechina/Daily-interview

          長(zhǎng)按關(guān)注Datawhale,更多開源內(nèi)容一起學(xué)習(xí)成長(zhǎng)↓


          整理不易,點(diǎn)三連
          瀏覽 158
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  无码一区二区三区四区五区六区 | 亚洲黄色毛片 | 豆花视频成人版视频在线观看 | 青娱乐青青草 | 欧美色就是色操逼视频 |