<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          面試機(jī)器學(xué)習(xí)算法,你需要知道這18個知識點(diǎn)!

          共 9384字,需瀏覽 19分鐘

           ·

          2022-06-01 11:03


          點(diǎn)擊上方小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時間送達(dá)

          來源: tornadomeet 的博客(@tornadomeet)   

          鏈接: www.cnblogs.com/tornadomeet/p/3395593.html

           

          前言:


          找工作時(IT行業(yè)),除了常見的軟件開發(fā)以外,機(jī)器學(xué)習(xí)崗位也可以當(dāng)作是一個選擇,不少計算機(jī)方向的研究生都會接觸這個,如果你的研究方向是機(jī)器學(xué)習(xí)/數(shù)據(jù)挖掘之類,且又對其非常感興趣的話,可以考慮考慮該崗位,畢竟在機(jī)器智能沒達(dá)到人類水平之前,機(jī)器學(xué)習(xí)可以作為一種重要手段,而隨著科技的不斷發(fā)展,相信這方面的人才需求也會越來越大。


          縱觀IT行業(yè)的招聘崗位,機(jī)器學(xué)習(xí)之類的崗位還是挺少的,國內(nèi)大點(diǎn)的公司里百度,阿里,騰訊,網(wǎng)易,搜狐,華為(華為的崗位基本都是隨機(jī)分配,機(jī)器學(xué)習(xí)等崗位基本面向的是博士)等會有相關(guān)職位,另外一些國內(nèi)的中小型企業(yè)和外企也會招一小部分。當(dāng)然了,其中大部分還是百度北京要人最多,上百人。阿里的算法崗位很大一部分也是搞機(jī)器學(xué)習(xí)相關(guān)的。另外本人有幸簽約了網(wǎng)易杭州研究院的深度學(xué)習(xí)算法崗位,打算從事機(jī)器學(xué)習(xí)領(lǐng)域至少5年。非常感謝小易收留了我!


          下面是本人在找機(jī)器學(xué)習(xí)崗位工作時,總結(jié)的常見機(jī)器學(xué)習(xí)算法(主要是一些常規(guī)分類器)大概流程和主要思想,希望對大家找機(jī)器學(xué)習(xí)崗位時有點(diǎn)幫助。實際上在面試過程中,懂這些算法的基本思想和大概流程是遠(yuǎn)遠(yuǎn)不夠的,那些面試官往往問的都是一些公司內(nèi)部業(yè)務(wù)中的課題,往往要求你不僅要懂得這些算法的理論過程,而且要非常熟悉怎樣使用它,什么場合用它,算法的優(yōu)缺點(diǎn),以及調(diào)參經(jīng)驗等等。說白了,就是既要會點(diǎn)理論,也要會點(diǎn)應(yīng)用,既要有點(diǎn)深度,也要有點(diǎn)廣度,否則運(yùn)氣不好的話很容易就被刷掉,因為每個面試官愛好不同。

           

          1. 樸素貝葉斯:


          有以下幾個地方需要注意:


          1.1. 如果給出的特征向量長度可能不同,這是需要?dú)w一化為通長度的向量(這里以文本分類為例),比如說是句子單詞的話,則長度為整個詞匯量的長度,對應(yīng)位置是該單詞出現(xiàn)的次數(shù)。


          1.2. 計算公式如下:



          其中一項條件概率可以通過樸素貝葉斯條件獨(dú)立展開。要注意一點(diǎn)就是



          的計算方法,而由樸素貝葉斯的前提假設(shè)可知,


          =

          ,因此一般有兩種,一種是在類別為ci的那些樣本集中,找到wj出現(xiàn)次數(shù)的總和,然后除以該樣本的總和;第二種方法是類別為ci的那些樣本集中,找到wj出現(xiàn)次數(shù)的總和,然后除以該樣本中所有特征出現(xiàn)次數(shù)的總和。


          1.3. 如果



          中的某一項為0,則其聯(lián)合概率的乘積也可能為0,即2中公式的分子為0,為了避免這種現(xiàn)象出現(xiàn),一般情況下會將這一項初始化為1,當(dāng)然為了保證概率相等,分母應(yīng)對應(yīng)初始化為2(這里因為是2類,所以加2,如果是k類就需要加k,術(shù)語上叫做laplace光滑, 分母加k的原因是使之滿足全概率公式)。


          樸素貝葉斯的優(yōu)點(diǎn):

          對小規(guī)模的數(shù)據(jù)表現(xiàn)很好,適合多分類任務(wù),適合增量式訓(xùn)練。


          缺點(diǎn):

          對輸入數(shù)據(jù)的表達(dá)形式很敏感。

           

          2. 決策樹:


          決策樹中很重要的一點(diǎn)就是選擇一個屬性進(jìn)行分枝,因此要注意一下信息增益的計算公式,并深入理解它。


          信息熵的計算公式如下:



          其中的n代表有n個分類類別(比如假設(shè)是2類問題,那么n=2)。分別計算這2類樣本在總樣本中出現(xiàn)的概率p1和p2,這樣就可以計算出未選中屬性分枝前的信息熵。


          現(xiàn)在選中一個屬性xi用來進(jìn)行分枝,此時分枝規(guī)則是:如果xi=vx的話,將樣本分到樹的一個分支;如果不相等則進(jìn)入另一個分支。很顯然,分支中的樣本很有可能包括2個類別,分別計算這2個分支的熵H1和H2,計算出分枝后的總信息熵H’=p1*H1+p2*H2.,則此時的信息增益ΔH=H-H’。以信息增益為原則,把所有的屬性都測試一邊,選擇一個使增益最大的屬性作為本次分枝屬性。


          決策樹的優(yōu)點(diǎn):

          計算量簡單,可解釋性強(qiáng),比較適合處理有缺失屬性值的樣本,能夠處理不相關(guān)的特征;


          缺點(diǎn):

          容易過擬合(后續(xù)出現(xiàn)了隨機(jī)森林,減小了過擬合現(xiàn)象);

           

          3. Logistic回歸:


          Logistic是用來分類的,是一種線性分類器,需要注意的地方有:


          3.1. logistic函數(shù)表達(dá)式為:



          其導(dǎo)數(shù)形式為:



          3.2. logsitc回歸方法主要是用最大似然估計來學(xué)習(xí)的,所以單個樣本的后驗概率為:



          到整個樣本的后驗概率:



          其中:



          通過對數(shù)進(jìn)一步化簡為:



          3.3. 其實它的loss function為-l(θ),因此我們需使loss function最小,可采用梯度下降法得到。梯度下降法公式為:



          Logistic回歸優(yōu)點(diǎn):

          a、實現(xiàn)簡單;

          b、分類時計算量非常小,速度很快,存儲資源低;


          缺點(diǎn):

          a、容易欠擬合,一般準(zhǔn)確度不太高

          b、只能處理兩分類問題(在此基礎(chǔ)上衍生出來的softmax可以用于多分類),且必須線性可分;

           

          4. 線性回歸:


          線性回歸才是真正用于回歸的,而不像logistic回歸是用于分類,其基本思想是用梯度下降法對最小二乘法形式的誤差函數(shù)進(jìn)行優(yōu)化,當(dāng)然也可以用normal equation直接求得參數(shù)的解,結(jié)果為:



          而在LWLR(局部加權(quán)線性回歸)中,參數(shù)的計算表達(dá)式為:



          因為此時優(yōu)化的是:



          由此可見LWLR與LR不同,LWLR是一個非參數(shù)模型,因為每次進(jìn)行回歸計算都要遍歷訓(xùn)練樣本至少一次。


          線性回歸優(yōu)點(diǎn):

          實現(xiàn)簡單,計算簡單;


          缺點(diǎn):

          不能擬合非線性數(shù)據(jù);

           

          5. KNN算法:


          KNN即最近鄰算法,其主要過程為:


          1. 計算訓(xùn)練樣本和測試樣本中每個樣本點(diǎn)的距離(常見的距離度量有歐式距離,馬氏距離等);

          2. 對上面所有的距離值進(jìn)行排序;

          3. 選前k個最小距離的樣本;

          4. 根據(jù)這k個樣本的標(biāo)簽進(jìn)行投票,得到最后的分類類別;


          如何選擇一個最佳的K值,這取決于數(shù)據(jù)。一般情況下,在分類時較大的K值能夠減小噪聲的影響。但會使類別之間的界限變得模糊。一個較好的K值可通過各種啟發(fā)式技術(shù)來獲取,比如,交叉驗證。另外噪聲和非相關(guān)性特征向量的存在會使K近鄰算法的準(zhǔn)確性減小。


          近鄰算法具有較強(qiáng)的一致性結(jié)果。隨著數(shù)據(jù)趨于無限,算法保證錯誤率不會超過貝葉斯算法錯誤率的兩倍。對于一些好的K值,K近鄰保證錯誤率不會超過貝葉斯理論誤差率。


          注:馬氏距離一定要先給出樣本集的統(tǒng)計性質(zhì),比如均值向量,協(xié)方差矩陣等。關(guān)于馬氏距離的介紹如下:



          KNN算法的優(yōu)點(diǎn):


          1. 思想簡單,理論成熟,既可以用來做分類也可以用來做回歸;

          2. 可用于非線性分類;

          3. 訓(xùn)練時間復(fù)雜度為O(n);

          4. 準(zhǔn)確度高,對數(shù)據(jù)沒有假設(shè),對outlier不敏感;


          缺點(diǎn):

          1. 計算量大;

          2. 樣本不平衡問題(即有些類別的樣本數(shù)量很多,而其它樣本的數(shù)量很少);

          3. 需要大量的內(nèi)存;

           

          6. SVM:


          要學(xué)會如何使用libsvm以及一些參數(shù)的調(diào)節(jié)經(jīng)驗,另外需要理清楚svm算法的一些思路:


          6.1.svm中的最優(yōu)分類面是對所有樣本的幾何裕量最大(為什么要選擇最大間隔分類器,請從數(shù)學(xué)角度上說明?網(wǎng)易深度學(xué)習(xí)崗位面試過程中有被問到。答案就是幾何間隔與樣本的誤分次數(shù)間存在關(guān)系:



          ,其中的分母就是樣本到分類間隔距離,分子中的R是所有樣本中的最長向量值),即:



          經(jīng)過一系列推導(dǎo)可得為優(yōu)化下面原始目標(biāo):



          6.2. 下面來看看拉格朗日理論:



          可以將1中的優(yōu)化目標(biāo)轉(zhuǎn)換為拉格朗日的形式(通過各種對偶優(yōu)化,KKD條件),最后目標(biāo)函數(shù)為:



          我們只需要最小化上述目標(biāo)函數(shù),其中的α為原始優(yōu)化問題中的不等式約束拉格朗日系數(shù)。


          6.3. 對2中最后的式子分別w和b求導(dǎo)可得:



          由上面第1式子可以知道,如果我們優(yōu)化出了α,則直接可以求出w了,即模型的參數(shù)搞定。而上面第2個式子可以作為后續(xù)優(yōu)化的一個約束條件。


          6.4. 對2中最后一個目標(biāo)函數(shù)用對偶優(yōu)化理論可以轉(zhuǎn)換為優(yōu)化下面的目標(biāo)函數(shù):



          而這個函數(shù)可以用常用的優(yōu)化方法求得α,進(jìn)而求得w和b。


          6.5. 按照道理,svm簡單理論應(yīng)該到此結(jié)束。不過還是要補(bǔ)充一點(diǎn),即在預(yù)測時有:



          那個尖括號我們可以用核函數(shù)代替,這也是svm經(jīng)常和核函數(shù)扯在一起的原因。


          6.6. 最后是關(guān)于松弛變量的引入,因此原始的目標(biāo)優(yōu)化公式為:



          此時對應(yīng)的對偶優(yōu)化公式為:



          與前面的相比只是α多了個上界。


          SVM算法優(yōu)點(diǎn):

          可用于線性/非線性分類,也可以用于回歸;

          低泛化誤差;

          容易解釋;

          計算復(fù)雜度較低;


          缺點(diǎn):

          對參數(shù)和核函數(shù)的選擇比較敏感;

          原始的SVM只比較擅長處理二分類問題;

           

          7. Boosting:


          主要以Adaboost為例,首先來看看Adaboost的流程圖,如下:



          從圖中可以看到,在訓(xùn)練過程中我們需要訓(xùn)練出多個弱分類器(圖中為3個),每個弱分類器是由不同權(quán)重的樣本(圖中為5個訓(xùn)練樣本)訓(xùn)練得到(其中第一個弱分類器對應(yīng)輸入樣本的權(quán)值是一樣的),而每個弱分類器對最終分類結(jié)果的作用也不同,是通過加權(quán)平均輸出的,權(quán)值見上圖中三角形里面的數(shù)值。那么這些弱分類器和其對應(yīng)的權(quán)值是怎樣訓(xùn)練出來的呢?


          下面通過一個例子來簡單說明。


          書中(machine learning in action)假設(shè)的是5個訓(xùn)練樣本,每個訓(xùn)練樣本的維度為2,在訓(xùn)練第一個分類器時5個樣本的權(quán)重各為0.2. 注意這里樣本的權(quán)值和最終訓(xùn)練的弱分類器組對應(yīng)的權(quán)值α是不同的,樣本的權(quán)重只在訓(xùn)練過程中用到,而α在訓(xùn)練過程和測試過程都有用到。


          現(xiàn)在假設(shè)弱分類器是帶一個節(jié)點(diǎn)的簡單決策樹,該決策樹會選擇2個屬性(假設(shè)只有2個屬性)的一個,然后計算出這個屬性中的最佳值用來分類。


          Adaboost的簡單版本訓(xùn)練過程如下:


          7.1.訓(xùn)練第一個分類器,樣本的權(quán)值D為相同的均值。通過一個弱分類器,得到這5個樣本(請對應(yīng)書中的例子來看,依舊是machine learning in action)的分類預(yù)測標(biāo)簽。與給出的樣本真實標(biāo)簽對比,就可能出現(xiàn)誤差(即錯誤)。如果某個樣本預(yù)測錯誤,則它對應(yīng)的錯誤值為該樣本的權(quán)重,如果分類正確,則錯誤值為0. 最后累加5個樣本的錯誤率之和,記為ε。


          7.2. 通過ε來計算該弱分類器的權(quán)重α,公式如下:



          7.3. 通過α來計算訓(xùn)練下一個弱分類器樣本的權(quán)重D,如果對應(yīng)樣本分類正確,則減小該樣本的權(quán)重,公式為:



          如果樣本分類錯誤,則增加該樣本的權(quán)重,公式為:



          7.4. 循環(huán)步驟1,2,3來繼續(xù)訓(xùn)練多個分類器,只是其D值不同而已。


          測試過程如下:


          輸入一個樣本到訓(xùn)練好的每個弱分類中,則每個弱分類都對應(yīng)一個輸出標(biāo)簽,然后該標(biāo)簽乘以對應(yīng)的α,最后求和得到值的符號即為預(yù)測標(biāo)簽值。


          Boosting算法的優(yōu)點(diǎn):

          低泛化誤差;

          容易實現(xiàn),分類準(zhǔn)確率較高,沒有太多參數(shù)可以調(diào);


          缺點(diǎn):

          對outlier比較敏感;

           

          8. 聚類:


          根據(jù)聚類思想劃分:


          8.1. 基于劃分的聚類:


          K-means, k-medoids(每一個類別中找一個樣本點(diǎn)來代表),CLARANS.

          k-means是使下面的表達(dá)式值最?。?/p>



          k-means算法的優(yōu)點(diǎn):


          (1)k-means算法是解決聚類問題的一種經(jīng)典算法,算法簡單、快速。

          (2)對處理大數(shù)據(jù)集,該算法是相對可伸縮的和高效率的,因為它的復(fù)雜度大約是O(nkt),其中n是所有對象的數(shù)目,k是簇的數(shù)目,t是迭代的次數(shù)。通常k<<n。這個算法通常局部收斂。

          (3)算法嘗試找出使平方誤差函數(shù)值最小的k個劃分。當(dāng)簇是密集的、球狀或團(tuán)狀的,且簇與簇之間區(qū)別明顯時,聚類效果較好。


          缺點(diǎn):


          (1)k-平均方法只有在簇的平均值被定義的情況下才能使用,且對有些分類屬性的數(shù)據(jù)不適合。

          (2)要求用戶必須事先給出要生成的簇的數(shù)目k。

          (3)對初值敏感,對于不同的初始值,可能會導(dǎo)致不同的聚類結(jié)果。

          (4)不適合于發(fā)現(xiàn)非凸面形狀的簇,或者大小差別很大的簇。

          (5)對于”噪聲”和孤立點(diǎn)數(shù)據(jù)敏感,少量的該類數(shù)據(jù)能夠?qū)ζ骄诞a(chǎn)生極大影響。


          8.2. 基于層次的聚類:


          自底向上的凝聚方法,比如AGNES。

          自上向下的分裂方法,比如DIANA。


          8.3. 基于密度的聚類:


          DBSACN,OPTICS,BIRCH(CF-Tree),CURE.


          8.4. 基于網(wǎng)格的方法:


          STING, WaveCluster.


          8.5. 基于模型的聚類:


          EM,SOM,COBWEB.


          以上這些算法的簡介可參考聚類(百度百科)。

           

          9. 推薦系統(tǒng):


          推薦系統(tǒng)的實現(xiàn)主要分為兩個方面:基于內(nèi)容的實現(xiàn)和協(xié)同濾波的實現(xiàn)。


          基于內(nèi)容的實現(xiàn):


          不同人對不同電影的評分這個例子,可以看做是一個普通的回歸問題,因此每部電影都需要提前提取出一個特征向量(即x值),然后針對每個用戶建模,即每個用戶打的分值作為y值,利用這些已有的分值y和電影特征值x就可以訓(xùn)練回歸模型了(最常見的就是線性回歸)。這樣就可以預(yù)測那些用戶沒有評分的電影的分?jǐn)?shù)。(值得注意的是需對每個用戶都建立他自己的回歸模型)

          從另一個角度來看,也可以是先給定每個用戶對某種電影的喜好程度(即權(quán)值),然后學(xué)出每部電影的特征,最后采用回歸來預(yù)測那些沒有被評分的電影。


          當(dāng)然還可以是同時優(yōu)化得到每個用戶對不同類型電影的熱愛程度以及每部電影的特征。具體可以參考Ng在coursera上的ml教程:https://www.coursera.org/course/ml


          10. 基于協(xié)同濾波的實現(xiàn):


          協(xié)同濾波(CF)可以看做是一個分類問題,也可以看做是矩陣分解問題。協(xié)同濾波主要是基于每個人自己的喜好都類似這一特征,它不依賴于個人的基本信息。比如剛剛那個電影評分的例子中,預(yù)測那些沒有被評分的電影的分?jǐn)?shù)只依賴于已經(jīng)打分的那些分?jǐn)?shù),并不需要去學(xué)習(xí)那些電影的特征。


          SVD將矩陣分解為三個矩陣的乘積,公式如下所示:



          中間的矩陣sigma為對角矩陣,對角元素的值為Data矩陣的奇異值(注意奇異值和特征值是不同的),且已經(jīng)從大到小排列好了。即使去掉特征值小的那些特征,依然可以很好的重構(gòu)出原始矩陣。如下圖所示:



          其中更深的顏色代表去掉小特征值重構(gòu)時的三個矩陣。


          如果m代表商品的個數(shù),n代表用戶的個數(shù),則U矩陣的每一行代表商品的屬性,現(xiàn)在通過降維U矩陣(取深色部分)后,每一個商品的屬性可以用更低的維度表示(假設(shè)為k維)。這樣當(dāng)新來一個用戶的商品推薦向量X,則可以根據(jù)公式X’*U1*inv(S1)得到一個k維的向量,然后在V’中尋找最相似的那一個用戶(相似度測量可用余弦公式等),根據(jù)這個用戶的評分來推薦(主要是推薦新用戶未打分的那些商品)。具體例子可以參考網(wǎng)頁:SVD在推薦系統(tǒng)中的應(yīng)用。


          另外關(guān)于SVD分解后每個矩陣的實際含義可以參考google吳軍的《數(shù)學(xué)之美》一書(不過個人感覺吳軍解釋UV兩個矩陣時好像弄反了,不知道大家怎樣認(rèn)為)?;蛘邊⒖糾achine learning in action其中的svd章節(jié)。

           

          11. pLSA:


          pLSA由LSA發(fā)展過來,而早期LSA的實現(xiàn)主要是通過SVD分解。pLSA的模型圖如下:



          公式中的意義如下:



          具體可以參考2010龍星計劃:機(jī)器學(xué)習(xí)中對應(yīng)的主題模型那一講

           

          12. LDA:


          主題模型,概率圖如下:



          和pLSA不同的是LDA中假設(shè)了很多先驗分布,且一般參數(shù)的先驗分布都假設(shè)為Dirichlet分布,其原因是共軛分布時先驗概率和后驗概率的形式相同。


          13. GDBT:


          GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),好像在阿里內(nèi)部用得比較多(所以阿里算法崗位面試時可能會問到),它是一種迭代的決策樹算法,該算法由多棵決策樹組成,所有樹的輸出結(jié)果累加起來就是最終答案。它在被提出之初就和SVM一起被認(rèn)為是泛化能力(generalization)較強(qiáng)的算法。近些年更因為被用于搜索排序的機(jī)器學(xué)習(xí)模型而引起大家關(guān)注。


          GBDT是回歸樹,不是分類樹。其核心就在于,每一棵樹是從之前所有樹的殘差中來學(xué)習(xí)的。為了防止過擬合,和Adaboosting一樣,也加入了boosting這一項。


          關(guān)于GDBT的介紹可以可以參考:GBDT(MART) 迭代決策樹入門教程 | 簡介。


          14. Regularization:
           


          作用是(網(wǎng)易電話面試時有問到):


          1. 數(shù)值上更容易求解;

          2. 特征數(shù)目太大時更穩(wěn)定;

          3. 控制模型的復(fù)雜度,光滑性。復(fù)雜性越小且越光滑的目標(biāo)函數(shù)泛化能力越強(qiáng)。而加入規(guī)則項能使目標(biāo)函數(shù)復(fù)雜度減小,且更光滑。

          4. 減小參數(shù)空間;參數(shù)空間越小,復(fù)雜度越低。

          5. 系數(shù)越小,模型越簡單,而模型越簡單則泛化能力越強(qiáng)(Ng宏觀上給出的解釋)。

          6. 可以看出是權(quán)值的高斯先驗。

           

          15. 異常檢測:


          可以估計樣本的密度函數(shù),對于新樣本直接計算其密度,如果密度值小于某一閾值,則表示該樣本異常。而密度函數(shù)一般采用多維的高斯分布。如果樣本有n維,則每一維的特征都可以看作是符合高斯分布的,即使這些特征可視化出來不太符合高斯分布,也可以對該特征進(jìn)行數(shù)學(xué)轉(zhuǎn)換讓其看起來像高斯分布,比如說x=log(x+c), x=x^(1/c)等。異常檢測的算法流程如下:



          其中的ε也是通過交叉驗證得到的,也就是說在進(jìn)行異常檢測時,前面的p(x)的學(xué)習(xí)是用的無監(jiān)督,后面的參數(shù)ε學(xué)習(xí)是用的有監(jiān)督。那么為什么不全部使用普通有監(jiān)督的方法來學(xué)習(xí)呢(即把它看做是一個普通的二分類問題)?主要是因為在異常檢測中,異常的樣本數(shù)量非常少而正常樣本數(shù)量非常多,因此不足以學(xué)習(xí)到好的異常行為模型的參數(shù),因為后面新來的異常樣本可能完全是與訓(xùn)練樣本中的模式不同。


          另外,上面是將特征的每一維看成是相互獨(dú)立的高斯分布,其實這樣的近似并不是最好的,但是它的計算量較小,因此也常被使用。更好的方法應(yīng)該是將特征擬合成多維高斯分布,這時有特征之間的相關(guān)性,但隨之計算量會變復(fù)雜,且樣本的協(xié)方差矩陣還可能出現(xiàn)不可逆的情況(主要在樣本數(shù)比特征數(shù)小,或者樣本特征維數(shù)之間有線性關(guān)系時)。


          上面的內(nèi)容可以參考Ng的https://www.coursera.org/course/ml


          16. EM算法:


          有時候因為樣本的產(chǎn)生和隱含變量有關(guān)(隱含變量是不能觀察的),而求模型的參數(shù)時一般采用最大似然估計,由于含有了隱含變量,所以對似然函數(shù)參數(shù)求導(dǎo)是求不出來的,這時可以采用EM算法來求模型的參數(shù)的(對應(yīng)模型參數(shù)個數(shù)可能有多個),EM算法一般分為2步:


          E步:選取一組參數(shù),求出在該參數(shù)下隱含變量的條件概率值;

          M步:結(jié)合E步求出的隱含變量條件概率,求出似然函數(shù)下界函數(shù)(本質(zhì)上是某個期望函數(shù))的最大值。

          重復(fù)上面2步直至收斂。


          公式如下所示:



          M步公式中下界函數(shù)的推導(dǎo)過程:



          EM算法一個常見的例子就是GMM模型,每個樣本都有可能由k個高斯產(chǎn)生,只不過由每個高斯產(chǎn)生的概率不同而已,因此每個樣本都有對應(yīng)的高斯分布(k個中的某一個),此時的隱含變量就是每個樣本對應(yīng)的某個高斯分布。


          GMM的E步公式如下(計算每個樣本對應(yīng)每個高斯的概率):



          更具體的計算公式為:



          M步公式如下(計算每個高斯的比重,均值,方差這3個參數(shù)):



          關(guān)于EM算法可以參考Ng的cs229課程資料或者網(wǎng)易公開課:斯坦福大學(xué)公開課 :機(jī)器學(xué)習(xí)課程。


          17. Apriori:


          Apriori是關(guān)聯(lián)分析中比較早的一種方法,主要用來挖掘那些頻繁項集合。其思想是:


          17.1. 如果一個項目集合不是頻繁集合,那么任何包含它的項目集合也一定不是頻繁集合;


          17.2. 如果一個項目集合是頻繁集合,那么它的任何非空子集也是頻繁集合;

          Aprioir需要掃描項目表多遍,從一個項目開始掃描,舍去掉那些不是頻繁的項目,得到的集合稱為L,然后對L中的每個元素進(jìn)行自組合,生成比上次掃描多一個項目的集合,該集合稱為C,接著又掃描去掉那些非頻繁的項目,重復(fù)…


          看下面這個例子:


          元素項目表格:



          如果每個步驟不去掉非頻繁項目集,則其掃描過程的樹形結(jié)構(gòu)如下:



          在其中某個過程中,可能出現(xiàn)非頻繁的項目集,將其去掉(用陰影表示)為:



          上面的內(nèi)容主要參考的是machine learning in action這本書。


          18. FP Growth:


          FP Growth是一種比Apriori更高效的頻繁項挖掘方法,它只需要掃描項目表2次。其中第1次掃描獲得當(dāng)個項目的頻率,去掉不符合支持度要求的項,并對剩下的項排序。第2遍掃描是建立一顆FP-Tree(frequent-patten tree)。

          接下來的工作就是在FP-Tree上進(jìn)行挖掘。


          比如說有下表:



          它所對應(yīng)的FP_Tree如下:



          然后從頻率最小的單項P開始,找出P的條件模式基,用構(gòu)造FP_Tree同樣的方法來構(gòu)造P的條件模式基的FP_Tree,在這棵樹上找出包含P的頻繁項集。


          依次從m,b,a,c,f的條件模式基上挖掘頻繁項集,有些項需要遞歸的去挖掘,比較麻煩,比如m節(jié)點(diǎn),具體的過程可以參考博客:Frequent Pattern 挖掘之二(FP Growth算法),里面講得很詳細(xì)。


          參考資料:


          1. Harrington, P. (2012). Machine Learning in Action, Manning Publications Co.

          2. 最近鄰算法(維基百科)

          3. 馬氏距離(維基百科)

          4. 聚類(百度百科)

          5. https://www.coursera.org/course/ml

          6. SVD在推薦系統(tǒng)中的應(yīng)用

          7. 吳軍 and 谷歌 (2012).數(shù)學(xué)之美, 人民郵電出版社.

          8. 2010龍星計劃:機(jī)器學(xué)習(xí)對應(yīng)的視頻教程:2010龍星計劃機(jī)器學(xué)習(xí)視頻教程

          9. GBDT(MART) 迭代決策樹入門教程 | 簡介

          10. Ng的cs229課程資料

          11. 斯坦福大學(xué)公開課 :機(jī)器學(xué)習(xí)課程

          12. Frequent Pattern 挖掘之二(FP Growth算法)

          好消息! 

          小白學(xué)視覺知識星球

          開始面向外開放啦??????




          下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程
          在「小白學(xué)視覺」公眾號后臺回復(fù):擴(kuò)展模塊中文教程,即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版,涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺實戰(zhàn)項目52講
          小白學(xué)視覺公眾號后臺回復(fù):Python視覺實戰(zhàn)項目,即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學(xué)校計算機(jī)視覺。

          下載3:OpenCV實戰(zhàn)項目20講
          小白學(xué)視覺公眾號后臺回復(fù):OpenCV實戰(zhàn)項目20講,即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細(xì)分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~


          瀏覽 26
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  天天日日爽| 91北条麻妃二区 | 成人无码免费毛片 | www,污网站 | 久久国精品 |