国内精品国产三级国产在线专,91欧美精品成人AAA片,美国中文字幕在线,黄片在线免费,色老板在线观看视频,十八禁久久网站,青青操美女视频,久久精品视频免费观看

來(lái)源：機(jī)器之心

本文約1700字，建議閱讀8分鐘
2022年你應(yīng)該知道的所有機(jī)器學(xué)習(xí)算法。

想要成為一名合格的 AI 工程師，并不是一件簡(jiǎn)單的事情，需要掌握各種機(jī)器學(xué)習(xí)算法。對(duì)于小白來(lái)說(shuō)，入行 AI 還是比較困難的。

為了讓初學(xué)者更好的學(xué)習(xí) AI，網(wǎng)絡(luò)上出現(xiàn)了各種各樣的學(xué)習(xí)資料，也不乏很多 AI 大牛提供免費(fèi)的授課視頻提供幫助。

近日，來(lái)自佐治亞理工學(xué)院的理學(xué)碩士 Terence Shin 在博客發(fā)布平臺(tái) Medium 撰文《2022 年你應(yīng)該知道的所有機(jī)器學(xué)習(xí)算法》。文中涵蓋了 5 類最重要的機(jī)器學(xué)習(xí)算法：集成學(xué)習(xí)算法；可解釋算法；聚類算法；降維算法；相似性算法。

目前，Terence Shin 在 Medium 顯示為 Top 1000 作者，有 62K 關(guān)注者，目前這篇文章已經(jīng)有 1.4K 點(diǎn)贊。

2022 年，你需要掌握的機(jī)器學(xué)習(xí)算法

1. 集成學(xué)習(xí)算法

為了理解什么是集成學(xué)習(xí)算法，你首先需要知道什么是集成學(xué)習(xí)。簡(jiǎn)單來(lái)講，集成學(xué)習(xí)是一種同時(shí)使用多個(gè)模型以獲得比單個(gè)模型性能更好的方法。

更形象的解釋，我們以一個(gè)學(xué)生和一個(gè)班級(jí)的學(xué)生為例：

想象一下，一個(gè)學(xué)生解決一個(gè)數(shù)學(xué)問(wèn)題 VS 一個(gè)班級(jí)學(xué)生解決相同的問(wèn)題。作為班級(jí)，所有學(xué)生可以相互檢查彼此的答案，并一致找出正確答案解決問(wèn)題。另一方面，作為學(xué)生的個(gè)人，如果他 / 她的答案是錯(cuò)誤的，那么沒(méi)有其他人可以驗(yàn)證他 / 她的答案正確與否。

因此，由學(xué)生組成的班級(jí)類似集成學(xué)習(xí)算法，其中幾個(gè)較小的算法協(xié)同工作以制定最終響應(yīng)。

關(guān)于集成學(xué)習(xí)的更多信息請(qǐng)參考：

https://towardsdatascience.com/ensemble-learning-bagging-and-boosting-explained-in-3-minutes-2e6d2240ae21

集成學(xué)習(xí)算法對(duì)于回歸和分類問(wèn)題或監(jiān)督學(xué)習(xí)問(wèn)題最有用。由于其固有的性質(zhì)，它優(yōu)于傳統(tǒng)的樸素貝葉斯、支持向量機(jī)、決策樹(shù)等機(jī)器學(xué)習(xí)算法。集成學(xué)習(xí)的代表方法有：Random Forests、XGBoost、LightGBM、CatBoost.

2. 可解釋算法

可解釋算法幫助我們識(shí)別和理解與結(jié)果有顯著關(guān)系的變量。因此，與其創(chuàng)建一個(gè)模型來(lái)預(yù)測(cè)響應(yīng)變量的值，我們可以創(chuàng)建可解釋模型來(lái)理解模型中變量之間的關(guān)系。

當(dāng)你想要了解模型為什么做出這個(gè)決策、或者你想要理解兩個(gè)或多個(gè)變量是如何相互關(guān)聯(lián)的，可解釋模型能夠提供幫助。在實(shí)踐中，解釋機(jī)器學(xué)習(xí)模型能夠?qū)崿F(xiàn)的性能和機(jī)器學(xué)習(xí)模型本身一樣重要。如果你不能解釋一個(gè)模型是如何工作的，那么將不會(huì)有人愿意使用它。

目前基于假設(shè)檢驗(yàn)的傳統(tǒng)可解釋模型主要包括：線性回歸、邏輯回歸；此外，可解釋模型還包括 SHAP 和 LIME 這兩種流行技術(shù)，它們被用來(lái)解釋機(jī)器學(xué)習(xí)模型。

3. 聚類算法

聚類是按照某個(gè)特定標(biāo)準(zhǔn) (如距離) 把一個(gè)數(shù)據(jù)集分割成不同的類或簇，使得同一個(gè)簇內(nèi)的數(shù)據(jù)對(duì)象的相似性盡可能大，同時(shí)不在同一個(gè)簇中的數(shù)據(jù)對(duì)象的差異性也盡可能地大。也即聚類后同一類的數(shù)據(jù)盡可能聚集到一起，不同類數(shù)據(jù)盡量分離。

聚類的一般過(guò)程包括數(shù)據(jù)準(zhǔn)備、特征選擇、特征提取、聚類、聚類結(jié)果評(píng)估。

聚類算法可用于進(jìn)行聚類分析，它是一項(xiàng)無(wú)監(jiān)督學(xué)習(xí)任務(wù)，可以將數(shù)據(jù)分組到聚類中。與目標(biāo)變量已知的監(jiān)督學(xué)習(xí)不同，聚類分析中沒(méi)有目標(biāo)變量。

聚類能夠發(fā)現(xiàn)數(shù)據(jù)中的自然模式和趨勢(shì)。k-means 聚類和層次聚類是最常見(jiàn)的兩種聚類算法。

4. 降維算法

數(shù)據(jù)降維算法是機(jī)器學(xué)習(xí)算法中的大家族，它的目標(biāo)是將向量投影到低維空間，以達(dá)到可視化、分類等目的。

降維技術(shù)在很多情況下都很有用：在數(shù)據(jù)集中有數(shù)百甚至數(shù)千個(gè)特征并且用戶需要選擇少數(shù)特征時(shí)，需要用到降維；當(dāng) ML 模型過(guò)度擬合數(shù)據(jù)也需要降維，這意味著用戶需要減少輸入特征的數(shù)量。

目前已經(jīng)存在大量的數(shù)據(jù)降維算法，可以從不同的維度進(jìn)行分類。按照是否有使用樣本的標(biāo)簽值，可以將降維算法分為有監(jiān)督降維和無(wú)監(jiān)督降維；按照降維算法使用的映射函數(shù)，可以將算法分為線性降維與非線性降維。其中，主成分分析 PCA、線性判別分析 LDA 為線性降維。

5. 相似性算法

在機(jī)器學(xué)習(xí)中，我們經(jīng)常需要知道個(gè)體間差異的大小，進(jìn)而評(píng)價(jià)個(gè)體的相似性和類別。相似性算法是計(jì)算節(jié)點(diǎn)、數(shù)據(jù)點(diǎn)、文本對(duì)相似性的算法，如歐幾里得距離，也有計(jì)算文本相似度的相似度算法，如 Levenshtein 算法。

相似性算法主要包括：K 近鄰算法、歐幾里得距離、余弦相似度、奇異值分解等。其中，K 近鄰算法，即是給定一個(gè)訓(xùn)練數(shù)據(jù)集，對(duì)新的輸入實(shí)例，在訓(xùn)練數(shù)據(jù)集中找到與該實(shí)例最鄰近的 K 個(gè)實(shí)例，這 K 個(gè)實(shí)例的多數(shù)屬于某個(gè)類，就把該輸入實(shí)例分類到這個(gè)類中。歐幾里得距離是歐幾里得空間中兩點(diǎn)間普通（即直線）距離。余弦相似度是通過(guò)計(jì)算兩個(gè)向量的夾角余弦值來(lái)評(píng)估他們的相似度。

原文鏈接：

https://towardsdatascience.com/all-machine-learning-algorithms-you-should-know-in-2022-db5b4ccdf32f

編輯：黃繼彥

佐治亞理工學(xué)院碩士建議：2022年你應(yīng)該掌握這些機(jī)器學(xué)習(xí)算法