講講PCA主成分分析數(shù)據(jù)D江湖關(guān)注共 1407字,需瀏覽 3分鐘 ·2021-02-05 21:34 在機(jī)器學(xué)習(xí)的領(lǐng)域中,我們對原始數(shù)據(jù)進(jìn)行特征提取,經(jīng)常會(huì)得到高維度的特征向量。在這些多特征的高維空間中,會(huì)包含一些冗余和噪聲。所以我們希望通過降維的方式來尋找數(shù)據(jù)內(nèi)部的特性,提升特征表達(dá)能力,降低模型的訓(xùn)練成本。PCA是一種降維的經(jīng)典算法,屬于線性、非監(jiān)督、全局的降維方法。?? ?01? ??? ? ? ? ? ? ?? ? ? ? ? ? ?? ? ? ? ? ? ?PCA原理PCA的原理是線性映射,簡單的說就是將高維空間數(shù)據(jù)投影到低維空間上,然后將數(shù)據(jù)包含信息量大的主成分保留下來,忽略掉對數(shù)據(jù)描述不重要的次要信息。而對于正交屬性空間中的樣本,如何用一個(gè)超平面對所有樣本進(jìn)行恰當(dāng)合適的表達(dá)呢?若存在這樣的超平面,應(yīng)該具有兩種性質(zhì):所有樣本點(diǎn)到超平面的距離最近樣本點(diǎn)在這個(gè)超平面的投影盡可能分開以上兩種性質(zhì)便是主成分分析的兩種等價(jià)的推導(dǎo),即PCA最小平方誤差理論和PCA最大方差理論,本篇主要為大家介紹最大方差理論。?PCA的降維操作是選取數(shù)據(jù)離散程度最大的方向(方差最大的方向)作為第一主成分,第二主成分選擇方差次大的方向,并且與第一個(gè)主成分正交。不算重復(fù)這個(gè)過程直到找到k個(gè)主成分。數(shù)據(jù)點(diǎn)分布在主成分方向上的離散程度最大,且主成分向量彼此之間正交;?? ?02? ??PCA算法實(shí)現(xiàn)步驟1、對所有數(shù)據(jù)特征進(jìn)行中心化和歸一化對樣本進(jìn)行平移使其重心在原點(diǎn),并且消除不同特征數(shù)值大小的影響,轉(zhuǎn)換為統(tǒng)一量綱:2、計(jì)算樣本的協(xié)方差矩陣協(xié)方差是對兩個(gè)隨機(jī)變量聯(lián)合分布線性相關(guān)程度的一種度量;3、對協(xié)方差矩陣求解特征值和特征向量注意點(diǎn):1、對稱矩陣的特征向量相互正交,其點(diǎn)乘為02、數(shù)據(jù)點(diǎn)在特征向量上投影的方差,為對應(yīng)的特征值,選擇特征值大的特征向量,就是選擇點(diǎn)投影方差大的方向,即是具有高信息量的主成分;次佳投影方向位于最佳投影方向的正交空間,是第二大特征值對應(yīng)的特征向量,以此類推;?4、選取k個(gè)最大大特征值對應(yīng)的特征向量,即是k個(gè)主成分U是協(xié)方差矩陣所有的特征向量構(gòu)成的矩陣,對應(yīng)的特征值滿足:λ1>λ2>?>λn,同時(shí)使其滿足在主成分向量上投影的方差和占總方差的99%或者95%以上,即確定了k的選取。??? ?03? ??降維python實(shí)現(xiàn)1、配置環(huán)境,導(dǎo)入相關(guān)包2、讀取數(shù)據(jù)3、讀取特征、標(biāo)簽列,并進(jìn)行中心化歸一化,選取主成分個(gè)數(shù),前2個(gè)主成分的方差和>95%4、將降維后特征可視化,橫縱坐標(biāo)代表兩個(gè)主成分,顏色代表結(jié)果標(biāo)簽分類,即可根據(jù)主成分進(jìn)行后續(xù)分析、建模以上PCA主成分分析就講完了,本文進(jìn)行了樣本點(diǎn)在超平面的投影盡可能分開的推導(dǎo)原理闡述,大家感興趣的可以研究另一種等價(jià)推導(dǎo),即樣本點(diǎn)到超平面的距離最近;--------? ?往 期 推 薦??----------▼[PPT福利領(lǐng)取】分享一些高大上、有逼格的PPT模板[數(shù)據(jù)產(chǎn)品筆記】二、數(shù)據(jù)可視化設(shè)計(jì)規(guī)范2021年讓我們做個(gè)深度思考的人我所理解的【數(shù)據(jù)中臺】建設(shè)方法論超級PPT福利貼 | 免費(fèi)PPT素材資源領(lǐng)取[阿里首次公開]-數(shù)據(jù)中臺實(shí)踐完整版(附下載)用過往的經(jīng)歷,聊聊數(shù)據(jù)分析這個(gè)職業(yè)? ?? 瀏覽 66點(diǎn)贊 評論 收藏 分享 手機(jī)掃一掃分享分享 舉報(bào) 評論圖片表情視頻評價(jià)全部評論推薦 主成分分析(PCA)原理總結(jié)小白學(xué)視覺0主成分分析(PCA)的使用Python面面觀0PCA主成分分析的可視化(Python)算法進(jìn)階0從奇異值分解 SVD 看 PCA 的主成分機(jī)器學(xué)習(xí)與數(shù)學(xué)0【機(jī)器學(xué)習(xí)】主成分分析(PCA):通過圖像可視化深入理解機(jī)器學(xué)習(xí)初學(xué)者0主成分分析的可視化展示生信寶典0成分分析成分分析0100天搞定機(jī)器學(xué)習(xí)|Day59 主成分分析(PCA)原理及使用詳解機(jī)器學(xué)習(xí)算法與Python實(shí)戰(zhàn)0講講回歸分析模型俊紅的數(shù)據(jù)分析之路0機(jī)器學(xué)習(xí)數(shù)學(xué)基礎(chǔ):從奇異值分解 SVD 看 PCA 的主成分機(jī)器學(xué)習(xí)算法與Python實(shí)戰(zhàn)0點(diǎn)贊 評論 收藏 分享 手機(jī)掃一掃分享分享 舉報(bào)