<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          獨(dú)家 | 降維是數(shù)據(jù)科學(xué)家的必由之路

          共 4990字,需瀏覽 10分鐘

           ·

          2021-04-17 19:44

          作者:shanthababu

          翻譯:王可汗

          校對(duì):歐陽錦


          本文約2200字,建議閱讀10分鐘

          本文為大家介紹了降維的概念及降維技術(shù)主成分分析(PCA)在特征工程中的應(yīng)用。

           
          本文作為數(shù)據(jù)科學(xué)博客馬拉松的一部分發(fā)表。

          https://datahack.analyticsvidhya.com/contest/data-science-blogathon-7/


          你好!我喜歡分享我作為一個(gè)初級(jí)數(shù)據(jù)科學(xué)家的有趣經(jīng)歷,我甚至可以說在那時(shí)我在這個(gè)數(shù)據(jù)科學(xué)領(lǐng)域只是一個(gè)初學(xué)者。

          有個(gè)客戶來找我們要用機(jī)器學(xué)習(xí)來實(shí)現(xiàn)他們的問題,不管以無監(jiān)督形式還是有監(jiān)督形式。我本以為這將是一如既往的執(zhí)行模式和流程,因?yàn)楦鶕?jù)我小規(guī)模實(shí)現(xiàn)或訓(xùn)練的經(jīng)驗(yàn),我們往往使用25~30個(gè)特征。我們用它來預(yù)測(cè)、分類或聚類數(shù)據(jù)集,并分享結(jié)果。

          但這一次,他們提出了成千上萬的特征,但我有點(diǎn)驚訝和害怕,開始暈頭轉(zhuǎn)向。與此同時(shí),我的高級(jí)數(shù)據(jù)科學(xué)家把團(tuán)隊(duì)里的每個(gè)人都帶到了會(huì)議室。
           


          我的高級(jí)數(shù)據(jù)科學(xué)家(Senior Data Scientist ,Sr. DS)創(chuàng)造了新單詞,對(duì)我們來說,這只不過是降維度災(zāi)難的問題,所有的初學(xué)者都認(rèn)為他將解釋物理層面的一些東西,因?yàn)槲覀儙缀醪挥浀梦覀兣嘤?xùn)項(xiàng)目中遇到過這類情況。接下來,他開始在畫板上畫(見圖1)。當(dāng)我們開始看1-D, 2-D時(shí)我們很舒服,但3-D時(shí),我們開始暈頭轉(zhuǎn)向。
           

          1-D,2-D

           

          3-D

          Sr. DS繼續(xù)他的講座,所有這些示例圖片都是顯著的特征,我們可以在實(shí)時(shí)場(chǎng)景中使用它們,許多機(jī)器學(xué)習(xí)問題涉及數(shù)以千計(jì)的特征,所以我們最終訓(xùn)練這些模型的速度會(huì)變得非常慢,以至于不能很好地解決業(yè)務(wù)問題,并且這時(shí)候我們不能凍結(jié)模型,這種情況就是所謂的“維度災(zāi)難”引起的。然后,我們開始思考一個(gè)問題,我們應(yīng)該如何處理這個(gè)“維度災(zāi)難”問題。

          他深吸了一口氣,繼續(xù)以自己的風(fēng)格分享自己的經(jīng)歷。他從一個(gè)簡(jiǎn)單的定義開始,如下:
           
          維度是什么?

          我們可以說,我們的數(shù)據(jù)集中特征的數(shù)量被稱為其維數(shù)。

          什么是降維?

          降維是對(duì)給定數(shù)據(jù)集進(jìn)行(特征)降維的過程。也就是說,如果您的數(shù)據(jù)集有100列/特性,并將列數(shù)減少到了20-25列。簡(jiǎn)單地說,您是在二維空間中將柱面/球體轉(zhuǎn)換成圓或立方體,如下圖所示。
           

          3d – 2d轉(zhuǎn)換

          他在下面清楚地描繪了模型性能和特征(維度)數(shù)量之間的關(guān)系。隨著特征數(shù)量的增加,數(shù)據(jù)點(diǎn)的數(shù)量也成比例地增加。更直接的說法是越多的特征會(huì)帶來更多的數(shù)據(jù)樣本,所以我們已經(jīng)表示了所有的特征組合及其值。
           

          模型性能Vs特征數(shù)量
           
          現(xiàn)在房間里的每個(gè)人都從一個(gè)更高的角度領(lǐng)會(huì)到了什么是“維度災(zāi)難”。
           
          降維的好處

          突然,一個(gè)團(tuán)隊(duì)成員問他能否告訴我們?cè)诮o定數(shù)據(jù)集上進(jìn)行特征降維的好處。我們的前輩并沒有停止進(jìn)一步分享他淵博的知識(shí)。他繼續(xù)如下。如果我們進(jìn)行降維,會(huì)有很多好處。

          • 它有助于消除冗余的特征和噪聲誤差因素,最終增強(qiáng)給定數(shù)據(jù)集的可視化。

          • 由于降低了維度,可以表現(xiàn)出優(yōu)秀的內(nèi)存管理。

          • 通過從數(shù)據(jù)集中刪除不必要的特征列表來選擇正確的特征,從而提高模型的性能。

          • 當(dāng)然,更少的維度(強(qiáng)制性的維度列表)需要更少的計(jì)算效率,更快地訓(xùn)練模型,提高模型的準(zhǔn)確性。

          • 大大降低了整個(gè)模型及其性能的復(fù)雜性和過擬合。


          是的!這是一個(gè)令人敬畏的,魯棒的和動(dòng)態(tài)的“降維”。現(xiàn)在,我可以將降維的優(yōu)點(diǎn)總結(jié)如下圖所示。希望對(duì)你也有幫助。
           

          降維的好處

          當(dāng)然,下一步是什么!我們接下來探討有哪些技術(shù)可以用于降維。
           
          降維技術(shù)

          我們的Sr. DS對(duì)數(shù)據(jù)科學(xué)領(lǐng)域中任何可能的技術(shù)非常感興趣,他繼續(xù)他的解釋。降維的方法被籠統(tǒng)地分為兩種,如前面提到,考慮選擇最佳擬合特征或刪除給定高維數(shù)數(shù)據(jù)集中不太重要的特征。些高級(jí)技術(shù)通常被稱為特征選擇特征提取,基本上,這是特征工程的一部分。他把這些點(diǎn)講得很清楚。
           

          特征工程家族中的降維定位

          他帶領(lǐng)我們進(jìn)一步深入概念,理解在高維數(shù)據(jù)集上應(yīng)用“降維”的重點(diǎn)。一旦我們看到下圖,我們就可以將特征工程和降維聯(lián)系起來。看看這個(gè)圖,我們Sr. DS的降維的精髓就在里面!
           


          每個(gè)人都想知道如何通過簡(jiǎn)單的編碼來使用Python庫來使用這些降維技術(shù)。我們的Sr. DS要求我拿來彩色筆和板擦。

          Sr. DS拿起新的藍(lán)筆,開始用一個(gè)簡(jiǎn)單的例子來解釋PCA,如下所示,在此之前,他解釋了什么是降維PCA。

          主成分分析(PCA):主成分分析是一種對(duì)給定數(shù)據(jù)集進(jìn)行降維的技術(shù),在信息損失可忽略的情況下,增加了可解釋性。這里變量的數(shù)量在減少,因此進(jìn)一步的分析更簡(jiǎn)單。它把一組相關(guān)的變量轉(zhuǎn)換成一組不相關(guān)的變量。用于機(jī)器學(xué)習(xí)預(yù)測(cè)建模。他建議我們通過特征向量,特征值分析。
           
          他取了熟悉的wine.csv來快速分析。


           # Import all the necessary packagesimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import confusion_matrixfrom sklearn.metrics import accuracy_scorefrom sklearn import metrics%matplotlib inlineimport matplotlib.pyplot as plt%matplotlib inlinewq_dataset = pd.read_csv('winequality.csv')

          對(duì)于給定數(shù)據(jù)集的數(shù)據(jù)分析

          wq_dataset.head(5)
           


          wq_dataset.describe()
           


          wq_dataset.isnull().any()
           


          在給定的數(shù)據(jù)集中沒有空值,很好,我們很幸運(yùn)。
           
          找出每個(gè)特征的相關(guān)性

          correlations = wq_dataset.corr()['quality'].drop('quality')print(correlations)
           

           
          使用熱力圖進(jìn)行相關(guān)性表示

          sns.heatmap(wq_dataset.corr())plt.show()


          x = wq_dataset[features]y = wq_dataset['quality'][‘fixed acidity’, ‘volatile acidity’, ‘citric acid’, ‘chlorides’, ‘total sulfur dioxide’, ‘density’, ‘sulphates’, ‘a(chǎn)lcohol’]

          #使用train_test_split創(chuàng)建訓(xùn)練和測(cè)試集

          x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=3)

          訓(xùn)練和測(cè)試集形狀

          print('Traning data shape:', x_train.shape)print('Testing data shape:', x_test.shape)
          Traning data shape: (1199, 8)Testing data shape: (400, 8)

          PCA降維實(shí)現(xiàn)(2列)

          from sklearn.decomposition import PCApca_wins = PCA(n_components=2)principalComponents_wins = pca_wins.fit_transform(x)

          命名為第1主成分,第2主成分

          pcs_wins_df = pd.DataFrame(data = principalComponents_wins, columns = ['principal component 1', 'principal component 2'])

          新的主成分及其值。

          pcs_wins_df.head()
           


          當(dāng)我們看到上面兩個(gè)新的列名和值時(shí),我們都感到驚訝,我們問‘fixed acidity’, ‘volatile acidity, ‘citric acid’, ‘chlorides’, ‘total sulfur dioxide’, ‘density’, ‘sulphates’, ‘a(chǎn)lcohol’等列會(huì)發(fā)生什么變化。Sr. DS說所有的都沒有了,在應(yīng)用了PCA對(duì)給定數(shù)據(jù)進(jìn)行降維后,我們現(xiàn)在只有兩列特征值,然后我們將實(shí)現(xiàn)很少的模型,這將是正常的方式。
           
          他提到了一個(gè)關(guān)鍵詞“每一個(gè)主成分的變化量
           
          這是由主成分解釋的方差的分?jǐn)?shù)是主成分的方差和總方差之間的比率

          print('Explained variation per principal component: {}'.format(pca_wins.explained_variance_ratio_))Explained variation per principal component: [0.99615166 0.00278501]
           
          隨后,他演示了以下模型

          • 邏輯回歸

          • 隨機(jī)森林

          • KNN

          • 樸素貝葉斯


          這些模型的精度更好,每個(gè)模型之間的差異很小,但他提到這是為了實(shí)現(xiàn)PCA。房間里的每個(gè)人都覺得我們完成了一次很棒的挑戰(zhàn)。他建議我們動(dòng)手嘗試其他的降維技術(shù)。
           
          好了,朋友們!感謝您的時(shí)間,希望我能在這里以正確的方式講述我在降維技術(shù)方面的學(xué)習(xí)經(jīng)驗(yàn),我相信這將有助于在機(jī)器學(xué)習(xí)問題陳述中繼續(xù)處理復(fù)雜數(shù)據(jù)集的旅程。加油!


          原文標(biāo)題:

          Dimensionality Reduction a Descry for Data Scientist

          原文鏈接:

          https://www.analyticsvidhya.com/blog/2021/04/dimensionality-reduction-a-descry-for-data-scientist/


          編輯:于騰凱
          校對(duì):林亦霖




          譯者簡(jiǎn)介







          王可汗,清華大學(xué)機(jī)械工程系直博生在讀。曾經(jīng)有著物理專業(yè)的知識(shí)背景,研究生期間對(duì)數(shù)據(jù)科學(xué)產(chǎn)生濃厚興趣,對(duì)機(jī)器學(xué)習(xí)AI充滿好奇。期待著在科研道路上,人工智能與機(jī)械工程、計(jì)算物理碰撞出別樣的火花。希望結(jié)交朋友分享更多數(shù)據(jù)科學(xué)的故事,用數(shù)據(jù)科學(xué)的思維看待世界。

          翻譯組招募信息

          工作內(nèi)容:需要一顆細(xì)致的心,將選取好的外文文章翻譯成流暢的中文。如果你是數(shù)據(jù)科學(xué)/統(tǒng)計(jì)學(xué)/計(jì)算機(jī)類的留學(xué)生,或在海外從事相關(guān)工作,或?qū)ψ约和庹Z水平有信心的朋友歡迎加入翻譯小組。

          你能得到:定期的翻譯培訓(xùn)提高志愿者的翻譯水平,提高對(duì)于數(shù)據(jù)科學(xué)前沿的認(rèn)知,海外的朋友可以和國內(nèi)技術(shù)應(yīng)用發(fā)展保持聯(lián)系,THU數(shù)據(jù)派產(chǎn)學(xué)研的背景為志愿者帶來好的發(fā)展機(jī)遇。

          其他福利:來自于名企的數(shù)據(jù)科學(xué)工作者,北大清華以及海外等名校學(xué)生他們都將成為你在翻譯小組的伙伴。


          點(diǎn)擊文末“閱讀原文”加入數(shù)據(jù)派團(tuán)隊(duì)~



          轉(zhuǎn)載須知

          如需轉(zhuǎn)載,請(qǐng)?jiān)陂_篇顯著位置注明作者和出處(轉(zhuǎn)自:數(shù)據(jù)派ID:DatapiTHU),并在文章結(jié)尾放置數(shù)據(jù)派醒目二維碼。有原創(chuàng)標(biāo)識(shí)文章,請(qǐng)發(fā)送【文章名稱-待授權(quán)公眾號(hào)名稱及ID】至聯(lián)系郵箱,申請(qǐng)白名單授權(quán)并按要求編輯。

          發(fā)布后請(qǐng)將鏈接反饋至聯(lián)系郵箱(見下方)。未經(jīng)許可的轉(zhuǎn)載以及改編者,我們將依法追究其法律責(zé)任。



          點(diǎn)擊“閱讀原文”擁抱組織


          瀏覽 56
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲无码精品九九九 | 欧美日韩在线视频免费观看 | 亚洲成人av在线观看 | 色老板视频凹凸精品视频 | 干批视频免费 |