本文為你介紹數(shù)據(jù)科學(xué)的基礎(chǔ)知識和數(shù)據(jù)分析的相關(guān)問題。
來自Amazon,google,Meta, Microsoft等的面試問題,問題很多,所以對問題進(jìn)行了分類整理,本文包含基礎(chǔ)知識和數(shù)據(jù)分析相關(guān)問題。基礎(chǔ)知識
1. 什么是數(shù)據(jù)科學(xué)?列出監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的區(qū)別。數(shù)據(jù)科學(xué)是各種工具、算法和機(jī)器學(xué)習(xí)方法的混合,其目標(biāo)是從原始數(shù)據(jù)中發(fā)現(xiàn)隱藏的模式。這與統(tǒng)計(jì)學(xué)家多年來一直在做的事情相似但是有什么不同?下圖解釋了數(shù)據(jù)分析和數(shù)據(jù)科學(xué)的區(qū)別:監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的區(qū)別如下:有監(jiān)督學(xué)習(xí):輸入數(shù)據(jù)是有標(biāo)記的,主要用于預(yù)測。例如分類和回歸等;無監(jiān)督學(xué)習(xí):輸入數(shù)據(jù)是沒有標(biāo)記的,多用于分析。密度估計(jì)和降維等。選擇性偏差溯源英文為Selection Bias,指的是在研究過程中因樣本選擇的非隨機(jī)性而導(dǎo)致得到的結(jié)論存在偏差,也稱選擇性偏差為選擇性效應(yīng)(Selection Effect)。它是由于采集樣本的方法造成的統(tǒng)計(jì)分析的失真。如果沒有考慮到選擇偏差,那么研究的一些結(jié)論可能不準(zhǔn)確。選擇性偏差是指這樣一種認(rèn)知傾向:人們喜歡把事物分為典型的幾個(gè)類別,然后在對事件進(jìn)行概率估計(jì)時(shí),過分強(qiáng)調(diào)這種典型類別的重要性,而不顧有關(guān)其他潛在可能性的證據(jù)。選擇性偏差的后果勢必使人們傾向于在實(shí)際上是隨機(jī)的數(shù)據(jù)序列中“洞察”到某種模式,從而造成系統(tǒng)性的預(yù)測偏差。偏差:偏差是由于機(jī)器學(xué)習(xí)算法過于簡化而在模型中引入的錯(cuò)誤。它會導(dǎo)致不適應(yīng)。當(dāng)你在那個(gè)時(shí)候訓(xùn)練你的模型時(shí),模型會簡化假設(shè),使目標(biāo)函數(shù)更容易理解。低偏差機(jī)器學(xué)習(xí)算法有:決策樹,k-NN和SVM,高偏差機(jī)器學(xué)習(xí)算法有:線性回歸,邏輯回歸。方差:方差是由于復(fù)雜的機(jī)器學(xué)習(xí)算法在模型中引入的誤差,模型會從訓(xùn)練數(shù)據(jù)集學(xué)習(xí)噪聲,在測試數(shù)據(jù)集上表現(xiàn)很差。它會導(dǎo)致高靈敏度和過擬合。通常,當(dāng)增加模型的復(fù)雜性時(shí),會看到由于模型中較低的偏差而導(dǎo)致的誤差的減少。然而,這種情況只會在特定的點(diǎn)發(fā)生。當(dāng)模型變得更復(fù)雜時(shí),最終會過度擬合型,因此你的模型將開始變?yōu)閕高方差。任何監(jiān)督機(jī)器學(xué)習(xí)算法的目標(biāo)都是具有低偏差和低方差,才能達(dá)到良好的預(yù)測性能。在機(jī)器學(xué)習(xí)中,偏見和方差之間的關(guān)系不可避免。增加偏差會減少方差。增加方差會減少偏差。4. 任意語言,編寫一個(gè)程序輸出從1到50的數(shù)字打印1到50之間的數(shù)字的python代碼如下:for i in range(1,51):print(i)
混淆矩陣是一個(gè)2X2表,包含由二分類器提供的4個(gè)輸出。錯(cuò)誤率、準(zhǔn)確率、精確度、查全(召回)率等指標(biāo)都由它來衡量?;煜仃嚕?/span>用于性能評估的數(shù)據(jù)集稱為測試數(shù)據(jù)集。它應(yīng)該包含正確的標(biāo)簽和預(yù)測的標(biāo)簽。如果分類器的性能是完美的,預(yù)測的標(biāo)簽將完全相同。但實(shí)際上模型預(yù)測的標(biāo)簽通常與現(xiàn)實(shí)場景中部分觀察到的標(biāo)簽相匹配。分類器預(yù)測測試數(shù)據(jù)集的所有數(shù)據(jù)實(shí)例為正或負(fù)。這產(chǎn)生了四種結(jié)果:- 真負(fù)(TN) -正確的負(fù)預(yù)測;
- 假陰性(FN) -錯(cuò)誤的陰性預(yù)測。
- 敏感度(Sensitivity真陽性率)= TP/P;
- 特異度(Specificity真陰性率)= TN/N;
- 精度(陽性預(yù)測值)= TP/(TP+FP);
- F-Score(精度和查全率的調(diào)和平均值)= (1+b)(PREC.REC)/(b2PREC+REC),其中b通常為0.5,1,2。
真陽性率(TPR)是真陽性與真陽性和假陰性的比率。它是實(shí)際陽性結(jié)果被測試為陽性的概率。假陽性率(FPR)是假陽性與所有陽性(真陽性和假陽性)的比率。它是虛驚一場的概率,也就是說,當(dāng)它實(shí)際上是負(fù)的時(shí)候,會給出一個(gè)正的結(jié)果。馬爾可夫鏈?zhǔn)且环N隨機(jī)過程。在馬爾可夫鏈中,任何狀態(tài)的未來概率只取決于當(dāng)前狀態(tài)。上圖表示了一個(gè)馬爾可夫鏈模型,其中每個(gè)步驟都有一個(gè)輸出,只依賴于當(dāng)前狀態(tài)。例如文字推薦。當(dāng)我們輸入一個(gè)段落時(shí),這個(gè)模型會提示下一個(gè)單詞,它只依賴于前一個(gè)單詞,而不依賴于它之前的任何單詞。馬爾科夫鏈模型之前在一個(gè)類似的段落上進(jìn)行訓(xùn)練,其中給定單詞的下一個(gè)單詞存儲在訓(xùn)練數(shù)據(jù)中的所有單詞上。根據(jù)這個(gè)訓(xùn)練數(shù)據(jù)輸出,建議接下來的單詞。ROC曲線是假陽性率(x軸)和真陽性率(y軸)之間的曲線。真陽性率是指真陽性率與陽性樣本總數(shù)之比。假陽性率是假陽性與陰性樣本總數(shù)之比。在幾個(gè)閾值上繪制FPR和TPR,構(gòu)建ROC曲線。ROC曲線下的面積范圍為0 ~ 1。完全隨機(jī)模型的ROC為0.5,用直線表示。ROC曲線偏離這條直線越多,模型越好。ROC曲線用于二元分類。下圖展示了ROC曲線的一個(gè)例子。減少給定數(shù)據(jù)集的特征數(shù)量被稱為降維。有許多技術(shù)用于降低維度,如:降維的主要原因之一是“降維魔咒”。當(dāng)特征的數(shù)量增加時(shí),模型變得更加復(fù)雜。但如果數(shù)據(jù)點(diǎn)較少,模型將開始學(xué)習(xí)過擬合數(shù)據(jù)。模型不會泛化。這就是眾所周知的“維度詛咒”。- 用2D或3D可視化和可視化表示數(shù)據(jù)變得更容易了;
10. 如何在線性回歸模型中找到RMSE和MSE ?采用均方根誤差(RMSE)來檢驗(yàn)線性回歸模型的性能。它評估在最佳擬合線上分布了多少數(shù)據(jù)。MSE的公式是:- N是數(shù)據(jù)點(diǎn)的個(gè)數(shù)。
均方誤差(MSE)表示直線與實(shí)際數(shù)據(jù)的接近程度。取直線與數(shù)據(jù)點(diǎn)的差值并平方。對于一個(gè)好的模型,MSE值應(yīng)該很低。這意味著實(shí)際輸出值和預(yù)測輸出值之間的誤差應(yīng)該很低。在進(jìn)行二分類時(shí),如果數(shù)據(jù)集不平衡,僅使用R2評分無法正確預(yù)測模型的精度。例如,如果屬于其中一個(gè)類的數(shù)據(jù)在數(shù)量上比屬于另一個(gè)類的數(shù)據(jù)少得多,那么傳統(tǒng)的精度將在較小的類中占很小的百分比。如果只有5%的示例屬于較小的類,而模型將屬于其他類的所有輸出分類,精度仍然在95%左右。但這是錯(cuò)誤的。為了解決這個(gè)問題,我們可以這樣做:- 使用其他方法來計(jì)算模型性能,如精度/召回率,F(xiàn)1評分等;
- 使用以下技術(shù)對數(shù)據(jù)重新采樣(減少較大類的樣本大小)、過采樣(使用重復(fù)、SMOTE和其他此類技術(shù)增加較小類的樣本大小);
- 使用集成學(xué)習(xí),使每棵決策樹考慮小類的整個(gè)樣本,而只考慮大類的一個(gè)子集。
直方圖和箱線圖都用于直觀地表示某一特征值的頻率。下圖顯示了一個(gè)直方圖。下圖為箱線圖現(xiàn)實(shí)的相同數(shù)據(jù):直方圖用于了解數(shù)據(jù)的潛在概率分布。箱線圖更多地用于比較多個(gè)數(shù)據(jù)集。箱線圖比直方圖有更少的細(xì)節(jié)和占用更少的空間。NLP代表自然語言處理。它是對計(jì)算機(jī)編程來學(xué)習(xí)大量文本數(shù)據(jù)的研究。NLP的例子包括標(biāo)記化、停止詞去除、詞根提取、情感分析等。在所有可能的結(jié)果中,某一事件發(fā)生的可能性被稱為其概率。事件發(fā)生的概率總是在(包括)0和1之間。- 加法規(guī)則:P(A或B)= P(A) + P(B) - P(A和B);
- 條件概率:它是事件B發(fā)生的概率,假設(shè)事件A已經(jīng)發(fā)生;
- P(A and B) = P(A|B)P(B) = P(B|A)P(A);
- 中心極限定理:當(dāng)我們從一個(gè)大總體中抽取隨機(jī)樣本,然后取這些樣本的均值,它們形成一個(gè)正態(tài)分布。
L2正則化-(Ridge回歸)-在L2正則化中,我們將所有權(quán)重的平方和,乘以一個(gè)值lambda,加到損失函數(shù)。Ridge回歸公式為:可以看到,如果某一特定數(shù)據(jù)點(diǎn)和特征的權(quán)值乘以數(shù)據(jù)值變得非常大,那么原始的損失就會變得很小。但是增加值乘以權(quán)重平方和也會變大。同樣如果原來的損失價(jià)值變得很大,那么增加的價(jià)值就會變小。因此它將控制最終值不變得太大或太小。L1正則化-(Lasso回歸)-在L1正則化中,我們將所有權(quán)重的絕對值加和,乘以一個(gè)值lambda,到損失函數(shù)。Lasso回歸公式為:損失函數(shù)和優(yōu)化算法使參數(shù)趨近于零而不是實(shí)際為零,而lasso則消除了不太重要的特征,并將各自的權(quán)重值設(shè)置為零。Dropout用于神經(jīng)網(wǎng)絡(luò)的正則化。全連接層更容易過擬合。Dropout丟掉了神經(jīng)網(wǎng)絡(luò)中一些概率為1-p的神經(jīng)元。Dropout減少了過擬合,提高了訓(xùn)練速度,使模型更健壯。16. 應(yīng)該如何維護(hù)已部署的模型?在一個(gè)模型被部署之后,它輸入的數(shù)據(jù)可能會隨時(shí)間而改變。例如,在預(yù)測房價(jià)的模型中,房價(jià)可能會隨著時(shí)間的推移而上漲,也可能會因?yàn)槠渌恍┮蛩囟▌?。所以模型在新?shù)據(jù)上的準(zhǔn)確性可以被記錄下來。一些確保準(zhǔn)確性的常用方法包括:- 應(yīng)經(jīng)常通過輸入陰性試驗(yàn)數(shù)據(jù)對模型進(jìn)行檢查。如果模型給出的精度較低且測試數(shù)據(jù)為負(fù),則說明需要更新;
- 建立自動編碼器,利用異常檢測技術(shù),AE模型計(jì)算重構(gòu)誤差值。如果重構(gòu)錯(cuò)誤值很高,這意味著新數(shù)據(jù)沒有遵循模型學(xué)習(xí)到的舊模式;
- 如果模型對新數(shù)據(jù)顯示出較好的預(yù)測精度,則說明新數(shù)據(jù)遵循模型對舊數(shù)據(jù)學(xué)習(xí)到的模式或泛化。因此,可以根據(jù)新數(shù)據(jù)對模型進(jìn)行重新訓(xùn)練。如果新數(shù)據(jù)的準(zhǔn)確性不是很好,那么可以使用對數(shù)據(jù)特征和舊數(shù)據(jù)進(jìn)行特征工程的方法對新數(shù)據(jù)重新訓(xùn)練模型;
- 如果準(zhǔn)確性不好,模型可能需要從頭開始訓(xùn)練。
17. 寫出公式,計(jì)算準(zhǔn)確率和召回率。Precision = True Positives / (True Positives + False Positives)Recall = True Positives / (True Positives + False Negatives)
18. 如何在NumPy中測量兩個(gè)數(shù)組之間的歐氏距離?2個(gè)陣列A[1,2,3,]和b[8,9,10]之間的歐氏距離可以通過分別取每個(gè)點(diǎn)的歐氏距離來計(jì)算。使用numpy. linalgy .norm():誤差是指預(yù)測值與實(shí)際值之間的差值。數(shù)據(jù)科學(xué)中最常用的誤差計(jì)算方法是平均絕對誤差(MAE)、均方誤差(MSE)和均方根誤差(RMSE)。而剩余誤差是一組觀測值與其算術(shù)平均值之間的差。誤差通常是不可觀察的,而剩余誤差可以在圖上顯示出來。誤差表示觀測數(shù)據(jù)與實(shí)際總體的差異。而剩余誤差則表示觀察數(shù)據(jù)與樣本總體數(shù)據(jù)的差異。20. 歸一化和標(biāo)準(zhǔn)化的區(qū)別?歸一化,也稱為最小-最大縮放,是一種將所有數(shù)據(jù)值轉(zhuǎn)換為介于0和1之間的技術(shù)。標(biāo)準(zhǔn)化是指將我們的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,使其具有均值為0,標(biāo)準(zhǔn)差為1的正態(tài)分布。因此,雖然標(biāo)準(zhǔn)化只將數(shù)據(jù)縮放到0到1的范圍,但標(biāo)準(zhǔn)化確保數(shù)據(jù)遵循標(biāo)準(zhǔn)的正態(tài)分布。數(shù)據(jù)通常以不同的方式分布,有向左或向右的偏差,也可能全部混雜在一起。然而,也有可能數(shù)據(jù)分布在中心值周圍,沒有任何向左或向右的偏差,并以鐘形曲線的形式達(dá)到正態(tài)分布。單峰,左右鏡像對稱,鐘形-最大高度(模式)在平均值,均值、眾數(shù)和中位數(shù)都位于中心。22. 什么是統(tǒng)計(jì)學(xué)上的相關(guān)性和協(xié)方差?協(xié)方差和相關(guān)是兩個(gè)數(shù)學(xué)概念;這兩種方法在統(tǒng)計(jì)學(xué)中被廣泛使用。相關(guān)和協(xié)方差都建立了關(guān)系,也衡量兩個(gè)隨機(jī)變量之間的依賴性。雖然從數(shù)學(xué)的角度來說,這兩者的工作是相似的,但他們彼此不同。相關(guān)性:相關(guān)被認(rèn)為或描述為測量和估計(jì)兩個(gè)變量之間的定量關(guān)系的最佳技術(shù)。相關(guān)性衡量的是兩個(gè)變量的相關(guān)性有多強(qiáng)。協(xié)方差:在協(xié)方差中,兩個(gè)項(xiàng)目一起變化,它是一個(gè)衡量兩個(gè)隨機(jī)變量在周期變化的程度。這是一個(gè)統(tǒng)計(jì)術(shù)語;它解釋了一對隨機(jī)變量之間的系統(tǒng)關(guān)系,其中一個(gè)變量的變化與另一個(gè)變量的相應(yīng)變化互為倒數(shù)。23. 點(diǎn)估計(jì)和置信區(qū)間的區(qū)別是什么?點(diǎn)估計(jì)給我們一個(gè)特定的值作為總體參數(shù)的估計(jì)。采用矩量法和極大似然估計(jì)法導(dǎo)出了總體參數(shù)的點(diǎn)估計(jì)。置信區(qū)間為我們提供了一個(gè)可能包含總體參數(shù)的值范圍。通常首選置信區(qū)間,因?yàn)樗嬖V我們這個(gè)區(qū)間包含總體參數(shù)的可能性有多大。這種可能性或概率稱為置信水平或置信系數(shù),用1 - alpha表示,其中alpha是顯著性水平。這是對一個(gè)有兩個(gè)變量A和B的隨機(jī)實(shí)驗(yàn)的假設(shè)檢驗(yàn)。A/B測試的目標(biāo)是識別變化,以最大限度地找到改變實(shí)驗(yàn)動作后對結(jié)果產(chǎn)生的影響。當(dāng)在統(tǒng)計(jì)學(xué)中進(jìn)行假設(shè)檢驗(yàn)時(shí),p值可以幫助您確定結(jié)果的強(qiáng)度。p值是0到1之間的一個(gè)數(shù)字。它將根據(jù)值表示結(jié)果的強(qiáng)度。這個(gè)正在試驗(yàn)的主張被稱為零假設(shè)。較低的p值(≤0.05)意味著我們可以拒絕原假設(shè)。高p值(≥0.05)這意味著可以接受零假設(shè),p值為0.05表明假設(shè)可以雙向。26. 概率計(jì)算:在任何15分鐘的間隔內(nèi),有20%的概率你會看到至少一顆流星。你在一小時(shí)內(nèi)看到至少一顆流星的概率是多少?= 1 - P(看到一顆流星)= 1-0.2 = 0.8在一小時(shí)內(nèi)看不到任何流星的概率:在一小時(shí)內(nèi)看到至少一顆流星的概率:= 1 - P(看不到任何流星)= 1-0.4096 = 0.590427. 如何用一個(gè)骰子產(chǎn)生1-7之間的隨機(jī)數(shù)?任何骰子有從1到6有6個(gè)面。一次擲骰子不可能得到7個(gè)相同的結(jié)果。如果我們擲骰子兩次,考慮兩次的事件,我們現(xiàn)在有36種不同的結(jié)果。為了得到7個(gè)相等的結(jié)果我們要把36化簡成能被7整除的數(shù)。因此可以只考慮35種結(jié)果,并排除其中的一種。一個(gè)簡單的場景便是排除組合(6,6),即如果6出現(xiàn)兩次便再次擲骰子。從(1,1)到(6,5)的所有剩余組合可以分為7個(gè)部分,每個(gè)部分5。這樣七組結(jié)果都是等可能的。28. 一對夫婦告訴你他們有兩個(gè)孩子,其中至少有一個(gè)是女孩。他們有兩個(gè)女孩的概率是多少?其中B =男孩,G =女孩,第一個(gè)字母表示第一個(gè)孩子。從問題中,我們可以排除第一種BB。因此,從BG, GB, BB剩下的3種可能性中,我們必須找出兩個(gè)女孩的情況的概率。因此,P(有兩個(gè)女孩給一個(gè)女孩)= 1 / 329. 一個(gè)罐子有1000枚硬幣,其中999枚是正常的,1枚的兩面都是正面。隨機(jī)選擇一枚硬幣,投擲10次。假設(shè)你看到10個(gè)正面,那枚硬幣下一次扔出來也是正面的概率是多少?選擇硬幣有兩種方法。一種是選出一枚正常的硬幣,另一種是選出兩個(gè)正面的硬幣。選擇正常硬幣的概率= 999/1000 = 0.999選擇非正常硬幣的概率= 1/1000 = 0.001連續(xù)選擇10個(gè)正面=選擇正常硬幣*得到10個(gè)正常+選擇一枚非正常硬幣:P (A) = 0.999 *(1/2)?= 0.999 * (1/1024)= 0.000976P (b) = 0.001 * 1 = 0.001P(a / a + b) = 0.000976 / (0.000976 + 0.001) = 0.4939P(b / a + b) = 0.001 / 0.001976 = 0.5061選擇另一個(gè)正面的概率= P(A/A+B) * 0.5 + P(B/A+B) * 1 = 0.4939 * 0.5 + 0.5061 = 0.753130. 你對敏感度(Sensitivity)的統(tǒng)計(jì)能力有什么理解?你如何計(jì)算它?敏感度通常被用來驗(yàn)證分類器的準(zhǔn)確性(Logistic, SVM, Random Forest等)。敏感度是“預(yù)測的真實(shí)事件/總事件”。真實(shí)事件是指真實(shí)的事件模型也預(yù)測了它們是真實(shí)的。計(jì)算非常簡單。敏感度(Sensitivity真陽性率)= TP/P
- 通過使用可訪問數(shù)據(jù)的子集或從一組數(shù)據(jù)點(diǎn)中隨機(jī)抽取替換數(shù)據(jù)來估計(jì)樣本統(tǒng)計(jì)數(shù)據(jù)的準(zhǔn)確性;
- 執(zhí)行顯著性檢驗(yàn)時(shí),在數(shù)據(jù)點(diǎn)上替換標(biāo)簽;
- 通過使用隨機(jī)子集(bootstrapping, cross-validation)來驗(yàn)證模型。
在統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中,最常見的任務(wù)之一就是將模型擬合到一組訓(xùn)練數(shù)據(jù)中,從而能夠?qū)σ话愕奈唇?jīng)訓(xùn)練的數(shù)據(jù)做出可靠的預(yù)測。在過擬合中,統(tǒng)計(jì)模型描述的是隨機(jī)誤差或噪聲,而不是潛在的關(guān)系。過擬合發(fā)生在一個(gè)模型過于復(fù)雜的時(shí)候,比如相對于觀測數(shù)據(jù)有太多的參數(shù)。過擬合的模型預(yù)測性能較差,因?yàn)樗鼘τ?xùn)練數(shù)據(jù)的微小波動反應(yīng)過度。當(dāng)統(tǒng)計(jì)模型或機(jī)器學(xué)習(xí)算法無法捕捉數(shù)據(jù)的潛在趨勢時(shí),就會發(fā)生欠擬合。例如,當(dāng)用線性模型擬合非線性數(shù)據(jù)時(shí),就會出現(xiàn)欠擬合。這種模型的預(yù)測性能也很差。為了避免過擬合和欠擬合,可以重采樣數(shù)據(jù)來估計(jì)模型的準(zhǔn)確性(k倍交叉驗(yàn)證),并通過驗(yàn)證數(shù)據(jù)集來評估模型。正則化可以防止過擬合。一般情況下是通過在現(xiàn)有的權(quán)重向量上加上一個(gè)常數(shù)倍數(shù)來實(shí)現(xiàn)的。這個(gè)常數(shù)通常是L1(Lasso)或L2(ridge)。然后模型預(yù)測應(yīng)該最小化在正則化訓(xùn)練集上計(jì)算的損失函數(shù)。這個(gè)定理,描述了進(jìn)行大量相同實(shí)驗(yàn)的結(jié)果。這個(gè)定理構(gòu)成了頻率式思維的基礎(chǔ):樣本均值,樣本方差和樣本標(biāo)準(zhǔn)差收斂于他們試圖估計(jì)的值。在統(tǒng)計(jì)數(shù)據(jù)中,混淆因素是一個(gè)影響因變量和獨(dú)立變量的變量?;煜兞?Confounding Variable)是指與自變量和因變量均相關(guān)的變量,該變量使自變量和因變量間產(chǎn)生虛假的關(guān)系(Meinert, 1986)。例如,如果您正在研究缺乏運(yùn)動會導(dǎo)致體重增加:這里的混淆變量將是影響這兩個(gè)變量的任何變量例如受試者的年齡。37. 抽樣過程中可能發(fā)生的偏差都有哪些類型?38. 什么是生存偏差(Survivorship bias)?這是一個(gè)邏輯上的錯(cuò)誤,即專注于支持幸存某些過程的方面,而忽略那些因?yàn)樗鼈儾煌怀龆黄鹱饔玫姆矫妗_@可能會以各種不同的方式得出錯(cuò)誤的結(jié)論。39. 什么是選擇偏差(Selection bias)?當(dāng)獲得的樣本不能代表要分析的總體時(shí),就會出現(xiàn)選擇偏差。ROC曲線是各種閾值下真實(shí)陽性率和假陽性率對比的圖形表示。它經(jīng)常被用作敏感性(真陽性率)和假陽性率之間權(quán)衡的標(biāo)準(zhǔn)。TF-IDF是 term frequency-inverse document frequency,的縮寫,是反映一個(gè)詞對集合或語料庫中的文檔的重要性的統(tǒng)計(jì)數(shù)字。在信息檢索和文本挖掘中,它經(jīng)常被用作加權(quán)因子。TF-IDF值與單詞在文檔中出現(xiàn)的次數(shù)成比例增加,但會被單詞在語料庫中的出現(xiàn)頻率所抵消,這有助于調(diào)整某些單詞在一般情況下出現(xiàn)的頻率更高的事實(shí)。42. 為什么我們一般使用Softmax非線性函數(shù)作為網(wǎng)絡(luò)最后一個(gè)操作?這是因?yàn)樗捎昧藢?shí)數(shù)的向量并返回概率分布。它的定義如下。令X為實(shí)數(shù)的向量(正,負(fù),無論如何,沒有約束)。輸出是概率分布:每個(gè)元素都是非負(fù)分布,所有分量的總和為1。
數(shù)據(jù)分析
43. 數(shù)據(jù)清理如何在分析中發(fā)揮重要作用?數(shù)據(jù)清理可以幫助分析,因?yàn)椋?/span>- 清理來自多個(gè)源的數(shù)據(jù)有助于將其轉(zhuǎn)換為數(shù)據(jù)分析師或數(shù)據(jù)科學(xué)家可以使用的格式;
- 在機(jī)器學(xué)習(xí)中,數(shù)據(jù)清洗有助于提高模型的準(zhǔn)確性;
- 這是一個(gè)繁瑣的過程,因?yàn)殡S著數(shù)據(jù)源數(shù)量的增加,由于數(shù)據(jù)源的數(shù)量和這些數(shù)據(jù)源生成的數(shù)據(jù)量,清理數(shù)據(jù)所需的時(shí)間呈指數(shù)增長;
- 清理數(shù)據(jù)可能要花費(fèi)多達(dá)80%的時(shí)間,這使得它成為分析任務(wù)的關(guān)鍵部分。
單變量分析是一種描述性統(tǒng)計(jì)分析技術(shù),可以根據(jù)在給定的時(shí)間點(diǎn)所涉及的變量的數(shù)量進(jìn)行區(qū)分。例如,基于地域的銷售餅圖只涉及一個(gè)變量,分析可以稱為單變量分析。雙變量分析試圖在散點(diǎn)圖中理解兩個(gè)變量在同一時(shí)間的差異。例如,分析銷售和支出的數(shù)量可以被認(rèn)為是雙變量分析的一個(gè)例子。多變量分析涉及兩個(gè)以上變量的研究,以了解變量對反應(yīng)的影響。它是具有中心表的傳統(tǒng)數(shù)據(jù)庫模式。附屬表將ID映射到物理名稱或描述,可以使用ID字段連接到中心事實(shí)表;這些表被稱為查找表,主要用于實(shí)時(shí)應(yīng)用程序,因?yàn)樗鼈兛梢怨?jié)省大量內(nèi)存。有時(shí)星型模式涉及多個(gè)匯總層以更快地獲取相應(yīng)的信息。46. 什么是整群抽樣(Cluster sampling)?整群抽樣是指整群地抽選樣本單位,對被抽選的各群進(jìn)行全面調(diào)查的一種抽樣組織方式。例如,檢驗(yàn)?zāi)撤N零件的質(zhì)量時(shí),不是逐個(gè)抽取零件,而是隨機(jī)抽若干盒 (每盒裝有若干個(gè)零件),對所抽各盒零件進(jìn)行全面檢驗(yàn)。如果全及總體劃分為單位數(shù)目相等的R個(gè)群,用不重復(fù)抽樣方法,從R群中抽取r群進(jìn)行調(diào)查。47. 什么是系統(tǒng)抽樣(Systematic Sampling)?先將總體的全部單元按照一定順序排列,采用簡單隨機(jī)抽樣抽取第一個(gè)樣本單元(或稱為隨機(jī)起點(diǎn)),再順序抽取其余的樣本單元,這類抽樣方法被稱為等距抽樣(Systematic Sampling)。等距抽樣又稱為機(jī)械抽樣、系統(tǒng)抽樣。等距抽樣往往不能給出估計(jì)量的估計(jì)方差。48. 什么是特征向量(Eigenvectors)和特征值(Eigenvalues)?特征向量用于理解線性變換。在數(shù)據(jù)分析中,通常計(jì)算相關(guān)或協(xié)方差矩陣的特征向量。特征向量是特定線性變換通過翻轉(zhuǎn)、壓縮或拉伸作用的方向。特征值可以被認(rèn)為是在特征向量方向上的變換強(qiáng)度或壓縮發(fā)生的因子。假陽性是指錯(cuò)誤地將非事件分類為事件,也就是第一類錯(cuò)誤。假陰性是指錯(cuò)誤地將事件歸類為非事件的情況,也就是第二類錯(cuò)誤。在醫(yī)療領(lǐng)域,例如癌癥檢查他的癌癥檢測呈陽性,但他實(shí)際上沒有癌癥。這是一個(gè)假陽性的案例。在這個(gè)病人沒有癌癥的情況下對他進(jìn)行化療是非常危險(xiǎn)的。在沒有癌細(xì)胞的情況下,化療會對他正常健康的細(xì)胞造成一定的損害,可能導(dǎo)致嚴(yán)重的疾病,甚至癌癥。假設(shè)有一個(gè)機(jī)場安檢如果一個(gè)真正有威脅的客戶被機(jī)場模型標(biāo)記為無威脅,陪審團(tuán)或法官決定釋放犯罪的罪犯都是這種情況。51. 你能舉出一些假陽性和假陰性同樣重要的例子嗎?在銀行業(yè),貸款是賺錢的主要來源,如果你的還款率不好,銀行向你貸款面臨巨大的損失風(fēng)險(xiǎn)。銀行不想失去好客戶,也不想獲得差客戶。在這種情況下假陽性和假陰性都變得非常重要。52. 您能解釋一下驗(yàn)證集和測試集之間的區(qū)別嗎?驗(yàn)證集可以被認(rèn)為是訓(xùn)練集的一部分,因?yàn)樗糜趨?shù)選擇和避免模型的過擬合。測試集用于測試或評估訓(xùn)練好的機(jī)器學(xué)習(xí)模型的性能。簡單地說,區(qū)別可以概括為;訓(xùn)練集是擬合參數(shù),驗(yàn)證集是測試訓(xùn)練集的效果;測試集是評估模型的性能。交叉驗(yàn)證是一種模型驗(yàn)證技術(shù),用于評估統(tǒng)計(jì)分析結(jié)果如何推廣到獨(dú)立數(shù)據(jù)集。主要用于預(yù)測目標(biāo)和估計(jì)模型在實(shí)踐中實(shí)現(xiàn)的準(zhǔn)確性的背景。交叉驗(yàn)證的目標(biāo)是定義一個(gè)數(shù)據(jù)集來在訓(xùn)練階段測試模型(即驗(yàn)證數(shù)據(jù)集),以限制過擬合等問題,并深入了解模型將如何推廣到一個(gè)獨(dú)立的數(shù)據(jù)集。