在數(shù)據(jù)科學(xué)中需要多少數(shù)學(xué)技能?(附鏈接)

作者:Benjamin Obi Tayo
翻譯:劉思婧
校對:車前子

Jeswin Thomas?on?Unsplash
I.引言
我?guī)缀鯖]有數(shù)學(xué)背景,可以成為一個(gè)數(shù)據(jù)科學(xué)家嗎?
數(shù)據(jù)科學(xué)中的哪些基本數(shù)學(xué)技能很重要?
Ggplot2
Matplotlib
Seaborn
Scikit-learn
Caret
TensorFlow
PyTorch
Keras
借助這些軟件包,任何人都可以構(gòu)建模型或進(jìn)行數(shù)據(jù)可視化。但是,扎實(shí)的數(shù)學(xué)背景知識(shí)對于模型微調(diào)(fine-tuning)以生成具有最佳性能的可靠模型至關(guān)重要。建立模型是一回事,但解釋模型并得出可用于數(shù)據(jù)驅(qū)動(dòng)決策的有意義的結(jié)論,是另一回事。重要的是,在使用這些軟件包之前,您必須了解每個(gè)軟件包的數(shù)學(xué)基礎(chǔ),這樣才能避免將這些軟件包僅僅用作“黑匣子”工具。
II.案例:建立多元回歸模型
我的數(shù)據(jù)集有多大?
我的特征變量和目標(biāo)變量是什么?
哪些預(yù)測特征與目標(biāo)變量最相關(guān)?
哪些特征很重要?
我應(yīng)該進(jìn)行特征縮放嗎?
我的數(shù)據(jù)集應(yīng)如何劃分為訓(xùn)練集和測試集?
什么是主成分分析(PCA)?
我應(yīng)該使用PCA刪除冗余特征嗎?
如何評估我的模型?我應(yīng)該使用R2_score,平均平方誤差(MSE)還是平均絕對誤差(MAE)?
如何提高模型的預(yù)測能力?
我應(yīng)該使用正則化回歸模型嗎?
哪些是回歸系數(shù)?
哪些是截距?
我應(yīng)該使用非參數(shù)回歸模型,例如K近鄰回歸還是支持向量回歸(SVR)?
我的模型中有哪些超參數(shù),如何對其進(jìn)行微調(diào)以獲得性能最佳的模型?
教程
https://medium.com/swlh/machine-learning-process-tutorial-222327f53efb
Ⅲ.?數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的基本數(shù)學(xué)技能
均值,中位數(shù),眾數(shù),標(biāo)準(zhǔn)差/方差,相關(guān)系數(shù),協(xié)方差矩陣;
概率分布(二項(xiàng)分布、泊松分布、正態(tài)分布),p值,貝葉斯定理(精度、召回率、陽性預(yù)測值、陰性預(yù)測值、混淆矩陣、ROC曲線);
中心極限定理,R2_score,MSE(均方誤差),A / B測試,蒙特卡洛模擬…
多變量函數(shù);
導(dǎo)數(shù)和梯度;
階躍函數(shù),Sigmoid函數(shù),Logit函數(shù),ReLU函數(shù)(整流線性單位函數(shù),Rectified Linear Unit);
成本函數(shù);
函數(shù)繪圖;
函數(shù)的最小值和最大值…
向量;
向量的范數(shù);
矩陣,轉(zhuǎn)置矩陣,矩陣的逆,矩陣的行列式,矩陣的跡;
點(diǎn)積,特征值,特征向量…
成本函數(shù)/目標(biāo)函數(shù);
似然函數(shù);
損失函數(shù);
梯度下降算法及其變體(例如,隨機(jī)梯度下降算法)…
IV.結(jié)論
參考資料
Linear Regression Basics for Absolute Beginners.
Mathematics of Principal Component Analysis with R Code Implementation.
Machine Learning Process Tutorial.
Original. Reposted with permission.
譯者簡介
劉思婧,清華大學(xué)新聞系研一在讀,數(shù)據(jù)傳播方向。文理兼愛,有點(diǎn)小情懷的數(shù)據(jù)愛好者。希望結(jié)識(shí)更多不同專業(yè)、不同專長的伙伴,拓寬眼界、優(yōu)化思維、日日自新。

