導(dǎo)讀：本文為大家介紹了在數(shù)據(jù)科學(xué)和機器學(xué)習(xí)中所需要的基本數(shù)學(xué)技能，并且分類給出了相應(yīng)的主題建議。

作者：Benjamin Obi Tayo

翻譯：劉思婧，校對：車前子

來源：數(shù)據(jù)派THU（ID：DatapiTHU）

▲Jeswin Thomas?on?Unsplash

盡管已經(jīng)有許多出色的計算工具可供數(shù)據(jù)科學(xué)家執(zhí)行其工作，數(shù)學(xué)技能在數(shù)據(jù)科學(xué)和機器學(xué)習(xí)中仍然是必不可少的，因為這些工具通常僅僅會像是“黑匣子”，而如果沒有理論基礎(chǔ)，你將無法回答核心的分析性問題。

01 引言

如果你渴望成為數(shù)據(jù)科學(xué)家，那么你無疑會想到以下問題：

我?guī)缀鯖]有數(shù)學(xué)背景，可以成為一個數(shù)據(jù)科學(xué)家嗎？
數(shù)據(jù)科學(xué)中的哪些基本數(shù)學(xué)技能很重要？

有許多好的軟件包可用于構(gòu)建預(yù)測模型或數(shù)據(jù)可視化。一些最常見的用于描述性和預(yù)測性分析的軟件包包括：

Ggplot2
Matplotlib
Seaborn
Scikit-learn
Caret
TensorFlow
PyTorch
Keras

借助這些軟件包，任何人都可以構(gòu)建模型或進行數(shù)據(jù)可視化。但是，扎實的數(shù)學(xué)背景知識對于模型微調(diào)（fine-tuning）以生成具有最佳性能的可靠模型至關(guān)重要。建立模型是一回事，但解釋模型并得出可用于數(shù)據(jù)驅(qū)動決策的有意義的結(jié)論，是另一回事。

重要的是，在使用這些軟件包之前，你必須了解每個軟件包的數(shù)學(xué)基礎(chǔ)，這樣才能避免將這些軟件包僅僅用作“黑匣子”工具。

02 案例：建立多元回歸模型

假設(shè)我們現(xiàn)在將要建立一個多元回歸模型。在此之前，我們需要問自己以下問題：

我的數(shù)據(jù)集有多大？
我的特征變量和目標(biāo)變量是什么？
哪些預(yù)測特征與目標(biāo)變量最相關(guān)？
哪些特征很重要？
我應(yīng)該進行特征縮放嗎？
我的數(shù)據(jù)集應(yīng)如何劃分為訓(xùn)練集和測試集？
什么是主成分分析（PCA）？
我應(yīng)該使用PCA刪除冗余特征嗎？
如何評估我的模型？我應(yīng)該使用R2_score，平均平方誤差（MSE）還是平均絕對誤差（MAE）？
如何提高模型的預(yù)測能力？
我應(yīng)該使用正則化回歸模型嗎？
哪些是回歸系數(shù)？
哪些是截距？
我應(yīng)該使用非參數(shù)回歸模型，例如K近鄰回歸還是支持向量回歸（SVR）？
我的模型中有哪些超參數(shù)，如何對其進行微調(diào)以獲得性能最佳的模型？

沒有良好的數(shù)學(xué)背景，你將無法解決上面提出的問題。最重要的是，在數(shù)據(jù)科學(xué)和機器學(xué)習(xí)中，數(shù)學(xué)技能與編程技能同等重要。

因此，想成為數(shù)據(jù)科學(xué)家，你必須花時間研究數(shù)據(jù)科學(xué)和機器學(xué)習(xí)的理論和數(shù)學(xué)基礎(chǔ)。你能否構(gòu)建可應(yīng)用于實際問題的可靠且有效的模型，取決于你的數(shù)學(xué)技能。要了解如何在構(gòu)建機器學(xué)習(xí)回歸模型中應(yīng)用數(shù)學(xué)技能，可參閱機器學(xué)習(xí)過程教程。

教程

https://medium.com/swlh/machine-learning-process-tutorial-222327f53efb

現(xiàn)在，讓我們討論數(shù)據(jù)科學(xué)和機器學(xué)習(xí)所需的一些基本數(shù)學(xué)技能。

03 數(shù)據(jù)科學(xué)和機器學(xué)習(xí)的基本數(shù)學(xué)技能

1. 統(tǒng)計學(xué)和概率論

統(tǒng)計學(xué)和概率論可以用于特征的可視化、數(shù)據(jù)預(yù)處理、特征變換、數(shù)據(jù)填補、降維、特征工程、模型評估等環(huán)節(jié)。以下是你需要熟悉的主題：

均值，中位數(shù)，眾數(shù)，標(biāo)準(zhǔn)差/方差，相關(guān)系數(shù)，協(xié)方差矩陣；
概率分布（二項分布、泊松分布、正態(tài)分布），p值，貝葉斯定理（精度、召回率、陽性預(yù)測值、陰性預(yù)測值、混淆矩陣、ROC曲線）；
中心極限定理，R2_score，MSE（均方誤差），A / B測試，蒙特卡洛模擬…

2.?多變量微積分

大多數(shù)機器學(xué)習(xí)模型都是使用具有多個特征或預(yù)測變量的數(shù)據(jù)集構(gòu)建的。因此，熟悉多變量演算對于建立機器學(xué)習(xí)模型非常重要。以下是你需要熟悉的主題：

多變量函數(shù)；
導(dǎo)數(shù)和梯度；
階躍函數(shù)，Sigmoid函數(shù)，Logit函數(shù)，ReLU函數(shù)（整流線性單位函數(shù)，Rectified Linear Unit）；
成本函數(shù)；
函數(shù)繪圖；
函數(shù)的最小值和最大值…

3.?線性代數(shù)

線性代數(shù)是機器學(xué)習(xí)中最重要的數(shù)學(xué)技能。當(dāng)數(shù)據(jù)集被表示為矩陣，線性代數(shù)則可用于數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)換、降維和模型評估。以下是你需要熟悉的主題：

向量；
向量的范數(shù)；
矩陣，轉(zhuǎn)置矩陣，矩陣的逆，矩陣的行列式，矩陣的跡；
點積，特征值，特征向量…

4.?優(yōu)化方法

大多數(shù)機器學(xué)習(xí)算法通過最小化目標(biāo)函數(shù)來執(zhí)行預(yù)測建模，因而機器學(xué)習(xí)必須應(yīng)用于測試數(shù)據(jù)的權(quán)重才能獲得預(yù)測標(biāo)簽。以下是你需要熟悉的主題：

成本函數(shù)/目標(biāo)函數(shù)；
似然函數(shù)；
損失函數(shù)；
梯度下降算法及其變體（例如，隨機梯度下降算法）…

04 結(jié)論

總而言之，我們討論了數(shù)據(jù)科學(xué)和機器學(xué)習(xí)所需的基本數(shù)學(xué)和理論技能，已經(jīng)有許多免費在線課程教授這些必要的數(shù)學(xué)技能。想成為數(shù)據(jù)科學(xué)家，請務(wù)必牢記，理論基礎(chǔ)對于構(gòu)建高效且可靠的模型至關(guān)重要。因此，你應(yīng)該投入足夠的時間來研究每種機器學(xué)習(xí)算法背后的數(shù)學(xué)理論。

參考資料

Linear Regression Basics for Absolute Beginners.

Mathematics of Principal Component Analysis with R Code Implementation.

Machine Learning Process Tutorial.

Original. Reposted with permission.

關(guān)于譯者：劉思婧，清華大學(xué)新聞系研一在讀，數(shù)據(jù)傳播方向。文理兼愛，有點小情懷的數(shù)據(jù)愛好者。希望結(jié)識更多不同專業(yè)、不同專長的伙伴，拓寬眼界、優(yōu)化思維、日日自新。

延伸閱讀??

延伸閱讀《機器學(xué)習(xí)中的概率統(tǒng)計：Python語言描述》

干貨直達??

終于有人把知識圖譜講明白了
從0到1詳解數(shù)據(jù)挖掘過程
4款深度學(xué)習(xí)框架簡介，初學(xué)者該如何選擇？
什么是擴展現(xiàn)實（XR）？云XR系統(tǒng)怎樣實現(xiàn)？終于有人講明白了

更多精彩??

在公眾號對話框輸入以下關(guān)鍵詞

查看更多優(yōu)質(zhì)內(nèi)容！

PPT?|?讀書?|?書單?|?硬核?|?干貨?|?講明白?|?神操作

大數(shù)據(jù)?|?云計算?|?數(shù)據(jù)庫?|?Python?|?可視化

AI?|?人工智能?|?機器學(xué)習(xí)?|?深度學(xué)習(xí)?|?NLP

5G?|?中臺?|?用戶畫像?|?1024?|?數(shù)學(xué)?|?算法?|?數(shù)字孿生

據(jù)統(tǒng)計，99%的大咖都關(guān)注了這個公眾號

想成為數(shù)據(jù)科學(xué)家，需要多少數(shù)學(xué)技能？

01 引言

02 案例：建立多元回歸模型

03 數(shù)據(jù)科學(xué)和機器學(xué)習(xí)的基本數(shù)學(xué)技能

04 結(jié)論

參考資料

想成為數(shù)據(jù)科學(xué)家，需要多少數(shù)學(xué)技能？