23個數(shù)據(jù)分析實戰(zhàn)項目,解救沒有數(shù)據(jù)分析經(jīng)歷的你
對于跨專業(yè)找工作或者想要轉(zhuǎn)行的小伙伴來說,沒有實習(xí)或者相關(guān)的工作經(jīng)歷是一件非常常見的事情。但是,找實習(xí)或者工作的時候卻被要求擁有相關(guān)的經(jīng)驗,可是還沒有做過實習(xí)或工作哪來的相關(guān)經(jīng)驗???對,就是這樣魔幻,陷入“找實習(xí)或工作-需要相關(guān)經(jīng)歷-沒有實習(xí)或工作就沒有經(jīng)歷”的循環(huán)中。下面的圖,大家肯定感同身受吧,這一定是存在于你的求職面試當(dāng)中。

的確,跨專業(yè)或者是轉(zhuǎn)行找第一份實習(xí)或工作很難,但每年校招也有很多沒有實習(xí)經(jīng)歷的同學(xué)進(jìn)了BAT等大廠??!所以,如果你還有大把時間的話,建議先找一份相關(guān)實習(xí),校招的同學(xué)可以在找工作前兩年開始實習(xí),以保證自己有兩到三段實習(xí)經(jīng)歷;如果你馬上找工作了卻沒有實習(xí)經(jīng)歷和拿得出手的項目,那么花上一兩個月的時間深度鉆研一兩個數(shù)據(jù)分析項目,搞懂項目中的每一個細(xì)節(jié)寫在簡歷上也是加分項哦!
面對沒有相關(guān)實習(xí)經(jīng)歷或工作經(jīng)歷的小伙伴來說,找到一些合適數(shù)據(jù)分析類的項目練手會在短時間內(nèi)提升數(shù)據(jù)分析的能力,小編也給大家整理了一些資源網(wǎng)站,希望能夠幫助到大家!
1.Kaggle
Kaggle是為開發(fā)商和數(shù)據(jù)科學(xué)家提供舉辦機器學(xué)習(xí)競賽、托管數(shù)據(jù)庫、編寫和分享代碼的平臺,其網(wǎng)址為https://www.kaggle.com。Kaggle發(fā)布了大量的數(shù)據(jù)分析、挖掘、機器學(xué)習(xí)預(yù)測項目,沒有實習(xí)和項目經(jīng)歷的小伙伴可以在Kaggle上找到項目練手。Kaggle上的項目有不同的項目分類,包括探索性分析,數(shù)據(jù)可視化,趨勢預(yù)測,分類等多種類型,可以根據(jù)自己的需要選擇不同過類型的項目練手。小編也為大家整理了一些項目,從數(shù)據(jù)挖掘到數(shù)據(jù)可視化再到預(yù)測模型,其難度是一次上升的,可以先易后難各個擊破。
1.1 數(shù)據(jù)挖掘項目
數(shù)據(jù)挖掘項目也成為了數(shù)據(jù)探索性項目,這類型的項目是希望通過對具體業(yè)務(wù)的分析給出一定數(shù)據(jù)性結(jié)論,如果能夠發(fā)現(xiàn)業(yè)務(wù)問題給出一定建議那是再好不過了。下面給出五個Kaggle數(shù)據(jù)挖掘類型的項目,沒有項目經(jīng)歷的小伙伴可以試著練練手。
1.紐約愛彼迎Airbnb數(shù)據(jù)挖掘
愛彼迎為房東和房客提供了極大地方便,該數(shù)據(jù)集包括了商家id、民宿id、民宿位置經(jīng)緯度、價格等信息??梢苑治鍪裁礃拥拿袼薷芟M者歡迎、各種因素對于消費者選擇民宿的影響等等。
項目鏈接:https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data
2.酒店預(yù)訂數(shù)據(jù)挖掘
酒店預(yù)訂數(shù)據(jù)集包含城市酒店和度假酒店的預(yù)訂信息,例如預(yù)訂的時間,停留時間,成人,兒童和/或嬰兒的數(shù)量以及可用停車位的數(shù)量等信息。通過該數(shù)據(jù)集可以分析一年中最佳的時間預(yù)定酒店房間;消費者獲得最佳每日房價而停留的最佳時間;酒店是否可能收到過多的特殊要求,如果有該怎么辦?
項目鏈接:https://www.kaggle.com/jessemostipak/hotel-booking-demand
3.IBM員工離職因素分析
IBM員工離職原因數(shù)據(jù)及包括員工編號、年齡、受教育程度、離家距離、生活和工作的平衡、工作參與情況等信息。通過分析該數(shù)據(jù)集可以找出員工流失的因素,例如,工作角色和流失率的相關(guān)性;離家距離與流失率的相關(guān)性;平均月收入和受教育程度對流失率的影響”。
項目鏈接:https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset
4.統(tǒng)計世界大學(xué)排名
世界大學(xué)排名數(shù)據(jù)集提供了五個類型的數(shù)據(jù)集,分別是泰晤士高等教育世界大學(xué)排名,世界大學(xué)的學(xué)術(shù)排名、世界大學(xué)排名研究中心排名、世界各地教育程度的數(shù)據(jù)、國家間公共和私人直接教育支出的信息。對大學(xué)進(jìn)行排名是一個困難,世界上有數(shù)百種不同的國家和國際大學(xué)排名系統(tǒng),比較這些排名,這些排名是否合理,提出你認(rèn)為合理的大學(xué)排名計算方式。
項目鏈接:https://www.kaggle.com/mylesoneill/world-university-rankings
5.探索影響壽命的因素
世界衛(wèi)生組織(WHO)旗下的全球衛(wèi)生觀察站(GHO)數(shù)據(jù)存儲庫跟蹤了所有國家的健康狀況以及許多其他相關(guān)因素,該數(shù)據(jù)集包括了人口統(tǒng)計學(xué)變量,收入構(gòu)成和死亡率等信息。運用該數(shù)據(jù)集可以解決以下問題:
最初選擇的各種預(yù)測因素是否會真正影響預(yù)期壽命?
哪些預(yù)測變量實際上會影響預(yù)期壽命?
預(yù)期壽命值低于(<65)的國家是否應(yīng)該增加其醫(yī)療保健支出以改善其平均壽命?
嬰兒和成人死亡率如何影響預(yù)期壽命?
預(yù)期壽命與飲食習(xí)慣,生活方式,運動,吸煙,飲酒等有正相關(guān)還是負(fù)相關(guān)?
學(xué)校教育對人類壽命有何影響?
預(yù)期壽命與飲酒有正面還是負(fù)面的關(guān)系?
人口稠密的國家是否傾向于降低預(yù)期壽命?
免疫覆蓋率對預(yù)期壽命有何影響?
項目鏈接:https://www.kaggle.com/kumarajarshi/life-expectancy-who
1.2 數(shù)據(jù)可視化項目
數(shù)據(jù)可視化也是數(shù)據(jù)分析師最日常的工作之一,數(shù)據(jù)可視化用Python的Matplotlib模塊完成,也可以將這些可視化的數(shù)據(jù)做成可視化大屏,相信做完這些項目你的數(shù)據(jù)可視化功底會突飛猛進(jìn)。
1.2019新冠病毒數(shù)據(jù)可視化
新冠病毒數(shù)據(jù)集提供了自2020年1月22日起每天新型冠狀病毒感染病例數(shù),死亡和恢復(fù)情況的水平信息,這是一個時間序列數(shù)據(jù),因此任何給定日期的案件數(shù)均為累計數(shù)。運用該數(shù)據(jù)集可以完成病例增長趨勢、死亡趨勢、治愈趨勢等數(shù)據(jù)的可視化。
項目鏈接:https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset
2.澳洲大火數(shù)據(jù)可視化
該數(shù)據(jù)集提供了澳大利亞火災(zāi)的初始數(shù)據(jù)信息,通過該數(shù)據(jù)集可以完成野火規(guī)模的可視化,以此來判斷本次大火是否是至今前所未有的;也可以結(jié)合本地空氣質(zhì)量和本地警報等數(shù)據(jù)進(jìn)行分析以提高準(zhǔn)確性。
項目鏈接:https://www.kaggle.com/carlosparadis/fires-from-space-australia-and-new-zeland
3.地表溫度數(shù)據(jù)可視化
該數(shù)據(jù)集包括歷年全球陸地和海洋和陸地溫度信息,通過該數(shù)據(jù)集可以實現(xiàn)海陸溫度變化可視化以評估氣候變化對于人類活動的影響。
項目鏈接:https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data/kernels
4.美國數(shù)據(jù)科學(xué)家的職業(yè)市場
該數(shù)據(jù)集收集全美7,000個數(shù)據(jù)科學(xué)家職位的信息,包括公司名稱,職位名稱,位置,職位描述和公司評論數(shù)等數(shù)據(jù)。通過該數(shù)據(jù)集可以可視化以下問題:數(shù)據(jù)科學(xué)家需要有什么樣的特質(zhì)?哪個位置機會最多?數(shù)據(jù)科學(xué)家需要擁有哪些技能,工具,學(xué)位或?qū)I(yè)?項目鏈接:https://www.kaggle.com/sl6149/data-scientist-job-market-in-the-us
5.火山爆發(fā)數(shù)據(jù)可視化
數(shù)據(jù)集來自于美國國家海洋和大氣管理局(NOAA)重大火山噴發(fā)數(shù)據(jù)庫的簡短數(shù)據(jù)集,該數(shù)據(jù)集包含與全球噴發(fā)相關(guān)的指標(biāo)。通過該數(shù)據(jù)集可以可視化火山爆發(fā)的位置、程度、造成的經(jīng)濟損失和死亡人數(shù)等等。
項目鏈接:https://www.kaggle.com/texasdave/volcano-eruptions
1.3 預(yù)測模型
預(yù)測模型不是數(shù)據(jù)分析師的日常工作,但是數(shù)據(jù)分析市場非常卷,隨著算法崗的火爆,供過于求,很多算法工程師轉(zhuǎn)向數(shù)據(jù)分析崗位。如果你能學(xué)會一些模型預(yù)測的話,在數(shù)據(jù)分析求職過程中也是比較占優(yōu)勢的哦!所以這部分項目,如果你的時間充??梢宰鲆粌蓚€項目練練手,否則的話可以直接跳過這部分了。
1.貸款預(yù)測
該數(shù)據(jù)集包括用戶歷史借貸數(shù)據(jù)和消費數(shù)據(jù),通過用戶歷史數(shù)據(jù)預(yù)測用戶借貸是否存在風(fēng)險以確定是否批復(fù)貸款申請。
項目鏈接:https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/
2.信用卡欺詐檢測
該數(shù)據(jù)集包括信用卡欺詐數(shù)據(jù)以及非欺詐數(shù)據(jù),利用該數(shù)據(jù)集建立信用卡欺詐檢測模型。
項目鏈接:https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets
3.糖尿病預(yù)測
數(shù)據(jù)集的作者公開了包括8個可公開獲得的宏基因組數(shù)據(jù),以及應(yīng)用MetaPhlAn2生成物種豐度的特征。他們的目標(biāo)是使用獲得的豐度特征對疾病進(jìn)行分類,并為此任務(wù)確定最佳的ML模型。通過他們的實驗,他們選擇RandomForest作為大多數(shù)疾病的最佳分類器,而SVM在某些疾病上的表現(xiàn)更好。可以考慮用其他的分類方法進(jìn)行預(yù)測,以獲得更優(yōu)的表現(xiàn)。
項目鏈接:https://www.kaggle.com/antaresnyc/metagenomics/tasks?taskId=2955
4.新冠疫苗進(jìn)展預(yù)測
該數(shù)據(jù)集包括了全球各個國家接種新冠疫苗的情況,通過該數(shù)據(jù)集可以分析哪個國家在使用什么新冠疫苗、哪個國家的新冠疫苗更先進(jìn)、每天哪個地區(qū)的接種人數(shù)最多、哪個地區(qū)接種百分比最高。
項目鏈接:https://www.kaggle.com/gpreda/covid-world-vaccination-progress
5.電影推薦系統(tǒng)
Netflix電影數(shù)據(jù)集包括各類影視的信息,使用該數(shù)據(jù)集可以構(gòu)建電影推薦系統(tǒng),如果用戶搜索特定電影,則建議的引擎最多返回10個電影名稱。
項目鏈接:https://www.kaggle.com/shivamb/netflix-shows/tasks?taskId=2447
2.阿里天池
Kaggle的項目都是英文的,有的小伙伴可能覺得英文看起來太費勁而且還要VPN翻墻也不太方便,而阿里天池的項目就滿足了你所有的需求!同樣,阿里天池的數(shù)據(jù)集也是分類的,這里就不再一一列舉,選出幾個有代表性的供大家參考。
1.數(shù)智教育可視化
該數(shù)據(jù)集包含近五年各班各學(xué)科的教師信息、當(dāng)前在校學(xué)生詳細(xì)信息、考勤信息、考勤類型、考試信息、考試類型、學(xué)生成績、學(xué)生本年度消費信息。
利用這些數(shù)據(jù)完成學(xué)生畫像分析;對課程域相關(guān)數(shù)據(jù)進(jìn)行描述性性統(tǒng)計分析,匯總各個科目班級歷史最高分趨勢和歷史最低分趨勢;對班級域相關(guān)數(shù)據(jù)進(jìn)行描述性統(tǒng)計分析,分析各個班級平均分排名,指標(biāo)包括原始分、絕對分;支持總分和單科目等信息進(jìn)行分析。
該數(shù)據(jù)集是非常接近數(shù)據(jù)分析師的日常工作,強烈推薦該數(shù)據(jù)集,完成這個項目后可以掌握用戶畫像以及數(shù)據(jù)分析中常用的統(tǒng)計學(xué)分析。
項目鏈接:
ttps://tianchi.aliyun.com/competition/entrance/231704/information
2.疫情數(shù)據(jù)可視化
數(shù)據(jù)集來源于各大網(wǎng)站公開數(shù)據(jù),可以通過可視化的形式展現(xiàn)疫情態(tài)勢、社區(qū)防控情況、疫情物資物流供給情況、各地各業(yè)人員返工返程情況甚至疫情走勢預(yù)測等。
項目鏈接:
https://tianchi.aliyun.com/competition/entrance/231779/information
3.城市物流末端配送
該數(shù)據(jù)集提供了城市物流末端配送數(shù)據(jù),可以通過建立模型以最優(yōu)的方式展示末端配送2類包裹的配送方案。
項目鏈接:
https://tianchi.aliyun.com/competition/entrance/231580/information
4.AI精準(zhǔn)助力氣象和海洋預(yù)測
該數(shù)據(jù)集包括歷史模擬數(shù)據(jù)和美國SODA模式重建的近100多年歷史觀測同化數(shù)據(jù)。每個樣本包含以下氣象及時空變量:海表溫度異常(SST),熱含量異常(T300),緯向風(fēng)異常(Ua),經(jīng)向風(fēng)異常(Va),數(shù)據(jù)維度為(year,month,lat,lon)。基于該數(shù)據(jù)集提供的歷史氣候觀測和模式模擬數(shù)據(jù),可以利用T時刻過去12個月(包含T時刻)的時空序列(氣象因子),構(gòu)建預(yù)測ENSO的深度學(xué)習(xí)模型,預(yù)測未來1-24個月的爾尼諾指數(shù)。
項目鏈接:
https://tianchi.aliyun.com/competition/entrance/531871/information
5.學(xué)術(shù)前沿趨勢分析
該數(shù)據(jù)集使用了在arXiv公開的論文數(shù)據(jù)集,可以通過數(shù)據(jù)分析能夠挖掘出最近學(xué)術(shù)的發(fā)展趨勢和學(xué)術(shù)關(guān)鍵詞。
項目鏈接:
https://tianchi.aliyun.com/competition/entrance/531866/information
6.貸款違約預(yù)測
該數(shù)據(jù)集以金融風(fēng)控中的個人信貸為背景,包含貸款申請人的歷史借貸和消費數(shù)據(jù),可以根據(jù)貸款申請人的數(shù)據(jù)信息預(yù)測其是否有違約的可能,以此判斷是否通過此項貸款。
項目鏈接:https://tianchi.aliyun.com/competition/entrance/531830/introduction?spm=5176.12281949.1003.21.493e2448YYBkn7
7.新聞推薦
該數(shù)據(jù)來自某新聞APP平臺的用戶交互數(shù)據(jù),包括30萬用戶,近300萬次點擊,共36萬多篇不同的新聞文章,同時每篇新聞文章有對應(yīng)的embedding向量表示。通過該數(shù)據(jù)集預(yù)測未來用戶是否會點擊某個新聞。
項目鏈接:
https://tianchi.aliyun.com/competition/entrance/531842/information
3.中國大學(xué)生/研究生數(shù)學(xué)建模大賽
除了Kaggle和阿里天池之外,在校的同學(xué)們還可以參加大學(xué)生或研究生數(shù)學(xué)建模大賽,這是國內(nèi)比較高逼格的比賽,參加數(shù)學(xué)建模比賽不僅能夠收獲一個項目經(jīng)歷,要是比賽打得好還能獲得證書哦,這又是簡歷上的一個亮點了。
數(shù)學(xué)建模大賽一般情況下每年6月開始組織報名,每年九月中旬正式開始比賽,三人一組比賽時間三天,參賽選手可以在組委會發(fā)布的六道題中任選一道進(jìn)行作答,最終提交一份完整的報告。
小編在校期間一共參加了兩次數(shù)學(xué)建模大賽,第一次純屬練手,第二次有了一定的經(jīng)驗之后拿
了國家級二等獎,我將題目分享出來,大家可以體會下數(shù)學(xué)建模的題型和難度。由于部分題目專業(yè)性極強,作為外行的我們可能讀不太懂,但是我們也可以選擇那些稍微簡單的題目!
1.無線智能傳播模型
2.天文導(dǎo)航中的星圖識別
3.視覺情報信息分析
4.車輛行駛工況構(gòu)建
5.氣候變化預(yù)測
6.多約束條件下飛行器航跡變化
由于專業(yè)背景的限制,小編當(dāng)年選了第五題,具體的解答過程以及報告之前已經(jīng)發(fā)布在公眾號上了,可以參考下面解題思路。
https://mp.weixin.qq.com/s/oR8P3ijX8FTJxQVBPietqQ
https://mp.weixin.qq.com/s/L7ZQgB6KG69zZcTIX8Vjvw
https://mp.weixin.qq.com/s/MNiac8RhkvTIJqczk20qog
無論是Kaggle,亦或是阿里天池,還是數(shù)學(xué)建模大賽都提供了各類優(yōu)秀數(shù)據(jù)集,借助這些數(shù)據(jù)集練手能夠補充我們的項目經(jīng)歷。在完成每一個項目時,體驗從數(shù)據(jù)清洗到數(shù)據(jù)探索再到數(shù)據(jù)可視化(建模)最后輸出結(jié)論形成數(shù)據(jù)分析報告的整個過程,踏踏實實走好每一步,最終都將有收獲。
