分享珍藏很久的《推薦系統(tǒng)學(xué)習(xí)手冊(cè)》
這是之前學(xué)習(xí)推薦系統(tǒng)時(shí)的學(xué)習(xí)資料,非常全面,包含經(jīng)典模型的解析及代碼實(shí)現(xiàn)、模型的評(píng)估、最新工業(yè)界論文解讀等等,全網(wǎng)僅此一份!該手冊(cè)有PDF版本和Markdown版本,總計(jì)有700多頁(yè)!
資料領(lǐng)取方式:
小小挖掘機(jī)
經(jīng)典模型解析及代碼實(shí)現(xiàn):


模型評(píng)價(jià):

最新工業(yè)界論文解讀:

再講一下作者的推薦系統(tǒng)入門經(jīng)驗(yàn),大致可以分為以下五個(gè)階段:
1、第一階段 - 掌握機(jī)器學(xué)習(xí)基礎(chǔ)知識(shí),打好基礎(chǔ)
學(xué)習(xí)推薦系統(tǒng),還是要掌握一定的機(jī)器學(xué)習(xí)知識(shí)的,從特征獲取、特征處理、特征選擇,到基本的機(jī)器學(xué)習(xí)模型如邏輯回歸、GBDT等等,都需要你熟練掌握。
其中比較重要的就是特征這塊,因?yàn)橥扑]系統(tǒng)中會(huì)面臨大量的離散特征,對(duì)離散特征的處理方式需要有一定的了解。
這里還是推薦李航博士的《統(tǒng)計(jì)學(xué)習(xí)方法第二版》。
然后就是神經(jīng)網(wǎng)絡(luò),推薦系統(tǒng)中神經(jīng)網(wǎng)絡(luò)運(yùn)用非常多,神經(jīng)網(wǎng)絡(luò)中基礎(chǔ)的如循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò),以及一些模型結(jié)構(gòu)的搭建、訓(xùn)練的技巧如Dropout、BN等等也需要有所理解。
這個(gè)推薦吳恩達(dá)的深度學(xué)習(xí)課程以及李宏毅老師的深度學(xué)習(xí)課程。
2、第二階段 - 閱讀推薦系統(tǒng)經(jīng)典書籍,入門推薦
推薦系統(tǒng)市面上的書不是很多,而且寫得往往不夠深入,僅能夠起到一定的入門作用,畢竟推薦在各個(gè)公司還是比較核心的內(nèi)容,是比較受到保護(hù)的。但經(jīng)典的書籍還是有的,入門的話推薦兩本。
一是大家所熟知的《推薦系統(tǒng)實(shí)踐》,這本的話對(duì)于大家了解推薦系統(tǒng)中最基本的算法如協(xié)同過(guò)濾、推薦系統(tǒng)中常用的評(píng)價(jià)指標(biāo)、使用上下文和社交網(wǎng)絡(luò)進(jìn)行推薦、如何解決冷啟動(dòng)問(wèn)題都有一定的幫助。
二是最近市面上新出現(xiàn)的《推薦系統(tǒng)開發(fā)實(shí)戰(zhàn)》一書,雖然這本書我還沒(méi)有看過(guò),但不少的群友反映這本書對(duì)于入門推薦系統(tǒng)來(lái)說(shuō)十分友好。理論和實(shí)戰(zhàn)相結(jié)合,是挺不錯(cuò)的一本“小白實(shí)操書”。
然后還有的一些書籍如《推薦系統(tǒng)與深度學(xué)習(xí)》和《推薦系統(tǒng)-技術(shù)、評(píng)估及高效算法》,大家感興趣的話也可以進(jìn)行閱讀。
3、第三階段 - 精度推薦系統(tǒng)經(jīng)典論文,掌握訣竅
在理解基本的推薦知識(shí)之后,你大概會(huì)了解到推薦具體是做什么的,那么其問(wèn)題又可以分成幾個(gè)方面。如召回、CTR預(yù)估、Learning to Rank等等。這個(gè)時(shí)候我建議的話就是開始閱讀經(jīng)典論文了。下面整理一些我看過(guò)的比較經(jīng)典的論文吧,可能有遺漏,也歡迎大家補(bǔ)充。
FM:《Factorization Machines》
FFM:《Field-aware Factorization Machines for CTR Prediction》
DeepFM:《DeepFM: A Factorization-Machine based Neural Network for CTR Prediction》
Wide & Deep:《Wide & Deep Learning for Recommender Systems》
DCN:《Deep & Cross Network for Ad Click Predictions》
NFM:《Neural Factorization Machines for Sparse Predictive Analytics》
AFM:《Attentional Factorization Machines:
Learning the Weight of Feature Interactions via Attention Networks》
GBDT + LR:《Practical Lessons from Predicting Clicks on Ads at Facebook》
MLR:《Learning Piece-wise Linear Models
from Large Scale Data for Ad Click Prediction》
DIN:《Deep Interest Network for Click-Through Rate Prediction》
DIEN:《Deep Interest Evolution Network for Click-Through Rate Prediction》
BPR:《BPR: Bayesian Personalized Ranking from Implicit Feedback》
Youtube:《Deep Neural Networks for YouTube Recommendations》
當(dāng)然有些其他的論文也十分經(jīng)典,咱們放在后面繼續(xù)講。
讀論文也是需要一定的技巧,不同的人可能關(guān)注的點(diǎn)不一樣,所以導(dǎo)致閱讀重心不一樣。對(duì)于我來(lái)說(shuō),我比較關(guān)注的點(diǎn)是這個(gè)論文要解決什么樣的問(wèn)題,是如何解決的,以及作者從哪幾方面出發(fā),使用什么評(píng)價(jià)指標(biāo)來(lái)評(píng)判模型的好壞。至于效果,論文嘛,可信可不信,看看就好了。
最近上市的《深度學(xué)習(xí)推薦系統(tǒng)》也可以幫你快速梳理論文的脈絡(luò),值得一讀。
4、第四階段 - 復(fù)現(xiàn)推薦論文開源代碼,加深理解
讀論文中你也許會(huì)有很多疑惑,如DeepFM這個(gè)Embedding如何共享的?DIN里面的Attention如何實(shí)現(xiàn)?解決這些疑惑的最好辦法我認(rèn)為不是讀論文、百度別人寫的博客,最好的方法就是去找開源的代碼,試著復(fù)現(xiàn)也好,比著代碼自己實(shí)現(xiàn)一遍也好,對(duì)你加深認(rèn)識(shí)都有很大的幫助!
有一些開源的代碼我已經(jīng)幫大家整理的差不多了,在下面的github中(以后不要再問(wèn)我數(shù)據(jù)或者地址的問(wèn)題了,數(shù)據(jù)都在github的readme中):https://github.com/princewen/tensorflow_practice
不管對(duì)一篇論文你看懂了還是沒(méi)看懂也好,都去嘗試復(fù)現(xiàn)一遍吧,真的很有幫助。
5、第五階段 - 持續(xù)跟進(jìn)最近推薦論文,思維發(fā)散
在不斷跟進(jìn)推薦系統(tǒng)論文的過(guò)程中,你會(huì)發(fā)現(xiàn)推薦系統(tǒng)會(huì)借鑒各個(gè)領(lǐng)域的方法, 持續(xù)跟進(jìn)最近推薦論文,對(duì)我們學(xué)習(xí)其他領(lǐng)域如NLP、圖像領(lǐng)域、強(qiáng)化學(xué)習(xí)等等都會(huì)有所幫助。

上圖中推薦系統(tǒng)經(jīng)典論文,也可以通過(guò)下方公眾號(hào)獲取
小小挖掘機(jī)
