搭建深度學(xué)習(xí)推薦系統(tǒng)實(shí)戰(zhàn)
前兩天有個(gè) 94 年的讀者分享,說在做推薦系統(tǒng),拿了某個(gè)一線大廠的 Offer,開的年薪 70 萬。
雖然不是很高(也算很不錯(cuò)了,畢竟才 94 的),但也是一個(gè)程序員剛剛爆發(fā)的起點(diǎn),可以預(yù)見未來的發(fā)展空間有多大。
為什么推薦系統(tǒng)這么值錢?這其實(shí)是由“商業(yè)價(jià)值”決定的 —— “推薦系統(tǒng)”從沒像現(xiàn)在這樣,影響著我們的生活。
比如:打開抖音,喜歡的內(nèi)容已經(jīng)開始播放了;打開淘寶,想購買的商品已經(jīng)展示在眼前了。抖音平均日活超 6 億,天貓雙 11 的成交額超 4000 億的背后,都是“推薦系統(tǒng)”的功勞。
假設(shè),天貓通過改進(jìn)商品推薦功能,使平臺(tái)整體的轉(zhuǎn)化率提升 1%,就能在 4000 多億成交額的基礎(chǔ)上,再增加 40 多億。這就是推薦工程師的最牛的地方,也是為啥人能拿百萬年薪的原因。
而驅(qū)動(dòng)這些巨頭進(jìn)行推薦服務(wù)的,都是基于深度學(xué)習(xí)的推薦模型。但在一個(gè)成熟的推薦系統(tǒng)上,找到提升的突破點(diǎn)并不容易——不能滿足于協(xié)同過濾、矩陣分解這類傳統(tǒng)方法,而要建立起完整的“深度學(xué)習(xí)推薦系統(tǒng)”知識(shí)體系,加深對(duì)深度學(xué)習(xí)模型的理解,以及大數(shù)據(jù)平臺(tái)的熟悉程度,才能實(shí)現(xiàn)整體效果上的優(yōu)化。
所以,想學(xué)習(xí)推薦系統(tǒng),關(guān)鍵在于「體系化 + 實(shí)操」。最近,我又重溫了《深度學(xué)習(xí)推薦系統(tǒng)》這個(gè)專欄,2 刷有不少新的啟發(fā)。作者王喆,Roku 推薦系統(tǒng)架構(gòu)負(fù)責(zé)人,也是圈里的大佬,一直深耕在推薦系統(tǒng)、計(jì)算廣告領(lǐng)域,經(jīng)驗(yàn)非常豐富。他之前出過同名的書,豆瓣評(píng)分 9.3,相當(dāng)高。他還是知乎 10W+ 粉絲的大咖,分享的很多知識(shí)和觀點(diǎn),影響了不少人。

早年我看他的書時(shí),感覺更偏模型原理。后來聽說他開了個(gè)實(shí)踐專欄,第一時(shí)間就訂閱了,果然驚喜,先分享一個(gè)王喆專欄里總結(jié)的「推薦系統(tǒng)核心知識(shí)圖譜」,建議收藏。

除了讓我完整地把推薦系統(tǒng)的原理捋了一遍,更重要的是,實(shí)操性特別強(qiáng)。王喆特地為了這個(gè)專欄,開發(fā)了一個(gè)開源項(xiàng)目「 SparrowRecsys」,帶你親手嘗試,從 0 到 1,搭建一套完整的深度學(xué)習(xí)推薦系統(tǒng)(下面有詳細(xì)介紹,賊有意思)。可以說是書的實(shí)踐版本,里面加入了更多技術(shù)細(xì)節(jié)的實(shí)現(xiàn)和討論。
此外,還講解了深度學(xué)習(xí)推薦系統(tǒng)的經(jīng)典技術(shù)架構(gòu),以及 Spark、TensorFlow、Flink 等主流工具的實(shí)踐經(jīng)驗(yàn),毫不夸張的說,想學(xué)深度學(xué)習(xí)推薦系統(tǒng),看這個(gè)專欄就夠了。這個(gè)專欄剛剛破萬訂閱,推薦給你,掃碼免費(fèi)試讀??
限時(shí)破萬秒殺+口令「wangzhe66」
到手僅 ¥84,訂閱價(jià) ¥129
新用戶到手僅 ¥59
王喆這課,為啥值得買?
先來說說這個(gè) SparrowRecsys 推薦系統(tǒng)。王喆把它叫做“麻雀推薦系統(tǒng)”,取“麻雀雖小、五臟俱全”之意,它利用了開源的 movielens 數(shù)據(jù)集,搭建起了包括:
Spark、Flink 特征工程
TensorFlow 深度學(xué)習(xí)模型訓(xùn)練
TensorFlow Serving 模型服務(wù)
Redis 在線特征數(shù)據(jù)庫
Jetty Server 推薦服務(wù)器
JS 前端實(shí)現(xiàn)
以上這些在內(nèi)的,一整套深度學(xué)習(xí)推薦系統(tǒng)。不說它能支撐起一個(gè)中大型公司的推薦系統(tǒng),但是毫無疑問,它可以成為一個(gè)工業(yè)級(jí)推薦系統(tǒng)的種子項(xiàng)目。而這一切,都能在課程里,一步步嘗試搭建起來。
最后你實(shí)現(xiàn)的推薦系統(tǒng)會(huì)是這個(gè)樣子??

SparrowRecSys的首頁

SparrowRecSys的相似電影推薦頁
在這些前端頁面的背后,是你能實(shí)現(xiàn)的一個(gè)又一個(gè)深度學(xué)習(xí)模型:
對(duì)于電影的相似推薦功能,王喆會(huì)使用各種 Embedding based 的方法,比如 item2vec,graph embedding 等等。
對(duì)于推薦功能,會(huì)基于 TensorFlow 實(shí)現(xiàn)Embedding MLP,Wide&Deep,NerualCF,Two Towers,DeepFM,DIN 等等深度學(xué)習(xí)模型,然后使用 TensorFlow serving 去進(jìn)行模型服務(wù)。
對(duì)于召回層、排序?qū)舆@些推薦邏輯,也會(huì)全盤在基于 Jetty 的推薦服務(wù)器中實(shí)現(xiàn)。
整個(gè)項(xiàng)目整體的技術(shù)架構(gòu)是下面這個(gè)樣子的:
SparrowRecSys的技術(shù)架構(gòu)
是不是感覺很牛。其次,專欄本計(jì)劃是 30 講,生生寫到 43 講,補(bǔ)充討論了很多熱門的問題。在這里貼 15 個(gè)專欄里討論的問題,看專欄留言區(qū)的討論,感覺收獲更大。

最后說說,他是怎樣講解這門課程的?
整體遵循了經(jīng)典推薦系統(tǒng)的框架,分為 6 部分,學(xué)懂了,實(shí)現(xiàn)一個(gè)工業(yè)級(jí)的深度學(xué)習(xí)推薦系統(tǒng),不成問題,簡(jiǎn)單介紹下:
基礎(chǔ)架構(gòu)篇:講要從 0 開始實(shí)現(xiàn)的推薦系統(tǒng), Sparrow RecSys 的主要功能和技術(shù)架構(gòu),也會(huì)用到 Spark、Flink、TensorFlow 等業(yè)界最流行的機(jī)器學(xué)習(xí)和大數(shù)據(jù)框架。
特征工程篇:討論推薦系統(tǒng)會(huì)用到的特征,以及主要的特征處理方式,并將其實(shí)踐在 Spark 上。此外,還有深度學(xué)習(xí)中非常流行的 Embedding、Graph Embedding 技術(shù),并帶你實(shí)現(xiàn) Sparrow Recsys 中的相似電影推薦功能。
線上服務(wù)篇:帶你搭建一個(gè)推薦服務(wù)器,包括服務(wù)器、存儲(chǔ)、緩存、模型服務(wù)等模塊和相關(guān)知識(shí),涉及 Jetty Server, Spark、Redis 的使用。
推薦模型篇:深度學(xué)習(xí)推薦模型的原理和實(shí)現(xiàn)方法,包括 Embedding+MLP ,Wide&Deep,PNN 等深度學(xué)習(xí)模型的架構(gòu)和 TensorFlow 實(shí)現(xiàn),以及注意力機(jī)制、序列模型、增強(qiáng)學(xué)習(xí)等相關(guān)領(lǐng)域的前沿進(jìn)展。
效果評(píng)估篇:效果評(píng)估的主要方法和指標(biāo),建立起包括線下評(píng)估、線上 AB 測(cè)試、評(píng)估反饋閉環(huán)等整套的評(píng)估體系,真正能夠用業(yè)界的方法,而不是實(shí)驗(yàn)室的指標(biāo)來評(píng)價(jià)一個(gè)推薦系統(tǒng)。
前沿拓展篇:講 YouTube、阿里巴巴、微軟、Pinterest 等一線公司的深度學(xué)習(xí)應(yīng)用,幫你追蹤業(yè)界發(fā)展的最新趨勢(shì)。
目錄也放這兒了??

可以說,王喆老師的書也好,課也好,從未叫人失望過,而且他人也特別 nice,經(jīng)常在專欄下面跟讀者留言互動(dòng),這種耐心和責(zé)任心,真不是一般人有的。
??掃碼免費(fèi)試讀
限時(shí)破萬秒殺+口令「wangzhe66」
到手僅 ¥84 ,訂閱價(jià) ¥129
新用戶到手僅 ¥59
沒計(jì)劃的學(xué)習(xí),都只是作秀。與其花時(shí)間找一堆資料,還不如有計(jì)劃的消化一個(gè)系統(tǒng)的課,更值。
??點(diǎn)擊「閱讀原文」,新用戶 ¥59 就能拿下。
