卷友們好,我是對白。
雖然人生苦短論文怕長,但我們依然不能停下奮斗的腳步,因為總有人比你更努力,也比你更卷,在算法的這條道路上卷出了天際。
哈哈開個玩笑,今天我們不講前沿的算法論文,而是想和大家簡單聊聊我在美團做算法的感受,后期也會專門寫一篇文章《我在美團做算法的這大半年經(jīng)歷了什么》,講講美團目前在使用哪些前沿的算法,在業(yè)務(wù)中算法經(jīng)常會遇到哪些典型的問題,希望能與同行們多多交流。

目前我在美團做算法已經(jīng)大半年了,前后主R了多個業(yè)務(wù)(基本三個月一個業(yè)務(wù)),包含NLP、推薦以及動態(tài)定價。.在這個過程中深深地感覺到有標注的數(shù)據(jù)對于一名算法工程師來說是多么的重要,但大多數(shù)業(yè)務(wù)的數(shù)據(jù)往往是沒有標簽的,自己標注也不現(xiàn)實,因為你沒有充分的業(yè)務(wù)知識;而就算數(shù)據(jù)有標簽, 也只是一小部分,甚至還會出現(xiàn)PM和運營同學(xué)疏忽導(dǎo)致標錯的可能性QAQ(這個只有你在分析badcase時才會發(fā)現(xiàn)...),因此在絕對的OKR面前,你只有想盡辦法達到與有監(jiān)督學(xué)習(xí)一樣的效果,否則你只有卷鋪蓋走人了。這時對比學(xué)習(xí)出現(xiàn)了,它是自監(jiān)督學(xué)習(xí)的一種,也是目前學(xué)術(shù)界和工業(yè)界絕對的熱點,在ICLR2020上深度學(xué)習(xí)三巨頭 Bengio 、 LeCun和Hinton就一致認定自監(jiān)督學(xué)習(xí)(Self-Supervised Learning)是AI的未來。因此這也成為了我以后做算法主攻的方向之一。
對比學(xué)習(xí)的出現(xiàn),真正的給CVer、NLPer和Recommender都帶來了極大的福音,具體來說:1、在CV領(lǐng)域,解決了“在沒有更大標注數(shù)據(jù)集的情況下,如何采用自監(jiān)督預(yù)訓(xùn)練模式,來從中吸取圖像本身的先驗知識分布,得到一個預(yù)訓(xùn)練模型”的問題;2、在NLP領(lǐng)域,驗證了”自監(jiān)督預(yù)訓(xùn)練使用的數(shù)據(jù)量越大,模型越復(fù)雜,那么模型能夠吸收的知識越多,對下游任務(wù)效果來說越好“這樣一個客觀事實;3、在推薦領(lǐng)域,解決了以下四個原因:數(shù)據(jù)的稀疏性、Item的長尾分布、跨域推薦中多個不同的view聚合問題以及增加模型的魯棒性或?qū)乖胍簟?/span>借助著對比學(xué)習(xí)這項技術(shù),我也順利的完成了自己的OKR(明天晉升應(yīng)該穩(wěn)了),對這項技術(shù)也有了更深入的掌握,也在這個過程中,我開設(shè)了自己的個人公眾號,前后寫了九篇有關(guān)于對比學(xué)習(xí)的文章:?對比學(xué)習(xí)(Contrastive Learning)在CV與NLP領(lǐng)域中的研究進展
ICLR2021對比學(xué)習(xí)(Contrastive Learning)NLP領(lǐng)域論文進展梳理
2021最新對比學(xué)習(xí)(Contrastive Learning)在各大頂會上的經(jīng)典必讀論文解讀
推薦系統(tǒng)中不得不學(xué)的對比學(xué)習(xí)(Contrastive Learning)方法
機器學(xué)習(xí)新寵:對比學(xué)習(xí)論文實現(xiàn)大合集,60多篇分門別類,從未如此全面
再介紹一篇最新的Contrastive Self-supervised Learning綜述論文
ESimCSE:無監(jiān)督語義新SOTA,引入動量對比學(xué)習(xí)擴展負樣本,效果遠超SimCSE
深度學(xué)習(xí)熱點|超直觀無公式圖解Contrastive Predictive Coding從臉盲說起
干貨 | 帶你理解對比學(xué)習(xí)損失函數(shù)的性質(zhì)以及溫度系數(shù)的作用
我的夢想是寫滿50篇后爭取出一本自監(jiān)督學(xué)習(xí)的書。在其中,有幾篇文章還上了知乎計算機視覺和自然語言處理話題的熱門內(nèi)容:在這個過程中也讓我認識了很多學(xué)術(shù)界和工業(yè)界的技術(shù)大牛,得到了許多同行朋友們的認可與鼓勵,更有出版社邀我出書,但最沒想到的是還幫助了一些正在求職算法崗的萌新們,這讓我備受鼓舞:
也是因為他們的存在,讓我堅持更新原創(chuàng)?;蛟S大家都知道日更原創(chuàng)是多么的艱難,更別提一位995的打工仔了,所以很多小伙伴主動找我投稿,這讓我意識到:「對白的算法屋」不是我一個人的,而是大家的。在這里我還需要為廣大的算法工程師們說一句話,以后誰要說:算法工程師只需要會調(diào)參就行了。那我直接拿50根辣條堵住他的嘴。我在美團做算法的這段時間,感覺算法人真的啥都要會:1、不僅業(yè)界流行的算法要非常熟悉,對前沿的算法也要了解并能很快應(yīng)用到業(yè)務(wù)中(這項就已經(jīng)很難了...);2、對大數(shù)據(jù)中的Hadoop、Spark要能做到精通。因為數(shù)據(jù)需要從HDFS(Hadoop分布式文件系統(tǒng))上批量讀取,以及最后的數(shù)據(jù)預(yù)處理+模型的代碼都需要改成PySpark分布式來處理,因為單機版速度太慢,且模型要能做到批量預(yù)測(TF和Pytorch只支持分布式訓(xùn)練,不支持分布式預(yù)測);3、HiveSQL不說要非常精通,熟練還是必須要的;
更重要的是,如果算法工程師做的模型不能上線并給業(yè)務(wù)帶來收益,則他的所有工作約等于白做,很有可能會被公司辭退。
所以,作為一名算法工程師,我們真的需要不斷的學(xué)習(xí),每天比別人多學(xué)一點,或許你的模型就有可能出效果。寫這篇文章,主要是想和大家分享一下我在美團做算法的感受,希望與君共勉!