做CV和做NLP,是否都有光明的未來?

極市導讀
?CV和NLP可能是目前深度學習最火熱的兩個方向,而在求學階段或是在工作階段該如何選擇這兩個方向,他們分別有什么優(yōu)缺點?到底該選擇哪一個方向能夠有一個比較光明的未來呢?本文作者從企業(yè)的角度,分別分析了C端、B端和G端的情況,希望能給大家解答疑惑。?>>加入極市CV技術(shù)交流群,走在計算機視覺的最前沿
首先祭出新華字典的老圖鎮(zhèn)文:

事情是這樣的,最近有個大四的讀者加了皮皮蝦微信,說自己在困惑讀研方向選擇的問題:
“導師是做CV的,但自己看了知乎的一些回答后又想做NLP了?!眴柶てのr有沒有必要嘗試換方向換導師。
皮皮蝦知乎刷的不太多,但也聽說了知乎勸入搜推廣,碩士選擇NLP就是半只腳踏進了搜推廣,云云。皮皮蝦覺得這其實是比較片面的觀點。所以今天就來談一談,做CV和做NLP,是否都有光明的未來?

從學術(shù)研究的角度來說,其實兩者都沒有問題。但近兩年在工業(yè)界搞科研是越來越不受待見了,學術(shù)大牛出走AI lab已經(jīng)不是什么大新聞了。如果對CV或NLP技術(shù)抱有很大的技術(shù)熱忱,一心只想搞研究,皮皮蝦還是比較建議讀博后去混學術(shù)界。
不過對大部分人來說,碩士期間選擇CV或NLP只是暫時的,畢業(yè)后大都要進互聯(lián)網(wǎng)做業(yè)務的。這就引申出來一個問題:
我們在互聯(lián)網(wǎng)行業(yè)都有光明的未來嗎?
如果放在多年前,我覺得這個問題還真不一定。當時CV的對口互聯(lián)網(wǎng)場景特別少,甚至流傳CV人去互聯(lián)網(wǎng)就是去做美圖秀秀的夸張說法。而NLP技術(shù)與互聯(lián)網(wǎng)的搜索、推薦業(yè)務關(guān)聯(lián)比較大,容易進入互聯(lián)網(wǎng)的核心賽道。
近些年來,無論是CV還是NLP技術(shù),對口的業(yè)務賽道都比幾年前豐富了很多。互聯(lián)網(wǎng)的生意模式整體上可以分為:
面向終端消費者(To Customer,ToC) 面向企業(yè)客戶(To Business,ToB) 面向政府客戶(To Government,ToG)
我們所熟知的電商、搜索、信息流、短視頻、游戲、社交等,就是典型的ToC業(yè)務。而云計算、AI類的業(yè)務,則同時涵蓋了ToB和ToG。
先來說說ToC。
不少人吹NLP就是因為NLP技術(shù)能輕松切入到主流的ToC業(yè)務賽道。比如NLP中的文本匹配、標題理解、內(nèi)容理解技術(shù),在電商搜索、電商推薦、商品理解、搜索相關(guān)性、網(wǎng)頁/信息流內(nèi)容理解等場景十分適用,甚至常常作為支撐技術(shù)。
而對CV來說,早些年對口的互聯(lián)網(wǎng)生意主要聚焦在ToB和ToG上。ToC則主要應用在圖像處理軟件如美圖秀秀,相機類應用中。在搜索、推薦、廣告場景,CV技術(shù)也有應用,例如圖像搜索、廣告圖片OCR等,但對于業(yè)務全局來說,往往特征的權(quán)重比較低,影響范圍比較有限。

而皮皮蝦開頭說過,CV技術(shù)ToC的事情放在2022年,就不一樣了。近年來,隨著新能源產(chǎn)業(yè)的強勢崛起,自動駕駛成為熱門賽道,大量資本、巨頭涌入。而從計算機視覺技術(shù)進入這個新興賽道無疑是水到渠成的。若這塊業(yè)務和技術(shù)能持續(xù)穩(wěn)定發(fā)展,若干年后切實落地,那一個新的萬億規(guī)模的賽道便誕生了。
即便不用等到自動駕駛?cè)媛涞亻_花,哪怕是當下,就在搜推廣傳統(tǒng)業(yè)務內(nèi)卷的叫苦不迭的時候,自動駕駛賽道的算法人才不僅薪資水漲船高,而且稀缺,距離飽和、內(nèi)卷還有一段距離。從個體的角度出發(fā),這也是CV人擇業(yè)的一個時代優(yōu)勢。
當然,既然是新業(yè)務,自然也有出意外的可能。那便是技術(shù)始終無法滿足體驗的預期,也始終沒有找到一個折中的退路,涼了。
這便誰也說不準了。不過目前來看,無論國家政策、資本信心還是技術(shù)的更新?lián)Q代,都還在持續(xù)向著好的方向發(fā)展,實現(xiàn)真·自動駕駛也是全人類的一個美好愿景,我們還是選擇相信明天吧。
除了自動駕駛外,像最近比較火的視頻搜索、元宇宙/VR應用、體感游戲等新場景,CV技術(shù)也將發(fā)揮出重要價值,甚至成為其中的核心技術(shù)。

再來說說ToB和ToG。
在這方面,CV不僅商業(yè)化空間比NLP要大,而且更重要的是容易做到標品化。例如安防領(lǐng)域,火車站、機場的閘機人臉識別,物流、快遞面單OCR識別等,都屬于量大、傳統(tǒng)行業(yè)難以投入研發(fā)且AI技術(shù)企業(yè)相對容易做標品化。
標品化就意味著一套解決方案可以在多家重復應用,邊際成本可以控制的很低,這是ToB和ToG能夠賺大錢的前提。
而NLP在ToB和ToG方面推進阻力比較大,最大的問題就是同樣一個NLP任務,在不同的業(yè)務方手里往往有不同的產(chǎn)品定義。例如同樣是智能客服,在銀行業(yè)的客服跟在航空公司的客服,顯然業(yè)務邏輯有著相當大的差別,從運營的產(chǎn)品概念實體到對話邏輯,都需要做差異化的定制。即,基本不可能打造出一套通用的對話系統(tǒng),哪怕同面向銀行客戶,建設(shè)銀行跟農(nóng)業(yè)銀行的產(chǎn)品邏輯都無法平行復制。
無法標品化,就意味著只能讓算法RD一個訂單一個訂單的啃,邊際成本始終降不下來,賺不到大錢。歸根結(jié)底,CV、Speech是感知層面的任務,有一套大自然定義的客觀標準,而NLP是認知層面的任務,由人去創(chuàng)造的標準,自然就會千變?nèi)f化難以客觀統(tǒng)一。聯(lián)想到近些年NLP領(lǐng)域“小樣本”的研究越來越火,皮皮蝦盲猜也跟企業(yè)AI ToB對標品化、邊際成本控制的瘋狂渴望有關(guān)。
最后總結(jié)一下。
無論CV還是NLP,2022年的業(yè)務出口都相對幾年前寬敞了很多。NLP的ToC出口大,賽道核心,比較穩(wěn)定,但ToB/ToG的空間目前還比較有限;CV的ToC出口小,賽道新,風險與機遇同在,但ToB/ToG的天花板更高。
一句話:我們都有光明的未來。
本文授權(quán)轉(zhuǎn)載自公眾號“算法圈的小破事”,點擊以上卡片進行關(guān)注
公眾號后臺回復“數(shù)據(jù)集”獲取50+深度學習數(shù)據(jù)集下載~

#?CV技術(shù)社群邀請函?#

備注:姓名-學校/公司-研究方向-城市(如:小極-北大-目標檢測-深圳)
即可申請加入極市目標檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術(shù)交流群
每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~

