「雙非」研究生數(shù)據(jù)分析春招心路歷程.

? ? ?作者:舒夢(mèng)
? ? ?來源:數(shù)據(jù)管道
今天邀請(qǐng)了一位小姐姐舒夢(mèng)做了春招DA崗位面經(jīng)分享,文章經(jīng)授權(quán)首發(fā)于公眾號(hào)「數(shù)據(jù)管道」,以下為作者自述全文,希望對(duì)正在求職數(shù)據(jù)分析或準(zhǔn)備跨行數(shù)據(jù)分析的朋友有些許幫助。01個(gè)人情況
基本情況
雙非渣碩,跨專業(yè)考的計(jì)算機(jī),實(shí)驗(yàn)室天坑。選數(shù)據(jù)分析(偏業(yè)務(wù))一方面是個(gè)人興趣,另一方面是被開發(fā)和算法勸退……因?yàn)槲覍?shí)在是太菜了,代碼能力等于0,更別提算法。能力水平
有過數(shù)據(jù)分析的相關(guān)實(shí)習(xí),某電商和某運(yùn)營(yíng)商。懂一點(diǎn)點(diǎn)大數(shù)據(jù)的東西,有一定業(yè)務(wù)知識(shí),會(huì)一些分析工具,完全不懂算法(捂臉……所以走的基本是業(yè)務(wù)方向的數(shù)據(jù)分析,經(jīng)歷參考度對(duì)偏技術(shù)的非常非常有限)春招情況
各種原因只投了5家,如下:| 公司 | ? ? ? ? ? ? ? ?進(jìn)度 |
| 虎牙 | 簡(jiǎn)歷掛 |
| 酷狗 | 簡(jiǎn)歷掛 |
| 網(wǎng)易互娛 | 筆試掛 |
| 京東 | 初試掛 |
| Bigo | Offer |
02面經(jīng)整理
Bigo(數(shù)據(jù)分析實(shí)習(xí)生)
一面1、簡(jiǎn)單介紹自己
2、hive的問題:
union和union all有何不同?
使用union要滿足什么條件?
有兩個(gè)表,join的時(shí)候哪個(gè)表放在前面更好【小表,讓小表先進(jìn)內(nèi)存,可以提高效率】
數(shù)據(jù)傾斜解釋一下原理和解決方案【簡(jiǎn)單解釋mapreduce原理,解決方案按參數(shù)設(shè)置和改寫sql代碼兩方面講,其中詳細(xì)舉例了我在實(shí)習(xí)時(shí)候遇到的問題】
3、excel很熟?講一下vlookup怎么用?
4、python爬蟲是什么情況,用到了什么庫(kù)【說了爬蟲使用的背景,以及這個(gè)小爬蟲相應(yīng)的技術(shù)】
衍生問題:有做過文本分析嗎?貌似想問L1L2正則化的東西。【沒有,爬下來的數(shù)據(jù)相當(dāng)規(guī)整。至于正則化,我記得是機(jī)器學(xué)習(xí)領(lǐng)域的,沒學(xué)過不好意思……】
5、python pandas相關(guān)問題,dataframe,怎么看數(shù)據(jù)的大致情況分布等,如最大最小平均四分位置
6、購(gòu)物車關(guān)聯(lián)分析怎么回事【說了當(dāng)時(shí)的思路,SQL打標(biāo)簽,下載數(shù)據(jù)Python處理。關(guān)聯(lián)分析算法是Apriori,但抱歉關(guān)聯(lián)分析代碼不是我實(shí)現(xiàn)……我搬人家的……在前面加了數(shù)據(jù)處理的代碼】
7、實(shí)習(xí)有做過專題分析嗎【說大的完整專題分析暫時(shí)沒有,都是比較細(xì)分的點(diǎn)。然后有提及到主要的分析思路,電商業(yè)務(wù)a. 人貨場(chǎng),b. 轉(zhuǎn)化漏斗】又看筆試試卷,你沒學(xué)過概率和機(jī)器學(xué)習(xí)嗎,空了這么多?概率是這題公式對(duì),但是算錯(cuò)了。【尷尬……承認(rèn)不足,的確是沒學(xué)過算法和沒復(fù)習(xí)好概率】
8、有做過abtest嗎
9、為什么要跨專業(yè)
10、以后發(fā)展方向是什么
11、對(duì)數(shù)據(jù)分析的理解【主要提到兩個(gè)點(diǎn):數(shù)據(jù)質(zhì)量,洞察業(yè)務(wù)】
12、有什么想問我的嗎?【a. 職位屬于哪個(gè)部門,部門的架構(gòu)是怎么樣的?b. 工作必須用到機(jī)器學(xué)習(xí)方法嗎?想了解一下機(jī)器學(xué)習(xí)的落地。c. 業(yè)務(wù)部門有非常多提數(shù)需求,請(qǐng)問如何提高提數(shù)效率?】
二面
1、簡(jiǎn)單介紹自己(面試官:你說話好快啊)2、uv和pv解釋?
3、實(shí)習(xí)做了什么,有做過專題分析嗎
4、購(gòu)物籃關(guān)聯(lián)分析
5、知道怎么用hive抽樣嗎?比如我想10000條數(shù)據(jù)的1%【講了兩種方法,order by rand() limit 100,或者用hive的抽樣函數(shù)tablesample,按分桶和按百分比都有,針對(duì)這個(gè)可以用百分比方法。】
6、介紹一下窗口函數(shù),哪種場(chǎng)景用到(筆試的SQL題我寫了兩種方法,不支持/支持窗口函數(shù)的方法)【說到常用的row_number() over()和dense_rank(),也知道sum over()那些但很少用。舉了一個(gè)實(shí)習(xí)時(shí)提取品類新客的例子,解釋了品類新客是什么】
7、為什么自己要搭hive【認(rèn)為雖然意向是業(yè)務(wù)方向,但是由于有非常多的業(yè)務(wù)需求需要提數(shù),如何寫出好的SQL和了解Hive原理使得效率更高非常必要。實(shí)習(xí)時(shí)也有些問題沒有解決,想再另外看書學(xué)習(xí)】
8、數(shù)據(jù)分析報(bào)告流程?是要怎么出溝通好需求后就開始提數(shù)嗎?【先溝通好需求,然后拆分需求。在做數(shù)據(jù)的時(shí)候,首先了解數(shù)據(jù)質(zhì)量問題,確認(rèn)數(shù)據(jù)口徑,然后是sql的邏輯,也要知道數(shù)據(jù)庫(kù)的坑(舉了之前實(shí)習(xí)中一個(gè)例子)。過程中又提到做一次用戶畫像的統(tǒng)計(jì)數(shù)據(jù)質(zhì)量造成極大困擾
9、(接上了我的回答)如果給到你一份數(shù)據(jù),發(fā)現(xiàn)很多異常值如何處理?
10、覺得兩段實(shí)習(xí)哪段對(duì)自己提升更大
11、還面試了哪些公司
12、有什么要問我的嗎
三面
問到自閉,非常懷疑人生……
1、簡(jiǎn)單介紹自己
2、開問概率統(tǒng)計(jì)
????x^x如何求導(dǎo)????方差如何計(jì)算????提示E(X),方差公式如何寫3、筆試概率和機(jī)器學(xué)習(xí)空了很多啊,是沒學(xué)過嗎【回答同上,哎】
4、詳細(xì)問簡(jiǎn)歷上python爬蟲【介紹用到的庫(kù)和思路等,以及具體的背景】
5、實(shí)習(xí)期間,做過業(yè)務(wù)分析嗎,有沒有做過什么發(fā)現(xiàn)能驅(qū)動(dòng)業(yè)務(wù)的【我說了一個(gè)沒寫在簡(jiǎn)歷上的分析,解釋了業(yè)務(wù)背景,和大致的結(jié)果】
6、實(shí)習(xí)期間,看指標(biāo)覺得什么對(duì)用戶影響大【我覺得我答偏了,都說到品類對(duì)客單價(jià)的影響了……
7、做過abtest嗎?【沒有,解釋實(shí)習(xí)所在部門對(duì)接的業(yè)務(wù),不涉及abtest。另外說了對(duì)abtest的理解】
8、有什么想問嗎?【數(shù)據(jù)分析師的發(fā)展路徑】
京東
(數(shù)據(jù)分析工程師)
沒法現(xiàn)場(chǎng)面,申請(qǐng)了遠(yuǎn)程。電話面試20min+,已掛。面經(jīng)沒及時(shí)整理,不全。
一面
1、簡(jiǎn)單介紹自己
2、問幾個(gè)Hive的問題
(1) 簡(jiǎn)要解釋MR(2) 數(shù)據(jù)傾斜的發(fā)生原因
(3) Hive文件類型及其不同點(diǎn),平時(shí)用的哪種文件
(4) Hive的常用參數(shù)
3、學(xué)過算法嗎?(得到否定的回答后)什么?學(xué)計(jì)算機(jī)的沒學(xué)過算法?(++尷尬)
4、估算京東每日訂單量【轉(zhuǎn)化漏斗】
5、職業(yè)規(guī)劃
6、有什么想問我的嗎【a. 所在部門和對(duì)接業(yè)務(wù),b. 對(duì)我面試的評(píng)價(jià)】
歡聚時(shí)代
(數(shù)據(jù)分析實(shí)習(xí)生,日常實(shí)習(xí)非暑期)
1、你在某電商實(shí)習(xí)做了什么
2、你打算畢業(yè)做什么
3、ctr、cvr解釋
4、次日留存、7日留存解釋
5、埋點(diǎn)知道嗎?解釋一下
6、(拿出手機(jī)打開淘寶)如果你要給淘寶設(shè)計(jì)埋點(diǎn),記錄看了某個(gè)banner的用戶,怎么做?【解釋以前實(shí)習(xí)不做產(chǎn)品分析,沒做過埋點(diǎn)設(shè)計(jì)。也講了自己的理解,對(duì)banner編號(hào),記錄用戶號(hào),看過的banner和順序,以及每個(gè)banner的曝光、停留時(shí)間、是否點(diǎn)擊】
7、如果某天的某電商app的dau下降了很多,你怎么分析?【這題答得不好,大概是講了分地區(qū)、分人群去看,以及考慮網(wǎng)絡(luò)問題???】
8、如果某天某電商廣州銷售量下降了很多,你怎么分析?【首先確定數(shù)據(jù)傳輸和存儲(chǔ)是否有問題,然后看下降的量級(jí),環(huán)比同比看下降是否突發(fā)還是持續(xù)。可以從品類、人群(會(huì)員)、流量等方面細(xì)看,也要看下轉(zhuǎn)化】
9、寫個(gè)sql:有一個(gè)表,字段有bannerid、uid、城市,統(tǒng)計(jì)廣州和珠海bannerid為2的用戶數(shù)
10、降序怎么寫,隨機(jī)抽取數(shù)據(jù)怎么寫
11、左連接和右連接?
12、某電商什么時(shí)候的dau最高?除了活動(dòng)日,平常日呢?
13、有什么想問我的?【a. 做這個(gè)工作的話,是不是要補(bǔ)充一些產(chǎn)品知識(shí);b. 按照我的面試的情況,請(qǐng)問我還有什么地方需要努力和提高】
總結(jié)春招讓我深刻地感受到自己全方位的菜……每次筆試被機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘算法和概率統(tǒng)計(jì)虐成沫,基本每次面試也被質(zhì)疑為什么沒學(xué)過算法……
(真的不是每個(gè)學(xué)計(jì)算機(jī)的都搞AI,身處天坑實(shí)驗(yàn)室一聲嘆息……但這事還是自己的問題。)真的要好好補(bǔ)上算法和復(fù)習(xí)概率統(tǒng)計(jì)啊,留下了沒技術(shù)的眼淚……
然后是數(shù)據(jù)分析偏業(yè)務(wù)方向?qū)嵙?xí)很重要,個(gè)人經(jīng)歷每次面試必問在某電商的實(shí)習(xí),基本也問得很深。我對(duì)業(yè)務(wù)的了解和一些工具的學(xué)習(xí)如Hive基本從實(shí)習(xí)得來,再另外看書深化。
最后,數(shù)據(jù)分析這崗位真的雜,(從我非常有限的經(jīng)歷)感受到無法預(yù)測(cè)會(huì)筆試考什么,面試問什么……目前看來筆試一般涵蓋概率統(tǒng)計(jì)、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法、SQL編程,另外業(yè)務(wù)場(chǎng)景題、Linux甚至計(jì)算機(jī)網(wǎng)絡(luò)等都有可能出現(xiàn)……
面試的話則業(yè)務(wù)和技術(shù)都要準(zhǔn)備好,因?yàn)闊o法預(yù)測(cè)會(huì)遇上什么背景的面試官,只能從問題風(fēng)格推測(cè)他/她是偏算法還是偏業(yè)務(wù)分析的。
全文完,撒花~~感謝看到這里的大佬!歡迎交流!(再次厚臉皮狀)
寶器說:確實(shí)如這位小姐姐所說,數(shù)據(jù)分析是一個(gè)定義相對(duì)寬泛的崗位,每一家的技能要求可能不大相同,但是基本的SQL、Hive等是需要熟練掌握的。
一句常談的話:”張口閉口數(shù)據(jù)科學(xué),你竟然連SQL都不會(huì)“,做好每一次的基礎(chǔ)工作,千萬不能眼高手低,見一張以前發(fā)過的趣圖。

另上面幾家公司面試所涉及的知識(shí)點(diǎn),如數(shù)據(jù)傾斜處理,大表join小表的順序,埋點(diǎn),DAU(銷售額下降)怎么分析,abtest等等在公眾號(hào)「數(shù)據(jù)管道」都基本有所講解。
以上,下期見。
?◆?◆ ?◆?◆
長(zhǎng)按二維碼關(guān)注我們
數(shù)據(jù)森麟公眾號(hào)的交流群已經(jīng)建立,許多小伙伴已經(jīng)加入其中,感謝大家的支持。大家可以在群里交流關(guān)于數(shù)據(jù)分析&數(shù)據(jù)挖掘的相關(guān)內(nèi)容,還沒有加入的小伙伴可以掃描下方管理員二維碼,進(jìn)群前一定要關(guān)注公眾號(hào)奧,關(guān)注后讓管理員幫忙拉進(jìn)群,期待大家的加入。
管理員二維碼:
評(píng)論
圖片
表情
