面經(jīng) | 阿里淘系數(shù)據(jù)分析1+5面 offer報(bào)批中
超重要的簡(jiǎn)歷面
面經(jīng)
面試 over

簡(jiǎn)歷面 2020.02.24? ? 30min
row_number()實(shí)際用法介紹
如何優(yōu)化連接
貝葉斯公式一般解決什么問題
現(xiàn)在新型冠狀病毒,有一個(gè)病人發(fā)燒咳嗽,讓你用試劑盒檢測(cè),拿到陽性或陰性的結(jié)果,怎么判斷他到底有沒有患?。?/span>
假設(shè)檢驗(yàn)和置信區(qū)間的區(qū)別
中心極限定理
比較熟悉的機(jī)器學(xué)習(xí)算法有哪些?
支持向量機(jī)的原理是什么?和感知機(jī)的區(qū)別?那線性可分和不可分有什么區(qū)別呢?
系統(tǒng)地梳理一遍業(yè)務(wù)知識(shí):
AARRR
廣告的投放、變現(xiàn)過程...
熟悉兩三個(gè)算法,可以從這幾個(gè)角度:

算法:小哥說,一般面試也沒兩個(gè)人能把svm的來龍去脈講清楚,所以重點(diǎn)弄明白兩三個(gè)經(jīng)典算法就好了(可能需要svm的smo這種深度吧
業(yè)務(wù):系統(tǒng)學(xué)習(xí)和整理相關(guān)知識(shí),思路才會(huì)更有框架性
自己簡(jiǎn)歷的case得從多方面深挖

4. 你在yy具體什么部門負(fù)責(zé)什么業(yè)務(wù)?組織架構(gòu)是怎樣的?
5. 統(tǒng)計(jì):
用小白鼠做實(shí)驗(yàn),如何驗(yàn)證新藥劑是否有作用?
如果p值比a大,就斷定新藥劑有作用嗎?
統(tǒng)計(jì)顯著性和檢驗(yàn)顯著性
6. 業(yè)務(wù)題:
淘寶活動(dòng),怎么設(shè)計(jì)優(yōu)惠券的滿、減金額,使gmv最大?怎么設(shè)計(jì)?怎么對(duì)比?最后看什么數(shù)據(jù)?
對(duì)比:不能只考慮gmv值的絕對(duì)差異,還要考慮退貨訂單率
對(duì)于設(shè)計(jì)出來的兩三種優(yōu)惠券,基于過去的數(shù)據(jù),怎么給商家配比?通過什么維度?如何衡量好壞?
具體部門:淘系技術(shù)部 - 商業(yè)機(jī)器智能部門
不足:互聯(lián)網(wǎng)相關(guān)實(shí)踐較少,多看一些行業(yè)報(bào)告是如何分析問題的
二面 2020.04.01 35min+11min(面試官介紹工作內(nèi)容)
你覺得最難的點(diǎn)?
分業(yè)務(wù)和技術(shù)展開講
技術(shù)層面遇到的問題 & 怎么解決的?技術(shù)層面的提升有哪些?
sql的優(yōu)化有哪些
小表在前,大表在后的優(yōu)化原理
tb有一列數(shù),保證不重復(fù),打印出相加等于100的數(shù),2&98 與98&2只打印出一行即可
4. 業(yè)務(wù)題:
道路交通事故,男司機(jī)出現(xiàn)事故占90%,女司機(jī)出現(xiàn)事故占10%,是否說明男司機(jī)比女司機(jī)更容易出現(xiàn)交通事故?
不對(duì),基數(shù)不一樣
除了人數(shù),還需要考慮什么因素?(這才意識(shí)到是想考我控制變量法)
除了性別,其他因素都一樣:統(tǒng)計(jì)的時(shí)間區(qū)間、駕駛車的類型(幾座、牌子)、車齡、司機(jī)駕齡...
6. 代碼能力,python什么程度?具體使用情況?spark的使用?數(shù)據(jù)清洗的時(shí)間格式轉(zhuǎn)換?
7. 提問:
數(shù)據(jù)分析具體工作做什么?
????????數(shù)據(jù)賦能,大團(tuán)隊(duì)包括算法、數(shù)據(jù)
????????對(duì)外發(fā)揮價(jià)值的方式:以分析為主導(dǎo),為運(yùn)營(yíng)、產(chǎn)品迭代提供幫助;算法賦能,抽象建模
如何提升?
三面 2020.04.03 15+3min
2. spark sql和普通sql有什么區(qū)別?運(yùn)行的時(shí)候遇到過哪些錯(cuò)誤?具體報(bào)錯(cuò)的信息是什么?
????再次... ?這兩個(gè)spark相關(guān)的問題答得是相當(dāng)辣雞,這一刻感覺自己呼吸都是尷尬的
3. 靈魂拷問系列:
??? Q:對(duì)一列數(shù)據(jù)進(jìn)行二值化,使得二值化后的數(shù)據(jù)均方誤差最小
??? A:聚類算法的思想:k-means
??? Q:你確定你的答案嗎?還有什么快速方法?
??? A:確定。從小到大排列,取1/4和3/4分位數(shù)
??? Q:如果不排序,還有什么方法?
??? A:是否需要精確找到這兩個(gè)數(shù)?數(shù)據(jù)量很大嗎?可以當(dāng)成正態(tài)分布來做嗎
??? Q:精確找到,沒有分布信息
????...
??? A:是要精確找到這個(gè)數(shù)嗎?
??? Q:是,你剛才已經(jīng)問過了
????...
??? A:用二分法,對(duì)于排在中間位置的數(shù),比它小就往前排,比它大就往后排...
4. 30個(gè)人去旅游,有A、B、C、D、E 5個(gè)地方供選擇,每人投一票,兩種投票方式:
一:選出票數(shù)最多的地點(diǎn)(如果票數(shù)相同,對(duì)于相同地點(diǎn)繼續(xù)投票)
二:每一輪淘汰一個(gè)票數(shù)最少的地點(diǎn),直到只剩一個(gè)地點(diǎn)
這兩種投票方式有區(qū)別嗎?為什么?講出這兩種投票方式的優(yōu)缺點(diǎn)2-3個(gè)
一:盡可能滿足更多人的第一志愿,二:盡可能提升所有人的平均滿意度
5. 提問:
和前面的面試官是一個(gè)部門嗎?
????????面試官:你還沒有到交叉面試環(huán)節(jié)
spark sql那一塊是不是答得很不好?
????????面試官:你覺得這是什么原因?
靈魂拷問系列中的兩個(gè)...,是我面試中度過最漫長(zhǎng)的兩分鐘。最后這兩個(gè)死亡提問,現(xiàn)在回憶起來仍令我倒吸一口涼氣,maybe真是壓力面?!但我還是硬著頭皮認(rèn)真解釋了剛開始為什么答得不好以及之后的改進(jìn)方向,可能有扳回0.1成?


四面 2020.04.14 30min (螞蟻金服交叉面)
1. ccf項(xiàng)目 ? 13min
方案賽和算法賽的區(qū)別、復(fù)賽思路展開
你們都不是網(wǎng)絡(luò)安全相關(guān)專業(yè)的,怎么想到這么去做的呢?
如果不知道業(yè)務(wù)知識(shí),怎么去分析?
數(shù)據(jù)如果脫離業(yè)務(wù)背景,分析就沒有意義
企業(yè)里復(fù)用,對(duì)于噪聲影響怎么優(yōu)化分析思路?
具體分工 & 最終得到的結(jié)果
2. 簡(jiǎn)歷里提到的用戶行為分析 ? ?7min
具體:
從用戶打開app開始,分析付費(fèi)用戶的前續(xù)行為
報(bào)表的作用:
為選取搭建基礎(chǔ)數(shù)據(jù)報(bào)表體系的指標(biāo)提供支持,為產(chǎn)品迭代提供方向
除了數(shù)據(jù)結(jié)果,還可以從哪些方向優(yōu)化app?
3. 遷移到螞蟻金服的業(yè)務(wù)(數(shù)字金融線),怎么界定行為的轉(zhuǎn)化,比如用戶從最初使用余額寶??穩(wěn)健型理財(cái)產(chǎn)品??風(fēng)險(xiǎn)型基金這樣一個(gè)進(jìn)階過程
定義優(yōu)質(zhì)客戶:在螞蟻上花費(fèi)較多的用戶,時(shí)間序列觀察行為轉(zhuǎn)變過程
定義轉(zhuǎn)化的關(guān)鍵步驟:從數(shù)據(jù)上發(fā)現(xiàn)哪兩步之間存在比較大的gap,結(jié)合業(yè)務(wù)定位問題
4. 提問:
面試流程:面試官表示是他老板讓他面的,他不清楚我前面的流程,以為是一面
具體工作:用數(shù)據(jù)指導(dǎo)業(yè)務(wù)同學(xué)推薦適合的理財(cái)產(chǎn)品;描繪用戶的進(jìn)階路線(用戶行為模式的探索)


hr面 2020.04.16 30min 視頻面

之前沒有疫情影響,阿里是要求5月-10月底,具體看同學(xué)的時(shí)間
10月底會(huì)有轉(zhuǎn)正面試,11/12月三方簽署


推薦閱讀
歡迎長(zhǎng)按掃碼關(guān)注「數(shù)據(jù)管道」
