2020年小紅書校招數(shù)據(jù)分析筆試題
1、如果在小紅書商城中某一商戶給一產(chǎn)品定價,如果按照全網(wǎng)最低價500元定價,那么客人就一定會選擇在此購買;價格每增加1元,客人的流失的可能性就會增加1%。那么該商戶給客人報出最優(yōu)價格為()
A、520
B、535
C、550
D、565
答案:C
解析:
要求定價為多少時,利潤能最大。設(shè)價格漲幅為x,利潤為y,M為顧客數(shù)未知,但是一個固定值。求二元一次方程y=M(1-x/100)x的最大值。
2、在一次集卡活動中,有5種不同的卡片以相同的概率出現(xiàn),每分享一次筆記就可以得到一張卡片,集齊所有卡片所需點贊的筆記數(shù)量的期望,與以下哪個結(jié)果最為接近?()
A、9
B、11
C、13
D、15
答案:B
解析:
考察多個幾何分布的和。
首先題目符合幾何分布,獨立試驗->拿到一種卡片的概率相同->為了集齊卡片要進行多少次試驗。對于幾何分布,若其每次成功的概率為p,則期望為1/p.
回到本題,有幾種情況:
假設(shè)這里面只有一種卡片,拿一次就拿齊了所有卡片,期望是1
假設(shè)這里面有兩種卡片,第一次肯定能拿到一種,那么,再拿多少次可以拿到剩下的那種呢,就又變成了一個幾何分布,p = 1/2,期望是2,所以總的期望是1+2=3
假設(shè)這里面有3種卡片,第一次肯定拿到了一種,期望是1,第二次要拿剩余的兩種的一種,p = ?2/3,期望是3/2,第三次要拿到第三種,p = 1/3,期望是3,所以整體的期望是1+3/2+3=11/2
依次類推,5種卡片,全部拿齊的期望應(yīng)該是:
第一次拿到了1種,期望是1,第二次拿到剩余4種中的1種,p=4/5,E=5/4,第三次拿到剩余3種中的1中,p=3/5,E=5/3,第四次拿到剩余2種中的1中,p=2/5,E=5/2,第五次拿到剩余1種,p=1/5,E=5。總的期望就為:1+5/4+5/3+5/2+5,約等于11.42
這和集5福是一個道理。
3、在excel中如何將列a的字符值與列b的字符值合并為一個字符串c()
A、c=a+b
B、c=a&b
C、c=a and b
D、c=a*b
解析:
考察Excel基本用法
Excel中字符的合并是用“&”符號,也可以用函數(shù)CONCATENATE。Python中字符串的拼接用“+”
SQL中字符拼接可以用“+”,也可以用concat函數(shù)
4、select count(open) ?count(distinct user_id) ? from ? temp1
()
A、3,4
B、5,5
C、5,3
D、3,5
這道題不懂是什么意思,沒有給表。
5、調(diào)查全公司1000名員工平均交通費用支出情況,采取不重置抽樣,從其中抽取100名進行調(diào)查。根據(jù)以往調(diào)查可知總體方差s2為100,則樣本均值的方差為 ()
A、0.1
B、1
C、100/111
D、10/111
答案:C
解析:
不重置抽樣時,樣本均值的方差用以下公式來計算:

100/100x(1000-100)/(1000-1)=100/111
6、已知2-5月環(huán)比增長速度分別為5.6%、7.1%、8.5%、6.4%,則5月對比1月的增速是 ()
A、5.6%7.1%8.5%6.4%?
B、(105.6%107.1%108.5%106.4%)-100%
C、(5.6%7.1%8.5%6.4%)+100%?
D、105.6%107.1%108.5%106.4%
答案:B
解析:
考察定基增速與環(huán)比增速
5月對比1月的增速是定基增長速度,定基增速與環(huán)比增速兩者之間沒有直接的換算關(guān)系,在由環(huán)比增長速度推算定基增長速度時,可先將各環(huán)比增長速度加1后連乘,再將結(jié)果減1,即得定基增長速度,則定基增長速度為(107.8%×109.5%×106.2%×104.9%)-100%。
7、“魚與熊掌不可得兼”的意思是:()
A、要么得魚,要么得熊掌
B、得熊掌就不得魚
C、或者得魚,或者得熊掌
D、不得熊掌就得魚
答案:B
解析:
考察互斥事件
魚和熊掌是互斥事件,只有其中一個會發(fā)生,只有B是這個意思
8、以下哪些是判別模型?()--多選
A、隱馬爾可夫
B、決策樹
C、支持向量機
D、樸素貝葉斯
E、最大熵模型
答案:BCE
解析:
考察機器學(xué)習(xí)算法的基本概念
決策樹、支持向量機、最大熵模型屬于判別模型,典型的判別模型還有KNN、邏輯回歸、神經(jīng)網(wǎng)絡(luò)等。樸素貝葉斯、隱馬爾科夫?qū)儆谏墒侥P汀?/p>
關(guān)于判別模型和生成模型,博文機器學(xué)習(xí)之判別式模型和生成式模型 - nolonely - 博客園 舉了一個例子:
判別式模型舉例:要確定一個羊是山羊還是綿羊,用判別模型的方法是從歷史數(shù)據(jù)中學(xué)習(xí)到模型,然后通過提取這只羊的特征來預(yù)測出這只羊是山羊的概率,是綿羊的概率。
生成式模型舉例:利用生成模型是根據(jù)山羊的特征首先學(xué)習(xí)出一個山羊的模型,然后根據(jù)綿羊的特征學(xué)習(xí)出一個綿羊的模型,然后從這只羊中提取特征,放到山羊模型中看概率是多少,在放到綿羊模型中看概率是多少,哪個大就是哪個。
9、下列Excel公式輸入的格式中,正確的有()
A、=SUM(1,2,,,,99,100)
B、=SUM(E1:E6)
C、=SUM(E1;E6)
D、SUM(“18”,”25”,7)
答案:B
解析:
考察Excel基本用法
Excel里sum函數(shù)求和的用法為B選項
10、關(guān)于正態(tài)分布,下列說法正確的是()--多選
A、正態(tài)分布具有集中性和對稱性
B、正態(tài)分布的均值和方差決定正態(tài)分布的位置和形態(tài)
C、正態(tài)分布的偏度為0,峰度為1
D、標(biāo)準(zhǔn)正態(tài)分布的均值為0,方差為1
答案:ABD
解析:
考察正態(tài)分布的基本知識
正態(tài)分布曲線對稱,具有對稱性,均值和中位數(shù)位于中央,具有集中性。
正態(tài)分布的均值決定了曲線的中央位置,方差指出了分散性,也就是方差越大,曲線越扁平、越寬,決定了其形態(tài)。
標(biāo)準(zhǔn)正態(tài)分布的均值為0,方差為1。
標(biāo)準(zhǔn)正態(tài)分布的偏度為0,峰度為0(3)。
11、X服從區(qū)間(1,5)上的均勻分布,求對X進行3次獨立觀測中,至少有2次的觀測值大于2的概率()
答案:27/32
解析:
考察二項分布用法
三次獨立觀測滿足二項分布X~B(3,3/4)

這里大于2的概率p=3/4,q=1/4,n=3
要求至少2次觀測值大于2的概率,就是求P(X=2)+P(X=3)
? ?P = 3!/2!(3-2)!(3/4)^2(1/4)+3!/3! * (3/4)^3
? =3(3/4)(3/4)*(1/4)+ (3/4)^3
? =27/32
關(guān)于二項分布,可參考我之前的文章:
離散型隨機變量的概率分布
12、抽樣估計的優(yōu)良標(biāo)準(zhǔn)有三個:(),影響時間序列的因素有四個:()
答案:無偏性、一致性、有效性;長期趨勢、季節(jié)變動、循環(huán)波動、不規(guī)則波動
解析:
考察統(tǒng)計學(xué)中的抽樣估計、時間序列的基本概念
概念性問題
13、請給出三種常見的聚類算法:()
答案:K-means聚類、K-中心點聚類、EM算法、OPTICS算法、DBSCAN算法等
解析:
考察聚類算法的基本概念
14、小紅書人臉識別系統(tǒng)識別當(dāng)前進入小紅書公司人員的身份,此系統(tǒng)一共識別三種不同的人員:員工,送餐員和陌生人。哪種學(xué)習(xí)方法適合此種應(yīng)用需求()
答案:多分類
解析:
考察機器學(xué)習(xí)的應(yīng)用
15、小紅書在首頁上線了一個新的模塊,目的是為了提升用戶的瀏覽時長,請設(shè)計一套分析方案,衡量模塊上線后對用戶停留時長是否有提升?
解析:
思路A/B Test,后面第19題再詳細說它。
16、下表是某電商在不同品類不同月份的銷量數(shù)據(jù)
(1) 請用sumif或 sumifs在F3單元格實現(xiàn)計算洗面奶在201901的銷量
(2) 請用函數(shù)實現(xiàn)計算洗面奶有幾個月的銷量超過了100萬
(3) 請用函數(shù)計算洗面奶這個品類的月復(fù)合增長率
答案:
=SUMIFS(C4:C15,B4:B15,E4,A4:A15,F3)
=COUNTIFS(B2:B13,B2,C2:C13,">100")
=pow(160/120,1/3)-1
解析:
考察Excel的實際應(yīng)用
第一題考察SUMIFS函數(shù)用法,這個函數(shù)是用來進行條件求和的,該函數(shù)至少有三部分參數(shù):
sum_range:指進行求和的單元格或單元格區(qū)域(求和區(qū)域)
criteral_range:條件區(qū)域,在求和時,該區(qū)域?qū)⑴c條件的判斷
criterl:通常是參與判斷的具體一個值,來自于條件區(qū)域
把這個函數(shù)展開具體來看就很簡單了:
第二題考察COUNTIFS函數(shù)的用法,這個函數(shù)是用來進行條件計數(shù)的,它的參數(shù):
criteria_range[N]:指要進行計數(shù)的單元格或單元格區(qū)域(條件區(qū)域)
criteria[N]:條件值。
這個公式展開后同樣非常好理解:
第三題是復(fù)合增長率的計算,它的公式是:
(現(xiàn)有價值/基礎(chǔ)價值)^(1/期數(shù)) - 1
這里要計算的是洗面奶的月復(fù)合增長率,Excel里用power函數(shù)計算乘冪。

17、有訂單事務(wù)表orders:
orders
有收藏事務(wù)表favorites:favorites
請用一句SQL取出所有用戶對商品的行為特征,特征分為已購買、購買未收藏、收藏未購買、收藏且購買(輸出結(jié)果如下表)結(jié)果
答案:
SELECT?o.user_id,o.item_id,
(CASE?when?o.pay_time?is?not?null?then?1?else?0?end)?as?'已購買',
(CASE?when?o.pay_time?is?not?null?and?f.fav_time?is?null?then?1?else?0?end)?as?'購買未收藏',
(CASE?when?o.pay_time?is?null?and?f.fav_time?is?not?null?then?1?else?0?end)?as?'收藏未購買',
(CASE?when?o.pay_time?is?not?null?and?f.fav_time?is?not?null?then?1?else?0?end)?as?'收藏且購買'
FROM?orders?o
LEFT?JOIN?favorites?f?
ON?o.user_id?=?f.user_id?
AND?o.item_id?=?f.item_id
UNION
SELECT
f.user_id,f.item_id,
(CASE?when?o.pay_time?is?not?null?then?1?else?0?end)?as?'已購買',
(CASE?when?o.pay_time?is?not?null?and?f.fav_time?is?null?then?1?else?0?end)?as?'購買未收藏',
(CASE?when?o.pay_time?is?null?and?f.fav_time?is?not?null?then?1?else?0?end)?as?'收藏未購買',
(CASE?when?o.pay_time?is?not?null?and?f.fav_time?is?not?null?then?1?else?0?end)?as?'收藏且購買'
FROM?orders?o?
RIGHT?JOIN?favorites?f?
ON?o.user_id?=?f.user_id?
AND?o.item_id?=?f.item_id
ORDER?BY?user_id,?item_id;
解析:
考察SQL語句中的case when、外連接、union的用法
18、好評率是用戶對產(chǎn)品評價的重要指標(biāo)。現(xiàn)在需要統(tǒng)計2019年3月1日到2019年3月31日,用戶'小張'提交的"母嬰"類目"DW"品牌的好評率(好評率=“好評”評價量/總評價量),請寫出SQL/Python/其他語言查詢語句:
用戶評價詳情表:a
字段:id(評價id,主鍵),create_time(評價創(chuàng)建時間,格式'2019-01-01'), user_name(用戶名稱),goods_id(商品id,外鍵) ,
sub_time(評價提交時間,格式'2019-01-01 23:10:32'),sat_name(好評率類型,包含:“好評”、“中評”、“差評”)
商品詳情表:b
字段:goods_id(商品id,主鍵),goods_name(商品類目), brand_name(品牌名稱)
答案:
select?
sum(case?when?sat_name?=?'好評'?then?1?else?0?end)/sum(case?when?sat_name?is?not?null?then?1?else?0?end)?as?'好評率'
from?a?join?b?on?a.goods_id?=?b.goods_id
where?a.user_name?=?'小張'
and?goods_name?=?'母嬰'
and?brand_name?=?'DW'
and?create_time?between?'2019-03-01'?and?'2019-03-31'
解析:
考察SQL語句
19、經(jīng)過一番研究后,我們開發(fā)出了商品頁面上“相關(guān)商品”模塊的一個新的推薦算法,并且打算通過AB Test(50%用戶保留原先的算法邏輯為控制組,50%用戶使用新的算法邏輯為實驗組)來對新的算法效果進行評估。假設(shè)你是此次實驗的數(shù)據(jù)分析師,請問你會如何評估控制組和實驗組的表現(xiàn)?(假設(shè)需要數(shù)據(jù)都可取到)請按重要性列出最重要的三個指標(biāo)并給出你的分析過程/思考。
解析:
指標(biāo):相關(guān)商品的點擊/曝光量;進入商品詳情頁后加購/立即購買的轉(zhuǎn)化率;銷售總額
方法:假設(shè)檢驗
假設(shè)檢驗可以這樣做:
1、確定原假設(shè)和備則假設(shè)
原假設(shè):使用新算法后沒有效果(上述指標(biāo)不變或下降)
備則假設(shè):使用新算法后有效果(上述指標(biāo)提高)
2、選擇一個時間段進行AB Test
3、T檢驗,計算P值
4、分析結(jié)果:如果使用新算法后的指標(biāo)遠低于沒有用新算法的指標(biāo),如果新算法沒有效果,出現(xiàn)這一結(jié)果的概率是很低的,因此拒絕原假設(shè),即使用新算法后有效。
原理:小概率反證法
20、如果我們發(fā)現(xiàn),某店鋪的X品類在今年3月的銷量,比去年3月的銷量下降了50%,如果你是負(fù)責(zé)此次分析的數(shù)據(jù)分析師,你會如何分析?請寫出你的分析思路/過程/想法。
解析:
開放性問題,放一個我的思路吧:
排除數(shù)據(jù)本身的問題:首先是確定數(shù)據(jù)是否正確,數(shù)據(jù)來源、口徑是否無誤,然后再接下去分析;
確認(rèn)跌幅合理性:下降了50%,結(jié)合環(huán)比,同比,同期群分析它的跌幅是否合理;
分析外部原因:有哪些可能的外部原因和下降有關(guān),有關(guān)到什么程度,比如是否是其他相關(guān)部門進行了產(chǎn)品迭代、運營策略的調(diào)整、設(shè)備故障等因素;
分析內(nèi)部原因:這就可以從多個維度進行分析了,比如從用戶、產(chǎn)品、市場的角度分別分析,還可以進行指標(biāo)拆分;
確認(rèn)影響程度:確認(rèn)到底是哪一環(huán)節(jié)出了問題導(dǎo)致指標(biāo)的下降,該指標(biāo)的下降對關(guān)鍵指標(biāo)有無影響,影響程度如何;
制定鞏固措施:以后怎么避免該類問題發(fā)生。
21、某APP 7月份DAU比同年5月份上漲了10%,作為數(shù)據(jù)分析師,你會從哪些方面分析DAU增長的原因?請列舉至少兩種以上拆分思路。
解析:
這題和上一道題很像,一個是指標(biāo)為什么下跌,一個是指標(biāo)為什么上漲。但這題更注重考查分析內(nèi)部原因這塊,但是首先最重要的,都是要檢查數(shù)據(jù)的準(zhǔn)確性。
這里貼一個網(wǎng)友的答案,思路非常清晰(來源:??途W(wǎng)):

22、挑選任意一款你使用過的社區(qū)類APP(不包括小紅書),回答以下問題:
(1)描述使用這款A(yù)PP的用戶特征,并比較該APP用戶特征與小紅書用戶特征的異同
(2)預(yù)估每一天有多少人在這款app上發(fā)布內(nèi)容。請寫出你需要的輔助數(shù)據(jù),并簡述預(yù)估的方法
(3)你選擇的這款A(yù)PP近期擬邀請ABC三組藝人中的一組開展聯(lián)動活動,活動的主要目的為提升DAU。
在活動形式完全一致的前提下,你將選擇哪一組?
作答要求:1)簡述分析思路,2)列出對應(yīng)的數(shù)據(jù)指標(biāo)
解析:
開放性題目。
23、經(jīng)過一番研究,我們決定在新用戶首次激活A(yù)PP時增加一個短視頻介紹頁面來增加用戶對產(chǎn)品的感知,并且打算通過AB Test(50%為控制組,50%的用戶首次激活時會看到短視頻介紹)來進行評估。假如你是此次實驗的數(shù)據(jù)分析師,請問你會如何評估控制組和實驗組的表現(xiàn)?請列出你認(rèn)為重要的指標(biāo),給出分析過程和可能用到的統(tǒng)計方法。
解析:
目的應(yīng)該是了解用戶在觀看短視頻介紹頁面后的行為,以此來判斷短視頻介紹頁面是否有用。
指標(biāo):關(guān)注實驗組短視頻點擊率,跳出率,觀看時長,對比兩個組的用戶激活量,注冊激活率,以及后續(xù)的留存情況。
方法:假設(shè)檢驗
24、小紅書上海辦公室樓下有一便利店,面積約為20平方米,主要提供零食及飲料。請預(yù)估該便利店每周的營業(yè)額是多少?
解析:
預(yù)估這種問題,主要方向是進行一個邏輯拆解,把一個復(fù)雜的問題拆解成具體、簡單的問題。貼其中的一種思路,大家看看吧:
營業(yè)額可以拆分為客流量X平均消費額。面積20平,10平放置貨物,10平顧客區(qū),可以同時容納5個顧客,假設(shè)消費時長人均10分鐘,那么一個小時客流量30人,人均消費25元,一天10個小時營業(yè)時間,每周營業(yè)額302510*7=52500元。
25、如果APP有一個功能是用戶的位置信息能夠每隔1分鐘上傳一次數(shù)據(jù)庫,那么怎么發(fā)揮它的作用?
解析:
這題的回答方向應(yīng)該是用這個用戶的位置信息能做什么事。比如根據(jù)位置信息可以獲取用戶的行為軌跡,進而分析出用戶的行為習(xí)慣,進行相應(yīng)的實時推薦服務(wù)等。
總結(jié)
有些題目考察統(tǒng)計學(xué)知識,如幾何分布、二項分布的應(yīng)用;
有些題目是比較基礎(chǔ)的數(shù)學(xué)題,如求二元一次方程最大值、增速等;
考察Excel的基本用法,如公式寫沒寫對;
考察機器學(xué)習(xí)、統(tǒng)計學(xué)的一些基本知識點,如都有哪些聚類算法等,知道就行;
考察SQL的應(yīng)用,兩道大題直接寫SQL,比較重要;
大題里重點考察A/B Test的應(yīng)用,3道題的思路都有它,非常重要。
--end--




