面了字節(jié)跳動的數(shù)據(jù)挖掘崗,感覺真的很難...
最近社群組織了一場技術(shù)交流會,邀請了一些互聯(lián)網(wǎng)大廠朋友、參加社招和校招面試的同學,針對新手如何入門數(shù)據(jù)分析和機器學習算法、該如何備戰(zhàn)、面試??键c等熱門話題進行了深入的討論。
今天我整理了一個同學的面試題,分享給大家,希望對后續(xù)找工作的有所幫助。喜歡記得點贊、收藏、關(guān)注。更多技術(shù)交流&面經(jīng)學習,可以文末加入我們交流群。
一面 40min
-
【編程題】
有兩種數(shù)據(jù),分別是被轉(zhuǎn)發(fā)的用戶和轉(zhuǎn)發(fā)的用戶,求原視頻的用戶以及轉(zhuǎn)發(fā)的最長深度
“
from:1,1,2,2,3,6
”
to:2,3,4,5,6,7面試官提示轉(zhuǎn)換成樹的結(jié)構(gòu),我寫了求樹的最大深度的函數(shù),面試官說構(gòu)造樹比較復雜,差不多寫這樣可以。
-
【SQL題】
有一張網(wǎng)頁訪問日志表,記錄了user_id,session_id,page_id,timestamp
用戶在每點擊一個連接跳轉(zhuǎn),就會記錄一個時間戳,并且page_id排序后與時間戳的排序一致,現(xiàn)要求每個用戶的每個頁面所停留的時間。
比如:
1 1 1 10:00 1 1 3 12:00
面試官看了后說差不多是這樣,但要考慮一個邊界的問題,最后一個page_id之類的 (請問這個怎么處理? -
HiveSQL底層是怎么實現(xiàn)的?比如兩張表Join的時候會有哪些操作?需要shuffle這一步嗎?
-
mapReduce為什么需要Shuffle這一步
二面 40min
-
TCP四次揮手過程中,time_wait字段的作用?
-
進程和線程的區(qū)別
-
有一個文件,每一行是一個數(shù)字,如何用 MapReduce 進行排序
-
【編程題】n=3 時的全排列
-
【編程題】二叉樹的序列化和反序列化
-
Hive 中的 Distribute by
-
Partition By
三面 ~2h
三面的時候網(wǎng)真的好差,中間網(wǎng)絡(luò)斷了很多次,重新發(fā)起了4、5次視頻面試,最后還是打電話了
-
【編程題】在一棵二叉排序樹中,找到比給定數(shù)值小的最大節(jié)點。
-
【場景題】打車的場景下,poi記錄了建筑物的坐標:poi(pid, x, y),odr記錄的是乘客上車點的坐標:odr(oid, x, y);希望對所有的poi,獲得其周圍的100m的odr:結(jié)果(pid, oid)
我開始用的是歐式距離的暴力求解,面試官讓我提出優(yōu)化的方案,我說可以計算出每個坐標點的geohash值,相等的值說明可以建立映射關(guān)系,面試官說geohash存在的一個問題是可能會出現(xiàn)兩個相鄰100m之內(nèi)的點各自的geohash不同,這時怎么解決?
-
【SQL題】有兩張表:文章分類表artical_cate(aid, cate)一個文章可能有多種類型; 用戶閱讀表user_read(uid, aid),一個用戶可能閱讀多篇文章。
-
詳細問了實習的項目,涉及到業(yè)務(wù)背景,有哪些特征,整體流程和方法,問到了基于現(xiàn)在這個版本我會怎么繼續(xù)優(yōu)化?
“總結(jié)
”
編程基礎(chǔ)仍然是關(guān)鍵,結(jié)合業(yè)務(wù)場景的問題更需要拓展思路,平時還要多獨立思考。
三面由于一道題沒做出來,面的不太好,回絕后隔了一段時間后撈我加面
加面 45min
-
自我介紹
-
介紹公司實習的項目,準確率和召回率怎么得到的,提升后達到了多少
-
二分類問題除了準確率和召回率還有什么別的指標?ROC曲線怎么繪制的
-
訓練集效果很好,但在新的樣本上效果不好是什么原因?qū)е碌模磕阌肵gboost訓練時怎么解決這個問題
-
項目中運用MR任務(wù)來提高效率是怎么實現(xiàn)的?MapReduce的具體流程是怎么樣的?
-
描述一下在count操作的MR過程
-
寫一個SQL題,考察分組聚合、分區(qū)排序等
-
【編程題】給定一個包含非負整數(shù)的數(shù)組,你的任務(wù)是統(tǒng)計其中可以組成三角形三條邊的三元組個數(shù)。
-
場景題:如何預測抖音明天的流量
-
開放題:如何估計一個湖里魚的數(shù)量?你說的方法可能會出現(xiàn)什么問題
-
操作系統(tǒng):32位操作系統(tǒng)的內(nèi)存
-
數(shù)據(jù)結(jié)構(gòu):知道哪些排序算法?歸并排序在任何適合空間復雜度都可以達到O(n)嗎
五面 20min
聊天面,問能不能來提前實習,畢業(yè)論文,是否有別的offer,導師實驗室是否自由等問題
- EOF -
作者簡介
城哥,公眾號9年博主,一線互聯(lián)網(wǎng)工作10年、公司校招和社招技術(shù)面試官,主導多個公司級實戰(zhàn)項目(Python、數(shù)據(jù)分析挖掘、算法、AI平臺、大模型等)。
關(guān)注我,陪你一起成長,遇見更好的自己。
星球服務(wù)
會不定期發(fā)放知識星球優(yōu)惠券,加入星球前可以添加城哥微信: dkl88191 ,咨詢優(yōu)惠券問題。
加入知識星球后,可以享受7大福利與服務(wù):免費獲取海量技術(shù)資料、向我 1 對 1 技術(shù)咨詢、求職指導,簡歷優(yōu)化、歷史文章答疑(源碼+數(shù)據(jù))、綜合&專業(yè)技術(shù)交流社群、大模型技術(shù)分享、定制專屬學習路線,幫你快速成長、告別迷茫。
原創(chuàng)不易,技術(shù)學習資料如下,星球成員可免費獲取,非星球成員,添加城哥微信:dkl88191,請城哥喝杯星巴克。
