2020最新互聯(lián)網(wǎng)大數(shù)據(jù)面試題
百度:
1. 操作系統(tǒng)網(wǎng)絡(luò)通信序列化問題
2. WordCount多線程,按行讀取,統(tǒng)計(jì)每一行單詞的個(gè)數(shù)和,最后統(tǒng)計(jì)總共的單詞出現(xiàn)的次數(shù)(wordcount),多線程實(shí)現(xiàn)
3. mapreduce的shuffle過程詳細(xì)
4. Mapreduce計(jì)算過程中的序列化問題,數(shù)據(jù)傾斜問題
5. Redis,HBase,MongoDB各個(gè)數(shù)據(jù)庫之間的區(qū)別
6. 二叉樹按層打印并輸出層數(shù),非遞歸
7. 兩個(gè)10億url的文件,找重復(fù)url
8. 一個(gè)百億大文件,top10查找
9. spark Shuffle,MR shuffle,兩個(gè)框架shuffle異同
10. Spark內(nèi)存模型,內(nèi)存管理怎么做的
11. 三次握手四次斷開原理
滴滴:
1. 兩個(gè)有序數(shù)組合并為一個(gè)有序數(shù)組
2. 快慢指針判斷鏈表是否有環(huán)
3. spark shuffle
4. Kafka為什么快,怎么保證數(shù)據(jù)一致性和高可用性
5. Kafka的二分查找是普通的二分查找嗎?為什么不是,那是什么樣的
6. hbase rowkey設(shè)計(jì)原理
7. hbase ,hadoop讀寫流程
8. Yarn資源調(diào)度策略和調(diào)度流程
9. Hive優(yōu)化常用的有哪些,數(shù)據(jù)量特別的兩張表join思路
10. N層子查詢和join的SQL優(yōu)化有哪些思路
11. Hive內(nèi)部表和外部表的區(qū)別
12. Coding:盛水最多的容器,兩數(shù)之和
伴魚:
1. 二分查找—口述
2. HBase散列性怎么保證,rowkey的設(shè)計(jì),和創(chuàng)建表的方式
3. Yarn優(yōu)化做了什么
轉(zhuǎn)轉(zhuǎn)
1. HDFS的namenode功能介紹和journalnode的作用
2. YARN調(diào)優(yōu)的相關(guān)問題
3. Spark 檢查點(diǎn)機(jī)制怎么做的,怎么實(shí)現(xiàn)的
4. MR和spark的shuffle詳細(xì)講解
5. groupByKey和reduceByKey的區(qū)別
6. spark怎么精準(zhǔn)消費(fèi)一次kafka
7. Kafka高速率的原因
騰訊:
1. 日活,月活,回流統(tǒng)計(jì)
2. spark精準(zhǔn)一次消費(fèi)kafka怎么做
3. flink精準(zhǔn)一次消費(fèi)kafka怎么做
4. Hdfs讀寫流程,快照原理,三備份和EC的區(qū)別
5. hdfs中Crc校驗(yàn)是什么
6. Spark 序列化,廣播變量,累加器基本原理和實(shí)現(xiàn)
7. spark內(nèi)存模型
8. 數(shù)倉基本理論,各層都是做什么的,怎么設(shè)計(jì)的
9. Hadoop源碼MR中partiton是怎么獲取的
螞蟻金服:
1. K個(gè)有序鏈表合并為一個(gè)有序鏈表
2. 二分查找
3. 非遞歸二叉樹遍歷
4. spark groupByKey和reduceByKey區(qū)別
5. spark內(nèi)存模型
觸寶:
1:大數(shù)據(jù)常用組件,每個(gè)組件具體運(yùn)用和整體架構(gòu)設(shè)計(jì)
2:了解數(shù)據(jù)倉庫嗎?數(shù)據(jù)倉庫的架構(gòu),解釋下數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖,數(shù)據(jù)中臺的區(qū)別?
3:小白去大潤發(fā)超市買了一瓶92的拉菲? 哪些是緯度 哪些是指標(biāo),怎么設(shè)計(jì)數(shù)據(jù)模型
4:Kafka怎么保證數(shù)據(jù)不丟失?
? producer 生產(chǎn)端是如何保證數(shù)據(jù)不丟失的,broker端是如何保證數(shù)據(jù)不丟失的,會做。
5:HashMap的理解,問題為什么Map桶中個(gè)數(shù)超過8個(gè)才轉(zhuǎn)為紅黑樹?
6:10億數(shù)據(jù)和10億數(shù)據(jù)做join 怎么優(yōu)化
7:count(1) sum(A) 是如何做shuff的?
8:SELECT a.uid,b.name,SUM(1) as user1?
FROM user_log? a
JOIN user b ON? a.uid = b.uid
WHERE a.os = '1'
GROUP BY a.uid,b.name spark的過程
? ??
