【大數(shù)據(jù)面試之對線面試官】MapReduce/HDFS/YARN面試題70連擊

熱身30題
1.描述一下HDFS的寫流程
2.描述一下HDFS的讀流程
3.詳細(xì)講解一下HDFS的體系結(jié)構(gòu)
4.如果一個datanode出現(xiàn)宕機(jī),恢復(fù)流程是什么樣的?
5.通常你是如何解決Haddop的NameNode宕機(jī)的,流程是什么?
6.描述一下NameNode對元數(shù)據(jù)的管理
7.NameNode對元數(shù)據(jù)的管理機(jī)制是什么?
8.詳細(xì)描述一下Yarn的調(diào)度流程?
9.講解一下Hadoop中combiner和partition的作用
10.你在MapReduce過程中遇到過數(shù)據(jù)傾斜問題嗎?你是如何處理的?
11.Hadoop的Shuffle分為哪幾個階段?有什么特點(diǎn)
12.Mapreduce的map數(shù)量和reduce數(shù)量是由什么決定的?
13.你對MapReduce做過什么優(yōu)化?有什么經(jīng)驗(yàn)?
14.用過Combiner嗎?什么情況要使用Combiner?
15.講解一下MapReduce的流程?
16.HDFS的系統(tǒng)架構(gòu)是如何保證數(shù)據(jù)安全的?
17.在通過客戶端向HDFS中寫數(shù)據(jù)的時候,如果某一臺機(jī)器宕機(jī)了,會怎么處理
18.你對Hadoop集群做過哪些優(yōu)化?有哪些常用的優(yōu)化措施?
19.寫出MapReduce求TopN的思路
20.Hadoop集群中有哪些進(jìn)程?他們各自有什么作用?
21.Hadoop的job和Task之間的區(qū)別是什么?
22.Hadoop高可用HA模式如何配置?工作原理是什么?
23.安裝過集群嗎?大概需要哪幾步驟?
24.fsimage和edit的區(qū)別
25.詳細(xì)描述Yarn的三大調(diào)度策略
26.說出一些hadoop的常用shell命令
27.如何用MapReduce實(shí)現(xiàn)求用戶PV TOP10?
MapReduce部分深入
1.談?wù)凥adoop序列化和反序列化及自定義bean對象實(shí)現(xiàn)序列化?
2.FileInputFormat切片機(jī)制
3.在一個運(yùn)行的Hadoop 任務(wù)中,什么是InputSplit?
4.如何判定一個job的map和reduce的數(shù)量?
Maptask的個數(shù)由什么決定?
6.MapTask和ReduceTask工作原理和機(jī)制
7.描述mapReduce有幾種排序及排序發(fā)生的階段
8.描述mapReduce中shuffle階段的工作流程,如何優(yōu)化shuffle階段
9.描述mapReduce中combiner的作用是什么,一般使用情景,哪些情況不需要,及和reduce的區(qū)別?
10.如果沒有定義partitioner,那數(shù)據(jù)在被送達(dá)reducer前是如何被分區(qū)的?
11.MapReduce 出現(xiàn)單點(diǎn)負(fù)載多大,怎么負(fù)載平衡?
12.MapReduce 怎么實(shí)現(xiàn) TopN?寫出關(guān)鍵代碼
13.Hadoop的緩存機(jī)制(DistributedCache)
14.如何使用MapReduce實(shí)現(xiàn)兩個表的join?
15.什么樣的計算不能用MapReduce來提速?
16.ETL是哪三個單詞的縮寫,說說你用過的ETL場景和哪些技術(shù)點(diǎn)?
HDFS部分深入
HDFS 中的 block 默認(rèn)保存幾份?
2.HDFS 默認(rèn) BlockSize 是多大?
3.負(fù)責(zé)HDFS數(shù)據(jù)存儲的是哪一部分?
4.SecondaryNameNode的目的是什么?
5.文件大小設(shè)置,增大有什么影響?
6.hadoop的塊大小,從哪個版本開始是128M
7.HDFS的存儲機(jī)制
8.Secondary Namenode工作機(jī)制?
9.NameNode與SecondaryNameNode 的區(qū)別與聯(lián)系?
10.HDFS組成架構(gòu)
11.HAnamenode 是如何工作的?
YARN部分深入
1.簡述hadoop1與hadoop2 的架構(gòu)異同?
2.為什么會產(chǎn)生 yarn,它解決了什么問題,有什么優(yōu)勢?
3.HDFS的數(shù)據(jù)壓縮算法?
4.Hadoop的調(diào)度器總結(jié)?
5.MapReduce 2.0 容錯性?
6.Mapreduce推測執(zhí)行算法及原理?
優(yōu)化和其他問題
1.MapReduce跑得慢的原因?
2.MapReduce優(yōu)化方法?
3.HDFS小文件優(yōu)化方法?




