<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          杭州公司大數(shù)據(jù)面試題匯總

          共 5337字,需瀏覽 11分鐘

           ·

          2021-04-25 12:54

          點擊上方 "大數(shù)據(jù)肌肉猿"關注, 星標一起成長

          后臺回復【加群】,進入高質量學習交流群

          2021年大數(shù)據(jù)肌肉猿公眾號獎勵制度

          本文是學習群的一個在杭州做.net的同學轉型大數(shù)據(jù)時,在杭州面試總結的面經(jīng)知識點。該同學轉型經(jīng)歷可以參考:兩年 .net 開發(fā)轉型大數(shù)據(jù),上岸阿里P6



          一、若干中小公司


          1..mapreduce過程介紹一下

          2.項目中用到的hive存儲結構有哪些

          3.查看連續(xù)5天登陸的用戶

          4.spark 的yarn集群的cluster模式運行和client模式運行的區(qū)別是什么

          5.spark調優(yōu)你知道的有哪些?

          6.RDD寬依賴和窄依賴的區(qū)別

          7.RDD是什么

          8.spark sql和hive sql的開窗函數(shù)的格式是怎樣的

          9.對數(shù)據(jù)倉庫有什么了解?

          10.項目中的集群規(guī)模是怎樣的?

          11.介紹一下項目的整體流程?

          12.sqoop拉取mysql業(yè)務數(shù)據(jù)時,拉取的頻率太高,導致數(shù)據(jù)庫壓力過大,出現(xiàn)一些慢查詢,怎么解決?

          13.每天的增量數(shù)據(jù)大概是多少?

          14.當前一些同步的工具和性能有受到一些影響嗎,這邊有做一些什么優(yōu)化嗎?

          15.mq如何避免重復消費?如何避免消息丟失?(這是自己引導面試官問的,已準備充分,子彈充沛,突突就完事了)

          16.線上環(huán)境的垃圾收集,jvm參數(shù)是怎么配置的,如果要求響應速度比較快的話,應該用什么垃圾收集器?

          17.根據(jù)線上GC頻不頻繁,從而定位一些問題,如何查看GC頻不頻繁這些問題(比如說GC多少次,GC的頻率)?

          18.線上環(huán)境有遇到過代碼上的一些死循環(huán),和一些內存OOM的問題嗎?怎么去排查解決的?

          19.有這樣一個場景,有一些數(shù)據(jù),這些數(shù)據(jù)大部分相互之間是獨立的,處理不存在依賴,目前是單線程去處理,如果想要更快的處理這些數(shù)據(jù),應該怎么做?

          20.如果使用線程池去處理,就是希望能夠較快的處理,當線程池的線程用完了,希望能夠降級成單線程處理,應該怎樣去配置線程池。(不希望出現(xiàn)線程池的線程用完了,而導致其他任務沒有處理,出現(xiàn)丟任務的情況)

          21.介紹一下項目的結構和項目中大數(shù)據(jù)平臺的搭建,然后說說為什么這樣做?

          一般這樣問,主要是問一些技術的選型,為什么這么選,比如:為什么用zookeeper做hadoop高可用,而不用redis等,可以準備一下zookeeper和redis的優(yōu)缺點等比較

          22.spark數(shù)據(jù)傾斜,有做哪些處理?

          23.jvm調優(yōu)了解嗎?

          24.mysql事務隔離級別了解嗎?

          25簡單介紹下spark streaming(這個完全沒看,直接說不太了解)

          26.hbase簡單介紹下

          27.數(shù)倉的用戶漏斗轉化了解嗎?

          28.sparksql出現(xiàn)數(shù)據(jù)傾斜如何排查

          29.同一用戶登錄多個平臺,如何確認是同一個用戶的行為;

          30.mysql索引了解嗎

          31.

          32.為什么用zookeeper做hadoop高可用,不用mysql或者redis?

          33.數(shù)據(jù)倉庫建設中,有沒有涉及一些中間表的創(chuàng)建?

          34.hdfs簡單介紹一下

          35.hdfs再hadoop2.x版本中為什么是128m

          36.hdfs寫滿,如何去處理

          37.用戶下單之后,會進行出庫操作,然后運輸,把貨交到客戶手中,問了我用戶如果沒有收到貨,然后怎么去跟蹤這個問題?(項目相關,圍繞這個問題展開了很多項目相關的)



          二、杭州同花順


          一面

          1.項目的人員結構是怎樣的?

          2.介紹一下你負責的模塊項目的具體邏輯流程

          3.實時分析和離線分析的區(qū)別?

          4.hashmap和hashtable的區(qū)別以及原理?

          5.hashmap使用需要注意的地方,會踩哪些坑?

          6.講一下java反射機制?

          7.簡單說下spring依賴注入的原理

          8.arrayList和linkList的原理

          9.spring和springboot的區(qū)別?

          10.有沒有遇到像淘寶秒殺這樣的業(yè)務場景?這樣的場景關鍵之處是什么?

          11.說說java內存機制

          12.docker了解嗎,簡單說下?

          13.說一說生產(chǎn)中常用到的linux命令?

          14查看端口占用情況是什么命令?


          二面

          1.spark中產(chǎn)生shuffle的算子,除了

          groupbykey,countbykey,reducebykey,還有哪些?

          2.宕機的namenode怎么恢復

          3.hadoop集群的權限配置是怎樣的?

          4.hadoop集群的維護過程,做了哪些工作?(調優(yōu),數(shù)據(jù)傾斜都可以答)

          5.保證線上hadoop集群的正常運行,采取了哪些措施?(hadoop高可用的知識點)

          6.spark進行計算與分析的過程中,有沒有遇到一些性能問題?

          7.hadoop高可用架構中,zookeeper是如何進行主備切換的?

          8.有沒有處理過線上問題,舉個例子簡單說下?(這個得準備下,展現(xiàn)真正的技術的時候到了)

          9.hive提交hql語句到hive上執(zhí)行的方式以及區(qū)別,為什么這么做?

          10你單獨負責維護和搭建了這些大數(shù)據(jù)組件中哪一些?(準備了容易得高分)

          11.你對hive做了哪些維護工作?(調優(yōu)和數(shù)據(jù)傾斜)

          12.spark2.x與spark1.x的內存管理方面有什么區(qū)別?

          13.寫spark任務的一些參數(shù)的設置依據(jù)是什么?

          14.每次提交spark任務,有設置動態(tài)資源分配嗎?

          15.namnode的內存管理簡單說下?

          16.spark中stage的劃分依據(jù)是什么


          二輪面試沒抗住,卒,主要是自主發(fā)揮的題沒準備,準備了的話,其實面試官提這些問題的時候,可以往自己熟悉的方向回答,面試官也比較愿意順著你的回答深究,這樣自己就比較能把握面試的主動權了,這也是后面其他面試才慢慢熟練運用了這種常規(guī)操作。



          三、字節(jié)面試


          一面

          1.spark調優(yōu),spark數(shù)據(jù)傾斜體現(xiàn)在項目中,具體在哪些場景出現(xiàn)了?

          2.訂單服務,倉儲服務以及其他業(yè)務模塊之前是怎么進行關聯(lián)的?是通過消息隊列異步的嗎?

          3.sql中row_number和rank的區(qū)別?

          4.負責的模塊中,你主要做了哪些工作?

          5.訂單的整個流轉過程?

          6.rabbitmq怎么避免重復消費?

          7.rabbitmq中怎么去通過消息日志判斷消息被消費了,簡單說下過程。

          8.你覺得你工作中有哪些方面能做的更好?

          算法題:

          給定一個整數(shù)數(shù)組,判斷這個數(shù)組是否可以重新分組,使得每個組內的元素個數(shù)為w,且這些數(shù)字是連續(xù)的數(shù)字。


          二面

          1.項目中數(shù)據(jù)倉庫是怎么分層的?

          2.怎么保證數(shù)據(jù)倉庫每層之間的數(shù)據(jù)完整性?

          3.原始數(shù)據(jù)層中,用于存儲原始數(shù)據(jù)的hadoop高可用架構的主備namenode節(jié)點之間是怎么保證數(shù)據(jù)同步的?

          4.為什么要將主節(jié)點的寫操作對應的editlog文件放在共享文件中,而不是直接讓備節(jié)點去主節(jié)點中拉取文件同步呢?

          5.namenode主備同步的共享文件保存在哪里?在主備節(jié)點還是另外一臺機器?

          6.namenode主備同步的共享數(shù)據(jù)文件是怎么保證高可用的?

          7.數(shù)據(jù)倉庫中層與層之間,怎么保證某一層數(shù)據(jù)出現(xiàn)變化,該層的下游能夠感知到?(數(shù)據(jù)血緣)

          8.產(chǎn)品問你,你通過sparksql計算出的數(shù)據(jù),如何保證是正確的,該如何回答?(數(shù)據(jù)質量如何保證)

          9.spark的計算過程是怎樣的?

          10.sparksql轉化為spark的具體任務,轉化的過程是怎樣的?

          11.spark計算過程中,沒有使用會產(chǎn)生shuffle的算子,會產(chǎn)生shuffle嗎?

          12.寫sparksql從hive中獲取數(shù)據(jù),如何解決一次性獲取大量數(shù)據(jù)加載進spark節(jié)點內存,從而導致網(wǎng)絡傳輸帶寬壓力過大的問題?

          13算法題

          M * N 的矩陣。

          例子:

          3 * 5

          1 2 3 4 5

          3 4 5 6 7

          2 3 4 5 6

          特征:每一行是單調遞增的。

          目標:盡可能快的找到整個矩陣中第 k 小的數(shù)字。


          二面卒,前期沒有準備好算法的訓練,投的太早,建議還是小公司先面,大公司往后放放。



          四、杭州貝貝


          1.spark sql和hive sql的區(qū)別

          2.從原始數(shù)據(jù)層獲取數(shù)據(jù),數(shù)據(jù)丟失的情況有沒有遇到過?

          3.kafka消息丟失,如何發(fā)現(xiàn)這些問題以及如何處理?

          4.項目中用到的kafka的topic,以及一些相關的歷史天數(shù)之類的參數(shù)是怎么去設計的?

          5.kafka消息隊列的消息一般會保存幾天?

          6.datax了解嗎?

          7.sparksql和hivesql的語法上的區(qū)別有哪些?舉例說明

          8.hivesql的查詢語句中有select,from,join,order by group by的執(zhí)行順序是怎樣的?

          你遇到hive中哪幾類數(shù)據(jù)傾斜,以及如何解決這些問題的? 

          9.hivesql的行轉列的語法上是怎么實現(xiàn)的?

          10.找出連續(xù)三天及以上訪問網(wǎng)站的用戶

          四 嗶哩嗶哩(b站)

          1.進程、線程間如何通信

          2.Hadoop高可用簡單介紹下

          3.集群規(guī)模,你們訂單表全量數(shù)據(jù)有多少

          4.JVM垃圾回收算法那些、標記算法哪些、根據(jù)哪些指標選擇垃圾回收器。

          5.項目中哪些場景有Spark數(shù)據(jù)傾斜

          6.MySQL中訂單數(shù)據(jù)表如何進行分庫分表

          7.Sqoop 讀取MySQL數(shù)據(jù)導入HDFS 的流轉過程

          8.如何感知訂單表變化數(shù)據(jù)導入了HDFS

          9.訂單表導入HDFS后是如何進行分區(qū)的。

          10.MySQL中訂單表總共數(shù)據(jù)量多少T, 實際行數(shù)有多少?


          總結:沒答好,卒,總結了一波,這個崗位偏數(shù)據(jù)平臺建設和開發(fā),沒準備太充分。



          五、阿里面試


          一面

          1.hive數(shù)據(jù)傾斜有哪幾種?舉例說明

          2.數(shù)據(jù)采集方式是什么?

          3.數(shù)倉是如何分層的?

          4.數(shù)據(jù)應用層對外使用的話,是通過什么方式去使用的?

          5.數(shù)據(jù)應用程序指標的設計過程是怎樣的?

          6.能舉例說下進行過深加工的指標設計流程嗎?

          7.指標的設計有參與過嗎,通過什么方法去分析數(shù)據(jù),從而確定指標的口徑?

          8.hivesql行轉列和列轉行

          9.hadoop的讀寫原理

          10.hivesql的解析過程

          11.hive執(zhí)行流程

          12.hive自定義函數(shù)是怎樣的?

          13.有一張事實表,有一張維度表,我現(xiàn)在想創(chuàng)建一張寬表,通過選擇表的一些字段去自動生成sql腳本,有沒有嘗試這樣的方法

          14.用戶漏斗轉化的過程了解嗎?


          二面

          1.怎樣保證數(shù)據(jù)倉庫的數(shù)據(jù)準確性,數(shù)據(jù)穩(wěn)定性,什么方法可以監(jiān)測數(shù)據(jù)是否準確?

          2.談談你對數(shù)倉的理解

          3.數(shù)據(jù)倉庫從0到1怎么建設

          4.針對數(shù)據(jù)應用層各種統(tǒng)計口徑,數(shù)據(jù)服務層怎么設計?

          5.項目中有沒有建設指標系統(tǒng)

          6.spark數(shù)據(jù)傾斜有哪幾類?

          7.spark的shuffle過程?

          8.日志數(shù)據(jù)的收集形式是怎樣的?

          9.數(shù)據(jù)質量監(jiān)控用的是什么工具?

          10.數(shù)倉的數(shù)據(jù)模型有哪幾種?


          三面

          1.已知的實時架構有哪些?

          2.你對數(shù)倉的理解,從0到1建設數(shù)倉的過程

          3.主要從哪些方面去做數(shù)據(jù)質量檢測?

          4.數(shù)據(jù)質量的精確性方面能舉例說明嗎?

          5.數(shù)倉中的數(shù)據(jù)唯一性怎么校驗?

          6.數(shù)倉中的元數(shù)據(jù)管理,管理的是什么形式的數(shù)據(jù)?

          7.數(shù)倉進行數(shù)據(jù)監(jiān)測,有什么措施?

          8.范式模型和星型模型的各自優(yōu)缺點是什么?

          9.有這樣一個場景,一張表中有三個字段,學生id,班級編號,學生的語文成績,如何求出每個班級的學生語文成績的平均分,平均分的計算去除最低分和最高分,用一條sql計算。

           

          總結:阿里面試下來,總的來說主要是離線數(shù)倉更多,我主要準備的也是離線數(shù)倉這些,也期待你有一些工程化的經(jīng)驗,所以還算順利,到了第三面問一些實時數(shù)倉相關的,就說不了解了,還算比較順利通過。



          推薦閱讀:

          深圳公司大數(shù)據(jù)面試題匯總

          上海小公司大數(shù)據(jù)面試題匯總



          --end--


          掃描下方二維碼
          添加好友,備注【交流
          可私聊交流,也可進資源豐富學習群


          更文不易,點個“在看”支持一下??

          瀏覽 36
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久久免费视频1 | 影音先锋青青草AV | 在线欧美成人 | 波多野结衣无码一区=区三区 | 成人Av无码一区二区三区 |