<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          大模型強(qiáng)化學(xué)習(xí)方向面經(jīng)

          共 1754字,需瀏覽 4分鐘

           ·

          2023-10-14 20:10

          碩士階段的方向是強(qiáng)化學(xué)習(xí),畢業(yè)后加入大廠做強(qiáng)化學(xué)習(xí)在游戲中的應(yīng)用,已經(jīng)有兩年多了。這兩年趕上了大廠很不好的光景,晉升被卡,漲薪變慢,真的是一言難盡。也算是openAI給飯吃,最近大火的大模型里用到了強(qiáng)化學(xué)習(xí)。因此想要嘗試跳槽,換一份大模型方向的工作,做RLHF或者LLM-agents。

          在boss上掛完簡(jiǎn)歷,發(fā)現(xiàn)來(lái)聊的hr或者獵頭倒是不少,可能是因?yàn)閷W(xué)歷還有大廠光環(huán)暫時(shí)還有點(diǎn)作用。可是實(shí)際聊下來(lái)一圈以后,發(fā)現(xiàn)很多LLM崗位還是需要過(guò)往有NLP的經(jīng)驗(yàn),這個(gè)倒也是符合預(yù)期。對(duì)于阿里系(拆分后各個(gè)事業(yè)群獨(dú)立招聘)、字節(jié)、百度等大廠,或者百川智能、360等比較頭部有名氣的中小公司,或許也能給到面試機(jī)會(huì),但是在面試過(guò)程中一旦涉及到LLM具體的項(xiàng)目經(jīng)驗(yàn),像我這種完全空白的人來(lái)說(shuō)只能尷尬地說(shuō)沒(méi)做過(guò),背過(guò)的一些八股文也只能勉強(qiáng)應(yīng)付。

          面試一圈下來(lái),拿了百度、美團(tuán)、滴滴、快手這幾家偏業(yè)務(wù)的算法崗位offer,但是跟大模型沒(méi)啥關(guān)系,基本上都是各家業(yè)務(wù)的核心算法崗。感覺(jué)他們可能是因?yàn)檫@兩年剛畢業(yè)一批人,空出一些hc,因?yàn)槲疫@種強(qiáng)化學(xué)習(xí)背景的,只能說(shuō)是業(yè)務(wù)算法的一個(gè)探索方向,不算是核心解決方案。大模型方向的offer,只拿到兩個(gè),打算選擇其中一家。雖然現(xiàn)在大環(huán)境仍然不算好,跳槽有風(fēng)險(xiǎn),尤其是創(chuàng)業(yè)公司,但是在大廠里溫水煮青蛙也是困境。搏一搏,單車變摩托。
          下面是面試過(guò)程中記錄的一些關(guān)于大模型、強(qiáng)化學(xué)習(xí)的問(wèn)題,僅供參考。
          1. PPO算法中使用GAE的好處以及參數(shù)γ和λ的作用是什么?
          2. PPO算法和DQN算法的區(qū)別是什么?
          3. 有哪些PPO算法的調(diào)參經(jīng)驗(yàn)?
          4. 在線強(qiáng)化學(xué)習(xí)和離線強(qiáng)化學(xué)習(xí)在技術(shù)和應(yīng)用場(chǎng)景上有什么區(qū)別?
          5. 強(qiáng)化學(xué)習(xí)和大模型之間的關(guān)聯(lián)是什么?
          6. 如何評(píng)估大模型中數(shù)據(jù)集的質(zhì)量?
          7. 目前國(guó)內(nèi)一般選擇基于哪些基座模型繼續(xù)訓(xùn)練?
          8. 國(guó)內(nèi)做大模型的主要工作是哪幾個(gè)部分?
          9. 除了數(shù)據(jù)之外,還有哪些方向的工作可以進(jìn)一步優(yōu)化大模型的效果?
          10. 大語(yǔ)言模型是怎么輸出的,觀察過(guò)輸出的概率值嗎?
          11. 關(guān)于微調(diào)的方法有哪些?
          12. 如果讓你訓(xùn)練一個(gè)模型,基座,數(shù)據(jù),finetune的方法怎么選?
          13. 怎么解決大語(yǔ)言模型的幻覺(jué)問(wèn)題,RLHF可以嗎?
          14. 是否看好國(guó)內(nèi)做基座模型工作的前景,為什么?
          15. 為什么模型越大,貌似更多地具備AGI的能力?這背后的邏輯是什么?
          16. 介紹下對(duì)transformer的了解,網(wǎng)絡(luò)結(jié)構(gòu)相比于lstm有什么不同?
          17. transformer里用到的正則化方法有哪些?
          18. chatgpt訓(xùn)練過(guò)程中,獎(jiǎng)勵(lì)模型有更新嗎?
          19. chatgpt強(qiáng)化學(xué)習(xí)訓(xùn)練階段還有什么改進(jìn)的空間和思路嗎?
          20. 直接用訓(xùn)練reward model的數(shù)據(jù)精調(diào)模型,而不用強(qiáng)化學(xué)習(xí),是否可行?為什么?
          21. 了解bert和gpt網(wǎng)絡(luò)結(jié)構(gòu)的細(xì)節(jié)及其差異嗎?
          22. 假如reward model不太準(zhǔn),怎么辦?
          23. 有做過(guò)大模型訓(xùn)練的實(shí)踐嗎,有哪些收獲或者感悟?
          坦白講,這些問(wèn)題對(duì)于有過(guò)大模型項(xiàng)目經(jīng)驗(yàn)的人來(lái)說(shuō)應(yīng)該問(wèn)題不大,尤其是有NLP背景的。但是如果目前工作內(nèi)容和大模型無(wú)關(guān),想要比較好的回答出上述問(wèn)題還是有難度的。要準(zhǔn)備好八股文,要對(duì)前沿的方向有了解,而且最好自己跑過(guò)大模型的訓(xùn)練,包括微調(diào)和對(duì)齊

          瀏覽 511
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  99a片在线 | 日韩A片特黄 | 一级a一级a爰片免费 | 亚洲色b| 五月丁香久久婷婷网 |