大模型強(qiáng)化學(xué)習(xí)方向面經(jīng)
碩士階段的方向是強(qiáng)化學(xué)習(xí),畢業(yè)后加入大廠做強(qiáng)化學(xué)習(xí)在游戲中的應(yīng)用,已經(jīng)有兩年多了。這兩年趕上了大廠很不好的光景,晉升被卡,漲薪變慢,真的是一言難盡。也算是openAI給飯吃,最近大火的大模型里用到了強(qiáng)化學(xué)習(xí)。因此想要嘗試跳槽,換一份大模型方向的工作,做RLHF或者LLM-agents。
在boss上掛完簡(jiǎn)歷,發(fā)現(xiàn)來(lái)聊的hr或者獵頭倒是不少,可能是因?yàn)閷W(xué)歷還有大廠光環(huán)暫時(shí)還有點(diǎn)作用。可是實(shí)際聊下來(lái)一圈以后,發(fā)現(xiàn)很多LLM崗位還是需要過(guò)往有NLP的經(jīng)驗(yàn),這個(gè)倒也是符合預(yù)期。對(duì)于阿里系(拆分后各個(gè)事業(yè)群獨(dú)立招聘)、字節(jié)、百度等大廠,或者百川智能、360等比較頭部有名氣的中小公司,或許也能給到面試機(jī)會(huì),但是在面試過(guò)程中一旦涉及到LLM具體的項(xiàng)目經(jīng)驗(yàn),像我這種完全空白的人來(lái)說(shuō)只能尷尬地說(shuō)沒(méi)做過(guò),背過(guò)的一些八股文也只能勉強(qiáng)應(yīng)付。
-
PPO算法中使用GAE的好處以及參數(shù)γ和λ的作用是什么? -
PPO算法和DQN算法的區(qū)別是什么? -
有哪些PPO算法的調(diào)參經(jīng)驗(yàn)? -
在線強(qiáng)化學(xué)習(xí)和離線強(qiáng)化學(xué)習(xí)在技術(shù)和應(yīng)用場(chǎng)景上有什么區(qū)別? -
強(qiáng)化學(xué)習(xí)和大模型之間的關(guān)聯(lián)是什么? -
如何評(píng)估大模型中數(shù)據(jù)集的質(zhì)量? -
目前國(guó)內(nèi)一般選擇基于哪些基座模型繼續(xù)訓(xùn)練? -
國(guó)內(nèi)做大模型的主要工作是哪幾個(gè)部分? -
除了數(shù)據(jù)之外,還有哪些方向的工作可以進(jìn)一步優(yōu)化大模型的效果? -
大語(yǔ)言模型是怎么輸出的,觀察過(guò)輸出的概率值嗎? -
關(guān)于微調(diào)的方法有哪些? -
如果讓你訓(xùn)練一個(gè)模型,基座,數(shù)據(jù),finetune的方法怎么選? -
怎么解決大語(yǔ)言模型的幻覺(jué)問(wèn)題,RLHF可以嗎? -
是否看好國(guó)內(nèi)做基座模型工作的前景,為什么? -
為什么模型越大,貌似更多地具備AGI的能力?這背后的邏輯是什么? -
介紹下對(duì)transformer的了解,網(wǎng)絡(luò)結(jié)構(gòu)相比于lstm有什么不同? -
transformer里用到的正則化方法有哪些? -
chatgpt訓(xùn)練過(guò)程中,獎(jiǎng)勵(lì)模型有更新嗎? -
chatgpt強(qiáng)化學(xué)習(xí)訓(xùn)練階段還有什么改進(jìn)的空間和思路嗎? -
直接用訓(xùn)練reward model的數(shù)據(jù)精調(diào)模型,而不用強(qiáng)化學(xué)習(xí),是否可行?為什么? -
了解bert和gpt網(wǎng)絡(luò)結(jié)構(gòu)的細(xì)節(jié)及其差異嗎? -
假如reward model不太準(zhǔn),怎么辦? -
有做過(guò)大模型訓(xùn)練的實(shí)踐嗎,有哪些收獲或者感悟?
評(píng)論
圖片
表情
