日韩欧美豆花视频,自拍在干在线,天天爽夜夜躁夜夜爽,自拍99区视频,女人裸体一级片久久久,大香蕉精品视频在线,www.想要xx,日日外国老女人

碩士階段的方向是強(qiáng)化學(xué)習(xí)，畢業(yè)后加入大廠做強(qiáng)化學(xué)習(xí)在游戲中的應(yīng)用，已經(jīng)有兩年多了。這兩年趕上了大廠很不好的光景，晉升被卡，漲薪變慢，真的是一言難盡。也算是openAI給飯吃，最近大火的大模型里用到了強(qiáng)化學(xué)習(xí)。因此想要嘗試跳槽，換一份大模型方向的工作，做RLHF或者LLM-agents。

在boss上掛完簡(jiǎn)歷，發(fā)現(xiàn)來(lái)聊的hr或者獵頭倒是不少，可能是因?yàn)閷W(xué)歷還有大廠光環(huán)暫時(shí)還有點(diǎn)作用。可是實(shí)際聊下來(lái)一圈以后，發(fā)現(xiàn)很多LLM崗位還是需要過(guò)往有NLP的經(jīng)驗(yàn)，這個(gè)倒也是符合預(yù)期。對(duì)于阿里系（拆分后各個(gè)事業(yè)群獨(dú)立招聘）、字節(jié)、百度等大廠，或者百川智能、360等比較頭部有名氣的中小公司，或許也能給到面試機(jī)會(huì)，但是在面試過(guò)程中一旦涉及到LLM具體的項(xiàng)目經(jīng)驗(yàn)，像我這種完全空白的人來(lái)說(shuō)只能尷尬地說(shuō)沒(méi)做過(guò)，背過(guò)的一些八股文也只能勉強(qiáng)應(yīng)付。

面試一圈下來(lái)，拿了百度、美團(tuán)、滴滴、快手這幾家偏業(yè)務(wù)的算法崗位offer，但是跟大模型沒(méi)啥關(guān)系，基本上都是各家業(yè)務(wù)的核心算法崗。感覺(jué)他們可能是因?yàn)檫@兩年剛畢業(yè)一批人，空出一些hc，因?yàn)槲疫@種強(qiáng)化學(xué)習(xí)背景的，只能說(shuō)是業(yè)務(wù)算法的一個(gè)探索方向，不算是核心解決方案。大模型方向的offer，只拿到兩個(gè)，打算選擇其中一家。雖然現(xiàn)在大環(huán)境仍然不算好，跳槽有風(fēng)險(xiǎn)，尤其是創(chuàng)業(yè)公司，但是在大廠里溫水煮青蛙也是困境。搏一搏，單車變摩托。

下面是面試過(guò)程中記錄的一些關(guān)于大模型、強(qiáng)化學(xué)習(xí)的問(wèn)題，僅供參考。

PPO算法中使用GAE的好處以及參數(shù)γ和λ的作用是什么？
PPO算法和DQN算法的區(qū)別是什么？
有哪些PPO算法的調(diào)參經(jīng)驗(yàn)？
在線強(qiáng)化學(xué)習(xí)和離線強(qiáng)化學(xué)習(xí)在技術(shù)和應(yīng)用場(chǎng)景上有什么區(qū)別？
強(qiáng)化學(xué)習(xí)和大模型之間的關(guān)聯(lián)是什么？
如何評(píng)估大模型中數(shù)據(jù)集的質(zhì)量？
目前國(guó)內(nèi)一般選擇基于哪些基座模型繼續(xù)訓(xùn)練？
國(guó)內(nèi)做大模型的主要工作是哪幾個(gè)部分？
除了數(shù)據(jù)之外，還有哪些方向的工作可以進(jìn)一步優(yōu)化大模型的效果？
大語(yǔ)言模型是怎么輸出的，觀察過(guò)輸出的概率值嗎？
關(guān)于微調(diào)的方法有哪些？
如果讓你訓(xùn)練一個(gè)模型，基座，數(shù)據(jù)，finetune的方法怎么選？
怎么解決大語(yǔ)言模型的幻覺(jué)問(wèn)題，RLHF可以嗎？
是否看好國(guó)內(nèi)做基座模型工作的前景，為什么？
為什么模型越大，貌似更多地具備AGI的能力？這背后的邏輯是什么？
介紹下對(duì)transformer的了解，網(wǎng)絡(luò)結(jié)構(gòu)相比于lstm有什么不同？
transformer里用到的正則化方法有哪些？
chatgpt訓(xùn)練過(guò)程中，獎(jiǎng)勵(lì)模型有更新嗎？
chatgpt強(qiáng)化學(xué)習(xí)訓(xùn)練階段還有什么改進(jìn)的空間和思路嗎？
直接用訓(xùn)練reward model的數(shù)據(jù)精調(diào)模型，而不用強(qiáng)化學(xué)習(xí)，是否可行？為什么？
了解bert和gpt網(wǎng)絡(luò)結(jié)構(gòu)的細(xì)節(jié)及其差異嗎？
假如reward model不太準(zhǔn)，怎么辦？
有做過(guò)大模型訓(xùn)練的實(shí)踐嗎，有哪些收獲或者感悟？

坦白講，這些問(wèn)題對(duì)于有過(guò)大模型項(xiàng)目經(jīng)驗(yàn)的人來(lái)說(shuō)應(yīng)該問(wèn)題不大，尤其是有NLP背景的。但是如果目前工作內(nèi)容和大模型無(wú)關(guān)，想要比較好的回答出上述問(wèn)題還是有難度的。要準(zhǔn)備好八股文，要對(duì)前沿的方向有了解，而且最好自己跑過(guò)大模型的訓(xùn)練，包括微調(diào)和對(duì)齊。

大模型強(qiáng)化學(xué)習(xí)方向面經(jīng)