OpenAI 聯(lián)合創(chuàng)始人預(yù)言成真!
共 2285字,需瀏覽 5分鐘
·
2024-07-22 11:15
ChatGPT 火爆全球后,基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)成為了一項(xiàng)可能讓機(jī)器像人一樣思考的重要技術(shù)。OpenAI 聯(lián)合創(chuàng)始人、研究科學(xué)家 John Schulman 將“RLHF”看作是 ChatGPT 成功的秘密武器。
所以這次我整理了
+10年(2008-2018)NIPS頂會(huì)強(qiáng)化學(xué)習(xí)論文100篇
+ICLR2024強(qiáng)化學(xué)習(xí)和LLM相關(guān)論文573篇
+Neurips 2023 強(qiáng)化學(xué)習(xí)論文350篇
+ICLR2023頂會(huì)強(qiáng)化學(xué)習(xí)論文376篇
+強(qiáng)化學(xué)習(xí)發(fā)展路線 (含論文140篇)
+AAAI2023強(qiáng)化學(xué)習(xí)論文11篇
+經(jīng)典強(qiáng)化論文合集100篇
掃碼回復(fù)“強(qiáng)化學(xué)習(xí)”
立即領(lǐng)取1500篇強(qiáng)化學(xué)習(xí)頂會(huì)論文
最近,大語(yǔ)言模型LLM成為了大家關(guān)注的熱點(diǎn),在人機(jī)對(duì)話領(lǐng)域具有里程碑的意義。然而,傳統(tǒng)的LLM并沒(méi)有明確的動(dòng)作層次上的策略,其潛在的策略可以看成是對(duì)Token的選擇。
那么如何更好的學(xué)習(xí)基于深度強(qiáng)化學(xué)習(xí)任務(wù)型對(duì)話策略呢?
這次我邀請(qǐng)了國(guó)內(nèi)985理工強(qiáng)校博士徐老師,在7月25日19點(diǎn)30和大家探討任務(wù)型對(duì)話策略的現(xiàn)有研究方法、對(duì)話策略的評(píng)估方式、數(shù)據(jù)集,以及介紹經(jīng)典論文,并且和大家分享對(duì)話策略在大模型中的應(yīng)用以及未來(lái)的研究趨勢(shì)。
掃碼回復(fù)“強(qiáng)化學(xué)習(xí)”
預(yù)約25日晚19:30大咖直播
掃碼回復(fù)“強(qiáng)化學(xué)習(xí)”
解鎖三節(jié)強(qiáng)化學(xué)習(xí)系列課
左右滑動(dòng)查看更多
掃碼回復(fù)“大模型”
立即解鎖頂會(huì)新idea
