ChatGPT 火爆全球后，基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）成為了一項(xiàng)可能讓機(jī)器像人一樣思考的重要技術(shù)。OpenAI 聯(lián)合創(chuàng)始人、研究科學(xué)家 John Schulman 將“RLHF”看作是 ChatGPT 成功的秘密武器。

強(qiáng)化學(xué)習(xí)在大模型中的應(yīng)用具有廣泛潛力和機(jī)會(huì)，特別是ICLR2024接收論文中就有573篇論文與強(qiáng)化學(xué)習(xí)或大語(yǔ)言模型相關(guān)，遠(yuǎn)超其他研究分類。

所以這次我整理了

+10年（2008-2018）NIPS頂會(huì)強(qiáng)化學(xué)習(xí)論文100篇

+ICLR2024強(qiáng)化學(xué)習(xí)和LLM相關(guān)論文573篇

+Neurips 2023 強(qiáng)化學(xué)習(xí)論文350篇

+ICLR2023頂會(huì)強(qiáng)化學(xué)習(xí)論文376篇

+強(qiáng)化學(xué)習(xí)發(fā)展路線 （含論文140篇）

+AAAI2023強(qiáng)化學(xué)習(xí)論文11篇

+經(jīng)典強(qiáng)化論文合集100篇

掃碼回復(fù)“強(qiáng)化學(xué)習(xí)”

立即領(lǐng)取1500篇強(qiáng)化學(xué)習(xí)頂會(huì)論文

最近，大語(yǔ)言模型LLM成為了大家關(guān)注的熱點(diǎn)，在人機(jī)對(duì)話領(lǐng)域具有里程碑的意義。然而，傳統(tǒng)的LLM并沒(méi)有明確的動(dòng)作層次上的策略，其潛在的策略可以看成是對(duì)Token的選擇。

那么如何更好的學(xué)習(xí)基于深度強(qiáng)化學(xué)習(xí)任務(wù)型對(duì)話策略呢？

這次我邀請(qǐng)了國(guó)內(nèi)985理工強(qiáng)校博士徐老師，在7月25日19點(diǎn)30和大家探討任務(wù)型對(duì)話策略的現(xiàn)有研究方法、對(duì)話策略的評(píng)估方式、數(shù)據(jù)集，以及介紹經(jīng)典論文，并且和大家分享對(duì)話策略在大模型中的應(yīng)用以及未來(lái)的研究趨勢(shì)。

掃碼回復(fù)“強(qiáng)化學(xué)習(xí)”

預(yù)約25日晚19：30大咖直播

深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)分別在2013年和2017年被選全球十強(qiáng)技術(shù)之一，甚至有研究者構(gòu)建了一個(gè)“人工智能 =深度學(xué)習(xí) + 強(qiáng)化學(xué)習(xí)”的公式，由此可見(jiàn)深度強(qiáng)化學(xué)習(xí)的價(jià)值及重要性。

RLHF是一個(gè)將強(qiáng)化學(xué)習(xí)與人類反饋相結(jié)合的框架，以提高個(gè)體（Agent）在學(xué)習(xí)復(fù)雜任務(wù)中的表現(xiàn)。在RLHF中，人類通過(guò)提供反饋參與學(xué)習(xí)過(guò)程，幫助個(gè)體更好地理解任務(wù)，更有效地學(xué)習(xí)最優(yōu)策略，這次我邀請(qǐng)了多位頂刊大佬給大家錄制了三節(jié)強(qiáng)化學(xué)習(xí)課程，三小時(shí)吃透強(qiáng)化學(xué)習(xí)！

掃碼回復(fù)“強(qiáng)化學(xué)習(xí)”

解鎖三節(jié)強(qiáng)化學(xué)習(xí)系列課

頂會(huì)idea福利

沃恩智慧秉承服務(wù)好每一位學(xué)員的初心，從人工智能論文輔導(dǎo)起步，逐步擴(kuò)充到人文社科、醫(yī)學(xué)、理工科、金融商科等全方向，SCI、SSCI、CCF、EI、南核北核等國(guó)際/國(guó)內(nèi)期刊會(huì)議均可提供專業(yè)輔導(dǎo)。

專業(yè)顧問(wèn)老師規(guī)劃學(xué)習(xí)，同時(shí)配有論文導(dǎo)師、代碼導(dǎo)師及專屬班主任，4人服務(wù)你1人。從選題、調(diào)研、idea驗(yàn)證、代碼、實(shí)驗(yàn)、潤(rùn)色、投稿、直至中稿的一站式科研服務(wù)（不代寫(xiě)！）。

沃恩智慧擁有自主研發(fā)的科研服務(wù)系統(tǒng)，除了排課、上課提醒、課程無(wú)限次回放、布置作業(yè)、自動(dòng)分析科研進(jìn)度等功能，最大的優(yōu)勢(shì)是對(duì)學(xué)員信息和科研成果做到保密。同時(shí)，近700位全球最頂尖的博士導(dǎo)師團(tuán)隊(duì)不僅會(huì)帶你做科研、發(fā)表科研論文，拿到名校offer，更能給你提供申博申碩指導(dǎo)推薦，大廠實(shí)習(xí)工作內(nèi)推名額，為你的科研之路保駕護(hù)航！

左右滑動(dòng)查看更多

掃碼回復(fù)“大模型”

立即解鎖頂會(huì)新idea

OpenAI 聯(lián)合創(chuàng)始人預(yù)言成真！

+ICLR2024強(qiáng)化學(xué)習(xí)和LLM相關(guān)論文573篇