GPT-3論文解讀(視頻)
轉(zhuǎn)載自油管:
https://www.youtube.com/watch?v=SY5PvZrJhLE&t=458s&ab_channel=YannicKilcher
B站鏈接:
https://www.bilibili.com/video/BV1aK4y1f7Nm/
點(diǎn)擊小程序觀看視頻,時(shí)長1小時(shí)05分
視頻太長不看版:
總的來說講者對(duì)于 GPT-3 的看法是:
GPT-3 在模型結(jié)構(gòu)上就是 transformer 的多層堆疊,并沒有提出什么新的結(jié)構(gòu)。
且 GPT-3 因?yàn)槟P妥銐虼?,所以講者猜測(cè)它是以某種方式記住了所有的訓(xùn)練數(shù)據(jù)。
而訓(xùn)練數(shù)據(jù)是用了互聯(lián)網(wǎng)上和維基百科等的超大量文本數(shù)據(jù)。
在訓(xùn)練數(shù)據(jù)上完成訓(xùn)練之后是直接用去做下游任務(wù)的,并沒有 finetuning 的過程。
對(duì)于下游任務(wù),比如問題回答。
GPT-3 就是單純從它記住的訓(xùn)練數(shù)據(jù)中,篩選出與輸入問題類似的訓(xùn)練樣本,
然后通過插值(原文 interpolate)融合生成答案而已。GPT-3 其實(shí)并不具備推理能力。
最后講者提到,GPT-3 的一個(gè)可能應(yīng)用是可以做模糊搜索
比如可以給 GPT-3 輸入一個(gè)研究的 idea,作為開頭然后讓它生成文章的摘要。
還有更多有趣的實(shí)驗(yàn)結(jié)果可以閱讀文章或者視頻解讀。
評(píng)論
圖片
表情
