GPT 的野望

??新智元推薦?
??新智元推薦?
來(lái)源:安迪的寫作間
作者:安迪的寫作間

GPT:始于微末,偏居一方





there is significant room for improvement using the well-validated approach of more compute and data. 如果適當(dāng)?shù)挠酶嗨懔蛿?shù)據(jù)的話,還有很大的提升空間。
GPT2:Too Dangerous To Release,一戰(zhàn)驚天下





練兵屯糧:OpenAI LP,Sparse Transformer... All For Scaling!

進(jìn)擊:音頻之音樂(lè)生成


還帶有各種元信息,樂(lè)器作曲家等,這樣就能加入樂(lè)器 Token 和作曲家 Token 來(lái)讓模型分清不同樂(lè)器和作曲家風(fēng)格,之后生成也就更可控。
bach piano_strings start tempo90 piano:v72:G1 piano:v72:G2 piano:v72:B4 piano:v72:D4 violin:v80:G4 piano:v72:G4 piano:v72:B5 piano:v72:D5 wait:12 piano:v0:B5 wait:5 piano:v72:D5 wait:12 piano:v0:D5 wait:4 piano:v0:G1 piano:v0:G2 piano:v0:B4 piano:v0:D4 violin:v0:G4 piano:v0:G4 wait:1 piano:v72:G5 wait:12 piano:v0:G5 wait:5 piano:v72:D5 wait:12 piano:v0:D5 wait:5 piano:v72:B5 wait:12

將 MIDI 輸入變成了 32-bit 44.1kHz 的純音頻輸入,加入了編碼解碼方案來(lái)將音頻 token 化,以及還原

可基于文本(歌詞)進(jìn)行聲音的輸出

進(jìn)擊:強(qiáng)化學(xué)習(xí)之加入人反饋的文本生成


最重要的還是在于標(biāo)注質(zhì)量的提高,之前出的問(wèn)題是模型會(huì)經(jīng)常只 copy 片段用于摘要,但這是由于標(biāo)注導(dǎo)致的。所以這次 OpenAI 吸取教訓(xùn),不再用眾包,直接雇了 80 個(gè)標(biāo)注合約工,不按件計(jì)費(fèi)了,要注重質(zhì)量。此外,還對(duì)每個(gè)人進(jìn)行了詳細(xì)的面試入職,開發(fā)專門的標(biāo)注界面,還有專門的聊天室來(lái)咨詢問(wèn)題,還會(huì)一對(duì)一打視頻電話對(duì)... 非常用心了這次,因此才能獲得比上次質(zhì)量高很多的標(biāo)注。
其次用到了真正意義上的強(qiáng)化學(xué)習(xí)算法 PPO,而 reward 不再是人直接給了,而是先用上面的高質(zhì)量標(biāo)注訓(xùn)練一個(gè)好的 reward 模型,之后再用這個(gè) reward 模型來(lái)優(yōu)化生成策略。
整個(gè)過(guò)程就如下圖:

先收集高質(zhì)量人類標(biāo)注 再用標(biāo)注訓(xùn)練 reward 模型 最后用 reward 模型來(lái)訓(xùn)練生成策略,進(jìn)行摘要生成
進(jìn)擊:圖像之圖像生成





商業(yè)化:GPT3 君臨


未來(lái)

時(shí)間線

Reference

評(píng)論
圖片
表情
