YaLM 100B千億參數(shù)預(yù)訓(xùn)練語言模型
YaLM 100B是一個(gè)類似 GPT 的神經(jīng)網(wǎng)絡(luò),用于生成和處理文本。
該模型利用了 1000 億個(gè)參數(shù),在 800 個(gè) A100 顯卡和 1.7 TB 在線文本、書籍以及海量其他英文和俄文資源的集群上訓(xùn)練該模型花了 65 天時(shí)間。
設(shè)置
在下載權(quán)重之前,請(qǐng)確保有 200GB 的可用磁盤空間。該模型(代碼基于 microsoft/DeepSpeedExamples/Megatron-LM-v1.1.5-ZeRO3)應(yīng)該在具有張量并行性的多個(gè) GPU 上運(yùn)行。它在 4 個(gè) (A100 80g) 和 8 個(gè) (V100 32g) GPU 上進(jìn)行了測(cè)試,能使用總計(jì)約 200GB 的 GPU 內(nèi)存來正確劃分權(quán)重維度(例如 16、64、128)的不同配置。
用法
可以從以下腳本開始:
-
examples/generate_interactive.sh:從命令行交互式生成,嘗試模型的最簡(jiǎn)單方法。 -
examples/generate_conditional_sampling.sh:帶采樣策略的條件生成。默認(rèn)使用top-p,隨意更改溫度或使用top-k。輸入是 jsonlines(例如:examples/example_cond_input.json),輸出將是相同的 jsonlines,并且每行都添加了生成的文本字段。 -
examples/generate_conditional_greedy.sh: 和上文一樣,但是一代是貪婪的。 -
examples/generate_unconditional.sh: 無條件生成。不使用輸入,輸出將是 jsonlines。
評(píng)論
圖片
表情
