來(lái)自 | 知乎作者丨z.defying

鏈接丨h(huán)ttps://zhuanlan.zhihu.com/p/76459295

僅作學(xué)術(shù)分享，如有侵權(quán)，請(qǐng)聯(lián)系刪文。

1、指定GPU編號(hào)

設(shè)置當(dāng)前使用的GPU設(shè)備僅為0號(hào)設(shè)備，設(shè)備名稱為 /gpu:0：os.environ["CUDA_VISIBLE_DEVICES"] = "0"
設(shè)置當(dāng)前使用的GPU設(shè)備為0,1號(hào)兩個(gè)設(shè)備，名稱依次為 /gpu:0、/gpu:1：os.environ["CUDA_VISIBLE_DEVICES"] = "0,1" ，根據(jù)順序表示優(yōu)先使用0號(hào)設(shè)備,然后使用1號(hào)設(shè)備。

指定GPU的命令需要放在和神經(jīng)網(wǎng)絡(luò)相關(guān)的一系列操作的前面。

2、查看模型每層輸出詳情

Keras有一個(gè)簡(jiǎn)潔的API來(lái)查看模型的每一層輸出尺寸，這在調(diào)試網(wǎng)絡(luò)時(shí)非常有用。現(xiàn)在在PyTorch中也可以實(shí)現(xiàn)這個(gè)功能。

使用很簡(jiǎn)單，如下用法：

from torchsummary import summarysummary(your_model, input_size=(channels, H, W))

input_size 是根據(jù)你自己的網(wǎng)絡(luò)模型的輸入尺寸進(jìn)行設(shè)置。

3、梯度裁剪（Gradient Clipping）

import torch.nn as nn

outputs = model(data)loss= loss_fn(outputs, target)optimizer.zero_grad()loss.backward()nn.utils.clip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)optimizer.step()

nn.utils.clip_grad_norm_ 的參數(shù)：

parameters – 一個(gè)基于變量的迭代器，會(huì)進(jìn)行梯度歸一化
max_norm – 梯度的最大范數(shù)
norm_type – 規(guī)定范數(shù)的類型，默認(rèn)為L(zhǎng)2

@不橢的橢圓提出：梯度裁剪在某些任務(wù)上會(huì)額外消耗大量的計(jì)算時(shí)間，可移步評(píng)論區(qū)查看詳情。

4、擴(kuò)展單張圖片維度

因?yàn)樵谟?xùn)練時(shí)的數(shù)據(jù)維度一般都是 (batch_size, c, h, w)，而在測(cè)試時(shí)只輸入一張圖片，所以需要擴(kuò)展維度，擴(kuò)展維度有多個(gè)方法：

import cv2import torch

image = cv2.imread(img_path)image = torch.tensor(image)print(image.size())

img = image.view(1, *image.size())print(img.size())

# output:# torch.Size([h, w, c])# torch.Size([1, h, w, c])

或

import cv2import numpy as np

image = cv2.imread(img_path)print(image.shape)img = image[np.newaxis, :, :, :]print(img.shape)

# output:# (h, w, c)# (1, h, w, c)

或（感謝 @coldleaf 的補(bǔ)充）

import cv2import torch

image = cv2.imread(img_path)image = torch.tensor(image)print(image.size())

img = image.unsqueeze(dim=0) print(img.size())

img = img.squeeze(dim=0)print(img.size())

# output:# torch.Size([(h, w, c)])# torch.Size([1, h, w, c])# torch.Size([h, w, c])

tensor.unsqueeze(dim)：擴(kuò)展維度，dim指定擴(kuò)展哪個(gè)維度。

tensor.squeeze(dim)：去除dim指定的且size為1的維度，維度大于1時(shí)，squeeze()不起作用，不指定dim時(shí)，去除所有size為1的維度。

5、獨(dú)熱編碼

在PyTorch中使用交叉熵?fù)p失函數(shù)的時(shí)候會(huì)自動(dòng)把label轉(zhuǎn)化成onehot，所以不用手動(dòng)轉(zhuǎn)化，而使用MSE需要手動(dòng)轉(zhuǎn)化成onehot編碼。

import torchclass_num = 8batch_size = 4

def one_hot(label): """ 將一維列表轉(zhuǎn)換為獨(dú)熱編碼 """ label = label.resize_(batch_size, 1) m_zeros = torch.zeros(batch_size, class_num) # 從 value 中取值，然后根據(jù) dim 和 index 給相應(yīng)位置賦值 onehot = m_zeros.scatter_(1, label, 1) # (dim,index,value)

return onehot.numpy() # Tensor -> Numpy

label = torch.LongTensor(batch_size).random_() % class_num # 對(duì)隨機(jī)數(shù)取余print(one_hot(label))

# output:[[0. 0. 0. 1. 0. 0. 0. 0.] [0. 0. 0. 0. 1. 0. 0. 0.] [0. 0. 1. 0. 0. 0. 0. 0.] [0. 1. 0. 0. 0. 0. 0. 0.]]

注：第11條有更簡(jiǎn)單的方法。

6、防止驗(yàn)證模型時(shí)爆顯存

驗(yàn)證模型時(shí)不需要求導(dǎo)，即不需要梯度計(jì)算，關(guān)閉autograd，可以提高速度，節(jié)約內(nèi)存。如果不關(guān)閉可能會(huì)爆顯存。

with torch.no_grad(): # 使用model進(jìn)行預(yù)測(cè)的代碼 pass

感謝@zhaz 的提醒，我把 torch.cuda.empty_cache() 的使用原因更新一下。

這是原回答：

Pytorch 訓(xùn)練時(shí)無(wú)用的臨時(shí)變量可能會(huì)越來(lái)越多，導(dǎo)致 out of memory ，可以使用下面語(yǔ)句來(lái)清理這些不需要的變量。

官網(wǎng) 上的解釋為：

Releases all unoccupied cached memory currently held by the caching allocator so that those can be used in other GPU application and visible innvidia-smi. torch.cuda.empty_cache()

意思就是PyTorch的緩存分配器會(huì)事先分配一些固定的顯存，即使實(shí)際上tensors并沒(méi)有使用完這些顯存，這些顯存也不能被其他應(yīng)用使用。這個(gè)分配過(guò)程由第一次CUDA內(nèi)存訪問(wèn)觸發(fā)的。

而 torch.cuda.empty_cache() 的作用就是釋放緩存分配器當(dāng)前持有的且未占用的緩存顯存，以便這些顯存可以被其他GPU應(yīng)用程序中使用，并且通過(guò) nvidia-smi命令可見(jiàn)。注意使用此命令不會(huì)釋放tensors占用的顯存。

對(duì)于不用的數(shù)據(jù)變量，Pytorch 可以自動(dòng)進(jìn)行回收從而釋放相應(yīng)的顯存。

更詳細(xì)的優(yōu)化可以查看優(yōu)化顯存使用和顯存利用問(wèn)題。

7、學(xué)習(xí)率衰減

import torch.optim as optimfrom torch.optim import lr_scheduler

# 訓(xùn)練前的初始化optimizer = optim.Adam(net.parameters(), lr=0.001)scheduler = lr_scheduler.StepLR(optimizer, 10, 0.1) # # 每過(guò)10個(gè)epoch，學(xué)習(xí)率乘以0.1

# 訓(xùn)練過(guò)程中for n in n_epoch: scheduler.step() ...

可以隨時(shí)查看學(xué)習(xí)率的值：optimizer.param_groups[0]['lr']。

還有其他學(xué)習(xí)率更新的方式：

1、自定義更新公式：

scheduler = lr_scheduler.LambdaLR(optimizer, lr_lambda=lambda epoch:1/(epoch+1))

2、不依賴epoch更新學(xué)習(xí)率：

lr_scheduler.ReduceLROnPlateau()提供了基于訓(xùn)練中某些測(cè)量值使學(xué)習(xí)率動(dòng)態(tài)下降的方法，它的參數(shù)說(shuō)明到處都可以查到。
提醒一點(diǎn)就是參數(shù) mode='min' 還是'max'，取決于優(yōu)化的的損失還是準(zhǔn)確率，即使用 scheduler.step(loss)還是scheduler.step(acc) 。

8、凍結(jié)某些層的參數(shù)

參考：https://www.zhihu.com/question/311095447/answer/589307812

在加載預(yù)訓(xùn)練模型的時(shí)候，我們有時(shí)想凍結(jié)前面幾層，使其參數(shù)在訓(xùn)練過(guò)程中不發(fā)生變化。

我們需要先知道每一層的名字，通過(guò)如下代碼打?。?/span>

net = Network() # 獲取自定義網(wǎng)絡(luò)結(jié)構(gòu)for name, value in net.named_parameters(): print('name: {0},\t grad: {1}'.format(name, value.requires_grad))

假設(shè)前幾層信息如下：

name: cnn.VGG_16.convolution1_1.weight, grad: Truename: cnn.VGG_16.convolution1_1.bias, grad: Truename: cnn.VGG_16.convolution1_2.weight, grad: Truename: cnn.VGG_16.convolution1_2.bias, grad: Truename: cnn.VGG_16.convolution2_1.weight, grad: Truename: cnn.VGG_16.convolution2_1.bias, grad: Truename: cnn.VGG_16.convolution2_2.weight, grad: Truename: cnn.VGG_16.convolution2_2.bias, grad: True

后面的True表示該層的參數(shù)可訓(xùn)練，然后我們定義一個(gè)要凍結(jié)的層的列表：

no_grad = [ 'cnn.VGG_16.convolution1_1.weight', 'cnn.VGG_16.convolution1_1.bias', 'cnn.VGG_16.convolution1_2.weight', 'cnn.VGG_16.convolution1_2.bias']

凍結(jié)方法如下：

net = Net.CTPN() # 獲取網(wǎng)絡(luò)結(jié)構(gòu)for name, value in net.named_parameters(): if name in no_grad: value.requires_grad = False else: value.requires_grad = True

凍結(jié)后我們?cè)俅蛴∶繉拥男畔ⅲ?/span>

name: cnn.VGG_16.convolution1_1.weight, grad: Falsename: cnn.VGG_16.convolution1_1.bias, grad: Falsename: cnn.VGG_16.convolution1_2.weight, grad: Falsename: cnn.VGG_16.convolution1_2.bias, grad: Falsename: cnn.VGG_16.convolution2_1.weight, grad: Truename: cnn.VGG_16.convolution2_1.bias, grad: Truename: cnn.VGG_16.convolution2_2.weight, grad: Truename: cnn.VGG_16.convolution2_2.bias, grad: True

可以看到前兩層的weight和bias的requires_grad都為False，表示它們不可訓(xùn)練。

最后在定義優(yōu)化器時(shí)，只對(duì)requires_grad為True的層的參數(shù)進(jìn)行更新。

optimizer = optim.Adam(filter(lambda p: p.requires_grad, net.parameters()), lr=0.01)

9、對(duì)不同層使用不同學(xué)習(xí)率

我們對(duì)模型的不同層使用不同的學(xué)習(xí)率。

還是使用這個(gè)模型作為例子：

net = Network() # 獲取自定義網(wǎng)絡(luò)結(jié)構(gòu)for name, value in net.named_parameters(): print('name: {}'.format(name))

# 輸出：# name: cnn.VGG_16.convolution1_1.weight# name: cnn.VGG_16.convolution1_1.bias# name: cnn.VGG_16.convolution1_2.weight# name: cnn.VGG_16.convolution1_2.bias# name: cnn.VGG_16.convolution2_1.weight# name: cnn.VGG_16.convolution2_1.bias# name: cnn.VGG_16.convolution2_2.weight# name: cnn.VGG_16.convolution2_2.bias

對(duì) convolution1 和 convolution2 設(shè)置不同的學(xué)習(xí)率，首先將它們分開(kāi)，即放到不同的列表里：

conv1_params = []conv2_params = []

for name, parms in net.named_parameters(): if "convolution1" in name: conv1_params += [parms] else: conv2_params += [parms]

# 然后在優(yōu)化器中進(jìn)行如下操作：optimizer = optim.Adam( [ {"params": conv1_params, 'lr': 0.01}, {"params": conv2_params, 'lr': 0.001}, ], weight_decay=1e-3,)

我們將模型劃分為兩部分，存放到一個(gè)列表里，每部分就對(duì)應(yīng)上面的一個(gè)字典，在字典里設(shè)置不同的學(xué)習(xí)率。當(dāng)這兩部分有相同的其他參數(shù)時(shí)，就將該參數(shù)放到列表外面作為全局參數(shù)，如上面的`weight_decay`。

也可以在列表外設(shè)置一個(gè)全局學(xué)習(xí)率，當(dāng)各部分字典里設(shè)置了局部學(xué)習(xí)率時(shí)，就使用該學(xué)習(xí)率，否則就使用列表外的全局學(xué)習(xí)率。

10、模型相關(guān)操作

這個(gè)內(nèi)容比較多，我寫(xiě)成了一篇文章：https://zhuanlan.zhihu.com/p/73893187

11、Pytorch內(nèi)置one_hot函數(shù)

感謝@yangyangyang 補(bǔ)充：Pytorch 1.1后，one_hot可以直接用torch.nn.functional.one_hot。

然后我將Pytorch升級(jí)到1.2版本，試用了下 one_hot 函數(shù)，確實(shí)很方便。

具體用法如下：

import torch.nn.functional as Fimport torch

tensor = torch.arange(0, 5) % 3 # tensor([0, 1, 2, 0, 1])one_hot = F.one_hot(tensor)

# 輸出：# tensor([[1, 0, 0],# [0, 1, 0],# [0, 0, 1],# [1, 0, 0],# [0, 1, 0]])

F.one_hot會(huì)自己檢測(cè)不同類別個(gè)數(shù)，生成對(duì)應(yīng)獨(dú)熱編碼。我們也可以自己指定類別數(shù)：

tensor = torch.arange(0, 5) % 3 # tensor([0, 1, 2, 0, 1])one_hot = F.one_hot(tensor, num_classes=5)

# 輸出：# tensor([[1, 0, 0, 0, 0],# [0, 1, 0, 0, 0],# [0, 0, 1, 0, 0],# [1, 0, 0, 0, 0],# [0, 1, 0, 0, 0]])

升級(jí) Pytorch (cpu版本)的命令：conda install pytorch torchvision \-c pytorch

（希望Pytorch升級(jí)不會(huì)影響項(xiàng)目代碼）

12、網(wǎng)絡(luò)參數(shù)初始化

神經(jīng)網(wǎng)絡(luò)的初始化是訓(xùn)練流程的重要基礎(chǔ)環(huán)節(jié)，會(huì)對(duì)模型的性能、收斂性、收斂速度等產(chǎn)生重要的影響。

以下介紹兩種常用的初始化操作。

(1) 使用pytorch內(nèi)置的torch.nn.init方法。

常用的初始化操作，例如正態(tài)分布、均勻分布、xavier初始化、kaiming初始化等都已經(jīng)實(shí)現(xiàn)，可以直接使用。具體詳見(jiàn)PyTorch 中 torch.nn.init 中文文檔。

init.xavier_uniform(net1[0].weight)

(2) 對(duì)于一些更加靈活的初始化方法，可以借助numpy。

對(duì)于自定義的初始化方法，有時(shí)tensor的功能不如numpy強(qiáng)大靈活，故可以借助numpy實(shí)現(xiàn)初始化方法，再轉(zhuǎn)換到tensor上使用。

for layer in net1.modules(): if isinstance(layer, nn.Linear): # 判斷是否是線性層 param_shape = layer.weight.shape layer.weight.data = torch.from_numpy(np.random.normal(0, 0.5, size=param_shape)) # 定義為均值為 0，方差為 0.5 的正態(tài)分布

13、加載內(nèi)置預(yù)訓(xùn)練模型

torchvision.models模塊的子模塊中包含以下模型：

AlexNet
VGG
ResNet
SqueezeNet
DenseNet

導(dǎo)入這些模型的方法為：

import torchvision.models as modelsresnet18 = models.resnet18()alexnet = models.alexnet()vgg16 = models.vgg16()

有一個(gè)很重要的參數(shù)為pretrained，默認(rèn)為False，表示只導(dǎo)入模型的結(jié)構(gòu)，其中的權(quán)重是隨機(jī)初始化的。

如果pretrained 為 True，表示導(dǎo)入的是在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的模型。

import torchvision.models as modelsresnet18 = models.resnet18(pretrained=True)alexnet = models.alexnet(pretrained=True)vgg16 = models.vgg16(pretrained=True)

更多的模型可以查看：https://pytorch-cn.readthedocs.io/zh/latest/torchvision/torchvision-models/

13個(gè)算法工程師必須掌握的PyTorch Tricks

目錄

1、指定GPU編號(hào)

2、查看模型每層輸出詳情

3、梯度裁剪（Gradient Clipping）

4、擴(kuò)展單張圖片維度

5、獨(dú)熱編碼

6、防止驗(yàn)證模型時(shí)爆顯存

7、學(xué)習(xí)率衰減

神經(jīng)網(wǎng)絡(luò)的初始化是訓(xùn)練流程的重要基礎(chǔ)環(huán)節(jié)，會(huì)對(duì)模型的性能、收斂性、收斂速度等產(chǎn)生重要的影響。

13、加載內(nèi)置預(yù)訓(xùn)練模型

13個(gè)算法工程師必須掌握的PyTorch Tricks

目錄

1、指定GPU編號(hào)

2、查看模型每層輸出詳情

3、梯度裁剪（Gradient Clipping）

4、擴(kuò)展單張圖片維度

5、獨(dú)熱編碼

6、防止驗(yàn)證模型時(shí)爆顯存

7、學(xué)習(xí)率衰減

神經(jīng)網(wǎng)絡(luò)的初始化是訓(xùn)練流程的重要基礎(chǔ)環(huán)節(jié)，會(huì)對(duì)模型的性能、收斂性、收斂速度等產(chǎn)生重要的影響。

13、加載內(nèi)置預(yù)訓(xùn)練模型

1、指定GPU編號(hào)

2、查看模型每層輸出詳情

4、擴(kuò)展單張圖片維度

6、防止驗(yàn)證模型時(shí)爆顯存

7、學(xué)習(xí)率衰減

神經(jīng)網(wǎng)絡(luò)的初始化是訓(xùn)練流程的重要基礎(chǔ)環(huán)節(jié)，會(huì)對(duì)模型的性能、收斂性、收斂速度等產(chǎn)生重要的影響。