匯總 Pytorch 踩過的10個坑

極市導讀
?本文總結了10大Pytorch操作中的“坑”,能夠幫助使用者規(guī)避不必要的麻煩。>>>極市七夕粉絲福利活動:煉丹師們,七夕這道算法題,你會解嗎?
pytorch中的交叉熵
pytorch的交叉熵nn.CrossEntropyLoss在訓練階段,里面是內置了softmax操作的,因此只需要喂入原始的數(shù)據結果即可,不需要在之前再添加softmax層。這個和tensorflow的tf.softmax_cross_entropy_with_logits如出一轍.[1][2]pytorch的交叉熵nn.CrossEntropyLoss在訓練階段,里面是內置了softmax操作的,因此只需要喂入原始的數(shù)據結果即可,不需要在之前再添加softmax層。這個和tensorflow的tf.softmax_cross_entropy_with_logits如出一轍.[1][2]
pytorch中的MSELoss和KLDivLoss
在深度學習中,MSELoss均方差損失和KLDivLossKL散度是經常使用的兩種損失,在pytorch中,也有這兩個函數(shù),如:
loss = nn.MSELoss()input = torch.randn(3, 5, requires_grad=True)target = torch.randn(3, 5)output = loss(input, target)output.backward()
這個時候我們要注意到,我們的標簽target是需要一個不能被訓練的,也就是requires_grad=False的值,否則將會報錯,出現(xiàn)如:
AssertionError: nn criterions don’t compute the gradient w.r.t. targets - please mark these variables as volatile or not requiring gradients
我們注意到,其實不只是MSELoss,其他很多l(xiāng)oss,比如交叉熵,KL散度等,其target都需要是一個不能被訓練的值的,這個和TensorFlow中的tf.nn.softmax_cross_entropy_with_logits_v2不太一樣,后者可以使用可訓練的target,具體見[3]
在驗證和測試階段取消掉梯度(no_grad)
一般來說,我們在進行模型訓練的過程中,因為要監(jiān)控模型的性能,在跑完若干個epoch訓練之后,需要進行一次在驗證集[4]上的性能驗證。一般來說,在驗證或者是測試階段,因為只是需要跑個前向傳播(forward)就足夠了,因此不需要保存變量的梯度。保存梯度是需要額外顯存或者內存進行保存的,占用了空間,有時候還會在驗證階段導致OOM(Out Of Memory)錯誤,因此我們在驗證和測試階段,最好顯式地取消掉模型變量的梯度。 在pytroch 0.4及其以后的版本中,用torch.no_grad()這個上下文管理器就可以了,例子如下:
model.train()# here train the model, just skip the codesmodel.eval() # here we start to evaluate the modelwith torch.no_grad():for each in eval_data:data, label = eachlogit = model(data)... # here we just skip the codes
如上,我們只需要在加上上下文管理器就可以很方便的取消掉梯度。這個功能在pytorch以前的版本中,通過設置volatile=True生效,不過現(xiàn)在這個用法已經被拋棄了。
顯式指定model.train()和model.eval()
dropout[6]中的丟棄率和Batch Normalization[5]中的和等,這個時候我們就需要顯式地指定不同的階段(訓練或者測試),在pytorch中我們通過model.train()和model.eval()進行顯式指定,具體如:model = CNNNet(params)# here we start the trainingmodel.train()for each in train_data:data, label = eachlogit = model(data)loss = criterion(logit, label)... # just skip# here we start the evaluationmodel.eval()with torch.no_grad(): # we dont need grad in eval phasefor each in eval_data:data, label = eachlogit = model(data)loss = criterion(logit, label)... # just skip
關于retain_graph的使用
pytorch中調用out.backward()即可實現(xiàn),給個小例子如:import torchimport torch.nn as nnimport numpy as npclass net(nn.Module):def __init__(self):super().__init__()self.fc1 = nn.Linear(10,2)self.act = nn.ReLU()def forward(self,inputv):return self.act(self.fc1(inputv))n = net()opt = torch.optim.Adam(n.parameters(),lr=3e-4)inputv = torch.tensor(np.random.normal(size=(4,10))).float()output = n(inputv)target = torch.tensor(np.ones((4,2))).float()loss = nn.functional.mse_loss(output, target)loss.backward() # here we calculate the gradient w.r.t the leaf
loss進行反向傳播就可以求得,即是損失對于每個葉子節(jié)點的梯度。我們注意到,在.backward()這個API的文檔中,有幾個參數(shù),如:backward(gradient=None, retain_graph=None, create_graph=False)
retain_graph這個參數(shù),這個參數(shù)如果為False或者None則在反向傳播完后,就釋放掉構建出來的graph,如果為True則不對graph進行釋放[7][8]。import torchfrom torch.autograd import Variablea = Variable(torch.rand(1, 4), requires_grad=True)b = a**2c = b*2d = c.mean()e = c.sum()

d進行求梯度,我們有:d.backward()
e進行求梯度,那么將會因為沒有這個graph而報錯。因此有例子:d.backward(retain_graph=True) # finee.backward(retain_graph=True) # fined.backward() # also finee.backward() # error will occur!
loss,例子如:G_loss = ...D_loss = ...opt.zero_grad() # 對所有梯度清0D_loss.backward(retain_graph=True) # 保存graph結構,后續(xù)還要用opt.step() # 更新梯度,只更新D的,因為只有D的不為0opt.zero_grad() # 對所有梯度清0G_loss.backward(retain_graph=False) # 不保存graph結構了,可以釋放graph,# 下一個迭代中通過forward還可以build出來的opt.step() # 更新梯度,只更新G的,因為只有G的不為0
loss進行分步的訓練了。進行梯度累積,實現(xiàn)內存緊張情況下的大batch_size訓練
retain_graph參數(shù)中,還可以用于累積梯度,在GPU顯存緊張的情況下使用可以等價于用更大的batch_size進行訓練。首先我們要明白,當調用.backward()時,其實是對損失到各個節(jié)點的梯度進行計算,計算結果將會保存在各個節(jié)點上,如果不用opt.zero_grad()對其進行清0,那么只要你一直調用.backward()梯度就會一直累積,相當于是在大的batch_size下進行的訓練。我們給出幾個例子闡述我們的觀點。import torchimport torch.nn as nnimport numpy as npclass net(nn.Module):def __init__(self):super().__init__()self.fc1 = nn.Linear(10,2)self.act = nn.ReLU()def forward(self,inputv):return self.act(self.fc1(inputv))n = net()inputv = torch.tensor(np.random.normal(size=(4,10))).float()output = n(inputv)target = torch.tensor(np.ones((4,2))).float()loss = nn.functional.mse_loss(output, target)loss.backward(retain_graph=True)opt = torch.optim.Adam(n.parameters(),lr=0.01)for each in n.parameters():print(each.grad)
tensor([[ 0.0493, -0.0581, -0.0451, 0.0485, 0.1147, 0.1413, -0.0712, -0.1459,0.1090, -0.0896],[ 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,0.0000, 0.0000]])tensor([-0.1192, 0.0000])
loss.backward(retain_graph=True),輸出為:tensor([[ 0.0987, -0.1163, -0.0902, 0.0969, 0.2295, 0.2825, -0.1424, -0.2917,0.2180, -0.1792],[ 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,0.0000, 0.0000]])tensor([-0.2383, 0.0000])
tensor([[ 0.1480, -0.1744, -0.1353, 0.1454, 0.3442, 0.4238, -0.2136, -0.4376,0.3271, -0.2688],[ 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,0.0000, 0.0000]])tensor([-0.3575, 0.0000])
opt.zero_grad(),輸出為:tensor([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])tensor([0., 0.])
opt.zero_grad()了吧,那是為什么不要這次的梯度結果被上一次給影響,但是在某些情況下這個‘影響’是可以利用的。調皮的dropout
torch.nn.functional.dropout的時候,其參數(shù)為:torch.nn.functional.dropout(input, p=0.5, training=True, inplace=False)
training指明了是否是在訓練階段,是否需要對神經元輸出進行隨機丟棄,這個是需要自行指定的,即便是用了model.train()或者model.eval()都是如此,這個和torch.nn.dropout不同,因為后者是一個層(Layer),而前者只是一個函數(shù),不能紀錄狀態(tài)[9]。嘿,檢查自己,說你呢, index_select
torch.index_select()是一個用于索引給定張量中某一個維度中元素的方法,其API手冊如:torch.index_select(input, dim, index, out=None) → TensorParameters:input (Tensor) – 輸入張量,需要被索引的張量dim (int) – 在某個維度被索引index (LongTensor) – 一維張量,用于提供索引信息out (Tensor, optional) – 輸出張量,可以不填
1000 * 10的尺寸大小,其中1000為樣本數(shù)量,10為特征數(shù)目,如果我現(xiàn)在需要指定的某些樣本,比如第1-100,300-400等等樣本,我可以用一個index進行索引,然后應用torch.index_select()就可以索引了,例子如:>>> x = torch.randn(3, 4)>>> xtensor([[ 0.1427, 0.0231, -0.5414, -1.0009],[-0.4664, 0.2647, -0.1228, -1.1068],[-1.1734, -0.6571, 0.7230, -0.6004]])>>> indices = torch.tensor([0, 2])>>> torch.index_select(x, 0, indices) # 按行索引tensor([[ 0.1427, 0.0231, -0.5414, -1.0009],[-1.1734, -0.6571, 0.7230, -0.6004]])>>> torch.index_select(x, 1, indices) # 按列索引tensor([[ 0.1427, -0.5414],[-0.4664, -0.1228],[-1.1734, 0.7230]])
pytorch似乎在使用GPU的情況下,不檢查index是否會越界,因此如果你的index越界了,但是報錯的地方可能不在使用index_select()的地方,而是在后續(xù)的代碼中,這個似乎就需要留意下你的index了。同時,index是一個LongTensor,這個也是要留意的。悄悄地更新,BN層就是個小可愛
running_mean和running_var是在調用forward()后就更新的,這個和一般的參數(shù)不同,容易造成疑惑,考慮到篇幅較長,請移步到[11]。F.interpolate的問題
pytorch的確也是提供對以tensor形式表示的圖像進行插值的功能,那就是函數(shù)torch.nn.functional.interpolate[12],但是我們注意到這個插值函數(shù)有點特別,它是對以batch為單位的圖像進行插值的,如果你想要用以下的代碼去插值:image = torch.rand(3,112,112) # H = 112, W = 112, C = 3的圖像image = torch.nn.functional.interpolate(image, size=(224,224))
size只接受一個整數(shù),其對W這個維度進行縮放,這里,interpolate會認為3是batch_size,因此如果需要對圖像的H和W進行插值,那么我們應該如下操作:image = torch.rand(3,112,112) # H = 112, W = 112, C = 3的圖像image = image.unsqueeze(0) # shape become (1,3,112,112)image = torch.nn.functional.interpolate(image, size=(224,224))
Reference
推薦閱讀

