啊啊啊额在线视频,国产极品se婷婷,黄色操逼网站,高清无码视频免费版本在线观看,加勒比在线精品视频,经典无码一区,看片一区,怡红院一区

來源：知乎—皮特潘

地址：https://zhuanlan.zhihu.com/p/444811538

大火的transformer 本質就是：

使用attention機制的seq2seq。

所以它的核心就是attention機制，今天就講attention。直奔代碼VIT-pytorch：

https://github.com/lucidrains/vit-pytorch/blob/main/vit_pytorch/vit.py

中的

class Attention(nn.Module):    def __init__(self, dim, heads = 8, dim_head = 64, dropout = 0.):        super().__init__()        inner_dim = dim_head *  heads        project_out = not (heads == 1 and dim_head == dim)
        self.heads = heads        self.scale = dim_head ** -0.5
        self.attend = nn.Softmax(dim = -1)        self.to_qkv = nn.Linear(dim, inner_dim * 3, bias = False)
        self.to_out = nn.Sequential(            nn.Linear(inner_dim, dim),            nn.Dropout(dropout)        ) if project_out else nn.Identity()
    def forward(self, x):        qkv = self.to_qkv(x).chunk(3, dim = -1)        q, k, v = map(lambda t: rearrange(t, 'b n (h d) -> b h n d', h = self.heads), qkv)
        dots = torch.matmul(q, k.transpose(-1, -2)) * self.scale
        attn = self.attend(dots)
        out = torch.matmul(attn, v)        out = rearrange(out, 'b h n d -> b n (h d)')????????return?self.to_out(out)

看吧！就是這么簡單。今天就徹底搞懂這個東西。

先記住attention的這么幾個點：

attention和CNN、RNN、FC、GCN等都是一個級別的東西，用來提取特征；既然是特征提取，一定有權重（W+B）存在。
attention的優(yōu)點：可以像CNN一樣并行運算 + 像RNN一樣通過一層就擁有全局資訊。有一個東西也可以做到，那就是FC，但是FC有個弱點：對輸入尺寸有限制，說白了不好適應可變輸入數(shù)據(jù)，這對于序列無疑是非常不友好的。
可以像CNN一樣并行運算，其實CNN運算也是通過im2col或winograd等轉化為矩陣運算的。
RNN不能并行，所以通常它處理的數(shù)據(jù)有“時序”這個特點。既然是“時序”，那么就不是同一個時刻完成的，所以不能并行化。

綜上所述：attention優(yōu)點 = CNN并行+RNN全局資訊+對輸入尺寸（時序長度維度上）沒有限制。

如果你能創(chuàng)造一個擁有上面三點優(yōu)點的東西出來，你也可以引領潮流。

然后回到代碼，再熟悉這么幾個設置：