Graph Attention Networks论文笔记

图神经网络图注意力

论文解读

发布日期: 2023-09-24

更新日期: 2024-03-13

文章字数: 1.7k

阅读时长: 8 分

Methods

我们来看看论文中的图注意力机制。对于图$\mathcal{G}(V,E)$，图中结点数量为$N=|V|$。我们把所有结点的特征向量存入集合，记作

$\mathbf{h}=\{ \vec{h}_1, \vec{h}_2, \dots, \vec{h}_N \}$

而每一个结点特征维度为$F$，因此$\forall i \in \{1,2,\dots, N\}, \vec{h}_i \in \mathbb{R}^F$。

将特征映射到高层特征，因此需要在最开始加入一个线性变换。对第$i$个结点的特征向量$\vec{h}_i$，施加一个矩阵$\mathbf{W}\in \mathbb{R}^{F’\times F}$（所有结点共享），做矩阵乘法
$\mathbf{W}\vec{h}_i \in \mathbb{R}^{F'}$
计算自注意力，引入映射$a:\mathbb{R}^{F’} \times \mathbb{R}^{F’} \to \mathbb{R}$（权值共享）。比如，第$j$个结点对于第$i$个结点的重要度（关注度）就是
$e_{ij} = a(\mathbf{W}\vec{h}_i, \mathbf{W}\vec{h}_j)$
在图注意力机制中，对于第$i$个结点，我们仅仅计算那些与之邻接的结点对于其的重要度。
归一化注意力值。记与结点$i$邻接的结点集合为$\mathcal{N}_i$，则注意力系数
$\alpha_{ij} = \mathrm{softmax}_j(e_{ij}) = \frac{\exp(e_{ij})}{\displaystyle \sum_{k \in \mathcal{N}_i}\exp(e_{ik})}$
计算最终输出的新特征向量
$\vec{h}_i' = \sigma\left( \sum_{j\in\mathcal{N}_i}\alpha_{ij}\mathbf{W}\vec{h}_j \right)$

论文中接下来指出了$a$具体是什么：实验中$a$其实就是一个简单的前馈神经网络层，并接上激活函数LeakyReLU。具体描述如下

$\begin{aligned} e_{ij} &= a(\mathbf{W}\vec{h}_i, \mathbf{W}\vec{h}_j) \\ &= \mathrm{LeakyReLU}\left( \mathbf{a}^T\left[ \begin{matrix} \mathbf{W}\vec{h}_i \\ \mathbf{W}\vec{h}_j \end{matrix} \right] \right) \end{aligned}$

其中$\mathbf{a}\in \mathbb{R}^{2F’}$；由上文可知，$\mathbf{W}\vec{h}_i, \mathbf{W}\vec{h}_j \in \mathbb{R}^{F’}$，而我们将它们竖向拼接起来（以下用||简记）。

至此，将注意力系数的完整计算过程表示为

$\alpha_{ij} = \frac{\exp(\mathrm{LeakyReLU}\left( \mathbf{a}^T[\mathbf{W}\vec{h}_i || \mathbf{W}\vec{h}_j] \right))}{\displaystyle \sum_{k \in \mathcal{N}_i}\exp(\mathrm{LeakyReLU}\left( \mathbf{a}^T[\mathbf{W}\vec{h}_i || \mathbf{W}\vec{h}_k] \right))}$

同样地，图注意力中也有多头注意力机制。设置有$K$个头，在上述第4步计算输出时，变为

$\vec{h}_i' = \Arrowvert_{k=1}^K \sigma\left( \sum_{j\in\mathcal{N}_i}\alpha_{ij}^k\mathbf{W}^k\vec{h}_j \right)$

同样地，|| 表示拼接操作。显然，$\vec{h}_i’ \in \mathbb{R}^{KF’}$。

代码实现

具体到代码实现图注意力时，我们将所有结点的特征向量存入矩阵$\mathbf{h}$，它便是注意力层的输入

$\mathbf{h} = \left[\begin{matrix} \vec{h}_1 \\ \vec{h}_2 \\ \dots \\ \vec{h}_N \end{matrix}\right] \in \mathbb{R}^{N\times F}$

而经过矩阵乘法，$\mathbf{W}\in \mathbb{R}^{F\times F’}$，得

$\mathbf{hW} \in \mathbb{R}^{N\times F'}$

而计算注意力值的映射中用到的线性变换矩阵为$\mathbf{a} \in \mathbb{R}^{2F’\times 1}$，分别计算

$\begin{aligned} (\mathbf{hW})\mathbf{a}_{:F',:} \in \mathbb{R}^{N\times 1} \\ (\mathbf{hW})\mathbf{a}_{F':,:} \in \mathbb{R}^{N\times 1} \end{aligned}$

于是将计算注意力系数的过程转化为

$\mathbf{e} = \left[ \begin{matrix} e_{11} & e_{12} & \dots & e_{1N} \\ e_{21} & e_{22} & \dots & e_{2N} \\ \vdots & \vdots & \cdots & \vdots \\ e_{N1} & e_{N2} & \dots & e_{NN} \end{matrix} \right] = (\mathbf{hW})\mathbf{a}_{:F',:} + \left( (\mathbf{hW})\mathbf{a}_{F':,:} \right)^T$

其中存在矩阵广播加法，正是巧妙用到了这个特性实现了这个计算注意力系数过程。

下面简单证明上述过程的正确性。

为了方便表示，我们把上面出现过的一些矩阵式展开写明：
$\mathbf{hW} = \left[ \begin{matrix} \vec{h}_1 \\ \vec{h}_2 \\ \vdots \\ \vec{h}_N \end{matrix} \right]_{N\times F} \mathbf{W}_{F\times F'} = \left[ \begin{matrix} \vec{h}_1\mathbf{W} \\ \vec{h}_2\mathbf{W} \\ \vdots \\ \vec{h}_N\mathbf{W} \end{matrix} \right]_{N\times F'}$
其中$\vec{h}_i, i\in \{1,2,\dots,N\}$是第$i$个结点的特征向量。

我们进而将矩阵$\mathbf{a}_{2F’\times1}$写为
$\mathbf{a}_{2F'\times 1} = [\mathbf{a}_{:F',:} \ \mathbf{a}_{F':,:}]$
因此，
$(\mathbf{hW})\mathbf{a}_{:F',:} = \left[ \begin{matrix} \vec{h}_1\mathbf{W} \\ \vec{h}_2\mathbf{W} \\ \vdots \\ \vec{h}_N\mathbf{W} \end{matrix} \right]_{N\times F'} [\mathbf{a}_{:F',:}]_{F'\times1} = \left[ \begin{matrix} \vec{h}_1\mathbf{W}\mathbf{a}_{:F',:} \\ \vec{h}_2\mathbf{W}\mathbf{a}_{:F',:} \\ \vdots \\ \vec{h}_N\mathbf{W}\mathbf{a}_{:F',:} \end{matrix} \right]$
而
$((\mathbf{hW})\mathbf{a}_{F':,:})^T = \left[ \begin{matrix} \vec{h}_1\mathbf{W}\mathbf{a}_{F':,:} & \vec{h}_2\mathbf{W}\mathbf{a}_{F':,:} & \dots & \vec{h}_N\mathbf{W}\mathbf{a}_{F':,:} \end{matrix} \right]$
故有
$\begin{aligned} \mathbf{e} &= (\mathbf{hW})\mathbf{a}_{:F',:} + \left( (\mathbf{hW})\mathbf{a}_{F':,:} \right)^T \\ &= \left[ \begin{matrix} \vec{h}_1\mathbf{W}\mathbf{a}_{:F',:} \\ \vec{h}_2\mathbf{W}\mathbf{a}_{:F',:} \\ \vdots \\ \vec{h}_N\mathbf{W}\mathbf{a}_{:F',:} \end{matrix} \right] + \left[ \begin{matrix} \vec{h}_1\mathbf{W}\mathbf{a}_{F':,:} & \vec{h}_2\mathbf{W}\mathbf{a}_{F':,:} & \dots & \vec{h}_N\mathbf{W}\mathbf{a}_{F':,:} \end{matrix} \right] \\ &= \left[ \begin{matrix} \vec{h}_1\mathbf{Wa}_{:F',:} + \vec{h}_1\mathbf{Wa}_{F':,:} & \vec{h}_1\mathbf{Wa}_{:F',:} + \vec{h}_2\mathbf{Wa}_{F':,:} & \dots & \vec{h}_1\mathbf{Wa}_{:F',:} + \vec{h}_N\mathbf{Wa}_{F':,:} \\ \vec{h}_2\mathbf{Wa}_{:F',:} + \vec{h}_1\mathbf{Wa}_{F':,:} & \vec{h}_2\mathbf{Wa}_{:F',:} + \vec{h}_2\mathbf{Wa}_{F':,:} & \dots & \vec{h}_2\mathbf{Wa}_{:F',:} + \vec{h}_N\mathbf{Wa}_{F':,:} \\ \vdots & \vdots & \vdots & \vdots \\ \vec{h}_N\mathbf{Wa}_{:F',:} + \vec{h}_1\mathbf{Wa}_{F':,:} & \vec{h}_N\mathbf{Wa}_{:F',:} + \vec{h}_2\mathbf{Wa}_{F':,:} & \dots & \vec{h}_N\mathbf{Wa}_{:F',:} + \vec{h}_N\mathbf{Wa}_{F':,:} \end{matrix} \right] \end{aligned}$
故第$j$个结点对于第$i$个结点的关键度为
$e_{ij} = \vec{h}_i\mathbf{Wa}_{:F',:}+\vec{h}_j\mathbf{Wa}_{F':,:} = \left[\begin{matrix} \vec{h}_i\mathbf{W} & \vec{h}_j\mathbf{W} \end{matrix}\right] \left[ \begin{matrix} \mathbf{a}_{:F',:} \\ \mathbf{a}_{F':,:} \end{matrix} \right] = \left[\begin{matrix} \vec{h}_i\mathbf{W} & \vec{h}_j\mathbf{W} \end{matrix}\right] \mathbf{a}$

class GraphAttentionLayer(nn.Module):
    """
    Simple GAT layer, similar to https://arxiv.org/abs/1710.10903
    in_features: 结点原始特征向量维度
    out_features: 经过映射后的特征向量维度
    concat: 默认为True，表示将特征向量进行拼接
    """
    def __init__(self, in_features, out_features, dropout, alpha, concat=True):
        super(GraphAttentionLayer, self).__init__()
        self.dropout = dropout
        self.in_features = in_features
        self.out_features = out_features
        self.alpha = alpha
        self.concat = concat

        self.W = nn.Parameter(torch.empty(size=(in_features, out_features)))
        nn.init.xavier_uniform_(self.W.data, gain=1.414)
        self.a = nn.Parameter(torch.empty(size=(2*out_features, 1)))
        nn.init.xavier_uniform_(self.a.data, gain=1.414)

        self.leakyrelu = nn.LeakyReLU(self.alpha)

    def forward(self, h, adj):
        Wh = torch.mm(h, self.W) # h.shape: (N, in_features), Wh.shape: (N, out_features)
        e = self._prepare_attentional_mechanism_input(Wh)

        zero_vec = -9e15*torch.ones_like(e)
        attention = torch.where(adj > 0, e, zero_vec)
        attention = F.softmax(attention, dim=1)
        attention = F.dropout(attention, self.dropout, training=self.training)
        h_prime = torch.matmul(attention, Wh)

        if self.concat:
            return F.elu(h_prime)
        else:
            return h_prime

    def _prepare_attentional_mechanism_input(self, Wh):
        # Wh.shape (N, out_feature)
        # self.a.shape (2 * out_feature, 1)
        # Wh1&2.shape (N, 1)
        # e.shape (N, N)
        Wh1 = torch.matmul(Wh, self.a[:self.out_features, :])
        Wh2 = torch.matmul(Wh, self.a[self.out_features:, :])
        # broadcast add
        e = Wh1 + Wh2.transpose(0, 1)
        return self.leakyrelu(e)

    def __repr__(self):
        return self.__class__.__name__ + ' (' + str(self.in_features) + ' -> ' + str(self.out_features) + ')'