Graph Convolutional Networks for Text Classification论文笔记

图神经网络图卷积

论文解读

发布日期: 2023-09-20

更新日期: 2024-03-13

文章字数: 931

阅读时长: 3 分

概述

这篇论文介绍了一种新的针对文本分类的解决方案：图卷积神经网络。

Methods

构建图的过程是重点，这也正是本论文和其他图卷积与众不同之处。首先需要明确论文构建了一个文本图（text graph），它是异质图，有两种结点：词结点和文档结点。和图论中的类似，我们把这个异质图记作$\mathcal{G}=(V,E)$。

图的构建

根据论文中的描述，文本图的构建过程如下。

对于图中的结点，有两种：词结点和文档结点
- 词结点，每一个在语料库中出现过的词组成一个词结点（不重复）
- 文档结点：每一篇文档组成一个文档结点
对于图中的边，也有两种：词-词边和词-文档边
- 词-词边：连接两个词结点的边，权重由逐点乘（PMI）计算得到
- 词-文档边：连接词结点和文档结点的边，权重由该词在该文档中的词频-逆文档频率（TF-IDF）计算得到

接下来的计算公式来自原论文。论文将边的权重矩阵记作$A \in \mathbb{R}^{|V|\times |V|}$，则结点$i$和结点$j$之间的边权重为

$A_{ij} = \begin{cases} \mathrm{PMI}(i,j) \ & i,j \ \mathrm{are \ words}, \mathrm{PMI}(i,j)>0 \\ \mathrm{TF-IDF}_{ij} & i \ \mathrm{is \ document}, j \ \mathrm{is \ word} \\ 1 & i=j \\ 0 & \mathrm{otherwise} \end{cases}$

而$\mathrm{PMI}$的计算公式为

$\begin{aligned} \mathrm{PMI}(i,j) &= \log \frac{p(i,j)}{p(i)p(j)} \\ p(i,j) &= \frac{\#W(i,j)}{\#W} \\ p(i) &= \frac{\#W(i)}{\#W} \end{aligned}$

$#W(i)$为语料库上所有滑动窗口中包含词条$t_i$的滑动窗口数量
$#W(i,j)$为语料库上所有滑动窗口中同时包含词条$t_i,t_j$的滑动窗口数量
$#W$为语料库上全部滑动窗口的数量

$\mathrm{PMI}$值为正时，表示两个词条具有较强的相关性；反之则几乎没有相关性。因此只考虑正的$\mathrm{PMI}$的边，否则将其权值置零。

而$\mathrm{TF-IDF}$的计算方法是，对于文档$d_i$、词$t_j$，有如下两个重要计算公式：

词频（Term Frequency，TF）
$\mathrm{TF}_{ij} = \frac{n_{ij}}{\displaystyle \sum_{k}n_{ik}}$
其中$n_{ij}$表示词$t_j$在文档$d_i$中出现的次数（频数）。
逆文档频率（Inverse Document Frequency，IDF）
$\mathrm{IDF}_i = \log\frac{|D|}{1+|\{ i | t_j \in d_i \}|}$
其中$D=\{ d_1, d_2, \dots \}$表示文档的集合，$|\{ i | t_j \in d_i \}|$则表示包含了词条$t_j$的文档数量

综上，$\mathrm{TF-IDF}$计算公式为

$\mathrm{TF-IDF}_{ij} = \mathrm{TF}_{ij} \times \mathrm{IDF}_i$

GCN

我们将$\mathcal{G}=(V,E)$送入图卷积网络。设词嵌入的维度为$m$，结点数量$n=|V|$，则结点嵌入矩阵为$X \in \mathbb{R}^{n\times m}$，而对角矩阵$D \in \mathbb{R}^{n\times n}$，其中$\displaystyle D_{ii} = \sum_jA_{ij}$，进而将邻接矩阵$A \in \mathbb{R}^{n\times n}$标准化得到标准化对称邻接矩阵

$\hat{A} = D^{-\frac{1}{2}}AD^{\frac{1}{2}}$

另外记权重矩阵为$W\in \mathbb{R}^{m\times k}$，则第$j$层图卷积表示为

$L^{(j+1)} = \rho(\hat{A}L^{(j)}W_j)$

其中，$\rho$是激活函数。特殊地，$L^{(0)} = X$。