概述
这篇论文介绍了一种新的针对文本分类的解决方案:图卷积神经网络。
Methods
构建图的过程是重点,这也正是本论文和其他图卷积与众不同之处。首先需要明确论文构建了一个文本图(text graph),它是异质图,有两种结点:词结点和文档结点。和图论中的类似,我们把这个异质图记作$\mathcal{G}=(V,E)$。
图的构建
根据论文中的描述,文本图的构建过程如下。
- 对于图中的结点,有两种:词结点和文档结点
- 词结点,每一个在语料库中出现过的词组成一个词结点(不重复)
- 文档结点:每一篇文档组成一个文档结点
- 对于图中的边,也有两种:词-词边和词-文档边
- 词-词边:连接两个词结点的边,权重由逐点乘(PMI)计算得到
- 词-文档边:连接词结点和文档结点的边,权重由该词在该文档中的词频-逆文档频率(TF-IDF)计算得到
接下来的计算公式来自原论文。论文将边的权重矩阵记作$A \in \mathbb{R}^{|V|\times |V|}$,则结点$i$和结点$j$之间的边权重为
而$\mathrm{PMI}$的计算公式为
- $#W(i)$为语料库上所有滑动窗口中包含词条$t_i$的滑动窗口数量
- $#W(i,j)$为语料库上所有滑动窗口中同时包含词条$t_i,t_j$的滑动窗口数量
- $#W$为语料库上全部滑动窗口的数量
$\mathrm{PMI}$值为正时,表示两个词条具有较强的相关性;反之则几乎没有相关性。因此只考虑正的$\mathrm{PMI}$的边,否则将其权值置零。
而$\mathrm{TF-IDF}$的计算方法是,对于文档$d_i$、词$t_j$,有如下两个重要计算公式:
词频(Term Frequency,TF)
其中$n_{ij}$表示词$t_j$在文档$d_i$中出现的次数(频数)。
逆文档频率(Inverse Document Frequency,IDF)
其中$D=\{ d_1, d_2, \dots \}$表示文档的集合,$|\{ i | t_j \in d_i \}|$则表示包含了词条$t_j$的文档数量
综上,$\mathrm{TF-IDF}$计算公式为
GCN
我们将$\mathcal{G}=(V,E)$送入图卷积网络。设词嵌入的维度为$m$,结点数量$n=|V|$,则结点嵌入矩阵为$X \in \mathbb{R}^{n\times m}$,而对角矩阵$D \in \mathbb{R}^{n\times n}$,其中$\displaystyle D_{ii} = \sum_jA_{ij}$,进而将邻接矩阵$A \in \mathbb{R}^{n\times n}$标准化得到标准化对称邻接矩阵
另外记权重矩阵为$W\in \mathbb{R}^{m\times k}$,则第$j$层图卷积表示为
其中,$\rho$是激活函数。特殊地,$L^{(0)} = X$。
后续
具体到论文中,论文构建了两层图卷积网络;在图卷积之后,softmax层被接入,整个模型的输出为
损失函数选取的是交叉熵,即
其中$\mathcal{Y}_D$为文档索引的集合,$F$为类别总数。