玩命加载中 . . .

Graph Convolutional Networks for Text Classification论文笔记


概述

这篇论文介绍了一种新的针对文本分类的解决方案:图卷积神经网络。

Methods

构建图的过程是重点,这也正是本论文和其他图卷积与众不同之处。首先需要明确论文构建了一个文本图(text graph),它是异质图,有两种结点:词结点和文档结点。和图论中的类似,我们把这个异质图记作$\mathcal{G}=(V,E)$。

图的构建

根据论文中的描述,文本图的构建过程如下。

  • 对于图中的结点,有两种:词结点和文档结点
    • 词结点,每一个在语料库中出现过的词组成一个词结点(不重复)
    • 文档结点:每一篇文档组成一个文档结点
  • 对于图中的边,也有两种:词-词边和词-文档边
    • 词-词边:连接两个词结点的边,权重由逐点乘(PMI)计算得到
    • 词-文档边:连接词结点和文档结点的边,权重由该词在该文档中的词频-逆文档频率(TF-IDF)计算得到

接下来的计算公式来自原论文。论文将边的权重矩阵记作$A \in \mathbb{R}^{|V|\times |V|}$,则结点$i$和结点$j$之间的边权重为

而$\mathrm{PMI}$的计算公式为

  • $#W(i)$为语料库上所有滑动窗口中包含词条$t_i$的滑动窗口数量
  • $#W(i,j)$为语料库上所有滑动窗口中同时包含词条$t_i,t_j$的滑动窗口数量
  • $#W$为语料库上全部滑动窗口的数量

$\mathrm{PMI}$值为正时,表示两个词条具有较强的相关性;反之则几乎没有相关性。因此只考虑正的$\mathrm{PMI}$的边,否则将其权值置零。

而$\mathrm{TF-IDF}$的计算方法是,对于文档$d_i$、词$t_j$,有如下两个重要计算公式:

  • 词频(Term Frequency,TF)

    其中$n_{ij}$表示词$t_j$在文档$d_i$中出现的次数(频数)。

  • 逆文档频率(Inverse Document Frequency,IDF)

    其中$D=\{ d_1, d_2, \dots \}$表示文档的集合,$|\{ i | t_j \in d_i \}|$则表示包含了词条$t_j$的文档数量

综上,$\mathrm{TF-IDF}$计算公式为

GCN

我们将$\mathcal{G}=(V,E)$送入图卷积网络。设词嵌入的维度为$m$,结点数量$n=|V|$,则结点嵌入矩阵为$X \in \mathbb{R}^{n\times m}$,而对角矩阵$D \in \mathbb{R}^{n\times n}$,其中$\displaystyle D_{ii} = \sum_jA_{ij}$,进而将邻接矩阵$A \in \mathbb{R}^{n\times n}$标准化得到标准化对称邻接矩阵

另外记权重矩阵为$W\in \mathbb{R}^{m\times k}$,则第$j$层图卷积表示为

其中,$\rho$是激活函数。特殊地,$L^{(0)} = X$。

后续

具体到论文中,论文构建了两层图卷积网络;在图卷积之后,softmax层被接入,整个模型的输出为

损失函数选取的是交叉熵,即

其中$\mathcal{Y}_D$为文档索引的集合,$F$为类别总数。

Reference

TF-IDF:https://zhuanlan.zhihu.com/p/97273457

对称邻接矩阵:https://www.zhihu.com/question/426784258


文章作者: 鹿卿
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 鹿卿 !
评论
  目录