知识图谱实体对齐2:基于GNN嵌入的方法( 三 )


\[\begin{aligned}&\boldsymbol{m}_i^{\text {att }}=f_m\left(\boldsymbol{e}_i^1, \overline{\boldsymbol{e}}_i^1\right) \\&\boldsymbol{m}_j^{\text {att }}=f_m\left(\boldsymbol{e}_j^2, \overline{\boldsymbol{e}}_j^2\right)\end{aligned}\]这里\(\bm{m} =f_m(\bm{v}_1, \bm{v}_2; \bm{W})\),其中\(\bm{m}_k \in \bm{m}\)是来自\(k\)个perspective的matching value,它根据两个向量线性变换后的余弦相似度进行计算:
\[m_k=\operatorname{cosine}\left(W_k \circ \boldsymbol{v}_1, W_k \circ \boldsymbol{v}_2\right)\]之后,这个计算好的匹配向量会做为graph-level匹配层GCN的输入 。graph-level匹配层的GCN会进一步传播局部的信息,而其输出embeddings会经过逐元素最大和平均池化方法被送入一个全连接神经网络来获得图的匹配表征 。最后预测层将图的匹配表征作为softmax回归函数的输入来预测对齐实体 。
2.4 MuGNNMuGNN[5]强调用于对齐的不同知识图谱之间的结构异质性,因为这种结构异质性会导致需要对齐实体embeddings之间的不相似性 。为了调和\(\mathcal{G}_1\)和\(\mathcal{G}_2\)之间的结构异质性,MuGNN在嵌入模块中使用多通道GNN以编码多通道图 。形式化地,多通道GNN如下图所示,假定这里为双通道MuGNN:
\[\begin{aligned}&\operatorname{MuLTIGNN}\left(\boldsymbol{H}^l ; \boldsymbol{A}_1, \boldsymbol{A}_2\right)=\operatorname{POOLING}\left(\boldsymbol{H}_1^{l+1}, \boldsymbol{H}_2^{l+1}\right) \\& \boldsymbol{H}_i^{l+1}=\operatorname{GCN}\left(\boldsymbol{A}_i, \boldsymbol{H}^l, \boldsymbol{W}_i\right), i=1,2\end{aligned}\]这里\(\boldsymbol{A}_1\)由self-attention决定,\(a_{ij}\)是从\(e_i\)到\(e_j\)的连接权值,如下所示:
\[a_{i j}=\operatorname{softmax}\left(c_{i j}\right)=\frac{\exp \left(c_{i j}\right)}{\sum_{e_k \in N_{e_i} \cup\left\{e_i\right\}} \exp \left(c_{i k}\right)}\]$ N_{e_i} \(是\)e_i\(的邻居,\)c_{ij}$是attention系数 。
而\(\bm{A}_2\)通过降低互斥(exclusive)实体之间的连接权值来对互斥实体进行修剪 。
\[a_{i j} \in \boldsymbol{A}_2=\max _{r_1 \in \mathcal{R}_1, r_2 \in \mathcal{R}_2} \mathbf{1}\left(\left(e_i, r_1, e_j\right) \in \mathcal{T}_1\right) \operatorname{sim}\left(r_1, r_2\right)\]这里\(\mathcal{R}_1\)和\(\mathcal{R}_2\)分别是\(\mathcal{G}_1\)和\(\mathcal{G}_2\)关系谓词的集合 。当\(\left(e_i, r_1, e_j\right) \in \mathcal{T}_1\)时函数\(\mathbf{1}(\cdot)=1\),否则为0 。函数\(\operatorname{sim}\left(r_1, r_2\right)\)为关系谓词\(r_1\)和\(r_2\)之间的内积相似度 。
之后MuGNN的alignment模块采用了普通alignment score function的变种将来自多通道GNN的\(\mathcal{G}_1\)和\(\mathcal{G}_2\)的embeddings统一到相同的向量空间,该变种采用了种子实体对齐损失和种子关系谓词对齐损失的加权和 。
改论文的框架整体架构如下:

知识图谱实体对齐2:基于GNN嵌入的方法

文章插图
2.5 NMNNMN[6]也旨在解决不同知识图谱间的结构异质性 。为了解决这个问题,该论文采用的方法同时学习了知识图谱的结构信息和邻居的差异,这样不同实体间的相似性就能够在结构异质性的情况下被捕捉 。
为了学习知识图谱的结构信息,NMN的嵌入模块使用我们前面提到过的带有highway gates的GCN来对知识图谱的结构信息进行建模,其中将待对齐的\(\mathcal{G}_1\)和\(\mathcal{G}_2\)做为输入 。这个模型使用种子对齐实体+基于间隔的损失函数进行预训练 。之后,再使用跨图匹配来捕捉邻居的差异 。之后,NMN将实体embeddings和邻居表示进行拼接以获得最终用于对齐的embeddings,其对齐操作是通过度量两个实体embeddings之间的欧几里得距离来完成 。

经验总结扩展阅读