Briefings in Bioinformatics-2021 知识图谱-生物信息学-医学顶刊论文:生物信息学中的图表示学习:趋势、方法和应用( 四 )


2.1.4 定义4:一阶邻近度一阶邻近度反映了两个直接相邻节点之间的局部成对相似度 。如果两个顶点之间有连接,则这两个节点相似,否则不相似 。形式上,两个节点\(V_m\)和\(V_n\)的一阶邻近度用\(S_{m,n}\)来度量 。如果节点对\(v_m,v_n \notin E\),则\(S_{m,n}>0\);反之\(S_{m,n}=0\) 。
2.1.5 定义5:高阶邻近度高阶邻近度捕获了节点之间的\(k\)跳(\(k≥2\))邻域 。而二阶邻近度是高阶邻近度(\(k=2\))的特例,它由中间节点连接的邻居节点的数目决定 。通过从\(v_m\)到\(v_n\)的\(k\)跳转移概率来衡量两个节点\(v_m\)和\(v_n\)的高阶邻近度,即\(S_{m,n}=\hat{E}+\hat{E}^2+\hat{E}^3+\cdots+\hat{E}^k\),其中\(\hat{E}\)表示第一跳的转移概率 。高阶邻近度捕捉到了全局邻近度 。
2.1.6 定义6:语义邻近通过两个节点的属性特征向量\(a_m\)和\(a_n\)的相似度来获得两个节点\(v_m\)和\(v_n\)的语义邻近度 。常用的相似度度量包括余弦相似度、皮尔逊相关系数、杰卡德相似度系数和高斯交互轮廓(GIP)核相似度
2.2 同构图嵌入图嵌入的第一类是同构图嵌入,也称为网络嵌入或非属性图嵌入 。它是最早发展起来的最简单的图表示学习方法 。在学习顶点的低维表示时,同构图嵌入方法通常旨在保持图的拓扑 。根据它们的技术细节,我们将这些同构图嵌入方法分为三大类:基于矩阵分解的方法、基于随机游动的方法和基于传统深度学习的方法 。
2.2.1 基于矩阵分解的方法矩阵分解旨在将矩阵分解为低维矩阵,同时保持原矩阵的潜在流形结构和拓扑性质 。有一些开创性的工作(例如IsoMap、局部线性嵌入、拉普拉斯特征映射和图因式分解)将节点之间的关系表示为图邻接矩阵、拉普拉斯矩阵或相似矩阵,然后采用矩阵因式分解来获得嵌入 。这些方法的不同之处在于它们基于不同的一阶矩阵来捕捉图的结构,并且它们通常获得节点的浅嵌入 。
最近,基于矩阵因式分解的图嵌入方法也得到了发展,这种方法可以保持高阶邻近性 。例如,GraRep和Hope分别通过分解k跳转移概率矩阵和相似度矩阵(通过Kate指数、Rooted PageRank、Common Neighbors和Adamic–Adar得分来衡量)来考虑高阶邻近 。虽然其有效性已被证明,但由于巨大的存储开销和极高的计算成本,规模的可伸缩性仍然是基于矩阵分解的方法的关键瓶颈 。
2.2.2 基于随机游走的方法受Word2vec启发,研究人员将NLP中的嵌入方法从单词序列扩展到图节点序列,即路径 。采用基于随机游走的方法生成图中的节点序列,获取节点之间的结构关系 。具体地说,基于随机游走的方法对于给定的图和起始节点,随机游走并随机选择其邻居节点,然后随机选择相邻节点 。通过重复这种处理,一个图被转换成节点序列(类似于遍历) 。然后,可以使用类似Skip-Gram模型的概率模型在序列上随机生成上下文词,然后来学习基于生成的节点序列的节点嵌入,从而保持图的结构邻近性 。这一类别的开创性工作是Deepwalk 。类似地,node2vec改进了灵活的有偏随机游走,平滑地结合了广度优先采样和深度优先采样来获得节点序列 。因此,既保留了局部邻近关系,也保留了全局邻近关系 。此外,通过对随机游动的偏向和修正,提出了两种变种Walklets和Stuc2vec 。Walklets通过跳过一些节点来修改随机行走策略 。而不是邻域节点信息,Struc2vec基于节点的结构相似性定义了随机游走 。

跳字模型(Skip-Gram):固定窗口大小(即词距)为k,依次把第2个词~倒数第2个词作为目标词,然后对于每个目标词依次在词距内随机选择单词作为上下文词,将每一对(目标词,上下文词)加入跳字模型 。

经验总结扩展阅读