Briefings in Bioinformatics-2021 知识图谱-生物信息学-医学顶刊论文:生物信息学中的图表示学习:趋势、方法和应用( 八 )


3.1.1 分子表示学习学习分子的高效表示在蛋白质功能预测、分子性质预测和药物发现等下游任务中起着基础性的作用 。除了基于字符串的表示,图表示学习还提供了更灵活、更好的分子表示,这些分子对于特殊任务来说是最佳的 。例如,Duvenaud等人提出了一个端到端的框架,通过使用GNN来学习可区分的分子指纹 。基于几何深度学习,Gainza等人提出了分子表面相互作用指纹图谱,在蛋白质参与相似相互作用可能共享共同指纹的假设下,捕捉针对特定生物分子相互作用而优化的指纹 。最近,Li等人利用自适应GCN学习分子表示,同时考虑了三维分子结构的拓扑不变性和旋转不变性 。
3.1.2 分子性质预测分子性质的准确预测对化合物设计和药物开发至关重要 。Gilmer等人提出了一个统一的框架消息传递神经网络(MPNN),并在分子性质预测基准上展示了优越的性能 。为了保留分子的空间联系信息,Wang等人利用分子图数据引入了卷积空间图嵌入层(C-SGEL)来研究分子的性质 。多层C-SGEL被集成为卷积空间图嵌入模型,并融合分子指纹来预测分子性质 。Wieder等人对具有不同结构的GNN进行了一项关于预测分子性质的综述 。
3.1.3 分子图生成设计或生成具有所需性质的分子是药物发现和开发中的一个具有挑战性的问题 。现有的图生成模型的目标是直接对联合分布进行建模 。Jin等人提出了一种基于VAES的方法来生成连接树结构的化学子结构,然后使用图消息传递网络将它们组合成图 。Shih等生成分子图的自回归模型 。他们将图的生成描述为一个连续的决策过程,在每一步中生成一个新原子,然后确定生成的原子与现有原子之间的键 。Zang等人提出了一个基于可逆流的分子图生成模型,在分子图生成和重构、性质优化等方面取得了最好的性能 。最近,Mahmod等人提出了一个分子图生成模型,该模型使用简单的MPNN-GNN学习掩蔽图分量的条件分布,给定图的其余部分 。
3.2 多组学中的图表示学习

多组学(Multi-omics)研究是探究生物系统中多种物质之间相互作用的方法 。
多组学数据的综合分析已成为生命机制研究的新方向 。图表示学习是加速关系多组学数据分析的有价值的工具,包括基因组学、蛋白质组学和转录组学 。
3.2.1 基因组学图分析Li等人提出了一种基于LINE的单细胞表示学习方法,通过从基因表达数据和路径先验中考虑基因与基因的关联来学习对单细胞高通量RNA测序(scRNA-Seq)数据有意义的表示 。Li等人将各种基因组和表型图合并到一个异构多重图中,并开发了一种基于随机游走的疾病基因识别方法 。GCN-MF结合了GCN和矩阵因式分解来发现基因与疾病的关联 。通过使用基因表达矩阵的一个子集,Yang等人提出了一个统一的图变分生成对抗性网络模型(CONDGEN),该模型集成了GCN、VAE和GAN生成图的框架 。Rhee等人将基因表达数据组合成PPI图,并将其作为GCN的输入,定义了一个关系网络,以图卷积层加权的边为优先,表示关联的基因集 。
3.2.2 蛋白质组图分析蛋白质是生命活动的直接载体,蛋白质组学在阐明生命活动和复杂疾病的分子机制方面发挥着重要作用 。
You等人利用基于IsoMap的嵌入方法对PPI网络中的蛋白质节点进行编码 。他们在嵌入空间中测量蛋白质之间的相似性以预测PPI 。属性网络嵌入方法Graph2Go融合了蛋白质的属性特征和图嵌入,采用VGAE和GCN进行蛋白质功能推断和GO 。姚等人通过去除用于蛋白质复合体检测的可靠性低的PPI来堆叠GCN,以便构建更可靠的PPI网络 。
3.2.3 转录组图分析生物体的转录组含有大量的非编码RNA,包括miRNA、lncRNA、CircRNA等,它们在基因表达、细胞发育和各种生命活动中发挥着重要作用,与复杂的人类疾病密切相关 。

经验总结扩展阅读