Briefings in Bioinformatics-2021 知识图谱-生物信息学-医学顶刊论文:生物信息学中的图表示学习:趋势、方法和应用( 二 )


分子生物学、生理学和组学(例如基因组学、蛋白质组学等)的快速发展促进了人们对生物分子、细胞、器官如何协同进行重要的生化或生理活动的理解 。将生物组件表示为节点,将节点之间的相互作用表示为边,可以自然地将复杂的生物系统建模为图 。这一简洁的概念正逐渐被研究人员接受和推广 。为解决生物问题而建模和分析生物图的趋势可以分为三个阶段:双边生物图、多关系生物图和多模态生物医学知识图 。我们对它们作如下简要介绍:

  1. 双边生物图 。它包含两种生物对象以及它们之间的联系 。它已经应用于许多重要的生物学任务,例如基于PPI图的蛋白质功能注释,从DTI图推断药物的新适应症,"miRNA-疾病"关联预测,"lncRNA-疾病"关联预测和"CircRNA-疾病"关联检测;
  2. 多关系生物学图 。这是一个更复杂的多层异构网络,用于描述多个生物元素之间的复杂协同作用 。新出现的研究证实,分子之间存在相互调节和竞争,即竞争内源RNA假说 。对于药物发现和疾病治疗,需要综合研究药物与靶点、药物与疾病、药物与基因、疾病与基因、药物与药物的相互作用 。这些复杂系统可以很好地形成异构多关系生物学图,如用于"miRNA-疾病"关联预测的"lncRNA-mRNA-miRNA"图、"药物-靶标-疾病"图、"miRNA-基因-疾病"三边图、"化学-基因-疾病"图和"miRNA-基因-lncRNA-疾病"图;
  3. 生物医学知识图 。知识图在历史上有很多名称,如语义网络、知识库或本体 。它从大量分散的文档和数据库中的大量信息中挖掘“知识”,并以图的形式将这些实体关系链接在一起 。每一段知识都表示为"主体-谓语-客体"三元组 。知识图被认为是下一代人工智能的基础设施,在生物信息学领域具有许多前沿应用,包括用于临床决策支持的医疗保健知识图、用于疾病治疗的全局分子关联图和生物医学知识图(例如:PharmGKB、DrugBank、基因本体论(GO)、疾病本体论和KEGG) 。
为了将快速积累的生物医学大数据转化为有价值的知识,机器学习,特别是深度学习,成功地应用于生物信息学的广泛场景,如序列分析、结构预测、生物医学图像处理和诊断 。这些任务中的数据直接表示在欧几里德空间中,例如序列(1-D)、生物医学图像(2-D)和结构(3-D) 。深度学习模型是为了处理这些常规的欧几里得数据(例如文本、序列和拍摄的图像)而设计的,以前的工作已经很好地回顾了这些数据 。然而,在非欧几里得生物图和典型的深度学习模型之间存在明显的挑战 。例如,图中的节点具有多样的连接、任意的邻域大小、复杂的拓扑结构以及没有固定的节点顺序 。为了满足这些需求,图表示学习将丰富的有价值的生物图和先进的机器学习技术结合起来,包括浅层图嵌入方法和新兴的图神经网络(GNN) 。图表示学习的主要范例如图1所示 。其中,图嵌入的目的是学习节点、链接或子图的低维表示,同时最大限度地保留适合于下游图分析任务的现成机器学习方法的图拓扑和固有属性,例如节点分类、链接预测、社区检测和可视化 。然而,GNN不仅可以通过一系列消息聚合和传播来学习保留图拓扑和节点属性的嵌入,而且可以直接端到端地完成图上的任务(如图2所示) 。根据前人对图嵌入技术的研究,图嵌入方法可以分为同构图嵌入、异构图嵌入和属性图嵌入方法 。基于模型结构和训练策略,GNN可以概括为图递归网络(GRN)、图卷积网络(GCN)、图自动编码器(GAE)和图生成对抗网络(GGAN) 。
Briefings in Bioinformatics-2021 知识图谱-生物信息学-医学顶刊论文:生物信息学中的图表示学习:趋势、方法和应用

文章插图
图1:图表示学习范例 。图表示学习连接了非欧几里得图数据和现代机器学习技术 。在这里,我们总结了图嵌入方法和图神经网络 。(a)类似网格的欧几里得数据与非欧几里得图的对比(不利于学习) 。(b)图嵌入方法通过将原始图中的节点直接投影到低维表示空间来生成节点表示 。(c)图神经网络通过不同的消息聚合和传播来学习图表示 。(d)图生成模型学习输入样本的分布以生成具有所需属性的分子图 。

经验总结扩展阅读