分子生物学、生理学和组学(例如基因组学、蛋白质组学等)的快速发展促进了人们对生物分子、细胞、器官如何协同进行重要的生化或生理活动的理解 。将生物组件表示为节点,将节点之间的相互作用表示为边,可以自然地将复杂的生物系统建模为图 。这一简洁的概念正逐渐被研究人员接受和推广 。为解决生物问题而建模和分析生物图的趋势可以分为三个阶段:双边生物图、多关系生物图和多模态生物医学知识图 。我们对它们作如下简要介绍:
- 双边生物图 。它包含两种生物对象以及它们之间的联系 。它已经应用于许多重要的生物学任务,例如基于PPI图的蛋白质功能注释,从DTI图推断药物的新适应症,"miRNA-疾病"关联预测,"lncRNA-疾病"关联预测和"CircRNA-疾病"关联检测;
- 多关系生物学图 。这是一个更复杂的多层异构网络,用于描述多个生物元素之间的复杂协同作用 。新出现的研究证实,分子之间存在相互调节和竞争,即竞争内源RNA假说 。对于药物发现和疾病治疗,需要综合研究药物与靶点、药物与疾病、药物与基因、疾病与基因、药物与药物的相互作用 。这些复杂系统可以很好地形成异构多关系生物学图,如用于"miRNA-疾病"关联预测的"lncRNA-mRNA-miRNA"图、"药物-靶标-疾病"图、"miRNA-基因-疾病"三边图、"化学-基因-疾病"图和"miRNA-基因-lncRNA-疾病"图;
- 生物医学知识图 。知识图在历史上有很多名称,如语义网络、知识库或本体 。它从大量分散的文档和数据库中的大量信息中挖掘“知识”,并以图的形式将这些实体关系链接在一起 。每一段知识都表示为"主体-谓语-客体"三元组 。知识图被认为是下一代人工智能的基础设施,在生物信息学领域具有许多前沿应用,包括用于临床决策支持的医疗保健知识图、用于疾病治疗的全局分子关联图和生物医学知识图(例如:PharmGKB、DrugBank、基因本体论(GO)、疾病本体论和KEGG) 。

文章插图
图1:图表示学习范例 。图表示学习连接了非欧几里得图数据和现代机器学习技术 。在这里,我们总结了图嵌入方法和图神经网络 。(a)类似网格的欧几里得数据与非欧几里得图的对比(不利于学习) 。(b)图嵌入方法通过将原始图中的节点直接投影到低维表示空间来生成节点表示 。(c)图神经网络通过不同的消息聚合和传播来学习图表示 。(d)图生成模型学习输入样本的分布以生成具有所需属性的分子图 。经验总结扩展阅读