即兴小探华为开源行业领先大数据虚拟化引擎openLooKeng( 二 )


即兴小探华为开源行业领先大数据虚拟化引擎openLooKeng

文章插图
  • 极简的跨源数据分析体验:统一的SQL接口访问多种数据源 。

即兴小探华为开源行业领先大数据虚拟化引擎openLooKeng

文章插图
  • 易扩展数据源:可以通过增加Connector来增加数据源采集变连接、数据零搬迁 。

即兴小探华为开源行业领先大数据虚拟化引擎openLooKeng

文章插图
架构openLooKeng与数据源、客户端的承接架构如下:
openLooKeng内部的核心架构如下:
即兴小探华为开源行业领先大数据虚拟化引擎openLooKeng

文章插图
  • openLooKeng是一个向量化的存储引擎,基于内存的流水线处理 。
  • openLooKeng与Impala类似为典型的MPP数据库架构,主要由 Coordinator 和 Worker 组成,每个openLooKeng集群安装必须有一个openLooKeng Coordinator节点,以及一个或多个openLooKeng Worker节点 。
    • Coordinator (协调节点):负责解析语句、规划查询和管理openLooKeng工作节点的服务器 。其是openLooKeng的“大脑”,也是客户端连接以提交语句执行的节点 。协调节点跟踪每个Worker节点上的活动,并协调查询的执行 。协调节点创建了一个查询的逻辑模型,其中包含一系列阶段,然后将其转换为在openLooKeng工作节点集群上运行的一系列相互连接的任务 。协调节点使用REST API与工作节点和客户端进行通信 。
    • Worker (工作节点):负责执行任务和处理数据 。Worker节点从连接器获取数据,并相互交换中间数据 。Coordinator 节点负责从Worker节点获取结果,并将最终结果返回给客户端 。当openLooKeng Worker节点进程启动时,它会将自己通告给Coordinator 节点中的发现服务器,这样openLooKeng  Coordinator 节点就可以使用它来执行任务 。Worker节点使用REST API与其他Worker节点和openLooKeng Coordinator 进行通信 。
  • openLooKeng引入了高可用的AA特性,支持Coordinator AA双活机制,能够保持多个Coordinator之间的负载均衡,同时也保证了openLooKeng在高并发下的可用性 。
  • openLooKeng的弹性伸缩特性支持将正在执行任务的服务节点平稳退服,同时也能将处于不活跃状态的节点拉起并接受新的任务 。openLooKeng通过提供“已隔离”与“隔离中”等状态接口供外部资源管理者(如Yarn、Kubernetes等)调用,从而实现对Coordinator和Worker节点的弹性扩缩容 。
  • openLooKeng统一目录、跨域跨DC查询:通过Data Source Connector和Data Center Connector两大统一数据源连接框架来实现 。
    即兴小探华为开源行业领先大数据虚拟化引擎openLooKeng

    文章插图
    • 并行数据访问:Worker可以并发访问数据源以提高访问效率,客户端也可以并发从服务端获取数据以加快数据获取速度 。
    • 数据压缩:在数据传输期间进行序列化之前,先使用GZIP压缩算法对数据进行压缩,以减少通过网络传输的数据量 。
    • 跨DC动态过滤:过滤数据以减少从远端提取的数据量,从而确保网络稳定性并提高查询效率 。
关键技术