即兴小探华为开源行业领先大数据虚拟化引擎openLooKeng( 三 )


  • Cache:openLooKeng提供丰富多样的Cache,包括元数据cache、执行计划cache、ORC行数据cache等 。通过这些多样的cache,可加速用户多次对同一SQL或者同一类型SQL的查询时延响应 。
  • 动态过滤:动态过滤是指是在运行时(run time)将join一侧表的过滤信息的结果应用到另一侧表的过滤器的优化方法,openLooKeng不仅提供了多种数据源的动态过滤优化特性,还将这一优化特性应用到了DataCenter Connector,从而加速不同场景关联查询的性能 。
  • 算子下推:openLooKeng通过Connector框架连接到RDBMS等数据源时,由于RDBMS具有较强的计算能力,一般情况下将算子下推到数据源进行计算可以获取到更好的性能 。openLooKeng目前支持多种数据源的算子下推,包括Oracle、HANA等,特别地,针对DC Connector也实现了算子下推,从而实现了更快的查询时延响应 。

  • 即兴小探华为开源行业领先大数据虚拟化引擎openLooKeng

    文章插图
    应用场景openLooKeng常用于如下几种场景:
    • 跨源异构查询场景:使用openLooKeng实现RDBMS、NoSQL、Hive、MPPDB等数据仓库的联合查询 。利用openLooKeng的跨源异构查询能力,数据分析师可以快速分析海量数据 。
    • 跨域跨DC查询:在二级或多级数据中心场景中,例如省-市数据中心或总部-分部数据中心,用户经常需要从省(总部)数据中心或市(分部)数据中心查询数据 。跨域查询的瓶颈是多个数据中心之间的网络问题(例如带宽不足、高时延、丢包等) 。因此,查询时延高,性能不稳定 。openLooKeng是专为跨域查询设计的跨域跨DC解决方案 。openLooKeng集群部署在多个DC中 。DC2中的openLooKeng集群完成计算后,通过网络将结果传递给DC1中的openLooKeng集群,在DC1中的openLooKeng集群完成聚合计算 。在openLooKeng跨域跨DC方案中,计算结果在openLooKeng集群之间传递 。这避免了网络带宽不足和丢包带来的网络问题,在一定程度上解决了跨域查询的问题 。
    • 存储计算分离:openLooKeng本身没有存储引擎,但可以查询存储在不同数据源中的数据 。因此,该系统是一个典型的存储计算分离系统,有利于独立扩展计算和存储系统 。openLooKeng存储计算分离架构适用于动态扩展集群,实现资源快速弹性伸缩 。
    • 快速数据探索:客户拥有大量数据 。为了使用这些数据,他们通常会构建专用的数据仓库 。但是,这将带来额外的数据仓库维护人力成本和数据ETL时间成本 。对于需要快速探索数据,但又不想建设专用数据仓库的客户,复制数据并加载到数据仓库费时费力 。openLooKeng可以使用标准SQL定义一个虚拟数据市场,通过跨源异构查询能力连接各个数据源 。这样,在虚拟数据市场的语义层中就可以定义出用户需要探索的各种分析任务 。借助openLooKeng的数据虚拟化能力,客户可以快速构建基于多种数据源的探索分析服务,无需建设复杂、专用的数据仓库 。
    相反的由于openLooKeng设计其不适用对实时性要求很高如秒级响应的系统和针对并发要求很高的系统 。
    安装【即兴小探华为开源行业领先大数据虚拟化引擎openLooKeng】openLooKeng支持单机一键部署、手动部署、自动部署,自动部署又包含在线部署、离线部署 。下面离线单台集群部署和多台集群部署
    单台部署# 下载 https://download.openlookeng.io/auto-install/openlookeng.tar.gz 并将其内容解压到 /opt 目录 。wget --no-check-certificate https://download.openlookeng.io/auto-install/openlookeng.tar.gztar -xvf openlookeng.tar.gz -C /opt/# 创建目录 /opt/openlookeng/resource 并保存 openLooKeng 执行文件 https://download.openlookeng.io/<version>/hetu-server-<version>.tar.gz 和 https://download.openlookeng.io/<version>/hetu-cli-<version>-executable.jar,其中<version>对应于正在安装的版本,例如1.0.0 。mkdir -p /opt/openlookeng/resourcewget --no-check-certificate https://download.openlookeng.io/1.8.0/hetu-server-1.8.0.tar.gzwget --no-check-certificate https://download.openlookeng.io/1.8.0/hetu-cli-1.8.0-executable.jar# 同时将第三方依赖保存在 /opt/openlookeng/resource 目录下 。根据本机的架构,下载 https://download.openlookeng.io/auto-install/third-resource/x86/ 或 https://download.openlookeng.io/auto-install/third-resource/aarch64/ 下面的全部文件 。这应该包括一个 OpenJDK 文件和两个 sshpass 文件 。wget --no-check-certificate https://download.openlookeng.io/auto-install/third-resource/aarch64/OpenJDK8U-jdk_aarch64_linux_hotspot_8u222b10.tar.gzwget --no-check-certificate https://download.openlookeng.io/auto-install/third-resource/aarch64/sshpass-1.06-1.el7.aarch64.rpmwget --no-check-certificate https://download.openlookeng.io/auto-install/third-resource/aarch64/sshpass-1.06.tar.gz# 执行离线bash /opt/openlookeng/bin/install_offline.sh

    经验总结扩展阅读