即兴小探华为开源行业领先大数据虚拟化引擎openLooKeng

@
目录

  • 概述
    • 定义
    • 背景
    • 特点
    • 架构
    • 关键技术
    • 应用场景
  • 安装
    • MySQL连接器
    • ClickHouse连接器
    • 单台部署
    • 集群部署
    • 命令行接口
    • 连接器
概述定义
openLooKeng 官网地址 https://openlookeng.io
openLooKeng 官网中文文档 https://docs.openlookeng.io/zh/docs/docs/overview.html
openLooKeng GitHub源码地址 https://github.com/openlookeng
openLooKeng是业界著名由华为开源的、开箱即用、面向大数据库的数据虚拟化引擎,支持在任何地点、数据进行原位分析的,其宗旨是让数据治理、大数据使用更简单 。最新版本为v1.8.0
  • openLooKeng提供统一 SQL 接口:具备跨数据源/数据中心分析能力以及面向交互式、批、流等融合查询场景,常用于用于数据探索、即席查询;其处理性能在同等条件下对标 Presto、Impala、Spark都处于明显优势 。
  • 高性能交互式查询能力:底层借助于开源 SQL 引擎 Presto 来提供交互式查询分析基础能力,源自开源而领先开源,无需移动数据,具有100+毫秒至分钟级的近实时时延 。
  • openLooKeng具有高可用性、自动伸缩、内置缓存和索引支持 。
  • openLooKeng支持层次化部署,使地理上远程的openLooKeng集群能够参与相同的查询 。利用其跨区域查询计划优化能力,涉及远程数据的查询可以达到接近“本地”的性能 。
  • 背景
RDBMS(如MySQL、Oracle等)、NoSQL(如HBase、ES、Kafka等)等数据管理系统广泛用于客户的各种应用系统中 。随着数据量的增加,数据管理越来越完善,客户逐步基于Hive或MPPDB建立数据仓库 。这些数据存储系统往往相互隔离,形成相互独立的数据孤岛 。数据分析师经常遇到以下问题:
  • 面对海量数据,如果不知道数据用在哪里,怎么用,就无法基于海量数据构建新的业务模型 。
  • 查询不同的数据源,需要不同的连接方式或客户端,运行不同的SQL方言 。这些差异导致额外的学习成本和复杂的应用开发逻辑 。
  • 如果数据没有聚合,则无法对不同系统的数据执行联合查询 。
异构数据源多,语法差异大,使用不方便;数据ETL费时费力,降低分析效率;
大部分的企业在面向大数据应用面临的用数难、找数难、取数难的痛点:
  • 用数难:在大数据的生态下会有很多的引擎、框架或组件,比如说有面向OLTP、 OLAP 、ROLAP、MOLAP,同时 Hadoop分布式文件系统和基于 NoSQL 分布式数据库,开发的组件越多、导致使用和开发成本明显增加 。
  • 找数难:大部分企业没有做完整数据治理前的数据都是比较分散、管理复杂高、流动性差,查询效率低 。
  • 取数难:在跨源分析场景经常要从一个数据源导到另一个数据源,导致数据存在多份拷贝,数据迁移效率也较低 。
openLooKeng的出现正是为了打破数据壁垒、数据孤岛的僵局并快速实现数据的价值,实现用数极简,找数极速,取数高效的目的 。
即兴小探华为开源行业领先大数据虚拟化引擎openLooKeng

文章插图
特点