1、数据湖和数据仓库的区别是什么?01 数据仓库
数据仓库(Data Warehouse),也称为企业数据仓库 , 它是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合存储系统 , 它将来自不同来源的结构化数据聚合起来,用于业务智能领域的比较和分析 , 数据仓库是包含多种数据的存储库,并且是高度建模的 。
数据仓库系统的作用能实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持 。数据仓库能够从根本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或知识),并且在恰当的时候通过恰当的方式把恰当的信息传递给恰当的人 。
数据仓库针对实时数据处理和非结构化数据处理能力较弱,以及在业务在预警预测等方面应用有一定的限制 。
02 数据湖
数据湖(Data Lake)是Pentaho公司CTO James Dixon提出来一种数据存储理念―即在系统或存储库中以自然格式存储数据的方法 。数据湖作为一个集中的存储库,可以在其中存储任意规模的结构化和非结构化数据 。在数据湖中,可以存储不需要对其进行结构化的数据,这样就可以运行不同类型的分析 。下面的定义是维基百科所给出的“数据湖”定义 。
数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输 。数据湖是以其自然格式存储的数据的系统或存储库,通常是对象Blob或文件 。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据 。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV , 日志,XML , JSON),非结构化数据(电子邮件 , 文档 , PDF)和二进制数据(图像,音频 , 视频) 。
数据湖能够帮助企业实现数据的集中式管理等多种能力;数据湖融合了先进的数据科学、机器学习和人工智能技术 , 帮助企业构建更加优化的数据运营模型,为企业提供预测分析、推荐模型等能力,这些模型能够刺激企业能力的持续增长,不断赋能于企业增长 。数据湖能从以下方面帮助到企业:
实现数据治理;
通过应用机器学习与人工智能技术实现商业智能;
预测分析和模型推荐 , 例如:领域特定的推荐引擎 ;
信息追踪与一致性保障;
基于历史数据分析生成新的数据维度,挖掘数据深度价值;
提供集中式存储的企业数据中心 , 并提供基于数据传输优化的数据服务;
协助企业实现灵活的增长决策 。
数据湖就是一个集中存储数据库 , 用于存储所有结构化和非结构化数据 。数据湖可用其原生格式存储任何类型的数据,这是没有大小限制 。
数据仓库是位于多个数据库上的大容量存储库 。它的作用是存储大量的结构化数据,并能进行频繁和可重复的分析 。
数据科学家
可能会用具有预测建模和统计分析等功能的高级分析工具 。而数据仓库就是数据仓库非常适用于月度报告等操作用途,因为它具有高度结构化 。在架构中数据湖通常,在存储数据之后定义架构 。使用较少的初始工作并提供更大的灵活性 。
在数据仓库中存储数据之前定义架构 。这需要你清理和规范化数据,这意味着架构的灵活性要低不少 。
其实数据仓库和数据湖是我们都需要的地方,数据仓库非常适用于业务实践中常见的可重复报告 。当我们执行不太直接的分析时,数据湖就很有用 。
文章插图
文章插图
2、如何区别数据库、数据中台、数据湖?我们谈论数据中台之前 , 我们也听到过数据平台、数据仓库、数据湖的相关概念,它们都与数据有关系,但他们和数据中台有什么样的区别, 下面我们将围绕数据平台、数据仓库、数据湖和数据中台的区别进行介绍 。
01 数据仓库
数据仓库(Data Warehouse),也称为企业数据仓库,它是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合存储系统,它将来自不同来源的结构化数据聚合起来,用于业务智能领域的比较和分析,数据仓库是包含多种数据的存储库,并且是高度建模的 。
数据仓库系统的作用能实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持 。数据仓库能够从根本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或知识),并且在恰当的时候通过恰当的方式把恰当的信息传递给恰当的人 。
数据仓库针对实时数据处理和非结构化数据处理能力较弱,以及在业务在预警预测等方面应用有一定的限制 。
02 数据湖
数据湖(Data Lake)是Pentaho公司CTO James Dixon提出来一种数据存储理念―即在系统或存储库中以自然格式存储数据的方法 。数据湖作为一个集中的存储库 , 可以在其中存储任意规模的结构化和非结构化数据 。在数据湖中,可以存储不需要对其进行结构化的数据 , 这样就可以运行不同类型的分析 。下面的定义是维基百科所给出的“数据湖”定义 。
数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输 。数据湖是以其自然格式存储的数据的系统或存储库,通常是对象Blob或文件 。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据 。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志 , XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频) 。
数据湖能够帮助企业实现数据的集中式管理等多种能力;数据湖融合了先进的数据科学、机器学习和人工智能技术,帮助企业构建更加优化的数据运营模型,为企业提供预测分析、推荐模型等能力 , 这些模型能够刺激企业能力的持续增长,不断赋能于企业增长 。数据湖能从以下方面帮助到企业:
实现数据治理;
通过应用机器学习与人工智能技术实现商业智能;
预测分析和模型推荐,例如:领域特定的推荐引擎 ;
信息追踪与一致性保障;
基于历史数据分析生成新的数据维度,挖掘数据深度价值;
提供集中式存储的企业数据中心 , 并提供基于数据传输优化的数据服务;
协助企业实现灵活的增长决策 。
03 数据平台
数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集 。
数据平台的出现是为了解决数据仓库不能处理非结构化数据和报表开发周期长的问题,所以先撇开业务需求、把企业所有的数据都抽取出来放到一起,成为一个大的数据集,其中有结构化数据、非结构化数据等 。当业务方有需求的时候,再把他们需要的若干个小数据集单独提取出来 , 以数据集的形式提供给数据应用 。
大数据时代,数据平台一般被称之为大数据平台 。狭义上的大数据平台和传统数据平台的功能一致 , 只是技术架构和数据容量方面的不同,但广义的大数据平台通常被赋予更多的使命,它不仅存储多样化的数据类型,还具有报表分析等数据仓库的功能 , 以及其他数据分析挖掘方面的高级功能 。
04 数据中台
数据中台通过对企业内外部多源异构的数据采集、治理、建模、分析和应用,使数据对内优化管理提高业务价值,对外进行数据合作让业务价值得到释放,使之成为企业数据资产管理中枢 。数据中台建立后,会形成数据API服务,为企业和客户提供高效各种数据服务 。
数据中台对一个企业的数字化转型和可持续发展起着至关重要的作用 。数据中台为解耦而生 , 企业建设数据中台的最大意义就是应用与数据之间的解藕,这样企业就可以不受限制地按需构建满足业务需求的数据应用 。
构建了开放、灵活、可扩展的企业级统一数据管理和分析平台,将企业内、外部数据随需关联,打破了数据的系统界限 。
利用大数据智能分析、数据可视化等技术,实现了数据共享、日常报表自动生成、快速和智能分析,满足企业各级部门之间的数据分析应用需求 。
深度挖掘数据价值,助力企业数字化转型落地 。实现了数据的目录、模型、标准、认责、安全、可视化、共享等管理,实现数据集中存储、处理、分类与管理 , 建立大数据分析工具库、算法服务库 , 实现报表生成自动化、数据分析敏捷化、数据挖掘可视化,实现数据质量评估、落地管理流程 。
05 数据仓库 VS 数据湖
相较而言 , 数据湖是较新的技术 , 拥有不断演变的架构 。数据湖存储任何形式(包括结构化和非结构化)和任何格式(包括文本、音频、视频和图像)的原始数据 。根据定义 , 数据湖不会接受数据治理,但专家们一致认为良好的数据管理对预防数据湖转变为数据沼泽不可或缺 。数据湖在数据读取期间创建模式 。与数据仓库相比,数据湖缺乏结构性,而且更灵活,并且提供了更高的敏捷性 。值得一提的是,数据湖非常适合使用机器学习和深度学习来执行各种任务 , 比如数据挖掘和数据分析,以及提取非结构化数据等 。
06 数据仓库 VS 数据平台
由于数据仓库具有历史性的特性,其中存储的数据大多是结构化数据;而数据平台的出现解决了数据仓库不能处理非结构化数据和报表开发周期长的问题 。
通过以上的论述 , 我们发现数据平台和数据湖好像存在诸多相似性,这二者之间的区别 , 从个人角度理解上分析应该是数据加工的角度不同,数据湖更着重于对原始数据的存储,而数据平台则同数据仓库一样 , 需对原始数据进行清洗、转换等数据处理后按照统一的标准规范进行存储 。
07 数据仓库 VS 数据中台
数据仓库和传统的数据平台 , 其出发点为一个支撑性的技术系统 , 即一定要先考虑我具有什么数据,然后我才能干什么,因此特别强调数据质量和元数据管理;而数据中台的第一出发点不是数据而是业务,一开始不用看你系统里面有什么数据,而是去解决你的业务问题需要什么样的数据服务 。
在具体的技术处理环节 , 二者也有明显不同,数据的预处理流程正在从传统的ETL结构向ELT结构转变 。传统的数据仓库集成处理架构是ETL结构,这是构建数据仓库的重要一环,即用户从数据源抽取出所需的数据,经过数据清洗,将数据加载到数据仓库中去 。而大数据背景下的架构体系是ELT结构,其根据上层的应用需求,随时从数据中台中抽取想要的原始数据进行建模分析 。
08 总结
根据以上数据平台、数据仓库、数据湖和数据中台的概念论述和对比 , 我们进行如下总结:
数据中台、数据仓库和数据湖没有直接的关系;
数据中台、数据平台、数据仓库和数据湖在某个维度上为业务产生价值的形式有不同的侧重;
数据中台是企业级的逻辑概念,体现企业数据向业务价值转化的能力,为业务提供服务的主要方式是数据 API;
数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集;
数据中台距离业务更近,能够更快速的响应业务和应用开发需求,从而为业务提供速度更快的服务;
数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层 。
数据湖、数据仓库和数据中台,他们并没有直接的关系,只是他们为业务产生价值的形式有不同的侧重 。
一、区别:
数据湖作为一个集中的存储库,可以在其中存储任意规模的所有结构化和非结构化数据 。在数据湖中,可以存储数据不需要对其进行结构化,就可以运行不同类型的分析 。
数据仓库,也称为企业数据仓库,是一种数据存储系统,它将来自不同来源的结构化数据聚合起来,用于业务智能领域的比较和分析,数据仓库是包含多种数据的存储库,并且是高度建模的 。
数据中台是一个承接技术,引领业务,构建规范定义的、全域可连接萃取的、智慧的数据处理平台,建设目标是为了高效满足前台数据分析和应用的需求 。数据中台距离业务更近,能更快速的相应业务和应用开发的需求,可追溯 , 更精准 。
二、关系:
数据湖、数据仓库更多地是面向不同对象的不同形态的数据资产 。而数据中台更多强调的是服务于前台,实现逻辑、标签、算法、模型的复用沉淀 。
数据中台像一个“数据工厂”,涵盖了数据湖、数据仓库等存储组件,随着数据中台的发展,未来很有可能数据湖和数据仓库的概念会被弱化 。
三、小结:
数据空间持续增长,为了更好地发挥数据价值,未来数据技术趋于融合 , 同时也在不断创新 。
数据湖、数据仓库和数据中台,他们并没有直接的关系 , 只是他们为业务产生价值的形式有不同的侧重 。
数据湖作为一个集中的存储库,可以在其中存储任意规模的所有结构化和非结构化数据 。在数据湖中,可以村村数据不需要对其进行结构化,就可以运行不同类型的分析 。
数据仓库 , 也称为企业数据仓库 , 是一种数据存储系统,它将来自不同来源的架构华数据聚合起来 , 用于业务职能领域的比较和分析,数据仓库是包含多种数据的存储库 , 并且是高度建模的 。
数据中台是一个承接技术,引领业务,构建规范定义的,全域可连接萃取的、智慧的数据处理平台,建设目标是为了高效满足前台数据分析和应用的需求 。数据中台距离业务更近,能更快速的响应业务和应用开发的需求,可追溯,更精准 。
文章插图
文章插图
3、数据汇集和数据湖哪一个先进行数据汇集先进行 。
1、数据汇集是数据中台数据接入的入口 。
2、数据湖是一种数据存储的概念,数据湖更相当于是数据的一种自然状态 , 数据从源端流向这个湖,用户、应用系统可以在其进行数据校验、取样或完全的使用数据 。
文章插图
文章插图
4、估值380亿美元的数据湖引领者,Databricks是如何发展壮大的?阿尔法公社
重度帮助创业者的天使投资基金
Databricks是一家正在崛起的企业软件巨头 。2021年,它连续获得两轮10亿美元级别的大额融资,估值跃升到380亿美元,它在数据和人工智能领域具有全球雄心 。
Databricks是一个非典型的创业故事 , 它由七位联合创始人创办,其中大部分是学者 。它从Spark开源项目起步,现在引领了数据湖范式,这将加速其与主要竞争对手Snowflake的竞争 。
本文是投资人Matt Turck与Databricks联合创始人兼CEO Ali Ghodsi的对话实录,Matt Turck在2015年就与Databricks的联合创始人Ion Stoica有过对话,对于Databricks的情况相当熟悉 。在本文中Ali Ghodsi将透露Databricks从一个开源项目到大型公司的成长经历,以及在团队 , 产品,进入市?。?扩张等方面积累的洞见,Enjoy 。
科学家创始人们推动Databricks起步
Matt Turck: 我们谈一下Databricks的起步,AMPLab、Spark和Databricks,这一切是如何开始的?
Ali Ghodsi:我们当时正处于人工智能革新的风口浪尖:Uber刚刚起步,Airbnb、Twitter处于早期,Facebook还不是巨头 。他们声称,使用20世纪70年代诞生的机器学习算法实现了很好的效果 。
以当时的常识来想这不可能是真的,我们觉得那些算法不可能Work,但他们说,“不 , 我们得到了非常厉害的结果 。”当仔细观察后,我们的想法被颠覆了――他们确实获得了惊人的结果 。以现代硬件和大量数据为支撑,运用上世纪的算法依旧可以获得令人难以置信的产出 , 我们对此感到震惊 。我们想:”需要使之普适化” 。例如,在Facebook,他们可以提前检测到情侣分手,如果地球上的每个企业都有这种技术,这会对现有商业产生巨大影响 。这就是AMPLab的起点 。
Matt Turck: 当时AMPLab的Spark是怎么来的?
Ali Ghodsi:图灵奖得主之一戴夫?帕特森当时是伯克利的教授,他非常相信人们应该聚在一起,打破孤岛 。伯克利的教授们放弃了自己的私人办公室,和所有学生一起在巨大的开放区域办公 。
他们试图解决的机器学习问题以当时的技术背景来说是很有挑战性的 。AMPLab里做机器学习的人,做数学的人 , 不得不使用Hadoop,数据的每一次迭代都必须运行MapReduce,这样光是做一次迭代就需要20到30分钟 。所以当时我们决定:”联合起来,建立一个反应快速的基础架构 。”我们在数据上做了很多迭代 。因此,不只是做一次,不只是一个SQL引擎,而是可以做递归机器学习的东西,并可以极快地找到数据中的内涵模式 。
Matt Turck: Databricks创始故事的特殊之处在于,你们有七、八个联合创始人 。回过头看,拥有这样一个大的创始团队利与弊是什么?
Ali Ghodsi:肯定是有利有弊的 。如果你知道如何真正让由七个人组成的紧密小组真正信任对方,并在一起工作得很好,就会发生令人惊讶的事情 。我认为Databricks的成功很大程度上归因于我们互相的信任 。
创业早期的创始人 , 即使只有两个人,他们也会争吵,然后可能会在一两年内分裂,这就是问题所在 。我们找到了一种方法,使大家真正了解对方的长处和短处,使这段创业旅程成为一种乐趣 。
人们总说CEO是地球上最漫长的工作,我从来没有这种感觉 。我有很多联合创始人和我在一起,他们一直都在,这对我们来说绝对是一种力量 。如果我们没有这些人 , 就不会有现在的成就 。
从开源项目到公司,
从0到100万美元ARR
Matt Turck: 你们是如何从学术性的开源项目(Spark)变成一家公司,然后从0做到1000万美元ARR的?这背后是否有任何决定性的时刻,或其他特别的增长手段?
Ali Ghodsi:我们从0到100万美元ARR的旅程非常特别,与其他的旅程非常不同 。我们经历了三个阶段,第一个阶段是PMF(产品与市场契合)阶段,当你有了一个产品,你能找到它与用户之间的契合点么?这对任何公司都存在挑战 。
你一旦你找到PMF,接下来就得弄清楚什么是能将该产品与市场联系起来的渠道,你的产品或许符合市场需求,但怎么通过渠道销售呢?事实上,我们一开始在这方面走了弯路,花了几年时间才确定正确的发展方向 。在这几年里 , 为了弄清楚Databricks的正确模式我们进行了大量的实验 。
接下来,让我们从产品开始,然后再谈谈渠道 。
产品方面,我们有在伯克利建立的开源技术 , 但这不一定符合大企业的需要,因为在大企业,他们没有来自伯克利的博士 。因此,我们需要为他们大简化问题 , 我们开始在云中托管它,但事实证明,即使是云版本对他们来说也太复杂了,无法使用 。
因此 , 我们开始与用户一起进行迭代 。我们在这之后削减了很多特性和功能,甚至可以说重新构建了一个产品 。我们问自己:”如果我们知道现在的一切,回去再做一次,会怎么做?”
于是 , 我们重新做了另一个开源项目,Delta,你可以把它看作Spark为大型企业所做的非常简单和自动化的软件 。当我们在伯克利时 , 我们的产品设想是提供尽可能多的功能和设置项,因为可能是一个博士在用它做研究 。但当我们把产品在企业中推广时,我们意识到不是每个人都有博士学位,大家不知道如何使用它 。这就是早期我们遇到的问题 。在渠道方面,错误在于,我们在早期真的是非常相信这种产品主导的增长 。
关于销售,当时我们的设想是,有了一个简化的产品,我们把它做成基于云的产品,就会有人会使用它,会为它刷信用卡 , 我们会非常成功 。我们可以雇用销售人员,给年轻人打电话进行推销 , 我们不会雇佣企业的销售人员 。我们更喜欢这种模式,它更便宜 , 更简单 。
但那是一个错误 。你不能凭空选择你的渠道 。你有一个产品和相应的市场,必须找到正确的渠道来连接它们 。
Databricks如何开发产品,
数据仓库VS数据湖
Matt Turck: 我们一会再继续谈进入市场 。现在让我们先谈谈产品,我在Databricks观察到的令人着迷的事情之一是 , 你们发布新产品并将其转化为一个平台的速度 。从Spark到机器学习到AI工作台再到Lakehouse,请向我们介绍一下产品的思路――一个产品如何导致另一个产品的出现 。
Ali Ghodsi:我们从Spark开始起步 , 它让用户可以访问所有数据;于是人们开始在企业中创建数据库,并在其中积累了大量数据 。但过了一段时间,企业高管会问:“我不在乎我们获得和存储了多少数据,你能用这些数据为我做什么? ”这就是我们试图建立其他应用程序的原因 。
起初我们的收入很少,然后我们意识到它太复杂了,有太多的选项和配置 。我们就问自己:”如果必须重做,必须简化,会做什么?”这种思路后的第一个创新是Delta,它重新定义了Spark , 以一种真正企业友好的简化方式 。但最初我们没有将它开源 。
接下来,我们想:“如果拓宽数据库的用途 , 不仅仅是数据科学家和机器学习工程师,而是真正广泛的用例,应该怎么做? ”这就是我们开始重视商业分析师的原因 。
商业分析师习惯于像Tableau那样的操作软件 。如果他们想做一些更复杂的事情,只能使用SQL 。因此 , 我们在四年前开始致力于构建数据仓库能力 , 把它建立在我们称为Lakehouse的核心基础设施中,然后在前年较大规模的推广 。
我们的秘诀是:看企业的问题,弄清楚那是什么,通过实际的客户问题来深入了解它,把问题带回来,解决这个问题,在云中与客户快速迭代 。一旦它有了产品的市场适应性,就把它开放出来 。建立巨大的开源势头,几乎像一个B2C病毒式的形式 。然后,用基于云的SaaS版本将其变现 。
这是受AWS的启发,当创立Databricks时,我们认为AWS是地球上最好的云计算开源公司 。他们本身不进行开发,其盈利模式基于开源软件 , 托管它并在上面赚很多钱 。我们只是在这一点上进行了调整和演变 。我们认为:“这是一个伟大的商业模式 。我们将在云上托管开源软件 。但不同的是,我们将自己创建开源软件 。这样一来,就获得了相对于其他任何想做同样事情的人的竞争优势 。” 否则 , 任何人都可以建立任何开源软件并在云中托管它 。
Matt Turck: 接下来 , 让我们从Lakehouse开始 , 了解一下数据湖和数据仓库的演变,以及Lakehouse是如何在这两个领域中取得最好的成绩 。
Ali Ghodsi:这很简单 。人们在数据湖里存储所有的数据:数据集,视频、音频、随机文本 , 这既迅速又便宜 。利用各种各样的数据集,你可以基于数据湖进行AI创新 , AI与数据湖密切相关 。如果你想做BI , 而不是AI,你就使用数据仓库 , 数据仓库和BI有一个单独的技术堆栈,但是它其实和AI一样,有很多同样的数据集 。
BI用于回答过去的问题 , 比如上个季度的收入是多少;AI用来问关于未来的问题,哪些客户将会回来?所以,这意味着需要两个独立的堆栈,你必须有两个数据副本,而且你必须管理它们 , 这造成了很多复杂性 。但当年的FAANG(硅谷几个顶尖互联网巨头的联合简称)可不是这样做的,他们有一个统一的平台 。所以,我们的想法是把这两个统一成一个平台―Lakehouse、人工智能数据湖–提出关于未来的问题 。这两者的结合将使企业能够更快地发展 。它是数据工程师、数据科学家和商业分析师的平台,这样他们就可以在整个企业内一起工作 。所以这是一个用于AI和BI的数据平台 。
Matt Turck: 实现这一点靠的是什么重大的技术突破么?是Delta Lake?还是Iceberg?那是如何工作的?
Ali Ghodsi:是的,我认为有四个技术突破是在2016、2017年同时发生的 , Hudi、Hive ACID、Iceberg、Delta Lake,我们贡献的是Delta Lake 。问题是这样的,在数据湖里有人们收集了所有的数据,这些数据非常有价值,但很难对它们进行结构化查询 。之前的传统方式是利用SQL数据库,然后应用在BI领域 。因此,你需要一个单独的数据仓库 。
为什么这么难?因为数据湖是为大数据、大数据集建立的,它并不是为真正的快速查询而建立的 。它太慢了,而且没有任何方法来结构化数据,并以表格的形式展现数据,这就是问题所在 。那么,你如何把像一个大的数据块存储的东西,变成一个数据仓库?这就是这些项目的秘诀 。我们找出了解决这些数据湖效率低下的方法,并使用户能够直接从数据湖的数据仓库中获得相同的价值 。
Matt Turck: 这种方法有什么取舍吗?
Ali Ghodsi:事实上并非如此,我们做到了鱼与熊掌可以兼得 。我知道这听起来很疯狂,但试试就是如此 。我们减少了很多在80、90年代由数据仓库供应商发明的技术,调整它们,使它们在数据湖上工作 。你可以问:“为什么这在10或15年前没有发生? ”因为开放标准的生态系统并不存在,它是随着时间的推移慢慢出现的 。所以,它从数据湖开始,然后有一个很大的实际技术先导突破 。我们在这里谈论的,是数据的标准化格式 。他们被称为Parquet和ORC,但这些是数据格式 , 行业要将所有的数据集标准化 。
这些类型的标准化步骤是需要的,以获得数据湖的突破 。这有点像USB,一旦你有了它 , 你就可以把任何两个设备相互连接起来 。所以 , 正在发生的事情是,开源领域的一个生态系统正在出现,在那里你可以在数据湖的范式中做所有的分析 。最终,你将不需要所有这些自八十年代以来的专有旧系统,包括数据仓库和其他类似系统 。
Matt Turck: 我会针对这个再问问题 , 业界有很多关于Snowflake和Databricks之间即将发生大冲突的议论,作为这个领域的两个巨大的公司 , 你对未来的看法是,数据湖最终成为范式,然后随着时间的推移,其他一切都被吸收?还是你认为未来更多的是混合,用户可以用数据仓库做某些事情,数据湖做其他事情?
Ali Ghodsi:我将从两个方面回答这个问题 。首先 , 人们把这说成是零和博弈 , 但你认为谷歌云会淘汰AWS和微软云,还是AWS会淘汰其他云?没有人这么认为,对吧 。他们会共存,都将获得成功 。
数据空间是巨大的 。将会有很多供应商参与其中 。我认为Snowflake将获得成功,他们现在有一个伟大的数据仓库,可能是市场上最好的数据仓库 。而它肯定会与Databricks共存 。事实上,Databricks与Snowflake共存于可能70%的客户中 。我认为这种情况将继续存在,人们将使用数据仓库进行商业智能 。
但是,如果长期来看,我认为数据湖的范式将获胜 。为什么?因为数据太重要了,人们所有的数据都在这些数据湖中,而且更多的数据正在进入数据湖中 。公有云计算供应商也有动力推动更多的动力让人们把数据存到他们的数据湖中,因为这对他们来说是既得利益 。因此,任何使其真正有价值的解决方案 , 都将是未来的趋势 。所以,我认为从长远来看,越来越多的人将倾向于这种数据湖的范式 。
为什么Databricks能够不断产出创新产品?
Matt Turck: 我想了解你的产品和工程团队是如何组织的?对于一家公司,能够在第一个产品成功的基础上做第二个产品是非常罕见的 。但在这里,我们正在谈论,如何成功的做出三个、四个、五个不同的产品 。你的公司是如何管理好团队组织结构和其他资源,以不断创新?
Ali Ghodsi:我们从创立Databricks时,就在试图找到这个问题的答案 。我们不想靠一个单一的产品生存 。当我们有了Spark,却并没有把它当成公司的名字,因为如果Spark变得落后了,我们就会把它迭代掉,然后继续向前,我们想不断找到数据的最佳答案 。那么如何不断的有创新产品出现?我认为非常重要的是,要把创新和现有的现金流业务分开 。
有一本关于这个问题的好书 , 叫Zone To Win 。书中谈到 , 当你创造出一些新东西时,你需要快速迭代 。你需要让工程师直接与客户交谈,甚至不一定要让产品经理来做,快速的创新迭代是最要紧的 。而在在企业端,你需要一个慢得多的周期来迭代 。
另外,所有的工程和产品团队组织被分成两个不同的部分 。一部分专注于企业客户需要的东西:加密,安全,认证,稳定性等 。另一部分则专注于创新,而且你应该把这些分开,分别的投入资源,否则前者(企业那部分)将得到所有的资源 。你会倾向于不断地建立那些扩大你的TAM的东西 。TAM扩展实际上是安全能力,它本身并没有任何创新 。
我认为,有些公司已经做得很好了,比如AWS,它不是一招鲜,亚马逊本身也不是一招鲜,它不断有新的创新 。所以我们希望我们的公司也是这样的,因此取名为Databricks 。
Matt Turck: MLflow Delta Lake, Koalas 。这属于创新阵营还是商业阵营的子层?
Ali Ghodsi:这些都是创新阵营 。当然,其中一些项目,当他们不那么创新的时候,像Spark,会转移到维护方面,我们通常也会移动核心人员 。因此,实际上是同一个人或同一拨人在不断地进行创新 。我们试图培养更多的创新者,但我们试图把那种已经真正有诀窍破解从0到1的人转移到下一个问题,然后把现有的项目移交给其他人去运行,比方说Spark , 这已经是一个巨大的成功项目 。
当我们把已经创造出东西的人转移到别的地方去创造下一个东西,对于一个优秀人才 , 获得这种责任是一个很大的职业提升 。而我们也会发现谁是擅长从0到1人 。我们实际上是在做实验,给研发部门的人一个机会去试验从0到1的东西,他们并不总是成功 。这需要几次尝试,直到他们成为真正擅长的人 。所以你必须慎重考虑这种高失败的策略 。
开源的商业模式,有何优越性?
Matt Turck: 如果你今天要再开一家企业软件公司 , 你会先去开源代码吗?
Ali Ghodsi:是的,我认为它很优越 。我认为如果你从进化的角度来考虑,它在进化上比以前的商业模式要好 。为什么我这么说?因为任何专有的软件公司都是成熟的,可以被开源的竞争者破坏 。因此,任何专有的东西都可以立即被颠覆,就像Windows被Linux颠覆一样 。我的意思是,那是最先进的东西,是真正复杂的技术操作系统,对吗?你不会认为大学里的某个家伙会发明,然后成为工业的标准 。任何专有软件都是成熟的 , 可以进行这样的颠覆 。问题是,你能靠它赚钱吗?在红帽和所有这些做支持网络服务的公司之前,这真的很难,直到AWS破解了商业模式的密码 。
商业模式是我们为你运行软件,你从我们这里租用它 。这是一个优越的商业模式,因为你实际上可以拥有大量的IP,这是很难复制的 。所以我认为我创办的下一家公司将是这样的 。如果你要问我,我的下一次创业会在哪个领域开始 , 我会在人工智能方面做什么?我会认为我们现在在人工智能方面的应用还很浅层 , 尤其是操作性的人工智能 。人工智能未来将会被嵌入到各个地方 。我知道这很老套 。马克?安德森说 , 软件正在吞噬世界 。我们真的相信,人工智能将吞噬所有的软件 。你拥有的任何软件,人工智能都会悄悄进入,就像软件悄悄进入你的 汽车 、冰箱和恒温器一样 。所以这真的是早期的事情,我认为任何加入或创办人工智能领域公司的人,他们还在早期,他们有机会创办下一个谷歌 。所以这就是我想做的 。
Matt Turck: 我们谈到了开源,也继续谈进入市场的问题 , 在这个阶段 , 作为一个非常晚期的创业公司 。开源在进入市场的过程中处于什么位置?你们进入市场的策略是自下而上与自上而下?你们如何分配BDR小组与AE的工作 , 让他们协作而不是互相拖后腿?
Ali Ghodsi:Databricks是混合模式 , 我们是自下而上与自上而下在同一时间结合 。一开始我们是自下而上,但是也会做自上而下的事情 。我们有BDRs和SDRs 。这是一个从市场营销开始的筛选器 。
Databricks社区版是完全免费的,你想怎么用就怎么用,永远不需要付钱,而且有完整的功能 。但是从这里产生的线索会导入到SDR 。因此,这也是一个非常重要的管道 。我们一半的线索来自于此,这就是为什么开源对我们是一个重要的引擎 。
现在,我们也有传统的企业销售动作,比如给CIO递名片 , 一对一的交流,但发生的情况是 , 开发人员在这些组织中也变得越来越强大 。例如,CIO说,我与Databricks的CEO进行了一次很好的谈话,我正在 探索 这项技术,但我担心,这对我们来说是正确的选择吗?那家公司的听众中会有人说,是的,我使用社区版 。我们不需要做6个月的POC 。我认识这些人 , 他们真的非常好 , 或者我认识他们,他们来自伯克利 。我已经使用了这些技术 。我去参加了一些聚会等 。
因此,这有助于证实用例,你可以消除整个POC,因为他们已经知道它是什么,而不是像10-20年前那样,一个销售人员进来,解释这个软件有多棒,但你不能相信他们 。因此你就必须去做POC,然后去花时间检验这个软件是不是真的有用 。我们不必这样做,我们可以穿过所有这些层次 。因此,我们把自上而下和自下而上结合起来,而这两方面对于Databricks的成功都是非常必要的 。
从创业公司到超级独角兽,
领导者的修炼之路
Matt Turck: 你已经把一家小型创业公司带成了超级独角兽,很快还会上市 。你是如何让自己完成角色转变的,从一个讲愿景,讲故事的人 , 变成管理一个全球组织?
Ali Ghodsi:其实就是如何找到你可以信任的具有领导力的帮手,并和他们建立更深的信任 。我可以把我大部分时间都花在这上面,而公司能够继续正常运行 。我有运行良好的销售团队,市场营销团队 , 工程团队,我却不需要自己直接参与其中,因为我找到了适合领导这些部门的领导者 , 并且花了很多时间与他们建立起信任 。
这是你在早期就要开始准备的事情,早期时,你的组织规模?。?你可以参与到每个环节,如臂使指 。但是当团队规模扩展到150-200人直到超过邓巴数 。你会感觉自己完全被淹没了 。因此你必须找到可以信任的正确的领导人,而且要找到自己与组织沟通的方法,因为现在不是直接沟通,而是通过领导层间接沟通,所以帮助你与团队组织沟通的人就特别重要 。
Matt Turck: 你如何找到他们?你是偏向在内部提拔人才,还是从外部引入已经获得成功的高管,哪一个效果更好?你是如何处理的?
Ali Ghodsi:要找到与公司文化相适应的、你能与之建立强大信任的高管是非常困难的,我认为不应该排除任何选项 。如果能够从内部提拔人 , 那很好,但是如果只是内部晋升,你就不能获得市场上已经存在的成功经验,这种经验可能是超级有价值的 。
如果我们寻找外部的高管,他必须经历过我们现在所处的阶段,有实战的经验 。不是说他必须从零开始创建一个估值几百亿的公司,而是建立和操作过这种阶段公司的工程等相应部门,他是否在这个过程中有第一性思考,有自己的沉淀 。我认为能力和智商还是非常重要的 。
文化看起来是个很复杂的东西,但是对与我,会把它分解成一连串问题:我可以和这个人相处吗?愿意每天花10个小时和他在一起工作么?当事情变得非常棘手和困难的时候,我们能一起去解决问题么?所以你要做的就是花大量时间与这个人相处,然后问自己是否喜欢他们 , 就像婚姻一样 。你可以问他们一些困难的问题,与他们争论或者听取他们的意见,直到确定这就是正确的人 。如果你感觉到自己无法和某个人一起好好工作,那他就可能是文化不匹配 。
本文编译整理自Matt Turck个人博客 , 略有删节 。
关于阿尔法公社
阿尔法公社(Alpha Startup Fund)是中国领先的早期投资基金,由曾带领公司在纳斯达克上市的许四清和前创新工场联合管理合伙人蒋亚萌在2015年共同创立 。
阿尔法公社基金的三大特点是系统化投资、社交化创业者社区运营和重度产业资源加速成长 。专注在半导体、企业服务软件、人工智能应用、物联网技术、金融 科技 等 科技 创新领域进行早期投资 。目前已经在天使轮投资了包括白山云 科技 、领创集团(Advance Intelligence Group)、Zenlayer、帷幄 科技 、所思 科技 等为数众多的优秀项目 。
文章插图
文章插图
5、数据中台由什么组成?“数据中台”重构了企业数据系统的架构,将其分为三个层级:底层底层是数据收集层,就是数据湖,来自ERP、SRM等各个信息化系统中的业务数据、财务数据、大数据 , 结构化和非结构化数据直接汇入这层数据湖中,实现统一、集中的数据收集 。核心层中间的核心层是数据存储与计算层,核心是通过数据建模,形成服务化的数据应用 。数据模型可以分为基础模型、融合模型和挖掘模型 。基础模型一般是关系建模,主要实现数据的标准化;融合模型一般是维度建模 , 主要实现跨越数据的整合 , 整合的形式可以是汇总、关联、解析;挖掘模型是偏应用的模型,作为企业的知识沉淀在中台内,可在数据应用端调取进行复用 。上层上层是业务应用层,聚焦于对数据的应用和展现,核心层的数据模型可以共享到这个层级中并实现复用 , 赋能企业业务发展 。数据应用通过将数据融入企业具体的业务经营场景中,基于丰富的数据模型开展场景化应用,用数据解决具体的业务问题 , 具体应用包括产销协同分析、投资分析、产品定价、商品推荐、客户画像等,数据展现聚焦于以多样化的形式展现数据分析应用的结果,这些形式包括管理驾驶舱、即席分析、自助报告、数据大屏、移动APP等 , 系统可以根据不同用户在不同场景下的需求调整合适的展现方式 。
楼上讲的是比较大的维度,给你举个例子吧,像WakeData的数据中台惟客通是包含了大数据、流计算、数据接入、数据开发、数据治理、机器学习六大平台 , 在这些平台的基础上提供了自主分析、用户画像平台、开放服务以及智能推荐等数据应用服务 。
【什么是数据湖,数据湖和数据仓库的区别是什么?】数据中台其实是一个数据运转站,它包含了大数据平台、数据处理工具和数据应用三个层面的系统、产品和服务 。
经验总结扩展阅读
- 为什么喜欢熬夜,现在的人为什么喜欢熬夜?
- 雪纺是什么面料,雪纺指的是什么面料
- 为什么泰国人妖活不长,泰国人妖为什么一般活不过五十岁?
- 鱼是怎么繁殖的,鱼类的繁殖方式有哪些?
- 面包做的不松软为什么,做面包不蓬松的原因 做面包不蓬松是为什么
- 暗物质科学卫星叫什么,揭秘|“悟空”号卫星太空“延寿”,离不开地上的“大管家”
- 和田青玉和沙枣青的区别,和田玉沙枣好还是踏青好
- 地球旁边是什么星,离地球最近的行星是什么
- 延安在哪个省哪个市哪个县,延安是哪个省的啊?
- 科普宣传室放什么,科普宣传包括哪些内容