Spark基本知识

Spark基本知识Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎 。
spark与hadoop的区别Hadoop

  • Hadoop 是由 java 语言编写的,在分布式服务器集群上存储海量数据并运行分布式
分析应用的开源框架
  • 作为 Hadoop 分布式文件系统,HDFS 处于 Hadoop 生态圈的最下层,存储着所有
的 数 据,支 持 着 Hadoop 的 所 有 服 务。它 的 理 论 基 础 源 于 Google 的
TheGoogleFileSystem 这篇论文,它是 GFS 的开源实现 。
  • MapReduce 是一种编程模型,Hadoop 根据 Google 的 MapReduce 论文将其实现,
作为 Hadoop 的分布式计算模型,是 Hadoop 的核心 。基于这个框架,分布式并行
程序的编写变得异常简单 。综合了 HDFS 的分布式存储和 MapReduce 的分布式计
算,Hadoop 在处理海量数据时,性能横向扩展变得非常容易 。
  • HBase 是对 Google 的 Bigtable 的开源实现,但又和 Bigtable 存在许多不同之处 。
HBase 是一个基于 HDFS 的分布式数据库,擅长实时地随机读/写超大规模数据集 。
【Spark基本知识】它也是 Hadoop 非常重要的组件 。
Spark
  • Spark 是一种由 Scala 语言开发的快速、通用、可扩展的大数据分析引擎
  • Spark Core 中提供了 Spark 最基础与最核心的功能
  • Spark SQL 是 Spark 用来操作结构化数据的组件 。通过 Spark SQL,用户可以使用
SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据 。
  • Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的
处理数据流的 API 。
Spark的四大特性
  • Simple(易用性)Spark 提供了丰富的高级运算操作,支持丰富的算子,并支持 Java、Python、Scala、R、SQL 等语言的 API,使用户可以快速构建不同的应用 。
开发人员只需调用 Spark 封装好的 API 来实现即可,无需关注 Spark 的底层架构 。