而Spark 提供了一站式的统一解决方案,可用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)等 。这些不同类型的处理都可以在同一个应用中无缝组合使用 。
- Scalable(兼容性)Spark 可以非常方便地与其他的开源产品进行融合 。比如:Spark 可以使用 Hadoop 的 YARN 和 Apache Mesos 作为它的资源管理和调度器;可以处理所有 Hadoop 支持的数据,包括 HDFS、HBase 和 Cassandra 等 。
Spark核心模块
文章插图
Spark Core
Spark Core 中提供了 Spark 最基础与最核心的功能,Spark 其他的功能如:Spark SQL,
Spark Streaming,GraphX, MLlib 都是在 Spark Core 的基础上进行扩展的
Spark SQL
Spark SQL 是 Spark 用来操作结构化数据的组件 。通过 Spark SQL,用户可以使用 SQL
或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据 。
Spark Streaming
Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理
数据流的 API 。
Spark MLlib
MLlib 是 Spark 提供的一个机器学习算法库 。MLlib 不仅提供了模型评估、数据导入等
额外的功能,还提供了一些更底层的机器学习原语 。
Spark GraphX
GraphX 是 Spark 面向图计算提供的框架与算法库 。
经验总结扩展阅读
- 钻石的基本知识
- 奶粉配方的基本知识
- 地球仪的基本知识
- 玉石的基本知识
- 日常检查维护基本知识是什么
- 六大茶类基本知识
- 食品安全常识基本知识
- 我国禁毒的基本知识治本之策是什么
- F1的基本知识
- 汽车操作基本知识有哪些?