Spark基本知识( 二 ) _生活百科

而Spark 提供了一站式的统一解决方案，可用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）等。这些不同类型的处理都可以在同一个应用中无缝组合使用。

Scalable(兼容性)Spark 可以非常方便地与其他的开源产品进行融合。比如：Spark 可以使用 Hadoop 的 YARN 和 Apache Mesos 作为它的资源管理和调度器；可以处理所有 Hadoop 支持的数据，包括 HDFS、HBase 和 Cassandra 等。

Spark运行模式运行模式运行类型说明Local本地模式常用于本地开发，分为Local单线程和Local-Cluster多线程模式Standalone集群模式独立模式，在Spark自己的资源调度管理框架上运行，该框架采用master/salve结构ON YARN集群模式用于生产环境，在YARN资源管理器框架上运行，由YARN负责资源管理，Spark负责任务调度和计算ON Mesos集群模式用于生产环境，在Mesos资源管理器框架上运行，由Mesos责资源管理，Spark负责任务调度和计算ON Cloud集群模式运行在AWS、阿里云等环境?
Spark核心模块

文章插图
Spark Core
Spark Core 中提供了 Spark 最基础与最核心的功能，Spark 其他的功能如：Spark SQL，
Spark Streaming，GraphX, MLlib 都是在 Spark Core 的基础上进行扩展的
Spark SQL
Spark SQL 是 Spark 用来操作结构化数据的组件。通过 Spark SQL，用户可以使用 SQL
或者 Apache Hive 版本的 SQL 方言（HQL）来查询数据。
Spark Streaming
Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件，提供了丰富的处理
数据流的 API 。
Spark MLlib
MLlib 是 Spark 提供的一个机器学习算法库。MLlib 不仅提供了模型评估、数据导入等
额外的功能，还提供了一些更底层的机器学习原语。
Spark GraphX
GraphX 是 Spark 面向图计算提供的框架与算法库。