Spark基本知识( 二 )

而Spark 提供了一站式的统一解决方案,可用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)等 。这些不同类型的处理都可以在同一个应用中无缝组合使用 。

  • Scalable(兼容性)Spark 可以非常方便地与其他的开源产品进行融合 。比如:Spark 可以使用 Hadoop 的 YARN 和 Apache Mesos 作为它的资源管理和调度器;可以处理所有 Hadoop 支持的数据,包括 HDFS、HBase 和 Cassandra 等 。
Spark运行模式运行模式运行类型说明Local本地模式常用于本地开发,分为Local单线程和Local-Cluster多线程模式Standalone集群模式独立模式,在Spark自己的资源调度管理框架上运行,该框架采用master/salve结构ON YARN集群模式用于生产环境,在YARN资源管理器框架上运行,由YARN负责资源管理,Spark负责任务调度和计算ON Mesos集群模式用于生产环境,在Mesos资源管理器框架上运行,由Mesos责资源管理,Spark负责任务调度和计算ON Cloud集群模式运行在AWS、阿里云等环境?
Spark核心模块
Spark基本知识

文章插图
Spark Core
Spark Core 中提供了 Spark 最基础与最核心的功能,Spark 其他的功能如:Spark SQL,
Spark Streaming,GraphX, MLlib 都是在 Spark Core 的基础上进行扩展的
Spark SQL
Spark SQL 是 Spark 用来操作结构化数据的组件 。通过 Spark SQL,用户可以使用 SQL
或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据 。
Spark Streaming
Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理
数据流的 API 。
Spark MLlib
MLlib 是 Spark 提供的一个机器学习算法库 。MLlib 不仅提供了模型评估、数据导入等
额外的功能,还提供了一些更底层的机器学习原语 。
Spark GraphX
GraphX 是 Spark 面向图计算提供的框架与算法库 。

经验总结扩展阅读