Spark简单介绍，Windows下安装Scala+Hadoop+Spark运行环境，集成到IDEA中 _生活百科

一、前言近几年大数据是异常的火爆，今天小编以java开发的身份来会会大数据，提高一下自己的层面！大数据技术也是有很多：

Hadoop
Spark
Flink

小编也只知道这些了，由于Hadoop，存在一定的缺陷（循环迭代式数据流处理：多并行运行的数据可复用场景效率不行）。所以Spark出来了，一匹黑马，8个月的时间从加入 Apache，直接成为顶级项目！！
选择Spark的主要原因是：

Spark和Hadoop的根本差异是多个作业之间的数据通信问题 : Spark多个作业之间数据通信是基于内存，而 Hadoop 是基于磁盘。

二、Spark介绍官网地址
Spark 是用于大规模数据处理的统一分析引擎 。它提供了 Scala、Java、Python 和 R 中的高级 API，以及支持用于数据分析的通用计算图的优化引擎。它还支持一组丰富的高级工具，包括用于 SQL 和 DataFrames 的 Spark SQL、用于 Pandas 工作负载的 Spark 上的 Pandas API、用于机器学习的 MLlib、用于图形处理的 GraphX 和用于流处理的结构化流。
spark是使用Scala语言开发的，所以使用Scala更好！！
三、下载安装1. Scala下载Scala官网
点击安装

Spark简单介绍，Windows下安装Scala+Hadoop+Spark运行环境，集成到IDEA中

文章插图
下载自己需要的版本

文章插图
点击自己需要的版本：小编这里下载的是2.12.11
点击下载Windows二进制：

文章插图
慢的话可以使用迅雷下载！
2. 安装安装就是下一步下一步，记住安装目录不要有空格，不然会报错的！！！
3. 测试安装win+R输入cmd：输入：
scala必须要有JDK环境哈，这个学大数据基本都有哈！！

文章插图
4. Hadoop下载一个小技巧：Hadoop和Spark版本需要一致，我们先去看看spark，他上面名字就带着和他配套的Hadoop版本！！
spark3.0对照

文章插图
得出我们下载Hadoop的版本为：3.2
Hadoop下载地址

文章插图
5. 解压配置环境解压到即可使用，为了使用方便，要想jdk一样配置一下环境变量！
新建HADOOP_HOME值为安装目录：D:\software\hadoop-3.2.1在Path里添加：%HADOOP_HOME%\bin
cmd输入：hadoop：提示
系统找不到指定的路径。Error: JAVA_HOME is incorrectly set.这里先不用管，咱们只需要Hadoop的环境即可！
6. 下载SparkSpark官网
点击找到历史版本：

文章插图
点击下载：

文章插图
7. 解压环境配置新建：SPARK_HOME：D:\spark\spark-3.3.1-bin-hadoop3Path添加：%SPARK_HOME%\bin
8. 测试安装【Spark简单介绍，Windows下安装Scala+Hadoop+Spark运行环境，集成到IDEA中】win+R输入cmd：输入：
spark-shell