windows eclipse如何搭建spark开发环境

66次阅读
没有评论

共计 2222 个字符,预计需要花费 6 分钟才能阅读完成。

这篇文章将为大家详细讲解有关 windows eclipse 如何搭建 spark 开发环境,丸趣 TV 小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。

1、Java 下 Spark 开发环境搭建

1.1、jdk 安装

安装 oracle 下的 jdk,我安装的是 jdk 1.7,安装完新建系统环境变量 JAVA_HOME,变量值为“C:\Program Files\Java\jdk1.7.0_79”,视自己安装路劲而定。

同时在系统变量 Path 下添加 C:\Program Files\Java\jdk1.7.0_79\bin 和 C:\Program Files\Java\jre7\bin。

1.2 spark 环境变量配置

去 http://spark.apache.org/downloads.html 网站下载相应 hadoop 对应的版本,我下载的是 spark-1.6.0-bin-hadoop2.6.tgz,spark 版本是 1.6,对应的 hadoop 版本是 2.6

解压下载的文件,假设解压 目录为:D:\spark-1.6.0-bin-hadoop2.6。将 D:\spark-1.6.0-bin-hadoop2.6\bin 添加到系统 Path 变量,同时新建 SPARK_HOME 变量,变量值为:D:\spark-1.6.0-bin-hadoop2.6

1.3 hadoop 工具包安装

spark 是基于 hadoop 之上的,运行过程中会调用相关 hadoop 库,如果没配置相关 hadoop 运行环境,会提示相关出错信息,虽然也不影响运行,但是这里还是把 hadoop 相关库也配置好吧。

1.3.1 去下载 hadoop 2.6,我下载的是 hadoop-2.6.0.tar.gz,

1.3.2 解压下载的文件夹,将相关库添加到系统 Path 变量中:D:\hadoop-2.6.0\bin;同时新建 HADOOP_HOME 变量,变量值为:D:\hadoop-2.6.0,下载 winutils 的 windows 版本,将 winutils.exe 加入你的 hadoop-x.x.x/bin 下,把 hadoop.dll 放入从 C:/wondwos/system32 下面。

1.4 eclipse 环境

直接新建 java 工程,将 D:\spark-1.6.0-bin-hadoop2.6\lib 下的 spark-assembly-1.6.0-hadoop2.6.0.jar 添加到工程中就可以了。

2、Python 下 Spark 开发环境搭建

2.1 安装 python, 并添加到系统变量 path 中:C:\Python27 和 C:\Python27\Scripts

2.2 重复 1.2 和 1.3 步骤

2.3 将 spark 目录下的 pyspark 文件夹(D:\spark-1.6.0-bin-hadoop2.6\python\pyspark)复制到 python 安装目录 C:\Python27\Lib\site-packages 里

2.4 在 cmd 命令行下运行 pip install py4j(首先得安装了 pip)安装相关库。

注意:我们在配置好环境变量后,在 eclipse 里进行编程,拿 python 为例,会报错:

File  test.py , line 10, in  module 
 conf=(SparkConf().setMaster(local).setAppName(a).setSparkHome(/home/dirk/spark-1.4.1-bin-hadoop2.6/bin))
 File  /home/dirk/spark-1.4.1-bin-hadoop2.6/python/pyspark/conf.py , line 104, in __init__
 SparkContext._ensure_initialized()
 File  /home/dirk/spark-1.4.1-bin-hadoop2.6/python/pyspark/context.py , line 229, in _ensure_initialized
 SparkContext._gateway = gateway or launch_gateway()
 File  /home/dirk/spark-1.4.1-bin-hadoop2.6/python/pyspark/java_gateway.py , line 48, in launch_gateway
 SPARK_HOME = os.environ[SPARK_HOME]
 File  /usr/lib/python2.7/UserDict.py , line 23, in __getitem__
 raise KeyError(key)
KeyError:  SPARK_HOME

这是因为 eclipse 并没有获取到配置的环境变量,我们可以通过

print os.getenv(SPARK_HOME)

检验,这时候我们重启电脑就可以了;如果不想重启电脑,我们可以通过

os.environ [SPARK_HOME] = /home/dirk/spark-1.4.1-bin-hadoop2.6

手动设置 SPARK_HOME,这样我们的程序就可以正常运行了。

关于“windows eclipse 如何搭建 spark 开发环境”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。

正文完
 
丸趣
版权声明:本站原创文章,由 丸趣 2023-08-25发表,共计2222字。
转载说明:除特殊说明外本站除技术相关以外文章皆由网络搜集发布,转载请注明出处。
评论(没有评论)