linux如何安装hadoop

163次阅读

没有评论

共计 3365 个字符，预计需要花费 9 分钟才能阅读完成。

这篇文章主要讲解了“linux 如何安装 hadoop”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着丸趣 TV 小编的思路慢慢深入，一起来研究和学习“linux 如何安装 hadoop”吧！

linux 安装 hadoop 的方法：1、安装 ssh 服务；2、使用 ssh 进行无密码验证登录；3、下载 Hadoop 安装包；4、解压缩 Hadoop 安装包；5、配置 Hadoop 中相应的文件即可。

本文操作环境：ubuntu 16.04 系统、Hadoop2.7.1 版、Dell G3 电脑。

linux 怎么安装 hadoop？

【大数据】Linux 下安装 Hadoop(2.7.1) 详解及 WordCount 运行

一、引言

在完成了 Storm 的环境配置之后，想着鼓捣一下 Hadoop 的安装，网上面的教程好多，但是没有一个特别切合的，所以在安装的过程中还是遇到了很多的麻烦，并且最后不断的查阅资料，终于解决了问题，感觉还是很好的，下面废话不多说，开始进入正题。

本机器的配置环境如下：

Hadoop(2.7.1)

Ubuntu Linux(64 位系统)

下面分为几个步骤来详解配置过程。

二、安装 ssh 服务

进入 shell 命令，输入如下命令，查看是否已经安装好 ssh 服务，若没有，则使用如下命令进行安装：

sudo apt-get install ssh openssh-server

安装过程还是比较轻松加愉快的。

三、使用 ssh 进行无密码验证登录

1. 创建 ssh-key，这里我们采用 rsa 方式，使用如下命令：

ssh-keygen -t rsa -P

2. 出现一个图形，出现的图形就是密码，不用管它

cat ~/.ssh/id_rsa.pub authorized_keys(好像是可以省略的)

3. 然后即可无密码验证登录了，如下：

ssh localhost

成功截图如下：

四、下载 Hadoop 安装包

下载 Hadoop 安装也有两种方式

1. 直接上官网进行下载，http://mirrors.hust.edu.cn/apache/hadoop/core/stable/hadoop-2.7.1.tar.gz

2. 使用 shell 进行下载，命令如下：

wget http://mirrors.hust.edu.cn/apache/hadoop/core/stable/hadoop-2.7.1.tar.gz

貌似第二种的方法要快点，经过漫长的等待，终于下载完成。

五、解压缩 Hadoop 安装包

使用如下命令解压缩 Hadoop 安装包

tar -zxvf hadoop-2.7.1.tar.gz

解压缩完成后出现 hadoop2.7.1 的文件夹

六、配置 Hadoop 中相应的文件

需要配置的文件如下，hadoop-env.sh，core-site.xml，mapred-site.xml.template，hdfs-site.xml，所有的文件均位于 hadoop2.7.1/etc/hadoop 下面，具体需要的配置如下：

1.core-site.xml 配置如下：

configuration 
 property 
 name hadoop.tmp.dir /name 
 value file:/home/leesf/program/hadoop/tmp /value 
 description Abase for other temporary directories. /description 
 /property 
 property 
 name fs.defaultFS /name 
 value hdfs://localhost:9000 /value 
 /property 
 /configuration

其中的 hadoop.tmp.dir 的路径可以根据自己的习惯进行设置。

2.mapred-site.xml.template 配置如下：

configuration 
 property 
 name mapred.job.tracker /name 
 value localhost:9001 /value 
 /property 
 /configuration

3.hdfs-site.xml 配置如下：

configuration 
 property 
 name dfs.replication /name 
 value 1 /value 
 /property 
 property 
 name dfs.namenode.name.dir /name 
 value file:/home/leesf/program/hadoop/tmp/dfs/name /value 
 /property 
 property 
 name dfs.datanode.data.dir /name 
 value file:/home/leesf/program/hadoop/tmp/dfs/data /value 
 /property 
 /configuration

其中 dfs.namenode.name.dir 和 dfs.datanode.data.dir 的路径可以自由设置，最好在 hadoop.tmp.dir 的目录下面。

补充，如果运行 Hadoop 的时候发现找不到 jdk，可以直接将 jdk 的路径放置在 hadoop.env.sh 里面，具体如下：

export JAVA_HOME= /home/leesf/program/java/jdk1.8.0_60

七、运行 Hadoop

在配置完成后，运行 hadoop。

1. 初始化 HDFS 系统

在 hadop2.7.1 目录下使用如下命令：

bin/hdfs namenode -format

截图如下：

过程需要进行 ssh 验证，之前已经登录了，所以初始化过程之间键入 y 即可。

成功的截图如下：

表示已经初始化完成。

2. 开启 NameNode 和 DataNode 守护进程

使用如下命令开启：

sbin/start-dfs.sh，成功的截图如下：

3. 查看进程信息

使用如下命令查看进程信息

jps，截图如下：

表示数据 DataNode 和 NameNode 都已经开启

4. 查看 Web UI

在浏览器中输入 http://localhost:50070，即可查看相关信息，截图如下：

至此，hadoop 的环境就已经搭建好了。下面开始使用 hadoop 来运行一个 WordCount 例子。

八、运行 WordCount Demo

1. 在本地新建一个文件，笔者在 home/leesf 目录下新建了一个 words 文档，里面的内容可以随便填写。

2. 在 HDFS 中新建一个文件夹，用于上传本地的 words 文档，在 hadoop2.7.1 目录下输入如下命令：

bin/hdfs dfs -mkdir /test，表示在 hdfs 的根目录下建立了一个 test 目录

使用如下命令可以查看 HDFS 根目录下的目录结构

bin/hdfs dfs -ls /

具体截图如下：

表示在 HDFS 的根目录下已经建立了一个 test 目录

3. 将本地 words 文档上传到 test 目录中

使用如下命令进行上传操作：

bin/hdfs dfs -put /home/leesf/words /test/

使用如下命令进行查看

bin/hdfs dfs -ls /test/

结果截图如下：

表示已经将本地的 words 文档上传到了 test 目录下了。

4. 运行 wordcount

使用如下命令运行 wordcount：

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /test/words /test/out

截图如下：

运行完成后，在 /test 目录下生成名为 out 的文件，使用如下命令查看 /test 目录下的文件

bin/hdfs dfs -ls /test

截图如下：

表示在 test 目录下已经有了一个名为 Out 的文件目录

输入如下命令查看 out 目录下的文件：

bin/hdfs dfs -ls /test/out，结果截图如下：

表示已经成功运行了，结果保存在 part-r-00000 中。

5. 查看运行结果

使用如下命令查看运行结果：

bin/hadoop fs -cat /test/out/part-r-00000

结果截图如下：

至此，运行过程就已经完成了。

感谢各位的阅读，以上就是“linux 如何安装 hadoop”的内容了，经过本文的学习后，相信大家对 linux 如何安装 hadoop 这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是丸趣 TV，丸趣 TV 小编将为大家推送更多相关知识点的文章，欢迎关注！

正文完

发表至：计算机运维

2023-08-16

转载说明：除特殊说明外本站除技术相关以外文章皆由网络搜集发布，转载请注明出处。

win8专业版系统如何激活

Docker容器间通信的三种方式分别是什么

Windows10怎么修复损坏的cbs.log

如何理解Neutron Vlan Network 原理

为什么需要PowerShell