Ubuntu如何搭建完全分布式

219次阅读

共计 37768 个字符，预计需要花费 95 分钟才能阅读完成。

这篇文章主要讲解了“Ubuntu 如何搭建完全分布式”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着丸趣 TV 小编的思路慢慢深入，一起来研究和学习“Ubuntu 如何搭建完全分布式”吧！

环境说明

本文使用 vmware reg; workstation 12 pro 虚拟机创建并安装三台 ubuntu16.04 系统分别命名为master、slave1、slave2 对应对应 namenode、datanode、datanode。

安装过程中要求三个系统中配置基本相同除个别配置（比如：节点的命名）

192.168.190.128 master

192.168.190.129 slave1

192.168.190.131 slave2

在虚拟机 linux 上安装与配置 hadoop

需要说明的是下面的所有配置三台 ubuntu 系统都要配置而且是基本一样，为了使配置一致，先在一台机器上配置然后将对应配置 scp 到其他机器上

虚拟机的安装不是本文重点，这里就不赘述了。安装之后是这样的：

在 linux 上安装 hadoop 之前，需要安装两个程序：

1）jdk1.6(或更高版本), 本文采用 jdk 1.7。hadoop 是 java 编写的程序，hadoop 的编译及 mapreduce 都需要使用 jdk。因此，在安装 hadoop 前，必须安装 jdk1.6 或更高版本。

2)ssh(安装外壳协议)，推荐安装 openssh.hadoop 需要通过 ssh 来启动 slave 列表中各台机器的守护进程，因此 ssh 也是必须安装的，即使是安装伪分布版本（因为 hadoop 并没有区分集群式和伪分布式）。对于伪分布式，hadoop 会采用与集群相同处理方式，即按次序启动文件 conf/slaves 中记载的主机上的进程，只不过在伪分布式中 slave 为 localhost（即本身），所以对于伪分布式 hadoop，ssh 也是一样必须的。

部署步骤

添加一个 hadoop 用户，并赋予相应权利，我们接下来 hadoop hbase 的安装都要在 hadoop 用户下操作，所以 hadoop 用户要将 hadoop 的文件权限以及文件所有者赋予给 hadoop 用户。

1. 每个虚拟机系统上都添加 hadoop 用户，并添加到 sudoers

sudo adduser hadoop

sudo gedit /etc/sudoers

找到对应添加如下：

# user privilege specification
root all=(all:all) all
hadoop all=(all:all) all

2. 切换到 hadoop 用户：

su hadoop

3. 修改 /etc/hostname 主机名为 master

当然 master 虚拟机设置为master

其他两个虚拟机分别设置为 slave1、slave2

4.、修改 /etc/hosts

127.0.0.1 localhost
127.0.1.1 localhost.localdomain localhost
192.168.190.128 master
192.168.190.129 slave1
192.168.190.131 slave2
# the following lines are desirable for ipv6 capable hosts
::1 ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters

5. 安装 jdk 1.7

(1)下载和安装 jdk 1.7

jdk-7u76-linux-x64.tar.gz

使用 tar 命令

tar -zxvf jdk-7u76-linux-x64.tar.gz

将安装文件移动到 jdk 安装目录，本文 jdk 的安装目录为 /usr/lib/jvm/jdk1.7.0_76

（2）配置环境变量

输入命令：

sudo gedit /etc/profile

输入密码，打开 profile 文件。在最下面输入如下内容：

#set java environment
export java_home=/usr/lib/jvm/jdk1.7.0_76
export jre_home=${java_home}/jre 
export classpath=.:${java_home}/lib:${jre_home}/lib 
export path=${java_home}/bin:/home/hadoop/hadoop-2.7.1/bin:/home/hadoop/hadoop-2.7.1/sbin:/home/hadoop/hbase-1.2.4/bin:$path

需要说明的是可能 profile 文件当前权限是只读的，需要使用

sudo chmod 777 /etc/profile

命令修改文件读写权限。文件中已经包含了 hadoop 以及 hbase 的环境配置。

这一步的意义是配置环境变量，使系统可以找到 jdk。

（4）验证 jdk 是否安装成功

输入命令：

java -version

会出现如下 jdk 版本信息：

java version  1.7.0_76 
java(tm) se runtime environment (build 1.7.0_76-b13)
java hotspot(tm) 64-bit server vm (build 24.76-b04, mixed mode)

如果出现上述 jdk 版本信息说明当前安装 jdk 并未设置成 ubuntu 系统默认的 jdk，接下来还需要手动将安装的 jdk 设置成系统默认的 jdk。

(5)手动设置系统默认 jdk

在终端依次输入命令：

sudo update-alternatives --install /usr/bin/java java /usr/lib/jvm/jdk1.7.0_76/bin/java 300

sudo update-alternatives --install /usr/bin/javac javac /usr/lib/jvm/jdk1.7.0_76/bin/javac 300

sudo update-alternatives --config java

接下来输入 java -version 就可以看到所安装的 jdk 的版本信息了。

三台虚拟机都要安装 vmware tools 工具方便复制粘贴

6. 配置 ssh 免密码登录

(1)确认已经连上互联网，然后输入命令：

sudo apt-get install ssh

(2)配置 master、slave1 和 slave2 节点可以通过 ssh 无密码互相访问

注意这里的所有操作都是在 hadoop 用户下操作的。

首先，查看下 hadoop 用户下是否存在.ssh 文件夹（注意 ssh 文件前面有”.”这是一个隐藏文件夹），输入命令：

ls -a -l

可以得到

drwxr-xr-x 9 root root 4096 feb 1 02:41 .
drwxr-xr-x 4 root root 4096 jan 27 01:50 ..
drwx------ 3 root root 4096 jan 31 03:35 .cache
drwxr-xr-x 5 root root 4096 jan 31 03:35 .config
drwxrwxrwx 11 hadoop root 4096 feb 1 00:18 hadoop-2.7.1
drwxrwxrwx 8 hadoop root 4096 feb 1 02:47 hbase-1.2.4
drwxr-xr-x 3 root root 4096 jan 31 03:35 .local
drwxr-xr-x 2 root root 4096 jan 31 14:47 software
drwxr-xr-x 2 hadoop root 4096 feb 1 00:01 .ssh

一般来说，安装 ssh 时会自动在当前用户下创建这个隐藏文件夹，如果没有，可以手动创建一个。

sudo mkdir .ssh

注意这里的.ssh 要是 hadoop 权限拥有，如果是 root 的话，使用下面命令：

sudo chown -r hadoop .ssh

接下来，输入命令：

ssh-keygen -t rsa

如果没有权限前面加一个 sudo.

执行完可以看到一个图标并在.ssh 文件下创建两个文件：id_rsa 和 id_rsa.pub

 cat ~/ssh/id_rsa.pub   ~/ssh/authorized_keys

在 ubuntu 中，~ 代表单前用户文件夹，此处即 /home/hadoop。

这表命令的功能是把公钥加到用于认证的公钥文件中，这里的 authorized_keys 是用于认证的公钥文件。

然后使用命令：

sudo gedit authorized_keys

打开对应虚拟机生成的密码，如 master 主机的 hadoop 用户生成了，将其他主机生成的秘钥添加到 master 主机的 authorized_keys 文件的末尾，这样 master 主机就拥有 slave1 的 hadoop 用户以及 slave2 的 hadoop 用户的秘钥了。
如下：

不要复制我的，复制我的没用，我这里只是实例一下，复制你自己的三台虚拟机各自生成的秘钥

ssh-rsa aaaab3nzac1yc2eaaaadaqabaaabaqc743ocp2voa3dehbka+n7cyjc4jv2tj8z6tgvwcxg0njl3ykwyifgc9riyfyrwcl5byi34oe7dytf+9utvh85hca1/idp1m02nlpxsijmcps4ungmlfswg/f/c3bqut7i4t6ehwo/frhjeibu5o/9ghoxk/ykhgjibyh8hhalcke6jtt80i63r2+3dnlhlnzw1sqrjp2qfrgyv61j5dfuyrhfd+/etkftxc7izlvckc7x6hmo4qimq0gbsx9iqto0to1skgylhcx3cbo3hf4i19rukt168eg/x2l1qivf+vgxqudm3lza9/pxdiek5p8c8xupcaor67jmflwll3eub hadoop@master
ssh-rsa aaaab3nzac1yc2eaaaadaqabaaabaqdq1jf6ds9y+klqnihq+pdgxm1osf+rsxcglddlzw+qgk7nt28brk6qucm3kjqa/ekekqdhdwegtiqvriosy4a2fabkrsjiornc4qyq/rqb06juvshwtob91qwmv/j/o3mgsentjlfmbupsyw8rrxqv+tytqq+gipl7x0wgubrqyrhjjzkaxqglge3md/siyjn8ge4g31rrtcx9qdvcftcthkvqca0b0f98y+u9fu6w4ari28olxftlzucsebipmze4uwquxt+2kmz0hunpejsdrlkrfqo1okus0pezruvrmyby5flt4tnv0xoqbyclzxieev/ppgh8aeb4qs/zxb25 hadoop@slave1
ssh-rsa aaaab3nzac1yc2eaaaadaqabaaabaqdi8ppgxt94saetuhvt2jmlo4ed11r1wlon1eha5vi3qqm7cgt4ys7lvxl53dc5g7r0n4jwsf2htvd9jf77veixp5g3xqga7hafbimzqupucyahqy+v0rtepabungkfz0ukv+nq8bzjfsuv4hgrorw7yzqaa0ljevhii8uvza7dcz6ba1on/tlkvvzz3mdzulcn7+azjtptg8hpqaelqqws1uuiyiuanosqfpcadart/pjpazgkqek0lbrsvi+u+p0osrz9ax3wvouqknheinm4tmuo3tgyionjev1jqrocxbbzaeqllwnpa0yzbl/zmnjhkesitypmgzwszh3ylc8p hadoop@slave2

至此免密码登录主机已配置完毕。

（3）验证 ssh 是否已安装成功，以及是否可以免密码登录主机。

输入命令：

ssh -v

显示结果：

openssh_7.2p2 ubuntu-4ubuntu2.1, openssl 1.0.2g 1 mar 2016

输入命令：

ssh localhost

会有如下显示：

welcome to ubuntu 16.04 lts (gnu/linux 4.4.0-21-generic x86_64)
 * documentation: https://help.ubuntu.com/
458 packages can be updated.
171 updates are security updates.

the programs included with the ubuntu system are free software;
the exact distribution terms for each program are described in the
individual files in /usr/share/doc/*/copyright.
ubuntu comes with absolutely no warranty, to the extent permitted by
applicable law.

the programs included with the ubuntu system are free software;
the exact distribution terms for each program are described in the
individual files in /usr/share/doc/*/copyright.
ubuntu comes with absolutely no warranty, to the extent permitted by
applicable law.
last login: wed feb 1 00:02:53 2017 from 127.0.0.1
to run a command as administrator (user  root), use  sudo  command .
see  man sudo_root  for details.

这说明已经安装成功，第一次登录会询问是否继续链接，输入 yes 即可以进入。

实际上，在 hadoop 的安装过程中，是否免密码登录是无关紧要的，但是如果不配置免密码登录，每次启动 hadoop 都需要输入密码以登录到每台机器的 datanode 上，考虑到一般的 hadoop 集群动辄数百或者上千台机器，因此一般来说都会配置 ssh 免密码登录。

master 节点无密码访问 slave1 和 slave2 节点：

ssh slave1

运行结果：

welcome to ubuntu 16.04 lts (gnu/linux 4.4.0-59-generic x86_64)
 * documentation: https://help.ubuntu.com/
312 packages can be updated.
10 updates are security updates.

the programs included with the ubuntu system are free software;
the exact distribution terms for each program are described in the
individual files in /usr/share/doc/*/copyright.
ubuntu comes with absolutely no warranty, to the extent permitted by
applicable law.

the programs included with the ubuntu system are free software;
the exact distribution terms for each program are described in the
individual files in /usr/share/doc/*/copyright.
ubuntu comes with absolutely no warranty, to the extent permitted by
applicable law.
last login: wed feb 1 00:03:30 2017 from 192.168.190.131

不需要密码，需要密码说明没有配置成功，看看是不是哪步出现了问题。

安装并运行 hadoop

介绍 hadoop 的安装之前，先介绍一下 hadoop 对各个节点的角色定义。

hadoop 分别从三个角度将主机划分为两种角色。第一，最基本的划分为 master 和 slave, 即主人和奴隶；第二，从 hdfs 的角度，将主机划分为 namenode 和 datanode(在分布式文件系统中，目录的管理很重要，管理目录相当于主任，而 namenode 就是目录管理者）；第三，从 mapreduce 角度，将主机划分为 jobtracker 和 tasktracker(一个 job 经常被划分为多个 task, 从这个角度不难理解它们之间的关系)。

hadoop 有三种运行方式：单机模式、伪分布与完全分布式。乍看之下，前两种并不能体现云计算的优势，但是它们便于程序的测试与调试，所以还是有意义的。

我的博客中有介绍单机模式和伪分布式方式这里就不赘述，本文主要着重介绍分布式方式配置。

（1）hadoop 用户目录下解压下载的 hadoop-2.7.1.tar.gz

使用解压命令：

tar -zxvf hadoop-2.7.1.tar.gz

注意一下操作都是在 hadoop 用户下操作的也就是 hadoop-2.7.1 的所有者是 hadoop. 如下所示：

total 120
drwxr-xr-x 19 hadoop hadoop 4096 feb 1 02:28 .
drwxr-xr-x 4 root root 4096 jan 31 14:24 ..
-rw------- 1 hadoop hadoop 1297 feb 1 03:37 .bash_history
-rw-r--r-- 1 hadoop hadoop 220 jan 31 14:24 .bash_logout
-rw-r--r-- 1 hadoop hadoop 3771 jan 31 14:24 .bashrc
drwx------ 3 root root 4096 jan 31 22:49 .cache
drwx------ 5 root root 4096 jan 31 23:59 .config
drwx------ 3 root root 4096 jan 31 23:59 .dbus
drwxr-xr-x 2 hadoop hadoop 4096 feb 1 00:55 desktop
-rw-r--r-- 1 hadoop hadoop 25 feb 1 00:55 .dmrc
drwxr-xr-x 2 hadoop hadoop 4096 feb 1 00:55 documents
drwxr-xr-x 2 hadoop hadoop 4096 feb 1 00:55 downloads
-rw-r--r-- 1 hadoop hadoop 8980 jan 31 14:24 examples.desktop
drwx------ 2 hadoop hadoop 4096 feb 1 00:56 .gconf
drwx------ 3 hadoop hadoop 4096 feb 1 00:55 .gnupg
drwxrwxrwx 11 hadoop hadoop 4096 feb 1 00:30 hadoop-2.7.1
drwxrwxrwx 8 hadoop hadoop 4096 feb 1 02:44 hbase-1.2.4
-rw------- 1 hadoop hadoop 318 feb 1 00:56 .iceauthority
drwxr-xr-x 3 root root 4096 jan 31 22:49 .local
drwxr-xr-x 2 hadoop hadoop 4096 feb 1 00:55 music
drwxr-xr-x 2 hadoop hadoop 4096 feb 1 00:55 pictures
-rw-r--r-- 1 hadoop hadoop 675 jan 31 14:24 .profile
drwxr-xr-x 2 hadoop hadoop 4096 feb 1 00:55 public
drwx------ 2 hadoop hadoop 4096 feb 1 00:02 .ssh
drwxr-xr-x 2 hadoop hadoop 4096 feb 1 00:55 templates
drwxr-xr-x 2 hadoop hadoop 4096 feb 1 00:55 videos
-rw------- 1 hadoop hadoop 51 feb 1 00:55 .xauthority
-rw------- 1 hadoop hadoop 1492 feb 1 00:58 .xsession-errors

（2）配置 hadoop 的环境变量

sudo gedit /etc/profile

配置如下：

#set java environment
export java_home=/usr/lib/jvm/jdk1.7.0_76
export jre_home=${java_home}/jre 
export classpath=.:${java_home}/lib:${jre_home}/lib 
export path=${java_home}/bin:/home/hadoop/hadoop-2.7.1/bin:/home/hadoop/hadoop-2.7.1/sbin:/home/hadoop/hbase-1.2.4/bin:$path

(3)配置三台主机的 hadoop 文件，内容如下。

conf/hadoop-env.sh: