Hadoop是小象——Hadoop集群安装配置

阅读量：171 次

发布时间：2019-02-26

本文共 2510 字，大约阅读时间需要 8 分钟。

Hadoop集群安装配置指南

环境准备

在开始Hadoop安装之前，首先需要确保环境配置正确。以下是我们需要完成的主要步骤：

1. 安装所需软件

Java安装

必须安装JavaTM 1.5.x。建议使用Sun公司发行的Java版本。

SSH配置

已安装OpenSSH（CentOS默认安装），确保sshd服务正常运行。

2. 集群网络配置

集群网络环境配置如下：

Master节点内网IP：192.168.235.131

Slave1内网IP：192.168.235.132

Slave2内网IP：192.168.235.133

网络问题解决

克隆虚拟机时，需手动修改MAC地址并重新分配IP地址，避免网络冲突。

3. SSH免密登录设置

Host文件配置

在/etc/hosts文件尾部添加以下内容：

192.168.235.131 master192.168.235.132 slave1192.168.235.133 slave2

确保所有节点均正确解析。

Hostname修改

修改每个节点的hostname，例如（以Master节点为例）：
```
sudo hostnamectl set-hostname master
```

重启终端后，执行$hostname验证配置。

SSH免密登录

在Master节点生成RSA密钥，并将其添加到Slave节点的~/.ssh/authorized_keys文件中。
```
ssh-keygen -t rsa
```

传输密钥文件：

scp ~/.ssh/id_rsa.pub root@slave1:~scp ~/.ssh/id_rsa.pub root@slave2:~

在Slave节点添加密钥并设置权限：
```
chmod 600 ~/.ssh/authorized_keys
```

4. Hadoop安装

Hadoop源码下载

使用wget下载Hadoop二进制源码：

wget http://mirror.apache.org/hadoop/core/hadoop-2.8.5.tar.gz

解压文件并进入目录：
```
tar -zxvf hadoop-2.8.5.tar.gz
```

Hadoop配置

Master节点配置文件

修改core-site.xml：

vim ~/hadoop/etc/hadoop/core-site.xml

配置内容如下：


       
          
       
        fs.default.name
           
       
        hdfs://master:9000
         
        
          
       
        hadoop.tmp.dir
           
       
        file:/home/leesanghyuk/hadoop-2.8.5/hadoop/tmp

类似地修改hdfs-site.xml、mapred-site.xml、yarn-site.xml等配置文件。

Slave节点配置

将Hadoop文件传输到Slave节点并解压：

scp -r ~/hadoop root@slave1:~scp -r ~/hadoop root@slave2:~

环境变量配置

修改/etc/profile文件：

vi /etc/profile

添加以下内容：

# Hadoop环境变量配置export HADOOP_HOME=/home/leesanghyuk/hadoop-2.8.5export HADOOP_INSTALL=$HADOOP_HOMEexport HADOOP_MAPRED_HOME=$HADOOP_HOMEexport HADOOP_COMMON_HOME=$HADOOP_HOMEexport HADOOP_HDFS_HOME=$HADOOP_HOMEexport YARN_HOME=$HADOOP_HOMEexport HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/nativeexport PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

使配置生效：
```
source /etc/profile
```

5. Hadoop启动

格式化NameNode

格式化namenode：
```
hadoop namenode -format
```

启动Hadoop集群：
```
start-all.sh
```

验证集群状态

查看进程：
```
jps
```

确认Hadoop服务运行状态。

6. Hadoop集群测试

创建测试文件

生成测试文件：

echo "My name is LeesangHyuk. This is a example program called WordCount, run by LeesangHyuk " > testWordCount

创建输入目录并上传文件：

hadoop fs -mkdir /wordCountInputhadoop fs -put testWordCount /wordCountInput

执行WordCount程序

运行MapReduce程序：

hadoop jar ~/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.5.jar wordcount /wordCountInput /wordCountOutput

查看输出结果：

hadoop fs -ls /wordCountOutputhadoop fs -cat /wordCountOutput/part-r-00000

注意事项

确保所有节点的防火墙和SELinux设置已关闭。

Hadoop的日志聚合和资源管理配置需根据实际负载进行优化。

定期检查节点状态和网络连接，确保集群稳定运行。

通过以上步骤，可以实现一个功能正常的Hadoop集群环境，满足大数据处理和分析需求。

转载地址：http://dqak.baihongyu.com/

你可能感兴趣的文章

SpringBoot中集成XXL-JOB分布式任务调度平台,轻量级、低侵入实现定时任务

查看>>

Postgresql中的表结构和数据同步/数据传输到Mysql

查看>>

Postgresql中自增主键序列的使用以及数据传输时提示:错误:关系“xxx_xx_xx_seq“不存在

查看>>

SpringBoot中集成websocket后WebSocketServer中注入mapper为空

查看>>

postgreSQL入门命令

查看>>

PostgreSQL删除数据库报"ERROR: There is 1 other session using the database."

PostgreSQL和Oracle两种数据库有啥区别？如何选择？

查看>>

Qt开发——多线程网络时间服务器端

查看>>

Postgresql在Windows中使用pg_dump实现数据库(指定表)的导出与导入

查看>>

PostgreSQL在何处处理 sql查询之四

查看>>

postgresql基本使用

查看>>

PostgreSQL学习总结（10）—— PostgreSQL 数据库体系架构

查看>>

PostgreSQL学习总结（11）—— PostgreSQL 常用的高可用集群方案

查看>>

Qt开发——多线程网络时间客户端

查看>>

PostgreSQL学习总结（13）—— PostgreSQL 15.8 如何成就数据库性能王者？

查看>>

PostgreSQL学习总结（13）—— PostgreSQL 目录结构与配置文件 postgresql.conf 详解

查看>>

PostgreSQL学习总结（1）—— PostgreSQL 入门简介与安装

查看>>

PostgreSQL学习总结（2）—— PostgreSQL 语法

查看>>