Hadoop伪分布式集群搭建

发布 : 2016-03-20 分类 : 大数据 浏览 :
1
问:单机模式与伪分布式模式的区别?感觉没有什么区别,伪分布式就比单机模式多了几个安装步骤

使用192.168.230.15主机搭建Hadoop伪分布式

安装hadoop伪分布式前的准备工作

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
[root@node6 ~]# cat /etc/hosts
192.168.230.15 node6

[root@node6 ~]# cat /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=node6
GATEWAY=192.168.230.2

[root@node6 ~]# cat /etc/sysconfig/network-scripts/ifcfg-eth0
DEVICE=eth0
TYPE=Ethernet
ONBOOT=yes
NM_CONTROLLED=yes
BOOTPROTO=static
IPADDR=192.168.230.15
NETMASK=255.255.255.0
GATEWAY=192.168.230.2

1.上传Hadoop压缩文件到192.168.230.15主机的指定目录下

1.2.解压hadoop压缩文件到指定目录下

1.3.配置Hadoop的环境变量

1
[root@node6 ~]# vi ~/.bash_profile

1.4.安装jdk的rpm包

1.5.检查防火墙是否关闭

2.配置/opt/modules/hadoop-2.5.2/etc/hadoop目录下的hadoop-env.xml.core-site.xml.hdfs-site.xml.mapred-site.xml

2.1.配置hadoop-env.xml文件

1
2
export JAVA_HOME=/usr/java/jdk1.7.0_79
export HADOOP_PREFIX=/opt/modules/hadoop-2.5.2

2.2.配置core-site.xml文件

1
2
3
4
5
6
7
8
9
10
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://node6:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/modules/hadoop-2.5.2/data/tmp</value>
</property>
</configuration>

2.3.配置hdfs-site.xml文件

1
2
3
4
5
6
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

2.4.配置yarn-site.xml文件

1
2
3
4
5
6
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

2.5.将mapred-site.xml.template文件重命名为mapred-site.xml

1
[root@node6 hadoop-2.5.2]# mv etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

2.6.配置mapred-site.xml文件

1
2
3
4
5
6
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

2.7.格式化namenode

1
[root@node6 hadoop-2.5.2]# ./bin/hdfs namenode -format
1
2
3
4
5
6
7
启动HDFS
[root@node6 hadoop-2.5.2]# ./sbin/hadoop-daemon.sh start namenode
namenode running as process 1593. Stop it first.
[root@node6 hadoop-2.5.2]# ./sbin/hadoop-daemon.sh start datanode
starting datanode, logging to /opt/modules/hadoop-2.5.2/logs/hadoop-root-datanode-node6.out
[root@node6 hadoop-2.5.2]# ./sbin/hadoop-daemon.sh start secondarynamenode
[root@node6 hadoop-2.5.2]# jps
1
2
3
4
5
6
怎么查看日志?
[root@node6 ~]# cd /opt/modules/hadoop-2.5.0/logs
ll
每个守护进程都两个日志文件
一个是以.log为后缀:通过log4j记录的,记录大部分应用程序的日志信息
一个是以.out为后缀:记录标准输出和标准错误日志,少量记录
1
2
将更改之后的hdfs文件发送到node2.node3.node5节点上
[root@node1 ~]# scp -r /opt/modules/hadoop-2.5.1/etc/hadoop/hdfs-site.xml root@node5:/opt/modules/hadoop-2.5.1/etc/hadoop/
本文作者 : Matrix
原文链接 : https://matrixsparse.github.io/2016/03/20/Hadoop伪分布式集群搭建/
版权声明 : 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!

知识 & 情怀 | 二者兼得

微信扫一扫, 向我投食

微信扫一扫, 向我投食

支付宝扫一扫, 向我投食

支付宝扫一扫, 向我投食

留下足迹