小工具      在线工具  汉语词典  css  js  c++  java

Ubuntu20.04下搭建Hadoop伪分布式集群

Linux,分布式,hadoop,服务器 额外说明

收录于:156天前

Ubuntu虚拟机的安装

VW ware安装Ubuntu虚拟机及环境配置

关闭防火墙

为了降低搭建集群的复杂度,如果您对防火墙比较了解的话,可以关闭防火墙并打开相应的端口。借助ufw包让操作更加方便。

# 安装防火墙工具
sudo apt-get install ufw

# 开启
sudo ufw enable

sudo ufw default deny  # 开启了防火墙并随系统启动同时关闭所有外部对本机的访问(本机访问外部正常)

# 关闭
sudo ufw disable 

# 查看状态
sudo ufw status


# 开放端口
sudo ufw allow 80 允许外部访问80端口

sudo ufw delete allow 80 禁止外部访问80 端口

sudo ufw allow from 192.168.1.1 允许此IP访问所有的本机端口

sudo ufw deny smtp 禁止外部访问smtp服务

sudo ufw delete allow smtp 删除上面建立的某条规则

sudo ufw deny proto tcp from 10.0.0.0/8 to 192.168.0.1 port 22 要拒绝所有的TCP流量从10.0.0.0/8 到192.168.0.1地址的22端口

使防火墙处于关闭状态即可:
在这里插入图片描述

安装SSH

https://blog.csdn.net/xwh3165037789/article/details/123468111

安装jdk

https://blog.csdn.net/xwh3165037789/article/details/123468111

设置静态ip

https://blog.csdn.net/xwh3165037789/article/details/126306878

配置主机名

https://blog.csdn.net/xwh3165037789/article/details/126306878

映射ip地址与主机名

将IP地址映射到主机名的目的是通过主机名完成集群之间的切换。

vi /etc/hosts

在这里插入图片描述
添加配置的静态ip和主机名即可。

ssh免密登录

ssh简介

在这里插入图片描述

在这里插入图片描述

完成主机ip映射之后使用密码实现主机间的切换:ssh root@[主机映射名称]

在这里插入图片描述
输入yes后会让你输入密码:
在这里插入图片描述
成功切换过去
在这里插入图片描述

这时候就需要输入密码了。每次都需要输入密码,非常不方便,而且无法实现集群的自动化。接下来需要配置SSH免密登录。

在root用户下输入ssh-keygen -t rsa 三次回车
在这里插入图片描述

切换到秘钥目录cd ~/.ssh
在这里插入图片描述
将公钥id_rsa.pub复制到本机上cp id_rsa.pub authorized_keys
在这里插入图片描述

ssh连接远程主机的命令是ssh user@hostname==ssh [用户名][主机名]==根据上面主机映射的关系

在这里插入图片描述
共有三台主机和一个用户,用户是xwh,主机分别是master,xwh,localhost。就可以使用ssh user@hostname,经过免密登录的配置,现在切换已经不需要密码了。

在这里插入图片描述

全分布式和伪分布式的主要区别就在这里。

user@hostname

Hadoop的下载与安装

下载参考

创建hadoop文件夹并上传hadoop文件,并解压到当前目录:

tar -zxvf hadoop-2.10.1

在这里插入图片描述
因为下载的源码,要全局使用需要配置环境变量,环境变量的配置文件在/etc/profile

sudo vi /etc/profile

在这里插入图片描述

export HADOOP_HOME=/home/xwh/hadoop/hadoop-2.10.1
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$JAVA_HOME/bin:$PATH:$HOME/bin

如果是自己配置的jdk则java_home换为自己的路径即可,如果是安装的openjdk则其位置在:/usr/lib/jvm目录下:

在这里插入图片描述

配置完成后重启环境变量source /etc/profile,在使用hadoop命令检验是否配置成功,出现如下图所示即配置成功:

在这里插入图片描述

hadoop配置

hadoop-env.sh文件的配置:

配置文件所在目录,在解压的hadoop目录下:hadoop/hadoop-2.10.1/etc/hadoop

在这里插入图片描述

进入该目录如图所示:
在这里插入图片描述

将jdk路径配置在图上的JAVA_HOME处,只配置要jdk安装目录即可,不用到bin目录:

在这里插入图片描述

核心站点.xml文件配置

在这里插入图片描述
配置如下:
在这里插入图片描述

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://localhost:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/home/xwh/hadoop/hadoop-2.10.1/tmp</value>
        </property>
</configuration>

hdfs-site.xml文件配置

在这里插入图片描述
在这里插入图片描述

	<property>
		<name>dfs.replication</name>
		<value>1</value>
	</property>

mapred-site.xml文件配置

目录下是没有该文件的只有一个模板,将mapred-site.xml.template复制一份改名即可。
在这里插入图片描述
复制命令cp mapred-site.xml.template mapred-site.xml
在这里插入图片描述

在这里插入图片描述

这一步可以省略

纱线站点.xml文件配置
在这里插入图片描述

<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
</property>
   
<property>
        <name>yarn.resourcemanager.address</name>
        <value>bigdata:8032</value>
</property>

根据自己的实际情况修改上面的配置

格式化分布式文件系统HDFS

该文件系统岁hadoop自动下载的的,格式化命令:hdfs namenode -format。只能格式化一次,若第一未成功需要删除上面配置的tmp目录重新格式化。

在这里插入图片描述
在这里插入图片描述

**启动集群start-dfs.sh**中途要输入一个yes:

在这里插入图片描述

namenode节点后台管理地址ip+端口号[50070/50090]

http://192.168.131.131:50070/

在这里插入图片描述

http://192.168.131.131:50090/

在这里插入图片描述

由于小编安装的openjsk没有jps命令,需要另外安装工具包sudo apt-get install java-1.7.0-openjdk-devel -y

如果出现错误就更新jdk版本sudo apt-get install openjdk-8-jdk就可以使用jstackjps等调试命令了。

在这里插入图片描述
存在namenode和dataname说明配置成功。

使用stop-dfs.sh停止集群:

在这里插入图片描述

yarn作为集群的管理者,启动yarn的命令为:start-yarn.sh

在这里插入图片描述
也可以输入ip+[yarn端口号]进入yarn管理中心,这是在之前yarn-site.xml配置的
在这里插入图片描述

当全部启动是使用jps调试命令:

在这里插入图片描述

需要注意的是在关闭集群是要依次关闭yarn,hadoop。stop-yarn.sh,stop-dfs.sh

在这里插入图片描述

. . .

相关推荐

额外说明

idea快捷键(持续改进)

功能 mac快捷键 win快捷键 快速生成main方法 psvm,回车 快速生成输出语句 sout,回车 内容辅助键 Ctrl+Alt+space(内容提示,代码补全等) 注释 单行:选中代码,Ctrl+/,再来一次,就是取消 多行:选中代码,Ctrl+

额外说明

90%测试工程师都会的用例设计步骤,麻麻再也不用担心我写用例了

1、 前言 设计测试案例的时候,需要有清晰的测试思路,对要测试什么,按照什么顺序测试,覆盖哪些需求做到心中有数。测试用例编写者不仅要掌握软件测试的技术和流程,而且要对被测软件的设计、功能规格说明、用户试用场景以及程序/模块的结构都有比较透彻的理解。测试用

额外说明

MySQL主从复制

Linux MySQL主从复制搭建是一种常见的数据库备份和数据同步方案。它可以通过将主数据库的数据同步到从数据库上,实现数据的备份和高可用性。具体步骤包括: 在主数据库上创建一个用于复制的用户,并授权给该用户复制权限。 在从数据库上创建一个与主数据库相同

额外说明

Java提高_若依——Ruoyi监控部分源码分析

QQ 1274510382 Wechat JNZ_aming 商业联盟 QQ群538250800 技术搞事 QQ群599020441 解决方案 QQ群152889761 加入我们 QQ群649347320 共享学习 QQ群674240731 纪年科技am

额外说明

【maven】两个xml的配置

settings.xml: <?xml version="1.0" encoding="UTF-8"?> <!-- Licensed to the Apache Software Foundation (ASF) under one or more c

额外说明

DOM ------ 事件 的那些事儿

注册事件 传统注册事件:on-开头, 如onclick 监听注册事件: addEventListener() //传统方法 btn.onclick = function() { console.log('传统方法') } //监听注册事件

额外说明

【Python】【selenium】为什么结合selenium+beautiful Soup能够大大提高爬虫效率

【背景】 如果纯用selenium写爬虫,总觉得无论从编写还是从执行的效率来说都比较低,其中一个原因,就是selenium本质上属于自动化测试工具,重点还是集中在模仿人的网页行为,将这些行为自动化的层面,换句话说,selenium在爬虫方面的长处是模拟互

额外说明

Python 第五节 第六课

[top] 使用 zip() 并行迭代 我们可以通过 zip() 函数对多个序列进行并列进行并行迭代, zip() 函数在最短序列 "用完" 时就会停止. 执行结果: 我是大白--18--老师 我是中白--16--程序员 我是小小--20--公务员  

额外说明

为什么Python是数据科学家的首选语言

这篇文章全面探讨了Python作为数据科学领域首选语言的原因。从Python的历史、特性,到在数据科学中的应用实例,再到与其他数据科学语言的比较,以及在实际企业中的应用,我们深入剖析了Python的优势与挑战,最后对Python的未来进行了展望。 引言

额外说明

wordpress付费阅读_2020年27个最佳WordPress杂志主题[免费+付费]

WordPress 付费阅读 您是否正在为您的网站寻找最佳的 WordPress 杂志主题? 您是否正在为您的网站寻找最佳的 WordPress 杂志主题? 内容丰富的网站需要不同的布局来帮助他们同时推广所有新的和重要的内容。 WordPress 杂志主

ads via 小工具