一、安装单机(用来测试)
docker run -i -t -p 50070:50070 -p 9000:9000 -p 8088:8088 -p 8040:8040 -p 8042:8042 -p 49707:49707 -p 50010:50010 -p 50075:50075 -p 50090:50090 sequenceiq/hadoop-docker:latest
/etc/bootstrap.sh -bash
- 进入容器配置全局变量
docker exec -it hadoop /bin/bash
echo $HADOOP_PREFIX # 记录下来hadoop的路径
- 修改变量
vi /etc/profile.d/my_env.sh
my_env.sh内容如下
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
- 刷新环境变量
source /etc/profile
二、组件介绍
Apache Hadoop是一个用于分布式存储和处理大规模数据的开源框架。它由多个组件组成,每个组件都有不同的功能和任务。以下是Hadoop的主要组件以及它们的作用:
三、使用小案例
env
# 或者
echo $HADOOP_PREFIX
cd $(echo $HADOOP_PREFIX)
mkdir wcinput
cd wcinput
vim word.txt
ss ss
cls cls
banzhang
bobo
yangge
cd $(echo $HADOOP_PREFIX)
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.0.jar wordcount wcinput/ wcinput/wcoutput
# wordcount命令
# wcinput要计算参数的文件夹位置
# wcinput/wcoutput解析出来的结果 要求wcoutput目录没有存在如果存在就报错
如果报错请查看这篇链接
cd wcinput/wcoutput/
ls
# 目录下_SUCCESS part-r-00000
# _SUCCESS 为标记并媒有数据
# part-r-00000 为结果
cat part-r-00000
比较全的博主