tachyon默认支持hadoop-1.0.4版本,如果需要使用更高版本需要重新编译打包。如果使用maven打包,命令如下:
mvnclean package -Djava.version=1.7 -Dhadoop.version=2.6.0 -DskipTests
本文采用默认版本进行安装,步骤如下:
1.1.1 Hadoop-1.0.4安装
注意:需要实现做好免key登陆、关闭防火墙、关闭selinux、安装JDK并配置好环境变量,具体请参考相关文档,本文不做详述。下载地址:
http://archive.apache.org/dist/hadoop/core/hadoop-1.0.4/
(1) 编辑conf/hadoop-env.sh
配置JAVA_HOME环境变量,配置如下:
exportJAVA_HOME=/home/hadoop/app/jdk1.7.0_76
(2) 编辑conf/masters,添加主节点IP
192.168.2.20
(3) 编辑conf/slaves,添加从节点IP
192.168.2.20
192.168.2.33
(4) 编辑conf/core-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://192.168.2.20:9001</value>
</property>
<property>
<name>dfs.http.address</name>
<value>192.168.2.20:50070</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/usr/local/hadoop/namenode</value> (需要事先创建该目录)
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/local/hadoop/data</value> (需要事先创建该目录)
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
(5) 编辑conf/mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>192.168.2.20:8012</value>
</property>
</configuration>
(6) 编辑conf/hdfs-site.xml
<configuration>
<property>
<name>dfs.data.dir</name>
<value>/usr/local/hadoop/data</value>
</property>
</configuration>
(7) 格式化namenode
注意:在格式化namenode前,将配置好的hadoop分发到其他节点上。
bin/hadoopnamenode –format
(8) 启动HDFS
执行脚本:bin/start-dfs.sh
访问50070页面:http://192.168.2.20:50070/dfshealth.jsp
1.1.2 Spark-1.3.1安装
(1)解压spark
$ tar -zxvf spark-1.3.1-bin-hadoop2.6.tgz -C /usr/local
(2)设置主节点地址和JAVA_HOME变量
vi spark-env.sh
SPARK_MASTER_IP=192.168.2.20
exportJAVA_HOME=/home/hadoop/app/jdk1.7.3
(3)设置从节点地址
vi slaves
192.168.2.20
192.168.2.33
拷贝spark的目录到其他节点上
备注: 20节点和33节点需要建立ssh免登录。
(4)spark standalone启动
在主节点上启动spark standlone模式,执行下面命令
cd $SPARK_HOME/sbin
./start-all.sh
(5)验证
8080查看master的工作状态
http://192.168.2.20:8080/
8081查看worker的工作状态
http://192.168.2.20:8081/
(6)启动spark shell终端
启动成功后,通过4040端口查看job列表和状态,即http://192.168.2.20:4040
(7)通过shell下达命令
在本地建立测试文件
[root@mycluster ~]$ cat/home/hadoop/wc.txt
hello me
hello you
hello china
hello you
加载数据文件,可以是本地路径,也是是HDFS路径或者其它
scala> var textFile =sc.textFile("/home/hadoop/wc.txt");
列出文件行数
scala> textFile.count();
列出首行内容
scala> textFile.first()
过滤
textFile.filter(line =>line.contains("me"))
1.1.3 Tachyon集群安装
1) 下载
$ wget./downloads/tachyon-0.5.0-bin.tar.gz
$ tar xvfztachyon-0.5.0-bin.tar.gz
$ cd tachyon-0.5.0
2) 配置JDK
$ cpconf/tachyon-env.sh.template conf/tachyon-env.sh
vi tachyon-env.sh 并配置JAVA_HOME环境变量
exportJAVA_HOME=/home/hadoop/app/jdk1.7.0_76
3) 更改参数配置 编辑conf/tachyon-env.sh
修改tachyon master地址:
TACHYON_MASTER_ADDRESS=192.168.2.20
修改底层文件系统地址:
TACHYON_UNDERFS_ADDRESS=hdfs://192.168.2.20:9001
修改挂载目录大小:
TACHYON_WORKER_MEMORY_SIZE=512MB
4) 添加worker节点
编辑slaves文件,添加 从节点的IP
192.168.2.20
192.168.2.33
5) 格式化tachyon
注意: 在格式tachyon之前,应该把tachyon分发到其他的节点上
bin/tachyon format
格式化过程日志输出情况如下:
[root@mycluster bin]# tachyonformat
Connection to 192.168.2.20...Formatting Tachyon Worker @ mycluster
Removing local data underfolder: /mnt/ramdisk/tachyonworker/
Connection to 192.168.2.20closed.
Connection to 192.168.2.33...Formatting Tachyon Worker @ cloud03
Removing local data underfolder: /mnt/ramdisk/tachyonworker/
Connection to 192.168.2.33closed.
Formatting Tachyon Master @192.168.2.20
Formatting JOURNAL_FOLDER:/usr/local/tachyon-0.5.0/libexec/../journal/
Formatting UNDERFS_DATA_FOLDER:hdfs://192.168.2.20:9001/tmp/tachyon/data
Formatting UNDERFS_WORKERS_FOLDER: hdfs://192.168.2.20:9001/tmp/tachyon/workers
6) 启动tachyon
命令(启动Master和所有的slave):bin/tachyon-start.sh all Mount
启动tachyon产生的日志情况如下:
[root@myclustertachyon-0.5.0]# bin/tachyon-start.sh all Mount
Killed 0 processes
Killed 0 processes
Connection to 192.168.2.20...Killed 0 processes
Connection to 192.168.2.20closed.
Connection to 192.168.2.33...Killed 0 processes
Connection to 192.168.2.33closed.
Starting master @ 192.168.2.20
Connection to 192.168.2.20... Formatting RamFS:/mnt/ramdisk (512mb)
Starting worker @ mycluster
Connection to 192.168.2.20 closed.
Connection to 192.168.2.33... Formatting RamFS:/mnt/ramdisk (512mb)
Starting worker @ cloud03
Connection to 192.168.2.33closed.
7) 验证tachyon
Web UI浏览器验证方式:http://192.168.2.20:19999/home
另,通过jps查看发现192.168.2.20机器上的进程为TachyonMaster和TachyonWorker,192.168.2.33机器上的进程为TachyonWorker。