一、技术层面
通过下面这张图,我们可以大概确定,在大数据行业里,自己的学习路线。
个人认为,Hadoop集群一旦搭建完工,基本就是个把人运维的事情
主要岗位应该是集中在数据计算层,尤其是实时计算!
实时计算框架比较实用的是Spark Streaming 和 Flink
数据传输层,又叫数据采集层,将不同的数据源中的各种类型数据,采集到Hadoop中进行存储
Flume组件,个人觉得与Logstash组件等效。
这里的定时任务,任务之间是可以相互依赖的

二、业务层面
个人偏好推荐功能











