刚入职场的菜鸟，这些大数据知识点，你必须掌握了！-CFANZ编程社区

刚入职场的菜鸟，这些大数据知识点，你必须掌握了！_1024程序员节

一、Hadoop入门

1、常用端口号

hadoop3.x

HDFS NameNode 内部通常端口：8020/9000/9820
HDFS NameNode 对用户的查询端口：9870
Yarn查看任务运行情况的：8088
历史服务器：19888

hadoop2.x

HDFS NameNode 内部通常端口：8020/9000
HDFS NameNode 对用户的查询端口：50070
Yarn查看任务运行情况的：8088
历史服务器：19888

2、常用的配置文件

3.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml workers
2.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml slaves

二、HDFS

1、HDFS文件块大小（面试重点）

硬盘读写速度
在企业中一般128m（中小公司） 256m （大公司）

2、HDFS的Shell操作（开发重点）
3、HDFS的读写流程（面试重点）

三、Map Reduce

1、InputFormat

1）默认的是TextInputformat kv key偏移量，v :一行内容
2）处理小文件CombineTextInputFormat 把多个文件合并到一起统一切片

2、Mapper

setup()初始化； map()用户的业务逻辑； clearup() 关闭资源；

3、分区

默认分区HashPartitioner ，默认按照key的hash值%numreducetask个数
自定义分区

4、排序

1）部分排序每个输出的文件内部有序。
2）全排序：一个reduce ,对所有数据大排序。
3）二次排序：自定义排序范畴，实现 writableCompare接口，重写compareTo方法

5、Combiner

前提：不影响最终的业务逻辑（求和没问题求平均值）

提前聚合map => 解决数据倾斜的一个方法

6、Reducer

用户的业务逻辑；
setup()初始化；
reduce()用户的业务逻辑；
clearup() 关闭资源；

7、OutputFormat

1）默认TextOutputFormat 按行输出到文件
2）自定义

四、Yarn

1、Yarn的工作机制（面试题）
2、Yarn的调度器

1）FIFO/容量/公平
2）apache 默认调度器容量； CDH默认调度器公平
3）公平/容量默认一个default ，需要创建多队列
4）中小企业：hive spark flink mr
5）中大企业：业务模块：登录/注册/购物车/营销
6）好处：解耦降低风险 11.11 6.18 降级使用
7）每个调度器特点：

相同点：支持多队列，可以借资源，支持多用户
不同点：

容量调度器：优先满足先进来的任务执行；
公平调度器，在队列里面的任务公平享有队列资源

8）生产环境怎么选：

中小企业，对并发度要求不高，选择容量
中大企业，对并发度要求比较高，选择公平。

添加公众号「信息技术智库」：

🍅 硬核资料：20G，8大类资料，关注即可领取（PPT模板、简历模板、技术资料）
🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。
🍅 面试题库：由各个技术群小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。
🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、前端等。

👇👇送书抽奖丨技术互助丨粉丝福利👇👇