Kafka

前言

一、Kafka的架构

在这里插入图片描述

1.kafka基本概念：

producer 生产者：负责将消息发送到broker；
consumer 消费者：从broker中接收消息；
consumer group消费者组：由多个消费者组成，每个消费者负责消费不同的分区数据。一个分区只能由一个组内消费者消费；消费者组之间互不影响。
Broker可以看做一个独立的Kafka服务节点或者kafka服务实例；
topic：是一个逻辑的概念，包含很多partition，同一个topic下不同partition是消息内容是不同的。
partition：为了实现扩展性一个非常庞大的topic可以分布到多个broker上，一个topic可以分为多个partition，每个partition是一个有序的消息队列。
Replica：副本，同一个分区的不同副本保存的是相同的消息。为了保证集群中某个节点发生故障时，该节点的消息不丢失，且kafka仍旧可用，kafka提供了副本机制。一个topic的每个分区都有多个副本。一个leader和若干个follower。
leader ：每个分区的多个副本中的主，生产者和消费者只和leader交互。
follower：每个分区的从副本，负责leader中同步数据，保持和leader数据的同步。leader发生故障，从follower中重新选举新的leader副本对外提供服务。

2.kafka的Replica机制

1.AR （all replicas）所有的Replica 称为AR；
2.ISR（in sync replicas）所有与leader副本保持一定程度同步的列表
3.OSR（out sync replica）与leader副本同步滞后过多的replica组成了OSR；
Leader会负责维护和跟踪ISR集合中所有follower消息同步滞后状态，当某个follower副本落后于Leader太多时（落后的阈值可以设置）就会将其放入OSR列表中，当follower副本追上了leader进度时就会将其放回ISR集合。

默认情况下只有ISR列表中的follower才会被选为leader。

3.如何确定当前读到那条消息

分区日志文件
LogsStartOffset ：日志文件开始标识；
LogsEndOffset：代表即将要写入消息的偏移量offset；
HW：分区ISR集合中的每个副本都会维护自己的LEO，而ISR集合中最小的
LEO即为分区的HW。

4.生产者发送消息的模式？

1.发后即忘 : 只管往kafka里面发消息，不关心是否发送成功
2.同步：producer.send() 返回一个Future对象，调用get方法进行同步等待可以知道发送是否成功。
3.异步：通过producer.send()中传送一个回调函数

5.发送消息的分区策略

1.轮询：依次将消息发送给该topic下的所有分区，如果在创建消息的时候key为null kafka默认采用这种策略
2.key指定分区：在创建消息时key不为空并且使用默认分区器，kafka会将key进行hash，然后根据hash值映射到制定的partition上。这样的好处是key相同的消息会在同一个分区。虽然kafka不能保证全局有序性。但是在每个分区下的消息是有序的，按照顺序消费。但是此时partition数量发生变化就不能保证有序性。
3.自定义策略
4.指定分区发送

6. kafka是否支持读写分离

kafka不支持读写分离，其实读写分离设计思想的目的是实现负载均衡。但是kafka通过分区特性可以实现。而且如果设计读写分离就要考虑数据一致问题以及延时问题。

7 kafka的负载均衡会有什么问题？

在这里插入图片描述
1.broker端分布不均，当创建topic的时候会出现某些broker分配到的分区数多而某些broker分配的分区较少；
2.生产者写入消息不均生产者可能只对某些broker中的leader副本进行大量写操作。
3.消费者消费不均消费者可能只对某些broker中的leader副本进行大量消费
4.leader副本切换不均。当主从副本进行切换或者分区副本进行了重新分配后，可能会导致各个broker中的leader分配不均匀。