啊,这....小马曾经也很好奇这是个什么玩意,后面写GO的时候因为要自己实现DB层和redis层,才对它有了更进一步深入的了解。但要是正儿八经地说呢,也不知道该怎么描述。还是借助网络上各路大神的文章来抛玉引我这个砖吧。
一、什么是连接池
借用网文《如何实现一个连接池?一文带你深入浅出,彻底搞懂!》来说明吧,再次感谢作者。
注意小马加粗的文字部分。
“池”是一种非常形象化的描述,它是一种容器,做储存之用;在编程中我们往往使用数组、链表、队列、map来表达。实现的代码原理是比较好理解的。
“连接”是网络中用于传输数据的通道;“连接”才是我们要真正去使用的对象,而“池”是用来管理“多个连接”的一种方式。
如果没有用“池”来统一管理“连接”,“连接”将散布在程序各处;那为了使用方便,我们往往会在使用时建立连接,使用完毕后,就关闭连接。所以“连接池”给我们提供了使用“连接”的方便。
同时,池是做储存之用的,所以“连接池”中的“连接”肯定是已经建立好的长连接,比如tcp连接、websocket连接等,即取即用,用完放回(池里存储的实质是一堆已创建好的连接对象,参考这里)。如果没有真正理解“连接池”的本质,在面试中可能会出现“http连接池”的笑话!(但这里小马有个疑问,但是http的底层不是tcp吗,而且http从HTTP/1.1起,默认使用长连接了,既然长连接为什么不能有连接池的概念?换句话说,只要是长连接是不是都可以搞连接池)
根据下游类型,我们常见有数据库连接池、缓存连接池、服务连接池,如下图所示:
在编程中,我们还经常会碰到进程池(记得小马曾经有被问到swoole的进程模型,进程池)、线程池、协程池、内存池、对象池等。
二、为什么需要连接池
除了连接池能非常方便的对连接进行管理外,一句话,在高吞吐时连接池大大提高了数据传输的效率。
从两个方面说:
1、避免反复的三次握手和四次握手
长连接的建立需要进行三次握手,而连接的释放需要进行四次握手,这是发生在系统层面的两个动作,对于单条连接来说耗时微乎其微,但在高吞吐场景时,耗时则不能忽略。
所以连接池的即取即用和用完放回的特性,避免了大量三次握手和四次握手的无效耗时,节省了系统资源。
2、 增加并行车道,实现全双工并行,提高QPS
数据通信包括单工、半双工和全双工。单工通信如下图,数据只能从A到B,不符合访问下游服务的场景。
半双工通信如下图,数据可以从A到B,也可从B到A,但是同一时刻只能一个方向上进行数据传输,通道利用率是50%。
全双工通信如下图,可同时存在从A到B和从B到A的数据传输,通道的利用率是100%。长连接就是全双工通信。
在IO密集型的互联网应用中,一条全双工通信通道仍然无法满足数据吞吐的需求时,该如何解决?
在互联网性能测试指标中有这样一个公式:
QPS(吞吐量) = 并发数 / 平均响应时间
在平均响应时间不变的情况下,适度增加并发数可以提升吞吐量;所以采用多条全双工通信的方式可以在一定程度上(平均响应时间没有大幅增加)提高吞吐量,而连接池则就最好的实现方式。
三、如何实现一个连接池
该连接池的“池”通过队列数据结构进行实现,队列先进先出的特性保证了使用连接的均衡性,每一条连接都可以均匀的被使用到。
连接池对外提供get()和free()两个API,get()用于从队首“出队”获取一条可用连接,free()用于将使用完的连接从对尾“入队”释放到队列中。
业务代码在低峰时会降低get()动作,所以连接池中的连接在长时间不用时会导致失效,此时保活线程在监测到get()的使用频率较低时,会模拟业务程序调用get()获取连接后发送心跳包,然后再通过free()将被保活的连接放回队列中,达到连接池中所有连接保活的目的。
四、扩展知识:高级连接池
高级连接池通常应用在微服务系统中,如下图:连接池连接下游多个节点。