I/O调度的4种算法
对于固态硬盘来说使用NOOP是最好的,DeadLine次之,而CFQ效率最低。
CFQ(完全公平排队I/O调度程序)
特点:
在最新的内核版本和发行版中,都选择CFQ做为默认的I/O调度器,对于通用的服务器也是最好的选择.
CFQ试图均匀地分布对I/O带宽的访问,避免进程被饿死并实现较低的延迟,是deadline和as调度器的折中.
CFQ对于多媒体应用(video,audio)和桌面系统是最好的选择.
CFQ赋予I/O请求一个优先级,而I/O优先级请求独立于进程优先级,高优先级的进程的读写不能自动地继承高的I/O优先级.
工作原理:
CFQ为每个进程/线程,单独创建一个队列来管理该进程所产生的请求,也就是说每个进程一个队列,各队列之间的调度使用时间片来调度,
以此来保证每个进程都能被很好的分配到I/O带宽.I/O调度器每次执行一个进程的4次请求.
NOOP(电梯式调度程序)
特点:
在Linux2.4或更早的版本的调度程序,那时只有这一种I/O调度算法.
NOOP实现了一个简单的FIFO队列,它像电梯的工作主法一样对I/O请求进行组织,当有一个新的请求到来时,它将请求合并到最近的请求之后,以此来保证请求同一介质.
NOOP倾向饿死读而利于写.
NOOP对于闪存设备,RAM,嵌入式系统是最好的选择.
电梯算法饿死读请求的解释:
因为写请求比读请求更容易.
写请求通过文件系统cache,不需要等一次写完成,就可以开始下一次写操作,写请求通过合并,堆积到I/O队列中.
读请求需要等到它前面所有的读操作完成,才能进行下一次读操作.在读操作之间有几毫秒时间,而写请求在这之间就到来,饿死了后面的读请求.
Deadline(截止时间调度程序)
特点:
通过时间以及硬盘区域进行分类,这个分类和合并要求类似于noop的调度程序.
Deadline确保了在一个截止时间内服务请求,这个截止时间是可调整的,而默认读期限短于写期限.这样就防止了写操作因为不能被读取而饿死的现象.
Deadline对数据库环境(ORACLE RAC,MYSQL等)是最好的选择.
AS(预料I/O调度程序)
特点:
本质上与Deadline一样,但在最后一次读操作后,要等待6ms,才能继续进行对其它I/O请求进行调度.
可以从应用程序中预订一个新的读请求,改进读操作的执行,但以一些写操作为代价.
它会在每个6ms中插入新的I/O操作,而会将一些小写入流合并成一个大写入流,用写入延时换取最大的写入吞吐量.
AS适合于写入较多的环境,比如文件服务器
AS对数据库环境表现很差.
修改linux I/O 调度器
修改Linux系统的 I/O调度器有三种方法,分别是使用shell命令、使用grubby命令或者修改grub配置文件
使用shell临时修改
echo noop > /sys/block/sda/queue/scheduler
如果想永久修改也可以再开机启动中添加 vim /etc/rc.local
echo noop > /sys/block/sdb/queue/scheduler
查看修改后的效果
cat /sys/block/sda/queue/scheduler
使用grubby命令修改
grubby --grub --update-kernel=ALL --args=“elevator=cfq”
使用vi编辑器修改配置文件
vi /etc/default/grub
GRUB_CMDLINE_LINUX=“rd.lvm.lv=rhel/root rd.lvm.lv=rhel/swap rhgb quiet transparent_hugepage=neverelevator=deadline”
grub2-mkconfig -o /boot/grub2/grub.cfg
重启系统
磁盘预读
除了根据不同应用场景,配置磁盘的I/O调度方式之外,还可以通过调整Linux内核预读磁盘扇区参数进行I/O的优化。在内存中读取数据比从磁盘读取要快很多,增加Linux内核预读,对于大量顺序读取的操作,可以有效减少I/O的等待时间。如果应用场景中有大量的碎片小文件,过多的预读会造成资源的浪费。所以该值应该在实际环境多次测试。
查看
[root@pghost1 ~]# /sbin/blockdev --getra /dev/sda
修改
[root@pghost1 ~]# /sbin/blockdev --setra 16384 /dev/sda
或者
[root@pghost1 ~]# echo 16384 /sys/block/sda/queue/read_ahead_kb
为防止重启失效,可以将配置写入/etc/rc.local文件
内存
swap
在内存方面,对数据库性能影响最恶劣的就是Swap了。当内存不足,操作系统会将虚拟内存写入磁盘进行内存交换,而数据库并不知道数据在磁盘中,这种情况下就会导致性能急剧下降,甚至造成生产故障。有些系统管理员会彻底禁用Swap,但如果这样,一旦内存消耗完就会导致OOM,数据库也会随之崩溃。
[root@host1 ~]# free
total used free shared buff/cache available
Mem: 1863020 1340536 76284 264872 446200 108492
Swap: 0 0 0
[root@host1 ~]# swapoff -a
[root@host1 ~]# swapon
[root@host1 ~]#
透明大页
透明大页(Transparent HugePages)在运行时动态分配内存,而运行时的内存分配会有延误,对于数据库管理系统来说并不友好,所以建议关闭透明大页。
查看与关闭
[root@host1 ~]# cat /sys/kernel/mm/transparent_hugepage/enabled
[always] madvise never
[root@host1 ~]# echo never > /sys/kernel/mm/transparent_hugepage/enabled
[root@host1 ~]#
[root@host1 ~]# cat /sys/kernel/mm/transparent_hugepage/enabled
always madvise [never]
[root@host1 ~]#
永久禁用
编辑/etc/rc.local,加入以下内容:
if test -f /sys/kernel/mm/transparent_hugepage/enabled; then
echo never > /sys/kernel/mm/transparent_hugepage/enabled
fi
if test -f /sys/kernel/mm/transparent_hugepage/defrag; then
echo never > /sys/kernel/mm/transparent_hugepage/defrag
fi
还可以通过修改/etc/grub.conf,在kernel的行末加上transparent_hugepage=never禁用透明大页
NUMA
NUMA架构会优先在请求线程所在的CPU的local内存上分配空间,如果local内存不足,优先淘汰local内存中无用的页面,这会导致每个CPU上的内存分配不均,虽然可以通过配置NUMA的轮询机制缓解,但对于数据库管理系统仍不又好,建议关闭NUMA。
查看
numactl --hardware
或者
numastat
可以通过编辑/etc/grub.conf,在kernel的行末加上numa=off禁用NUMA