Linux操作系统优化 I/O调度，透明大页，swap，NUMA-CFANZ编程社区

I/O调度的4种算法

对于固态硬盘来说使用NOOP是最好的，DeadLine次之，而CFQ效率最低。

CFQ(完全公平排队I/O调度程序)

特点:

在最新的内核版本和发行版中,都选择CFQ做为默认的I/O调度器,对于通用的服务器也是最好的选择.

CFQ试图均匀地分布对I/O带宽的访问,避免进程被饿死并实现较低的延迟,是deadline和as调度器的折中.

CFQ对于多媒体应用(video,audio)和桌面系统是最好的选择.

CFQ赋予I/O请求一个优先级,而I/O优先级请求独立于进程优先级,高优先级的进程的读写不能自动地继承高的I/O优先级.

工作原理:

CFQ为每个进程/线程,单独创建一个队列来管理该进程所产生的请求,也就是说每个进程一个队列,各队列之间的调度使用时间片来调度,

以此来保证每个进程都能被很好的分配到I/O带宽.I/O调度器每次执行一个进程的4次请求.

NOOP(电梯式调度程序)

特点:

在Linux2.4或更早的版本的调度程序,那时只有这一种I/O调度算法.

NOOP实现了一个简单的FIFO队列,它像电梯的工作主法一样对I/O请求进行组织,当有一个新的请求到来时,它将请求合并到最近的请求之后,以此来保证请求同一介质.

NOOP倾向饿死读而利于写.

NOOP对于闪存设备,RAM,嵌入式系统是最好的选择.

电梯算法饿死读请求的解释:

因为写请求比读请求更容易.

写请求通过文件系统cache,不需要等一次写完成,就可以开始下一次写操作,写请求通过合并,堆积到I/O队列中.

读请求需要等到它前面所有的读操作完成,才能进行下一次读操作.在读操作之间有几毫秒时间,而写请求在这之间就到来,饿死了后面的读请求.

Deadline(截止时间调度程序)

特点:

通过时间以及硬盘区域进行分类,这个分类和合并要求类似于noop的调度程序.

Deadline确保了在一个截止时间内服务请求,这个截止时间是可调整的,而默认读期限短于写期限.这样就防止了写操作因为不能被读取而饿死的现象.

Deadline对数据库环境(ORACLE RAC,MYSQL等)是最好的选择.

AS(预料I/O调度程序)

特点:

本质上与Deadline一样,但在最后一次读操作后,要等待6ms,才能继续进行对其它I/O请求进行调度.

可以从应用程序中预订一个新的读请求,改进读操作的执行,但以一些写操作为代价.

它会在每个6ms中插入新的I/O操作,而会将一些小写入流合并成一个大写入流,用写入延时换取最大的写入吞吐量.

AS适合于写入较多的环境,比如文件服务器

AS对数据库环境表现很差.

修改linux I/O 调度器

修改Linux系统的 I/O调度器有三种方法，分别是使用shell命令、使用grubby命令或者修改grub配置文件

使用shell临时修改

echo noop > /sys/block/sda/queue/scheduler

如果想永久修改也可以再开机启动中添加 vim /etc/rc.local

echo noop > /sys/block/sdb/queue/scheduler

查看修改后的效果

cat /sys/block/sda/queue/scheduler

使用grubby命令修改

grubby --grub --update-kernel=ALL --args=“elevator=cfq”

使用vi编辑器修改配置文件

vi /etc/default/grub

GRUB_CMDLINE_LINUX=“rd.lvm.lv=rhel/root rd.lvm.lv=rhel/swap rhgb quiet transparent_hugepage=neverelevator=deadline”

grub2-mkconfig -o /boot/grub2/grub.cfg

重启系统

磁盘预读

除了根据不同应用场景，配置磁盘的I/O调度方式之外，还可以通过调整Linux内核预读磁盘扇区参数进行I/O的优化。在内存中读取数据比从磁盘读取要快很多，增加Linux内核预读，对于大量顺序读取的操作，可以有效减少I/O的等待时间。如果应用场景中有大量的碎片小文件，过多的预读会造成资源的浪费。所以该值应该在实际环境多次测试。

查看
[root@pghost1 ~]# /sbin/blockdev --getra /dev/sda
修改
[root@pghost1 ~]# /sbin/blockdev --setra 16384 /dev/sda
或者
[root@pghost1 ~]# echo 16384 /sys/block/sda/queue/read_ahead_kb
为防止重启失效，可以将配置写入/etc/rc.local文件

内存

swap

在内存方面，对数据库性能影响最恶劣的就是Swap了。当内存不足，操作系统会将虚拟内存写入磁盘进行内存交换，而数据库并不知道数据在磁盘中，这种情况下就会导致性能急剧下降，甚至造成生产故障。有些系统管理员会彻底禁用Swap，但如果这样，一旦内存消耗完就会导致OOM，数据库也会随之崩溃。

[root@host1 ~]# free 
              total        used        free      shared  buff/cache   available
Mem:        1863020     1340536       76284      264872      446200      108492
Swap:             0           0           0
[root@host1 ~]# swapoff -a 
[root@host1 ~]# swapon
[root@host1 ~]#

透明大页

透明大页（Transparent HugePages）在运行时动态分配内存，而运行时的内存分配会有延误，对于数据库管理系统来说并不友好，所以建议关闭透明大页。

查看与关闭
[root@host1 ~]# cat /sys/kernel/mm/transparent_hugepage/enabled
[always] madvise never
[root@host1 ~]# echo never > /sys/kernel/mm/transparent_hugepage/enabled

[root@host1 ~]# 
[root@host1 ~]# cat /sys/kernel/mm/transparent_hugepage/enabled
always madvise [never]
[root@host1 ~]# 

永久禁用
编辑/etc/rc.local，加入以下内容：
if test -f /sys/kernel/mm/transparent_hugepage/enabled; then
    echo never > /sys/kernel/mm/transparent_hugepage/enabled
fi
if test -f /sys/kernel/mm/transparent_hugepage/defrag; then
    echo never > /sys/kernel/mm/transparent_hugepage/defrag
fi
还可以通过修改/etc/grub.conf，在kernel的行末加上transparent_hugepage=never禁用透明大页

NUMA

NUMA架构会优先在请求线程所在的CPU的local内存上分配空间，如果local内存不足，优先淘汰local内存中无用的页面，这会导致每个CPU上的内存分配不均，虽然可以通过配置NUMA的轮询机制缓解，但对于数据库管理系统仍不又好，建议关闭NUMA。

查看
numactl --hardware
或者
numastat

可以通过编辑/etc/grub.conf，在kernel的行末加上numa=off禁用NUMA