Linux 内存越界调试（二）-CFANZ编程社区

一、定位内存越界：步步为营

1.1基础排查：日志与调试信息

当怀疑程序出现内存越界问题时，首先要做的就是查看程序日志。日志就像是程序运行的 “黑匣子”，记录着程序运行过程中的各种重要信息。在程序中，我们可以通过printf、syslog等函数来输出日志信息。例如，在一个简单的文件处理程序中，我们可以这样记录日志：

#include <stdio.h>
#include <stdlib.h>
#include <syslog.h>

int main() {
    FILE *file = fopen("test.txt", "r");
    if (file == NULL) {
        syslog(LOG_ERR, "Failed to open file test.txt");
        return 1;
    }
    // 其他文件处理操作
    fclose(file);
    return 0;
}

在这段代码中，如果文件打开失败，syslog函数会将错误信息记录到系统日志中，我们可以通过查看系统日志文件（如/var/log/messages）来获取这些信息，从而初步判断问题所在。

除了日志，调试工具也是定位内存越界的重要手段。GDB（GNU Debugger）是 Linux 下常用的调试工具，它功能强大，可以帮助我们深入了解程序的运行状态。使用 GDB 调试程序时，我们可以通过设置断点来暂停程序的执行，观察程序在特定位置的运行情况。比如，在下面这段有内存越界风险的代码中：

#include <stdio.h>
#include <stdlib.h>

int main() {
    int *array = (int*)malloc(5 * sizeof(int));
    for(int i = 0; i < 10; i++) {
        array[i] = i;  // 这里可能会发生内存越界
    }
    free(array);
    return 0;
}

我们可以使用 GDB 来调试它。首先，使用gcc -g -o test test.c命令编译程序，其中-g选项表示生成调试信息。然后，运行gdb test启动 GDB 调试器。在 GDB 中，我们可以使用break命令设置断点，比如break main表示在main函数的开头设置断点。接着，使用run命令运行程序，程序会在断点处暂停。此时，我们可以使用next命令单步执行程序，逐行查看代码的执行情况；使用print命令查看变量的值，比如print array[0]可以查看数组第一个元素的值。通过这样的方式，我们可以逐步定位到可能存在内存越界的代码段。

1.2进阶工具：Valgrind 的深度应用

如果基础排查方法无法准确找到内存越界的位置，那么就需要借助更强大的工具，Valgrind 就是这样一款神器。Valgrind 是一个用于内存调试、内存泄漏检测以及性能分析的软件开发工具，它在 Linux 开发中被广泛使用。

首先，我们需要安装 Valgrind。在大多数 Linux 发行版中，可以使用包管理器来安装，比如在 Ubuntu 系统中，执行sudo apt-get install valgrind命令即可完成安装；在 CentOS 系统中，可以使用sudo yum install valgrind命令进行安装。

安装完成后，就可以使用 Valgrind 来检测程序中的内存问题了。Valgrind 的使用方法非常简单，基本命令格式为valgrind --tool=memcheck [其他选项] 你的程序名，其中--tool=memcheck表示使用 Memcheck 工具来检测内存问题，Memcheck 是 Valgrind 中最常用的工具，它可以检测出使用未初始化的内存、读 / 写释放后的内存块、内存读写越界等多种内存问题。

下面通过一个具体的例子来展示 Valgrind 的强大功能。假设有如下一段 C 语言代码：

#include <stdio.h>
#include <stdlib.h>

int main() {
    int *array = (int*)malloc(5 * sizeof(int));
    for(int i = 0; i < 10; i++) {
        array[i] = i;  // 故意造成内存越界
    }
    free(array);
    return 0;
}

我们使用gcc -g -o test test.c命令编译这段代码，然后使用 Valgrind 进行检测，执行valgrind --tool=memcheck --leak-check=yes./test命令。执行后，Valgrind 会输出详细的检测报告，报告中会指出内存越界的具体位置和相关信息，例如：

==1234== Memcheck, a memory error detector
==1234== Copyright (C) 2002-2017, and GNU GPL'd, by Julian Seward et al.
==1234== Using Valgrind-3.13.0 and LibVEX; rerun with -h for copyright info
==1234== Command:./test
==1234== 
==1234== Invalid write of size 4
==1234==    at 0x40060D: main (test.c:8)
==1234==  Address 0x5208040 is 20 bytes after a block of size 20 alloc'd
==1234==    at 0x4C2FB0F: malloc (in /usr/lib/valgrind/vgpreload_memcheck-amd64-linux.so)
==1234==    by 0x4005F7: main (test.c:6)

从报告中可以清晰地看到，在test.c文件的第 8 行发生了无效的写操作，即内存越界，并且指出了越界访问的地址以及相关的内存分配信息。通过这些信息，我们就可以准确地定位到内存越界的代码位置，进而进行修复。

1.3内存保护机制：mprotect 函数的巧用

在 Linux 系统中，还有一个非常有用的函数 ——mprotect，它可以用来修改一段指定内存区域的保护属性。mprotect 函数的原型如下：

#include <sys/mman.h>
#include <unistd.h>

int mprotect(const void *start, size_t len, int prot);

其中，start是要修改保护属性的内存区域的起始地址，len是内存区域的长度，prot是指定的保护属性，它可以取以下几个值：

PROT_READ：表示内存段内的内容可读； PROT_WRITE：表示内存段内的内容可写； PROT_EXEC：表示内存段中的内容可执行； PROT_NONE：表示内存段中的内容根本没法访问。需要注意的是，指定的内存区间必须包含整个内存页（通常为 4KB），区间开始的地址start必须是一个内存页的起始地址，并且区间长度len必须是页大小的整数倍。

利用 mprotect 函数，我们可以设置内存区域为只读或不可访问，当程序试图对该内存区域进行写操作时，就会触发段错误（Segmentation fault），从而帮助我们定位内存越界的位置。下面通过一个实际案例来理解 mprotect 函数的用法。

假设有一个程序，其中有一个数组可能存在被越界访问的风险，代码如下：

#include <stdio.h>
#include <stdlib.h>
#include <sys/mman.h>
#include <unistd.h>
#include <fcntl.h>
#include <sys/stat.h>
#include <sys/types.h>

#define ARRAY_SIZE 10
#define PAGE_SIZE 4096

int main() {
    int *array = (int*)malloc(ARRAY_SIZE * sizeof(int));
    if (array == NULL) {
        perror("malloc");
        return 1;
    }

    // 找到数组所在内存页的起始地址
    void *page_start = (void*)((unsigned long)array & ~(PAGE_SIZE - 1));

    // 设置内存页为只读
    if (mprotect(page_start, PAGE_SIZE, PROT_READ) == -1) {
        perror("mprotect");
        free(array);
        return 1;
    }

    // 模拟可能的内存越界操作
    for(int i = 0; i < ARRAY_SIZE + 5; i++) {
        array[i] = i;
    }

    free(array);
    return 0;
}

在这段代码中，我们首先使用malloc函数分配了一个包含 10 个整数的数组。然后，通过计算找到数组所在内存页的起始地址page_start，并使用mprotect函数将该内存页设置为只读。接着，在后续的循环中，我们故意尝试访问超出数组范围的元素，这会触发段错误。当程序运行到非法访问内存的位置时，就会因为违反内存保护属性而崩溃，并输出段错误信息，我们可以根据这些信息来定位内存越界的位置。

通过分析段错误信息，我们可以确定是在进行数组访问时发生了内存越界，从而有针对性地检查和修改代码。这种利用 mprotect 函数设置内存保护属性的方法，在一些复杂的程序中，对于快速定位内存越界问题非常有效。

二、分析内存越界：抽丝剥茧

2.1核心转储文件：解锁关键信息

当程序不幸遭遇内存越界导致崩溃时，核心转储文件（Core Dump File）就像是一位忠诚的 “记录者”，为我们保存了程序崩溃瞬间的重要信息，成为我们定位问题的关键线索。

在 Linux 系统中，默认情况下，核心转储功能可能是被禁用的，所以我们首先要确保它已启用。通过在终端输入ulimit -c命令可以检查当前的核心转储设置，如果输出为 0，那就表示核心转储功能未启用。要启用它，只需执行ulimit -c unlimited命令即可。

接下来，我们还可以设置核心转储文件的保存路径和命名规则，这可以通过修改/proc/sys/kernel/core_pattern文件来实现。比如，我们可以执行echo "/tmp/core-%e-%s-%u-%g-%p-%t" > /proc/sys/kernel/core_pattern命令，将核心转储文件命名规则修改为/tmp/core-可执行文件名-信号编号-用户ID-组ID-进程ID-时间戳。这样，当程序崩溃时，生成的核心转储文件就会按照我们设定的规则保存在指定路径下，方便我们查找和管理。

当程序崩溃生成了核心转储文件后，就轮到 GDB（GNU Debugger）大显身手了。GDB 是一款功能强大的调试工具，它可以帮助我们深入分析核心转储文件。假设我们的程序名为test，核心转储文件名为core.1234（其中 1234 为进程 ID），我们可以在终端输入gdb test core.1234命令来启动 GDB 并加载程序和核心转储文件。

进入 GDB 环境后，使用bt（backtrace）命令可以查看程序发生崩溃时的堆栈跟踪信息。堆栈跟踪信息就像是一张程序执行的 “路线图”，它会清晰地展示程序在崩溃前的函数调用顺序，帮助我们了解程序的执行流程，从而定位到错误发生的具体位置。例如，执行bt命令后，可能会得到如下输出：

#0 0x000000000040060D in main (test.c:8) 从这个输出中，我们可以得知错误发生在test.c文件的第 8 行，这样我们就能快速定位到问题代码所在。

除了查看堆栈跟踪信息，还可以使用info registers命令查看寄存器的值，寄存器中保存着程序运行时的关键数据，通过分析寄存器的值，我们可以了解程序在崩溃时的状态，进一步辅助我们分析问题。例如，执行info registers命令后，会输出各个寄存器的当前值，我们可以根据这些值来判断程序在崩溃时的执行情况。此外，使用print variable命令可以查看变量的值，这对于我们理解程序的运行逻辑和定位问题也非常有帮助。

2.2静态分析：代码审查的艺术

静态分析，也就是代码审查，是发现潜在内存越界问题的重要手段，它就像是一场对代码的 “全面体检”，通过仔细检查代码的逻辑和结构，找出其中可能存在的问题。

在进行代码审查时，检查数组边界是一个关键要点。在 C/C++ 等语言中，数组下标从 0 开始，我们必须确保对数组的访问都在合法的范围内。例如，对于一个定义为int array[10];的数组，其有效的下标范围是 0 到 9，如果出现array[10]这样的访问，就明显是越界了。在审查代码时，我们要仔细查看所有数组访问的地方，确保下标不会超出数组的大小。

指针操作也是代码审查中需要重点关注的部分。指针就像是一把 “双刃剑”，使用得当可以让程序更加灵活高效，但如果操作不当，就很容易引发内存越界等严重问题。我们要检查指针是否被正确初始化，避免出现未初始化就使用的情况。比如下面这段代码：

#include <stdio.h>

int main() {
    int *ptr;
    *ptr = 10;  // 未初始化的指针，会导致内存越界
    return 0;
}

在这段代码中，ptr是一个未初始化的指针，直接对其解引用并赋值，这是非常危险的，会导致内存越界错误。在代码审查时，要特别留意这类问题。

另外，还要注意指针的释放和重新分配。当使用malloc、calloc等函数分配内存后，一定要记得在不再使用时使用free函数释放内存，否则会导致内存泄漏。同时，如果在释放内存后继续使用该指针，就会产生 “野指针”，同样可能引发内存越界。例如：

#include <stdio.h>
#include <stdlib.h>

int main() {
    int *ptr = (int*)malloc(5 * sizeof(int));
    free(ptr);
    *ptr = 10;  // 释放内存后继续使用，会导致内存越界
    return 0;
}

在这个例子中，ptr指向的内存被释放后，它就变成了一个 “野指针”，再对其进行访问和赋值操作，就会引发内存越界错误。在代码审查时，要仔细检查这类内存分配和释放的逻辑，确保代码的正确性。

除了人工审查，还可以借助一些静态分析工具，如cppcheck、pclint等。这些工具可以自动扫描代码，发现潜在的内存越界问题以及其他一些常见的编程错误。例如，使用cppcheck工具检查代码时，它会输出详细的检查报告，指出可能存在问题的代码行和问题类型。虽然这些工具不能完全替代人工审查，但它们可以大大提高审查的效率和准确性，帮助我们发现一些人工容易忽略的问题。