使用Ptrace去拦截和仿真Linux系统调用

发布时间：2018-08-25 17:42 所属栏目：117 来源：Chris Wellons

导读：ptrace(2) （进程跟踪 process trace ）系统调用通常都与调试有关。它是类 Unix 系统上通过原生调试器监测被调试进程的主要机制。它也是实现 strace（系统调用跟踪 system call trace ）的常见方法。使用 Ptrace，跟踪器可以暂停被跟踪进程，检查和设置

ptrace(2)（“进程跟踪process trace”）系统调用通常都与调试有关。它是类 Unix 系统上通过原生调试器监测被调试进程的主要机制。它也是实现 strace（系统调用跟踪system call trace）的常见方法。使用 Ptrace，跟踪器可以暂停被跟踪进程，检查和设置寄存器和内存，监视系统调用，甚至可以拦截intercepting系统调用。

通过拦截功能，意味着跟踪器可以篡改系统调用参数，篡改系统调用的返回值，甚至阻塞某些系统调用。言外之意就是，一个跟踪器本身完全可以提供系统调用服务。这是件非常有趣的事，因为这意味着一个跟踪器可以仿真一个完整的外部操作系统，而这些都是在没有得到内核任何帮助的情况下由 Ptrace 实现的。

问题是，在同一时间一个进程只能被一个跟踪器附着，因此在那个进程的调试期间，不可能再使用诸如 GDB 这样的工具去仿真一个外部操作系统。另外的问题是，仿真系统调用的开销非常高。

在本文中，我们将专注于 x86-64 Linux 的 Ptrace，并将使用一些 Linux 专用的扩展。同时，在本文中，我们将忽略掉一些错误检查，但是完整的源代码仍然会包含这些错误检查。

本文中的可直接运行的示例代码在这里：https://github.com/skeeto/ptrace-examples

strace

在进入到最有趣的部分之前，我们先从回顾 strace 的基本实现来开始。它不是 DTrace，但 strace 仍然非常有用。

Ptrace 一直没有被标准化。它的接口在不同的操作系统上非常类似，尤其是在核心功能方面，但是在不同的系统之间仍然存在细微的差别。ptrace(2) 的原型基本上应该像下面这样，但特定的类型可能有些差别。

long ptrace(int request, pid_t pid, void *addr, void *data);

pid 是被跟踪进程的 ID。虽然同一个时间只有一个跟踪器可以附着到该进程上，但是一个跟踪器可以附着跟踪多个进程。

request 字段选择一个具体的 Ptrace 函数，比如 ioctl(2) 接口。对于 strace，只需要两个：

PTRACE_TRACEME：这个进程被它的父进程跟踪。
PTRACE_SYSCALL：继续跟踪，但是在下一下系统调用入口或出口时停止。
PTRACE_GETREGS：取得被跟踪进程的寄存器内容副本。

另外两个字段，addr 和 data，作为所选的 Ptrace 函数的一般参数。一般情况下，可以忽略一个或全部忽略，在那种情况下，传递零个参数。

strace 接口实质上是前缀到另一个命令之前。

$ strace [strace options] program [arguments]

最小化的 strace 不需要任何选项，因此需要做的第一件事情是 —— 假设它至少有一个参数 —— 在 argv 尾部的 fork(2) 和 exec(2) 被跟踪进程。但是在加载目标程序之前，新的进程将告知内核，目标程序将被它的父进程继续跟踪。被跟踪进程将被这个 Ptrace 系统调用暂停。

pid_t pid = fork();
switch (pid) {
    case -1: /* error */
        FATAL("%s", strerror(errno));
    case 0:  /* child */
        ptrace(PTRACE_TRACEME, 0, 0, 0);
        execvp(argv[1], argv + 1);
        FATAL("%s", strerror(errno));
}

父进程使用 wait(2) 等待子进程的 PTRACE_TRACEME，当 wait(2) 返回后，子进程将被暂停。

waitpid(pid, 0, 0);

在允许子进程继续运行之前，我们告诉操作系统，被跟踪进程和它的父进程应该一同被终止。一个真实的 strace 实现可能会设置其它的选择，比如： PTRACE_O_TRACEFORK。

ptrace(PTRACE_SETOPTIONS, pid, 0, PTRACE_O_EXITKILL);

剩余部分就是一个简单的、无休止的循环了，每循环一次捕获一个系统调用。循环体总共有四步：

等待进程进入下一个系统调用。
输出系统调用的一个描述。
允许系统调用去运行并等待返回。
输出系统调用返回值。

这个 PTRACE_SYSCALL 请求被用于等待下一个系统调用时开始，和等待那个系统调用退出。和前面一样，需要一个 wait(2) 去等待被跟踪进程进入期望的状态。

ptrace(PTRACE_SYSCALL, pid, 0, 0);
waitpid(pid, 0, 0);

当 wait(2) 返回时，进行了系统调用的线程的寄存器中写入了该系统调用的系统调用号及其参数。尽管如此，操作系统仍然没有为这个系统调用提供服务。这个细节对后续操作很重要。

接下来的一步是采集系统调用信息。这是各个系统架构不同的地方。在 x86-64 上，系统调用号是在 rax 中传递的，而参数（最多 6 个）是在 rdi、rsi、rdx、r10、r8 和 r9 中传递的。这些寄存器是由另外的 Ptrace 调用读取的，不过这里再也不需要 wait(2) 了，因为被跟踪进程的状态再也不会发生变化了。

struct user_regs_struct regs;
ptrace(PTRACE_GETREGS, pid, 0, &regs);
long syscall = regs.orig_rax;
 
fprintf(stderr, "%ld(%ld, %ld, %ld, %ld, %ld, %ld)",
        syscall,
        (long)regs.rdi, (long)regs.rsi, (long)regs.rdx,
        (long)regs.r10, (long)regs.r8,  (long)regs.r9);

这里有一个警告。由于内核的内部用途，系统调用号是保存在 orig_rax 中而不是 rax 中。而所有的其它系统调用参数都是非常简单明了的。

（编辑：ASP站长网）