x64架构下Linux系统函数调用

发布于 2020-12-16

分类计算机体系结构

标签 AT&T汇编

标签计算机体系结构

一、函数调用相关指令

关于栈可以看下我之前的这篇文章x86 CPU与IA-32架构

在开始函数调用约定之前我们需要先了解一下几个相关的指令

1.1 push

pushq 立即数 # q/l是后缀，表示操作对象的大小
pushl 寄存器

push指令将数据压栈。具体就是将esp(stack pointer)寄存器减去压栈数据的大小，再将数据存储到esp寄存器所指向的地址。

1.2 pop

popq 寄存器
popl 寄存器

pop指令将数据出栈并写入寄存器。具体就是将数据从esp寄存器所指向的地址加载到指令的目标寄存器中，再将esp寄存器加上出栈的数据的大小。

1.3 call

call 立即数
call 寄存器
call 内存

call指令会调用由操作数所代表的地址指向的函数，一般都是call一个符号。call指令会将当前指令寄存器中的内容（即这条call指令下一条指令的地址，也就是函数执行完的返回地址）入栈，然后跳到函数对应的地址开始执行。

1.4 ret

ret指令用于从子函数中返回，ret指令会先弹出当前栈顶的数据，这个数据就是先前调用这个函数的call指令压入的“下一条指令的地址”，然后跳转到这个地址执行。

1.5 leave

leave相当于执行了movq %rbp, %rsp; popq %rbp，即释放栈帧。

二、函数调用约定

函数调用约定约定了caller如何传参即将实参放到何处，应该按照何种顺序保存，以及callee如何返回返回值即将返回值放到何处。

x86的32位机器之上C语言一般是通过栈来传递参数，且一般都是倒序push，即先push最后一个参数再push倒数第二个参数，并通过ax寄存器返回结果，这称为cdecl调用约定（C有三种调用约定，linux系统中使用cdecl），Go与之类似但是区别在于Go通过栈来返回结果，所以Go支持多个返回值。

x64架构中增加了8个通用寄存器，C语言采用了寄存器来传递参数，如果参数超过。在x64系统默认有System V AMD64和Microsoft x64两种C语言函数调用约定，System V AMD64实际是System V AMD64 ABI文档的一部分，类UNIX系统多采用System V的调用约定。

System V AMD64 ABI文档地址https://software.intel.com/sites/default/files/article/402129/mpx-linux64-abi.pdf

本文主要讨论x64架构下Linux系统的函数调用约定即System V AMD64调用约定。

三、 x64架构下Linux系统函数调用

3.1 如何传递参数

System V AMD64调用约定规定了caller将第1-6个整型参数分别保存到rdi、rsi、rdx、rcx、r8、r9寄存器中，第7个及之后的整型参数从右往左倒序的压入栈中。前8个浮点类型的参数放到xmm0-xmm7寄存器中，之后的浮点类型的参数从右往左倒序的压入栈中。

3.2 如何返回返回值

对于整型返回值要保存到rax寄存器中，浮点型返回值保存到xmm0寄存器中。

3.3 栈的对齐问题

System V AMD64要求栈必须按照16字节对齐，就是说在通过call指令调用目标函数之前栈顶指针即rsp指针必须是16的倍数。之所以要按照16字节对齐是因为x64架构引入了SSE和AVX指令，这些指令要求必须从16的整数倍地址取数，为了兼顾这些指令所以就要求了16字节对齐。

3.4 变长参数

这部分没看懂，待后续发掘。

四、实际案例分析

4.1 案例1

看下下面这段C代码

unsigned long long foo(unsigned long long param1, unsigned long long param2) {
    unsigned long long sum = param1 + param2;
    return sum;
}

int main(void) {
    unsigned long long sum = foo(8589934593, 8589934597);
    return 0;
}

uname -a: Linux xxx 3.10.0-514.26.2.el7.x86_64 #1 SMP Tue Jul 4 15:04:05 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux gcc -v: gcc 版本 4.8.5 20150623 (Red Hat 4.8.5-39) (GCC)

转为汇编代码，gcc -S call.c ：

    .file   "call.c"
    .text
    .globl  foo
    .type   foo, @function
foo:
.LFB0:
    .cfi_startproc
    pushq   %rbp
    .cfi_def_cfa_offset 16
    .cfi_offset 6, -16
    movq    %rsp, %rbp
    .cfi_def_cfa_register 6
    movq    %rdi, -24(%rbp)
    movq    %rsi, -32(%rbp)
    movq    -32(%rbp), %rax
    movq    -24(%rbp), %rdx
    addq    %rdx, %rax
    movq    %rax, -8(%rbp)
    movq    -8(%rbp), %rax
    popq    %rbp
    .cfi_def_cfa 7, 8
    ret
    .cfi_endproc
.LFE0:
    .size   foo, .-foo
    .globl  main
    .type   main, @function
main:
.LFB1:
    .cfi_startproc
    pushq   %rbp
    .cfi_def_cfa_offset 16
    .cfi_offset 6, -16
    movq    %rsp, %rbp
    .cfi_def_cfa_register 6
    subq    $16, %rsp
    movabsq $8589934597, %rsi
    movabsq $8589934593, %rdi
    call    foo
    movq    %rax, -8(%rbp)
    movl    $0, %eax
    leave
    .cfi_def_cfa 7, 8
    ret
    .cfi_endproc
.LFE1:
    .size   main, .-main
    .ident  "GCC: (GNU) 4.8.5 20150623 (Red Hat 4.8.5-39)"
    .section    .note.GNU-stack,"",@progbits

我们先看main函数的汇编代码，main函数中首先执行了三条指令：

pushq   %rbp # 将当前栈基底地址压入栈中
movq    %rsp, %rbp # 将栈基底地址修改为栈顶地址
subq    $16, %rsp # 栈顶地址-16，栈扩容，这里没搞懂为什么要扩容，有懂的同学欢迎评论区指点下

这三条指令是用来分配栈帧的，执行完成后栈变成下方的样子：继续往下看：

movabsq $8589934597, %rsi # 先将第二个参数保存到rsi寄存器
movabsq $8589934593, %rdi # 再将第一个参数保存到rdi寄存器
call foo # 调用foo函数，这一步会将下一条指令的地址压到栈上

执行完call foo指令后，栈的情况如下：

然后我们跳到foo函数中看下：

pushq   %rbp # 将当前栈基底地址压入栈中
movq    %rsp, %rbp # 将栈基底地址修改为栈顶地址

开头仍然是建立栈帧的指令，执行完成后，此时栈帧的样子如下：

继续往下看：

movq    %rdi, -24(%rbp)
movq    %rsi, -32(%rbp)
movq    -32(%rbp), %rax # 将第二个参数保存到rax寄存器
movq    -24(%rbp), %rdx # 将第一个参数保存到rdx寄存器
addq    %rdx, %rax # 执行加法并将结果保存在rax寄存器
movq    %rax, -8(%rbp) 
movq    -8(%rbp), %rax # 将返回值保存到rax寄存器

这里没搞懂为什么需要先挪到内存中再保存到rax寄存器上，可能是编译器实现起来比较方便吧，有懂的同学欢迎评论区指点下

此时栈情况： foo函数最后执行了以下两条指令：

popq    %rbp # 将栈顶值pop出来保存到rbp寄存器，即修改栈基底地址为当前栈顶值，同时栈顶指针-8
ret # 从子函数中返回到main函数中

最终结果如图：

4.2 案例2

我们修改下函数foo，使它接收9个参数验证下上面的理论。

unsigned long long foo(unsigned long long param1, unsigned long long param2, unsigned long long param3, unsigned long long param4, unsigned long long param5, unsigned long long param6, unsigned long long param7, unsigned long long param8, unsigned long long param9) {
    unsigned long long sum = param1 + param2;
    return sum;
}

int main(void) {
    unsigned long long sum = foo(8589934593, 8589934597, 3, 4,5,6,7,8,9);
    return 0;
}

编译为汇编后：

foo:
.LFB0:
    .cfi_startproc
    pushq   %rbp
    .cfi_def_cfa_offset 16
    .cfi_offset 6, -16
    movq    %rsp, %rbp
    .cfi_def_cfa_register 6
    movq    %rdi, -24(%rbp)
    movq    %rsi, -32(%rbp)
    movq    %rdx, -40(%rbp)
    movq    %rcx, -48(%rbp)
    movq    %r8, -56(%rbp)
    movq    %r9, -64(%rbp)
    movq    -32(%rbp), %rax
    movq    -24(%rbp), %rdx
    addq    %rdx, %rax
    movq    %rax, -8(%rbp)
    movq    -8(%rbp), %rax
    popq    %rbp
    .cfi_def_cfa 7, 8
    ret
    .cfi_endproc
.LFE0:
    .size   foo, .-foo
    .globl  main
    .type   main, @function
main:
.LFB1:
    .cfi_startproc
    pushq   %rbp
    .cfi_def_cfa_offset 16
    .cfi_offset 6, -16
    movq    %rsp, %rbp
    .cfi_def_cfa_register 6
    subq    $40, %rsp
    movq    $9, 16(%rsp) # 后6个参数放到栈上
    movq    $8, 8(%rsp)
    movq    $7, (%rsp)
    movl    $6, %r9d # 前6个参数分别使用rdi rsi rdx ecx r8 r9寄存器
    movl    $5, %r8d
    movl    $4, %ecx
    movl    $3, %edx
    movabsq $8589934597, %rsi
    movabsq $8589934593, %rdi 
    call    foo
    movq    %rax, -8(%rbp)
    movl    $0, %eax
    leave
    .cfi_def_cfa 7, 8
    ret

五、参考资料

...

阅读全文 »

x86 CPU与IA-32架构

发布于 2020-11-06

分类计算机体系结构

标签 AT&T汇编

标签计算机体系结构

x86 CPU

现代计算机使用的CPU大部分都是x86CPU，包括现在牙膏厂的酷睿。x86系列CPU的原型是Intel 1978年推出的8086 CPU

32位CPU

368是x86系列第一款32位CPU，Pentium4是Intel第一款64位CPU。“xx位CPU“的定位比较模糊，但一般要满足以下两个条件：

具备n位宽的通用寄存器
具备n位以上的地址空间

“通用寄存器”是寄存器中用于整数运算等的通用的寄存器，地址空间是指进程虚拟地址的全体范围。

指令集

多种多样的CPU有着不同的架构和速度，存在很大的差异，但尽管有这些差异一般386和Core 2都可以统称为x86CPU，这是因为386和Core 2能够执行相同的机器语言的指令。如果只是使用386指令编写的程序，在386和Core 2上都是可以跑的。像这样不同的CPU都能解释的机器语言的体系称为 指令集架构（ISA, Instruction Set Architecture） ，简称 指令集 。 Intel将x86系列CPU之中的32位CPU的指令集架构称为IA-32。IA是“Intel Architecture”。

IA-32的变迁

随着CPU技术的不同发展，CPU支持的指令越来越多，IA-32中指令增加的非常多。首先486中增加了非常重要的指令。从486的486DX型号开始加入了 浮点数运算单元(FPU,Floating Point number Processing Unit) 支持浮点数计算。486DX所支持的浮点数运算指令称为 x87FPU指令(x87 FPU instuctions)。 386也能够支持浮点数运算，但必须添加名为387的FPU。也就是说配置有387的机器与没有配置387的机器支持的指令是不同的。所添加的其他重要的指令还有 MMX和SSE(Streaming SIMD Extensions) 。两者都是为了支持并行处理多条数据的扩展指令。例如用通常的IA-32指令进行加法运算时一次只能执行一次加法运算，但使用MMX和SSE的加法指令可以同时执行多个运算。

IA-32的64位扩展: AMD64

AMD曾先于Intel提出x86系列的64位扩展，并推出了相应的产品。由AMD设计的x86位指令集架构称为AMD64。
Intel随后在自己的CPU中加入了和AMD64几乎相同的名为Intel64的指令集。Pentium4后期的版本和Core 2的后续产品都是基于Intel64指令集架构的。
要统称AMD64和Intel64时可以试用独立于公司名称的用语：x86-64。另外，Windows中将AMD64对应的架构称为x64。
Intel曾与HP一起开发名为IA-64的指令集架构，IA-64与IA-32架构完全不兼容。Intel推出的Itanium处理器是基于IA-64架构的。

IA-32的概要

IA-32中主要寄存器如下图：

通用寄存器 (generic register)是编程时使用频率最高的寄存器，宽度为32位的通用寄存器有eax、ebx、ecx、edx、esi、esp、ebp共8个，用于整数运算和指针处理。

指令指针 (instruction pointer) 是存放下一条要执行的代码的地址的寄存器，IA-32的指令指针为32位，称为eip。

标志寄存器 (flag register) 用于保存CPU的运行模式及表示运算状态等的标志的寄存器。 浮点数寄存器 (floating point number register) 是存放浮点数的寄存器，用于浮点数的计算。IA-32中从st0到st7有8个宽度为80位的浮点数寄存器。

MMX寄存器 (MMX register) 是MMX指令用的寄存器。MMX Pentium以及Pentiunm Ⅱ之后的CPU中有从mm0到mm7共8个64位的寄存器。但实际上MMX寄存器和浮点数寄存器是共用的，即无法同时使用浮点数寄存器和MMX寄存器。

XMM寄存器 (XMM register) 是SSE指令指令用的寄存器。Pentium Ⅲ以及之后的CPU中提供了xmm0到xmm7共8个128位宽的XMM寄存器。XMM寄存器和MMX寄存器不同，是独立的寄存器不和浮点数寄存器共用。另外 mxcsr寄存器 是表示SSE指令的运算状态的寄存器。

除上述寄存器外还有写OS内核时用到的 系统寄存器 和debug时用到的 debug寄存器 以及32位环境下用不到的段寄存器。

通用寄存器

名称由来

寄存器	名称的由来	翻译
eax	accumulator	累加器，很多加法乘法指令的缺省寄存器
ebx	base regiter	基底寄存器，在内存寻址时存放基地址
ecx	count register	计数寄存器，是重复(REP)前缀指令和LOOP指令的内定计数器
edx	data register	数据暂存寄存器，总是被用来放整数除法产生的余数
esi	source index	源索引寄存器
edi	destination index	目标索引寄存器
ebp	base point	基址指针,经常被用作高级语言函数调用的frame pointer
esp	stack pointer	用作堆栈指针，称为栈顶指针

ebp和esp寄存器一般用来实现机器栈，其他寄存器原则上可以随便用。

通用寄存器的宽度都为32位，它们的一部分可以当做16位/8位寄存器使用。例如可以当eax寄存器中的低16位当做16位寄存器ax来访问，还可以将ax寄存器的高8位当做ah寄存器，低8位当做al寄存器。

栈

IA-32中各进程的一部分地址空间被当做栈来使用，主要用于保存函数的临时变量和参数。栈的位置因OS而已，IA-32 Linux平台上，栈位于各进程地址空间中靠近3GB位置。即栈是从高地址向低地址进行延伸。

IA-32中用栈指针(stack pointer)来表示栈，栈指针(esp寄存器)是存放栈顶地址的寄存器

栈的操作

举个例子如果我们要向栈中压一个4字节的整数17，整个操作步骤就是先将esp寄存器-4（栈从高地址向低地址进行延伸的），然后将整数保存到esp寄存器指向的内存地址中。

出栈则正好相反，首先从esp寄存器指向的内存地址中将数据加载出来，并将esp寄存器+4。

栈帧

栈并不是连续的一整块，栈是根据每一个函数分开管理的，我们将管理单个函数数据的栈的领域称为栈帧(stack frame)。如果有这样一个程序：main函数调用函数f,f调用函数g,那么这个程序在执行g时的栈就会是下图这样：

ebp寄存器总是指向当前函数栈的栈底，栈帧的顶部与当前进程的栈顶是相同的，esp寄存器总是指向栈帧的顶部。其他架构中一般将具有和基址指针相同功能的指针称为帧指针(frame pointer)。

一个栈帧中通常保存一下信息：

临时变量
源函数执行中的代码地址(返回地址)
函数的参数在每个栈帧上存储上述信息的具体步骤是由函数的调用约定(calling convention)决定的，各个CPU、操作系统的函数调用约定是不同的。

指令指针

指令指针(instruction pointer)是存放下一条要执行的指令的地址的寄存器。CPU从该寄存器所指向的内存地址中获取下一条指令并执行，同时将指令指针推到下一条指令，可以通过跳转指令来改变指令指针的值。

根据架构的不同，有时将指令指针称为程序计数器(program counter, pc)。

标志寄存器

eflags是32位寄存器，CPU的运行模式以及运算相关的信息等都以1个bit的形式存在该寄存器中。

标志有以下三类：

表示运算结果的状态标志(status flag)
用于运算控制的控制标志(control flag)
用于控制计算器整体运行的系统标志(system flag)

一般程序中可用的只有状态标志和控制标志，系统标志再写OS时会用到，用户模式的进程不能修改系统标志，否则会报没有权限的错误。

这些标志位一般与跳转指令配合使用。

字节序

32位即4个字节数据的二进制表现形式如下：

MSB（Most Significant Bit）指向最高位，LSB(Least Significant Bit)指向最低位。而在内存中先放MSB所在的字节还是先放LSB所在的字节是由CPU的类型决定的，先放MSB所在字节的架构称为大端(big endian),先放LSB所在字节的架构称为小端(little endian)。通过网络传输超过2个字节数据时一般使用大端的方式，所以大端也被称为网络字节序(network byte order)。

本文摘自

How to develop a compiler

...

阅读全文 »

GNU 汇编器的语法

发布于 2020-09-13

分类汇编

标签 AT&T汇编

标签编译器

标签计算机体系结构

学习汇编语法的目的

为什么要学习汇编语法呢？原因是我最近在做一个面向对象语言的编译器（地址：https://github.com/Orlion/Mizar），目前已经完成了parser部分，即已经生成了AST，下一步要做的就是语义分析了，而语义分析之后要做的就是生成AT&T汇编代码了，所以有必要提前了解下汇编语法看在语义分析的实现阶段能否有所指导。

先看一段代码

首先我们有这样一段c语言代码：

#include <stdio.h>

char msg[14] = "Hello,world!\n";
 
int main(void)
{
    puts(msg);
    return 0;
}

运行 gcc -S -Os hello.c

    .file   "hello.c"
    .section    .text.startup,"ax",@progbits
    .globl  main
    .type   main, @function
main:
.LFB0:
    .cfi_startproc
    pushq   %rax
    .cfi_def_cfa_offset 16
    movl    $msg, %edi
    call    puts
    xorl    %eax, %eax
    popq    %rdx
    .cfi_def_cfa_offset 8
    ret
    .cfi_endproc
.LFE0:
    .size   main, .-main
    .globl  msg
    .data
    .align 8
    .type   msg, @object
    .size   msg, 14
msg:
    .string "Hello,world!\n"
    .ident  "GCC: (GNU) 4.8.5 20150623 (Red Hat 4.8.5-39)"
    .section    .note.GNU-stack,"",@progbits

接下来解释下AT&T汇编的语法

指令

指令是直接由CPU负责处理的命令，不以.开头的行首缩进的行都是指令行。

    movl    $msg, %edi
    call    puts
    xorl    %eax, %eax

指令由操作符和作为参数的操作数组成，以 movl $msg, %edi 为例，movl 为操作符， $msg 和 %edi 为操作数，操作数以逗号来间隔。

汇编伪操作

以 . 开头末尾没有:的行都是汇编伪操作。例如，.file "hello.c", .globl main。汇编伪操作是由汇编器而非CPU处理的指令。一般用于在目标文件中记录元数据（meta data）或者设定指定的属性等。例如 .string 是用来定义字符串常量的汇编伪操作。

标签(labal)

以冒号: 结尾的行都是标签行，例如：.LFB0:,main:。标签具有为汇编伪操作生成的数据或者指令命名(标上符号)的功能，这样就可以在其他地方调用通过标签定义的符号。标签可以以.开头

注释

支持两种注释：

# xxx

/* xxx
xxx */

助记符后缀

刚才提到的movl和subl为助记符，更准确的说mov和sub为助记符，末尾的l是后缀，l是long的缩写，表示操作对象的数据大小。类似这样的后缀还有b,w,l。

后缀	操作对象的大小	缩写
b	8位	byte
w	16位	word
l	32位	long

操作数

操作数有四种：

立即数
寄存器
直接内存引用
间接内存引用

1. 立即数

立即数就是C语言中的字面量，机器语言中立即数以整数的形式出现，能高速访问。像$27这样，立即数用$来标识，如果漏掉了$就成了直接内存引用了。立即数有8位，16位，32位。

2. 寄存器

GUN汇编器规定寄存器以%开头，例如eax寄存器写作%eax

3. 直接内存引用

直接访问固定内存地址的方式。GNC汇编器会将任何整数解释为内存地址并访问。比起使用数字，更常用符号(symbol)直接访问内存。例如.LFE0就是访问符号.LFE0所指向的地址。符号在汇编和链接的过程中会被置换为实际内存地址。

4. 间接内存引用

是将寄存器的值作为内存地址访问的方式。间接内存引用中最通用的就是下方的形式：

disp(base, index, scale)

其中任何一者都可以省略。

上述指令访问disp + (base + index * scale)的地址。下面详细讲解，首先最简单的间接引用的形式如下：

(%eax)

即只指定基地址(base)的形式。上述表达式将eax寄存器中的值作为内存地址访问。接着带有disp的形式如下。disp是displacement(偏移)的简称。

4(%eax)

上述就是访问 4 + (eax寄存器中值) 这个内存地址。在C语言中用来访问如下结构体中成员y的情况：

struct point {
    int x; // x占4个字节，即4个内存地址
    int y;
}

最后使用index和scale的情况如下所示：

(%ebx, %eax, 4)

上面访问的就是(ebx寄存器中的值 + eax寄存器中的值 * 4)内存地址。在C语言中用来访问数组，例如访问元素大小为4字节（例如int）的数组中元素的第%ebx个元素时就可以用这种方式。当并非所有的数组访问都可以只靠间接内存引用来表示，因为scale只能是1、2、4、8之一。

2020-09-22更

突然意识到如果要将一个复杂工程的AST编译为汇编代码必须具备能够用汇编实现这个复杂工程的能力才行，这太难了… 所以暂时放弃吧，先编译到了LLVM IR再说，嗯。

2020-10-07更

不如趁此机会学习下汇编以及后续的链接装载，有助于建立宏观的了解。所以还是继续学习吧。 😸

未完待续…

...

阅读全文 »

一、 函数调用相关指令

1.1 push

1.2 pop

1.3 call

1.4 ret

1.5 leave

二、 函数调用约定

三、 x64架构下Linux系统函数调用

3.1 如何传递参数

3.2 如何返回返回值

3.3 栈的对齐问题

3.4 变长参数

四、 实际案例分析

4.1 案例1

4.2 案例2

五、 参考资料

x86 CPU

32位CPU

指令集

IA-32的变迁

IA-32的64位扩展: AMD64

IA-32的概要

通用寄存器

栈

栈的操作

栈帧

指令指针

标志寄存器

字节序

本文摘自

学习汇编语法的目的

先看一段代码

指令

汇编伪操作

标签(labal)

注释

助记符后缀

操作数

1. 立即数

2. 寄存器

3. 直接内存引用

4. 间接内存引用

2020-09-22更

2020-10-07更

一、函数调用相关指令

二、函数调用约定

四、实际案例分析

五、参考资料