理解内存对齐

发布于 2020-11-04

分类计算机体系结构

标签 Go

标签编译器

标签计算机体系结构

相信大家都听说过内存对齐的概念，不过这里还是通过一个现象来引出本篇话题。

一、求一个结构体的size

猜下下面这个结构体会占用多少字节

type S struct {
    B byte  // Go中一个byte占1字节，int32占4个字节，int64占8个字节
    I64 int64
    I32 int32
}

是不是以为是1+8+4 = 13个字节？写段代码验证下：

type S struct {
	B   byte
	I64 int64
	I32 int32
}

func main() {
	s := S{}
	fmt.Printf("s size:%d\n", unsafe.Sizeof(s))
}

输出：

s size:24

与预想显然不同，这是为什么呢？答案是编译器替我们做了内存对齐。

二、什么是内存对齐

要理解这个问题需要先了解一下字长的概念以及内存的物理结构

2.1 字长

在计算器领域，对于某种特定的计算机设计而言，字（word）是用于表示其自然的数据单位的术语。在这个特定计算机中，字是其用来一次性处理事务的一个固定长度的位（bit）组。一个字的位数即为字长。

字长在计算机结构和操作的多个方面均有体现，计算机中大多数寄存器（这里应该是指通用寄存器）的大小是一个字长。

上面这段话可能太过于概念化不太好理解，那么请看下面的这段64位机器上的GUN汇编器语法的汇编代码：

movq (%ecx) %eax

这段汇编代码是将eax这个寄存器中的数据作为地址访问内存，并将内存中的数据加载到eax寄存器中。

我们可以看到mov指令的后缀是q，意味着该指令将加载一个64位的数据到eax寄存器中，这样一条指令可以操作一个64位的数据，说明该机器的字长为64位，同时这段代码能够执行则说明我们机器上的CPU中的eax寄存器必定是64位的，而一条指令能够从内存中加载一个64位的数据也说明了数据总线的位宽也为64位，说明了我们的CPU可以一次从内存中加载8个字节的数据。

2.2 64位内存物理结构

内存是由若干个黑色颗粒组成的，每个内存颗粒叫做一个chip，每个chip是由8个bank组成，每个bank是二维平面上的矩阵，矩阵中的每个元素保存1个字节也就是8个bit。

对于内存中连续的8个字节比如0x0000-0x0007，并非位于一个bank上，而是位于8个bank上，每个bank保存一个字节，8个bank像是垂直叠在一起，物理上它们并不是连续的。之所以这样设计是基于电路工作效率考虑，这样的设计可以并行取8个字节的数据，如果想取址0x0000-0x0007，每个bank只需要工作一次就可以取到，IO效率比较高，如果这8个字节在同一个bank上则需要串行读取该bank8次才能取到。

结合上面的结构图可以看到0x0000-0x0007是一列，0x0008-0x000F是另外一列，如果从内存中取8-15字节的数据也可以一次取出来，但如果我们要取1-9的数据就需要先取0-7的数据，再取8-15的数据然后拼起来，这样的话就会产生两次内存IO。所以基于性能的考虑某些CPU会强制只能读取8的倍数的内存，而这也导致了编译器再此类平台上编译时必须做内存对齐。

2.3 Cacheline

CPU通常会将Cacheline size个字节一次加载到高速缓存中(即L1、L2、L3缓存)。这部分内容我后续会写一篇博客专门介绍下CPU高速缓存结构。

2.4 再来看结构体size的问题

以下均以64位平台，即：64位宽内存以及64位cpu(数据总线64位，寄存器64位)、cacheline size=64byte为前提

type S struct {
    B byte
    I64 int64
    I32 int32
}

在不了解内存对齐前我们可能会简单以为结构体在内存中可能是这样排列的：总共占用13个字节。我们可以看到 I64 这个字段的内存地址是1-8，而在64位平台上为了将这个字段加载到寄存器中，CPU需要两次内存IO。
但做内存对齐后：总共占用20个字节，I64这个字段的内存地址是8-15，为了将这个字段加载到寄存器中，只需要一次内存IO即可。我们写段代码验证下是否真的占用了20个字节：

type S struct {
	B   byte
	I64 int64
	I32 int32
}

func main() {
	s := S{}
	fmt.Printf("s size: %d, align: %d\n", unsafe.Sizeof(s), unsafe.Alignof(s))
}

输出：

s size: 24, align: 8

程序输出了24，而非上面我们以为的20，这是怎么回事呢？原因是结构体本身也必须要做对齐，它必须在后面再额外占用4个字节以使自己的size为8的倍数。

上面的结构体如果后面跟一个4字节的变量的话理论上说不用对齐也能保证一次内存IO就可加载，所以结构体对齐的根本原因目前我还不是特别能理解，可能为编译器做的优化，了解的同学欢迎在评论区指点一下

我们再调整下结构体的声明：

type S struct {
    B byte
    I32 int32
    I64 int64
}

再做内存对齐的话该结构体在内存中应该就是下面这个样子了：这时总共占用16个字节，相比较上面我们节省了8个字节。写段代码验证下：

type S struct {
	B   byte
	I32 int32
	I64 int64
}
func main() {
	s := S{}
	fmt.Printf("s size:%v, s.B地址:%v, s.I32地址:%v, s.I64地址:%v\n", unsafe.Sizeof(s), &s.B, &s.I32, &s.I64)
}

输出结果:

s size:16, s.B地址:0xc0000b4010, s.I32地址:0xc0000b4014, s.I64地址:0xc0000b4018

确实占用了16字节，但貌似I32这个字段跟我们预想的不太一样，它被对齐到了4的倍数地址上，而非紧跟在B后边，这大概是编译器编译一套代码可以运行在32位又可以运行在64位平台上吧，目前没有查到相关资料姑且这么认为吧。

参考资料

字 (计算机)

带你深入理解内存对齐最底层原理

...

阅读全文 »

LR分析中shift/reduce reduce/reduce冲突解决方案SLR(1)与LR(1)

发布于 2020-09-19

分类编译器

标签编译器

此篇文章要求读者对编译原理前端部分有一定了解此篇文章中，我们以大写英文作为非终结符，小写英文作为终结符

1. LR(0)分析法简述

LR分析法从左至右移进输入的终结符（词法分析器的输出实际是token，但在语法分析阶段会代表是一个终结符），并将终结符压入到堆栈，称为shift。如果当前栈上的符号恰好符合某个非终结符的生成式，则此时进行归约操作：将这些符号弹出栈，然后将规约后的非终结符压入堆栈，这一步就称为reduce。然后继续上面的步骤，直到没有输入。
如果最终栈上只有一个非终结符，且该非终结符就是目标符号，那证明识别成功，否则识别失败。
名称LR得名于：从左(Left)到右扫描（L）,反向（Reverse）最右推导（R）。

2. LR(0)分析法的不足

上面描述的算法存在一个问题，我们以下面的语法为例说明：

// 例1
B : A c
A : b d
  | b

对于上面的语法，当语法分析器遇到终结符b时，面临着两个选择，一个是继续移进下一个终结符，一个是使用生成式A : b进行归约。这种情况称为shift/reduce冲突。
继续看下面一个例子：

// 例2
A : b
C : b
D : A a
E : C d

对于上面的语法，当语法分析器遇到终结符b时，面临着两个选择，一个是根据A : b，归约为A，另一个选择是使用生成式C : b进行归约。这种情况称为reduce/reduce冲突。

因为这两种冲突的存在导致了LR(0)分析法在实际语法分析中基本不可用，必须找到解决这两种冲突的方案才行，那么如何这两种冲突呢？

3. SLR(1)

对于这两种冲突，我们首先先看一种简单的解决方案：SLR(1) (Simple LR)分析法。
SLR(1)分析法首先求出所有非终结符的Follow Set，即跟在非终结符之后的所有终结符的集合，然后前瞻一个符号（即从词法分析器中预先读入下一个终结符），如果该前瞻符号在一个非终结符的Follow Set中，就根据此非终结符的生成式进行归约。

我们以上面的例2为例，SLR(1)分析器先求出A的Follow Set为{a},C的Follow Set为{b}，假设当前输入为b a，输入b之后，语法分析器面临选择：归约到A or 归约到C，此时分析器前瞻一个符号即c，由于c属于A的Follow Set，所以分析器选择归约到A。

上面的例1也可以通过此算法解决shift/reduce冲突。

遗憾的是SLR(1)依然存在问题，这里举个例子就清楚了：

// 例3
T : S
S : aAd
S : bAc
S : aec
S : bed
A : e

首先求出各个非终结符的Follow Set:

Follow(T) = {}
Follow(S) = {}
Follow(A) = {d, c}

我们假设当前的输入为a e c, 当输入e时，SLR(1)分析器面临两个选择：继续移进下一个符号 or 根据A : e归约到A，此时SLR(1)分析器前瞻符号c，c存在于Follow(A)中，但此时又可以选择移进c，所以SLR(1)此时又面临着冲突了。

SLR(1)不足之处在于Follow Set太宽泛，处于Follow Set中的前瞻符号不一定能合法的跟在非终结符之后。实际上SLR(1)忽略了分析的上下文，针对SLR(1)的不足由提出了LR(1)分析法。

4. LR(1)

LR(1)的基本原理就是只要前瞻符号能合法跟在归约的非终结符之后就可以进行归约，LR(1)会为每个生成式绑定一个** LookAhead Set**，只有前瞻符号处于这个集合之中才进行归约，它是Follow Set的子集。那么LookAhead Set如何生成呢？

4.1 LookAhead Set生成

我们将生成式一般化为下面的样子：

s -> α .x β， C 
x -> . r

其中 s,x都是非终结符，α β r可以是终结符也可以是非终结符，C 为生成式的LookAhead Set。

x的LookAhead Set = First(β C)，即β的FirstSet与C串起来之后的First集

First Set可以理解为非终结符所有生成式中第一个终结符的集合

5. Merak

我将LR(1)分析算法封装成了一个Golang Parser库：Merak，并且用它实现了一个面向对象语言的Parser: Mizar。对此有兴趣的同学可以试用下，它将为你省略手写语法分析器的过程，节省宝贵的时间投入到更加有趣的编译器后端工作中。

...

阅读全文 »

GNU 汇编器的语法

发布于 2020-09-13

分类汇编

标签 AT&T汇编

标签编译器

标签计算机体系结构

学习汇编语法的目的

为什么要学习汇编语法呢？原因是我最近在做一个面向对象语言的编译器（地址：https://github.com/Orlion/Mizar），目前已经完成了parser部分，即已经生成了AST，下一步要做的就是语义分析了，而语义分析之后要做的就是生成AT&T汇编代码了，所以有必要提前了解下汇编语法看在语义分析的实现阶段能否有所指导。

先看一段代码

首先我们有这样一段c语言代码：

#include <stdio.h>

char msg[14] = "Hello,world!\n";
 
int main(void)
{
    puts(msg);
    return 0;
}

运行 gcc -S -Os hello.c

    .file   "hello.c"
    .section    .text.startup,"ax",@progbits
    .globl  main
    .type   main, @function
main:
.LFB0:
    .cfi_startproc
    pushq   %rax
    .cfi_def_cfa_offset 16
    movl    $msg, %edi
    call    puts
    xorl    %eax, %eax
    popq    %rdx
    .cfi_def_cfa_offset 8
    ret
    .cfi_endproc
.LFE0:
    .size   main, .-main
    .globl  msg
    .data
    .align 8
    .type   msg, @object
    .size   msg, 14
msg:
    .string "Hello,world!\n"
    .ident  "GCC: (GNU) 4.8.5 20150623 (Red Hat 4.8.5-39)"
    .section    .note.GNU-stack,"",@progbits

接下来解释下AT&T汇编的语法

指令

指令是直接由CPU负责处理的命令，不以.开头的行首缩进的行都是指令行。

    movl    $msg, %edi
    call    puts
    xorl    %eax, %eax

指令由操作符和作为参数的操作数组成，以 movl $msg, %edi 为例，movl 为操作符， $msg 和 %edi 为操作数，操作数以逗号来间隔。

汇编伪操作

以 . 开头末尾没有:的行都是汇编伪操作。例如，.file "hello.c", .globl main。汇编伪操作是由汇编器而非CPU处理的指令。一般用于在目标文件中记录元数据（meta data）或者设定指定的属性等。例如 .string 是用来定义字符串常量的汇编伪操作。

标签(labal)

以冒号: 结尾的行都是标签行，例如：.LFB0:,main:。标签具有为汇编伪操作生成的数据或者指令命名(标上符号)的功能，这样就可以在其他地方调用通过标签定义的符号。标签可以以.开头

注释

支持两种注释：

# xxx

/* xxx
xxx */

助记符后缀

刚才提到的movl和subl为助记符，更准确的说mov和sub为助记符，末尾的l是后缀，l是long的缩写，表示操作对象的数据大小。类似这样的后缀还有b,w,l。

后缀	操作对象的大小	缩写
b	8位	byte
w	16位	word
l	32位	long

操作数

操作数有四种：

立即数
寄存器
直接内存引用
间接内存引用

1. 立即数

立即数就是C语言中的字面量，机器语言中立即数以整数的形式出现，能高速访问。像$27这样，立即数用$来标识，如果漏掉了$就成了直接内存引用了。立即数有8位，16位，32位。

2. 寄存器

GUN汇编器规定寄存器以%开头，例如eax寄存器写作%eax

3. 直接内存引用

直接访问固定内存地址的方式。GNC汇编器会将任何整数解释为内存地址并访问。比起使用数字，更常用符号(symbol)直接访问内存。例如.LFE0就是访问符号.LFE0所指向的地址。符号在汇编和链接的过程中会被置换为实际内存地址。

4. 间接内存引用

是将寄存器的值作为内存地址访问的方式。间接内存引用中最通用的就是下方的形式：

disp(base, index, scale)

其中任何一者都可以省略。

上述指令访问disp + (base + index * scale)的地址。下面详细讲解，首先最简单的间接引用的形式如下：

(%eax)

即只指定基地址(base)的形式。上述表达式将eax寄存器中的值作为内存地址访问。接着带有disp的形式如下。disp是displacement(偏移)的简称。

4(%eax)

上述就是访问 4 + (eax寄存器中值) 这个内存地址。在C语言中用来访问如下结构体中成员y的情况：

struct point {
    int x; // x占4个字节，即4个内存地址
    int y;
}

最后使用index和scale的情况如下所示：

(%ebx, %eax, 4)

上面访问的就是(ebx寄存器中的值 + eax寄存器中的值 * 4)内存地址。在C语言中用来访问数组，例如访问元素大小为4字节（例如int）的数组中元素的第%ebx个元素时就可以用这种方式。当并非所有的数组访问都可以只靠间接内存引用来表示，因为scale只能是1、2、4、8之一。

2020-09-22更

突然意识到如果要将一个复杂工程的AST编译为汇编代码必须具备能够用汇编实现这个复杂工程的能力才行，这太难了… 所以暂时放弃吧，先编译到了LLVM IR再说，嗯。

2020-10-07更

不如趁此机会学习下汇编以及后续的链接装载，有助于建立宏观的了解。所以还是继续学习吧。 😸

未完待续…

...

阅读全文 »