0%

内存对齐的底层原理

内存对齐后,可以达到更高的性能。但背后的原理是什么呢?本文从内存的物理组成方式,和读取原理上进行说明。

内存的物理组织方式

  • 电脑主板上的内存插槽就是Channel,一个Channel可以插入一个内存条。
  • 内存条通常是DIMM(Dual In-Line Memory Modules)模式,即正反两面的引脚是独立的。每一面都是一个Rank。
  • 一个Rank由多个Chip组成,如图中4个黑色颗粒,也可能是8个。
  • 每个Chip由多个Bank组成,图中是8个。

内存控制器通过设置rank select的bit位,来控制读哪个rank。

读取数据的过程

每个Bank是DRAM Chip中独立的矩阵。

下面先来解释memory controllers如何从rank中取数据。因为每个rank下面会有很多chip,而每个chip又包括bank0、bank1、bank2等,在memory controllers看来每次发数据,都会同时发送给所有chip下的某个bank,并声明row和col。

每个chip的bank0 的同一地点(row=i col=j)都会被读出8bit,那么8个chip就会同时读出64bit,然后由memory controllers传送给cpu,也就是8byte。每个bank只保存了1个字节。在物理位置上,读出来的64 bits数据并不连续。

在memory controllers看来,每个bank存在于每个chip中,如上图所示,可以把每个chip里面的小bank连成一行,看作成一个大的bank。然后从大的bank中读取数据。
每个bank有一个row bufffer,作为一个bank page,所有bank共享地址、数据总线,但是每个channel有他们自己的地址、数据总线。正因为有buffer,所以每次bank都会预读64bit的数据。

那么为什么要这样设计呢?原因是提高了电路的工作效率。不同chip下的bank可以并行工作。如果你想读取地址0x0000-0x0007,每个bank工作一次,拼起来就是你要的数据,IO效率会比较高。但要存在一个bank里,那这个bank只能自己干活。只能串行进行读取,需要读8次,这样速度会慢很多。

结论

所以,内存对齐最最底层的原因是内存的IO是以8个字节64bit为单位进行的。 对于64位数据宽度的内存,假如cpu也是64位的cpu(现在的计算机基本都是这样的),每次内存IO获取数据都是从同行同列的8个bank中各自读取一个字节拼起来的。从内存的0地址开始,0-7字节的数据可以一次IO读取出来,8-15字节的数据也可以一次读取出来。

换个例子,假如你指定要获取的是0x0001-0x0008,也是8字节,但是不是0开头的,内存需要怎么工作呢?没有好办法,内存只好先工作一次把0x0000-0x0007取出来,然后再把0x0008-0x0015取出来,把两次的结果都返回给你。CPU和内存IO的硬件限制导致没办法一次跨在两个数据宽度中间进行IO。这样你的应用程序就会变慢,算是计算机因为你不懂内存对齐而给你的一点点惩罚。

延伸

另外,在cpu cache中有cache line的概念,为每次读内存的最小单位,为64 bytes,需要也8次这样的读操作。写入到buffer中,这就是局部性原理。如果我们程序猿不尊重这个规则,也就迫使bank的buffer每次取值都必须清空当前的缓冲区,重新读数据,降低数据的访问速度。

参考链接

http://thebeardsage.com/dram-nomenclature-explained/
https://mp.weixin.qq.com/s/F0NTfz-3x3UxQeF-GSavRg
https://lzz5235.github.io/2015/04/21/memory.html
https://www.youtube.com/watch?v=rTxsO9DVjNk