内存随机也比顺序访问慢,带你深入理解内存IO过程
问题1: 内存访问一次延时到底是多少?你是否会进行大概的估算?
在我们的这个故事中,你是故事的主角。你有一所房子,房子里有一个仆人,他每天帮你处理各种各样的图书数据。但是北京房价太贵,所以你的这个房子很小,只能放的下64本书。你家的马路对面,就是北京图书馆(你家房子虽然小但是地段还不错),你所需要的所有的图书在那里都可以找到。图书馆有个管理员,他负责帮你把你想要的书找出来。
场景2:
场景3:
这四个场景里,我觉得你一定发现了不同情形下耗时的差异。
场景1和场景4花费的时间最多。因为图书管理员需要花时间坐电梯找楼层,需要花时间在楼内找书。
场景3次之,因为图书管理员直接就在楼层内,只需要花时间在楼内找书既可
场景2最快,因为只需要仆人帮你从客厅拿过来就好,连马路都不需要过。
之所以编造这么一个例子,是因为内存的工作方式和它太像了。接下来我们进入内存的实际分析。
在《带你理解内存对齐最底层原理》中我们了解了内存颗粒的物理构造以及IO过程,今天我们再来复习一下。
内存是由chip构成。每个chip内部,是由8个bank组成的。其构造如下图:
根据上面几张图我们可以大致了解内存的IO过程,在这个过程中每一步操作之间都有一些延迟,让我们来继续了解这些延迟。
在《从DDR发展到DDR4,内存核心频率指标其实基本上就没太大的进步》里我们提到内存的延迟很大程度是受核心频率制约的,你也应该记得我们提到了内存延迟一般是通过CL-tRCD-tRP-tRAS四个参数来标识的。我们今天来详细理解一下这四个参数的含义:
CL(Column Address Latency):发送一个列地址到内存与数据开始响应之间的周期数
tRCD(Row Address to Column Address Delay):打开一行内存并访问其中的列所需的最小时钟周期数
tRP(Row Precharge Time):发出预充电命令与打开下一行之间所需的最小时钟周期数。
tRAS(Row Active Time):行活动命令与发出预充电命令之间所需的最小时钟周期数。也就是对下一次预充电时间进行限制。
要注意除了CL是固定周期数以外,其它的三个都是最小周期。另外上面的参数都是以时钟周期为单位的。因为现代的内存都是一个时钟周期上下沿分别各传输一次数据,所以用Speed/2就可以得出,例如笔者的机器的Speed是1066MHz,则时钟周期为533MHz。你自己的机器可以通过dmidecode命令查看:
# dmidecode | grep -P -A16 'Memory Device'
Memory Device
......
Speed: 1067 MHz
......
和“图书管理员”类似,内存芯片也有类似的工作场景:
实际的计算机的内存IO过程中还需要进行逻辑地址和物理地址的转换,这里忽略不表。
其中场景1和场景4是随机IO的情况,场景2无内存IO发生,场景3是顺序IO,。通过上面的过程描述我们可以得到结论。内存也存在和磁盘一样,随机IO比顺序IO要慢的问题。如果行地址同上一次访问的不一致,则需要重新拷贝row buffer,延迟周期需要tRP+tRCD+CL。而如果是顺序IO的话(行地址不变),只需要CL个周期既可完成。
我们接着估算下内存的延时,笔者的机器上的内存参数Speed为1066MHz(通过dmidecode查得),该值除以2就是时钟周期的频率=1066/2=533Mhz。其延迟周期为7-7-7-24。
随机IO:这种状况下需要tRP+tRCD+CL个时钟周期,7+7+7=21个周期。但是还有个tRAS的限制,两次行地址预充电不得小于24。所以我们得按24来计算,24*(1s/533Mhz) = 45ns 顺序IO:这种状况下只需要CL个时钟周期 7*(1s/533Mhz)=13ns
因为对于内存来说,随机IO一次开销比顺序IO高好几倍。所以操作系统在工作的时候,会尽量让内存通过顺序IO的方式来进行。做法关键就是Cache Line。当CPU发现缓存不命中的时候,实际上从来不会向内存去请求1个字节,8个字节这种。而是一次性就要64字节,然后放到自己的Cache中存起来。
用上面的例子来看,
如果随机请求8字节:耗时是45ns 如果随机请求64字节:耗时是45+7*13 = 136ns
开销也没贵多少,因为只有第一个字节是随机IO,后面的7个字节都是顺序IO。数据是8倍,但是IO耗时只有3倍,而且取出来的数据后面大概率要用,所以计算机内部就这么搞了,通过这种方式帮你避免一些随机IO!