存储器——第四章-CFANZ编程社区

存储器——第四章

一、主存储器

1. 概述

1. 主存的基本组成

主存的基本组成

MAR：存储器地址寄存器
MDR：存储器数据寄存器

2. 主存和CPU的联系

主存和CPU的联系

CPU将该字的地址发送到MAR，经地址总线送至主存
发出读命令
主存得到读命令后，将指定存储单元的数据读至数据总线

CPU将要使用的存储单元地址经MAR送至地址总线，将信息送至MDR
发出写命令
主存接到写命令后，将数据线上的信息写入指定存储单元

3. 主存中存储单元地址的分配

主存中各存储单元的空间位置是由单元地址号来表示的，地址总线是用来指出存储单元地址号的，根据该地址可读出或写入一个存储字。不同机器存储字长不同，为了满足字符处理的需要，常用8位二进制数表示一个字节，因此存储字长都取8的倍数。计算机可以按字节寻址或按字寻址。常用的编址方案有两种大端大尾和小端小尾方式。

注意：01234 小的为高位字节，大的为低位字节

大端大尾方式

特点：

字地址用高位字节的地址来表示
存储时，高位字节在左，低位字节在右

小端小尾方式

特点：

字地址用低位字节地址来表示
存储时低位字节在左，高位字节在右

地址线数(位数)	存储字长	按字节寻址范围	按字寻址范围
24	32	16M（ $2^{24}$ ）	4M
24	16	16M（ $2^{24}$ ）	8M

设地址线数为x，按字节寻址范围为== $2^x$ ，按字寻址范围为 $2^x \div (存储字长 \div 8)$ ==。

1K = $2^{10}$
1M = $2^{20}$

算出来的是存储单元的个数，单位中的K和M是个数的计量单位。一定要和KB、MB区分开来，后者是容量的计量单位
关于按字节寻址范围为什么是 $2^x$ ：地址线一次确定一个存储单元，因此，地址线上可能的取值数确定了存储单元的个数，对于一个24位的地址线，可能的取值结果共有 $2^{24}$ 即16M个，因此存储单元个数即为16M，同时也是字节寻址范围。

4. 主存的技术指标

主存的技术指标有3项：（前两项为主要的）

存储容量
存储速度
存储器带宽

1. 存储容量

存储容量是指能存放二进制代码的总位数

存储容量 = 存储单元个数 × 存储字长 (bit) = 存储单元个数 × 存储字长 ÷ 8 (B)

2. 存储速度

存储速度用存取时间和存储周期来表示。

1. 存取时间

存取时间（存储器的访问时间）是指启动一次存储器操作（读/写）到完成该操作所需的全部时间。

存取时间分为两种：

读出时间：从存储器接收到有效地址开始，到产生有效输出所需的全部时间
写入时间：从存储器接收到有效地址开始，到数据被写入选中单元为止所需的全部时间

2. 存取周期

存取周期是指存储器进行连续两次独立的存储器操作所需的最小间隔时间

通常存取周期大于存取时间

3. 存储器带宽

存储器带宽（与存取周期密切相关），表示单位时间内存储器存取的信息量。单位有字/秒、字节/秒、位/秒。

每个周期可访问的位数 ÷ 存取周期 = 位/秒

例：去存取周期为 500ns ，每个存取周期可访问 16 位。他的带宽为：

$\, bit \, \div \, (5 × 10^{-7}) \, 秒 \, = 32 \, 000 \, 000 \, bit/s=32M/s$

当网络传输时，或者[[涉及带宽时为1000000。而当作容量时（课本范围内，非商业计算法）地址空间时，为2^20。

2. 半导体存储芯片

1. 半导体存储芯片的基本结构

半导体存储芯片基本结构

地址线：地址线的条数（位数）反映了存储单元的个数
数据线：数据线的条数（位数）反映了存储字长
译码驱动：能把地址总线送来的地址信号翻译成对应存储单元的选择信号，解决知道存储单元地址，找到对应存储单元的问题

$\overline{WE} \ 低电平写，高电平读$
$\overline{DE} \ 允许读 \quad \overline{WE} \ 允许写$
$\overline{CS} \ CS是芯片选择的缩写$
$\overline{CE} \ CE是使能信号 \overline{}即上划线代表低电平有$

指出地址线给的地址是不是这个存储芯片的地址。简单说就是确定要使用的存储单元在哪些存储芯片中。

通过这个例题要明白的几个内容：

这个题本身，即存储器的容量扩展问题怎么解决
知道 64K × 8位这种表达方式传递了哪些信息
进一步理解地址线、数据线位数和存储器容量的关系
进一步理解片选线的功能

存储器例题1

我们一个个来分析和解决

解决位的问题，要用1位的芯片组成8位的存储器，可以将8个芯片组成一组，就构成了 16K × 8位的存储器
解决存储容量的问题，8个芯片一组构成了 16K × 8位的存储器，而目标存储器是 64K × 8位，显而易见，取四组这样的芯片（共32片）就组成了目标存储器

64K × 8位表达式计算出就是存储器的容量
64K 代表存储单元的个数
8位代表存储字长，说明此存储器一个存储单元可以存储多少位

注意：因为后面的× 8位代表了存储字长，因此 64K × 8位和 32K × 16位代表的存储器是截然不同的，即使他们的存储容量是相同的

地址线的位数反映了存储单元的个数
数据线的位数反映了存储字长

这样，我们就将地址线的位数、数据线的位数和 64K × 8位的表达式联系起来了

观察上图，我们现在有4组芯片组，每组芯片分配一个地址范围，并将每组芯片连接在同一个片选线上。

当地址总线传输的地址信息在第四组芯片中时（图中黄色线）
其他三组片选信号（如SE）为高电平，而第四组片选信号为低电平。代表目标存储单元在第四组芯片中

2. 半导体芯片的译码驱动方式

半导体芯片的译码驱动方式有两种：线选法和重合法。

1. 线选法

译码驱动——线选法

$A_0$ 到 $A_1$ 四根地址线代表有16（ $2^4$ ）个存储单元，对应 0~15共16根字线
0~7共 8根位线代表存储字长为8位（每个存储单元为8位）
16 × 8为存储容量，代表16个存储单元，每个存储单元对应一个存储字，字长为8位

首先，地址线给出地址码，图中为 0000
经地址译码器译码后选中字线0
读写控制电路启动读电路，将字线0对应的存储单元中的数据读到数据总线上

存储矩阵是线性数组
一根字线确定一个存储单元
资源浪费，不利于芯片集成化程度的提高，只适用于小容量的芯片

举个例子：假设有一个 1M × 8位的存储器，20根地址线对应 $2^{20}$ 根字线，每个地址仅使一条字线生效，其他的不生效。首先， $2^{20}$ 根字线过于庞大，难以提高芯片集成度，其次，不生效的芯片也会造成资源的浪费

2. 重合法

译码驱动——重合法

注意：32 × 32 代表的是一个（一行32位，一列32位）的二维矩阵，和线选法不同
1K个存储单元，存储字长为1位，共10根地址线被分成了5根行地址线（ $A_0$ ~ $A_4$ ）和5根列地址线（ $A_5$ ~ $A_9$ ）
(0,0)就是一个存储单元，存储字长为1位

给出行地址（X地址）00000 和列地址（Y地址）00000
在行列地址共同作用下选中存储单元 (0,0)
存储单元(0,0)的数据被读出（其他存储单元数据均不输出）

3. 随机存取存储器

1. 静态RAM（SRAM）

保存0和1的原理是什么
基本单元电路的构成是什么
对单元电路如何读出和写入
典型芯片的结构
静态RAM芯片如何进行读写操作

静态RAM采用触发器保存0和1

1. 静态RAM基本单元电路（需要再次复习视频）

存储器中用于寄存“0”和“1”代码的电路称为存储器的基本单元电路。一个基本单元电路存储 1 位数据。

静态RAM基本电路

T5 和 T6 受行地址选择信号控制
T7 和 T8 受列地址选择控制，分别与位线A’和A相连。他们并不包含在基本单元电路中，而是芯片内同一列的各个基本单元电路所共有的
T1~T4是一个由MOS管组成的触发器基本电路

采用双稳态触发器工作原理储存信息
信息读出后，仍保持原状态，不需要再生
断电时，原存信息丢失，属于易失性半导体存储器

静态RAM读操作

静态RAM写操作

2. 静态RAM芯片举例

以Intel 2114芯片为例

Intel 2114 外特性示意图

四根数据线即每个存储单元为4位，包含4个基本单元电路
共4K个基本单元电路

2114使用重合法实现译码驱动

重合法使用的是二维的存储矩阵，4K个基本单元电路，我们可以将它部署为一个64 × 64的矩阵
重合法使用二维的行地址和列地址标识一个存储单元，那么对于 1K × 4位的2114芯片而言，就意味着每根列地址字线应该对应4列的基本单元电路。

Intel2114重合法译码驱动实现图

10根地址线被分成了6根行地址线和4根列地址线。分别对应64根行地址字线和16根列地址字线
64列基本单元电路被分成了4组，每组16列
重点：每组取一列基本单元电路，4组共4列连接在同一根列地址字线上；每组的16列分别连在16根不同的列地址字线上。
当一个行地址字线生效时，对应一行的基本存储电路被导通；当一个列地址字线生效时，4列基本存储电路被导通，分别取自四个组中。（重点理解3和4）

Intel2114重合法译码驱动读操作示意图

Intel2114重合法译码驱动写操作示意图

2. 动态RAM（DRAM）

保存0和1的原理是什么
基本单元电路的构成是什么
对单元电路如何读出和写入
典型芯片的结构是什么样子的
动态RAM芯片如何进行读出和写入操作
动态RAM为什么要刷新，刷新方法是什么？

动态RAM采用电容存储“0”和“1”，不充电时代表存储0，充电时代表存储1

1. 基本单元电路

有两种基本单元电路，三管动态RAM和单管动态RAM

动态RAM基本单元电路1

$C_{g}$ 代表存储电容， $T_{1}$ 、 $T_{2}$ 和 $T_{3}$ 是控制管
读选择线生效时， $T_{2}$ 管导通， $C_{g}$ 电容数据经读数据线读出。（ $T_1$ 管不导通吗？）
写选择线生效时， $T_{3}$ 管导通，写数据线数据写入 $C_{g}$ 电容

三管动态RAM工作流程图1

三管动态RAM工作流程图2

预充电信号有效时，T4被打开
$V_{DD}$ 通过 $T_{4}$ 对读数据线进行充电，使读数据线为高电平1
读选择线生效， $T_{2}$ 管导通
1. 如果 $C_{g}$ 保存的是0，那么 $T_{1}$ 的栅极为低电平， $T_{1}$ 不导通，读数据线保持高电平1，就是说：如果我们在 $C_{g}$ 上保存的是0，那么读数据线读出来的就是1
2. 如果 $C_{g}$ 保存的是1，那么 $T_{1}$ 的栅极为高电平， $T_{1}$ 管导通，读数据线经过 $T_{2}$ 管和 $T_{1}$ 管进行放电，变成低电平0，就是说：如果我们在 $C_{g}$ 上保存的是1，那么读数据线读出来的就是0

$T_{3}$ 管被导通
1. 如果写数据线写入的是1， $C_{g}$ 就通过 $T_{3}$ 管充电，保存1
2. 如果写数据线写入的是0， $C_{g}$ 就通过 $T_{3}$ 管放电，保存0

读出与原存信息相反
写入与原存信息相同

读数据线末端加一个非门可以解决信息相反的问题

动态RAM基本单元电路2

当字线被选中时， $T$ 管被导通
1. 如果 $C_{S}$ 保存的是0，字线上无电流产生
2. 如果 $C_{S}$ 保存的是1， $C_{S}$ 通过 $T$ 管放电，字线上有电流

读出时，字线有电流为1，无电流为0
写入时，充电为1，放电为0

2. 动态RAM芯片举例

1. 三管动态RAM芯片 1103（1K × 1位）

三管动态RAM芯片1103重合法实现译码驱动示意图

5根行地址线原本对应32根字线，但在这里每一行基本单元电路使用了一根读选择线和一根写选择线，所以变成了64根线。这和静态RAM芯片是不一样的

三管动态RAM芯片1103读操作

三管动态RAM芯片1103写操作

每隔一段时间重现电容保存的数据（电容漏电会导致存储数据消失）

2. 单管动态RAM芯片4116（16K × 1位）

单管动态RAM芯片4116外特性示意图

$\overline{RAS}$ 代表行选通信号，低电平有效产生行时钟
$\overline{CAS}$ 代表列选通信号，低电平有效产生列时钟
$\overline{WE}$ 代表读写控制信号，低电平有效产生写时钟

需要注意的内容

对于一个16K × 1位的芯片，我们知道它应该有14根地址线，但4116芯片只提供了7根。它是这样处理的：

先接收7位地址信号作为行地址信号，保存在行地址寄存器
再接收7位地址信号作为列地址信号，保存在列地址寄存器

4116存储阵列

16K × 1位的容量，部署成了128 × 128 的存储矩阵
放大器的功能特点：反转电位信号（放大器两侧电位信号相反）
1. 如果放大器一侧为高电位1，经过放大器后就变成了低电位0
2. 如果放大器一侧为低电位0，经过放大器后就变成了高电位1

4116读操作2

63号行字线被选中，该字线所连接的所有基本单元电路的== $T$ 管被打开==
0号列字线被选中，②管被打开，行列字线共同作用下，①号基本单元电路被选中
1. ①号电容保存为0时，经过读放大器就变成了1，经③线被读出
2. ①号电容保存为1时，经过读放大器就变成了0，经③线被读出

注意：现在假定我们选中的是64号字线和0号列线，那么①号右侧的基本单元电路就是我们选中的存储单元。此时，由于没有经过读放大器，所以电容保存的是什么，读出来就是什么。

不经过读放大器的存储单元，存储信号和读出信号相同
经过读放大器的存储单元，存储信号和读出信号相同

那么，==如何解决部分信号相反的问题？==请带着这个疑问看写操作流程分析。

4116写操作2

当我们向①号电容写入数据时
1. 如果我们准备写入1，那么经读放大器处理后就变成了0，①号电容实际保存的是0
2. 如果我们准备写入0，那么经读放大器处理后就变成了1，①号电容实际保存的是1
当我们向②号电容写入数据时，由于没有经过读放大器处理，所以数据线传输的是什么信号，②号电容就保存什么信号

分析到此，我们就可以得出2114芯片写操作的特点：

不经过读放大器的存储单元，存储信号和写入信号相同
经过读放大器的存储单元，存储信号和写入信号相反

那么，对比2114芯片读写操作的特点，我们就可以发现：

2114芯片写入信号和读出信号是相同的，不需要处理反信号问题

3. 动态RAM刷新

因为动态RAM采用非常小的电容存储信息，而电容容易漏电丢失信息。如果在一定时间内，不进行数据重新，那么信息就会丢失。

刷新只与行地址有关，与行为单位进行刷新，和列地址无关。注意观察1103存储芯片的布局，在每一列部署一个刷新放大器，那么进行读写操作时，就可以实现对选定行所有基本单元电路进行一次刷新。

动态RAM刷新策略共有三种：集中刷新、分散刷新和异步刷新。

集中刷新

2ms内集中刷新一次，前面3872个周期为读写操作可用周期，后面128个周期为集中刷新时间，刷新全部16K个基本单元电路
后面128个周期是不能进行读写操作的，因此被称为死区
注意：2ms内每个基本单元电路只被刷新了一次

缺点：

存储器存在不可用时间

分散刷新

$t_{C}=t_{M}+t_{R}$ 即一个存取周期被分成了读写和刷新两个时间块
每次读写操作就会对被选中行进行一次刷新，理论上最快128个存取周期可以完成对所有基本单元电路的刷新
2ms内一个基本单元电路可能被刷新15.6次（过度刷新）

特点：

存储器永远有效，不存在“死区”（优点）
过度刷新，浪费了存储器的性能（缺点）

异步刷新

2ms为一个刷新间隔，将2ms分成128组，每组15.6 $\mu s$ ，包含若干个读写周期和一个刷新周期
对于每一组内部而言，它是集中刷新，对于全部的128组而言，它是分散刷新
2ms完成对所有单元电路的刷新

特点：

不浪费存储器性能
存在“死区”，但安排得当可以避免其出现

3. 动态RAM和静态RAM的比较

	DRAM	SRAM
存储原理	电容	触发器
集成度	高	低
芯片引脚	少	多
功耗	小	大
价格	低	高
速度	慢	快
刷新	有	无
一般用途	主存	缓存

4. 只读存储器

234567

1. MROM（掩模ROM）

1K×1位存储阵列图2

行字线0和列字线0同时被选中时，交叉点①被选中，①处有耦合元件MOS管，因其导通而使列线输出为低电平，经读放大器反相为高电平，输出1
行字线31和列字线0同时被选中时，交叉点②被选中，②处没有MOS管，故列线输出为高电平，经读放大器反相输出0

特点：根据选中存储单元是否有MOS管，即可判断原存信息是1还是0，缺点是出厂即定，用户不能进行修改

2. PROM（一次性编程）

PROM

特点：只能进行一次编程

3. EPROM（多次性编程）没看懂

EPROM即可擦除可编程只读ROM，

EPROM

特点：信息可擦除，但擦除比较麻烦，且不能进行局部擦除

4. EEPROM（多次性编程）

EEPROM也是可擦除可编程只读ROM，只不过它的擦除原理是电可擦除。支持全部擦除和局部擦除。

5. Flash Memory（闪速型存储器）

5. 存储器与CPU的连接

1. 存储容量的扩展

主要是三种方式：

位扩展：增加存储字长
字扩展：增加存储字的数量（存储单元的数量）
位、字同时扩展：既增加存储字数量，又增加存储字长

位扩展

字扩展

位、字扩展

这部分比较简单，也可以看看之前半导体芯片基本结构部分分析的例题

这里，我们可以总结出一个规律：

2. 存储器和CPU的连接

地址线的连接：通常将CPU地址线的低位与存储芯片的地址线相连，CPU地址线高位做其他用途（如片选信号）
数据线的连接：存储芯片存储字长必须满足CPU的要求，存储字长低于CPU要求时，对其进行扩位
读/写命令线的连接
片选线的连接（最复杂最核心的部分）：片选信号与CPU访存控制信号 $\overline{MREQ}$ 有关，CPU高位地址一般和 $\overline{MREQ}$ 共同产生片选信号
1. $\overline{MREQ}$ 为低电平时，表示访问主存，片选信号生效
2. $\overline{MREQ}$ 为高电平时，表示访问I/O设备，与主存无关，片选信号不生效
合理选择存储芯片
时序、速度、负载匹配等

1. 例题一

例题图1

解题步骤如下：

1. 先将十六进制地址范围写成二进制地址码

十六进制转二进制并确定容量

图中的虚线是为了便于理解之后的步骤
2K、1K的计算不赘述，解释下为什么是8位：因为CPU有8根数据线，代表其要求存储字长为8

2. 根据地址范围的容量以及该范围在计算机系统中的作用，选择存储芯片

根据6800H ~ 67FFH 为系统程序区范围，选择 $\, 2K × 8位$ 的ROM
根据6800H ~ 6BFFH 为用户程序区范围，选择 $\, 1K × 4位$ 的RAM

3. 分配CPU的地址线

将CPU低11位地址 $A_0$ ~ $A_{10}$ 与 $2 K \times 8 位$ 的ROM相连
将CPU低10位地址 $A_0$ ~ $A_{9}$ 与 $\, 1K × 4位$ 的RAM相连
剩下的高位地址与访存控制信号 $\overline{MREQ}$ 共同产生存储芯片的片选信号

6. 片选信号的形成（最核心部分）

首先， $G_1$ 、 $\overline{G}_{2A}$ 、 $\overline{G}_{2B}$ 的连接：由地址码图知， $A_{14}$ 始终为高电平， $A_{15}$ 始终为低电平，正好满足 $G_1$ 和 $\overline{G}_{2A}$ 的需要，将他们对应相连（ $A_{14}$ 连 $G_1$ ， $A_{15}$ 连 $\overline{G}_{2A}$ ）；剩下一个 $\overline{G}_{2B}$ 需要满足：低电平时译码器工作，高电平时译码器不工作。正和访存控制信号 $\overline{MREQ}$ 的要求一致，将他们连接起来。
16根地址线余下的是 $A_{11}$ 、 $A_{12}$ 、 $A_{13}$ ，将他们和译码器的A、B、C相连，作为片选信号（观察地址码图）
1. 当 $A_{11}$ 、 $A_{12}$ 、 $A_{13}$ 为100时，译码器变量输出端 $\overline{Y}_{4}$ 为低电平有效，选中1片ROM
2. 当 $A_{11}$ 、 $A_{12}$ 、 $A_{13}$ 为101 （ $\overline{Y}_{5}$ 为低电平有效）并且 $A_{10}$ 为低电平时（两个条件必须同时满足），选中两片 RAM

最终的片选逻辑图：

片选逻辑图

2. 例题二

二进制码范围

片选逻辑图

3. 解题步骤总结

写出对应二进制地址码（这一步对解题很重要）
确定芯片的数量及类型
分配地址线
确定片选信号
确定片选逻辑

6. 存储器的校验

1. 编码的最小距离

编码的检错、纠错能力与编码的最小距离有关

设：L 为编码的最小距离，D 为检测错误的位数，C 为纠正错误的位数，则有以下公式：
$\quad (D \geq C)$

检错、纠错能力和编码最小距离公式推导过程

2. 汉明码

汉明码是一种具有1位纠错能力的编码方法。要学会汉明码，我们要解决下列三个问题：

汉明码独特的分组方案
校验位的插入点如何计算
校验位如何取值

1. 汉明码的分组方案

学习汉明码的分组方案，我们最终要知道拥有以下能力：

知道一个二进制代码应该分成多少组
知道每组包含了哪些数据位

假设二进制串的长度为 $n$ ， $k$ 是分组组数。我们有如下公式
$2^K \geq n+k+1 \quad (k_{min}就是组数)$

请参照下表：

第X组	数据位的二进制地址
1	$X X X X X 1$
2	$X X X X 1 X$
3	$X X X 1 X X$
4	$X X 1 X X X$
5	$X 1 X X X X$

依次类推即可

2. 校验位

汉明码规定每组一个校验位，因此，只要我们学会了汉明码的分组，就知道了有多少个校验位。或者数组数就等于校验位数。那么，我们还需要解决两个问题：

校验位的插入点如何计算？
校验位如何进行取值？

有如下公式：$ 第x组的校验位插入点为：2^{x-1}$

校验位的取值和你选择的校验方案以及组内数据有关。汉明码使用奇偶校验法：

奇校验法：在校验位插入一个1（0），使组内1、0的个数均为奇数个
偶校验法：在校验位插入一个1（0），使组内1、0的个数均为偶数个

3. 总结及例题

假如我们取== $C_i代表校验位，g_j代表小组$ ，其中

i代表校验位的地址
j代表第j小组

那么有：

汉明码总结

2345

7. 提高访存速度的措施

主要有三个解决方案：

采用高速器件
采用层次结构 Cache - 主存
调整主存结构

这里主要记录第三种解决方案。

1. 单体多字系统

单体多字系统

基本原理：存储字长取机器字长的整数倍，存储体每次存取整数倍个机器字长的数据。以上图为例，机器字长为W，存储字长为4W，每次存取4W的数据。

优点：调高了存储器的带宽

缺点：存在两个问题

写入问题：假如只写入W个数据，剩余的3W空位该如何处理
读取问题：假设读取4w数据为4个指令，当第一个指令为跳转指令，后三个指令不执行时，数据被浪费

2. 多体并行系统

按照编址方案的不同，可以将多提并行系统分为两类：高位交叉(顺序编址)和低位交叉(各个体轮流编址)

1. 高位交叉（顺序编址）

高位交叉

特点：

对存储体进行顺序编址，一个存储体存满后，从紧邻的下一个地址开始对另一个存储体进行编址
高位地址作为每块存储体的体号（存储体选择地址）

缺点：顺序访问时可能出现一个存储体持续工作，而其他存储体处于空闲状态的情况

高位交叉通用模式图

2. 低位交叉（各个体轮流编址）

低位交叉

特点：

依次对各个存储体进行轮流编址
各个存储体地址交叉
低位地址作为体号

优点：不改变存取周期的情况下，提高存储器的带宽

CPU交叉访问4个存储体的时间关系

对于单个存储体来说，存取周期并没有变，但由于交叉访问的方式，存储器在一个周期内实际上向CPU提供了4个存储字

假设：

低位交叉存储器模块数（存储体数）为 $n$
存取周期为 $T$
总线传输周期为 $\tau$

那么，要使用流水线方式，应满足： $T=n\tau$ 。

为保证在启动某存储体后，经 $n\tau$ 时间再次启动该存储体时，它的上次存取操作已完成，要求： $低位交叉存储器的模块数(存储体数)\geq n$

低位交叉编址：连续读取n个字所需时间 $t_{1}=T+(n-1)\tau$
高位交叉编址：连续读取n个字所需时间 $t_{2}=nT$

四体低位交叉编址存储器流水线工作方式示意图

二、高速缓冲存储器

1. 概述

1. 为什么要使用缓存

主存的发展速度和CPU的发展速度不匹配，主存的存取速度跟不上CPU的处理速度，会出现“空等现象”。

主存缓存CPU体系

2. Cache 的工作原理

1. 主存和缓存的编址

主存和缓存的编址

主存和缓存都被按块划分
主存地址和缓存地址都被分成了两部分：块号+块内地址
主存和缓存以块为单位进行数据传输，并且主存块和缓存块的大小是一致的，因此：
- 主存地址和缓存地址中的块内地址是一致的（假如一个主存块的数据被存入一个缓存块的话）
缓存块的标记记录了与某缓存块建立了对应关系的主存块的块号，即缓存块当前存储的内容来自哪个主存块
块内地址决定了主存块的大小。假设一个块大小为16字节，编址单位为字节，则 $b=4 \,(2^4=16)$
块长取一个存取周期内从主存调出的信息长度.回忆低位交叉流水线方式

两种典型存储器系统：

CRAY_1 16体交叉块长取16个存储字
IBM 370/168 4体交叉块长取4个存储字字长64位

2. 命中与未命中

命中：访问的数据在缓存块中，此时该缓存块和主存块建立了对应关系
未命中：访问的主存块不在缓存块中

3. Cache 的命中率

Cache ：CPU欲访问的信息在块中的比率。与Cache 的容量和块长有关。

4. Cache-主存系统的效率

效率 $e$ 和命中率有关： $\frac{访问Cache的时间}{平均访问时间}$

设：

Cache 命中率为 $h$
访问Cache的时间为 $t_c$
访问主存的时间为 $t_m$

则，给出下列公式：
$\frac{t_c}{h \times t_c + (1-h) \times t_m} \times 100\% \quad (h=0时，e_{min}=\frac{t_c}{t_m}; \, h=1时，e_{max}=1)$

3. Cache 的基本结构

Cache的基本结构

4. Cache 的读写操作

1. 读操作

Cache的读操作

特点：执行过程中，主存块和Cache块具有一致性（Cache块的数据都有对应的主存块）

2. 写操作

有两种写入方法：写直达法、写回法。

1. 写直达法

写操作时数据既写入Cache又写入主存。

特点：

写操作时间就是访问主存的时间
Cache块退出时，不需要对主存执行写操作，更新策略比较容易实现（优点）
Cache和主存的数据具有一致性（优点）
可能会造成CPU对同一个内存单元反复执行写操作（缺点）

2. 写回法

写操作时只把数据写入Cache而不写入主存，当Cache数据被替换出去时才写回主存

特点：

写操作时间就是访问Cache的时间
写入效率高（优点）
Cache和主存数据存在不一致性（缺点）
Cache块退出时，被替换的块需要写回主存，增加了Cache的复杂性（缺点）
在并行系统中，同一个内存块，在多个Cache中，可能存在不同版本的副本（问题）

5. Cache的改进

主要有两种方案：增加Cache的级数、统一缓存和分立缓存。

1. 增加Cache的级数

如：两级Cache，分层如下：

片载（片内）Cache 集成在CPU内
片外Cache

2. 统一缓存和分立缓存

为指令和数据分别设立统一的缓存：指令Cache、数据Cache。（与指令执行的控制方式有关，这样做可以避免在流水的过程中造成资源冲突）

例如：

处理器	指令Cache	数据Cache
Pentium	8K	8K
PowerPC620	32K	32K

2. Cache-主存的地址映射

有三种映射模式：直接映射、全相联映射和组相联映射。

1. 直接映射

直接映射原理图

以上图为例进行分析

以Cache的容量为度量对主存储体进行划分，划分成一个个等容量的区，每个区具有如下特点：
- 容量和Cache的容量一致（即字块数量和Cache的字块数量一致）
Cache中的每一个字块，对应主存每个区中的一个字块，比如
- Cache的字块0对应，主存每个区中的第0个字块
- Cache的字块1对应，主存每个区中的第1个字块
- ······

如图，在在这种模式中，主存地址被划分成了三部分：

主存字块标记：可以理解为区号，标注给出的地址要访问的字块位于主存的哪个区
Cache字块地址：可以理解为块号，标注这个主存地址要访问的字块对应的缓存块地址
- 这里重点理解：由于缓存块中的第X块对应主存每个区中的第X块，因此，当我们知道要访问字块在主存中的区号以及对应缓存字块的地址后，我们就能够知道要访问的是主存中哪个字块。
字块内地址：块内偏移地址

Cache的字块中，标记位记录了该Cache块当前存储的数据来自于主存的哪个区，即它记录的就是主存区号
当收到一个主存地址后，将主存地址中指定的Cache字块的标记位的数据和主存地址中的主存字块标记放入比较器进行比较
1. 有效位=1，表明该Cache块存储的数据正是主存地址需要字块的数据，命中
2. 有效位=0，不命中

特点：

每个缓存块 i 可以和若干个主存块对应
每个主存块 j 只能和一个缓存块对应
实现简单（优点）
可能造成Cache的利用率很低（缺点），当频繁访问每个区同一序号的字块时会发生
Cache调入时冲突的概率非常大（缺点）

2. 全相联映射

全相联映射

特点：主存中的任一块可以映射到缓存中的任一块

优点：Cache的利用率高

缺点：

主存字块标记要和Cache中所有字块的标记进行比较，未命中情况下发生替换操作。两个操作同时进行，电路复杂、速度慢
参加比较的数据位数比较长

3. 组相联映射

组相联映射原理图

组相连映射可以看作是对直接映射的一种优化方案。直接映射存在Cache效率问题的一个重要原因是：多个主存字块只能对应一个Cache字块。当对同一个Cache字块对应的多个主存字块频繁访问时，就出现频繁的替换操作（此时可能存在空闲的Cache字块未被使用）。

组相联映射方案的优化核心思想：使多个主存字块对应一个组的Cache字块，降低了出现冲突的可能性。

在对Cache划分字块的基础上，对其进一步划分，划分成一个个组，假设共== $Q$ ==组，每组若干个字块（图中设为2个）
将主存块划分成== $Q$ ==个区（区数=Cache块的组数）
Cache中的每个组对应主存中每个区中的一个字块

这种方案同时也是直接映射模式和全相联映射模式的结合：

若干个主存块，对应Cache中一个确定的组（直接映射思想）
某一主存块，对应Cache中确定的一个组中的任一块（全相联映射思想）

某一主存块i按模Q映射到缓存的第i组中的任意一块。 $j\, mod \, Q$

优点：Cache的利用率高，速度快。

4. 总结

映射模式	映射特点	其他特点
直接映射	某一主存块只能固定映射到某一缓存块	不灵活、Cache利用率低、速度快
全相联映射	某一主存块能映射到任一缓存块	成本高、速度慢、Cache利用率高
组相联映射	某一主存块只能映射到某一缓存组中的任一块	速度比较快，Cache利用率比较高