volatile的两条实现规则-CFANZ编程社区

1、Lock前缀指令会引起处理器缓存回写到内存。Lock前缀指令导致在执行指令期间，声言处理器的LOCK#信号。在多处理器环境中，LOCK#信号确保在声言信号期间，处理器可以独占任何共享内存。但是，在最近的处理器中，LOCK#信号一般不缩总线，而是锁缓存，毕竟锁总线开销的比较大。在锁操作时，总是在总线上声言LOCK#信号。但在P6和目前的处理器中，如果访问的内存区域已经缓存在处理器内部，则不会声言LOCK#信号。相反，它会锁定这块内存区域的缓存并回写到内存，并使用缓存一致性机制来确保修改的原子性，此操作被称为“缓存锁定”，缓存一致性机制会阻止同时修改由两个以上处理器缓存的内存区域数据。

2、一个处理器的缓存回写到内存会导致其他处理器的缓存无效。IA-32处理器和Intel 64处理器使用MESI（修改、独占、共享、无效）控制协议去维护内部缓存和其他处理器缓存的一致性。在多核处理器系统中进行操作的时候，IA-32和Intel 64 处理器能嗅到其他的处理器访问系统内存和它们的内部缓存。处理器使用嗅探技术保证它的内部缓存、系统内存和其他处理器的缓存的数据在总线上保持一致。例如：在Pentium 和P6 family处理器中，如果通过嗅探一个处理器来监测其他处理器打算写内存地址，而这个地址当前处于共享状态，那么正在嗅探的处理器将使它的缓存行无效，在下次访问相同内存地址时，强制执行缓存行填充。

注：锁住总线，导致其他CPU不能访问总线，不能访问总线就意味着不能访问系统内存。

volatile的使用优化

追加字节能优化性能？

为什么追加64字节能够提高并发编程的效率呢？因为对于英特尔酷睿i7、酷睿、Atom和NetBurst，以及Core solo和Pentium M处理器的L1、L2或L3缓存的高速缓存行是64个字节宽，不支持第部分填充缓存行，这意味着，如果队列的头结点和尾节点都不足64字节的话，处理器会将它们斗都读到一个高速缓存行中，在多个处理器下每个处理器都会缓存同样的头节点、尾节点，当一个处理器试图修改头节点时，会将整个缓存行锁定，那么在缓存一致性机制的作用下，会导致其他处理器不能访问自己高速缓存中的尾节点，而队列的入队和出队操作则需要不停修改头节点和尾节点，所以在多处理器的情况下降会严重影响到队列的入队和出队效率。Doug lea使用追加到64字节的方式来填满高速缓存区的缓存行，避免头节点和尾节点加载到同一个缓存行，使头、尾节点在修改时不会互相锁定。

那么是不是在使用volatile变量时都应该追加到64字节呢？不是的。在两种场景下不应该使用这种方式。

缓存行非64位字节的处理器。如P6系统和奔腾处理器，它们的L1和L2高速缓存行是32个自字节宽。

共享变量不会被频繁地写。因为使用追加字节的方式需要处理器读取更多的字节到高速缓冲区，这本身就会带来一定的性能消耗，如果共享变量不被频繁写的话，锁的几率也会非常小，就没有必要通过追加字节的方式来避免相互锁定。

不过这种追加字节的方式在java 7下可能不生效，因为java 7 变得世更加智慧，它会淘汰或者返重新排列无用字段，需要使用其他追加字节的方式。