更新时间:2023-08-10 16:58
90nm工艺,1.65亿个晶体管,85W
:顺序执行,单周期发射2条指令,SMT
整数单元(Integer Uint)、加载/存储单元(Load/Store Uint)、分支单元(Branch Uint)
Scalar浮点单元(Scalar Floating Point Unit)
VMX浮点单元(VMX Floating Point Unit)、VMX置换单元(VMX Permute Unit)、VMX简单单元(VMX Simple Unit)
后来微软为解决发热量过大的问题,推出了65nm的xenon,在2010年发布的xbox360 slim版本中,xenon处理器与Xenos显示芯片完全融合,采用45nm工艺,彻底杜绝了“三红”。
Xenon还是在频率就是一切的时代设计出来的,高频高功耗。为了简化设计和压缩成本,采用了简单的顺序执行控制逻辑。
顺序执行和高频率意味着要为流水线阻塞或排空付出高昂的代价。IBM的解决方案是采用SMT,SMT说穿了就是和Pentium4上的超线程一样的技术。在一个线程阻塞等待时,调度另一个线程执行,避免执行资源的浪费。但是SMT对性能的帮助有限,20%已经是峰值了,大多数情况下都达不到。Xenon还有两条短腿拖着SMT。一是Xenon的执行资源本来就不富裕,数数有7个,但其中3个是VMX向量执行单元,真正能用于通用计算的只有4个,这4个里面,分支和Load/Store还占去了两个。二是Xenon的缓存太少,只有1M,6个线程平均下来太少了。所以,Xenon的SMT的作用非常有限。
顺序执行也使得Xenon的2发射超标量设计大打折扣。因为这要求指令流的相邻两条指令必须满足一定的并行条件才能同时发射。而乱序执行不受此限制,可以充分发掘指令流中的指令并行性。
分支预测和数据预取也是x86的强项,预测的准确性对性能的影响极大,10%的预测错误会造成30%的性能损失。
影响Xenon性能的另一个不利因素是和Xenos显示芯片之间的连接,这种连接应该是类似AMD Hypertransport的基于包的串行总线,其特点是高带宽高延迟