Intel 现代CPU 结构与技术.ppt
《Intel 现代CPU 结构与技术.ppt》由会员分享,可在线阅读,更多相关《Intel 现代CPU 结构与技术.ppt(70页珍藏版)》请在麦多课文档分享上搜索。
1、Intel 现代CPU 结构与技术,东南大学计算机学院 任国林 Email:,2,2018/10/8,讲座内容:, CPU结构与性能P CPU结构与技术P4 CPU结构与技术多核CPU结构与技术,3,2018/10/8,第一部分 CPU结构与性能,4,2018/10/8,一、冯诺依曼模型与8086 CPU,1、冯诺依曼模型与程序执行过程,冯诺依曼模型核心:存储程序原理、程序控制流思想,回下页,回22页,回29页,5,2018/10/8,2、8086 CPU结构,结构特征:通用寄存器结构,由EU及BIU组成;16位机器字长、20位地址、实地址存储管理,指令执行过程:由串行的IF、ID、OF、EX
2、、WB阶段组成,转上页,转9页,6,2018/10/8,二、计算机系统性能及影响因素,1、计算机系统性能指标,响应时间:指从任务输入结果输出的总时间即T响应=TCPU+TIO,TCPU=INCPITC=INT指令,其中IN为程序指令数,指令所需时钟周期数CPI=(CPIi)/IN,吞吐率:指单位时间内可处理的任务个数即吞吐率=n(T响应),其中n为任务个数,回下页,回12页,7,2018/10/8,软件因素:*编译程序源程序目标程序的翻译效率(如IN大小)*操作系统软硬件的管理效率(如多任务切换时间),2、影响计算机系统性能的因素,硬件因素:*指令系统指令系统指令的数量及功能*CPU结构指令/
3、程序的执行效率(如步骤、CPIi)*存储系统MEM访问的延迟与带宽*部件组成功能实现延迟(如主频1/TC),转上页,回下页,8,2018/10/8,3、提高计算机硬件系统性能的方法,提高性能的方法:更快的速度、并行工作方式,硬件方面的优化思路:*提高指令系统性能增加新功能指令等*提高主频改进器件、电路等技术*改进结构优化CPI(Cycles per Instruction)提高ILP(Instruction Level Parallel)*提高OS效率增加便于OS工作的相应硬件*提高访存速度选择快速器件、改进MEM结构*提高I/O速度采用I/O接口、改进I/O方式等,冯诺依曼模型的性能瓶颈:C
4、PU-MEM、指令串行执行!,结构与技术是硬件性能提高的基本保证!,转上页,9,2018/10/8,三、Intel CPU结构与技术的发展概述,(1)强化CPU部件优化部件性能:增加CPU字长、提高主频、多总线通路增加指令功能:扩展指令系统(需相应增加硬件),1、操作级结构与技术的发展,转5页(单总线),10,2018/10/8,(2)改进存储系统采用虚拟存储器:有效支持多任务OS(减轻程序员负担);增设快表提高地址变换速度,回下页,11,2018/10/8,增设Cache多级Cache:利用程序访存局部性规律,提高访存速度(弱化CPU-MEM瓶颈)及性能-价格比(容量Cache容量MEM),
5、改善系统总线性能:提高总线时钟频率、增加A/D宽度、多级总线等越靠近CPU速度越快,转上页,回17页,12,2018/10/8,(3)改进CPU结构开发操作级并行性:有流水线及超级流水线技术流水线技术:指令执行各步骤重叠,减少程序执行时间,需解决问题:结构相关(资源使用冲突)指令间的数据相关及控制相关提高执行部件EX利用率,转6页,回下页,回14页,回17页,13,2018/10/8,开发指令级并行性:有VLIW、超标量、SIMD等技术,2、指令级结构与技术的发展,VLIW技术:流水指令包含多种操作,提高EX的利用率,需解决问题(新增):目标代码效率(即编译程序效率)VLIW已基本不用,转上页
6、,回下页,14,2018/10/8,需解决问题(新增):数据存取宽度支持新数据类型,需解决问题(新增):多I、D并行存取更严重的数据相关,超标量流水技术:多条指令并行流水,SIMD流水技术:流水指令可处理多个数据,转上页,转12页(单流水线),15,2018/10/8,开发程序级并行性:有多线程(MT)、超线程(HT)等技术即同时多线程(SMT),回下页,3、程序级结构与技术的发展,回47页,回68页,16,2018/10/8,4、CPU级结构与技术的发展,开发CPU级并行性:有多CPU、多核CPU等技术,多核CPU与超线程CPU:*超线程CPU多个逻辑CPU(要求资源使用不冲突)*多核CPU
7、多个物理CPU(资源使用不会冲突),转上页,17,2018/10/8,1、流水线的结构相关处理,L1 Cache采用哈佛结构:即I-Cache、D-Cache分离,转12页(结构相关),转11页(L1),四、流水线实现时的相关处理,回下页,*效果避免了取指段与取数段/写回段间的操作冲突,减轻了L1 Cache与L2 Cache间的访问冲突概率,18,2018/10/8,增设指令预取缓冲器及数据存储缓冲器:*指令预取缓冲器进一步减少了取指段与数据段L1级Cache不命中时的访问冲突概率*数据存储缓冲器实现“零等待写”,避免了流水线中取数段与写回段的操作冲突零等待写写无延迟,无取Cache操作时再
8、写,转上页,L1 Cache冲突处理:I-Cache的访问优先级D-Cache,19,2018/10/8,处理方法:有后推法、相关专用通路法、异步流动法3种,回下页,2、流水线的数据相关处理,(1)先写后读(RAW)相关及处理,回32页,20,2018/10/8,转上页,(2)先读后写(WAR)及写-写(WAW)相关及处理WAR及WAW数据相关因采用异步流动法而产生(见上图),处理方法:动态调度方法即存在RAW、WAR、WAW相关的指令等待,无相关指令先执行,避免了WAR、WAW相关*结构需求用指令窗口暂存的是已译码指令串,取指/译码(IF/ID)速度执行(EX)速度,回32页,21,2018
9、/10/8,处理方法:后推法、优化延迟转移法、预测(猜测)法,预测测法:有静态预测法、动态预测法两种*静态预测按指令类型或寻址方式猜测转移方向*动态预测按分支指令执行历史猜测转移方向*应用有历史的分支指令用动态法,否则用静态法,3、流水线的控制相关处理,后推法:取指部件一直等待,直到相关消除(见上图),22,2018/10/8,(分支)预测法实现原理:*转移历史保存用转移目标缓冲器BTB保存,*猜测实现IF段或ID段预测方向,EX段更新转移历史,回28页,转4页(PC),23,2018/10/8,*预测算法静态预测(如下表),动态预测(如下图),*预测法的后续处理用后援寄存器保存可能被破坏的状
10、态(及数据)预测指令的执行只完成到执行段(EX)确认预测正确后才进行写回段(WB),24,2018/10/8,第二部分 P CPU结构与技术,25,2018/10/8,结构特征:*哈佛结构I-Cache、D-Cache分离(Pentium已有)*双独立总线(DIB)结构MEM总线与L2 Cache总线并行*动态执行技术由多路分支预测、数据流分析、推测执行3大技术组成*超标量流水结构3路超标量、12级流水结构,转下页,一、P CPU结构特征,回28页,回37页,26,2018/10/8,回上页,回37页,回39页,回44页,回下页,回36页,27,2018/10/8,Pentium的Cache结
11、构:贯通式Cache(不命中时再访问主存)TCPU访存命中Cache =TMEM地址Cache地址变换+TCache阵列TCPU访存不命中Cache=TMEM地址Cache地址变换+TMEM阵列+TCache阵列,P的Cache结构:DIB结构的Cache(BIU以2种频率同时访问)TCPU访存命中Cache =TMEM地址Cache地址变换+TCache阵列TCPU访存不命中Cache=TMEM阵列,二、P CPU的双独立总线(DIB)结构,转上页,28,2018/10/8,三、P CPU的动态执行技术,1、多路分支预测技术,基本原理(回顾):*指令预取时用指令地址查BTB命中时,采用动态预
12、测法预取后继指令*指令译码时对BTB不命中的转移指令,采用静态预测法预测,预测为转移时进行误预测处理*指令执行完成时更新转移指令的转移历史,误预测时需进行相应处理,即可以对分支指令(转移指令)的多个历史模式进行预测,是Pentium分支预测技术的发展,转25页(3点),转22页(预测过程),29,2018/10/8,2、数据流分析技术乱序执行技术,(1)乱序执行思想,乱序执行思想:用指令窗口按序保存多条指令;优先执行操作数就绪的指令(数据流技术),转4页(PC及指令格式),回下页,30,2018/10/8,(2)分布式动态调度技术(Tomasulo算法)核心是用寄存器重命名方法解决RAW、WA
13、R、WAW相关,转上页,回下页,回35页,31,2018/10/8,分布式动态调度CPU基本结构图:,转上页,回下页,回33页,回34页,32,2018/10/8,*指令数据关系部件关系的实现数据产生部件(RS/FLB):标有站号(指示数据所在位置)数据接收/存储部件(RS/SDB/FLR):设有站号项及忙位注:站号项指示所接收数据的对应数据产生部件忙 位=1时,数据项无效(尚未接收前趋指令未完成)=0时,数据项可用(已接收从站号项部件处),*当前指令译码时的控制器动作指令操作:在RS中占用一行(数据就绪时送ALU)源操作数:将相应部件的数据项放入RS如对应REG忙位=0时,指令所在RS行源1
14、值对应REG数据项对应REG忙位=1时,产生了RAW相关,转上页,目的操作数:设置相应接收部件的站号项及忙位如对应REG忙位=0时,站号项指令所在RS站号、忙位1对应REG忙位=1时,产生了WAW相关,转19页,转20页,回下页,33,2018/10/8,RAW、WAR、WAW相关的检测及调度准备:*RAW相关的检测及调度准备(当前指令)译码时相关存在条件指令源操作数对应的REG忙位=1时调度准备取REG的站号项到RS中 直接取源头数据(REG重命名)控制器的动作 同时接收CDB(相关专用通路法),*WAR相关的检测与消除(当前指令)译码时相关存在条件指令源操作数对应的REG忙位=0时调度准备
15、取REG的数据项到RS中乱序执行不影响当前指令(WAR相关消除),*WAW相关的检测与消除译码时相关存在条件指令目的操作数对应的REG忙位=1时调度准备REG的站号项指令对应RS站号(忙位已=1)REG只接收最后指令的数据(REG重命名),转上页,转31页(图),回下页,三角债中间者还借条,钱落袋为安,再借钱时作废旧借条,34,2018/10/8,动态调度的实现:-派遣次序即执行次序*乱序派遣实现RS使操作数已就绪的指令被派遣*RAW相关后推法实现RS使操作数未就绪的指令等待,F1站号项0001(等待接收访存有延迟FLB1的数据) F1忙位项1(操作未完成、数据不可用),M1源1站号项0001
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
2000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- INTEL 现代 CPU 结构 技术 PPT
