第七章 并行计算机结构.ppt
《第七章 并行计算机结构.ppt》由会员分享,可在线阅读,更多相关《第七章 并行计算机结构.ppt(44页珍藏版)》请在麦多课文档分享上搜索。
1、1,第七章 并行计算机结构,2,第一节 并行计算机结构分类,一、并行性粒度与等级,*并行性粒度G:即计算/通信比,粒度越细、通信量越大,*并行性等级:,3,二、并行性开发策略,1、开发策略,*时间重叠:侧重时间方面,处理过程相互重叠*资源重复:侧重空间方面,同时进行处理过程(同时性)*资源共享:侧重软件手段,轮流使用资源(并发性),2、实现方法,*粗粒度:侧重软件手段,如MIMD方式要求程序员、编译器相互配合,*细粒度:侧重硬件手段,如流水方式、SIMD方式借助于流水线、并行化/向量化编译器,4,三、并行计算机结构分类,*按并行内容分类:SIMD数据并行,细粒度并行,阵列处理机MIMD功能并行
2、,中/粗粒度并行,多处理机/多计算机,*按MEM结构分类:集中式MEM结构UMA访存模型,SMP、PVP分布式MEM结构NUMA或NORMA访存模型,DSM、MPP、COW,思考不同访存模型对编程、性能有哪些影响?,5,第二节 SIMD处理机,一、基本结构,1、分布式结构,回下页,*结构特点:存储模块由每个PE自带,IN是单向的(PEPE),6,*工作原理:数据准备划分后的数据集通过数据总线存放到各PE的LM中,指令执行通过控制部件控制指令译码、执行,标量、向量、网络控制指令的执行部件不同,数据寻径通过网络控制指令控制IN,实现PE间互连,数据通信通过通信指令实现PE间数据通信属于向量指令,I
3、N已按要求实现了互连,转上页,7,2、集中式结构,*结构特点:各个PE共享m个(mn)存储模块,IN是双向的(PEMEM),8,二、主要特点,1、开发并行性中的同时性所有PE操作相同、数据不同,比标量/向量流水具有更好的性能和可扩展性,2、IN对系统性能的影响较大IN直接影响数据通信/存取带宽,IN影响并行算法的实现效率,3、并行算法与SIMD计算机结构密切相关不同结构所对应的并行算法的可行性、实现效率不同,SIMD机研究的重点IN、并行算法,9,三、Illiac 阵列处理机,回下页,回11页,回12页,回13页,10,1、Illiac 阵列由64个PE、64个PEM(含MEM逻辑部件)组成,
4、*PE阵列结构:闭合螺旋线拓扑结构,转上页,*PE组成:如右图各部件受控制部件控制;控制部件受指令控制总线控制,11,*阵列存储器:组成由64个双重编址的PEM组成,存放数据和指令PEM容量:为204864位(一维空间)双重编址:公共编址(行序)、PE编址(列序),访问各PE只能访问自己的PEM(按PE编址),存取数据;CU可通过CU总线访问阵列存储器(按公共编址),取指令和数据(如标量指令操作数);B6700可通过I/O总线访问阵列存储器(按公共编址),转9页,12,2、阵列控制器*功能:所有指令译码与控制、标量指令执行、PE执行控制,*CU与PE通信途径:CU总线传送指令(CU用)和公共数
5、据(标量部件用)CDB广播公共数据(64个PE用)模式位总线传递各PE状态(CU中拼成一个模式字)指令控制线控制各PE执行的向量指令操作,转9页,3、I/O系统*组成:DFS、I/O分系统(IOS、CDC和BIOM)、B6700,*IOS:实现DFS或实时装置与阵列存储器的连接;*CDC:管理CU的I/O请求,使B6700产生中断,B6700通过CDC返回响应给CU;*BIOM:匹配B6700与DFS的带宽,容量为4个PEM容量,13,4、常用并行算法,(1)有限差分*原理:,*实现:每个PE计算一个坐标点,多次迭代,直到误差达标,数据通信由4条IN控制及PE通信指令实现,(2)矩阵加*原理:
6、每个PE计算矩阵中一个元素,*实现:对C=A+B,A、B、C不同地址的分量放在各PE的LM中的相同位置,用三条指令完成(设PE的运算基于累加器):LDA ADD +1STA +2,转9页,14,(3)累加求和*算法:,k=0; while ( 2k N ) /每轮步距为2k,共log2N轮 置PE0至PE2k-1不活跃PEi+2k += PEi ; /0iN-2kk+; /*最终结果在PEN-1中*/,*实现:PE活跃问题使用专用指令实现(操作数为2k-1);,通信步距问题编译程序生成不同的IN控制指令、通信指令对(串);,NPE数问题将N分组求解,15,四、IA32中的SIMD应用-MMX技
7、术,1、实现要求*对硬件的要求:64位特殊ALU能够同时处理多个8位、16位、32位等数据不同数据间无关联(如进位),*对OS的要求:OS向下兼容,不引进新的状态、控制REG和条件码,*对指令系统的要求:增加4种数据表示;使用8个64位MMX寄存器(借用/增加);增加MMX新指令(57条),16,2、MMX数据类型与寄存器,*MMX数据类型:共4种类型,不同数据类型的运算方法不同紧缩字节类型-8个字节打包成64位数据紧缩字类型- 4个字打包成64位数据紧缩双字类型-2个双字打包成64位数据四字类型- 1个64位数据,*MMX寄存器:8个64位寄存器MM0-MM7Pentium-借用8个浮点寄存
8、器,别名方法实现,浮点运算与MMX运算互斥;PII-增设8个MMX寄存器,MMX运算和浮点运算可并行,17,3、MMX指令集,*MMX指令类型:共7组,为算术、比较、转换、逻辑、移位、数据传送、清除MMX状态(EMMS)指令,*MMX指令的特征:SIMD结构可并行处理多个短数据(无相关性),饱和运算方式溢出时不做异常处理,保持为极限值,积和运算方式点积功能,即 ,适于矩阵、离散余弦变换、滤波等操作,比较指令比较结果(各段)放在MM-REG中,用作屏蔽字, 后跟一条逻辑运算指令,可避免转移猜测,转换指令完成不同精度的数据转换(紧缩或解紧缩),用于像点间插值、矩阵转置、色彩空间转换等,18,五、并
9、行存储器的无冲突访问,1、访问需求并行存取分量,不同分量步长不一致(如按行/列/对角线),2、存在问题存储器宽度向量长度,易产生访存冲突(分量步长不同),3、解决方法,采用多体交叉存储器:存储体数PE数,使PE可并行访问,对向量进行分组操作:使MEM宽度向量长度,选择适当存储体数(m):使访问无冲突,对一维向量顺序存放,访问步长与m不成比例,m质数,便于与PE数(常为偶数)互质,19,对多维向量错位存放,行/列/对角线数据在不同体中,例1:设m=22P+1,对矩阵A,不同列错开距离为1=1,不同行错开距离为2=2P,常用方法m为质数,程序根据向量进行相应处理,20,第三节 多处理机,一、SIM
10、D与MIMD比较,1、结构与通用性*SIMD:数据并行,一个CU,IN集中控制,通用性较差;*MIMD:功能/数据并行,多个CU,IN分布控制,通用性较强,2、程序并行性*SIMD:操作级并行,识别靠向量指令,支持靠编译程序和硬件 *MIMD:任务级并行,识别靠显式并行指令、OS,支持靠程序员、编译程序、OS对任务的调度,*多处理机:MIMD结构、NUMA访存模型(MEM单地址空间)、共享变量通信机制,21,3、任务派生*SIMD:向量指令表示及控制,隐式并行、效率低,*MIMD:专用指令表示及控制,显式并行、效率高,4、进程同步*SIMD:单一CU控制,自然同步*MIMD:多个CU控制,需用
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
2000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第七 并行 计算机 结构 PPT
