当前位置：首页 > news >正文

计算机系统结构第5章-线程级并行

news 2025/6/6 10:44:51

多处理机的概述

自20世纪50年代末、60年代初出现第一批晶体管计算机以来，单处理器性能的增长速度在1986年至2003年期间达到最高峰。之后，摩尔定律放缓，豋纳德缩放比例定律失效

2006年开始，功耗墙问题导致处理器频率极限约为4GHz

-分类

MIMD已成为通用多处理机系统结构的选择，原因：

MIMD具有灵活性；MIMD可以充分利用商品化微处理器在性能价格比方面的优势

分类：
集中式共享存储器结构

分布式存储器多处理机

集中式共享存储器结构：

最多由几十个处理器构成。处理器共享一个集中式的物理存储器

也叫做SMP,UMP

SMP机器（Symmetric shared-memory MultiProcessor）对称多处理器

对称：所有处理器都能够平等的访问存储器

(现有的多核心芯片都是SMP)

UMA机器（Uniform Memory Access）一致存储器访问

一致：所有处理器访问存储器的延迟都是一致的

分布式存储器多处理机

存储器在物理上是分布的。

每个结点包含：处理器，存储器，I／O，互连网络接口

在许多情况下，分布式存储器结构优于集中式共享存储器结构。

将存储器分布到各结点的优点

如果大多数的访问是针对本结点的局部存储器，则可降低对存储器和互连网络的带宽要求；

对本地存储器的访问延迟时间小。

缺点

处理器之间的通信较为复杂，且各处理器之间访问延迟较大。

簇：超级结点

每个结点内包含个数较少（例如2～8）的处理器；

处理器之间可采用另一种互连技术（例如总线）相互连接形成簇。

存储器系统结构：

大规模多处理机中存储器在物理上分布在各个处理节点中，但是在逻辑地址空间的组织方式及处理器之间通信的实现方法上，有两种方案：

1，共享地址空间

物理上分离的所有存储器作为一个统一的共享逻辑空间进行编址，任何一个处理器可以访问该共享空间中的任何一个单元（如果它具有访问权），而且不同处理器上的同一个物理地址指向的是同一个存储单元。

别称：DSM,NUMA

分布式共享存储器系统,允许多个处理器或节点共享同一逻辑地址空间的存储器

NUMA 架构中，处理器访问本地内存的速度比访问远程内存（其他处理器关联的内存）速度更快。

2，独立地址空间

把每个结点中的存储器编址为一个独立的地址空间，不同结点中的地址空间之间是相互独立的。

整个系统的地址空间由多个独立的地址空间构成

每个结点中的存储器只能由本地的处理器进行访问，远程的处理器不能直接对其进行访问。

可以把每个处理器-存储器看做一个单独的计算机，这种机器多以集群存在

通信机制：

1,共享存储器通信机制：

共享地址空间的计算机系统采用，处理器之间是通过用load和store指令对相同存储器地址进行读/写操作来实现的。

2,消息传递通信机制：

多个独立地址空间的计算机采用，通过处理器间显式地传递消息来完成。

远程消息传递机制：

远程进程调用（RPC）:发送消息，请求传递数据或对数据进行操作.目的处理器接收到消息以后，执行相应的操作或代替远程处理器进行访问，并发送一个应答消息将结果返回。

1,同步：

请求处理器发送一个消息后一直要等到应答结果才继续运行

2,异步：

数据发送方知道别的处理器需要数据，通信也可以从数据发送方来开始，数据可以不经请求就直接送往数据接受方。

共享存储器通信的主要优点

1，与常用的对称式多处理机使用的通信机制兼容。

2，易于编程，同时在简化编译器设计方面也占有优势。

3，采用大家所熟悉的共享存储器模型开发应用程序，而把重点放到解决对性能影响较大的数据访问上。

4，当通信数据量较小时，通信开销较低，带宽利用较好。

5，可以通过采用Cache技术来减少远程通信的频度，减少了通信延迟以及对共享数据的访问冲突。

消息传递通信机制的主要优点：

1，硬件较简单。

2，通信是显式的，因此更容易搞清楚何时发生通信以及通信开销是多少。

3，显式通信可以让编程者重点注意并行计算的主要通信开销，使之有可能开发出结构更好、性能更高的并行程序。

4，同步很自然地与发送消息相关联，能减少不当的同步带来错误的可能性。

5,可在支持上面任何一种通信机制的硬件模型上建立所需的通信模式平台。

在共享存储器上支持消息传递相对简单。

在消息传递的硬件上支持共享存储器就困难得多。所有对共享存储器的访问均要求操作系统提供地址转换和存储保护功能，即将存储器访问转换为消息的发送和接收。

计算机构成的两个基本要素：

点：

包括小到CPU内部的寄存器、ALU、控制器，到存储模块、外设，乃至多处理机的计算节点，都可以视为点；

互连网络：

按照一定拓扑结构和控制方式，将点连接起来。

系统内部的互联：

静态互连网络：指处理单元间有固定连接的一类网络，在程序执行期间，这种点到点的链接保持不变

动态互连网络：由开关单元构成，可以按照应用程序的要求动态的改变连接组态。

并行处理机体系结构分类：

PVP，Parallel Vector Processor，并行向量处理机

这样的系统中包含了少量的高性能的向量处理器VP，每个至少具有1 Gflops的处理能力；

存储器以兆字节每秒的速度向处理器提供数据。

向量处理器VP和共享存储模块通过高带宽的交叉开关网络互连；

这样的机器通常不使用高速缓存，而是使用大量的向量寄存器和指令缓冲器；

例如：Cray90、NECSX-4和我国的银河１号等都是 PVP。

SMP，Symmetric Multiprocessor，对称多处理机

SMP系统使用商品微处理器（具有片上或外置高速缓存）；

它们经由高速总线（或交叉开关）连向共享存储器和I/O；

这种机器主要应用于商务，例如数据库、在线事务处理系统和数据仓库等；

重要的是系统是对称的，每个处理器可等同的访问共享存储器、I/O设备和操作系统服务。正是对称，才能开拓较高的并行度；也正是共享存储，限制系统中的处理器不能太多（一般少于64个），同时总线和交叉开关互连一旦作成也难于扩展。

例如：IBM R50、SGI Power Challenge、DEC Alpha服务器8400和我国的曙光１号等都是这种类型的机器

MPP，Massively Parallel Processor，大规模并行处理机

MPP一般是指超大型计算机系统；

处理节点采用商品微处理器；每个节点上有自己的局部存储器；采用高通信带宽和低延迟的互连网络（专门设计和定制的）进行节点互连；

能扩放至成百上千乃至上万个处理器；

它是一种异步的MIMD机器，程序系由多个进程组成，每个都有其私有地址空间，进程间采用传递消息相互作用；

MPP的主要应用是科学计算、工程模拟和信号处理等以计算为主的领域。

例如：Intel Paragon、Cray T3E、IntelOption Red和我国的曙光-1000等都是这种类型的机器。

DSM，Distributed Shared Memory，分布式共享存储多处理机

物理上有分布在各节点中的局部存储器，但是对用户而言，系统硬件和软件提供了逻辑上单地址的编程空间。

高速缓存目录DIR用以支持分布高速缓存的一致性。

DSM相对于MPP的优越性是编程较容易

COW，Cluster of Workstations，工作站集群

在有些情况下，集群往往是低成本的变形的MPP;

COW的重要界线和特征是：

①COW的每个节点都是一个完整的工作站（不包括监视器、键盘、鼠标等），这样的节点有时叫作“无头工作站”，一个节点也可以是一台PC或SMP；

②各节点通过一种低成本的商品（标准）网络（如以太网、FDDI和ATM开关等）互连（有的商用机群也使用定做的网络）；

③各节点内总是有本地磁盘，而MPP节点内却没有；

④节点内的网络接口是松散耦合到I/O总线上的，而MPP内的网络接口是连到处理节点的存储总线上的，因而可谓是紧耦合式的；

⑤一个完整的操作系统驻留在每个节点中，而MPP中通常只是个微核，COW的操作系统是工作站 UNIX，加上一个附加的软件层以支持单一系统映像、并行度、通信和负载平衡等。

-性能测试:并行处理的两个挑战：

1程序中的并行性有限；

比如：假设想用100个处理器达到80的加速比，求原计算程序中串行部分最多可占多大的比例？

得出并行比例：99.75%

2相对较大的通信开销

针对第二个挑战，多处理机之间的远程访问的延迟本来就很大，毋庸置疑的，现有的机器中，处理器之间的数据通信大约需要50～1000个时钟周期。

（这主要取决于通信机制、互连网络的种类和机器的规模）

例题：

假设有一台32台处理器的多处理机，对远程存储器访问时间为200ns。除了通信以外，假设所有其他访问均命中局部存储器。当发出一个远程请求时，本处理器挂起。处理器的时钟频率为2GHz，如果指令基本的CPI为0.5（设所有访存均命中Cache），求在没有远程访问的情况下和有0.2%的指令需要远程访问的情况下，前者比后者快多少?