檢視并行计算与实现技术的原始碼

{| class="wikitable" align="right"
|-
|<center><img src=https://www0.kfzimg.com/G06/M00/39/74/p4YBAFqsmT2AeniYAAB1jijTNYE237_s.jpg width="260"></center>
<small>[https://book.kongfz.com/140772/7391733722 来自 孔夫子网 的图片]</small>
|}

《'''并行计算与实现技术'''》，迟学斌，王彦棢，王珏，刘芳 著，出版社： 科学出版社。

[[书籍]]是知识<ref>[https://www.sohu.com/a/110337865_464088 什么是知识？]，搜狐，2016-08-13</ref>的源泉，只有书籍才能解救人类，只有知识才能使我们变成精神上坚强的、真正的、有理性<ref>[https://www.sohu.com/a/130751429_492771 理性，是解决绝大多数问题的关键]，搜狐，2017-03-28</ref>的人。唯有这种人能真诚地热爱人，尊重人的劳动，衷心地赞赏[[人类]]永不停息的伟大劳动所创造的最美好的成果。

==内容简介==

《并行计算与实现技术》系统地介绍了并行计算的基础知识和相关算法，并分别介绍了目前主流的并行编程语言MPI、OpenMP以及CUDA的相关语法、编程以及优化技巧等知识，是并行计算程序开发人员快速入门的一本较全面的教材和参考书。
　　
《并行计算与实现技术》共6章。第1章介绍并行计算的基础知识，阐明了并行计算的起源、发展和现状以及相关的基本概念；第2章介绍部分基础的并行算法，包括区域分解、功能分解、[[流水线]]等六种方法，并帮助读者掌握并行算法设计的基本原则；第3章针对矩阵乘法、线性方程组求解、经典迭代算法的并行化、特征值求解这四类典型的数学问题，深入介绍了对应的经典的并行计算算法；第4章和第5章分别介绍了目前使用最广泛的消息传递编程语言MPI和共享存储并行编程语言OpenMP的相关知识和编程技巧；最后一章介绍了GPU并行加速实现技术，并重点介绍了GPU上使用最广泛的CUDA语言的相关语法、硬件架构、优化技巧以及与MPI/OpenMP的混合编程方法。

==目录==

第1章 并行计算基础

1.1 什么是并行计算

1.2 为什么需要并行计算

1.3 并行计算机的发展

1.4 并行算法复杂性分析

1.5 并行计算的基本概念

第2章 基础并行算法

2.1 并行[[算法]]设计基本原则

2.2 区域分解方法

2.3 功能分解方法

2.4 流水线技术

2.5 分而治之方法

2.6 同步并行算法

2.7 异步并行算法

第3章 经典算法的并行计算

3.1 矩阵乘并行计算方法

3.1.1 矩阵卷帘存储方式

3.1.2 并行矩阵乘法

3.2 线性方程组并行求解方法

3.2.1 分布式系统的并行LU分解算法

3.2.2 三角方程组的并行解法

3.3 经典迭代算法的并行化

3.3.1 Jacobi迭代法

3.3.2 Gauss-Seidel迭代法

3.4 特征值问题并行计算方法

3.4.1 对称三对角矩阵特征值问题

3.4.2 Householder变换

3.4.3 化对称矩阵为三对角矩阵

第4章 消息传递编程接口MPI

4.1 并行环境函数

4.2 MPI进程控制函数

4.2.1 MPI进程组操作函数

4.2.2 MPI通信子操作

4.3 点到点通信函数

4.3.1 阻塞式通信函数

4.3.2 非阻塞式通信函数

4.3.3 特殊的点到点通信函数

4.3.4 MPI的通信模式

4.4 自定义数据类型

4.4.1 用户定义的数据类型

4.4.2 MPI的数据打包与拆包

4.5 聚合通信函数

4.5.1 障碍同步

4.5.2 单点与多点通信函数

4.5.3 多点与多点通信函数

4.6 全局归约操作函数

第5章 共享存储并行编程OpenMP

5.1 OpenMP发展历程

5.2 OpenMP执行模型和存储模型

5.3 OpenMP指导语句

5.3.1 parallel结构

5.3.2 工作共享结构

5.3.3 数据共享属性子句

5.3.4 其他子句

5.3.5 Tasking结构

5.3.6 结构嵌套规则

5.4 OpenMP运行时函数库

5.4.1 运行时函数定义

5.4.2 执行环境函数

5.4.3 锁函数

5.4.4 时间函数

5.5 OpenMP环境变量

5.6 OpenMP在MIC架构上的优化技术

5.6.1 offload模式下将Host环境传播至MIC（target）计算节点

5.6.2 offload模式提供了多种关键字来实现多功能的需求

5.6.3 查看编译器对程序中OpenMP区域的优化处理

5.6.4 OpenMP在Offload及Native模式下的不同缺省值

5.6.5 设置OpenMP的栈空间大小

5.6.6 分配部分计算资源给运行的程序

第6章 GPU并行加速实现技术

6.1 GPU以及GPGPU发展简介

6.2 CUDA并行编程模型

6.2.1 线程结构

6.2.2 线程调度

6.3 CUDA软件体系

6.3.1 CUDA函数定义以及变量类型限定符

6.3.2 CUDA算数指令与数学函数

6.3.3 CUDA内置函数

6.3.4 CUDA软件体系结构

6.3.5 CUDA程序的编译

6.4 CUDA存储器模型

6.4.1 寄存器

6.4.2 全局存储器

6.4.3 本地存储器

6.4.4 共享存储器

6.4.5 常量存储器

6.4.6 纹理存储器

6.5 CUDA程序的优化

6.5.1 处理器利用率优化

6.5.2 指令吞吐量优化

6.5.3 存储器访问优化

6.5.4 矩阵乘法程序优化示例

6.5.5 矩阵转置程序优化示例

6.6 MPI/CUDA混合编程

6.6.1 MPI/CUDA混合编程模型

6.6.2 GPU集群上的数据传输模型

6.6.3 MPI/CUDA混合编程以及编译运行示例

6.6.4 MPI/OpenMP/CUDA混合编程

6.6.5 异构平台数学库MAGMA简介

参考文献

索引

《信息与计算科学丛书》已出版书目

==参考文献==
[[Category:040 類書總論；百科全書總論]]