爱豆剧果冻传媒在线播放,骚片下载,国产大片黄

并行計算的編程模型

定價：¥79

中教價：¥63.20 (8.00折）

庫存數(shù)： 0

叢書名：計算機科學叢書

購買數(shù)量：

      本書以使用說明的形式對當今主流的并行編程模型進行了詳細描述，內容包括分布式內存架構上常見的MPI（消息傳遞接口）編程模型；單邊通信模型，范圍從低層的運行時庫（GASNet、OpenSHMEM）到高層的編程模型（UPC、GA、Chapel）；面向任務的編程模型，包括Charm++、ADLB、Scioto、Swift、CnC，由運行時系統(tǒng)來管理計算和數(shù)據(jù)移動；面向節(jié)點內并行（多核架構以及附帶加速器）的并行編程模型，包括OpenMP、CilkPlus、TBB、CUDA以及OpenCL。每章配備大量應用和程序實例，可以使讀者很好地理解各種編程模型所提供的功能及特點。本書可作為高等院校并行編程課程的研究生教材，也可作為具有一定并行編程經(jīng)驗的軟件開發(fā)人員、科研人員以及任何與數(shù)據(jù)集及大規(guī)模計算打交道的科學家的參考資料。

對于正在編程的程序員，編程模型可被看作一臺虛擬機，并可通過編程語言和函數(shù)庫實現(xiàn)。如果某個編程模型成為計算機科學研究中的熱點，需要具有以下特性：高效性（易于描述各種抽象算法）、移植性（兼容各種硬件計算平臺）、高性能（高效均衡地利用硬件平臺的計算能力）、通用性（廣泛地描述各種算法）。針對特定的編程模型，同時具有上述四種特性中的一種或兩種相對容易，但同時具備這四種特性幾乎是不可能的。特定的編程模型無法同時具備四種特性的主要原因在于編程模型的多樣性，因此需要根據(jù)具體的科學應用，選擇不同的編程模型特性。

隨著并行計算技術的發(fā)展，計算機科學領域的專家將研究重點轉移到能夠適應高性能并行計算和超級計算系統(tǒng)的編程模型設計方向。并行編程模型包含執(zhí)行模型（選擇代碼執(zhí)行路徑）和內存模型（管理計算節(jié)點間和節(jié)點內的數(shù)據(jù)流）。多核計算需要并發(fā)計算和移動數(shù)據(jù)，這增加了程序運行結果和性能的不確定性，導致并行編程模型變得更加復雜。

從技術上分析，編程模型和編程系統(tǒng)間存在一定區(qū)別。編程模型是一種編程方式，例如采用大量同步或者隱含編譯器協(xié)助的并行化方式，而編程系統(tǒng)指程序員編寫程序時實際使用的系統(tǒng)抽象接口。隨著時間推移，編程模型和編程系統(tǒng)間的區(qū)別逐漸變得模糊。目前，編程模型既是一種編程方式，也是模型實例化過程中所使用的系統(tǒng)抽象接口。

與通用的編程模型設計不同，在大多數(shù)并行系統(tǒng)中，程序開發(fā)人員往往不采用單一的并行編程模型。不同的開發(fā)人員會選擇不同層次的虛擬化方式，并在高效性、移植性、高性能和通用性四種編程模型特性中選擇不同的組合。針對面向終端的程序開發(fā)應用，具體研究領域的科學家通常傾向于選擇更高效和高級別的編程模型，即使該編程模型只能針對特定的算法而缺乏通用性。針對編程語言和函數(shù)庫，程序開發(fā)者一般更傾向于選擇高性能和低級別的編程模型，即使該編程模型具有較高的使用難度。然而，針對面向終端的程序應用以及編程語言和函數(shù)庫開發(fā)，上述編程模型選擇并非是絕對的，可根據(jù)實際的開發(fā)應用情況進行調整。

關于本書　　本書對當今高性能計算以及超級計算系統(tǒng)上的幾種最主要的并行編程模型進行了概述。書中包含多種并行編程模型，它們擁有不同的生產(chǎn)效率、可移植性、性能以及表達范圍。因此，讀者可以學習和理解每種編程模型提供了哪些折中。

第1章討論了消息傳遞接口（MPI）。MPI是當今面向分布式內存計算的最重要的并行編程模型。該章對MPI最常用的功能進行了概述，并涉及MPI標準的第三個主要版本 ——MPI-3。

第2～5章從低層次的運行時庫到高層次的編程模型，對單邊通信模型進行了討論。第2章介紹了全局地址空間網(wǎng)絡（GASNet），它是一種低層次的編程模型，用于多種分區(qū)全局地址空間（PGAS）模型的一種通用可移植運行時系統(tǒng)。第3章討論了OpenSHMEM單邊通信庫，它用于向用戶直接呈現(xiàn)本地硬件通信功能。OpenSHMEM通過擴展庫的形式模擬了許多PGAS模型的功能，這樣做的好處是不依賴于語言擴展及相應的編譯器支持。第4章提供了Unified Parallel C（UPC）編程模型的概述。UPC是基于C語言的PGAS模型，它為全局地址空間內存的創(chuàng)建與管理提供了相應的語言擴展及庫接口。第5章介紹了全局數(shù)組（GA），與OpenSHMEM類似，GA是另一種基于庫的單邊通信模型。但GA基于多維數(shù)組提供了更高層次的抽象，以方便用戶編程。

第6章討論了Chapel。它是一種高生產(chǎn)率編程模型，支持以任務并行及數(shù)據(jù)并行兩種方式對應用進行描述。Chapel同時也具有一級語言概念，可對局部性進行描述與推理，這與它支持的并行特性是互不相關的。

第7～11章展示了面向任務的編程模型，它們允許用戶以任務的方式描述計算及數(shù)據(jù)單元，并允許運行時系統(tǒng)來管理計算以及必要的數(shù)據(jù)移動。第7章對Charm++編程模型進行了討論。Charm++提供了一種依賴于工作過分解的抽象模型，以在可用的計算單元間動態(tài)地管理任務。第8章深入討論了異步動態(tài)負載均衡（ADLB）庫，它提供了另一種面向任務的工作共享方法，并以MPI作為低層次的通信模型。第9章討論了可擴展任務對象集合（Scioto）編程模型，它依賴于類似PGAS的單邊通信框架來實現(xiàn)基于工作竊取的負載均衡。第10章描述了Swift，它是一種高層次的腳本語言，允許用戶使用高層次語義對計算進行描述，并在內部將其翻譯成其他面向任務的編程模型，如ADLB。第11章描述了并行集（CnC），它是一種高層次的聲明式模型，允許用戶將應用描述為由相互通信的內核構成的圖。

第12～16章展示了面向節(jié)點內并行的編程模型，涉及的硬件環(huán)境包括多核架構、加速器以及兩者同時存在的情況。第12章討論了OpenMP。OpenMP是當今科學計算領域最重要的節(jié)點內并行編程模型。該章介紹了OpenMP的進化歷程以及核心特性，并涉及OpenMP 4.0。第13章討論了Cilk Plus編程模型，它是一種對C及C++語言的并行擴展，用于在現(xiàn)代共享內存多核機器上開發(fā)規(guī)則以及非規(guī)則并行。第14章討論了Intel TBB（Threading Building Block），它是一個基于C++模板類實現(xiàn)的庫。與Cilk Plus類似，TBB支持共享內存多核架構上的并行執(zhí)行。第15章討論了NVIDIA提供的CUDA（Compute Unified Device Architecture）編程模型。CUDA通過單指令多線程塊運行方式來支持NVIDIA圖形處理單元上的并行計算。盡管CUDA是NVIDIA設備上的專有編程模型，但CUDA在并行編程社區(qū)中具有廣泛影響力，并在應用中得到廣泛使用，因此第15章對CUDA進行了討論。第16章描述了OpenCL（Open Computing Language）模型，它提供了一個低層次的、平臺無關的編程模型，可以在不同異構架構上進行編程，其中包括圖形處理單元。

本書對不同編程模型的講解方式在其他書籍中是很少見的。尤其是通過使用說明的方式來展示材料，而不是以更正式的類似于研究論文的方式展示。本書不是一個致力于詳細描述每個編程模型語法及語義的參考手冊。本書的目標是描述使用這些模型進行并行編程的通用方法，以及每種方法所實現(xiàn)的目標。不過，本書提供了一些模型所提供的核心接口的語法及語義定義，我們將這些定義作為編程模型所提供抽象的例子。提供這些定義的目的是提高內容的可讀性。這些定義并不一定是最重要的或最常用的接口，而只是作為例子說明如何使用該編程模型。

致謝　　首先感謝對本書不同章節(jié)做出貢獻的所有作者：

William D. Gropp，伊利諾伊大學厄巴納-香檳分校　　Rajeev Thakur，阿貢國家實驗室　　Paul Hargrove，勞倫斯伯克利國家實驗室　　Jeffery A. Kuehn，橡樹嶺國家實驗室　　Stephen W. Poole，橡樹嶺國家實驗室　　Kathy Yelick，加州大學伯克利分校，勞倫斯伯克利國家實驗室.　　Yili Zheng，勞倫斯伯克利國家實驗室　　Sriram Krishnamoorthy，美國太平洋西北國家實驗室　　Jeff Daily，美國太平洋西北國家實驗室　　Abhinav Vishnu，美國太平洋西北國家實驗室　　Bruce Palmer，美國太平洋西北國家實驗室　　Bradford L. Chamberlain，Cray公司　　Laxmikant Kale，伊利諾伊大學厄巴納–香檳分校　　Nikhil Jain，伊利諾伊大學厄巴納–香檳分校　　Jonathan Lifflander，伊利諾伊大學厄巴納–香檳分校　　Ewing Lusk，阿貢國家實驗室　　Ralph Butler，中田納西州州立大學　　Steven C. Pieper，阿貢國家實驗室　　James Dinan，Intel公司　　Timothy Armstrong，芝加哥大學　　Justin M. Wozniak，阿貢國家實驗室，芝加哥大學　　Michael G.Burke，阿貢國家實驗室，芝加哥大學　　Ian T. Foster，阿貢國家實驗室，芝加哥大學　　Kath Knobe，萊斯大學　　Michael G. Burke，萊斯大學　　Frank Schlimbach，Intel公司　　Barbara Chapman，休斯敦大學　　Deepak Eachempati，休斯敦大學　　Sunita Chandrasekaran，休斯敦大學　　Arch D. Robinson，Intel公司　　Charles E. Leiserson，麻省理工學院　　Alexey Kukanov，Intel公司　　Wen-mei Hwu，伊利諾伊大學厄巴納–香檳分校　　David Kirk，NVIDIA公司　　Tim Mattson，Intel公司　　尤其感謝Ewing Lusk以及William Gropp對本書的整體貢獻以及對修辭的潤色。

我也要感謝阿貢國家實驗室的數(shù)學與計算機科學部的技術作家Gail Pieper，她對本書的格式以及用法進行了不可或缺的指導，極大地提高了本書的可讀性。

出版者的話
譯者序
前言
第1章　消息傳遞接口 1
1.1　引言 1
1.2　MPI基礎 1
1.3　點對點通信 2
1.4　數(shù)據(jù)類型 3
1.5　非阻塞式通信 4
1.6　聚合通信 5
1.7　單邊通信 7
1.8　并行I/O 9
1.9　其他特性 11
1.10　MPI開發(fā)心得 12
1.11　總結 13
第2章　全局地址空間網(wǎng)絡 14
2.1　研究背景與動機 14
2.2　GASNet概述 14
2.2.1　相關術語 15
2.2.2　線程 15
2.2.3　API組織 16
2.3　核心API 16
2.3.1　開始和結束 16
2.3.2　段信息 18
2.3.3　屏障 18
2.3.4　鎖與中斷 19
2.3.5　活動消息 20
2.3.6　活動消息進程 22
2.3.7　活動消息規(guī)則與約束 22
2.3.8　出錯代碼 23
2.4　擴展API 23
2.4.1　GASNet段 23
2.4.2　排序與內存模型 24
2.4.3　阻塞與非阻塞 24
2.4.4　批量與單個 24
2.4.5　寄存器–內存與遠程memset操作 24
2.4.6　擴展API總結 25
2.5　附加內容 26
2.5.1　GASNet工具 26
2.5.2　可移植平臺頭文件 27
2.6　示例 27
2.6.1　編譯和運行示例 27
2.6.2　Hello World示例 28
2.6.3　AM Ping-Pong示例 28
2.6.4　AM Ring示例 30
2.6.5　MCS Locks示例 32
2.7　未來方向 35
第3章　OpenSHMEM 37
3.1　引言 37
3.2　設計理念和根據(jù) 37
3.3　OpenSHMEM存儲模型 39
3.4　對稱堆管理 39
3.4.1　初始化和查詢 40
3.4.2　分配和釋放 40
3.4.3　關于分配和對稱堆的說明 41
3.5　遠程內存訪問：put和get 41
3.5.1　RMA函數(shù)語義 41
3.5.2　RMA函數(shù)使用 42
3.6　排序和同步 44
3.6.1　全局同步屏障 44
3.6.2　fence和quiet：RMA操作排序 45
3.6.3　鎖 46
3.6.4　wait和wait_until 46
3.7　集合操作 47
3.7.1　選擇集合參與者 47
3.7.2　同步數(shù)組和工作數(shù)組 47
3.7.3　非全局同步屏障 48
3.7.4　廣播 48
3.7.5　收集 49
3.7.6　歸約 50
3.8　原子內存操作 51
3.8.1　原子加和遞增 52
3.8.2　原子取–加和取–遞增 52
3.8.3　原子交換和條件交換 53
3.9　未來方向 54
第4章　統(tǒng)一并行C 55
4.1　UPC簡史 55
4.2　UPC編程模型 56
4.2.1　術語 56
4.2.2　全局地址空間 56
4.2.3　執(zhí)行模型 57
4.3　UPC概覽 57
4.3.1　自省 57
4.3.2　數(shù)據(jù)布局 57
4.3.3　通信 59
4.3.4　UPC內存一致性模型 60
4.3.5　同步 61
4.3.6　集合操作 62
4.4　UPC程序示例 63
4.4.1　隨機訪問基準 63
4.4.2　雅可比5點stencil 64
4.4.3　排序示例 65
4.4.4　一維FFT 68
4.5　未來方向 71
第5章　全局數(shù)組 72
5.1　引言 72
5.2　編程模型與設計原則 73
5.3　核心功能 74
5.4　進程組 77
5.5　擴展的數(shù)組結構 78
5.6　稀疏數(shù)組操作的支持 79
5.7　數(shù)組上的集合操作 80
5.8　動態(tài)負載均衡 80
5.9　實際應用 80
第6章　Chapel 82
6.1　Chapel簡史 82
6.1.1　全面啟動 82
6.1.2　初始方向 83
6.1.3　HPCS時代 83
6.1.4　后HPCS時代 84
6.2　Chapel的主題思想 84
6.2.1　通用并行性表達 84
6.2.2　支持多線程執(zhí)行模型 85
6.2.3　支持全局視圖編程 85
6.2.4　支持多尺度設計 85
6.2.5　支持局部性控制 86
6.2.6　支持以數(shù)據(jù)為中心的同步 86
6.2.7　用戶與編譯器的不同角色 86
6.2.8　縮小主流語言和HPC語言之間的差距 87
6.2.9　從頭開始（但爭取令人熟悉） 87
6.2.10　遠大目標 88
6.2.11　促使Chapel成為可移植的開源軟件 88
6.3　Chapel特性概述 88
6.3.1　基本語言特性 89
6.3.2　任務并行 92
6.3.3　數(shù)據(jù)并行 96
6.3.4　位置特性 98
6.4　總結與未來方向 100
第7章　Charm++ 102
7.1　引言 102
7.2　Charm的編程范例以及執(zhí)行模型 102
7.2.1　以過分解作為核心思想 102
7.2.2　消息驅動的執(zhí)行模型 103
7.2.3　授權自適應運行時系統(tǒng) 104
7.3　基本語言 104
7.3.1　chare：分解的基本單元 104
7.3.2　入口方法：基本的調度單元 105
7.3.3　異步方法調用 105
7.3.4　帶索引的chare集合：chare數(shù)組 105
7.3.5　只讀變量 106
7.3.6　Charm++對象：用戶及系統(tǒng)角度 107
7.3.7　結構化匕首符號 108
7.3.8　示例：一維分解的5點stencil代碼 108
7.4　過分解的好處以及消息驅動執(zhí)行 110
7.4.1　不依賴于處理器個數(shù) 110
7.4.2　異步歸約 110
7.4.3　自適應計算與通信重疊 110
7.4.4　合成性 111
7.4.5　軟件工程方面的好處：邏輯實體的相互獨立 111
7.5　一個設計示例：分子動力學模擬 111
7.6　自適應運行時特性 112
7.6.1　Charm++中負載均衡功能 112
7.6.2　容錯 113
7.6.3　縮小或擴展處理器集合 114
7.6.4　異構處理器以及加速器的支持 115
7.6.5　額外特性 115
7.6.6　實驗特性：熱能與功耗管理 115
7.7　底層架構概述 115
7.8　基于Charm++的高層次語言家族 116
7.9　通過Charm++來開發(fā)應用程序 117
7.10　作為研究工具的Charm++ 118
7.11　Charm++：歷史以及現(xiàn)狀 118
7.12　總結 118
第8章　異步動態(tài)負載均衡 119
8.1　引言 119
8.2　manager-worker模型與負載均衡 119
8.3　ADLB庫定義 121
8.3.1　API簡介 121
8.3.2　基本的ADLB API 122
8.3.3　使用批處理優(yōu)化內存使用 123
8.3.4　獲取和使用ADLB 124
8.4　實現(xiàn)ADLB 124
8.4.1　ADLBM實現(xiàn) 124
8.4.2　其他實現(xiàn) 125
8.5　示例 125
8.5.1　一個簡單的批處理調度 125
8.5.2　動態(tài)任務創(chuàng)建：數(shù)獨解法 126
8.5.3　任務單元類型：旅行推銷員問題 127
8.5.4　GFMC 127
8.5.5　Swift 128
8.6　DMEM：一個處理大數(shù)據(jù)的輔助庫 128
8.7　總結與未來方向 129
第9章　可拓展任務對象集合 130
9.1　Scioto任務并行執(zhí)行模型 131
9.1.1　任務對象 131
9.1.2　任務輸入/輸出模型 132
9.1.3　任務執(zhí)行模型 132
9.2　多級并行任務集合 133
9.3　Scioto + GA編程接口 134
9.3.1　核心編程結構 134
9.3.2　實現(xiàn)一個Scioto任務 135
9.3.3　示例：矩陣–矩陣乘法 135
9.4　Scioto運行時系統(tǒng) 136
9.4.1　共享任務隊列方法 136
9.4.2　動態(tài)負載均衡方法 137
9.4.3　終止檢測 137
9.5　總結 138
第10章　Swift：極端規(guī)模的隱式并行腳本 139
10.1　第一個示例：并行因式分解 140
10.2　一個真實的示例：晶體坐標轉換 140
10.3　Swift發(fā)展歷史 142
10.4　Swift語言和編程模型 142
10.4.1　Hello World示例 143
10.4.2　變量和標量數(shù)據(jù)類型 143
10.4.3　數(shù)據(jù)流執(zhí)行 144
10.4.4　條件判斷語句 145
10.4.5　數(shù)據(jù)依賴控制流 145
10.4.6　foreach循環(huán)和數(shù)組 145
10.4.7　Swift函數(shù) 146
10.4.8　外部函數(shù) 147
10.4.9　文件和app函數(shù) 148
10.5　Swift執(zhí)行模型 148
10.6　大規(guī)模并行運行時系統(tǒng) 150
10.7　運行時架構 151
10.8　性能分析 153
10.9　Swift的大規(guī)模并行編譯 153
10.10　相關工作 154
10.11　總結 155
第11章　并發(fā)集合編程模型 157
11.1　引言 157
11.2　研究動機 158
11.3　CnC領域語言 158
11.3.1　概述 158
11.3.2　特征 160
11.3.3　示例 161
11.3.4　執(zhí)行語義 162
11.3.5　CnC編程 163
11.3.6　未來工作 167
11.4　CnC調優(yōu)語言 168
11.4.1　描述 168
11.4.2　特征 171
11.4.3　示例 171
11.4.4　執(zhí)行模型 173
11.4.5　未來工作 175
11.5　當前狀態(tài) 175
11.6　相關工作 175
11.7　總結 177
第12章　OpenMP 178
12.1　引言 178
12.2　概述 179
12.2.1　術語 179
12.2.2　管理數(shù)據(jù)環(huán)境 180
12.2.3　OpenMP概念簡述 181
12.3　OpenMP特性 182
12.3.1　并行區(qū)域 182
12.3.2　同步 186
12.3.3　工作共享 187
12.3.4　任務并行化 191
12.3.5　向量化 195
12.3.6　加速器支持 196
12.3.7　區(qū)域取消 199
12.4　性能優(yōu)化建議 200
12.5　關于正確性的思考 201
12.6　總結與未來方向 201
第13章　Cilk Plus 202
13.1　引言 202
13.2　向量并行化 203
13.2.1　數(shù)組標注 204
13.2.2　pragma SIMD 205
13.2.3　支持SIMD的函數(shù) 206
13.3　線程并行 208
13.4　并行性能 211
13.5　數(shù)據(jù)競爭 215
13.6　實踐技巧 216
13.7　歷史 219
13.8　總結 220
第14章　Intel TBB工具 221
14.1　引言 221
14.1.1　概述 221
14.1.2　基本信息 221
14.2　泛型并行算法 222
14.2.1　簡單循環(huán)的并行化 222
14.2.2　在STL容器中處理數(shù)據(jù) 223
14.2.3　復雜迭代空間 224
14.2.4　其他算法 226
14.3　流圖 226
14.3.1　概述 227
14.3.2　節(jié)點通信協(xié)議 227
14.3.3　控制依賴圖 228
14.3.4　數(shù)據(jù)流圖 230
14.3.5　流圖、算法和無環(huán)圖的選擇 232
14.4　總結 232
第15章　CUDA 233
15.1　CUDA簡史 233
15.2　CUDA編程結構 234
15.3　示例：向量加法 235
15.4　設備內存和數(shù)據(jù)傳輸 236
15.5　kernel函數(shù)與線程 238
15.6　線程組織 240
15.7　線程和多維數(shù)據(jù)的映射 242
15.8　同步與透明可擴展性 243
15.9　線程塊的資源分配 244
15.10　CUDA流與任務并行 244
15.11　總結 248
第16章　OpenCL開放計算語言 249
16.1　計算語言與OpenCL 249
16.2　基本定義 250
16.3　計算機、編程和異構 250
16.4　OpenCL的誕生 251
16.5　OpenCL的核心模型 252
16.5.1　平臺模型 252
16.5.2　執(zhí)行模型 253
16.5.3　內存模型 255
16.5.4　編程模型 257
16.6　OpenCL主機程序：向量加法 258
16.7　總結 266
參考文獻 268

你還可能感興趣

我要評論

您的姓名	驗證碼：
留言內容

国产91青青成人a在线/在线视频成人/aaa成人永久在线观看视频/深夜草莓视频app