本書采用自底向上的方式深入探索了片上網(wǎng)絡(luò)的設(shè)計(jì)空間,從底層路由器、緩存和拓?fù)浣Y(jié)構(gòu)的實(shí)現(xiàn),到網(wǎng)絡(luò)層路由算法和流控機(jī)制的設(shè)計(jì),再到片上網(wǎng)絡(luò)與高層并行編程模式的協(xié)同優(yōu)化。本書可作為研究人員的科研參考書,也可作為計(jì)算機(jī)科學(xué)和微電子專業(yè)高年級本科生和研究生教材。
前 言Preface半導(dǎo)體工藝的進(jìn)步使得集成電路的晶體管數(shù)目不斷增加,設(shè)計(jì)復(fù)雜單核處理器面臨的功耗急劇上升和收益逐漸下降等問題導(dǎo)致研究人員轉(zhuǎn)向設(shè)計(jì)多核處理器。當(dāng)前處理器已經(jīng)集成了數(shù)十甚至上百個(gè)計(jì)算核,業(yè)界已進(jìn)入眾核處理器時(shí)代,但是眾核處理器設(shè)計(jì)依然面臨著從底層邏輯實(shí)現(xiàn)到高層編程模式等方面的關(guān)鍵挑戰(zhàn)。眾核處理器的正確性、性能和效率都取決于處理器內(nèi)部的通信機(jī)制,有效解決眾核處理器面臨的眾多挑戰(zhàn)需要采用以通信為核心的跨層次優(yōu)化方法。 傳統(tǒng)的片上總線通信機(jī)制存在帶寬較低、延遲較大、功耗較高、可擴(kuò)展性較差等缺陷。為避免這些缺陷,片上網(wǎng)絡(luò)將報(bào)文交換思想引入芯片內(nèi)部通信機(jī)制中,由于它具備許多優(yōu)良的特性,因此迅速成為系統(tǒng)結(jié)構(gòu)領(lǐng)域的一個(gè)重要研究方向。盡管片上網(wǎng)絡(luò)與片外網(wǎng)絡(luò)具有一定的相似性,但是兩者在延遲、功耗和面積等方面有著本質(zhì)區(qū)別。片上網(wǎng)絡(luò)要與計(jì)算核一起競爭芯片寶貴的功耗和面積資源,這使得片上網(wǎng)絡(luò)只能利用有限的功耗和面積資源。為了在有限的功耗和面積開銷下獲得較高的性能,設(shè)計(jì)者應(yīng)該更加關(guān)注片上網(wǎng)絡(luò)的優(yōu)化,包括底層邏輯實(shí)現(xiàn)的優(yōu)化、網(wǎng)絡(luò)層路由和流控的優(yōu)化以及面向高層編程模式的優(yōu)化。 我們課題組從事計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)前沿領(lǐng)域的研究,在片上網(wǎng)絡(luò)方向已有十余年的耕耘,在許多國際知名期刊和會議上發(fā)表了數(shù)十篇具有影響力的論文。本書對課題組發(fā)表的較具影響力的片上網(wǎng)絡(luò)相關(guān)論文進(jìn)行了回顧和總結(jié),包括在頂級和權(quán)威會議ISCA、HPCA、DAC、ICCD、ASAP、ASP-DAC發(fā)表的7篇論文,以及在頂級和權(quán)威期刊《IEEE Transactions on Computers》《IEEE Transactions on Parallel and Distributed Systems》《ACM Transactions on Architecture and Code Optimization》《Microprocessors and Microsystems》發(fā)表的6篇論文。 本書并不是對課題組研究成果和設(shè)計(jì)經(jīng)驗(yàn)的簡單堆疊,而是對內(nèi)容進(jìn)行了精心組織,自底向上涵蓋了從底層路由器、緩存和拓?fù)浣Y(jié)構(gòu)的實(shí)現(xiàn),到網(wǎng)絡(luò)層路由算法和流控機(jī)制的設(shè)計(jì),再到片上網(wǎng)絡(luò)與高層并行編程模式的協(xié)同優(yōu)化等內(nèi)容。本書包括五個(gè)部分,第一部分對本書內(nèi)容進(jìn)行簡介,第五部分對全書內(nèi)容進(jìn)行總結(jié)并展望了未來工作,中間三部分是本書的主體部分。 第二部分關(guān)注底層邏輯實(shí)現(xiàn),由第2~4章組成。第2章討論了一種基于翼通道的單周期路由器結(jié)構(gòu),它能顯著降低網(wǎng)絡(luò)延遲。第3章研究了兩種具備擁塞感知能力的動態(tài)虛通道結(jié)構(gòu),這些結(jié)構(gòu)能夠在不同虛通道或者不同物理端口之間共享緩存資源。第4章介紹了一種擴(kuò)展虛擬總線的片上網(wǎng)絡(luò)拓?fù)洌@種拓?fù)浣Y(jié)構(gòu)能高效支持重要的多播和廣播通信。 第三部分討論路由算法和流控機(jī)制,包括第5~8章。第5章設(shè)計(jì)面向負(fù)載整合模式的路由算法,該路由算法能為多個(gè)同時(shí)運(yùn)行的應(yīng)用程序提供較高適應(yīng)性和動態(tài)隔離性。第6章提出了一種面向完全自適應(yīng)路由算法的流控機(jī)制,它能顯著提升緩存資源的利用率。第7章討論了面向Torus網(wǎng)絡(luò)的流控機(jī)制,所提出的切片氣泡流控在低開銷條件下獲得了較高的性能。第8章研究高效能和公平性流控機(jī)制,提出的基于當(dāng)值緩存的流控機(jī)制可有效支持對緩存進(jìn)行電源門控,同時(shí)提出了考慮報(bào)文傳輸公平性的流控機(jī)制。 第四部分研究片上網(wǎng)絡(luò)和高層并行編程模式的協(xié)同優(yōu)化,包括第9~11章。第9章為cache一致性協(xié)議中的聚合通信提供硬件支持以防止這些通信成為性能瓶頸。第10章面向消息傳遞編程模式定制片上網(wǎng)絡(luò),為消息傳遞基本原語提供了專用硬件實(shí)現(xiàn)。第11章研究了一種自適應(yīng)消息傳遞通信協(xié)議,該協(xié)議兼具緩存通信模式和同步通信模式的優(yōu)點(diǎn)。 總之,基于以通信為核心的跨層次優(yōu)化方法,本書內(nèi)容顯著推動了片上網(wǎng)絡(luò)和多核處理器研究領(lǐng)域的進(jìn)步。本書以一種自底向上的方式全面探索了片上網(wǎng)絡(luò)設(shè)計(jì)空間,研究成果涵蓋片上網(wǎng)絡(luò)領(lǐng)域的大量研究主題,不僅提升了眾核處理器通信層的性能并降低了硬件開銷,還有效緩解了眾核處理器邏輯實(shí)現(xiàn)層和并行編程模式層面臨的問題。 本書由王志英主編、策劃和統(tǒng)籌,寫作分工如下:第1章、第5章、第6章、第7章、第9章和第12章由馬勝撰寫,第2章由賴明澈撰寫,第3章由石偉和賴明澈撰寫,第4章、第10章和第11章由黃立波撰寫,第8章由王鵬撰寫。 本書的編寫得到了機(jī)械工業(yè)出版社的大力支持,并得到了如下項(xiàng)目的資助:國家自然科學(xué)基金課題61572508、61272144、61672526、61303065、61472435、61572509和61402497,國家重點(diǎn)研發(fā)計(jì)劃課題2016YFB0200203,國家863計(jì)劃課題2015AA015302。 本書是國內(nèi)第一部片上網(wǎng)絡(luò)領(lǐng)域的學(xué)術(shù)專著,可用作研究人員的科研參考書,也可作為計(jì)算機(jī)科學(xué)和微電子專業(yè)高年級本科生和研究生教材。 由于作者的能力和知識面有限,書中難免存在錯(cuò)誤和缺陷,懇請讀者批評指正。 王志英國防科技大學(xué)zywang@nudt.edu.cn2016年11月于湖南長沙
馬勝,博士,國防科技大學(xué)計(jì)算機(jī)學(xué)院微電子與微處理器研究所助理研究員。參與多門研究生課程的教學(xué)工作,包括片上互連網(wǎng)絡(luò)和DSP算法與體系結(jié)構(gòu)實(shí)現(xiàn)等。作為項(xiàng)目負(fù)責(zé)人主持國家自然科學(xué)基金青年基金項(xiàng)目1項(xiàng),省部級項(xiàng)目3項(xiàng)。
目 錄Contents前言第一部分 序言第1章 緒論21.1 眾核處理器時(shí)代21.2 以通信為核心的跨層次優(yōu)化31.3 片上網(wǎng)絡(luò)簡介51.3.1拓?fù)浣Y(jié)構(gòu)61.3.2 路由算法71.3.3 流控機(jī)制81.3.4 路由器微結(jié)構(gòu)101.3.5 性能評價(jià)指標(biāo)131.4 片上網(wǎng)絡(luò)研究現(xiàn)狀141.4.1 拓?fù)浣Y(jié)構(gòu)的研究141.4.2 單播通信路由的研究151.4.3 聚合通信路由的研究161.4.4 流控機(jī)制的研究171.4.5 路由器微結(jié)構(gòu)的研究181.5 真實(shí)處理器的片上網(wǎng)絡(luò)191.5.1 MIT RAW處理器191.5.2 Tilera TILE64處理器211.5.3 Sony/Toshiba/IBM Cell處理器231.5.4 U. T. Austion TRIPS處理器241.5.5 Intel Teraflops處理器261.5.6 Intel SCC處理器271.5.7 Intel Larrabee處理器291.5.8 Intel Knights Corner處理器301.5.9 真實(shí)處理器片上網(wǎng)絡(luò)特性總結(jié)321.6 全書內(nèi)容概述341.7 參考文獻(xiàn)36第二部分 邏輯層實(shí)現(xiàn)第2章 單周期翼通道路由器結(jié)構(gòu)482.1 引言482.2 翼通道路由器體系結(jié)構(gòu)502.2.1 翼通道單周期路由器總體結(jié)構(gòu)502.2.2 翼通道工作原理552.3 路由器微體系結(jié)構(gòu)設(shè)計(jì)582.3.1 通道分配部件582.3.2 快速仲裁部件602.3.3 SIG管理單元和SIG控制單元612.4 實(shí)驗(yàn)評估622.4.1 模擬環(huán)境622.4.2 流水線延遲分析632.4.3 延遲與吞吐率642.4.4 面積與功耗672.5 本章小結(jié)682.6 參考文獻(xiàn)69第3章 動態(tài)虛通道路由器713.1 引言713.2 擁塞感知的動態(tài)虛通道結(jié)構(gòu)723.2.1 動態(tài)虛通道723.2.2 擁塞緩解策略743.3 擁塞感知的多端口共享緩沖結(jié)構(gòu)753.3.1 多端口共享緩沖的動態(tài)虛通道753.3.2 擁塞緩解策略783.4 DVC路由器微結(jié)構(gòu)783.4.1 虛通道控制部件793.4.2 擁塞緩解電路813.4.3 虛通道仲裁部件與開關(guān)仲裁部件823.5 HiBB路由器微結(jié)構(gòu)843.5.1 虛通道控制部件853.5.2 虛通道仲裁部件與輸出端口仲裁部件863.5.3 虛通道調(diào)整結(jié)構(gòu)883.6 實(shí)驗(yàn)評估893.6.1 DVC路由器評估893.6.2 HiBB路由器評估923.7 本章小結(jié)953.8 參考文獻(xiàn)96第4章 虛擬總線拓?fù)浣Y(jié)構(gòu)984.1 引言984.2 相關(guān)研究994.3 研究動機(jī)1004.3.1 基本片上通信網(wǎng)絡(luò)1004.3.2 片上網(wǎng)絡(luò)問題分析1014.3.3 基于事務(wù)的總線通信優(yōu)勢1034.4 虛擬總線片上網(wǎng)絡(luò)1034.4.1 拓?fù)浣Y(jié)構(gòu)1034.4.2 虛擬總線機(jī)制1054.4.3 餓死與死鎖避免1114.4.4 VBON路由器結(jié)構(gòu)1114.5 實(shí)驗(yàn)評估1124.5.1 模擬框架1134.5.2 合成流量評估1154.5.3 真實(shí)應(yīng)用評估1184.5.4 功耗分析1194.5.5 開銷分析1194.6 本章小結(jié)1204.7 參考文獻(xiàn)120第三部分 網(wǎng)絡(luò)層路由和流控設(shè)計(jì)第5章 區(qū)域隔離路由算法1245.1 引言1245.2 相關(guān)研究1265.3 研究動機(jī)1275.3.1 局部自適應(yīng)算法的局限性1285.3.2 應(yīng)用程序內(nèi)部的干擾1295.3.3 應(yīng)用程序之間的干擾1305.4 區(qū)域隔離路由算法1315.4.1 擁塞信息傳播網(wǎng)絡(luò)1325.4.2 DBAR路由器微結(jié)構(gòu)1345.4.3 路由函數(shù)設(shè)計(jì)1365.5 實(shí)驗(yàn)評估1395.5.1 路由函數(shù)評估1405.5.2 單區(qū)域性能1425.5.3 多區(qū)域性能1455.5.4 集中型網(wǎng)格網(wǎng)絡(luò)性能1485.6 硬件開銷討論1515.6.1 連線資源1515.6.2 路由器開銷1515.6.3 功耗和能量延遲積1515.7 進(jìn)一步討論1525.7.1 擁塞信息傳播網(wǎng)絡(luò)帶寬1525.7.2 DBAR的可擴(kuò)展性1535.7.3 擁塞信息傳播延遲1535.8 本章小結(jié)1535.9 參考文獻(xiàn)153第6章 完全自適應(yīng)路由算法的流控機(jī)制1586.1 引言1586.2 相關(guān)研究1616.2.1 死鎖避免理論1616.2.2 完全自適應(yīng)路由算法設(shè)計(jì)1626.3 研究動機(jī)1626.3.1 虛通道分配策略1626.3.2 路由靈活性1636.4 流控和路由設(shè)計(jì)1656.4.1 全報(bào)文發(fā)送1656.4.2 逃逸虛通道的積極分配策略1686.4.3 完全自適應(yīng)路由算法1716.4.4 路由器微結(jié)構(gòu)1716.5 合成流量模式評測1736.5.1 合成流量模式結(jié)果1746.5.2 路由算法的緩存利用率1766.5.3 敏感性分析1786.6 真實(shí)應(yīng)用程序評測1816.6.1 實(shí)驗(yàn)方法和實(shí)驗(yàn)配置1826.6.2 PARSEC測試集結(jié)果1826.7 流控機(jī)制的詳細(xì)分析1836.7.1 緩存利用率的詳細(xì)分析1836.7.2 流控機(jī)制的公平性分析1876.8 進(jìn)一步討論1896.8.1 報(bào)文長度和虛通道深度1896.8.2 DAMQ和混合流控機(jī)制1906.9 本章小結(jié)1906.10 參考文獻(xiàn)190第7章 切片氣泡流控機(jī)制1957.1引言1957.2傳統(tǒng)設(shè)計(jì)的局限1977.2.1dateline1977.2.2本地氣泡策略1987.2.3關(guān)鍵氣泡策略1987.2.4處理變長報(bào)文的低效性1997.3切片氣泡流控機(jī)制及策略2007.3.1理論描述2007.3.2本地切片氣泡策略2027.3.3關(guān)鍵切片氣泡策略2027.3.4餓死現(xiàn)象2037.4路由器流水線和微結(jié)構(gòu)2057.4.1FBFC路由器2057.4.2VCT路由器2067.5實(shí)驗(yàn)方法2077.6一維Torus網(wǎng)絡(luò)性能評測2087.6.1性能2087.6.2緩存利用率2107.6.3短報(bào)文和長報(bào)文的傳輸延遲2117.7二維Torus網(wǎng)絡(luò)性能評測2127.7.144 Torus網(wǎng)絡(luò)性能2127.7.2單切片報(bào)文比例敏感性分析2147.7.3緩存數(shù)