動(dòng)手學(xué)深度學(xué)習(xí)(PyTorch版)
定 價(jià):¥109.8
中 教 價(jià):¥65.88 (6.00折)
庫(kù) 存 數(shù): 1
本書(shū)是《動(dòng)手學(xué)深度學(xué)習(xí)》的重磅升級(jí)版本,選用經(jīng)典的PyTorch深度學(xué)習(xí)框架,旨在向讀者交付更為便捷的有關(guān)深度學(xué)習(xí)的交互式學(xué)習(xí)體驗(yàn)。本書(shū)重新修訂《動(dòng)手學(xué)深度學(xué)習(xí)》的所有內(nèi)容,并針對(duì)技術(shù)的發(fā)展,新增注意力機(jī)制、預(yù)訓(xùn)練等內(nèi)容。本書(shū)包含15章,第一部分介紹深度學(xué)習(xí)的基礎(chǔ)知識(shí)和預(yù)備知識(shí),并由線性模型引出最簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)多層感知機(jī);第二部分闡述深度學(xué)習(xí)計(jì)算的關(guān)鍵組件、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制等大多數(shù)現(xiàn)代深度學(xué)習(xí)應(yīng)用背后的基本工具;第三部分討論深度學(xué)習(xí)中常用的優(yōu)化算法和影響深度學(xué)習(xí)計(jì)算性能的重要因素,并分別列舉深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理中的重要應(yīng)用。 本書(shū)同時(shí)覆蓋深度學(xué)習(xí)的方法和實(shí)踐,主要面向在校大學(xué)生、技術(shù)人員和研究人員。閱讀本書(shū)需要讀者了解基本的Python編程知識(shí)及預(yù)備知識(shí)中描述的線性代數(shù)、微分和概率等基礎(chǔ)知識(shí)。
·深度學(xué)習(xí)領(lǐng)域重磅作品《動(dòng)手學(xué)深度學(xué)習(xí)》重磅推出PyTorch版本;·李沐、阿斯頓·張等大咖作者強(qiáng)強(qiáng)聯(lián)合,精心編撰;·全球400多所大學(xué)采用的教科書(shū),提供視頻課程、教學(xué)PPT、習(xí)題,方便教師授課與學(xué)生自學(xué);·能運(yùn)行、可討論的深度學(xué)習(xí)入門(mén)書(shū),可在線運(yùn)行源碼并與作譯者實(shí)時(shí)討論。
作者簡(jiǎn)介: 阿斯頓·張(Aston Zhang),亞馬遜資深科學(xué)家,美國(guó)伊利諾伊大學(xué)香檳分校計(jì)算機(jī)科學(xué)博士,統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)雙碩士。他專(zhuān)注于機(jī)器學(xué)習(xí)和自然語(yǔ)言處理的研究,榮獲深度學(xué)習(xí)國(guó)際頂級(jí)學(xué)術(shù)會(huì)議ICLR杰出論文獎(jiǎng)、ACM UbiComp杰出論文獎(jiǎng)以及ACM SenSys最佳論文獎(jiǎng)提名。他擔(dān)任過(guò)EMNLP領(lǐng)域主席和AAAI資深程序委員。 扎卡里·C. 立頓(Zachary C. Lipton),美國(guó)卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)和運(yùn)籌學(xué)助理教授,并在海因茨公共政策學(xué)院以及軟件和社會(huì)系統(tǒng)系擔(dān)任禮節(jié)性任命。他領(lǐng)導(dǎo)著近似正確機(jī)器智能(ACMI)實(shí)驗(yàn)室,研究涉及核心機(jī)器學(xué)習(xí)方法、其社會(huì)影響以及包括臨床醫(yī)學(xué)和自然語(yǔ)言處理在內(nèi)的各種應(yīng)用領(lǐng)域。他目前的研究重點(diǎn)包括處理各種因果結(jié)構(gòu)下分布變化的穩(wěn)健和自適應(yīng)算法、超越預(yù)測(cè)為決策提供信息(包括應(yīng)對(duì)已部署模型的戰(zhàn)略響應(yīng))、醫(yī)學(xué)診斷和預(yù)后預(yù)測(cè)、算法公平性和可解釋性的基礎(chǔ)。他是Approximately Correct博客的創(chuàng)始人,也是諷刺性漫畫(huà)Superheroes of Deep Learning的合著者。 李沐(Mu Li),亞馬遜資深首席科學(xué)家(Senior Principal Scientist),美國(guó)加利福尼亞大學(xué)伯克利分校、斯坦福大學(xué)客座助理教授,美國(guó)卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)系博士。他曾任機(jī)器學(xué)習(xí)創(chuàng)業(yè)公司Marianas Labs的CTO和百度深度學(xué)習(xí)研究院的主任研發(fā)架構(gòu)師。他專(zhuān)注于機(jī)器學(xué)習(xí)系統(tǒng)和機(jī)器學(xué)習(xí)算法的研究。他在理論與應(yīng)用、機(jī)器學(xué)習(xí)與操作系統(tǒng)等多個(gè)領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議上發(fā)表過(guò)論文,被引用上萬(wàn)次。 亞歷山大·J. 斯莫拉(Alexander J. Smola),亞馬遜副總裁/杰出科學(xué)家,德國(guó)柏林工業(yè)大學(xué)計(jì)算機(jī)科學(xué)博士。他曾在澳大利亞國(guó)立大學(xué)、美國(guó)加利福尼亞大學(xué)伯克利分校和卡內(nèi)基梅隆大學(xué)任教。他發(fā)表過(guò)超過(guò)300篇學(xué)術(shù)論文,并著有5本書(shū),其論文及書(shū)被引用超過(guò)15萬(wàn)次。他的研究興趣包括深度學(xué)習(xí)、貝葉斯非參數(shù)、核方法、統(tǒng)計(jì)建模和可擴(kuò)展算法。 譯者簡(jiǎn)介: 何孝霆(Xiaoting He),亞馬遜應(yīng)用科學(xué)家,中國(guó)科學(xué)院軟件工程碩士。他專(zhuān)注于對(duì)深度學(xué)習(xí)的研究,特別是自然語(yǔ)言處理的應(yīng)用(包括語(yǔ)言模型、AIOps、OCR),相關(guān)工作落地于眾多企業(yè)。他擔(dān)任過(guò)ACL、EMNLP、NAACL、EACL等學(xué)術(shù)會(huì)議的程序委員或?qū)徃迦恕?瑞潮兒·胡(Rachel Hu),亞馬遜應(yīng)用科學(xué)家,美國(guó)加利福尼亞大學(xué)伯克利分校統(tǒng)計(jì)學(xué)碩士,加拿大滑鐵盧大學(xué)數(shù)學(xué)學(xué)士。她致力于將機(jī)器學(xué)習(xí)應(yīng)用于現(xiàn)實(shí)世界的產(chǎn)品。她也是亞馬遜人工智能團(tuán)隊(duì)的講師,教授自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)商業(yè)應(yīng)用等課程。她已向累計(jì)1000余名亞馬遜工程師教授機(jī)器學(xué)習(xí),其公開(kāi)課程視頻在YouTube和嗶哩嗶哩上廣受好評(píng)。
對(duì)本書(shū)的贊譽(yù)前言譯者簡(jiǎn)介學(xué)習(xí)環(huán)境配置資源與支持主要符號(hào)表第 1章 引言 11.1 日常生活中的機(jī)器學(xué)習(xí) 21.2 機(jī)器學(xué)習(xí)中的關(guān)鍵組件 31.2.1 數(shù)據(jù) 31.2.2 模型 41.2.3 目標(biāo)函數(shù) 41.2.4 優(yōu)化算法 51.3 各種機(jī)器學(xué)習(xí)問(wèn)題 51.3.1 監(jiān)督學(xué)習(xí) 51.3.2 無(wú)監(jiān)督學(xué)習(xí) 111.3.3 與環(huán)境互動(dòng) 111.3.4 強(qiáng)化學(xué)習(xí) 121.4 起源 131.5 深度學(xué)習(xí)的發(fā)展 151.6 深度學(xué)習(xí)的成功案例 161.7 特點(diǎn) 17第 2章 預(yù)備知識(shí) 202.1 數(shù)據(jù)操作 202.1.1 入門(mén) 212.1.2 運(yùn)算符 222.1.3 廣播機(jī)制 232.1.4 索引和切片 242.1.5 節(jié)省內(nèi)存 242.1.6 轉(zhuǎn)換為其他Python對(duì)象 252.2 數(shù)據(jù)預(yù)處理 262.2.1 讀取數(shù)據(jù)集 262.2.2 處理缺失值 262.2.3 轉(zhuǎn)換為張量格式 272.3 線性代數(shù) 272.3.1 標(biāo)量 282.3.2 向量 282.3.3 矩陣 292.3.4 張量 302.3.5 張量算法的基本性質(zhì) 312.3.6 降維 322.3.7 點(diǎn)積 332.3.8 矩陣-向量積 332.3.9 矩陣-矩陣乘法 342.3.10 范數(shù) 352.3.11 關(guān)于線性代數(shù)的更多信息 362.4 微積分 372.4.1 導(dǎo)數(shù)和微分 372.4.2 偏導(dǎo)數(shù) 402.4.3 梯度 412.4.4 鏈?zhǔn)椒▌t 412.5 自動(dòng)微分 422.5.1 一個(gè)簡(jiǎn)單的例子 422.5.2 非標(biāo)量變量的反向傳播 432.5.3 分離計(jì)算 432.5.4 Python控制流的梯度計(jì)算 442.6 概率 442.6.1 基本概率論 452.6.2 處理多個(gè)隨機(jī)變量 482.6.3 期望和方差 502.7 查閱文檔 512.7.1 查找模塊中的所有函數(shù)和類(lèi) 512.7.2 查找特定函數(shù)和類(lèi)的用法 52第3章 線性神經(jīng)網(wǎng)絡(luò) 543.1 線性回歸 543.1.1 線性回歸的基本元素 543.1.2 向量化加速 573.1.3 正態(tài)分布與平方損失 583.1.4 從線性回歸到深度網(wǎng)絡(luò) 603.2 線性回歸的從零開(kāi)始實(shí)現(xiàn) 613.2.1 生成數(shù)據(jù)集 623.2.2 讀取數(shù)據(jù)集 633.2.3 初始化模型參數(shù) 633.2.4 定義模型 643.2.5 定義損失函數(shù) 643.2.6 定義優(yōu)化算法 643.2.7 訓(xùn)練 643.3 線性回歸的簡(jiǎn)潔實(shí)現(xiàn) 663.3.1 生成數(shù)據(jù)集 663.3.2 讀取數(shù)據(jù)集 663.3.3 定義模型 673.3.4 初始化模型參數(shù) 673.3.5 定義損失函數(shù) 683.3.6 定義優(yōu)化算法 683.3.7 訓(xùn)練 683.4 softmax回歸 693.4.1 分類(lèi)問(wèn)題 693.4.2 網(wǎng)絡(luò)架構(gòu) 703.4.3 全連接層的參數(shù)開(kāi)銷(xiāo) 703.4.4 softmax運(yùn)算 713.4.5 小批量樣本的向量化 713.4.6 損失函數(shù) 723.4.7 信息論基礎(chǔ) 733.4.8 模型預(yù)測(cè)和評(píng)估 743.5 圖像分類(lèi)數(shù)據(jù)集 743.5.1 讀取數(shù)據(jù)集 753.5.2 讀取小批量 763.5.3 整合所有組件 763.6 softmax回歸的從零開(kāi)始實(shí)現(xiàn) 773.6.1 初始化模型參數(shù) 773.6.2 定義softmax操作 783.6.3 定義模型 783.6.4 定義損失函數(shù) 793.6.5 分類(lèi)精度 793.6.6 訓(xùn)練 803.6.7 預(yù)測(cè) 823.7 softmax回歸的簡(jiǎn)潔實(shí)現(xiàn) 833.7.1 初始化模型參數(shù) 833.7.2 重新審視softmax的實(shí)現(xiàn) 843.7.3 優(yōu)化算法 843.7.4 訓(xùn)練 84第4章 多層感知機(jī) 864.1 多層感知機(jī) 864.1.1 隱藏層 864.1.2 激活函數(shù) 884.2 多層感知機(jī)的從零開(kāi)始實(shí)現(xiàn) 924.2.1 初始化模型參數(shù) 924.2.2 激活函數(shù) 934.2.3 模型 934.2.4 損失函數(shù) 934.2.5 訓(xùn)練 934.3 多層感知機(jī)的簡(jiǎn)潔實(shí)現(xiàn) 94模型 944.4 模型選擇、欠擬合和過(guò)擬合 954.4.1 訓(xùn)練誤差和泛化誤差 964.4.2 模型選擇 974.4.3 欠擬合還是過(guò)擬合 984.4.4 多項(xiàng)式回歸 994.5 權(quán)重衰減 1034.5.1 范數(shù)與權(quán)重衰減 1034.5.2 高維線性回歸 1044.5.3 從零開(kāi)始實(shí)現(xiàn) 1044.5.4 簡(jiǎn)潔實(shí)現(xiàn) 1064.6 暫退法 1084.6.1 重新審視過(guò)擬合 1084.6.2 擾動(dòng)的穩(wěn)健性 1084.6.3 實(shí)踐中的暫退法 1094.6.4 從零開(kāi)始實(shí)現(xiàn) 1104.6.5 簡(jiǎn)潔實(shí)現(xiàn) 1114.7 前向傳播、反向傳播和計(jì)算圖 1124.7.1 前向傳播 1134.7.2 前向傳播計(jì)算圖 1134.7.3 反向傳播 1144.7.4 訓(xùn)練神經(jīng)網(wǎng)絡(luò) 1154.8 數(shù)值穩(wěn)定性和模型初始化 1154.8.1 梯度消失和梯度爆炸 1164.8.2 參數(shù)初始化 1174.9 環(huán)境和分布偏移 1194.9.1 分布偏移的類(lèi)型 1204.9.2 分布偏移示例 1214.9.3 分布偏移糾正 1224.9.4 學(xué)習(xí)問(wèn)題的分類(lèi)法 1254.9.5 機(jī)器學(xué)習(xí)中的公平、責(zé)任和透明度 1264.10 實(shí)戰(zhàn)Kaggle比賽:預(yù)測(cè)房?jī)r(jià) 1274.10.1 下載和緩存數(shù)據(jù)集 1274.10.2 Kaggle 1284.10.3 訪問(wèn)和讀取數(shù)據(jù)集 1294.10.4 數(shù)據(jù)預(yù)處理 1304.10.5 訓(xùn)練 1314.10.6 K折交叉驗(yàn)證 1324.10.7 模型選擇 1334.10.8 提交Kaggle預(yù)測(cè) 133第5章 深度學(xué)習(xí)計(jì)算 1365.1 層和塊 1365.1.1 自定義塊 1385.1.2 順序塊 1395.1.3 在前向傳播函數(shù)中執(zhí)行代碼 1395.1.4 效率 1405.2 參數(shù)管理 1415.2.1 參數(shù)訪問(wèn) 1415.2.2 參數(shù)初始化 1435.2.3 參數(shù)綁定 1455.3 延后初始化 145實(shí)例化網(wǎng)絡(luò) 1465.4 自定義層 1465.4.1 不帶參數(shù)的層 1465.4.2 帶參數(shù)的層 1475.5 讀寫(xiě)文件 1485.5.1 加載和保存張量 1485.5.2 加載和保存模型參數(shù) 1495.6 GPU 1505.6.1 計(jì)算設(shè)備 1515.6.2 張量與GPU 1525.6.3 神經(jīng)網(wǎng)絡(luò)與GPU 153第6章 卷積神經(jīng)網(wǎng)絡(luò) 1556.1 從全連接層到卷積 1556.1.1 不變性 1566.1.2 多層感知機(jī)的限制 1576.1.3 卷積 1586.1.4 沃爾多在哪里回顧 1586.2 圖像卷積 1596.2.1 互相關(guān)運(yùn)算 1596.2.2 卷積層 1616.2.3 圖像中目標(biāo)的邊緣檢測(cè) 1616.2.4 學(xué)習(xí)卷積核 1626.2.5 互相關(guān)和卷積 1626.2.6 特征映射和感受野 1636.3 填充和步幅 1646.3.1 填充 1646.3.2 步幅 1656.4 多輸入多輸出通道 1666.4.1 多輸入通道 1676.4.2 多輸出通道 1676.4.3 11卷積層 1686.5 匯聚層 1706.5.1 最大匯聚和平均匯聚 1706.5.2 填充和步幅 1716.5.3 多個(gè)通道 1726.6 卷積神經(jīng)網(wǎng)絡(luò)(LeNet) 1736.6.1 LeNet 1736.6.2 模型訓(xùn)練 175第7章 現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò) 1787.1 深度卷積神經(jīng)網(wǎng)絡(luò)(AlexNet) 1787.1.1 學(xué)習(xí)表征 1797.1.2 AlexNet 1817.1.3 讀取數(shù)據(jù)集 1837.1.4 訓(xùn)練AlexNet 1837.2 使用塊的網(wǎng)絡(luò)(VGG) 1847.2.1 VGG塊 1847.2.2 VGG網(wǎng)絡(luò) 1857.2.3 訓(xùn)練模型 1867.3 網(wǎng)絡(luò)中的網(wǎng)絡(luò)(NiN) 1877.3.1 NiN塊 1877.3.2 NiN模型 1887.3.3 訓(xùn)練模型 1897.4 含并行連接的網(wǎng)絡(luò)(GoogLeNet) 1907.4.1 Inception塊 1907.4.2 GoogLeNet模型 1917.4.3 訓(xùn)練模型 1937.5 批量規(guī)范化 1947.5.1 訓(xùn)練深層網(wǎng)絡(luò) 1947.5.2 批量規(guī)范化層 1957.5.3 從零實(shí)現(xiàn) 1967.5.4 使用批量規(guī)范化層的 LeNet 1977.5.5 簡(jiǎn)明實(shí)現(xiàn) 1987.5.6 爭(zhēng)議 1987.6 殘差網(wǎng)絡(luò)(ResNet) 2007.6.1 函數(shù)類(lèi) 2007.6.2 殘差塊 2017.6.3 ResNet模型 2027.6.4 訓(xùn)練模型 2047.7 稠密連接網(wǎng)絡(luò)(DenseNet) 2057.7.1 從ResNet到DenseNet 2057.7.2 稠密塊體 2067.7.3 過(guò)渡層 2067.7.4 DenseNet模型 2077.7.5 訓(xùn)練模型 207第8章 循環(huán)神經(jīng)網(wǎng)絡(luò) 2098.1 序列模型 2098.1.1 統(tǒng)計(jì)工具 2108.1.2 訓(xùn)練 2128.1.3 預(yù)測(cè) 2138.2 文本預(yù)處理 2168.2.1 讀取數(shù)據(jù)集 2168.2.2 詞元化 2178.2.3 詞表 2178.2.4 整合所有功能 2198.3 語(yǔ)言模型和數(shù)據(jù)集 2198.3.1 學(xué)習(xí)語(yǔ)言模型 2208.3.2 馬爾可夫模型與n元語(yǔ)法 2218.3.3 自然語(yǔ)言統(tǒng)計(jì) 2218.3.4 讀取長(zhǎng)序列數(shù)據(jù) 2238.4 循環(huán)神經(jīng)網(wǎng)絡(luò) 2268.4.1 無(wú)隱狀態(tài)的神經(jīng)網(wǎng)絡(luò) 2278.4.2 有隱狀態(tài)的循環(huán)神經(jīng)網(wǎng)絡(luò) 2278.4.3 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的字符級(jí)語(yǔ)言模型 2288.4.4 困惑度 2298.5 循環(huán)神經(jīng)網(wǎng)絡(luò)的從零開(kāi)始實(shí)現(xiàn) 2308.5.1 獨(dú)熱編碼 2318.5.2 初始化模型參數(shù) 2318.5.3 循環(huán)神經(jīng)網(wǎng)絡(luò)模型 2328.5.4 預(yù)測(cè) 2328.5.5 梯度截?cái)唷?338.5.6 訓(xùn)練 2348.6 循環(huán)神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)潔實(shí)現(xiàn) 2378.6.1 定義模型 2378.6.2 訓(xùn)練與預(yù)測(cè) 2388.7 通過(guò)時(shí)間反向傳播 2398.7.1 循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度分析 2398.7.2 通過(guò)時(shí)間反向傳播的細(xì)節(jié) 241第9章 現(xiàn)代循環(huán)神經(jīng)網(wǎng)絡(luò) 2449.1 門(mén)控循環(huán)單元(GRU) 2449.1.1 門(mén)控隱狀態(tài) 2459.1.2 從零開(kāi)始實(shí)現(xiàn) 2479.1.3 簡(jiǎn)潔實(shí)現(xiàn) 2489.2 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM) 2499.2.1 門(mén)控記憶元 2499.2.2 從零開(kāi)始實(shí)現(xiàn) 2529.2.3 簡(jiǎn)潔實(shí)現(xiàn) 2539.3 深度循環(huán)神經(jīng)網(wǎng)絡(luò) 2549.3.1 函數(shù)依賴(lài)關(guān)系 2559.3.2 簡(jiǎn)潔實(shí)現(xiàn) 2559.3.3 訓(xùn)練與預(yù)測(cè) 2559.4 雙向循環(huán)神經(jīng)網(wǎng)絡(luò) 2569.4.1 隱馬爾可夫模型中的動(dòng)態(tài)規(guī)劃 2569.4.2 雙向模型 2589.4.3 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的錯(cuò)誤應(yīng)用 2599.5 機(jī)器翻譯與數(shù)據(jù)集 2609.5.1 下載和預(yù)處理數(shù)據(jù)集 2619.5.2 詞元化 2629.5.3 詞表 2639.5.4 加載數(shù)據(jù)集 2639.5.5 訓(xùn)練模型 2649.6 編碼器-解碼器架構(gòu) 2659.6.1 編碼器 2659.6.2 解碼器 2669.6.3 合并編碼器和解碼器 2669.7 序列到序列學(xué)習(xí)(seq2seq) 2679.7.1 編碼器 2689.7.2 解碼器 2699.7.3 損失函數(shù) 2709.7.4 訓(xùn)練 2719.7.5 預(yù)測(cè) 2729.7.6 預(yù)測(cè)序列的評(píng)估 2739.8 束搜索 2759.8.1 貪心搜索 2759.8.2 窮舉搜索 2769.8.3 束搜索 276第 10章 注意力機(jī)制 27810.1 注意力提示 27810.1.1 生物學(xué)中的注意力提示 27910.1.2 查詢(xún)、鍵和值 28010.1.3 注意力的可視化 28010.2 注意力匯聚:Nadaraya-Watson 核回歸 28110.2.1 生成數(shù)據(jù)集 28210.2.2 平均匯聚 28210.2.3 非參數(shù)注意力匯聚 28310.2.4 帶參數(shù)注意力匯聚 28410.3 注意力評(píng)分函數(shù) 28710.3.1 掩蔽softmax操作 28810.3.2 加性注意力 28910.3.3 縮放點(diǎn)積注意力 29010.4 Bahdanau 注意力 29110.4.1 模型 29110.4.2 定義注意力解碼器 29210.4.3 訓(xùn)練 29310.5 多頭注意力 29510.5.1 模型 29510.5.2 實(shí)現(xiàn) 29610.6 自注意力和位置編碼 29810.6.1 自注意力 29810.6.2 比較卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和自注意力 29810.6.3 位置編碼 29910.7 Transformer 30210.7.1 模型 30210.7.2 基于位置的前饋網(wǎng)絡(luò) 30310.7.3 殘差連接和層規(guī)范化 30410.7.4 編碼器 30410.7.5 解碼器 30510.7.6 訓(xùn)練 307第 11章 優(yōu)化算法 31111.1 優(yōu)化和深度學(xué)習(xí) 31111.1.1 優(yōu)化的目標(biāo) 31111.1.2 深度學(xué)習(xí)中的優(yōu)化挑戰(zhàn) 31211.2 凸性 31511.2.1 定義 31511.2.2 性質(zhì) 31711.2.3 約束 31911.3 梯度下降 32211.3.1 一維梯度下降 32211.3.2 多元梯度下降 32411.3.3 自適應(yīng)方法 32611.4 隨機(jī)梯度下降 32911.4.1 隨機(jī)梯度更新 32911.4.2 動(dòng)態(tài)學(xué)習(xí)率 33111.4.3 凸目標(biāo)的收斂性分析 33211.4.4 隨機(jī)梯度和有限樣本 33311.5 小批量隨機(jī)梯度下降 33411.5.1 向量化和緩存 33511.5.2 小批量 33611.5.3 讀取數(shù)據(jù)集 33711.5.4 從零開(kāi)始實(shí)現(xiàn) 33711.5.5 簡(jiǎn)潔實(shí)現(xiàn) 34011.6 動(dòng)量法 34111.6.1 基礎(chǔ) 34111.6.2 實(shí)際實(shí)驗(yàn) 34511.6.3 理論分析 34611.7 AdaGrad算法 34811.7.1 稀疏特征和學(xué)習(xí)率 34811.7.2 預(yù)處理 34911.7.3 算法 35011.7.4 從零開(kāi)始實(shí)現(xiàn) 35111.7.5 簡(jiǎn)潔實(shí)現(xiàn) 35211.8 RMSProp算法 35311.8.1 算法 35311.8.2 從零開(kāi)始實(shí)現(xiàn) 35411.8.3 簡(jiǎn)潔實(shí)現(xiàn) 35511.9 Adadelta算法 35611.9.1 算法 35611.9.2 實(shí)現(xiàn) 35611.10 Adam算法 35811.10.1 算法 35811.10.2 實(shí)現(xiàn) 35911.10.3 Yogi 36011.11 學(xué)習(xí)率調(diào)度器 36111.11.1 一個(gè)簡(jiǎn)單的問(wèn)題 36111.11.2 學(xué)習(xí)率調(diào)度器 36311.11.3 策略 364第 12章 計(jì)算性能 36912.1 編譯器和解釋器 36912.1.1 符號(hào)式編程 37012.1.2 混合式編程 37112.1.3 Sequential的混合式編程 37112.2 異步計(jì)算 372通過(guò)后端異步處理 37312.3 自動(dòng)并行 37512.3.1 基于GPU的并行計(jì)算 37512.3.2 并行計(jì)算與通信 37612.4 硬件 37812.4.1 計(jì)算機(jī) 37812.4.2 內(nèi)存 37912.4.3 存儲(chǔ)器 38012.4.4 CPU 38112.4.5 GPU和其他加速卡 38312.4.6 網(wǎng)絡(luò)和總線 38512.4.7 更多延遲 38612.5 多GPU訓(xùn)練 38812.5.1 問(wèn)題拆分 38812.5.2 數(shù)據(jù)并行性 39012.5.3 簡(jiǎn)單網(wǎng)絡(luò) 39012.5.4 數(shù)據(jù)同步 39112.5.5 數(shù)據(jù)分發(fā) 39212.5.6 訓(xùn)練 39212.6 多GPU的簡(jiǎn)潔實(shí)現(xiàn) 39412.6.1 簡(jiǎn)單網(wǎng)絡(luò) 39412.6.2 網(wǎng)絡(luò)初始化 39512.6.3 訓(xùn)練 39512.7 參數(shù)服務(wù)器 39712.7.1 數(shù)據(jù)并行訓(xùn)練 39712.7.2 環(huán)同步(ring synchronization) 39912.7.3 多機(jī)訓(xùn)練 40012.7.4 鍵-值存儲(chǔ) 402第 13章 計(jì)算機(jī)視覺(jué) 40413.1 圖像增廣 40413.1.1 常用的圖像增廣方法 40413.1.2 使用圖像增廣進(jìn)行訓(xùn)練 40813.2 微調(diào) 41013.2.1 步驟 41013.2.2 熱狗識(shí)別 41113.3 目標(biāo)檢測(cè)和邊界框 415邊界框 41513.4 錨框 41713.4.1 生成多個(gè)錨框 41713.4.2 交并比(IoU) 41913.4.3 在訓(xùn)練數(shù)據(jù)中標(biāo)注錨框 42013.4.4 使用非極大值抑制預(yù)測(cè) 邊界框 42413.5 多尺度目標(biāo)檢測(cè) 42713.5.1 多尺度錨框 42713.5.2 多尺度檢測(cè) 42913.6 目標(biāo)檢測(cè)數(shù)據(jù)集 43013.6.1 下載數(shù)據(jù)集 43013.6.2 讀取數(shù)據(jù)集 43113.6.3 演示 43213.7 單發(fā)多框檢測(cè)(SSD) 43313.7.1 模型 43313.7.2 訓(xùn)練模型 43713.7.3 預(yù)測(cè)目標(biāo) 43913.8 區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(R-CNN)系列 44113.8.1 R-CNN 44113.8.2 Fast R-CNN 44213.8.3 Faster R-CNN 44313.8.4 Mask R-CNN 44413.9 語(yǔ)義分割和數(shù)據(jù)集 44513.9.1 圖像分割和實(shí)例分割 44513.9.2 Pascal VOC2012 語(yǔ)義分割數(shù)據(jù)集 44613.10 轉(zhuǎn)置卷積 45013.10.1 基本操作 45013.10.2 填充、步幅和多通道 45113.10.3 與矩陣變換的聯(lián)系 45213.11 全卷積網(wǎng)絡(luò) 45313.11.1 構(gòu)建模型 45413.11.2 初始化轉(zhuǎn)置卷積層 45513.11.3 讀取數(shù)據(jù)集 45613.11.4 訓(xùn)練 45613.11.5 預(yù)測(cè) 45713.12 風(fēng)格遷移 45813.12.1 方法 45913.12.2 閱讀內(nèi)容和風(fēng)格圖像 46013.12.3 預(yù)處理和后處理 46013.12.4 提取圖像特征 46113.12.5 定義損失函數(shù) 46113.12.6 初始化合成圖像 46313.12.7 訓(xùn)練模型 46313.13 實(shí)戰(zhàn) Kaggle競(jìng)賽:圖像分類(lèi)(CIFAR-10) 46413.13.1 獲取并組織數(shù)據(jù)集 46513.13.2 圖像增廣 46713.13.3 讀取數(shù)據(jù)集 46813.13.4 定義模型 46813.13.5 定義訓(xùn)練函數(shù) 46813.13.6 訓(xùn)練和驗(yàn)證模型 46913.13.7 在Kaggle上對(duì)測(cè)試集進(jìn)行分類(lèi)并提交結(jié)果 46913.14 實(shí)戰(zhàn)Kaggle競(jìng)賽:狗的品種識(shí)別(ImageNet Dogs) 47013.14.1 獲取和整理數(shù)據(jù)集 47113.14.2 圖像增廣 47213.14.3 讀取數(shù)據(jù)集 47213.14.4 微調(diào)預(yù)訓(xùn)練模型 47313.14.5 定義訓(xùn)練函數(shù) 47313.14.6 訓(xùn)練和驗(yàn)證模型 47413.14.7 對(duì)測(cè)試集分類(lèi)并在Kaggle提交結(jié)果 475第 14章 自然語(yǔ)言處理:預(yù)訓(xùn)練 47614.1 詞嵌入(word2vec) 47714.1.1 為何獨(dú)熱向量是一個(gè)糟糕的選擇 47714.1.2 自監(jiān)督的word2vec 47714.1.3 跳元模型 47714.1.4 連續(xù)詞袋模型 47814.2 近似訓(xùn)練 48014.2.1 負(fù)采樣 48014.2.2 層序softmax 48114.3 用于預(yù)訓(xùn)練詞嵌入的數(shù)據(jù)集 48214.3.1 讀取數(shù)據(jù)集 48214.3.2 下采樣 48314.3.3 中心詞和上下文詞的提取 48414.3.4 負(fù)采樣 48514.3.5 小批量加載訓(xùn)練實(shí)例 48614.3.6 整合代碼 48714.4 預(yù)訓(xùn)練word2vec 48814.4.1 跳元模型 48814.4.2 訓(xùn)練 48914.4.3 應(yīng)用詞嵌入 49114.5 全局向量的詞嵌入(GloVe) 49114.5.1 帶全局語(yǔ)料庫(kù)統(tǒng)計(jì)的跳元模型 49214.5.2 GloVe模型 49214.5.3 從共現(xiàn)概率比值理解GloVe模型 49314.6 子詞嵌入 49414.6.1 fastText模型 49414.6.2 字節(jié)對(duì)編碼 49514.7 詞的相似度和類(lèi)比任務(wù) 49714.7.1 加載預(yù)訓(xùn)練詞向量 49714.7.2 應(yīng)用預(yù)訓(xùn)練詞向量 49914.8 來(lái)自Transformer的雙向編碼器表示(BERT) 50014.8.1 從上下文無(wú)關(guān)到上下文敏感 50014.8.2 從特定于任務(wù)到不可知任務(wù) 50114.8.3 BERT:將ELMo與GPT結(jié)合起來(lái) 50114.8.4 輸入表示 50214.8.5 預(yù)訓(xùn)練任務(wù) 50414.8.6 整合代碼 50614.9 用于預(yù)訓(xùn)練BERT的數(shù)據(jù)集 50714.9.1 為預(yù)訓(xùn)練任務(wù)定義輔助函數(shù) 50814.9.2 將文本轉(zhuǎn)換為預(yù)訓(xùn)練數(shù)據(jù)集 50914.10 預(yù)訓(xùn)練BERT 51214.10.1 預(yù)訓(xùn)練BERT 51214.10.2 用BERT表示文本 514第 15章 自然語(yǔ)言處理:應(yīng)用 51515.1 情感分析及數(shù)據(jù)集 51615.1.1 讀取數(shù)據(jù)集 51615.1.2 預(yù)處理數(shù)據(jù)集 51715.1.3 創(chuàng)建數(shù)據(jù)迭代器 51715.1.4 整合代碼 51815.2 情感分析:使用循環(huán)神經(jīng)網(wǎng)絡(luò) 51815.2.1 使用循環(huán)神經(jīng)網(wǎng)絡(luò)表示單個(gè)文本 51915.2.2 加載預(yù)訓(xùn)練的詞向量 52015.2.3 訓(xùn)練和評(píng)估模型 52015.3 情感分析:使用卷積神經(jīng)網(wǎng)絡(luò) 52115.3.1 一維卷積 52215.3.2 最大時(shí)間匯聚層 52315.3.3 textCNN模型 52315.4 自然語(yǔ)言推斷與數(shù)據(jù)集 52615.4.1 自然語(yǔ)言推斷 52615.4.2 斯坦福自然語(yǔ)言推斷(SNLI)數(shù)據(jù)集 52715.5 自然語(yǔ)言推斷:使用注意力 53015.5.1 模型 53015.5.2 訓(xùn)練和評(píng)估模型 53315.6 針對(duì)序列級(jí)和詞元級(jí)應(yīng)用微調(diào)BERT 53515.6.1 單文本分類(lèi) 53515.6.2 文本對(duì)分類(lèi)或回歸 53615.6.3 文本標(biāo)注 53715.6.4 問(wèn)答 53715.7 自然語(yǔ)言推斷:微調(diào)BERT 53815.7.1 加載預(yù)訓(xùn)練的BERT 53915.7.2 微調(diào)BERT的數(shù)據(jù)集 54015.7.3 微調(diào)BERT 541附錄A 深度學(xué)習(xí)工具 543A.1 使用Jupyter記事本 543A.1.1 在本地編輯和運(yùn)行代碼 543A.1.2 高級(jí)選項(xiàng) 545A.2 使用Amazon SageMaker 546A.2.1 注冊(cè) 547A.2.2 創(chuàng)建SageMaker實(shí)例 547A.2.3 運(yùn)行和停止實(shí)例 548A.2.4 更新Notebook 548A.3 使用Amazon EC2實(shí)例 549A.3.1 創(chuàng)建和運(yùn)行EC2實(shí)例 549A.3.2 安裝CUDA 553A.3.3 安裝庫(kù)以運(yùn)行代碼 553A.3.4 遠(yuǎn)程運(yùn)行Jupyter記事本 554A.3.5 關(guān)閉未使用的實(shí)例 554A.4 選擇服務(wù)器和GPU 555A.4.1 選擇服務(wù)器 555A.4.2 選擇GPU 556A.5 為本書(shū)做貢獻(xiàn) 558A.5.1 提交微小更改 558A.5.2 大量文本或代碼修改 559A.5.3 提交主要更改 559參考文獻(xiàn) 562