深度學習是人工智能領域無法避開的課題之一,也是比較強大的方法之一。很多從事算法工作或相關工作的人,或多或少都在應用深度學習方法解決相關領域的問題。本書針對深度學習知識做進階性探討。通過11章內容,對卷積網絡、新型結構、注意力機制、模型壓縮、自監督學習、目標檢測中的高級技巧、無監督學習、Transformer高級篇,以及圖神經網絡和元學習進行了深入的探討,最后對深度學習的未來發展進行了展望。
翟中華清華大學經管學院《創新創業實驗室》實踐項目指導老師、北京洪策元創智能科技有限公司CEO、AI火箭營首席講師。畢業于清華大學,長期從事機器學習、深度學習等方面的工作,先后在互聯網、互聯網金融等行業公司主持技術工作,曾在互聯網征信、大數據等行業公司任技術總監。在AI火箭營講授的課程《深度學習理論與Pytorch實踐》廣受好評。自ChatGPT發布以來,積極布局GPT技術與應用,已在國外先進開源模型基礎上訓練中文自研模型,開發了智能客服、智能律師助手、智能問診助理等行業大模型應用。孫玉龍 科大訊飛工程院高級算法工程師(算法工程序列),本科畢業于華東理工大學統計專業,具備超過10年的專業領域從業經驗。曾參與星火大模型項目的支撐工作,積累了豐富的實踐經驗和知識,致力于為讀者提供高價值、高質量的作品。林宇平 畢業于首都經濟貿易大學信息管理與信息系統專業,現就職于《財經》雜志社,任創新業務主管,負責全球投資、硬科技和科技投資相關工作。作為騰訊官方認證的AI編程支教講師,承擔相應教學工作。曾任工業和信息化部APEC中小企業信息化促進中心副研究員。對計算機科學、自然語言處理基礎理論與實踐及教學方法有獨到見解。
第1章 卷積網絡 1
1.1 轉置卷積 2
1.1.1 概念 2
1.1.2 運算過程 2
1.1.3 應用場景 5
1.2 空洞卷積 7
1.2.1 概念 7
1.2.2 工作原理 8
1.2.3 應用場景 10
1.3 深度可分離卷積 11
1.3.1 概念 11
1.3.2 工作原理 11
1.3.3 應用場景 15
1.4 三維卷積 15
1.4.1 概念 15
1.4.2 工作原理 16
1.4.3 應用場景 19
第2章 新型結構 20
2.1 殘余連接 20
2.2 ResNeXt原理及架構 23
2.3 FCN原理及架構 28
2.4 U-Net原理及架構 32
2.5 FPN原理及架構 36
第3章 注意力機制 43
3.1 注意力機制的生物學原理及數學本質 43
3.2 應用于RNN的注意力機制 48
3.3 自注意力的數學支撐:像素間的協方差 53
3.4 自注意力機制的直觀展示及舉例 58
3.5 Transformer中的注意力機制 60
3.6 擠壓激勵網絡 66
3.7 Transformer編碼器代碼 69
3.8 Transformer詞嵌入中融入位置信息 77
第4章 模型壓縮 84
4.1 模型壓縮的必要性及常用方法 84
4.2 修剪深度神經網絡 87
4.3 模型量化 90
4.4 知識蒸餾 96
4.4.1 知識蒸餾的實現步驟 97
4.4.2 軟目標的作用 97
4.4.3 蒸餾“溫度” 100
4.4.4 特征蒸餾 102
第5章 自監督學習 105
5.1 什么是自監督學習 105
5.2 Bert中的自監督學習 106
第6章 目標檢測中的高級技巧 110
6.1 特征融合 110
6.2 DenseNet與ResNet 111
6.3 晚融合及特征金字塔網絡 115
6.4 YOLOv3中的三級特征融合 118
6.5 通過多尺度特征圖跳過連接改進SSD方法 120
第7章 無監督學習 123
第8章 Transformer高級篇 125
8.1 計算機視覺中的Transformer 125
8.1.1 什么是ViT 125
8.1.2 ViT詳解 127
8.2 DeiT:以合理的方式訓練ViT 129
8.3 金字塔視覺Transformer 131
8.3.1 PVT整體架構 132
8.3.2 SRA的實現 133
8.3.3 PVT的改進 134
8.4 Swin Transformer:使用“移動窗口”的分層ViT 136
8.5 視覺Transformer的自監督訓練:DINO 140
8.5.1 DINO架構 140
8.5.2 中心化和“教師”網絡權重更新 142
8.5.3 DINO代碼實踐偽碼和效果展示 142
8.6 縮放視覺Transformer 145
8.7 一些有趣的進展 146
8.7.1 替代自注意力機制 147
8.7.2 多尺度視覺Transformer(MViT) 149
8.7.3 完全基于Transformer的視頻理解框架 151
8.7.4 語義分割中的ViT(SegFormer) 152
8.7.5 醫學成像中的ViT 156
第9章 圖神經網絡 160
9.1 圖數據 161
9.1.1 圖像作為圖數據 162
9.1.2 文本作為圖數據 162
9.1.3 天然的圖數據 163
9.2 圖上的預測任務 165
9.3 圖神經網絡構建應用 168
9.3.1 最簡單的GNN 168
9.3.2 通過聚合信息進行GNN預測 169
9.3.3 在圖的各屬性之間傳遞消息 171
9.3.4 學習邊緣表示 172
9.3.5 添加全局表示 172
第10章 元學習 174
10.1 什么是元學習 174
10.2 機器學習與元學習 175
10.2.1 機器學習簡介 175
10.2.2 元學習簡介 177
10.2.3 機器學習與元學習 181
10.3 模型無關的元學習:MAML 183
10.3.1 MAML簡介 183
10.3.2 MAML特點 183
10.3.3 MAML為什么能夠起作用 184
參考文獻 186