《基于逼近論的多模態信息表示》從逼近論角度,由最基本的線性無關函數基(插值基、奇異值分解、主成分分析)出發,到正交函數基(傅里葉變換、小波基),再到一般通用逼近算子(人工神經網絡),延伸至過完備基(壓縮傳感、稀疏表示),最后實現分層特征表示(深度學習)。通過基函數表示信息的思想貫穿始終,作者希望由此啟發讀者更進一步思考如何構造更好的表示方法實現多模態統一表示。
《基于逼近論的多模態信息表示》可供機器人、機器學習、信號處理、應用數學領域的研究人員和實踐者閱讀,同時也可作為計算機科學與技術領域相關人員的參考書。
人腦是一個超乎尋常的、魯棒的自適應信息處理器,能夠從大量含有噪聲且迥然各異的多源同步信息中整合出重要的知識。它通過對大量時空信息的處理,形成了對周圍世界的統一表示。在這方面,即便是目前最好的人工智能系統也望塵莫及。如何建立像人腦一樣能夠自適應地處理多種不同信息源、不同數據類型和不同感知模態的系統,是人工智能面臨的一個巨大挑戰。近年來,信息與通信技術的飛速發展為這個問題的解決帶來了曙光。
與此同時,從事人工智能的研究者也在設計算法完成一些傳統意義上需要人類智能的任務。例如,最近,Google DeepMind公司設計的AlphaGo程序擊敗了韓國圍棋冠軍李世石和歐洲圍棋冠軍樊麾,引起了人們的極大關注。其中多種模態的信息如何統一表示和融合是一個關鍵問題。現在,我們有機會從數學中逼近論的角度來看,如何能夠實現多模態信息的統一表示。
本書主要涉及多模態信息表示領域,列舉這個領域的一些問題,給出目前已經得到的一些結果,同時也給出這個領域一些未來發展方向的思考,希望藉此能夠給多模態信息表示領域的研究者和本書的讀者帶來一些啟發。
活躍在這個領域的數學家可能會覺察到這個正在崛起的領域與調和分析、逼近論、矩陣分析等領域之間的密切聯系。但是,這不是寫作本書的最終目的。我們的興趣和目標主要致力于這些研究成果的實際應用領域,尤其是機器人領域,基于基函數表示的思想主要體現在多模態信息(聲音、圖像、力信號等)表示。從這個基本點出發,可以發現很多有趣的應用。
從數學角度考慮,通過把函數映射到一個固定線性子空間,稱為線性逼近,而如果函數被映射到非線性空間,則稱為非線性逼近。從逼近論角度看,我們主要發現這些應用都可以通過一種特殊的數學模型來表示——基。如果配以合適的模型,可以用基函數來解決各種應用——如圖像處理領域中去噪、恢復、分類、壓縮、采樣、解析與合成、檢測、識別等。我們通過仔細考證發現,大量的基于基函數表示的方法被應用于多模態信息表示領域。
基函數表示既有深厚的理論基礎,也有廣泛的應用場景。這使得我們可以從理論到應用,全方位地展示其巨大威力。限于篇幅和作者的知識,本書不能涉及所有相關領域。本書涉及的領域包括基本的插值計算、主成分分析和奇異值分解、傅里葉變換和小波分析、人工神經網絡、稀疏表示與壓縮傳感、深度學習與特征表示等。
我們假設讀者已經有基本的高等數學、機器學習、人工神經網絡和人工智能基礎知識。這對于抓住和理解應用表面背后的數學思想非常有幫助。
前言
第1章 引言
1.1 背景與動機
1.1.1 什么是表示
1.1.2 表示與函數重構
1.1.3 基函數表示
1.1.4 框架表示
1.1.5 Riesz基表示
1.1.6 投影表示
1.1.7 伽遼金表示
1.1.8 詞典表示
1.2 本書架構
1.3 小結
第2章 插值
2.1 引言
2.2 拉格朗日插值
2.2.1 拉格朗日插值誤差
2.2.2 拉格朗日線性插值
2.2.3 拉格朗日二階插值
2.3 牛頓插值
2.4 Hermite插值
2.5 樣條插值
2.6 插值方法在數字圖像處理中的應用
2.7 小結
第3章 奇異值分解和主成分分析
3.1.基本概念
3.1.1 內積空間
3.1.2 范數
3.1.3 正交基
3.1.4 特征值與奇異值
3.2 奇異值分解
3.3 主成分分析
3.4 應用
3.4.1 偽逆與最小二乘
3.4.2 數據表示與分析
3.4.3 線性判別分析
3.4.4 特征臉
3.4.5 潛在語義分析
3.5 小結
第4章 傅里葉變換與小波變換
4.1 函數與變換
4.2 傅里葉變換:時間遇到頻率
4.2.1 連續傅里葉變換
4.2.2 離散傅里葉變換
4.2.3 通過傅里葉變換實現稀疏表示
4.2.4 傅里葉變換的應用
4.3 小波變換
4.3.1 多分辨率表示:嵌套網格逼近
4.3.2 連續小波變換
4.3.3 離散小波變換
4.3.4 小波變換實例
4.3.5 通過小波表示函數
4.3.6 小波應用
4.4 傅里葉變換與小波變換比較
4.5 小結
第5章 人工神經網絡——通用逼近算子
5.1 引言
5.2 基本概念
5.2.1 網絡架構
5.2.2 激活函數
5.3 簡單神經元
5.4 單層神經元
5.5 多層感知器
5.5.1 多層感知器的激活函數
5.5.2 后向傳播算法
5.5.3 多層感知器的表達與逼近能力
5.6 徑向基神經網絡
5.6.1 徑向基網絡與多層感知器比較
5.6.2 例子
5.7 小結
第6章 稀疏表示
6.1 為什么要用稀疏表示
6.2 問題轉換
6.3 將問題轉換為線性規劃問題
6.4 稀疏表示的幾何解釋
6.5 貪婪算法
6.5.1 匹配追蹤
6.5.2 正交匹配追蹤
6.5.3 基追蹤
6.5.4 松弛方法
6.6 小結
第7章 壓縮傳感
7.1 引言
7.2 理論基礎與問題描述
7.2.1 稀疏性
7.2.2 壓縮傳感問題描述
7.3 測量矩陣與感知矩陣
7.3.1 有限等距性質
7.3.2 感知矩陣
7.3.3 相關性
7.4 問題求解與信號恢復
7.4.1 范數重構
7.4.2 范數重構
7.4.3 范數重構
7.5 重構算法
7.5.1 凸優化松弛方法
7.5.2 貪婪迭代算法
7.5.3 迭代閾值算法
7.5.4 組合算法與子線性算法
7.5.5 非凸優化算法
7.6 應用
7.6.1 數據壓縮
7.6.2 校驗編碼
7.6.3 逆問題
7.6.4.數據與圖像獲取
7.7 小結
第8章 深度學習與特征學習
8.1 引言
8.2 深度框架
8.2.1 構造深度框架的動機
8.2.2 計算框架的深度和類型
8.2.3 逐層預訓練
8.3 卷積神經網絡
8.3.1 稀疏連接
8.3.2 加權共享
8.3.3 極大池化
8.3.4 完整模型:LeNet
8.4 深度置信網絡
8.4.1 限制玻爾茲曼機
8.4.2 堆疊限制玻爾茲曼機構建深度置信網絡
8.5 堆疊自動編碼器
8.5.1 自動編碼器神經網絡
8.5.2 去噪自動編碼器
8.5.3 堆疊自動編碼器構造
8.5.4 稀疏自動編碼器
8.6 深度學習相關軟件包
8.7 小結
第9章 深度學習應用于自然語言處理:詞向量
9.1 語言模型
9.2 One-Hot表示方法
9.3 詞向量
9.4 詞向量的訓練
9.4.1 Yoshua Bengio語言模型
9.1.2 Ronan Collobert-Jason Weston方法
9.4.3 Andriy Mnih-Geoffrey Hinton方法(HLBL)
9.4.4 Tomas Mikolov循環神經網絡方法
9.5 Google詞向量工具包word2vec
參考文獻