本書試圖探索一個基本問題:人類視覺超凡脫俗的識別能力的基礎是什么?
隨著計算機技術(shù)的迅猛發(fā)展和網(wǎng)絡資源的無所不在,人們對數(shù)字圖像識別的需求越來越頻繁地出現(xiàn)在如圖像檢索、視頻監(jiān)控、機器視覺、導航以及無人駕駛技術(shù)等實際工程和日常生活中,數(shù)字圖像識別的一個基本方法是依據(jù)圖像的像素值提取特征并利用這些特征來區(qū)分圖像。這樣,高維的圖像被壓縮并表達為低維的特征向量,這種采用特征向量而不是用原始像素值表示圖像的方法,其明顯好處是可以顯著地簡化圖像表示,但最重要的作用是利用特征向量可以加強圖像的低級特征和高級語義之間的關(guān)聯(lián)。因此,開發(fā)能夠有效表達圖像或感興趣的目標對象的本質(zhì)屬性的特征提取方法是十分重要的,
在過去的數(shù)十年里,研究者已經(jīng)開發(fā)出了大量的數(shù)字圖像特征提取方法,如主成分分析、線性判別分析、尺度不變特征變換、方向梯度直方圖,小波、特征包、空間金字塔匹配、卷積神經(jīng)網(wǎng)絡、類視覺皮層機制分層模型、神經(jīng)反應、局部神經(jīng)反應以及基于對數(shù)極坐標變換的導出核(log-polar等,在這些方法中,由于簡單,主成分分析和線性判別分析成為最常用的全局方法。然而,在實際中許多數(shù)據(jù)集包含不能通過主成分分析和線性判別分析發(fā)現(xiàn)的重要的非線性結(jié)構(gòu)。為了解決這個問題,非線性流形學習技術(shù)被開發(fā)出來,如局部線性嵌入、等距特征映射以及拉普拉斯特征映射等,這些非線性的方法能夠成功地獲得非線性流形的內(nèi)在特征。
第1章 人類視覺與機器視覺 1
1.1 人類視覺系統(tǒng) 2
1 眼睛 3
2 神經(jīng)系統(tǒng) 6
1.1.3 處理系統(tǒng) 7
1.2 計算機視覺系統(tǒng) 8
1.2.1 攝像機 10
1.2.2 計算機 12
1.2.3 圖像處理 14
1.2.4 研究現(xiàn)狀分析 15
1.3 數(shù)學系統(tǒng) 16
1.3.1 MATLAB軟件 17
1.3.2 圖像的數(shù)學表示及運算 19
1.4 小結(jié) 25
參考文獻 26
第2章經(jīng)典神經(jīng)反應及其數(shù)學表示 29
2.1 主要目的和基本思想 30
2.2 神經(jīng)反應與導出核 31
2.2.1 預備知識 31
2.2.2 神經(jīng)反應與導出核的構(gòu)建 35
2.2.3 神經(jīng)反應的門一化 38
2.3 神經(jīng)反應的不變性 39
2.4 神經(jīng)反應算法的復雜性 43
2.5 實驗及分析 45
2.5.1 MNIST手寫數(shù)字圖像數(shù)據(jù)庫上的實驗 45
2.5.2 手寫漢字圖像數(shù)據(jù)庫 50
2.5.3 Yale人臉圖像數(shù)據(jù)庫 54
2.6 小結(jié) 56
參考文獻 57
第3章 局部神經(jīng)反應及其對圖像的特征表示 59
3.1 局部神經(jīng)反應方法產(chǎn)生的背景 60
3.2 局部神經(jīng)反應算法 62
3.2.1 符號和說明 62
3.2.2 方法的提出 63
3.2.3 局部神經(jīng)反應和神經(jīng)反應的區(qū)別. 70
3.3 局部神經(jīng)反應方法的算法分析 72
3.3.1 局部神經(jīng)反應方法的不變性 72
3.3.2 關(guān)于范圍壓縮問題 76
3.4 實驗結(jié)果與分析 78
3.4.1 MNIST數(shù)據(jù)庫上的實驗 78
3.4.2 在Yale人臉數(shù)據(jù)庫上的實驗 79
3.4.3Caltech人臉數(shù)據(jù)庫I:的實驗 80
3.5 小結(jié) 82
參考文獻 83
第4章 軟稀疏編碼神經(jīng)反應及其應用 88
4.1 研究背景和主要工作 89
4.2 準備工作及神經(jīng)反應的矩陣表示 93
4.2.1 相關(guān)記號 93
4.2.2 神經(jīng)反應的矩陣表示 94
4.3 軟稀疏編碼神經(jīng)反應 96
4.3.1 軟稀疏編碼的動機 96
4.3.2 軟稀疏編碼方法 98
4.4 實驗結(jié)果及分析 101
4.4.1 在MNIST數(shù)據(jù)庫上的實驗 101
4.4.2 在Caltech人臉數(shù)據(jù)庫I:的實驗 103
4.4.3 在Corel數(shù)據(jù)庫上的實驗 104
4.5 小結(jié) 106
參考文獻 107
第5章 特征傳導神經(jīng)反應及其在圖像檢索中的應用 110
5.1 基于內(nèi)容的圖像檢索 111
5.2 特征傳導神經(jīng)反應 114
5.2.1 相關(guān)概念與記號 114
5.2.2 構(gòu)建特征傳導神經(jīng)反應. 116
5.2.3 特征傳導神經(jīng)反應的算法復雜性 118
5.3 基于特征傳導神經(jīng)反應的基于內(nèi)容的圖像檢索方法 120
5.3.1 局部底層特征提取 121
5.3.2 相似性度量 122
5.3.3 關(guān)聯(lián)性反饋 123
5.4 實驗結(jié)果及分析 124
5.4.1 在Caltech人臉數(shù)據(jù)庫上的實驗 124
5.4.2 在Corel-1000數(shù)據(jù)庫上的實驗 128
5.5 小結(jié) l33
參考文獻 134
第6章 神經(jīng)反應中的模板選擇方法 137
6.1 “自下而上”的模板選擇方法 139
6.1.1 初始模板集的確定 139
6.1.2 Tu的確定 139
6.1.3 Tv的確定 141
6.2 “自上而下”的模板選擇方法 144
6.2.1 創(chuàng)建初始模板集 145
6.2.2 二級模板集Tv的構(gòu)建 146
6.2.3 一級模板集Tu的構(gòu)建 149
6.3 實驗結(jié)果 152
6.3.1 在MNIST I:的模板選擇實驗 153
6.3.2 在Caltech 101上的模板選擇實驗 155
6.3.3 在Corel的模板選擇實驗 158
6.4 小結(jié) 160
參考文獻 160