本書是由英國南安普敦大學(xué)的Mark S.Nixon教授和Sportradar公司的Alberto S. Aguado在前版的基礎(chǔ)上推出的改版之作。本次改版, 主要的變化是將高級特征提取分為固定形狀匹配與可變形形狀分析兩部分, 并增加了新一章內(nèi)容: 運動對象檢測與描述。具體地, 本書在簡要介紹計算機視覺的基礎(chǔ)概念和基本的圖像處理運算后, 重點討論了低級和高級的特征提取, 包括邊緣檢測、 固定形狀匹配和可變形形狀分析。此外, 對目標(biāo)描述, 紋理描述、 分割及分類, 以及運動對象檢測等都進(jìn)行了深入的闡述。本書突出了計算機視覺的主要問題——特征提取, 以清晰、 簡潔的語言, 闡述了圖像處理和計算機視覺的基礎(chǔ)理論與技術(shù)。
本書是由英國南安普敦大學(xué)的Mark S.Nixon教授和Sportradar公司的Alberto S. Aguado在前版的基礎(chǔ)上推出的改版之作。本次改版,主要的變化是將高級特征提取分為固定形狀匹配與可變形形狀分析兩部分,并增加了新一章內(nèi)容:運動對象檢測與描述。
Mark S. Nixon 英國南安普敦大學(xué)計算機視覺系教授。他的研究興趣包括圖像處理與計算機視覺。他的團(tuán)隊開發(fā)了在生物信息學(xué)與醫(yī)療圖像分析應(yīng)用上的靜止與運動形狀提取新技術(shù)。他的團(tuán)隊是自動人臉識別的早期研究者,后來是步態(tài)識別的開拓者,最近加入了耳生物信息(ear biometrics)的研究。與譚鐵牛和Rama Chellappa合作,他們2005年出版的著作《基于步態(tài)的身份識別》是斯普林格(Springer)生物信息學(xué)專輯的一部分。他是許多國際會議(BMVC98,AVBPA03,IEEE人臉與姿態(tài)FG06,ICPR04, ICB09與IEEE BTAS 2010)的主席或程序委員會主席,并做了許多邀請報告。
第1章 緒論 br/
1.1 概述 br/
1.2 人類視覺和計算機視覺 br/
1.3 人類視覺系統(tǒng) br/
1.4 計算機視覺系統(tǒng) br/
1.5 數(shù)學(xué)系統(tǒng) br/
1.6 相關(guān)資料 br/
1.7 小結(jié) br/
1.8 參考文獻(xiàn) br/
第2章 圖像、 采樣和頻域處理 br/
2.1 概述 br/
2.2 圖像形成 br/
2.3 傅里葉變換 br/
2.4 采樣標(biāo)準(zhǔn) br/
2.5 離散傅里葉變換 br/ 第1章 緒論<br/>
1.1 概述<br/>
1.2 人類視覺和計算機視覺<br/>
1.3 人類視覺系統(tǒng)<br/>
1.4 計算機視覺系統(tǒng)<br/>
1.5 數(shù)學(xué)系統(tǒng)<br/>
1.6 相關(guān)資料<br/>
1.7 小結(jié)<br/>
1.8 參考文獻(xiàn)<br/>
第2章 圖像、 采樣和頻域處理<br/>
2.1 概述<br/>
2.2 圖像形成<br/>
2.3 傅里葉變換<br/>
2.4 采樣標(biāo)準(zhǔn)<br/>
2.5 離散傅里葉變換<br/>
2.6 傅里葉變換的其他特性<br/>
2.7 傅里葉以外的其他變換<br/>
2.8 頻域特性的應(yīng)用<br/>
2.9 擴展閱讀<br/>
2.10參考文獻(xiàn)<br/>
第3章 基本圖像處理運算<br/>
3.1 概述<br/>
3.2 直方圖<br/>
3.3 點算子<br/>
3.4 群運算<br/>
3.5 其他統(tǒng)計算子<br/>
3.6 數(shù)學(xué)形態(tài)學(xué)<br/>
3.7 擴展閱讀<br/>
3.8 參考文獻(xiàn)<br/>
第4章 低級特征提取(包括邊緣檢測)<br/>
4.1 概述<br/>
4.2 邊緣檢測<br/>
4.3 相位一致性<br/>
4.4 定位特征提取<br/>
4.5 描述圖像運動<br/>
4.6 擴展閱讀<br/>
4.7 參考文獻(xiàn)<br/>
第5章 形狀匹配的特征提取<br/>
5.1 概述<br/>
5.2 閾值處理和背景減法<br/>
5.3 模板匹配<br/>
5.4 低級特征提取<br/>
5.5 霍夫變換<br/>
5.6 擴展閱讀<br/>
5.7 參考文獻(xiàn)<br/>
第6章 高級特征提取: 可變形形狀分析<br/>
6.1 概述<br/>
6.2 可變形形狀分析<br/>
6.3 主動輪廓(蛇模型)<br/>
6.4 形狀骨架化<br/>
6.5 彈性形狀模型——主動形狀和主動外觀<br/>
6.6 擴展閱讀<br/>
6.7 參考文獻(xiàn)<br/>
第7章 目標(biāo)描述<br/>
7.1 概述<br/>
7.2 邊界描述<br/>
7.3 區(qū)域描述符<br/>
7.4 擴展閱讀<br/>
7.5 參考文獻(xiàn)<br/>
第8章 紋理描述、 分割和分類基礎(chǔ)<br/>
8.1 概述<br/>
8.2 什么是紋理<br/>
8.3 紋理描述<br/>
8.4 分類<br/>
8.5 分割處理<br/>
8.6 擴展閱讀<br/>
8.7 參考文獻(xiàn)<br/>
第9章 運動對象檢測與描述<br/>
9.1 概述<br/>
9.2 運動對象檢測<br/>
9.3 跟蹤運動特征<br/>
9.4 運動特征提取與描述<br/>
9.5 擴展閱讀<br/>
9.6 參考文獻(xiàn)<br/>
第10章 附錄1: 照相機幾何基礎(chǔ)<br/>
10.1 圖像幾何<br/>
10.2 透視照相機<br/>
10.3 透視照相機模型<br/>
10.4 仿射照相機<br/>
10.5 弱透視模型<br/>
10.6 照相機模型實例<br/>
10.7 討論<br/>
10.8 參考文獻(xiàn)<br/>
第11章 附錄2: 最小二乘分析<br/>
11.1 最小二乘準(zhǔn)則<br/>
11.2 最小二乘曲線擬合<br/>
第12章 附錄3: 主成分分析<br/>
12.1 主成分分析<br/>
12.2 數(shù)據(jù)<br/>
12.3 協(xié)方差<br/>
12.4 協(xié)方差矩陣<br/>
12.5 數(shù)據(jù)變換<br/>
12.6 逆變換<br/>
12.7 特征值問題<br/>
12.8 求解特征值問題<br/>
12.9 PCA方法小結(jié)<br/>
12.10實例<br/>
12.11參考文獻(xiàn)<br/>
第13章 附錄4: 彩色圖像<br/>
13.1 彩色圖像<br/>
13.2 三刺激理論<br/>
13.3 色彩模型<br/>
13.4 參考文獻(xiàn)<br/>
譯 者 序
人類在認(rèn)知和理解周圍環(huán)境的過程中, 70%以上的信息都是通過眼睛獲取的。這樣, 視覺信息在計算機視覺和模式識別等領(lǐng)域體現(xiàn)為對圖像(包括視頻)的分析和理解。例如, 目標(biāo)檢測與跟蹤、 異常行為識別與分析等計算機視覺領(lǐng)域的典型應(yīng)用, 它們的基礎(chǔ)內(nèi)容和關(guān)鍵步驟都是特征提取和圖像處理。
本書是由英國南安普敦大學(xué)的Mark Nixon教授和Sportradar公司的Alberto S. Aguado在前版的基礎(chǔ)上推出的改版之作(第三版)。該書自2006年4月出版第一版起, 就受到了讀者的廣泛好評, 并于2008年6月出版第二版。2010年, 受電子工業(yè)出版社委托, 我們組織翻譯了本書第二版。中文版同樣受到了讀者的廣泛好評, 短短兩年的印量已突破1萬冊。
相對于第二版, 本書的主要變化包括: 將高級特征提取劃分為固定形狀匹配與可變形形狀分析兩部分, 并且增加了新一章內(nèi)容(第9章): 運動對象檢測與描述。此外, 其他的章節(jié)或者增加了少量新內(nèi)容, 或者修正了英文原著中的個別錯誤。因此, 第三版的質(zhì)量更高。總體上看, 本書具有以下幾個特色。
首先, 本書的內(nèi)容全面、 重點突出。在簡要介紹計算機視覺的基礎(chǔ)概念和基本的圖像處理運算后, 重點討論了低級和高級的特征提取, 包括邊緣檢測、 固定形狀匹配和可變形形狀分析。此外, 對目標(biāo)描述, 紋理描述、 分割及分類, 以及運動對象檢測等都進(jìn)行了深入的闡述。它突出了計算機視覺的主要問題——特征提取, 以清晰、 簡潔的語言, 闡述了圖像處理和計算機視覺的基礎(chǔ)理論與技術(shù)。
其次, 本書的適用面廣。它適合于電子工程、 計算機科學(xué)、 計算機工程等專業(yè)的本科生作為教材使用, 也適合于從事圖像及視頻信號處理、 模式識別和計算機視覺等研究方向的博士、 研究生閱讀, 也可以作為相關(guān)專業(yè)的科研工作者參考用書。
再次, 本書提供了部分有參考價值的代碼和偽代碼。特別是, 書中提供的一些C語言或MATLAB語言的源代碼, 可以方便工程應(yīng)用時參考使用, 尤其適合于高校的博士、 碩士研究生進(jìn)行算法學(xué)習(xí)與研究時參考使用。
當(dāng)然, 特征提取是圖像模式識別和計算機視覺領(lǐng)域的研究熱點, 各種新算法和技術(shù)層出不窮。本書只提供了迄今為止本領(lǐng)域技術(shù)水平的諸多基礎(chǔ)內(nèi)容。盡管如此, 譯者仍然認(rèn)為, 本書是一本不可多得的好教材。
全書由湖南大學(xué)楊高波和李實英分工翻譯。其中, 本書的第1章至第4章和第6章至第8章由李實英翻譯, 前言、 第5章和第9章由楊高波翻譯, 全部附錄(第10—13章)由夏明、 陳日超、 蔣琴、 陳寧、 吳瀟和向仁華共同完成初稿翻譯, 楊高波進(jìn)行潤色。全書由李仁發(fā)教授審校。
把一種語言表達(dá)轉(zhuǎn)換成另一種語言是一件困難的事情。看似很直白的一個詞雖然不難理解其詞義, 但是轉(zhuǎn)換語言進(jìn)行表達(dá)時往往需要煞費苦心。本書作者語言詼諧, 行文有較多的口語化表達(dá), 理解起來較為困難。此外, 還有大量過長的句子。在翻譯過程中, 譯者力求忠實地傳達(dá)書中所介紹的技術(shù)內(nèi)容, 并保持作者的行文風(fēng)格, 在此基礎(chǔ)上盡可能通俗易懂。但是, 我們出于教材的篇幅和嚴(yán)謹(jǐn)性考慮, 在翻譯中進(jìn)行了少量的簡化, 感興趣的讀者可以對照閱讀本書的英文版(已由電子工業(yè)出版社出版, ISBN: 9787121195273)。
值得說明的是, 雖然我們盡量吸收了讀者對于本書第二版中文翻譯的一些意見和建議, 并對全文的翻譯重新進(jìn)行了潤飾, 但是由于時間倉促及譯者水平和經(jīng)驗的不足, 本書離“信、 達(dá)、 雅”的翻譯原則仍有較大差距, 甚至仍然難免存在一些不當(dāng)之處, 懇請讀者提出寶貴的意見, 特別是對于一些專業(yè)術(shù)語翻譯的建議。譯者的聯(lián)系郵箱為yang.gaobo@hnu.edu.cn, 我們將認(rèn)真做好記錄, 并盡可能在重印或再版時進(jìn)行修訂。
廣大讀者對于中文版的厚愛和電子工業(yè)出版社的肯定, 是我們再次翻譯第三版的最大動力。本書在翻譯過程中, 得到了許多人士的幫助。電子工業(yè)出版社馬嵐編輯策劃了本書的出版, 并對翻譯過程的一些細(xì)節(jié)進(jìn)行了指導(dǎo)。在中文第一版翻譯過程中, 趙鵬玉、 肖志鵬、 牛志國、 尚學(xué)智、 米超、 張然、 趙林詳、 陳日超、 蔣琴、 陳寧、 吳瀟和向仁華等參與了部分工作。對此, 譯者一并深表感謝。
譯 者
2013年9月于長沙岳麓山
前 言
第3版的“新”是什么
圖像處理與計算機視覺已經(jīng)受到, 并且將持續(xù)受到許多研究與開發(fā)的影響。新的研究成果已整理成書, 因此本書也需要更新改版。我們一直提到, 書中包含了一些在其他正規(guī)的教材中尚未出現(xiàn)的圖像處理與計算機視覺技術(shù)(確實如此, 也許一些內(nèi)容已經(jīng)出現(xiàn)在某些專著中, 但是這些專著很少包括一些基礎(chǔ)性知識)。對于本書以前的版本, 這是正確的, 可以確定本版仍將如此。
在本版中, 全新的內(nèi)容是低級與高級特征提取與描述的新方法, 以及運動目標(biāo)檢測、跟蹤與描述。我們還擴展了本書, 通過更先進(jìn)的技術(shù)進(jìn)行目標(biāo)提取與描述, 特別是強調(diào)了小波與尺度空間。當(dāng)然, 我們修正了以前版本的一些出版錯誤, 并且在合適的地方引入了一些基礎(chǔ)性的材料, 更新了參考文獻(xiàn), 特別是包含了更新的綜述與性能比較的資料。因此, 本書仍然是更新的、面向計算機視覺的特征提取與圖像處理教材。
為什么寫這本書
我們總是期望被問到, “究竟為什么寫一本關(guān)于計算機視覺的新書?”, 我們也確實是這樣被問的。一個普遍性的問題是:“既然在書店中已有很多關(guān)于計算機視覺的好書, 正如后面即將引用的那些, 為何還要再寫一本呢?”這個問題的部分答案是任何教材都是此前已有資料的快照。計算機視覺, 作為一門利用計算機處理圖像的藝術(shù), 已經(jīng)有眾多高水平的研究人員在此領(lǐng)域進(jìn)行了相當(dāng)多的研究, 并且近年來仍在增長。這意味著, 已經(jīng)發(fā)展了許多新的技術(shù), 并且許多新的技術(shù)有待于遷移到教材中。但是, 它并不只是新研究:計算機視覺領(lǐng)域技術(shù)的部分快速進(jìn)展, 仍然遺留了一些缺乏細(xì)節(jié)的領(lǐng)域。從研究的本質(zhì)看, 一個人不可能出版那些看上去只是填補歷史缺陷, 而不推動知識進(jìn)步的技術(shù)資料。這就是為什么一本新的教材仍然能夠?qū)τ嬎銠C視覺的深化有所貢獻(xiàn)的原因。
最后, 技術(shù)本身繼續(xù)進(jìn)步。這意味著, 有新的硬件、新的編程語言、新的編程環(huán)境出現(xiàn)。特別是對于計算機視覺, 技術(shù)的進(jìn)步意味著計算能力、內(nèi)存等現(xiàn)在變得相對便宜。可以肯定, 比起計算機視覺剛成為一個研究領(lǐng)域時, 它們現(xiàn)在更為便宜。作者之一在這里注意到, 用來寫作本書的筆記本電腦比他讀大學(xué)整個階段所使用的臺式機都具有更多的內(nèi)存, 更快的速度, 更大的磁盤空間和更好的圖形能力。然而, 作者本人并不太老。近年來, 由于技術(shù)進(jìn)步所帶來的一個更有利的變化是數(shù)學(xué)編程系統(tǒng)的發(fā)展。這些進(jìn)步允許我們關(guān)注于數(shù)學(xué)本身, 而不是實現(xiàn)的細(xì)節(jié)。有幾個更“尖端”的工具軟件, 例如本書所選用的MATLAB就是最流行的。我們已經(jīng)在教學(xué)和科學(xué)研究中廣泛地使用, 而且我們認(rèn)為它在那里起了相當(dāng)重要的作用。在研究工作中, 它們幫助我們更快地發(fā)展新的技術(shù), 并且評價它的最終實現(xiàn), 對于教學(xué)工作, 現(xiàn)代便攜式計算機和數(shù)學(xué)系統(tǒng)在教學(xué)中聯(lián)合展示給學(xué)生, 不僅包括這些技術(shù)是如何實現(xiàn)的, 而且包括如何以及為什么它們與傳統(tǒng)的教學(xué)資料一起, 以明確的關(guān)系共同起作用。
基于上述原因, 我們編寫了本書。有大量的資料本來可以包括進(jìn)來, 但我們選擇了忽略。用于全面展示學(xué)科的分類與結(jié)構(gòu), 是我們自己構(gòu)造的。如果那些我們選擇忽略的技術(shù)是你們的工作或者你們所喜歡的工作, 對此我們很抱歉。由于計算機視覺領(lǐng)域涉及面相當(dāng)廣, 本書僅限于計算機視覺領(lǐng)域的圖像處理與特征提取。原因在于, 圖像處理與特征提取不僅是我們研究工作的重點, 也是其他的一些已經(jīng)出版的同類教材所關(guān)注的。當(dāng)然, 也有例外, 但是相當(dāng)少。然而, 它是計算機視覺應(yīng)用的主要目標(biāo)之一。我們旨在澄清它的一些起源和發(fā)展, 同時揭示使用數(shù)學(xué)系統(tǒng)的實現(xiàn)。正因如此, 我們心里懷揣著最初的目標(biāo)重新編寫了本書, 并且在后續(xù)的版本仍然保留這樣的想法。
本書與支持
本書的每一章都提供了圖像處理與計算機視覺的特征提取所涉及的特定信息包。每個信息包都是在原稿的基礎(chǔ)上, 通過參考更新的資料完成的。自然地, 在討論具體的實現(xiàn)之前, 通常需要關(guān)注理論上的發(fā)展。我們提供了我們所描述的絕大多數(shù)技術(shù)的實現(xiàn), 并應(yīng)用到選定的圖像集的處理。盡管我們工作的重點更多地放在醫(yī)學(xué)圖像的分析或者生物信息學(xué)(一門通過人的行為或心理特征識別人的科學(xué), 類似于人臉識別), 這些技術(shù)都是通用性的, 可以移植到其他的應(yīng)用領(lǐng)域。
讀者可以在本書的支持網(wǎng)站(http://www.ecs.soton.ac.uk/~msn/book/)找到大量的進(jìn)一步支持信息。首先, 可以得到與本書配套的工作表單(支持本教材的MATLAB和Mathcad實現(xiàn)), 以便讀者可以學(xué)習(xí)本書所描述的技術(shù)。那里, 還有演示網(wǎng)站。該網(wǎng)站將會盡可能地保持持續(xù)更新, 因為它還包括了一些其他資料的鏈接, 如關(guān)于技術(shù)、應(yīng)用以及可得到的軟件、在線文獻(xiàn)的資料。最后, 在網(wǎng)站公布全部的勘誤信息。勘誤表的存在, 是我們的遺憾和責(zé)任。如果你找到了我們所不知道的錯誤(不是指拼寫、語法和排版等錯誤), 請直接使用網(wǎng)站上的mailto給我們發(fā)郵件, 我們將非常感謝。
本書包含了一定數(shù)量的數(shù)學(xué)內(nèi)容, 它的目標(biāo)讀者群是電氣及電子工程, 軟件工程, 計算機科學(xué), 以及數(shù)學(xué)或物理專業(yè)的高年級本科生和碩士研究生。計算機視覺可以被認(rèn)為是應(yīng)用數(shù)學(xué)的一個分支。實際上, 這里涉及的數(shù)學(xué)主要有微積分學(xué)和幾何學(xué), 盡管它可能比傳統(tǒng)的課程講授更加詳細(xì)一些。可以肯定, 這里所使用的資料并不是都可以在南安普敦的大學(xué)課程里全部覆蓋到的。
第1章從計算機視覺的硬件、軟件和已有資料的綜述開始, 并且參考了有待進(jìn)一步發(fā)展的、更復(fù)雜的視覺系統(tǒng):人類視覺系統(tǒng)。盡管關(guān)于處理本質(zhì)的確切細(xì)節(jié)仍然有待深化, 它仍然包含了相當(dāng)大范圍的硬件和軟件, 以便一個