本書以生物學(xué)問題為導(dǎo)向,以具體的案例來演示如何發(fā)現(xiàn)和解決各種生物學(xué)問題,并對(duì)目前研究中存在的問題和未來的發(fā)展方向進(jìn)行了展望。本書從介紹生物信息學(xué)的研究歷史和發(fā)展現(xiàn)狀入手,第2章給出了相關(guān)生物學(xué)基礎(chǔ)的介紹,擯棄繁雜的細(xì)節(jié),強(qiáng)調(diào)系統(tǒng)性和整體性;第3章介紹了算法方面的相關(guān)技術(shù),包括統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)和模型評(píng)估方法;從第4章開始,分專題介紹各種組學(xué)研究,包括基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、生物網(wǎng)絡(luò)和系統(tǒng)生物學(xué)。最后,作為案例,介紹生物信息學(xué)在藥物研發(fā)中的應(yīng)用。
第1章 生物信息學(xué)簡(jiǎn)介
1.1 引言
1.2 生物信息學(xué)的發(fā)展歷史
1.2.1 生物信息學(xué)的誕生
1.2.2 生物信息學(xué)的興起
1.2.3 生物信息學(xué)的蓬勃發(fā)展
1.3 生物信息學(xué)的研究?jī)?nèi)容
1.3.1 基因組學(xué)研究
1.3.2 轉(zhuǎn)錄組數(shù)據(jù)分析
1.3.3 蛋白質(zhì)組學(xué)分析
1.3.4 生物網(wǎng)絡(luò)分析
1.3.5 系統(tǒng)生物學(xué)研究
1.3.6 醫(yī)學(xué)相關(guān)研究
1.4 生物信息學(xué)的研究資源
1.4.1 研究機(jī)構(gòu) 第1章 生物信息學(xué)簡(jiǎn)介
1.1 引言
1.2 生物信息學(xué)的發(fā)展歷史
1.2.1 生物信息學(xué)的誕生
1.2.2 生物信息學(xué)的興起
1.2.3 生物信息學(xué)的蓬勃發(fā)展
1.3 生物信息學(xué)的研究?jī)?nèi)容
1.3.1 基因組學(xué)研究
1.3.2 轉(zhuǎn)錄組數(shù)據(jù)分析
1.3.3 蛋白質(zhì)組學(xué)分析
1.3.4 生物網(wǎng)絡(luò)分析
1.3.5 系統(tǒng)生物學(xué)研究
1.3.6 醫(yī)學(xué)相關(guān)研究
1.4 生物信息學(xué)的研究資源
1.4.1 研究機(jī)構(gòu)
1.4.2 數(shù)據(jù)庫(kù)
1.4.3 文獻(xiàn)資源
1.4.4 分析工具
1.4.5 編程語(yǔ)言
1.5 生物信息學(xué)的應(yīng)用
1.5.1 輔助實(shí)驗(yàn)設(shè)計(jì)
1.5.2 提供數(shù)據(jù)分析的工具
1.5.3 探索生物規(guī)律
1.5.4 促進(jìn)醫(yī)學(xué)研究
1.6 生物信息學(xué)展望
1.6.1 導(dǎo)致重大的科學(xué)規(guī)律的發(fā)現(xiàn)
1.6.2 促進(jìn)不同學(xué)科的交融
1.6.3 提供對(duì)于復(fù)雜系統(tǒng)的分析能力
1.6.4 展現(xiàn)巨大的應(yīng)用前景
習(xí)題
參考文獻(xiàn)
第2章 生物學(xué)基礎(chǔ)
2.1 生命概述
2.2 生命科學(xué)的研究歷史
2.2.1 描述生物學(xué)階段
2.2.2 實(shí)驗(yàn)生物學(xué)階段
2.2.3 現(xiàn)代生物學(xué)階段
2.3 生命的有序結(jié)構(gòu)
2.3.1 細(xì)胞的定義和功能
2.3.2 細(xì)胞的基本組分
2.3.3 細(xì)胞分裂
2.4 生命活動(dòng)的動(dòng)態(tài)運(yùn)行
2.4.1 基因概述
2.4.2 中心法則
2.4.3 蛋白質(zhì)解說
2.5 生物學(xué)研究展望
習(xí)題
參考文獻(xiàn)
第3章 生物信息學(xué)算法介紹
3.1 生物信息學(xué)算法概述
3.2 數(shù)學(xué)統(tǒng)計(jì)方法
3.2.1 統(tǒng)計(jì)假設(shè)檢驗(yàn)
3.2.2 回歸與相關(guān)
3.2.3 隱馬爾可夫模型
3.3 特征選擇與優(yōu)化方法
3.3.1 特征提取算法
3.3.2 數(shù)據(jù)壓縮算法
3.4 模式分類方法
3.4.1 K近鄰法
3.4.2 貝葉斯分類器
3.4.3 決策樹方法
3.4.4 支持向量機(jī)方法
3.4.5 人工神經(jīng)網(wǎng)絡(luò)
3.4.6 遺傳算法
3.4.7 聚類算法
3.4.8 分類器的選擇
3.5 模型評(píng)估方法
3.5.1 構(gòu)建標(biāo)準(zhǔn)數(shù)據(jù)集
3.5.2 評(píng)價(jià)指標(biāo)
3.6 生物信息學(xué)算法展望
習(xí)題
參考文獻(xiàn)
第4章 基因組技術(shù)與研究方法
4.1 基因組概述
4.2 人類基因組計(jì)劃
4.2.1 人類基因組計(jì)劃的提出
4.2.2 人類基因組計(jì)劃的主要任務(wù)
4.2.3 大規(guī)模測(cè)序的基本策略
4.2.4 人類基因組計(jì)劃的完成
4.2.5 人類基因組計(jì)劃對(duì)生物信息學(xué)的挑戰(zhàn)
4.3 功能基因組
4.3.1 基因組注釋
4.3.2 進(jìn)化論和比較基因組學(xué)
4.4 差異基因組學(xué)
4.4.1 人類遺傳多態(tài)性
4.4.2 單核苷酸的多態(tài)性
4.5 基于MATLAB工具箱的基因序列分析
4.5.1 序列比對(duì)
4.5.2 系統(tǒng)發(fā)生樹構(gòu)建
4.6 基因組研究展望
習(xí)題
參考文獻(xiàn)
第5章 轉(zhuǎn)錄組技術(shù)與數(shù)據(jù)分析
5.1 轉(zhuǎn)錄組概述
5.2 轉(zhuǎn)錄組研究的實(shí)驗(yàn)技術(shù)
5.2.1 基因芯片技術(shù)
5.2.2 基因表達(dá)序列分析
5.2.3 RNA測(cè)序技術(shù)
5.2.4 轉(zhuǎn)錄組檢測(cè)技術(shù)比較
5.3 生物信息學(xué)方法在轉(zhuǎn)錄組研究中的應(yīng)用
5.3.1 基因芯片數(shù)據(jù)標(biāo)準(zhǔn)
5.3.2 基因芯片設(shè)計(jì)
5.3.3 數(shù)據(jù)分析算法
5.4 基因芯片數(shù)據(jù)分析與處理
5.4.1 基因表達(dá)數(shù)據(jù)預(yù)處理
5.4.2 芯片數(shù)據(jù)的統(tǒng)計(jì)學(xué)分析
5.4.3 基因芯片的生物學(xué)分析
5.4.4 芯片數(shù)據(jù)分析軟件
5.5 基于MATLAB工具箱的基因芯片數(shù)據(jù)分析
5.5.1 基因芯片數(shù)據(jù)來源
5.5.2 基因表達(dá)譜數(shù)據(jù)分析
5.5.3 芯片數(shù)據(jù)分析小結(jié)
5.6 轉(zhuǎn)錄組研究展望
習(xí)題
參考文獻(xiàn)
第6章 蛋白質(zhì)組學(xué)技術(shù)與數(shù)據(jù)分析
6.1 蛋白質(zhì)組概述
6.2 蛋白質(zhì)組學(xué)的定義
6.2.1 蛋白質(zhì)組學(xué)發(fā)展歷史
6.2.2 蛋白質(zhì)組學(xué)研究?jī)?nèi)容
6.3 蛋白質(zhì)組學(xué)實(shí)驗(yàn)技術(shù)
6.3.1 蛋白質(zhì)分離技術(shù)
6.3.2 蛋白質(zhì)鑒定與定量技術(shù)
6.4 質(zhì)譜數(shù)據(jù)分析
6.4.1 質(zhì)譜數(shù)據(jù)的特點(diǎn)
6.4.2 蛋白質(zhì)鑒定
6.4.3 蛋白質(zhì)定量
6.4.4 翻譯后修飾
6.5 蛋白質(zhì)組學(xué)研究展望
參考文獻(xiàn)
第7章 生物分子網(wǎng)絡(luò)研究
7.1 生物網(wǎng)絡(luò)概述
7.2 生物網(wǎng)絡(luò)分類介紹
7.2.1 蛋白質(zhì)相互作用網(wǎng)絡(luò)
7.2.2 代謝網(wǎng)絡(luò)
7.2.3 信號(hào)轉(zhuǎn)導(dǎo)網(wǎng)絡(luò)
7.2.4 基因表達(dá)調(diào)控網(wǎng)絡(luò)
7.2.5 4種生物網(wǎng)絡(luò)的比較
7.3 生物網(wǎng)絡(luò)的屬性分析
7.3.1 單個(gè)結(jié)點(diǎn)的屬性
7.3.2 子網(wǎng)絡(luò)
7.3.3 總體屬性
7.3.4 網(wǎng)絡(luò)比對(duì)
7.3.5 網(wǎng)絡(luò)的動(dòng)態(tài)分析
7.4 生物網(wǎng)絡(luò)的專門分析方法
7.4.1 蛋白質(zhì)相互作用的預(yù)測(cè)和驗(yàn)證
7.4.2 代謝網(wǎng)絡(luò)的分析方法
7.4.3 信號(hào)網(wǎng)絡(luò)的重建
7.4.4 基因調(diào)控網(wǎng)絡(luò)的構(gòu)建
7.5 生物網(wǎng)絡(luò)研究展望
習(xí)題
參考文獻(xiàn)
第8章 系統(tǒng)生物學(xué)研究
8.1 系統(tǒng)生物學(xué)概述
8.1.1 系統(tǒng)生物學(xué)的定義
8.1.2 系統(tǒng)生物學(xué)的基本思想
8.1.3 系統(tǒng)生物學(xué)的研究?jī)?nèi)容
8.1.4 系統(tǒng)生物學(xué)的研究方法
8.2 生物數(shù)據(jù)的挖掘與整合
8.2.1 生物數(shù)據(jù)的挖掘
8.2.2 不同組學(xué)數(shù)據(jù)的整合
8.3 生物系統(tǒng)的建模與仿真
8.3.1 系統(tǒng)生物學(xué)建模語(yǔ)言
8.3.2 生物系統(tǒng)建模過程
8.4 從虛擬細(xì)胞到虛擬人
8.4.1 虛擬細(xì)胞
8.4.2 虛擬器官
8.4.3 虛擬人體
8.5 生物系統(tǒng)的人工合成——合成生物學(xué)
8.5.1 合成生物學(xué)簡(jiǎn)介
8.5.2 合成生物學(xué)研究現(xiàn)狀
8.5.3 合成生物學(xué)應(yīng)用前景
8.6 基于MATLAB工具箱的生物過程模擬
8.6.1 研究對(duì)象
8.6.2 建立信號(hào)通路模型
8.6.3 模型仿真與結(jié)果演示
8.6.4 模型參數(shù)估計(jì)
8.6.5 仿真結(jié)果分析
8.7 系統(tǒng)生物學(xué)研究展望
習(xí)題
參考文獻(xiàn)
第9章 生物信息學(xué)在藥物研發(fā)中的應(yīng)用
9.1 新藥研發(fā)概述
9.2 疾病相關(guān)的數(shù)據(jù)庫(kù)資源
9.2.1 疾病相關(guān)的基因數(shù)據(jù)庫(kù)
9.2.2 候選藥靶數(shù)據(jù)庫(kù)
9.2.3 疾病相關(guān)的基因芯片數(shù)據(jù)庫(kù)
9.2.4 其他相關(guān)數(shù)據(jù)庫(kù)
9.3 用于藥靶發(fā)現(xiàn)的生物信息學(xué)方法
9.3.1 基因組學(xué)方法
9.3.2 轉(zhuǎn)錄組學(xué)方法
9.3.3 蛋白質(zhì)水平研究方法
9.3.4 代謝組學(xué)方法
9.3.5 整合多組學(xué)數(shù)據(jù)的系統(tǒng)生物學(xué)方法
9.4 潛在藥靶的生物信息學(xué)驗(yàn)證
9.4.1 蛋白質(zhì)的可藥性
9.4.2 藥物的副作用
9.5 以靶標(biāo)為基礎(chǔ)的藥物設(shè)計(jì)
9.5.1 先導(dǎo)化合物的篩選和優(yōu)化
9.5.2 藥物毒性預(yù)測(cè)和風(fēng)險(xiǎn)評(píng)估
9.6 新藥研發(fā)展望
參考文獻(xiàn)
索引
前言
生物信息學(xué)是隨著生命科學(xué),特別是分子生物學(xué)研究的深入和大規(guī)模生物工程技術(shù)的快速發(fā)展而逐步興起和繁榮的一門交叉學(xué)科。生物信息學(xué)研究的起源可以追溯到孟德爾豌豆雜交實(shí)驗(yàn)的數(shù)據(jù)統(tǒng)計(jì)。之后,隨著生物技術(shù)的發(fā)展,生物學(xué)研究中產(chǎn)生了復(fù)雜的影像數(shù)據(jù)(例如電子顯微鏡)和波譜數(shù)據(jù)(例如核磁共振)等,需要利用復(fù)雜的計(jì)算方法,根據(jù)其物理化學(xué)原理和數(shù)學(xué)模型,復(fù)原其中包含的生物信息。而真正促使生物信息學(xué)正式誕生的則是基因組測(cè)序研究的大規(guī)模開展,其標(biāo)志性事件是“人類基因組計(jì)劃”。大規(guī)模測(cè)序數(shù)據(jù)的產(chǎn)出,使研究人員認(rèn)識(shí)到,生物數(shù)據(jù)的存儲(chǔ)、處理和共享等工作已不再是簡(jiǎn)單的輔助,而需要一個(gè)專門的學(xué)科,充分結(jié)合生物技術(shù)、信息科學(xué)與計(jì)算方法,去挖掘海量生物數(shù)據(jù)中蘊(yùn)含的知識(shí)寶藏。
由于生命科學(xué)的快速發(fā)展,新的觀點(diǎn)、理論和原理不斷涌現(xiàn),各種技術(shù)方法和手段層出不窮,呈現(xiàn)螺旋式上升的趨勢(shì)。在此背景下,生物信息學(xué)的研究?jī)?nèi)容也在不斷擴(kuò)展。從早期以基因組序列分析為主,到各種組學(xué)數(shù)據(jù)的分析和處理,再到系統(tǒng)生物學(xué)層面的分子網(wǎng)絡(luò)建模與分析,生物信息學(xué)需要解決越來越復(fù)雜的系統(tǒng)性問題。從發(fā)展的眼光來看,我們認(rèn)為,生物信息學(xué)至少包括如下3個(gè)層次的研究?jī)?nèi)容。
① 實(shí)驗(yàn)數(shù)據(jù)的分析,目的是從觀測(cè)數(shù)據(jù)中最大限度地還原和提取有效的生物信息,其中包括各種組學(xué)研究的數(shù)據(jù)分析;
② 對(duì)基于序列、相互作用等已經(jīng)整理的數(shù)據(jù)進(jìn)行規(guī)律發(fā)現(xiàn),解讀生命運(yùn)行的規(guī)律,例如基因模體的發(fā)現(xiàn)、蛋白質(zhì)亞細(xì)胞定位的預(yù)測(cè)等;
③ 利用盡可能多的觀測(cè)數(shù)據(jù),建立不同層次的生物系統(tǒng)模型,開展生物系統(tǒng)仿真和設(shè)計(jì)的理論研究。
作為一門典型的交叉學(xué)科,每個(gè)相關(guān)學(xué)科方向的研究人員都可以從本學(xué)科的角度介入生物信息學(xué)研究。例如,生物實(shí)驗(yàn)人員可以將實(shí)驗(yàn)設(shè)計(jì)、實(shí)驗(yàn)數(shù)據(jù)處理的操作規(guī)程、實(shí)驗(yàn)參數(shù)優(yōu)化等問題作為其生物信息學(xué)研究方向;模式識(shí)別和機(jī)器學(xué)習(xí)方面的研究人員可以將很多問題歸結(jié)為特征提取、模型訓(xùn)練和評(píng)估的研究;計(jì)算機(jī)方面的研究人員可以將建設(shè)高質(zhì)量數(shù)據(jù)庫(kù),開發(fā)高效、易操作的軟件,利用高性能計(jì)算技術(shù)完成高復(fù)雜度的生物信息計(jì)算等問題作為其研究重點(diǎn);物理學(xué)、化學(xué)方面的研究為生物實(shí)驗(yàn)提供了豐富的手段,同時(shí)也提出了很多待解決的理論和應(yīng)用問題,這個(gè)方向的研究人員可以從實(shí)驗(yàn)原理分析和儀器優(yōu)化設(shè)計(jì)的角度來介入生物信息學(xué)研究;而系統(tǒng)建模、分析和設(shè)計(jì)作為控制學(xué)科的基本研究?jī)?nèi)容,也可以用于模擬生物系統(tǒng)行為,適合作為該方向研究人員對(duì)生物信息學(xué)的介入點(diǎn)?梢哉f,生物信息學(xué)為不同學(xué)科的人才搭建了充分展示的舞臺(tái),以其開放性和前沿性提供了豐富的待研究問題和產(chǎn)生重大突破的可能。
可以發(fā)現(xiàn),生物信息學(xué)的研究?jī)?nèi)容非常豐富,而且其進(jìn)展快速,不斷有新的研究問題和方法涌現(xiàn)。這種特點(diǎn)使得生物信息學(xué)的教材內(nèi)容比較難以組織。但是我們認(rèn)為,生物信息學(xué)的根源是生物學(xué),其所有的問題都來源于生物學(xué)研究的需要,其所有的成果也必須經(jīng)由生物學(xué)的檢驗(yàn)才能體現(xiàn)其價(jià)值。生物信息學(xué)的核心是用數(shù)學(xué)的語(yǔ)言來描述生物學(xué)問題,用計(jì)算機(jī)方法和信息技術(shù)來解決問題。因此,本書沒有將現(xiàn)有的生物信息學(xué)數(shù)據(jù)庫(kù)、工具作為介紹重點(diǎn),而是以生物學(xué)問題為導(dǎo)向,依次介紹了生物信息學(xué)在基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、生物網(wǎng)絡(luò)和系統(tǒng)生物學(xué)中的應(yīng)用,以具體的案例來演示如何發(fā)現(xiàn)和解決各種生物學(xué)問題,并對(duì)目前研究中存在的問題和未來的發(fā)展方向進(jìn)行展望;蛟S哪一天,某一個(gè)數(shù)據(jù)庫(kù)不再更新,某一個(gè)工具不再適用,但是生物信息學(xué)的研究思路不會(huì)改變,那就是從生物中來,到生物中去。只有深入地思考生物學(xué)問題,掌握計(jì)算機(jī)和信息技術(shù)的利器,把握科學(xué)研究的一般規(guī)律,才能一直處于生命科學(xué)的前沿陣地。
本書總體編排如下: 第1章介紹生物信息學(xué)的研究歷史和發(fā)展現(xiàn)狀;第2章討論相關(guān)生物學(xué)基礎(chǔ),側(cè)重于介紹生物信息學(xué)相關(guān)的分子生物學(xué)內(nèi)容;第3章介紹算法方面的相關(guān)技術(shù),包括統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)和模型評(píng)估方法;從第4章開始,分專題介紹各種組學(xué)研究,包括基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、生物網(wǎng)絡(luò)和系統(tǒng)生物學(xué)。最后以案例方式介紹生物信息學(xué)在藥物研發(fā)中的應(yīng)用。本書沒有涵蓋代謝組學(xué)和糖組學(xué)方面的內(nèi)容。
本書是生物信息學(xué)相關(guān)專業(yè)的研究生教材,也可以作為生物信息學(xué)相關(guān)研究人員的參考書。感謝國(guó)防科技大學(xué)和北京蛋白質(zhì)組中心的生物信息學(xué)研究課題組為本書編寫提供的幫助,希望本書對(duì)于系統(tǒng)了解生物信息學(xué)技術(shù)能夠有所助益,歡迎學(xué)術(shù)同仁不吝賜教。
劉偉 張紀(jì)陽(yáng) 謝紅衛(wèi)2013年1月19日