分子系統發生學是應用分子數據重建系統發生關系的學科。《分子系統發生學》全面系統地論述了分子系統發生學的基礎、原理、方法及應用。《分子系統發生學》由18章組成,可以歸納為五大部分:第一部分包括第1~3章,分別介紹了系統發生和系統樹的基本知識;第二部分包括第4~7章,是分子系統發生分析的基礎,其中第4章和第5章是分子系統發生學的信息學基礎,第6章是數據集系統發生信號評估,第7章討論了分子進化模型及模型選擇原理與方法;第三部分中的第8~12章是各種系統發生分析方法,分別就目前主要的系統發生分析方法(距離矩陣法、簡約法、最大似然法、貝葉斯推論法和系統發生網絡法等)從原理、軟件操作、應用及局限性等方面進行了詳細的介紹,第13章討論了系統發生假設檢驗的原理和方法,第14章討論了系統發生分析可靠性與影響因素;第四部分主要涉及各類數據集分析策略,其中第15章總結了不同類型數據的分析策略,第16章對復雜數據系統發生的分析策略與方法進行了詳細地介紹,第17章是多基因數據分析策略和方法;最后一部分即第18章是系統樹的可視化、注釋與應用方面的內容。
《分子系統發生學》可作為生物學、生物技術、生態學和生物信息學專業的本科生、研究生及科研人員學習分子系統發生學的教材或參考資料。
分子系統發生學是應用分子數據重建系統發生關系的學科。由于系統發生關系已經成為整合包括生物多樣性在內的生物學知識的基本框架,所以構建生物類群之間的系統發生關系成為當代生物學的基本研究方法。《分子系統發生學(精)》由黃原編著,本書全面系統地論述了分子系統發生學的基礎、原理、方法及應用。
前言
第1章 系統發生學概論
1.1 系統發生與系統發生學
1.2 系統發生關系的含義
1.2.1 表征關系
1.2.2 分支關系
1.2.3 遺傳關系
1.2.4 系統發生關系
1.2.5 年代關系
1.2.6 地理分布關系
1.3 分子系統發生分析的原理和假設
1.3.1 分子系統發生分析的原理
1.3.2 分子系統發生分析的假設
1.3.3 分子數據的優點
1.4 分子系統發生學的方法論
1.5 分子系統發生學的發展歷史
1.6 系統發生分析的策略與步驟
1.7 分子系統發生學的文獻資源
1.7.1 分子系統發生學期刊
1.7.2 分子系統發生學領域主要專著和教科書
1.8 分子系統發生學的成就和問題
第2章 系統發生分析基礎
2.1 分子進化基礎
2.1.1 分子進化的動力
2.1.2 分子進化的中性理論
2.1.3 溯祖理論
2.2 系統發生分析的分類學基礎
2.2.1 系統發生與分類學的關系
2.2.2 分類階元的系統發生意義
2.3 性狀和性狀分析方法
2.3.1 性狀的分類
2.3.2 關于性狀的基本假設
2.3.3 性狀進化分析方法
2.3.4 性狀的加權
2.3.5 性狀的同源
2.3.6 性狀的同型
2.4 系統發生分析的數學基礎
2.5 系統發生分析的統計學基礎
2.5.1 概率分布
2.5.2 系統發生的統計學檢驗
2.5.3 零假設與零模型
2.5.4 常用檢驗方法
2.5.5 隨機數據及其在系統發生中的應用
2.6 理論系統發生學
2.7 模擬系統發生研究
2.7.1 系統樹的模擬
2.7.2 序列的模擬
2.7.3 系統發生模擬研究的優勢
2.8 系統發生分析的算法
2.8.1 精確算法
2.8.2 啟發式算法
第3章 系統樹
3.1 系統樹的概念和含義
3.2 系統樹的要素
3.2.1 系統樹的拓撲結構
3.2.2 系統樹的節點
3.2.3 系統樹的分枝和分枝長度
3.3 演化歷史與系統樹的完整性
3.4 系統樹表達的信息
3.5 系統樹概念和表達形式的發展
3.6 系統樹的類型
3.6.1 樹狀圖與網狀圖
3.6.2 有根樹和無根樹
3.6.3 標度樹與未標度樹
3.6.4 基因樹和物種樹
3.6.5 基礎樹和合一樹、源樹和超樹
3.6.6 期望樹與實際樹
3.6.7 普適生命樹與完全樹
3.6.8 二歧樹和多歧樹
3.6.9 系統樹的表示形式
3.7 系統樹的數學描述
3.7.1 系統樹各部位的名稱
3.7.2 二分樹及其表示方式
3.7.3 二歧樹的性質
3.8 系統樹的賦根方法
3.9 系統樹的生物學描述和解釋
3.9.1 描述系統樹的基本術語
3.9.2 系統樹的分類學解釋
3.9.3 系統樹的進化解釋
第4章 系統發生信息學
4.1 系統發生信息學概述
4.2 系統發生信息學研究內容
4.3 系統發生數據文件格式
4.3.1 數據文件格式
4.3.2 格式轉換軟件
4.3.3 系統樹文件格式
4.4 系統發生分析軟件
4.4.1 系統發生分析軟件概述
4.4.2 系統發生分析軟件的編程語言
4.4.3 系統發生分析軟件的使用
4.5 PAUP*軟件及使用
4.5.1 PAUP*軟件的歷史和版本
4.5.2 PAUP*的安裝
4.5.3 PAUP*的功能
4.5.4 PAUP*命令及操作
4.5.5 PAUP*使用的一般步驟
4.5.6 ClustalX和PAUP*連用
4.5.7 PAUP*4輔助軟件
4.6 MEGA 5軟件包簡介
4.7 DAMBE軟件包簡介
4.8 Sea View 4軟件包簡介
4.9 PHYLIP軟件包簡介
4.10 系統發生的自動化分析工具
4.11 系統發生網絡資源
4.11.1 系統發生軟件目錄
4.11.2 CIPRES
4.11.3 分子進化和系統發生專題研討會
4.12 系統發生數據庫介紹
4.12.1 系統發生知識數據庫
4.12.2 生命之樹數據庫
4.12.3 Species 2000數據庫
4.12.4 NCBI分類數據庫
4.13 系統發生信息學展望
第5章 數據集準備與序列比對
5.1 分子數據的獲得
5.1.1 自測數據
5.1.2 序列拼接
5.2 來源于公共數據庫的分子數據
5.2.1 查看分類單元中已知基因序列分布的方法
5.2.2 查看一個分類單元被提交到GenBank中序列數量的方法
5.2.3 查看一個分類單元有序列記錄物種數量的方法
5.2.4 數據庫序列獲取方法
5.2.5 批量下載序列的方法
5.2.6 比對序列數據庫
5.3 序列比對
5.3.1 比對的概念和分類
5.3.2 序列比對的原理
5.3.3 序列比對算法
5.3.4 比對方法的分類
5.4 常用比對軟件
5.4.1 ClustalX
5.4.2 T-Coffee
5.4.3 DIALIGN
5.4.4 MUSCLE和MAFFT
5.4.5 ProAlign
5.4.6 POA和ABA
5.5 比對軟件的選擇
5.6 不同類型的序列比對方法和策略
5.6.1 DNA序列比對方法和策略
5.6.2 RNA基因序列的比對方法與策略
5.6.3 蛋白質序列比對
5.7 比對結果的美化顯示與格式轉化
5.7.1 比對結果的美化和位點信息顯示
5.7.2 比對結果的格式轉化
5.8 比對與系統發生分析
5.9 數據集中空位、模糊區、多態位點和丟失數據的處理
5.9.1 數據集中空位的處理
5.9.2 模糊比對序列的處理
5.9.3 多態性狀的處理
5.9.4 丟失數據的處理
5.10 多源數據集組裝
5.10.1 公共數據庫數據的組裝
5.10.2 多基因數據的連接
5.11 序列管理與數據提交
5.11.1 序列管理
5.11.2 系統發生數據提交
第6章 數據集系統發生信號評估
6.1 系統發生數據信號描述
6.2 數據集質量的評價
6.2.1 數據集組成特征分析
6.2.2 替換型式分析
6.2.3 分子進化參數計算
6.2.4 替換飽和作圖
6.3 系統發生信號與結構分析
6.3.1 序列數據系統發生信號強弱的評價
6.3.2 系統發生信號評估軟件與方法
6.3.3 系統發生信號組成結構分析
6.4 系統發生數據探索與實驗性分析
6.4.1 數據特征的探索
6.4.2 系統發生數據的實驗性分析
第7章 進化模型及其選擇
7.1 進化模型及其在系統發生分析中的作用
7.2 系統發生模型
7.3 形態性狀進化模型
7.4 DNA序列進化模型
7.4.1 DNA序列上發生的進化改變
7.4.2 同質性模型
7.4.3 堿基組成異質性模型
7.4.4 Indel模型
7.5 RNA進化模型
7.5.1 結構RNA序列的進化特征
7.5.2 RNA替換模型
7.6 蛋白質序列進化模型
7.6.1 蛋白質序列進化及建模
7.6.2 經驗模型
7.6.3 機理模型
7.6.4 氨基酸頻率變異和位點之間速率變異模型
7.6.5 混合模型
7.7 進化模型的選擇
7.7.1 進化模型選擇原理
7.7.2 LRT檢驗法
7.7.3 AIC信息標準法
7.7.4 貝葉斯信息標準法
7.7.5 貝葉斯因子法
7.7.6 決策論法
7.7.7 進化模型選擇注意事項
7.8 DNA進化模型選擇
7.8.1 用PAUP*選擇模型的LRT檢驗
7.8.2 DNA模型選擇軟件
7.8.3 jModelTest的使用
7.9 蛋白質進化模型的選擇和使用
7.9.1 蛋白質進化模型選擇概述
7.9.2 蛋白質進化模型選擇軟件ProtTest3.0
7.10 進化模型參數的準確估計
7.11 混合模型和平均模型
第8章 距離矩陣方法
8.1 遺傳距離的概念
8.2 距離數據的數學特征和生物學意義
8.3 將序列數據轉化為距離的方法
8.3.1 未校正的遺傳距離
8.3.2 校正距離的計算方法
8.3.3 最大似然法估計的校正距離
8.3.4 LogDet距離
8.3.5 基因組距離
8.3.6 蛋白質遺傳距離
8.3.7 計算遺傳距離的軟件
8.3.8 校正距離的選擇和使用注意事項
8.4 距離矩陣方法概述
8.5 聚類分析方法
8.6 鄰接法
8.6.1 鄰接法原理
8.6.2 鄰接法的算法
8.7 最小進化法
8.8 疊加樹法
8.8.1 原理
8.8.2 平均距離法
8.8.3 轉換距離法
8.8.4 最小平方法
8.8.5 其他疊加樹方法
8.9 距離樹可靠性評價
8.10 距離矩陣建樹方法的比較及應用
8.11 距離矩陣法建樹軟件
8.11.1 PAUP*4距離法建樹
8.11.2 MEGA5的距離法
8.11.3 TREECON使用
8.11.4 T-REX軟件使用
8.11.5 ProfDist使用方法
第9章 簡約法
9.1 簡約性方法原理
9.2 簡約法的分析過程
9.2.1 性狀分布模式
9.2.2 性狀優化
9.2.3 多態性內部節點祖先狀態的重建方法
9.2.4 性狀加權
9.2.5 最簡約樹搜索
9.2.6 簡約樹分枝長度和樹長的計算
9.2.7 最簡約樹的選擇
9.2.8 MP樹分支支持度計算
9.3 數據集中同型性狀水平的分析和評價
9.4 簡約法分析結果
9.5 簡約性方法的優缺點
9.6 簡約法分析軟件
9.7 用PAUP*進行MP法分析
9.7.1 利用PAUP*進行簡單簡約法分析
9.7.2 加權簡約法分析
9.7.3 PAUP*限制樹搜索
9.7.4 PAUP*4簡約法的腳本命令運行
9.8 TNT軟件
9.9 WinClada和NOVA
第10章 最大似然法
10.1 最大似然法原理及其在系統發生分析上的應用
10.2 最大似然法建樹原理
10.3 最大似然法建樹過程
10.3.1 進化模型的選擇及參數計算
10.3.2 系統樹搜索方法
10.3.3 分枝長度的優化
10.3.4 似然值的計算
10.3.5 分支支持度計算
10.4 最大似然法建樹結果的表示
10.5 最大似然法的優缺點
10.5.1 最大似然法的優點
10.5.2 最大似然法的缺點
10.6 最大似然法分析軟件
10.6.1 PAUP*4的ML分析方法
10.6.2 PAUP*與ModelTest聯合運行選擇進化模型
10.6.3 TREEFINDER軟件使用方法
10.6.4 TREE-PUZZLE軟件使用方法
10.6.5 RAxML
10.6.6 PhyML
10.6.7 MetaPIGA
10.6.8 IQPNNI
10.6.9 GARLI
第11章 貝葉斯系統發生推論法
11.1 貝葉斯系統發生分析原理
11.1.1 貝葉斯統計原理
11.1.2 貝葉斯系統發生推論法歷史和現狀
11.1.3 貝葉斯系統發生推論原理
11.2 貝葉斯分析過程
11.2.1 貝葉斯方法選擇模型
11.2.2 先驗概率的設置
11.2.3 馬爾可夫鏈運行設置
11.2.4 提議、混合與接受
11.2.5 貝葉斯推論法克服局部優化的方法
11.2.6 評估和促進后驗概率分布收斂的方法
11.2.7 影響系統樹后驗概率計算的因素
11.3 貝葉斯法運行結果匯總
11.4 貝葉斯推論法結果的分析、判斷與表示
11.5 貝葉斯系統發生軟件及使用
11.5.1 貝葉斯系統發生軟件
11.5.2 MrBayes 3.2使用方法
11.6 貝葉斯系統發生推論法優缺點
11.7 貝葉斯法與最大似然法的聯系及區別
11.8 貝葉斯后驗概率與自舉支持度的關系
第12章 系統發生網絡、超樹和無比對方法
12.1 系統發生網絡
12.1.1 網狀進化型式與機制
12.1.2 系統發生網絡的構建方法
12.1.3 網狀圖的構建軟件
12.1.4 系統發生網絡的應用
12.2 系統樹的整合方法——超樹
12.2.1 超樹的概念
12.2.2 超樹構建方法
12.2.3 超樹方法的優缺點
12.3 無比對方法
12.3.1 比對和系統發生的聯合估計方法
12.3.2 完全無比對方法
第13章 系統發生假設檢驗
13.1 系統發生假設檢驗概述
13.2 似然比檢驗
13.3 數據隨機化檢驗
13.3.1 比較雙樹檢驗
13.3.2 PTP檢驗和限制樹T-PTP檢驗
13.4 配對位點檢驗
13.4.1 Templeton檢驗
13.4.2 KH檢驗
13.5 非參數自舉法
13.5.1 SH檢驗
13.5.2 AU檢驗
13.6 參數自舉法
13.7 貝葉斯統計檢驗法
13.8 PAUP*執行的系統發生假設檢驗方法
13.9 CONSEL軟件使用
第14章 系統發生分析的可靠性與影響因素
14.1 系統發生分析方法的可靠性
14.1.1 方法可靠性的評價標準
14.1.2 系統發生分析方法的比較研究
14.1.3 不同構樹方法的優缺點
14.2 系統樹的可靠性
14.2.1 系統樹的兩類誤差
14.2.2 系統誤差和隨機誤差
14.2.3 檢驗系統樹可靠性的統計學方法
14.3 隨機誤差及統計分析
14.3.1 評估分支支持度的方法
14.3.2 自舉法
14.3.3 自減法
14.3.4 貝葉斯后驗概率法
14.3.5 計算分支支持度的軟件
14.4 系統誤差的消除方法
14.4.1 系統誤差的來源
14.4.2 導致系統誤差的條件
14.4.3 系統誤差的識別
14.4.4 系統誤差的消除方法
14.5 系統發生分析疑難解答
14.5.1 有異常分支的系統發生
14.5.2 隨機誤差
14.5.3 分類單元抽樣
14.5.4 序列長度與類型
14.5.5 序列比對問題
14.5.6 進化模型選擇問題
14.5.7 建樹方法的選擇
14.5.8 搜索算法選擇
14.5.9 分子進化速率對系統發生的影響
14.5.10 替換速率變異
14.5.11 堿基組成偏向性的影響
14.5.12 堿基組成異質性的影響
14.5.13 外群選擇與系統樹的賦根問題
14.5.14 譜系缺失的影響
14.5.15 數據缺失對系統發生分析的影響
14.5.16 基因水平轉移
14.5.17 序列和位點同源關系
14.5.18 選擇作用的影響
14.5.19 重組的影響
14.5.20 分支支持度低的問題
14.5.21 計算時間太長的問題
14.5.22 總結
第15章 不同類型數據的分析策略
15.1 不同類型數據的特點
15.2 DNA序列分析策略和方法
15.2.1 用DNA序列還是蛋白質序列
15.2.2 編碼蛋白質DNA序列的分析
15.2.3 DNA序列的加權簡約法分析
15.2.4 DNA序列的ML和貝葉斯法分析
15.3 蛋白質序列分析策略和方法
15.3.1 蛋白質序列數據的獲得
15.3.2 必須使用蛋白質序列的情況
15.3.3 蛋白質序列的分析策略
15.3.4 蛋白質立體結構分析
15.4 RNA序列分析策略和方法
15.4.1 RNA序列數據的特點
15.4.2 rRNA基因序列系統發生分析策略
15.4.3 rRNA基因序列分析軟件
第16章 復雜數據和困難系統發生的分析策略與方法
16.1 早期適應輻射的系統發生
16.2 近期發生過適應輻射的系統發生
16.3 存在長枝吸引問題的系統發生
16.3.1 長枝吸引現象
16.3.2 產生長枝吸引現象的可能原因
16.3.3 識別長枝吸引的方法
16.3.4 消除長枝吸引現象的方法
16.4 大數據集的系統發生
16.4.1 大數據集系統發生及其面臨的問題
16.4.2 大數據集系統發生分析策略
16.4.3 大數據集的系統發生分析需要的計算機和軟件
16.4.4 大數據集分析實例
16.5 堿基組成異質性數據集的分析
16.5.1 序列組成偏向性及其對系統發生分析的影響
16.5.2 堿基組成異質性數據分析方法
16.5.4 氨基酸組成異質性數據分析方法
16.6 種上與種下數據的聯合分析
第17章 多源數據集分析策略和方法
17.1 多源數據集概述
17.2 數據集之間的不相合性及檢驗方法
17.2.1 不相合性的類型
17.2.2 數據集之間不相合性的原因
17.2.3 數據集之間不相合性的檢驗方法
17.3 多源數據集的分析策略
17.3.1 聯合方法
17.3.2 分類學相合性分析
17.3.3 數據劃分方法
17.4 多源數據集的劃分分析實例
17.5 譜系基因組學方法
17.5.1 譜系基因組學
17.5.2 譜系基因組學分析策略
17.5.3 譜系基因組學分析方法
第18章 系統樹的可視化、注釋與應用
18.1 系統樹的可視化
18.1.1 TreeView
18.1.2 Dendroscope
18.1.3 Mesquite
18.1.4 FigTree
18.1.5 MrEnt
18.1.6 2D和3D曲面表示方法
18.1.7 iTOL
18.2 系統樹的注釋
18.2.1 分類學命名標注
18.2.2 分歧年代和地質時代的標注
18.2.3 重建祖先狀態
18.2.4 性狀進化
18.2.5 協同系統發生
18.3 系統樹表達的信息及其應用
18.3.1 拓撲結構和分支長度
18.3.2 系統樹的樹形及應用
18.3.3 系統發生的不平衡性
18.3.4 系統樹用于分析分歧速度
18.4 系統發生的應用
參考文獻
第1 章 系統發生學概論
1.1 系統發生與系統發生學
系統發生(phylogeny , 由希臘詞根phylon = stem 、tribe 、race 和genesis = origin構成) 是指任何生物實體(基因、個體、種群、物種和種上階元) 的起源和演化關系。
達爾文首次使用系統發生一詞是在《物種起源》第5 版提及Haeckel 的著作Generelle Mor p hologie 時, 并將系統發生等同為所有生物的傳代線( the lines of de-scent of all organic beings) , 這與Haeckel 的原意不同, Haeckel 書中的系統發生是生命之樹的傳代線上生物在形態上發生的主要改變, 而非傳代線本身(Dayrat , 2003) 。
但達爾文此處對系統發生概念的使用與我們現在的定義基本上一致。
分子系統發生(molecular phylogeny) 是利用各種分子性狀構建的生物實體之間起源和演化關系, 采用的分子數據主要是DNA 和蛋白質序列, 也包括其他類型的分子數據。
系統發生學(phylogenetics) 是研究利用各種性狀構建基因、個體、種群、物種和種上單元之間系統樹或網絡的原理和方法的學科。系統發生學重建進化歷史依賴于對取樣物種的性狀分布進行數學推論, 這種重建涉及不同類群共享的同源性狀, 并通過這些性狀推斷系統樹。這種數學推斷的準確性完全依賴于對性狀進化的假設和模型。
20 世紀50 年代以來, 蛋白質和DNA 測序技術為系統發生重建帶來了曙光。DNA和蛋白質序列數據作為生物信息分子具有線性數字編碼特征, 并且能夠建立位點之間的同源關系, 逐漸成為系統發生分析的主要數據來源。分子系統發生學( molecularphylogenetics) 就是在這種背景下誕生的, 是研究利用各種分子性狀構建基因、個體、種群和物種之間系統樹或進化網絡的原理和方法的學科。
分子數據的使用導致了系統發生研究的革命。在20 世紀80 年代后期, 由于保守引物的PCR 擴增和DNA 測序技術的應用, 使得系統發生分析可利用的同源位點(即性狀) 數量達到500 個, 有的甚至超過數千個, 與此前幾十個、最多上百個形態特征相比, 大大地增強了解決系統發生推論的數據力度。此時, 一些線粒體基因和rDNA成為最廣泛應用的標記, 其中編碼SSU rRNA 的基因識別出了作為生命樹的第三分支的古細菌(Archaea) 。隨著更多基因標記, 尤其是大量單拷貝核基因的使用, 基于單個基因推論的系統發生關系之間的沖突逐漸顯露。而且, 來自單個基因的信息經常不足以對系統發生的節點提供堅實的統計學支持。所以, 自20 世紀90 年代以來, 多基因數據逐漸成為分子系統發生研究的主流。
目前, 成千上萬個物種的全基因組序列信息已經通過新一代的高通量測序技術產生, 并由此產生了一個新的分支學科―― 譜系基因組學(phylogenomics) , 就是在基因組水平上進行系統發生研究。譜系基因組學將基因座位的進化作為一種隨機過程看待,將分子水平的基因座位和序列位點進化模型及群體歷史過程整合在一起, 分析基因樹和物種樹之間的關系, 引發分子系統發生學思想的又一次革命。基因組學數據增加了用于系統發生學分析的性狀數量和類型, 期望能夠減少先前由于序列或基因取樣偏差造成的系統發生推論誤差。
分子系統發生學已經成為當前生物學研究的核心領域。根據SCI Web of Science 引文數據庫統計, 到2009 年底已經有30 000 多篇關于系統發生分析的論文, 并且每年以3000 篇的速度增加( Pagel and Meade , 2008) 。Rokas 和Carroll (2006) 估計世界范圍平均每天發表15 棵系統樹。最近發起的重建生命之樹計劃和DNA 條形碼計劃是生物學歷史上能夠與基因組計劃媲美的生物學大科學項目, 加之廉價而快速的新一代高通量測序技術引發的全基因組測序的普及, 如人類千人基因組計劃、宏基因組學( met-agenomics) 、脊椎動物基因組10K 計劃和昆蟲基因組5K 計劃等, 將極大地推進分子系統發生學的研究。
分子系統發生學數據的增加速度很快, 目前NCBI 核苷酸數據庫有序列記錄的物種數超過30 萬種。過去5 年GenBank 的物種數以每年約1.7 萬種的速度增加, 也就是170 萬種已描述物種中, 每年約有1 % 的物種被進行至少一個基因的測序。即便如此,至少含有一條分子序列的生物體只占全部已知物種的17 % 左右。而在系統發生信息數據庫TreeBASE 中, 目前只錄入了2000 多項研究的5000 多棵系統樹, 包括100 000個類群(http : //www.treebase.org/) 。因此, 實現重建生命之樹的宏偉計劃還有漫長的路要走。