系統發生樹
系統發生樹
(英文:Phylogenetic tree)又稱為演化樹(evolutionary tree),是表明被認為具有共同祖先的各物種間演化關係的樹。是一種親緣分支分類方法(cladogram)。在樹中,每個節點代表其各分支的最近共同祖先,而節點間的線段長度對應演化距離(如估計的演化時間)。
中文名:系統發生樹
別 稱:演化樹
屬 於:親緣分支分類方法
目錄
簡介
系統發生樹(英文:phylogenetic tree或evolutionary tree)是表明被認為具有共同祖先的各物種相互間演化關係的樹,又被譯作系統發育樹、系統演化樹、系統進化樹、種系發生樹、演化樹、進化樹、系統樹。 它用來表示系統發生研究的結果,用它描述物種之間的進化關係。
種類
根據有根和無根來區分:
樹可分為有根樹和無根樹兩類。有根樹是具有方向的樹,
包含唯一的節點,將其作為樹中所有物種的近的共同祖先。最常用的確定樹根的方法是使用一個或多個無可爭議的同源物種作為外群(英文outgroup),這個外群要足夠近,以提供足夠的信息,但又不能太近以至於和樹中的種類相混。把有根樹去掉根即成為無根樹。一棵無根樹在沒有其他信息(外群)或假設(如假設最大枝長為根)時不能確定其樹根。無根樹是沒有方向的,其中線段的兩個演化方向都有可能。
基因樹和物種樹:
基於單個同源基因差異構建的系統發生樹應稱之為基因樹。因為這種樹代表的僅僅是單個基因的進化歷史。而不是它所在物種的進化歷史。物種樹一般最好是從多個基因數據的分析中得到。例如一項關於植物進化的研究中,用了100個不同的基因來構建物種樹,因為進化是發生在生物體種群水平上的,而不是發生在個體水平上的,雖然表面上不需要更多的數據,但實際上還是有必要的。基因樹和物種樹之間的差異是很重要的,如果只用等位基因來構建物種數,那許多人和大猩猩就會分到一起,而不是和其他人分到一起。
釋義
系統樹是一種分支圖(英文cladogram)。在樹中,每個節點代表其各分支的近共同祖先,而節點間的線段長度對應演化距離(如估計的演化時間)。
系統發生樹有時也稱系統樹圖,它是由一系列節點和分支組成的。其中每一個節點代表一個分類單元,分支末端的節點對應 一個基因或者生物體。與外部節點對應,內部節點代表一個推斷出的共同祖先。系統發生樹結構的基本信息在計算機程序中常常用一組嵌套的圓括號表示,成為newick格式。
樹的算法
利用SSU rRNA繪製的系統演化樹,三個最大分支(域)分別為細菌、古菌和真核生物。
非加權分組平均法:UPGAM(Unweighted pair group method with arithmetic mean)
矩陣法:鄰接法 neighbor-joining (NJ)
簡約法:最大簡約法 maximum parsimony (MP)
似然法:最大似然法 maximum likelihood (ML)
後驗概率法:貝葉斯法 Bayesian
構建方法
要構建一個進化樹(phyligenetic tree)。構建進化樹的算法主要分為兩類:獨立元素法(discrete character methods)和距離法(distance methods)。所謂獨立元素法是指進化樹的拓撲形狀是由序列上的每個狀態決定的,而距離法是指進化樹的拓撲形狀由兩兩序列的進化距離決定的。進化樹枝條的長度代表着進化距離。獨立元素法包括最大簡約性法(MP)和最大似然性法(ML);距離法包括非加權分組平均法(UPGMAM)和鄰接法(NJ)。
構建數據
用於構建系統發生樹的數據分為兩類:特徵數據(存在有限不同狀態的特徵)和距離數據(兩個數據之間所有兩兩差異的衡量)。一旦建立了確定所有可能狀態之間相似性的標準,特徵數據就很容易轉換成距離數據。
評估方法
對進化樹進行評估,主要採用Bootstraping法。進化樹的[[[構建]]是一個統計學問題,所構建出來的進化樹只是對真實的進化關係的評估或者模擬。如果採用了一個適當的方法,那麼所構建的進化樹就會接近真實的「進化樹」。模擬的進化樹需要一種數學方法來對其進行評估。不同的算法有不同的適用目標。一般來說,最大簡約性法適用於符合以下條件的多序列:i 所要比較的序列差別小,ii 對於序列上的每一個點有近似相等的變異率,iii 沒有過多的顛換/轉換的傾向,iv 所檢驗的序列的數目較多;用最大可能性法分析序列則不需以上的諸多條件,但是此種方法計算極其耗時。如果分析的序列較多,有可能要花上幾天的時間才能計算完畢。UPGMAM假設在進化過程中所有點都有相同的變異率,也就是存在着一個分子鐘。這種算法得到的進化樹相對來說不是很準確,2013年已經很少使用。
鄰接法是一個經常被使用的算法,它構建的進化樹相對準確,而且計算快捷。其缺點是序列上的所有位點都被同等對待,而且,所分析的序列的進化距離不能太大。另外,需要特別指出的是對於一些特定多序列對象來說可能沒有任何一個現存算法非常適合它。
可靠性
在距離法中,連鎖聚類方法比較簡單,非加權分組平均法比較實用,當使用的距離數據是來源於多個基因的分析結果時,利用非加權分組平均法能得到可靠的系統發生樹。對於離散特徵分析方法,如果序列趨異程度較小,最大簡約法是一種較好的系統發生樹構建法。但是,在不同世系間進化速率相差較大,並且在進化速率恆定而樹的分支很短的情況下,最大簡約法並不能對一個真正的系統發生樹作出始終一致的判斷。 對於所構建的系統發生樹,統計分析的誤差可能會影響所建樹的可靠性。無論是基於距離的系統發生樹重建方法,還是基於特徵的系統發生樹重建方法,都不能保證一定能夠得到一棵描述比對序列進化歷史的真實的樹。大量的模擬實驗可以比較這些建樹方法的統計可靠性,模擬的結果總結如下:一般地,對於某個數據集,如果用一種方法能推斷出正確的系統發生關係,則用其它流行的方法也能得到較好的結果。但是,如果模擬數據集中序列的變化很大,或不同的分支變化速率不同,則沒有一種方法是十分可靠的。總規則是,用截然不同的距離矩陣法和簡約法分析一個數據集,如果能夠產生相似的系統發生樹,那麼,這樣的樹可以被認為是相當可靠的。 在實際應用中,評價一棵系統發生樹的可靠性,這涉及兩個問題,即整棵樹和它的組成部分(分支)的置信度是多少?這樣得到正確的樹的可能性比隨機選出一棵是正確的樹的可能性大多少?有很多方法解決這兩個問題,自舉法(bootstrapping)的有效重採樣技術已成為解決第一個問題的主要方法,而對兩棵樹進行簡單的參數比較則是解決第二個問題的典型方法。
視頻