Estimarea lungimii ramurii si datarea divergentei: estimari ale erorii in cadrele bayesiene si probabilitatea maxima

Abstract

fundal

Estimarile privind datele de divergenta intre specii imbunatatesc intelegerea noastra asupra proceselor care variaza de la substituirea nucleotidelor la speciatie. Astfel de estimari se bazeaza frecvent pe diferentele genetice moleculare intre specii; prin urmare, se bazeaza pe estimari exacte ale numarului de astfel de diferente (adica substitutii pe sit, masurate ca lungime a ramurilor pe filogenii). Am folosit simulari pentru a determina efectele dimensiunii setului de date, eterogenitatea lungimii ramurilor, adancimea ramurilor si cadrul analitic asupra estimarii lungimii ramurilor pe o gama de lungimi ale ramurilor. Am reanalizat apoi un set de date empiric pentru salamandrele cu pletodontida pentru a determina modul in care estimarea inexacta a lungimii ramurilor poate afecta estimarile datelor de divergenta.

Rezultate

Precizia estimarii lungimii ramurilor a variat cu lungimea ramificatiei, dimensiunea setului de date (atat numarul de taxoni cat si situri), eterogenitatea lungimii ramurilor, adancimea ramurii, complexitatea setului de date si cadrul analitic. Pentru filogeniile simple analizate intr-un cadru Bayesian, ramurile au fost din ce in ce mai putin subestimate pe masura ce lungimea ramurilor a crescut; intr-un cadru de probabilitate maxima, lungimile ramurilor mai mari au fost oarecum supraestimate. Seturi de date mai lungi au imbunatatit estimarile in ambele cadre; cu toate acestea, cand numarul taxonilor a crescut, precizia estimarii pentru ramurile mai adanci a fost mai mica decat pentru ramurile cu varf. Cresterea complexitatii setului de date a produs mai multe ramuri misestimate intr-un cadru bayesian; cu toate acestea, intr-un cadru al ML, mai multe sucursale au fost estimate mai precis.

concluzii

Lungimile sucursalelor sunt evaluate gresit in ambele cadre statistice pentru simulari de seturi de date simple. Cu toate acestea, pentru seturi de date complexe, estimarile de lungime sunt destul de exacte in ML (chiar si pentru seturi de date scurte), in timp ce putine ramuri sunt estimate cu exactitate intr-un cadru bayesian. Reanaliza noastra de date empirice demonstreaza amploarea efectelor misestimarii lungimii ramurilor Bayesiene asupra estimarilor datei divergentei. Deoarece lungimea ramurilor pentru seturi de date empirice poate fi estimata cel mai fiabil intr-un cadru ML atunci cand ramurile sunt <1 substitutie / site si seturi de date sunt ≥1 kb, sugeram ca data de divergenta estimeaza folosind seturi de date, lungimi de ramura si / sau tehnici analitice care caderea acestor parametri trebuie interpretata cu prudenta.

fundal

Unul dintre obiectivele majore ale sistematicii filogenetice este estimarea cu exactitate a datelor de divergenta intre specii si clade [1]. In plus fata de determinarea aparitiei aparitiei speciilor [de exemplu [2]], studiile privind datele de divergenta intr-o serie de taxoni au revolutionat intelegerea proceselor noastre de la substitutia si selectia nucleotidelor [de exemplu [3, 4]] la modele si procese de specializare [de exemplu [5–7]]. Datarea de divergenta a permis investigatorilor sa determine conditiile de mediu care duc la o complexitate biologica crescuta [de exemplu [2]], sa coreleze radiatiile rapide cu colonizarea de noi habitate [de exemplu [8]], sa identifice efectele schimbarilor de mediu asupra speciilor cu diferite istorii de viata [de ex. [5]] si a determina viteza de evolutie si momentul aparitiei virusilor precum Ebola si HIV [de exemplu [9–12]]. free porn mom and son www.bookmarking-online.win Prin urmare,

Estimarile datei divergentei s-au bazat initial pe fosile; cu toate acestea, fosilele sunt neaparat mai tinere decat data divergentei [1]. Cercetarea privind datarea de divergenta moleculara a fost initiata cu propunerea unui ceas molecular [13]. Cercetarile ulterioare au sugerat ca un astfel de model de ceas este incalcat pentru speciile inrudite; cu toate acestea, ceasuri locale pentru gene individuale pot fi aplicate datorita similitudinilor din grupuri in ritmul lor metabolic, timpul de generare, eficienta reparatiei ADN-ului si constrangerile functionale pe genele particulare [4, 14, 15]. De la propunerea initiala a unui ceas molecular s-au inregistrat multe progrese in ceea ce priveste datarea de divergenta. Analizele care permit variatia vitezei in timp (adica metodele de ceas relaxat) variaza de la netezirea vitezei non-parametrice [de exemplu [16]] si probabilitatea penalizata semi-parametrica [de ex. [17]] pentru o probabilitate maxima extrem de parametrica [de exemplu [15, 18, 19]] si Bayesian [de exemplu [12, 20, 21]]. In multe cazuri, astfel de metode au dus la modificari semnificative la datele estimate de divergenta si, in unele cazuri, au contribuit la rezolvarea discrepantelor dintre datele fosile si cele moleculare [de exemplu [22]]. Toate aceste metode de analiza se bazeaza pe estimarea corecta a lungimilor ramurilor (adica numarul mediu de substitutii pe sit).

Subestimarea lungimilor ramurilor poate rezulta din mai multe substitutii necunoscute la unele site-uri [23, 24]. Desi anterior s-a crezut ca mai multe substitutii au loc doar pentru divergente antice, variatia ratelor evolutive pe site-uri datorita unor constrangeri functionale diferite poate produce multiple lovituri chiar si pentru divergente recente [25–27]. Atunci cand punctele de calibrare sunt setate pe noduri mai adanci, ceea ce se intampla adesea datorita disponibilitatii limitate a fosilelor sau a altor date de calibrare, subestimarea numarului de substitutii pe ramura lunga calibrata duce la o rata de substitutie subestimata. Cand aceasta rata este utilizata pentru a estima datele de divergenta pentru nodurile mai putin adanci, pentru care nu au fost subestimate lungimile ramurilor asociate, rata subestimata are ca rezultat noduri care sunt estimate ca fiind mai vechi decat valorile lor reale [28].

Modelele de inlocuire pot fi utilizate pentru a estima substitutiile neobservate; prin urmare, o specificatie exacta a modelului de substitutie joaca un rol esential in estimarea corecta a lungimii ramurilor [28-30]. Specificatia gresita a modelului de substitutie poate rezulta din: (1) estimarea parametrilor insuficienti pentru a se potrivi procesului evolutiv si / sau (2) estimarea incorecta a acestor parametri. Prima problema a fost abordata in mai multe moduri, inclusiv prin incorporarea eterogenitatii de viteza pe situri [26] si printre linii in modelele utilizate in analizele filogenetice [31–34]. Modele mai complexe pot produce estimari ale lungimii ramurilor diferite in comparatie cu modele mai simple pentru acelasi set de date [35]. shawn wolfe gay porn beautywerner.de Cu toate acestea, puterea statistica pentru estimarea parametrilor este limitata de cantitatea de date disponibile, iar adaugarea parametrilor reduce si mai mult aceasta putere [36].

Desi sunt necesare modele adecvate pentru estimarea exacta a lungimii ramurilor, acestea nu ofera nici o garantie a estimarilor exacte. Modelele de inlocuire specifica doar rate relative intre diferite tipuri de substitutii, dar rata medie, absoluta, a substitutiilor / site-ului de-a lungul fiecarei sucursale trebuie sa fie inca estimata din date. Astfel, caracteristicile specifice ale setului de date (de exemplu, lungimea secventei, numarul de taxoni), ramura individuala (de exemplu, lungimea, adancimea de pozitie in arbore) si arborele de ansamblu (de exemplu, variatia lungimilor ramurilor) au toate probabilitatea estimarii lungimii ramurii. Cu toate acestea, efectele acestor variabile, singure si in combinatie, asupra estimarii lungimii ramurilor nu au fost complet explorate.

Am utilizat simulari extinse de date pentru a (1) varia in mod sistematic dimensiunea setului de date, lungimea ramurilor si complexitatea arborelui si (2) a compara lungimile ramurilor estimate cu lungimile ramurilor cunoscute pentru a identifica factorii determinanti ai exactitatii estimarii atat in ​​cadrele bayesiene cat si in probabilitatea maxima. Am examinat estimarile parametrilor modelului pentru toate analizele pentru a cauta efectele confuzive ale specificarii gresite a modelului. In cele din urma, pentru a determina modul in care estimarea inexacta a lungimii ramurilor poate afecta estimarile datelor de divergenta, am reanalizat un set de date empiric pentru salamandrele pletodontide [37, 38], pe baza rezultatelor noastre de simulare care sugereaza conditiile in care estimarile lungimii ramurilor erau cele mai exacte, pentru a determina cum estimarea inexacta a lungimii ramurilor poate afecta estimarile datelor de divergenta.

Rezultate

Estimarea lungimii ramurii Bayesiene

Precizia estimarii lungimii ramurilor a variat cu lungimea ramurilor. Folosind metodele bayesiene pentru a analiza arbori cu 4 taxoni cu lungimi egale ale ramurilor (figura 1), lungimea ramurilor mai lungi a fost subestimata semnificativ, in timp ce lungimea ramurilor scurte a fost semnificativ supraestimata (figura 2). Pentru cele mai lungi ramuri (1,4 substitutii / sit), subestimarea lungimii ramurilor mediane a fost de ~ 30% pentru seturi de date de 1 kb (Figura 2 casute albe). Pentru cele mai scurte ramuri (0,01 substitutii / sit), supraestimarea lungimii ramurilor mediane a fost de ~ 9%. Lungimile ramurilor au fost estimate aproximativ corect in intervalul 0,02-0,4 substitutii / sit. Pentru lungimile ramurilor mai mari de 0,6 substitutii / sit, rata subestimarii lungimii ramurilor a crescut liniar. Sub-esantionarea datelor nu a avut efect asupra acestor rezultate. Pentru a arata intreaga gama de evaluari gresite, subestimarea procentuala pentru toate ramurile este prezentata in figura 2; cu toate acestea, deoarece eroarea intr-o ramura poate duce la eroare intr-o ramura conectata, am examinat si evaluarea gresita a (1) ramurilor individuale si (2) lungimii totale a arborelui. barely legal asian porn blast-wiki.win Mediana si intervalul de evaluare gresita pentru aceste masuri au fost aproape identice cu mediana si intervalul pentru toate cele 400 de ramuri pentru fiecare set de simulari prezentat in figura 2; astfel, o evaluare gresita pentru toate cele 400 de sucursale este indicata pentru aceste si alte cifre. Mediana si intervalul de evaluare gresita pentru aceste masuri au fost aproape identice cu mediana si intervalul pentru toate cele 400 de ramuri pentru fiecare set de simulari prezentat in figura 2; astfel, o evaluare gresita pentru toate cele 400 de sucursale este indicata pentru aceste si alte cifre. Mediana si intervalul de evaluare gresita pentru aceste masuri au fost aproape identice cu mediana si intervalul pentru toate cele 400 de ramuri pentru fiecare set de simulari prezentat in figura 2; astfel, o evaluare gresita pentru toate cele 400 de sucursale este indicata pentru aceste si alte cifre.

figura 1

Exemple de arbori folositi in simulari . (a) Arbori echilibrati cu 4 taxoni cu lungimi egale ale ramurilor utilizate pentru simularile de date de baza. Acest copac prezinta unul dintre cele 11 seturi de ramuri de lungimi diferite. (b) Versiunea necorotata a arborelui in (a) utilizata pentru estimarea lungimii ramurilor. Atunci cand arborele este dezradacinat este clar ca toate ramurile au lungimea egala. (c) Arborii echilibrati cu 8 taxoni cu lungimi egale ale ramurilor utilizate pentru a determina daca estimarea lungimii ramurilor este afectata de (1) adancimea ramurii din copac si (2) de numarul de taxe. (d) Arbori echilibrati cu 4 taxoni cu adancimea egala cu 1 lungime a ramurilor si adancimea 2 ramura jumatate sau dubla lungimea adancimii 1 ramuri. Acesti arbori au fost folositi pentru simulari pentru a determina daca interactiunile dintre lungimile ramurilor afecteaza acuratetea estimarii lungimii ramurilor.

Figura 2

Subestimarea lungimilor ramurilor Bayesiene pentru 4-taxoni . Procentul lungimilor ramurilor a fost subestimat pentru seturi de date de 1 si 10 kb simulate pe arbori cu 4 taxoni cu lungimi de ramura egale (insertie) folosind modelul HKY cu un raport de tranzitie / transversie de 2 si frecvente de baza egale si analizate folosind MrBayes cu un model HKY , parametrii estimat ai modelului si exponential implicit anterior (medie = 0,1) pe lungimile ramurilor. Graficul din caseta arata gama de evaluari gresite pe toate ramurile si simularile; rezultatele au fost identice pentru ramurile individuale si lungimea totala a arborelui.

Efectele dimensiunii setului de date asupra estimarilor lungimii ramurilor Bayesiene

Odata cu cresterea dimensiunii setului de date, scaderea gresita a lungimii ramurilor. O crestere de 10 ori a datelor a redus subestimarea mediana a lungimilor ramurilor de 1,4 substitutii / sit de la 30% la 15%. alexas morgan porn www.romeo-bookmarks.win In mod similar, aceasta crestere a dimensiunii setului de date a redus supraestimarea lungimilor ramurilor de 0,01 substitutie / sit la 1%. (Figura 2 casete gri). Modelul de crestere gresita a lungimii ramurilor cu cresterea lungimilor ramurilor a fost consistent indiferent de dimensiunea setului de date.

Efectele numarului de taxoni si adancimea ramurilor asupra estimarilor lungimii ramurilor Bayesiene

Eroarea in estimarea lungimii ramurilor a crescut odata cu adancimea ramurii. Lungimile ramurilor de adancime 1 din arborele cu 8 taxoni (Figura 3 casete albe si albe) au fost evaluate gresit la rate comparabile cu ramurile de adancime 1 din arborele cu 4 taxoni (Figura 2 casute albe). Cu toate acestea, ramurile de adancime 2 din arborele cu 8 taxoni au fost subestimate la rate semnificativ mai mari pentru lungimile mai lungi ale ramurilor (figura 3 si cutiile gri). Ramurile de 1,4 substitutii / site la adancimea 2 au fost subestimate cu aproximativ 55%, comparativ cu subestimarea de 30% pentru adancimea 1. Modelul unei cresteri liniare a fost consistent pentru ramurile de adancime 1 si adancimea 2, adancimea 2 ramuri avand o panta mai abrupta (Figura 3). Aceste rezultate sugereaza ca pozitia ramurii pe copac afecteaza estimarea lungimii ramurilor; in orice caz, numarul de taxoni din setul de date nu pare sa afecteze estimarea lungimii ramurilor pentru ramuri de aceeasi adancime din copac. Sub-esantionarea datelor nu a avut efect asupra acestor rezultate. In plus, fixarea topologiei arborelui in aceasta analiza nu a afectat nici estimarea lungimii ramurilor mediane (mai putin de 1% diferita de topologia nefixata in toate cazurile), nici variatia estimarilor.

Figura 3

Subestimarea lungimilor ramurilor Bayesiene pentru 8-taxoni . Procentul lungimilor ramurilor a fost subestimat pentru seturi de date de 1 kb simulate pe arbori cu 8 taxoni cu lungimi de ramura egale (insertie) folosind modelul HKY cu un raport de tranzitie / transversie de 2 si frecvente de baza egale si analizate folosind MrBayes cu un model HKY, estimat parametrii modelului si precedentul exponential implicit (mediu = 1/10) pe lungimile ramurilor. Ramurile cu adancimea = 1 si adancimea = 2 (a se vedea insertul) au fost evaluate separat (cutii albe si, respectiv, gri).

Efectele eterogenitatii lungimii ramurilor asupra estimarilor lungimii ramesului Bayesian

Estimarea unei singure ramuri a fost afectata de lungimea celorlalte ramuri din copac. Cand o ramura a copacului avea jumatate din lungimea celorlalte ramuri, lungimea acestei ramuri a fost mai mult subestimata decat se astepta (figura 4). trapped porn fernandohvqg425.jigsy.com In mod similar, atunci cand o ramura a fost dubla fata de celelalte ramuri, lungimea acestei ramuri a fost mai putin subestimata decat se astepta (figura 4). Aceste rezultate sugereaza ca rata de subestimare a lungimilor ramurii „majoritare” exercita o „atragere” a ratei de subestimare a lungimii ramurii „unice”, astfel incat lungimea ramurii unice este subestimata cu o rata mai similara cu rata de subestimare pentru ramurile majoritare din copac. Cu toate acestea, datorita proiectarii studiului nostru,

Figura 4

Subestimarea lungimilor ramurilor Bayesiene pe copaci inegali. Efectele lungimilor inegale ale ramurilor asupra estimarii lungimii ramurilor. Cutiile gri reprezinta subestimarea procentuala a adancimii 2 lungimi de ramura pentru copacii cu 4 taxoni, cu adancimea 2 lungimea ramurii = jumatatea adancimii 1 lungimea ramurii (insert stanga). Cutiile albe reprezinta subestimarea procentuala a adancimii 2 lungimi de ramura pentru copacii cu 4 taxoni, cu adancimea 2 lungimea ramurii = dublul adancimii 1 lungimea ramurii (intrarea dreapta). Latimile ramurilor 2 de adancime erau de subestimat la aceeasi rata ca si adancimea 2 lungimile ramurilor de 8-taxon, seturi de date cu lungimea de ramura egala (subestimarea medie indicata ca cercuri umplute). Adancimea de jumatate de lungime 2 ramuri (cutiile gri) au fost subestimate la o rata semnificativ mai mare decat se preconiza (cercuri umplute). Adancimea dubla de doua ramuri (cutii albe) a fost subestimata intr-un ritm semnificativ mai mic decat cel preconizat (cercuri umplute si extrapoland din tendinta de subestimare (linia de interpolare splina)). Gama de lungimi de ramura de adancime 2 examinate in aceasta analiza a fost determinata de intervalul de lungimi de ramura de adancime 1 examinate in studiul global (0,01-1,4 substitutii / sit).

Rata estimata de subestimare pentru ramurile de adancime 2 pentru aceste simulari cu 4 taxoni a fost derivata din subestimari pentru adancimea 2 ramuri pentru simulari cu 8 taxoni (Figura 4, cercuri umplute). Deoarece ramurile mai scurte au fost estimate mai precis decat ramurile mai lungi (Figura 2), cand ramura de adancime 2 a arborelui de simulare 4-taxon a fost jumatate din lungimea celor patru ramuri de adancime 1, ne-am asteptat ca ramura de adancime 2 sa fie mai putin subestimata decat adancime 1 ramuri in copac. Cu toate acestea, aceasta ramura de adancime de jumatate de lungime a fost de fapt subestimata la o rata similara cu ramurile de adancime 1 ale arborelui 4-taxon, care a fost semnificativ mai mare decat rata de subestimare pentru adancimea 2 ramuri pentru arborele cu 8-taxon cu lungimea ramurii egale (Figura 4 casete gri v. Cercuri umplute). Cand ramura adancimii 2 a fost dubla decat lungimea celor patru ramuri de adancime 1 din arborele de simulare cu 4 taxoni, ramura de adancime 2 a fost subestimata mai mult decat ramurile de adancime 1 din copac, asa cum s-a prevazut; cu toate acestea, ramura de adancime 2 a fost subestimata intr-un ritm semnificativ mai mic decat adancimea 2 ramuri de aceeasi lungime pentru arborele cu 8-taxon-ramura egala cu ramura (Figura 4 casute albe v. cercuri umplute). asian mom son porn andersonzxlk451.xtgem.com

Efectele lungimii ramurilor anterioare asupra estimarilor lungimii ramurilor Bayesiene

Distributia probabilitatii anterioare a afectat si estimarea lungimii ramurilor. Cand am estimat lungimile ramurilor folosind un precedent exponential cu o medie de 1 pentru arborele cu 4 taxoni, majoritatea lungimilor ramurilor au fost supraestimate, cu gradul de supraestimare variind de la 1 la 12% (figura 5a). Pentru ramuri ≤ 0,2 substitutii / site pentru seturile de date HKY cu 4 taxoni, estimarea lungimii ramurilor a fost similara cu exactitate atunci cand a fost utilizata o uniforma anterioara ca atunci cand a fost folosita anterior exponentiala implicita cu media egala cu 0,1. Cu toate acestea, in timp ce ramurile ≥ 0,4 substitutii / sit au fost din ce in ce mai putin subestimate atunci cand s-au utilizat implicit anterior, lungimile ramurilor ≤ 0,8 substitutii / sit au fost estimate aproximativ corect atunci cand se folosea uniforma anterioara (Figura 5b). Cu toate acestea, pentru lungimi de ramura> 0,8 substitutii / site, subestimarea a crescut liniar si mai rapid decat in ​​cazul prealabilului. In consecinta, ramurile de 1,4 substitutii / sit au fost subestimate cu aproximativ 35% (Figura 5b), ceea ce este putin mai mare decat subestimarea pentru aceleasi lungimi de ramura atunci cand utilizati valoarea implicita anterior (30%; Figura 2). Rezultatele arborilor cu 8 taxoni au fost similare; Rezultatele adancimii 1 folosind o uniforma anterioara au fost comparabile cu rezultatele la 4 taxoni, iar adancimea 2 ramuri ≥ 0,8 substitutii / site au fost subestimate la o rata mai mare decat adancimea 1, asa cum era de asteptat din simularile anterioare cu 8 taxon. Rezultatele arborilor cu 8 taxoni au fost similare; Rezultatele adancimii 1 folosind o uniforma anterioara au fost comparabile cu rezultatele la 4 taxoni, iar adancimea 2 ramuri ≥ 0,8 substitutii / site au fost subestimate la o rata mai mare decat adancimea 1, asa cum era de asteptat din simularile anterioare cu 8 taxon. Rezultatele arborilor cu 8 taxoni au fost similare; Rezultatele adancimii 1 folosind o uniforma anterioara au fost comparabile cu rezultatele la 4 taxoni, iar adancimea 2 ramuri ≥ 0,8 substitutii / site au fost subestimate la o rata mai mare decat adancimea 1, asa cum era de asteptat din simularile anterioare cu 8 taxon.

Figura 5

Subestimarea lungimilor ramurilor Bayesiene cu diferite primi ale lungimii ramurilor . (a) Procentul in care lungimile ramurilor au fost subestimate pentru seturi de date de 1 kb simulate pe arbori cu 4 taxoni cu lungimi de ramura egale folosind modelul HKY cu un raport de tranzitie / transversie de 2 si frecvente de baza egale si analizate folosind MrBayes cu un exponential anterior pe ramura lungimi medii = 1. (b) Identica cu (a), dar analizata cu un precedent uniform pe lungimile ramurilor (limitele 0-1).

Estimarea parametrilor si estimarea lungimii ramurilor Bayesiene

Subestimarea lungimii ramurilor a fost corelata cu subestimarea parametrilor modelului de substitutie, calculata ca kappa (raportul de tranzitie / transversie scalat de frecventele de baza) (coeficientul de corelatie Pearson = 0,343; P <0,0001). Un raport de tranzitie / tranzitie de doua, de doua ori mai multe tranzitii posibile decat transversiile si frecvente de baza egale rezulta intr-un kappa de patru. Folosind anterior exponential implicit cu media egala cu 0.1 cu seturi de date de 1 kb, kappa a fost estimata a fi ~ 4 pentru lungimile ramurilor ≤ 0,4 substitutii / site (Figura 6 casete albe). annellise croft porn zenwriting.net Pentru lungimile ramurilor ≥ 0,6, estimarea kappa a scazut treptat la 2 pentru lungimile ramurilor de 1,4 substitutii / sit (Figura 6 casete albe). Estimarea parametrilor a fost semnificativ mai buna cu seturi de date mai mari, cu valoarea estimata a kappa pentru seturi de date de 10 kb corecti pentru lungimile ramurilor ≤ 0,8 si scazand doar la 3 pentru lungimile ramurilor de 1,4 substitutii / site atunci cand se utilizeaza anterior (Figura 6 casete gri deschis). In schimb, atunci cand se utilizeaza un anterior exponential cu media egala cu 1, kappa a fost estimata a fi> 4 pentru lungimile ramurilor> 0,6, cu cea mai mare cappa la lungimile ramificatiei de 1 substitutie / situs, scazand la kappa = 4 pentru lungimile ramurilor de 1,4. substitutii / site (Figura 6 casute gri inchis). Cu un precedent uniform, kappa a fost aproape identic cu kappa pentru precedentul exponential implicit. 6, cu cel mai mare kappa la lungimile ramurilor de 1 substitutie / situs, scazand la kappa = 4 pentru lungimile ramurilor de 1,4 substitutii / sit (Figura 6 casute gri inchis). Cu un precedent uniform, kappa a fost aproape identic cu kappa pentru precedentul exponential implicit. 6, cu cel mai mare kappa la lungimile ramurilor de 1 substitutie / situs, scazand la kappa = 4 pentru lungimile ramurilor de 1,4 substitutii / sit (Figura 6 casute gri inchis). Cu un precedent uniform, kappa a fost aproape identic cu kappa pentru precedentul exponential implicit.

Figura 6

Estimari ale parametrilor in analiza bayesiana . Raportul estimat de tranzitie: rata de tranzitie (kappa) in functie de lungimea ramurii. Kappa folosita pentru simulari a fost 4 (tranzitie: transversie = 2, frecvente de baza egale, de doua ori mai multe tranzitii decat transversii). Kappa a fost estimat din datele dintr-un cadru bayesian folosind MrBayes cu lungimea de ramura exponentiala implicita anterior (medie = 0,1) pentru seturi de date cu 4 taxoni, cu ramuri egale, HKY 1 kb (cutii albe); cu lungimea de ramura exponentiala implicita anterioara pentru seturi de date cu 4 taxoni, cu ramuri egale, cu HKY 10 kb (cutii gri); si cu o lungime de ramura exponentiala anterioara a mediei = 1 pentru 4-taxon, lungimea ramurii egale, seturi de date HKY 1 kb (cutii gri inchis).

Lungimea ramurilor bayesiene estimeaza in conditii empirice

Cele patru seturi de 100 de seturi de date simulate cu modele de substitutie estimate si lungimi de ramura pe filogenia de salamander cu 27 de taxoni au produs variatii inexacte, dar in general slabe ale lungimii ramurilor. Dintre cele 51 de ramuri estimate, lungimile a doar cinci ramuri pentru atp6 , sapte ramuri pentru cob , 32 ramuri pentru cox3si 38 de ramuri pentru a 3-a pozitie a codonului au fost estimate la 10% din lungimea adevarata a ramurilor (Figura 7). Rezultatele au fost similare atunci cand lungimile ramurilor au fost randomizate pe copac, ceea ce sugereaza nicio interactiune intre lungimea ramurilor si pozitia lor pe copac. ashley massaro porn engawa.kakaku.com Acest lucru contrasteaza cu rezultatele pentru simularile HKY cu 4 si 8 taxoni, care au aratat un efect clar al adancimii ramurii. Ramurile mai lungi (≥ 0,3) au fost subestimate la procente de 20-30% pentru atp6 si cob , iar la rate de 5-20% pentru cox3 si a 3-a pozitie (figura 7). Ramurile mai scurte (0,1-0,3) au fost subestimate la rate aproape aceleasi ca cele pentru ramurile lungi – 10-25% pentru atp6 si cob si 0-10% pentru cox3si a 3-a pozitie a codonului (Figura 7). Acest rezultat contrasteaza cu rezultatele pentru simularile HKY cu 4 si 8 taxoni, pentru care astfel de lungimi de ramura au fost estimate aproape corect.

Figura 7

Subestimarea lungimilor ramurilor Bayesiene folosind parametrii empirici . Procentul lungimilor ramurilor a fost subestimat pentru datele simulate folosind parametrii empirici pentru genele mitocondriale atp6 , cob si cox3 , precum si a 3-a pozitie codon pentru toate cele 13 gene de codificare a proteinei mitocondriale pe filogenia salamanderului pletodontid din Mueller et al. (2004). Datele au fost analizate intr-un cadru Bayesian folosind MrBayes pentru a determina efectele lungimilor ramurilor inegale, biologice realiste, asupra estimarii lungimii ramurilor. Pentru claritate, este prezentata doar subestimarea medie pentru fiecare ramura din simulari.

In comparatie cu simularile HKY cu lungime de ramura egala cu 4- si 8-taxon, lungimile ramurilor lungi au fost semnificativ mai putin subestimate si lungimile ramurilor mai scurte au fost semnificativ mai putin subestimate. Atat subestimarea mai scazuta decat era de asteptat a ramurilor lungi, precum si subestimarea mai mare decat cea asteptata a ramurilor scurte sunt in concordanta cu rezultatele anterioare ale heterogenitatii ramurilor in acest studiu. In simularile simple cu o ramura lunga, prezenta ramurilor mai scurte parea sa produca o estimare mai precisa a ramurii mai lungi. In mod similar, in simularile simple cu o ramura scurta, prezenta ramurilor mai lungi parea sa produca o estimare mai putin precisa a ramurii mai scurte.

Frecventele de baza au fost estimate cu exactitate pentru toate aceste analize. Parametrul formei gamma si proportia de site-uri invariante au fost ambele supraestimate semnificativ pentru toate analizele; cu toate acestea, acest tipar este probabil rezultatul unor site-uri carora li s-a atribuit o rata de substitutie foarte scazuta in simularile care nu experimenteaza substitutii. Astfel de site-uri ar fi fost calculate in proportie de site-uri invariante, crescand astfel aceasta estimare. turkish porn stars www.webclap.com In mod similar, astfel de site-uri nu ar fi fost luate in calcul la estimarea formei distributiei gama. In consecinta, parametrul de forma ar fi estimat ca fiind mai mare decat parametrul utilizat in simulari. Aceste doua modificari se compenseaza probabil unul pe celalalt, obtinand o aproximare rezonabila a eterogenitatii ratei dintre sit si au un impact minim asupra estimarilor lungimii ramurilor. Cei sase parametri ai matricei r au fost de pana la 26% supraestimat sau subestimat pentru cele trei gene; cu toate acestea, eroarea pentru patru din cei cinci parametri estimate pentru a 3-a pozitie a codonului a variat intre 9-99%. Parametrul final al matricei r a fost simulat ca fiind zero, dar estimat la 0,127.

Estimarea lungimii ramurilor folosind probabilitatea maxima

Efectele lungimii ramurilor

Pentru seturi de date cu 4 taxe, lungimile ramurilor ≤ 0,6 substitutii / sit au fost estimate cu exactitate pentru seturi de date de 1 kb. Cu toate acestea, pentru lungimile ramurilor ≥ 0,8 substitutii / sit, lungimile au fost din ce in ce mai supraestimate (Figura 8 casute albe). Pentru lungimile ramurilor de 1,4 substitutii / sit, supraestimarea mediana a fost de 15%. Acest rezultat contrasteaza cu rezultatele bayesiene, pentru care lungimea ramurilor mai lungi a fost subestimata semnificativ. Ca si in cadrul bayesian, lungimile ramurilor au fost estimate mai precis pentru seturi de date mai lungi (10 kb), cu o subestimare mediana pentru lungimile ramurilor de 1,4 substitutii / sit de doar 1% (Figura 8 casete gri).

Figura 8

Subestimarea lungimilor ramurilor ML pentru arborii cu 4 taxoni . Procentul pe care lungimile ramurilor au fost subestimate pentru seturi de date de 1 si 10 kb simulate pe arbori cu 4 taxoni cu lungimi de ramura egale folosind modelul HKY cu un raport de tranzitie / transversie de 2 si frecvente de baza egale si analizate utilizand probabilitatea maxima cu parametrii estimat din date . Aceasta analiza este echivalenta cu cea din figura 2, dar realizata folosind un cadru ML; consultati figura 2 pentru topologia simularii.

Efectele de adancime ale ramurilor

Lungimile ramurilor adancime 2 pentru seturi de date cu 8 taxon 1 kb (Figura 9a cutiile gri) au fost supraestimate mai mult decat lungimea ramurilor de adancime 1 pentru seturi de date cu 4- sau 8 taxon; supraestimarea mediana pentru adancimea a 2 ramuri de 1,2 si 1,4 substitutii / sit a fost de ~ 30%. Estimarile adancimii 1 a ramurilor pentru seturi de date cu 8-taxon 1 kb (Figura 9a cutii albe) au fost putin mai bune decat pentru seturile de date cu 4 taxon 1 kb (Figura 8 casete albe); acest rezultat contrasteaza cu rezultatele bayesiene, in care eroarea de estimare a lungimii ramurii de adancime a fost consistenta, indiferent de numarul de taxoni. Rezultatele ML au fost din nou semnificativ imbunatatite prin adaugarea de date; pentru seturi de date de 10 kb, ramurile de adancime 1 au fost estimate cu acuratete (Figura 9b casute albe) si adancimea 2 ramuri au fost supraestimate cu <4% (Figura 9b casute gri). bat pony porn monitor.bravesite.ru

Figura 9

Subestimarea lungimilor ramurilor ML pentru arbori cu 8 taxoni. Procentul lungimilor ramurilor a fost subestimat pentru seturi de date simulate pe arbori cu 8 taxoni cu lungimi de ramura egale folosind modelul HKY cu un raport de tranzitie / transversie de 2 si frecvente de baza egale si analizate utilizand probabilitatea maxima cu parametrii estimati din date. Adancimea 1 si adancimea 2 ramuri au fost grapati separat (cutii albe si, respectiv, gri. Aceasta analiza este echivalenta cu cea din figura 3, dar realizata folosind un cadru ML; consultati figura 3 din topologia de simulare. (A) seturi de date de 1 kb ; (b) seturi de date de 10 kb. Valorile exterioare (neprezentate) pentru adancimea de 2 ramuri de 1,2 substitutii / sit pentru 1 set de date de 1 kb au fost supraestimate pana la 30 000% (subestimate negativ) si au fost supraestimate pana la 50,000% pentru lungimile ramurilor de 1,4 substitutii / site-ul.

Efectele eterogeneitatii lungimii ramurilor

Dublarea sau reducerea la jumatate a lungimii ramurii de adancime 2 a unui arbore cu 4 taxoni (figura 4 insertii) nu a avut niciun efect asupra estimarii lungimii ramurii de adancime 1. Cu toate acestea, pentru ramurile mai lungi (≥0,7 substitutii / sit), estimarile de lungime a ramurilor de adancime 2 au fost afectate de gradul de evaluare gresita a lungimii ramurii „majoritare” (1,4 substitutii / sit); in aceste cazuri, cand adancimea 2 a ramurii a fost redusa la jumatate, lungimea acesteia a fost mai mult supraestimata decat se astepta, pe baza rezultatelor de 8-taxon adancimea 2 (Figura 10 casute gri si cercuri umplute). In schimb, atunci cand lungimea ramurii adancimii 2 a fost dublata, a fost mai putin supraestimata decat se astepta, pe baza rezultatelor adancite cu 8-taxon 2 pentru ramuri mai lungi (≥1.2 substitutii / site) (Figura 10 casute albe si cercuri umplute). Aceste rezultate sugereaza ca rata supraestimarii pentru lungimile majoritatii ramurilor exercita un “

Figura 10

Subestimarea lungimilor ramurilor ML pe arborii inegali ai lungimii ramurilor. Efectele lungimilor inegale ale ramurilor asupra estimarii lungimii ramurilor intr-un cadru de probabilitate maxima. Rezultatele sunt reprezentate ca pentru figura 4. Cutiile gri reprezinta subestimarea procentuala a adancimii 2 lungimi de ramura pentru arbori cu 4 taxoni cu adancimea 2 lungimea ramurii = jumatatea adancimii 1 ramificatie. Cutiile albe reprezinta subestimarea procentuala a adancimii 2 lungimi de ramura pentru copacii cu 4 taxoni cu adancimea 2 lungimea ramurii = dublul adancimii 1 lungime a ramurilor (valorile de pana la -30000% pentru ramurile de 1,4 substitutii / site nu sunt afisate pentru claritate) . Latimile ramurilor de la adancimea 2 ar trebui sa fie subestimate la aceeasi rata ca si adancimea 2 lungimile ramurilor a 8 seturi de date cu 8-taxon-lungime egala a ramurilor (subestimarea medie indicata ca cercuri umplute). underlust porn spark-wiki.win Adancimea de jumatate de lungime 2 ramuri (cutiile gri) au fost, in general, supraestimate (negativ subestimate) la o rata mai mare decat se astepta (cercuri umplute). Adancimea dubla de doua ramuri (cutii albe) au fost supraestimate la o rata mai mica decat se astepta (cercuri umplute si extrapoland din tendinta de subestimare (linia de interpolare splina)).

Efectele estimarii parametrilor asupra estimarilor lungimii ramurilor de probabilitate maxima

Atunci cand parametrii au fost fixati la cei care se potrivesc modelului de substitutie utilizat pentru simulari, lungimile adancimii 1 ramuri pentru arbori 4 si 8 taxon au fost estimate corect pentru toate dimensiunile setului de date (rezultatele 4-taxon nu se arata; figura 11). Cu toate acestea, chiar si atunci cand valorile parametrilor au fost fixate la modelul de substitutie de simulare, lungimile adancimii 2 ramuri au fost supraestimate cu 10-16% pentru cele trei lungimi mai lungi ale ramurilor pentru 1 kb 8 seturi de date cu taxon (Figura 11). O astfel de eroare a fost jumatate din cea obtinuta la estimarea parametrilor modelului. Din nou, rezultatele au fost imbunatatite semnificativ odata cu adaugarea de date; atat lungimile ramurilor cat si adancimea 1 si adancimea 2 au fost estimate in toate cazurile pentru seturi de date de 10 kb (rezultatele nu sunt prezentate). Astfel, evaluarea gresita a parametrilor modelului contribuie la evaluarea gresita a lungimii ramurilor pentru unele combinatii de prelevare de taxon, lungimea ramurilor,

Figura 11

Subestimarea lungimilor ramurilor ML cu parametri fixi . Procentul in care lungimile ramurilor au fost subestimate pentru seturi de date de 1 kb simulate pe arbori cu 8 taxoni cu lungimi de ramura egale folosind modelul HKY cu un raport de tranzitie / transversie de 2 si frecvente de baza egale si analizate folosind probabilitatea maxima cu parametrii modelului fix, adancimea 1 si adancimea 2 ramuri sunt afisate separat (cutii albe si respectiv gri). Cercurile deschise sunt mai mari.

Cand parametrii modelului nu au fost fixati, estimarea mediana a kappa a fost corecta pentru seturile de date cu 4 taxoni pentru lungimile ramurilor ≤ 1,2 substitutii / site, dar supraestimate (kappa = 4,8) pentru lungimile ramurilor de 1,4, cu o gama larga de estimari pe 1 kb seturi de date simulate (Figura 12 cutii albe). Estimarile parametrilor au fost imbunatatite in mod semnificativ prin adaugarea de date, cu estimari medii corecte de kappa pentru seturi de date de 10 kb pentru toate lungimile ramurilor (Figura 12 casute gri deschis). Adaugarea taxonilor a dus, de asemenea, la estimari medii corecte pentru kappa pentru toate lungimile ramurilor, cu o gama mai mica de estimari de kappa in toate simularile, comparativ cu seturile de date cu 4 taxoni de 1 kb (Figura 12 casute gri inchis). Supraestimarea kappa a fost corelata cu supraestimarea lungimii ramurilor de adancime 1 in analizele ML (coeficientul de corelatie al lui Pearson = 0,826; P <0,0001). In rezumat, atat rezultatele parametrilor fixe, cat si cele nefixate sugereaza ca eroarea in estimarea parametrilor modelului contribuie la evaluarea gresita a lungimii ramurilor in unele simulari simple.

Figura 12

Estimari ale parametrilor in analiza ML . Tranzitia estimata: raportul ratei de transversie (kappa) reprezentat in raport cu lungimea ramurii Kappa a fost estimat din datele dintr-un cadru ML folosind PAUP * pentru seturi de date HKY cu 4-taxon-ramura egala cu 1 si 10 kb si pentru seturi de date cu 8-taxon de 1 kb. doki doki literature club monika porn diigo.com Kappa folosita pentru simulari a fost 4 (tranzitie: transversie = 2, frecvente de baza egale, de doua ori mai multe tranzitii decat transversii). Aceasta analiza este echivalenta cu cea din figura 6, dar realizata folosind un cadru ML.

Probabilitatea maxima estimarea lungimii ramurilor in conditii empirice

Patruzeci si trei din 51 (84%) estimari ale lungimii ramurilor pentru datele simulate cu filogenia de salamandru cu 27 de taxoni pentru atp6 si cob au fost in limita a 5% din lungimea adevarata a ramurilor (Figura 13). Cand lungimile ramurilor au fost randomizate pe arbore, 43 si 41 estimari pentru atp6 si , respectiv, cob , au fost de 5% din lungimea adevarata a ramurii. Toate cele doua ramuri, care au fost evaluate gresit cu> 5% pentru aceste gene au fost mai mici decat 0,2 substitutii / sit (Figura 13). Pentru cox3, estimarile de lungime pentru 43 din 51 de sucursale s-au situat la 10% din valoarea reala (figura 13). Cand lungimile ramurilor au fost randomizate pe arbore, lungimile 46 de ramuri erau in limitele de 10% din valoarea adevarata. Toate ramurile care au fost misestimate cu> 10% pentru aceasta gena au fost mai mici decat 0,2 substitutie / sit (Figura 13). Pentru a 3-a pozitie a codonului, estimarile de lungime pentru 47 din 51 de ramuri s-au situat la 5% din valoarea adevarata (Figura 13); rezultatele au fost identice atunci cand lungimile ramurilor au fost randomizate pe arbore. Toate ramurile care au fost evaluate gresit cu> 5% au fost mai scurte decat 0,1 substitutie / sit (Figura 13). In general, estimarile lungimii ramurilor ML, chiar si pentru lungime (> 0,3 substitutii / sit), ramuri profunde, au fost relativ exacte pentru toate cele trei gene. Chiar cox3, care are doar 472 de baze variabile, efectuate relativ bine pe toate ramurile, cu exceptia celor mai scurte; cu toate acestea, lungimea acestei gene poate reprezenta rata de eroare mai mare in comparatie cu celelalte partitii.

Figura 13

Subestimarea lungimilor ramurilor ML folosind parametrii empirici . Procentul lungimilor ramurilor a fost subestimat pentru datele simulate folosind parametrii empirici pentru genele mitocondriale atp6 , cob si cox3 , precum si a 3-a pozitie de codon pentru cele 13 gene de codificare a proteinei mitocondriale pe filogenia salamanderului pletodontid din Mueller et al. (2004). Datele au fost analizate intr-un cadru ML folosind PAUP * pentru a determina efectele lungimilor ramurilor inegale, biologice realiste, asupra estimarii lungimii ramurilor. homemade daughter porn penzu.com Pentru claritate, este prezentata doar subestimarea medie pentru fiecare ramura din simulari. Aceasta analiza este echivalenta cu cea din figura 7, dar realizata folosind un cadru ML.

La fel ca in analiza bayesiana, frecventele de baza au fost estimate cu exactitate pentru toate partitiile. Cei sase parametri ai matricei r au fost evaluati gresit cu 1-3% pentru atp6 , 7,5-17% pentru cob , 13,6-30% pentru cox3, si 1-4% pentru cei patru parametri de pozitie a codonului 3 de zero (parametrul ramas a fost estimat la 0.01223 si nu 0). Ca si in analiza bayesiana, parametrul de forma gamma si proportia de site-uri invariante au fost ambele supraestimate semnificativ pentru toate analizele. Astfel, la fel ca in cazul simularilor simple, lungimile ramurilor pareau a fi estimate cel mai exact atunci cand parametrii au fost estimate cu exactitate. In mod surprinzator, cand valorile parametrilor au fost specificate pentru a elimina efectele potentiale ale evaluarii gresite a parametrilor, rezultatele au fost similare sau mai slabe decat atunci cand au fost estimati parametrii. Cele patruzeci si unu, 31 si 48 estimari ale lungimii ramurilor pentru pozitiile atp6, cob si, respectiv, al 3-lea codon, erau in 5% din lungimea adevarata a ramurilor; 41 estimari de lungime pentru cox3 se aflau la 10% din valoarea adevarata.

Efectele lungimilor eronate ale ramurilor asupra datarii divergente

Deoarece estimarile de probabilitate maxima a lungimilor ramurilor pentru datele „salamanderului” simulate au fost aproape identice cu adevaratele lungimi ale ramurilor, in timp ce estimarile lungimii bayesiene au fost subestimate semnificativ, am utilizat o medie ponderata a estimarilor lungimii ramurilor ML pentru a reestima datele de divergenta pletodontida in r8s . Datele de divergenta estimate de Mueller [37] folosind lungimile ramurilor Bayesiene sunt prezentate in figura 14a, iar datele de divergenta estimate din acest studiu sunt prezentate in figura 14b. Nodurile recente au fost estimate ca fiind mai tinere decat a sugerat de Mueller [37] cu pana la 20%, in timp ce nodurile mai vechi au fost estimate ca mai vechi cu pana la 7%.

Figura 14

Modificarea estimarilor datei divergentei pentru salamandrele pletodontide dupa re-estimarea lungimilor ramurilor folosind ML . (a) Datele de divergenta pentru salamandrele pletodontide estimate de Mueller (2006) folosind probabilitatea penalizata, cu lungimea ramurilor estimata folosind un cadru bayesian. (b) Datele de divergenta estimate in acest studiu folosind probabilitatea penalizata, cu lungimile ramurilor estimate cu ML. Datele italicizate au fost estimate ca fiind mai tinere decat in ​​analiza initiala. incest captions porn india77.com Datele care nu sunt italicizate au fost estimate la aceeasi varsta sau mai mari decat in ​​analiza initiala.

Discutie

Compararea rezultatelor Bayesian si ML

Rezultatele noastre de simulare cu 4 si 8 taxon sugereaza ca, chiar si pentru copacii extrem de simpli, lungimile ramurilor Bayesiene sunt gresite; doar o gama mica de lungimi de ramura este estimata corect. Deasupra acestui interval, lungimile ramurilor sunt subestimate progresiv, odata cu cresterea lungimii ramurilor; sub acest interval, lungimile ramurilor sunt supraevaluate progresiv. Cresterea subestimarii odata cu cresterea lungimii ramurilor este in concordanta cu efectele asteptate ale saturatiei site-ului – mai multe accesari sunt considerate inlocuitori unici. In plus, distributia anterioara a lungimilor ramurilor afecteaza estimarea lungimii ramurilor. Aceste rezultate par a intra in conflict cu lucrarile anterioare care sugereaza ca lungimile ramurilor Bayesiene sunt estimate corect daca nu modelul este sub- sau supra-parametrisat [39, 40]. In orice caz,

Spre deosebire de rezultatele noastre Bayesiene, majoritatea estimarilor lungimii ramurilor ML sunt destul de exacte pentru seturi de date simple, desi unele ramuri mai mari de adancime sunt supraestimate. Stabilirea gresita a ML a lungimilor ramurilor produce erori diferite decat cele produse intr-un cadru bayesian; in ML, ramurile lungi sunt supraestimate, in timp ce intr-un cadru bayesian, ramurile lungi sunt subestimate si ramurile scurte sunt supraestimate. Rezultatele ML sunt in contradictie cu asteptarea ca lungimile mai lungi ale ramurilor sa fie subestimate din cauza accesarilor multiple considerate ca inlocuitori unice. Atat in ​​analizele bayesiene cat si in cele ale ML, adancimea ramurilor a avut un impact semnificativ asupra exactitatii estimarii; ramurile mai adanci, asa cum era de asteptat, au fost mai gresite decat ramurile cu varf.

Efectele evaluarii gresite a parametrilor modelului

Subestimarea in lungime a ramurilor Bayesiene este explicata, partial, prin contabilizarea mai multor substitutii la unele site-uri. Modelele de inlocuire pot sugera prezenta unora dintre aceste substitutii; cu toate acestea, daca modelul insusi este evaluat gresit, multe substitutii vor fi nedetectate. In analizele bayesiene, kappa a fost din ce in ce mai putin subestimata pe masura ce lungimea ramurilor a crescut, probabil din cauza substitutiilor multiple, neobservate pe unele site-uri. Pentru lungimi mai lungi ale ramurilor, frecventa mai mare a tranzitiilor decat tranzitiile creste probabilitatea ca un site sa fi experimentat doua tranzitii, deduse ca una, in timp ce un site cu o tranzitie are o singura substitutie. Astfel, pe masura ce lungimile ramurilor cresc, raportul de tranzitie / transversie scade, iar lungimile ramurilor sunt subestimate. Cu seturi de date mai mari, estimarile parametrilor si lungimea ramurilor s-au imbunatatit, asa cum era de asteptat [41]. daddys little girl porn www.usagitoissho02.net Cu toate acestea, deoarece nu este posibil sa se specifice parametrii adevarati in MrBayes, nu a fost efectuata o cuantificare explicita a evaluarii gresite a parametrilor.

In timp ce lungimile ramurilor sunt estimate in general corect in ML, lungimile ramurilor lungi sunt supraestimate in seturi de date simulate simple, probabil si din cauza evaluarii gresite a parametrilor modelului. Kappa a fost din ce in ce mai mult supraestimat pe masura ce lungimile ramurilor au crescut, ceea ce a dus la supraestimarea numarului de tranzitii si substitutii totale. Motivele supraestimarii kappa nu sunt clare. Parametrii modelului sunt estimate corect pentru o gama mai larga de lungimi de ramura in ML decat in ​​analizele bayesiene; acest lucru poate explica, cel putin partial, performanta superioara a ML la majoritatea lungimilor / adancimilor ramurii. Cu toate acestea, chiar si atunci cand parametrii sunt fixati in analizele ML ale seturilor de date simple simulate, lungimile ramurilor lungi si adanci sunt supraestimate in mod semnificativ, ceea ce sugereaza ca eroarea ramane in estimarea lungimii ramurilor ML pentru unele combinatii de lungime a ramurilor, adancimea ramurilor,

Efectele priorilor in analizele bayesiene

In analizele bayesiene, lungimea ramurii a afectat, de asemenea, estimarile lungimii ramurilor. Impacturile exponentiale implicite anterioare cu media a 0,1 asteptarilor potrivite: lungimile ramurilor mai mari decat media distributiei anterioare au fost subestimate, iar lungimile ramurilor mai mici decat media anterioara au fost supraestimate. Astfel, am prezis impacturi similare pentru o anterioara exponentiala cu media de 1: lungimi de ramura supraestimate <1 substitutii / site, lungimi ramificate subestimate> 1 substitutii / sit si estimare corecta a lungimilor ramurilor ≈ 1 substitutie / sit. Cele mai scurte lungimi ale ramurilor au fost supraestimate, asa cum s-a prevazut. Pe masura ce lungimile ramurilor au crescut fata de media anterioara, acestea au fost initial mai putin supraestimate, asa cum era de asteptat. Cu toate acestea, pe masura ce lungimile ramurilor se apropiau de media anterioara, lungimile ramurilor au ramas supraestimate, spre deosebire de asteptare. Pentru a evalua in continuare aceasta supraestimare neprevazuta, am repetat aceasta analiza folosind o lungime a ramurilor anterior cu o medie de 1,4. La fel ca in medie 1, toate lungimile ramurilor au fost supraestimate, cu lungimile ramurilor scurte estimate aproape corect, iar lungimile ramurilor mai mari supraestimate cu 1-20% (rezultatele nu sunt prezentate). In aceste cazuri nu este clar de ce efectele lungimii ramurilor anterioare sunt imprevizibile si, in general, duc la supraestimarea lungimilor ramurilor.

Cand s-a utilizat un precedent uniform in analize, lungimile ramurilor au fost, in general, estimate corect in limitele distributiei (de la zero la unu), desi la marginile distributiei, lungimile scurte ale ramurilor au fost supraestimate si lungimile ramurilor lungi au fost subestimate. Astfel, priorul a contribuit putin la distributia posterioara. black family porn wiki-planet.win Pe masura ce lungimile ramurilor au crescut (peste distributia anterioara), subestimarea a crescut, in concordanta cu asteptarea si cu rezultatele exponentiale medii scazute. Lungimile mai lungi ale ramurilor au fost mai mult subestimate sub o uniforma anterioara decat sub o anterioara exponentiala, in concordanta cu probabilitatea lor mai mica sub o anterioara uniforma decat cea exponentiala. Acest rezultat sugereaza ca o prioritate uniforma poate afecta distributia posterioara daca limitele anterioare nu cuprind intervalul lungimilor adevarate ale ramurilor.

Efectele complexitatii setului de date

La prima vedere, rezultatele obtinute din simularile noastre cu 4- si 8 taxoni pe arbori ultrametrici cu lungimi de ramura egale sugereaza modele predictibile de misestimare pentru ramuri la adancimi multiple, atat pentru analize Bayesiene cat si pentru ML. Cu toate acestea, astfel de tipare dispar cu chiar o crestere marginala a complexitatii arborilor; prezenta unei ramuri de lungime diferita afecteaza substantial evaluarea gresita. In general, rezultatele noastre simple de simulare implica faptul ca (1) exista o eroare in estimarea lungimii ramurilor, atat dependenta de [30] cat si independenta de evaluarea gresita a parametrilor modelului; (2) eroarea este, in general, mai putin severa intr-un cadru ML; si (3) desi exista efecte sistematice ale adancimii ramurii, lungimii ramurilor si dimensiunii setului de date atunci cand se analizeaza seturi de date simple simulate, o astfel de eroare este imprevizibila atunci cand exista combinatii de lungimi diferite ale ramurilor, cum este cazul datelor empirice. Rezultatele din simularile noastre in care lungimile ramurilor, eterogenitatea lungimii ramurilor, dimensiunea setului de date, parametrii modelului si esantionarea taxonului reflecta datele empirice ale salamandrelor pletodontide sunt in concordanta cu aceasta; evaluarea gresita a lungimii ramurilor in seturi de date mai complexe nu reflecta cu exactitate misestimatia in simple simulari. Cu toate acestea, rezultatele atat pentru simulari simple cat si complexe sunt, in general, consistente atat pentru analizele bayesiene cat si pentru analizele ML.

Pe baza analizelor bayesiene a simularilor simple, eterogene de lungime a ramurilor (figura 4), ne-am asteptat ca (1) rate mari de subestimare pentru ramuri lungi si (2) rate mici de subestimare pentru ramurile scurte sa exercite o „tragere” combinata pe rata generala a subestimarii. Acest proces ar produce ramuri lungi, care au fost mai putin subestimate decat se astepta din simulari simple si ramuri scurte, care au fost mai putin subestimate. Rezultatele unor simulari complexe de “salamandre” au fost in mare masura consecvente cu aceste predictii, cu exceptia unor ramuri foarte scurte, care au fost supraestimate chiar mai mult decat in ​​simple simulari.

Spre deosebire de rezultatele noastre simple de simulare, nu am observat un efect al adancimii ramurii asupra estimarii lungimii ramurilor in simularile noastre „salamandre”; atunci cand lungimile ramurilor au fost randomizate pe copac, ramurile mai lungi nu au fost mai subestimate cu o adancime crescuta. Cu toate acestea, remarcam ca aceasta abordare de randomizare a lungimii ramurilor nu este o evaluare detaliata a acestei probleme in seturi de date mai complexe, deoarece adancimea ramurilor si oportunitatea asociata pentru eroziunea semnalului depind, de asemenea, de lungimea ramurilor mai putin adanci. In concluzie, rezultatele bayesiene din simulari mai realiste sunt, in general, in concordanta cu simulari simple, dar complexitatea seturilor de date produce efecte specifice care nu sunt prezise de la seturi de date simple.

In schimb, seturi de date mai complexe analizate folosind ML au dus la o imbunatatire a estimarii lungimii ramurilor fata de datele simple simulate. Chiar si lungimile estimate ale ramurilor> 1 substitutie / sit (supraestimate drastic in simulari simple) au fost destul de exacte. bara porn nora.biz Desi lungimile ramurilor au fost supraestimate semnificativ pentru ramurile de adancime 2 in simulari simple, o astfel de evaluare gresita a fost aproape absenta in seturi de date mai complexe. Ramurile lungi, estimate mai putin precis in simulari simple, au fost estimate cu exactitate in simulari complexe. Cu toate acestea, ramurile scurte, estimate exact in simulari simple, au fost estimate mai putin precis in simulari complexe. Astfel, la fel ca in rezultatele bayesiene, (1) lungimea ramurilor lungi a fost estimata mai exact decat se astepta, (2) lungimea ramurilor scurte a fost estimata mai putin exact decat se astepta,

Analizele cu 4 si 8 taxoni din acest studiu se bazeaza pe modele simple de substitutie care (1) raman constante intre site-uri si linii si (2) specifica doar cativa parametri care pot fi estimate rezonabil din datele din cel putin unele combinatii intre lungimea ramurii si dimensiunea setului de date (Figurile 6 si 12). In cele mai simple cazuri, evaluarea gresita a parametrului modelului (kappa) este puternic corelata cu evaluarea gresita a lungimii ramurilor. Ne asteptam la un model similar pentru simularile noastre complexe; cu toate acestea, modelarea gresita a modelului nu a avut aproape niciun impact asupra estimarii lungimii ramurilor pentru aceste seturi de date. Cand parametrii au fost stabiliti la valorile lor reale in analizele ML, estimarea lungimii ramurilor nu s-a imbunatatit neaparat; in unele cazuri, a devenit de fapt mai rau. Intr-un cadru bayesian, partitia cu cele mai proaste estimari ale modelului (pozitiile codonului 3) a produs estimari ale lungimii ramurilor relativ exacte in comparatie cu alte partitii cu modele mai bine estimate, desi acest lucru poate reflecta si lungimea creata a setului de date. Luate impreuna, aceste rezultate sugereaza ca, desi eroarea de estimare a lungimii parametrilor si a ramurilor au fost corelate in simulari simple, aceasta corelatie ar fi putut reflecta o singura cauza de baza (cum ar fi date insuficiente pentru a estima oricare dintre parametri), mai degraba decat o relatie cauzativa intre estimarea modelului si ramura estimarea lungimii Astfel, relatia dintre evaluarea gresita a modelului si evaluarea gresita a lungimii ramurilor in seturile de date complexe necesita cercetari suplimentare,

Implicatii pentru colectarea si analiza empirica a datelor

Dimensiunea setului de date

Majoritatea analizelor noastre indica faptul ca dimensiunea crescuta a setului de date duce la estimari imbunatatite ale lungimii ramurilor. Cu toate acestea, potentialul de crestere a dimensiunii seturilor de date empirice pana la punctul in care lungimile ramurilor pot fi estimate chiar si intr-un procent de 10% intr-un cadru Bayesian (de exemplu> 10 kb pentru adancimea 1 lungimea ramurilor> 1,4 substitutii / sit) este limitat. Desi secventierea de generatie viitoare permite colectarea unor cantitati vaste de date, mutatiile se acumuleaza eterogen pe intregul genom. Partitiile setului de date ar trebui sa fie modelate individual pentru a evita eroarea in estimarea filogeniei, reflectand aplicarea unui model mediu de substitutie la procese eterogene multiple [42, 43]. Cand genomul mitocondrial este partitionat de pozitia codonului, cea mai lunga partitie este <3,5 kb, iar majoritatea intronilor nucleari sunt <5 kb; rezultatele noastre sugereaza ca astfel de seturi de date sunt insuficiente pentru a obtine estimari corecte ale lungimii ramurilor Bayesiene. Cu toate acestea, pentru analizele ML, chiar si cea mai scurta baza de date empirica pe care am testat-o ​​(<500 baze variabile) a avut 84% dintre ramuri estimate la 10% din lungimea reala; pentru seturi de date mai mari (516-3638 bp), 84% au fost estimate la 5%.

Cadrul analitic

Rezultatele noastre sugereaza ca eroarea ramane in estimarea lungimii ramurilor, atat dependenta cat si independenta de misestimarea parametrilor modelului de substitutie, date avand dimensiuni de date comparabile cu multe studii empirice. O astfel de eroare apare mai mult in Bayesian decat analizele ML. petit porn oscar-wiki.win Lungimea ramurii afecteaza anterior estimarea topologiei [44, 45]; prin urmare, constatarea noastra ca lungimea ramurii are impact anterior asupra estimarii lungimii ramurii nu este surprinzatoare. Acest studiu este limitat la estimarea lungimilor ramurilor pe o filogenie cunoscuta; nu sugeram ca ML este cea mai precisa metoda de inferenta filogenetica in general. Numeroase alte studii au abordat metode pentru estimarea corecta a filogeniilor [de exemplu [45-47]]. De exemplu, Mar si colab. [45] a sugerat ca inferenta filogenetica intr-un cadru Bayesian poate fi mai robusta decat ML atunci cand exista o variatie semnificativa intre lungimile ramurilor. Cu toate acestea, rezultatele noastre sugereaza ca lungimile ramurilor sunt estimate mai precis folosind ML decat analiza bayesiana.

Implicatii pentru intalnirea cu divergenta

Lucrarile anterioare au aratat ca analizele ML si Bayesiene pot genera estimari de date diferite de divergenta [de exemplu [2, 48]], dar astfel de comparatii nu au sugerat care rezultat este probabil sa fie mai precis. Am constatat ca atat estimarile de lungime a ramurilor ML, cat si cele Bayesiene sunt supuse unei erori, dar estimarile ML sunt mai precise, avand in vedere seturi de date realiste. In plus, cea mai substantiala eroare in analizele ML este asociata cu ramurile scurte, care au un efect mai mic asupra datarii divergentei decat a ramurilor lungi, deoarece varsta fiecarui nod se bazeaza pe adancimea sa din arbore. Cu exceptia studiilor cu prelevare de taxon extrem de densa, adancimea nodului reflecta, in general, suma mai putinor ramuri mai lungi, mai degraba decat numeroase ramuri scurte.

In lumina acestor rezultate, am repetat o analiza bayesiana a datelor de divergenta a salamanderului pletodontid folosind ML. Aceasta reanaliza a avut ca rezultat schimbari semnificative in datele de divergenta: nodurile superficiale au fost estimate ca fiind mai tinere decat s-a sugerat anterior, in timp ce nodurile mai profunde au fost estimate ca fiind putin mai vechi. Acest tipar era de asteptat, deoarece ramurile lungi care au fost subestimate intr-un cadru bayesian au fost corectate, ceea ce a dus la o crestere a numarului estimat de substitutii / sit / milion de ani. In acest caz, calibrarea fosilelor primare a fost fixata pe o ramura lunga; ramurile de lungime similara au fost corectate in acelasi ritm, astfel incat varstele nodurilor mai vechi nu au fost afectate in mod semnificativ de aceasta reanaliza. Cu toate acestea, lungimea ramurilor scurte a fost similara intr-un cadru Bayesian si ML; prin urmare, o crestere a ratei medii de substitutie estimata determina date de divergenta mai tinere pentru nodurile superficiale [28]. Reanaliza noastra demonstreaza amploarea efectelor potentiale ale evaluarii gresite a lungimii ramurilor Bayesiene in estimarile datei divergentei. princess pineapple porn ud-kultura.ru Alte studii care au utilizat, de asemenea, estimari ale lungimii ramurilor Bayesiene intr-o analiza de probabilitate penalizata a datelor de divergenta [49] pot fi inregistrat o eroare similara si sa fie tinte adecvate pentru o reanaliza similara. Cu toate acestea, remarcam faptul ca intervalele substantiale de incredere asociate cu multe estimari de date de divergenta pot sa ajute o mare parte a erorii din estimarile inexacte ale lungimii ramurilor. In plus, remarcam ca multi alti factori, inclusiv datele fosile si instrumentele analitice utilizate, afecteaza acuratetea estimarii datei divergentei [[12, 50, 51], de exemplu [52, 53]].

In sfarsit, au fost propuse diferite metode alternative pentru estimarea datelor de divergenta, care sunt afectate de rezultatele noastre in diferite grade. Alte proceduri de netezire a vitezei [de exemplu [54]] vor fi afectate in mod similar de evaluarea gresita a lungimii ramurilor. Metodele bayesiene, cum ar fi BEAST [55] si multidivtime [20] pot fi de asemenea afectate; BEAST si MrBayes impartasesc algoritmul principal de baza MCMC, care este utilizat pentru a identifica arbori cu probabilitate mare [55]. Cu toate acestea, in BEAST si multidivtime, ratele de substitutie pentru fiecare ramura sunt estimate utilizand o abordare relaxata de ceas, care poate limita efectele supraestimarii ramurilor scurte; deoarece ratele de substitutie se extrag dintr-o distributie, probabilitatea ratelor ridicate pe ramurile scurte este mult redusa. BEAST foloseste, de asemenea, distributii anterioare la noduri si rate de mutatie, mai degraba decat pe lungimile ramurilor.

concluzii

Estimarea datei divergente a fost mult timp unul dintre obiectivele sistematicii filogenetice. Eroarea in estimarea datei divergentei datorata erorii la estimarea lungimii ramurilor poate duce la concluzii defectuoase despre evolutia moleculara si evenimentele istorice de mediu care duc la specializare. In acest studiu, am constatat ca precizia estimarii lungimii ramurilor este afectata de lungimea setului de date, de lungimea ramurii si de celelalte ramuri din copac, de adancimea ramurii si de cadrul statistic in care lungimile ramurilor sunt estimat. Sugeram ca lungimile ramurilor pot fi estimate cel mai fiabil intr-un cadru ML atunci cand ramurile sunt <1 substitutie / site si seturi de date sunt = 1 kb. Estimarile datei divergentei folosind seturi de date, lungimi de ramura si / sau tehnici analitice care nu se incadreaza in acesti parametri trebuie interpretate cu prudenta.