El Lapo Azul. Combinando información sobre mutaciones SNP y STR para obtener conclusiones.

Disclaimer. Aunque tengo un cierto interés en las metodologías asociadas a la genealogía genética no soy experto en éstos temas. Escribo ésta entrada más que nada para aprender.

Desde hace tiempo me pregunto como se puede combinar la información disponible en, por ejemplo, los grupos de FTDNA, sobre haplogrupos (basados en mutaciones SNP) y haplotipos (basados en mutaciones STR) para llegar a conclusiones más o  menos ciertas.

1. Algunos casos teóricos / experimentales curiosos.

Extracto.

As each individual has just one evolutionary path on their patrilineal line, so their SNP-based haplogroup should correlate with their STR-based haplotype, and it does.

Fuente.

Según y como al anterior extracto. Una primera precaución que hay que tomar es que dos individuos pertenecientes a diferentes haplogrupos SNP (por ejemplo H y J), pueden tener el mismo haplotipo STR. En el artículo enlazado hablan de que ésto es posible para 17 marcadores STR y entiendo que se puede ampliar (aunque la frecuencia será menor) a un mayor número de marcadores. Por lo tanto el lector queda advertido: si solo tienes un test STR de pocos marcadores y tienes matches perfectos con otros individuos, ésto no significa necesariamente parentesco: puede ser debido a convergencia aleatoria.

Pero me interesa más el problema inverso: los diferentes clusters de haplotipos STR que aparecen asociados a un mismo subhaplogrupo. ¿ Cómo se puede interpretar éste fenómeno ? Supongamos que un individuo está asignado a un haplogrupo, digamos Z1, en el cual existen diferentes clusters y que de acuerdo a comparaciones STR (de 67 marcadores por ejemplo) se encuentra a una distancia media, digamos de 10 mutaciones de los individuos de un cluster (ésta media se puede obtener calculando la distancia genética de éste individuo con respecto a todos los individuos del cluster y obteniendo la  media arítmetica de las  medias obtenidas) y, de nuevo de media, a otra distancia de 20 mutaciones de los individuos de otro cluster. ¿ Como se pueden interpretar estos datos ?. Yo los interpreto como sigue. En un punto del tiempo se separa un cluster (el de 20 mutaciones) pero el individuo considerado y los individuos del clsuter a distancia 10 siguen constituyendo una misma linea. En un punto posterior del tiempo el ancestro del individuo considerado se ramifica con respecto al ancestro del cluster de distancia 10.

Nota. Este ejemplo es ficticio, pero se aproxima a uno real. Fin de nota.

Extracto.

At this writing (2012), the number of SNPs found has greatly increased, and the rate of their discovery is increasing due, in part, to FTDNA’s “Walk through the Y” program.  We are reaching the point where they are of use to the genealogist, especially in the common haplogroups, as the Y-DNA haplotree turns into a finely divided bush.  For that reason, I now urge that Y-DNA project members,  especially those who are Haplogroup R1b1a2 or I1 — the two most common haplogroups in western Europe — be deep SNP tested and that they continue to test new SNPs as they are discovered.

As the number of people STR tested increases, SNP testing will become important in separating “borderline” STR matches that are merely coincidental, that is, not indicative of real relationship, from ones that do indicate real relationship.  The problem of ambiguous coincidental matches, particularly in Haplogroup R1b1a2, is going to increase as more people are tested.  Thankfully, deep SNP testing gives us a method for detecting them.

The bottom line is that, while SNP testing is not a requirement for participation is a Y-DNA STR surname project, I encourage it because, while I once thought deep SNP testing was merely “interesting,” it has now become actually useful to the genealogist.

Fuente.

Hasta aquí, creo, casi todo evidente. Pero que pasa si ahora tenemos otro haplogrupo, situado a una mutación SNP del anterior, en un nivel del árbol anterior, digamos Z0, y entre los clusters de éste segundo haplogrupo hay uno con el que nuestro individuo se encuentra a una distancia STR media de 5 y otro de 30. Primer pregunta: ¿ Es esta situación teórica posible en la realidad ?. Segunda pregunta: ¿ Si lo fuese que explicación podría tener ?. Diría que no es imposible. Y algunas explicaciones alternativas pueden ser: convergencia aleatoria STR o mutación SNP hacía atrás o puede ser debido a un efecto de muestreo. Ahora lo interesante sería poder pasar de una valoración de posibilidad a una estimación de probabilidad.

¿ Son probables éste tipo de eventos ?. Entiendo que no, aunque sinceramente no lo sé. El caso es que ya he detectado algunos. Por ejemplo, una distancia STR media de un individuo a un cluster de su mismo subclade bastante mayor que la que le separa con respecto otro cluster de otro subclade del mismo haplogrupo, localizado a una distancia del suyo de uno o dos  SNPs, hacía arriba o hacía abajo en el árbol. En general ver ésto me crea una cierta confusión y de momento no tengo muy claro como explicar éste tipo de eventos (salvo las dos explicaciones que ya hemos apuntado), suponiendo que sean reales y no provisionales. Entiendo la convergencia en el caso de un individuo. ¿ Pero una convergencia de dos clusters situados en diferentes subclades, comparando todos los individuos con todos los individuos ?  

Mis presuposiciones, que utilizo para razonar sobre todo ésto (y como ya digo que no soy experto, puedo estar equivocado)  es que en todo árbol debe de haber una coherencia entre los resultados SNP y los resultados STR.

Como regla general, suponiendo que todas las ramificaciones de un linaje se han ido encontrando en entornos similares, cuanto más arriba en el árbol se encuentra un nodo, entiendo que mayor tiene que ser el número de clusters y mayor la distancia media entre ellos.

Las excepciones a ésta regla entiendo que indican que el entorno en el que se han encontrado algunas líneas ha sido o  más favorable (y entonces tendrán más clusters que otros nodos más antiguos y ¿ separados por una mayor distancia ?) o más desfavorables (y entonces tendrán menos clusters y ¿ separados por una menor distancia ?).

Dejo al lector que averigüe si este tipo de razonamiento sirve para explicar los extraños eventos que hemos reseñado. ¿ Como se explica por ejemplo  que en un nodo situado más abajo en el árbol la distancia media entre los clusters sea superior a la de un nodo situado más arriba ?.

Nota. Por otra parte la construcción de clusters por parte de los responsables de los grupos de FTDNA parece a veces una tanto ad-hoc. Entiendo que debería de haber un corte de distancia genética por encima del cual no se puede formar un cluster. Posiblemente no haya un corte natural, pero si se puede marcar uno convencional. Fin de nota.

2. Dataciones.

Además de obtener estimaciones de probabilidades, nos interesa sobre todo obtener dataciones: la genealogía es una ciencia histórica.

Para dataciones genéticas, y ésto ya lo hemos visto en anteriores entradas, la tasa de mutación es clave. Y depende de la potencia de la muestra. Por ejemplo si utilizamos para estimar la tasa de mutaciones SNP, tests de BigY, que son bastante potentes pero no los más potentes posibles (es decir testan bastantes posiciones del cromosoma Y, pero no todas las posiciones) obtenemos una tasa, por ejemplo de 136 años por mutación SNP.  Pero si utilizamos tests de FGC (Full Genomes Corporation) que testa bastante más posiciones (ojo, pese al nombre no testa todas las posibles, sigue siendo una muestra), obtenemos una tasa de mutación SNP bastante más alta: un SNP cada 80-90 años. Casi el doble que el anterior.  Si hemos construido el árbol en base a Big Y tendremos fechas el doble de largas que si lo construimos en base a FGC. En vez de eventos que ocurrieron en el Bronce, hablamos de eventos de tiempos del Imperio Romano. Y para añadir más complicación, también se pueden hacer dataciones en función de las mutaciones STR obteniendo un tercer tipo de resultados. Como este debate en torno a las dataciones genéticas está lejos de haberse resuelto, no nos queda más remedio que, en base a la información disponibles, construir escenarios para las diferentes épocas.

Apéndice: enlaces relevantes.

Una entrada en un foro a la que ya hemos  enlazado en anteriores entradas. Copiamos el comentario que hicimos en su momento con mínimas ediciones.

En este foro comentan sobre una heurística para calcular la fecha  de separación de dos líneas genéticas conocida la distancia genética STR, y hablan concretamente del número de marcadores que nos interesa, 67.

I’m very surprised at the nearest matches you quote for me. Comparing my 67 STR markers they come very far down my “match” list, eg

177000 is only 52/67 GD 15 and

147230 is 50/67, GD 17

(interestingly both these IDs quote the same “oldest known ancestor”, but they have slightly different STR values). 

Y en contestación a ese comentario.

Nearest to you are

N1796 GD 16, ab 1420 years.

7 Sweden GD 8, about 690 years and

217193 England, 97963 Sotland GD 11, ab 950 yearsThey are on the same branch in the phylogenetic tree (Network 4.6.1.0. MJ).

83582 England, 7356 England GD 15, ab 1330 years.

192609 Russia GD 15, ab 1330 years

N15255 England, N15255 England 

Some Finns GD 18-20.

Se confirma por lo tanto, primero, que no consideran éstas distancias genéticas en Y67 (entre 8 y 20) ruido aleatorio sino que piensan en ellas como significativas y segundo que aplican una heurística similar a la señalada: 1 punto de DG STR entre  86 y 88 años. Cuanta más distancia genética, más años.

Comentario añadido: la heurística de 88 años por mutación STR (suponiendo la máxima gradualidad en las mutaciones) encaja con la medida de 90 años por mutación SNP (que también supone la máxima gradualidad).

Una entrada en un foro de genealogía genética en la que un experto explica su metodología para obtener sus tasas de mutación.

Extractos.

To summarize, before the above estimates are further refined based on investigating more families with known genealogies, or based on some new radiocarbon-dated archaeological remains, I would recommend using the above number of 84 years (or the 81-91 range) for each reliable FGC-tested SNP, and 140-150 years for each relaible BigY-tested SNP. And since I know that people frequently use such estimates to calculate the age of a single lineage, I would like to remind all of you that only by testing multiple independent lineages descending from a common ancestor (and calculating the average number of SNPs) one may get a fairy reliable TMRCA estimate. Also, when calculating the age of a specific clade, it is always good to compare it with the age of some sister clades, as it is always possible that a substantially decreased or increased number of mutations at the root of a given clade (due to some random fluctuations) may significantly affect such TMRCA calculation.

Entonces si en un árbol dado se combinan BigY y FGC, ¿ debemos de aplicar alternativamente un intervalo temporal  u otro ?.

Una entrada en un foro de FTDNA dónde comentan sobre las tasas de mutación en base a BigY y en base a FGC.

Extractos.

FGC tests significantly more yDNA locations than Big Y does. And, not surprisingly, FGC’s test results find more SNPs. So their estimate of the SNP rate is a new SNP about every 90 years or so, roughly one every three generations.

–en éste reciente artículo comparan varios métodos de datación.

Título. Evaluating the Y chromosomal STR dating in deep-rooting pedigrees. 

Abstract.

Background

Y chromosomal short tandem repeat (STR) has been used in time estimations for single nucleotide polymorphism (SNP) lineages or eminent persons. But to choose which mutation rate and estimation method in the Y chromosome dating is controversial, since different rates and methods can result in several-fold deviation.

Findings

We used two deep-rooting pedigrees with full records and reliable dates to directly evaluate the Y chromosomal STR mutation rates and dating methods. We found that the Y chromosomal genealogical mutation rates (OMRB and lmMR) in BATWING method can give the best-fit estimation for historical lineage dating.

Conclusions

This study validated a very efficient and reliable way for genealogy and historical anthropology researches.

 

Terms and conditions: 1. Any commenter of this blog agrees to transfer the copy right of his comments to the blogger. 2. RSS readers and / or aggregators that captures the content of this blog (posts or comments) are forbidden. These actions will be subject to the DMCA notice-and-takedown rules and will be legally pursued by the proprietor of the blog.

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s


A %d blogueros les gusta esto: