El Lapo azul. Razonando en base a los resultados de un test de genealogía genética de mutaciones STR del cromosoma Y…y un calculador de distancia genética.

Actualizado 18/2/2015: aclarado el concepto de distancia genética para el Infinite Allele Model y para el Hybrid Allele model; enlace a la tabla de los marcadores STR con descripción completa de cada uno de ellos; 2 programas en Mathematica que calculan aproximadamente y exactamente la distancia genética para el Infinite Allele Model para cualquier par de secuencias de 67  marcadores; nuevas heurísticas para calcular el TMRCA dada la distancia genética.

1. Introducción.

Me acaba de comunicar mi  conocido que le acaban de facilitar sus resultados en FTDNA. Cómo pasa en muchas investigaciones, cuanta más información tienes menos capacidad tienes para contestar a las preguntas que te haces. Esto es lo que le ha pasado a él y cómo sabe que me interesan éstos temas, me ha realizado una pequeña consulta. Para poder contestarla me ha facilitado sus claves y he podido trastear con las aplicaciones de la plataforma.

En ésta entrada explico muy brevemente los resultados que facilita FTDNA, algunas de las aplicaciones que pone a disposición de sus clientes, y como se pueden interpretar éstos resultados con éstas aplicaciones. Me centro en los resultados de FTDNA para el cromosoma Y. Como se verá la lógica es bastante diferente a la que se debe de aplicar cuando se tienen resultados autosomales e incluso a cuando se tienen resultados de mutaciones SNP. Realmente de momento tengo más dudas que certezas y hablaré de ambas en la entrada.

También ponemos  a disposición del lector un pequeño programa que hemos elaborado (en Mathematica) para calcular la distancia genética.

2. Los resultados del test.

2.1. La secuencia de mutaciones STR.

El cromosoma Y es una secuencia de unos 58 millones de pares de bases (que el lector piense en una secuencia de 58 millones de posiciones, cada una pudiendo ser ocupada  por una de cuatro letras (por ejemplo agtcagtaaaagttttccccc…..así hasta un tamaño de 58 millones de posiciones).

Gran parte de ésta secuencia no es funcional (no codifica genes) y parte de ésta secuencia no funcional consiste en secuencias cortas repetitivas. Por ejemplo agtagtagtagtagt. Como se ve la corta secuencia agt se repite 5 veces. FTDNA ha identificado partes del cromosoma no funcionales cuyas secuencias repetitivas varían en número entre los individuos, debido a mutaciones bastante frecuentes.

El que éstas mutaciones (que se llaman STR, Short tandem repeat) sean frecuentes es  importante dado que permiten investigaciones de corto plazo (hacía atrás) que otro tipo de mutaciones menos frecuentes (como las SNP) no permiten.  Y el que éstas mutaciones diferencien entre individuos y poblaciones obviamente también es importante pues permiten identificar parentescos.

Entonces FTDNA, cuando analiza el ADN de un cliente, toma muestras significativas de los 58 millones de pares de bases tu ADN, localizadas en determinadas posiciones de la secuencia de ADN. Las muestras pueden variar en tamaño: 12 marcadores o mutaciones, 25 marcadores o mutaciones, 37 marcadores o mutaciones, 67, 111 e incluso hay posibilidad  de un test, que todavía es caro pero que se aproxima a la lectura de las secuencia completa y que llaman Big Y (around 11.5 to 12.5 million base-pairs of reliably mapped positions of non-recombining Y-Chromosome). Hay otras compañías que ofrecen la secuencia completa.

Para aquellos que quieran profundizar, en éste enlace aparece una descripción de los diferentes marcadores STR que se utilizan para estudios de genealogía genética y de otro tipo. Se trata de una tabla. En la primera columna, el patrón que se repite. En la segunda la variación que existe, es decir los valores extremos del número de veces que se puede repetir.  Entiendo que ésto lo han averiguado de manera experimental. En la siguiente columna la tasa de mutación correspondiente a cada marcador. Es muy importante tener en cuenta que cada marcador tiene una tasa de mutación. El valor de éstas tasas es un tema muy polémico y muy importante para determinar otros datos como el TMRCA sobre el que hablaremos luego. Esto también se ha determinado de manera experimental. He contado que hay unos 122. Cualquiera que quiera ser experto en ésta materia se tiene que conocer tan bien ésta tabla como un químico la tabla de los elementos.

Algunos marcadores son palindrómicos. Ésto quiere cada individuo tiene varias copias cada una con un numero de repeticiones. Por lo tanto en éstos marcadores aparecen varias cifras.

En éste enlace se puede ver ejemplos variados de individuos que se han testado y han resultado ser del haplogrupo R. Como se ve aparece una primera columna con el número de kit que te han asignado, una segunda columna con datos sobre el ancestro en línea masculina más lejano documentado genealogicamente, una tercera columna que indica dónde estaba localizado geográficamente éste ancestro, una cuarta columna con el haplogrupo que se ha obtenido como  resultado del test (el primero por ejemplo es R-U152). A partir de aquí los números que aparecen son el número de repeticiones que se ha obtenido para cada mutación STR analizada para ese individuo.

Está claro que para poder hacer comparaciones pertinentes, en todos los individuos se analizan las mismas posiciones/mutaciones. La posición de la secuencia, el nombre de la mutación analizada aparece en la cabecera de cada columna: por ejemplo DYS393 es el nombre y a la vez número de posición de la primera mutación.

El primer individuo se ha realizado un test Y67. El segundo un test Y111. El número 13 se  ha realizado un Y12 y por eso sólo le aparecen 12 números.

Cada numero indica el número de repeticiones que se han dado en ese individuo en esa posición. Por ejemplo, como se ve, los dos primeros individuos tienen el  mismo número de repeticiones en las dos primeras posiciones DYS393 y DYS390 pero difieren en la tercera DYS19.

Cuando dos individuos tienen la misma secuencia de números en un test Y12, se  dice que tienen un match 12/12. Idem para Y25: 25/25, Y37: 37/37 etc…Si varían en el número en una posición entonces tienen un match 11/12, 24/25, 36/37 etc…

2.2 La distancia Genética.

Cuando comparamos nuestros  números de la secuencia para el tamaño para el que hayamos pagado (12, 25, 37…) con la de otros individuos podemos ver que con algunos tenemos secuencias idénticas, con otros varía una cifra y con otros más. Al resultado de ésta comparación se le llama distancia genética y hay varias maneras alternativas de calcularla. No voy a entrar en detalle sobre ésto ahora mismo dado que de momento no las tengo 100% claras. Tampoco es importante conocer ésto en detalle para lo que sigue.

[Actualización día siguiente.

La distancia genética es clave y por lo tanto lo he mirado un poco más en detalle.

Hay dos maneras,

–la primera basada en el Infinite Allele Model, según el cual se comparar para marcador la cifra y si ésta es diferente, se cuenta como una unidad de distancia independientemente de la diferencia. Me queda la duda de momento sobre que pasa cuando en un marcador hay varias cifras es decir en los marcadores llamados palindrómicos. Se tratan como un todo o se trata a cada una de manera independiente. Ésto lo explican en una página de FTDNA:

For palindromic markers, the infinite allele method counts a difference for two types of changes: a mismatch and a copy number change.

a) Mismatches are any time the compared markers do not match. For example, the first man might have DYS464 = 14-15-15-16 and the other man might have DYS464 = 14-15-16-18. This counts as a single difference toward the two men’s genetic distance.

b) Palindromic copy number changes are when one person has more copies of the STR marker than the other. For example, one man might have DYS464 = 14-15-16-17 and the other might have 14-15-15-16-16-17. This also counts as a single difference toward the two men’s total genetic distance.

When two men are compared and they show both a mismatch and a copy number change, it is counted as a genetic distance of two. For example, one might have DYS464 = 14-14-15-16 and the second person DYS464 = 14-15-15-16-16-17.

Ya está todo claro con respecto al modelo infinito.

–en la segunda, basada en el Hybrid Allele Model, que se ilustra en el siguiente gráfico para Y12:

dna102-ex1

sí se tiene en cuenta la diferencia entre las cifras. Bajo ésta cuenta se mide el número de mutaciones definiendo mutación como un cambio de +1 o -1 en el número de repeticiones. Me queda la duda sobre que pasa con los STR palindrómicos en éste modelo.

FTDNA e  Ysearch utilizan una medida de la distancia genética que combina las dos: el model  híbrido para la mayoría de los marcadores excepto para un par de ellos en los que utilizan el modelo infinito.

Por lo visto las dos maneras dan resultados muy similares.

La información de ésta actualización está extraída de la página del proyecto del apellido Blair. Se recomienda la lectura de ésta página que trata los mismos temas sobre los que estamos tratando pero escrito por un experto (yo no lo soy, estoy aprendiendo) que se explica muy claramente.

Fin actualización].

El caso es que como resultado de la comparación de los resultados de dos individuos, obtenemos una cifra que expresa la diferencia genética entre los dos  individuos. Si la cifra es cero, significa un parentesco muy cercano. Cuanto más elevada parentesco más alejado, hasta un límite cuya cuantía todavía desconozco. A partir de éste límite, hay las mismas posibilidades de estar emparentado que de haber obtenido  un determinado patrón STR por casualidad.

2.3 MRCA y TRMCA.

En realidad todos los humanos descendemos de un mismo individuo y más que el estar  emparentado o no, nos interesa identificar el grado de parentesco. Más concretamente, lo que nos interesa es determinar  en que generación anterior tuvimos el más cercano ancestro común (lo que los anglos llaman el MRCA).

Y sobre todo interesa que éste ancestro común se encuentre dentro de los límites de la genealogía documentada (es decir dentro de los últimos entre 500 y 800 años). Por eso en los calculadores automáticos que ofrece FTDNA, no facilitan datos para más allá de 24 generaciones ya que si asumimos que la  generación media es de 30 años, ya estamos en 720 años. Esto es lo que llaman el genealogical timeframe.

Con sólo las dos secuencias es imposible determinar con absoluta certeza la generación en la que dos individuos tuvieron un ancestro común. Lo que si se puede es determinar la probabilidad de que dos individuos hayan tenido un ancestro común en la generación anterior X o generaciones posteriores. ¿ Como es ésto ?

El input o lo dado son las dos secuencias de cifras de mutaciones de dos individuos, digamos de 67 marcadores, con unas diferencias cuantitativas o distancia genética entre las dos. 
 
Lo que se hace es simular desde una tercera secuencia (entiendo que cualquiera vale, siempre que sea del mismo número de marcadores, 67 en éste caso) que no tenga nada que ver con las dos das, un proceso aleatorio que simula las mutaciones STR, hasta obtener diferencias cuantitativas o distancias genéticas similares a las de las dos dadas. Y se repite ésta simulación miles, millones de veces. 
 
En algunas de éstas simulaciones la distancia genética buscada se obtendrá en pocas generaciones.  En otras en muchas generaciones. Esto es exactamente lo mismo que pasa en cualquier otro proceso aleatorio. Por ejemplo el conocido proceso de tirar una moneda 10 veces y contar el número de caras que salen. Si repites el proceso miles, millones de veces, a veces saldrán 10 caras, a veces 0 caras y en general una cantidad intermedia. Con los resultados de estas simulaciones puedes construir una función dónde en las X estaría 0 caras, 1 cara, 2 caras, 3 caras….10 caras y en las Y el número de simulaciones del proceso en el que te ha salido esa cantidad. Obviamente los extremos (0 caras y por lo tanto 10 cruces o 10 caras y por lo tanto 0 cruces) se habrán obtenido en muy pocas simulaciones.  Para éste proceso de la moneda en concreto, la curva obtenida es la llamada normal o gaussiana.   
De la misma manera si  repetimos el proceso de mutaciones STR (se asume que son aleatorias) se puede construir una distribución de probabilidad en la que en la X están el número de generaciones que se tarda en obtener la distancia genética dada (1 generación, 2, 3, 4….) y en el eje Y el número de simulaciones en las que se ha obtenido la distancia genética buscada en ese número de generaciones. Al igual que en el proceso de la  moneda, se obtiene una curva normal aunque sesgada. 
 
Entonces cuando en el calculador de FTDNA o cualquier otro te dicen, por ejemplo, que hay una probabilidad del  90%  de que tengas un ancestro común con la otra persona en las 24 últimas generaciones  no dicen que el ancestro sea necesariamente de 24 generaciones antes. Podría ser por ejemplo, de 8 generaciones, o incluso de 4 pero esto es menos probable (hay muchas menos simulaciones que hayan obtenido la distancia genética que existe entre los dos en sólo 8 o 4 generaciones). Si quieres asegurarte, puedes quedarte con un número de generaciones que te asegure un ancestro común con el otro individuo al 99% de probabilidades, pero en general los genealogistas genéticos trabajan con el número de generaciones que te asegure que tienes un ancestro común en ésta o en anteriores con el 50% de probabilidades.  
A este tipo de afirmaciones probabilísticas, que insisto es lo máximo que podemos conseguir cuando sólo tenemos dos secuencias, es a lo que llaman TRMCA o tiempo hasta el ancestro común más cercano.
Nota: todos éstos métodos para calcular el TMRCA se basan en un artículo de un biólogo llamado Bruce Walsh. Si te interesa profundizar aquí lo tienes: Estimating the Time to the Most Recent Common Ancestor for the Y chromosome or Mitochondrial DNA for a Pair of Individuals.
2.4 Matches y FTDNATiP.

Entonces, una vez que tenemos nuestra secuencia de números para el Y  para el que hemos pagado (12, 25, 37, 67, 111 o BigY) el primer paso por lo tanto es identificar en la base de datos de clientes de FTDNA (y de otras empresas o proyectos) a individuos con los que tengamos el mínimo de distancia genética y buscar con ellos el TMRCA.

Realizar ésto manualmente es imposible, y afortunadamente FTDNA nos facilita el trabajo. ¿ Como ? Te dan una lista ordenada dónde te aparecen los  matches más cercanos que tienes con todos los individuos de su base de datos.

Si te has realizado un test de Y67, por ejemplo, te dan una lista de los individuos con los que tienes una distancia genética nula o un match 67/67, te facilitan el acceso a su perfil dónde aparece su origen geográfico y/o étnico, aveces su genealogía y tienen una aplicación que te calcula las probabilidades de tener el ancestro común más cercano en determinadas generaciones.

También te dan los matches 66/67 es decir los que están a distancia genética 1, 65/67 etc…Entiendo que cortan la lista cuando la distancia genética para el nivel dado (12, 25, 37, etc…) supera el genealogical timeframe. En el caso de Y67 el límite es 57/67. Un extracto de un foro sobre las distancia de corte en diferentes niveles y la explicación de algunos fenómenos extraños que pueden pasar.

Extracto. 

For 25 Match , it only shows you people who match you up to 2 genetic distances (i.e 23 shared STR values out of 25). For 37 Match, it only shows you people who match you up to 4 genetic distances (i.e 33 Markers out of 37).

If the genetic distance for the first 25 markers is more than two between you and different person, let’s say 3 genetic distances (e.g. 22 matching values out of 25) then the FTDNA will not consider that person to be a match.

Thus, someone might match you 23 out of 25 , and you see him in your 25 marker match, BUT this does not guarantee that you see him in 12 Match , because the different two STR values might be in the FIRST 12 MARKERS.

12 Markers match only shows people who either exact match you (12/12), or match you 1 genetic step difference (11/12).

¿ Que pasa si te has realizado un test Y67 y no te aparecen matches en el genealogical timeframe ? Que pasan al nivel  inferior, Y37 y te buscan matches a este nivel, con distancia 0,1 etc…hasta llegar al límite del genealogical timeframe.   Si tampoco a este nivel hay matches entonces pasan al siguiente Y25. Así hasta llegar al último.

En la imagen siguiente un ejemplo de la aplicación Matches de FTDNA. A este usuario le han encontrado 64 individuos a  distancia genética 0 con nivel Y37.

Pedigrees and Me_html_b3bce6b

El botón naranja es el calculador de TMRCA. Creo que la aplicación es mejorable. Podrían permitir mayor número de generaciones (el límite es 24). No todo el  mundo está sólo interesado en el genealogical timeframe. Y podrían permitir comparaciones entre 2 individuos cualquiera con los que estés relacionado. Creo que sólo permiten comparaciones entre tus resultados  y el de otro.

 Puede pasar  que no te encuentren matches a distancia cero para ninguno de los niveles ? Puede pasar. Conozco varios casos de individuos que se han realizado tests de nivel Y111 y a los que sólo les han encontrado matches 11/12. Me puedo imaginar la sensación de soledad que sentirán los individuos que obtengan éste  tipo de resultados. Por otra parte tampoco es tan malo ser único🙂.

También puede pasar el fenómeno inverso, que no te encuentren matches para el nivel 12 pero sí para niveles superiores, por ejemplo el 111. La explicación para ésto es obvia.

Y lo que desconozco de momento es cuan frecuentemente se da ésta eventualidad. Y tampoco tengo muy claro su interpretación cuando sucede. Antes revisamos rápidamente otras aplicaciones que proporciona FTDNA a sus clientes.

2.5. Ancestral Origins.

Una imagen vale por mil  palabras.

ancestral origins

Como se ve en ésta aplicación te clasifican, de manera agregada, tus matches en cualquier nivel y a diversas distancias genéticas por origen geográfico. Te indican el número de matches que tienes de un determinado país, el número de clientes de ese país que tienen ellos y con ésto  puedes calcular la proporción (te la calculan ellos, es lo que aparece en la siguiente columna), que es un dato  importante. En el caso de éste usuario se puede ver que tiene muy pocos matches (a nivel de 12 debería de tener más), y que la mayoría son de Georgia en el Caúcaso.  Lo más significativos, a distancia cero son de Iraq. Seguro que pertenece a un haplogrupo muy raro, posiblemente un sub-clade raro de G.  Como veremos en el siguiente punto, conocer las zonas geográficas dónde tienes más parientes es clave cuando se combina con otras informaciones.  En la columna comentarios te puede aparecer el origen étnico, la tribu etc….

¿ Puede pasar que un individuo, por ejemplo un español, no tenga  o tenga muy pocos matches en su propio país, por ejemplo un español en España ? Puede pasar. Si eres un español del haplogrupo L2, por ejemplo, te pasará casi seguro pues en toda España hay cuatro si sólo se ha realizado el test uno sólo, es decir tu mismo.

2.6. Haplogroup origins.

Idem.

haplogroup-origins

En ésta aplicación te indican de manera agregada los haplogrupos a los que pertenecen tus matches y su localización geográfica. Lo normal  es  que la mayoría pertenezcan a tu mismo haplogrupo, pero pueden estar localizados en diferentes niveles del árbol filogeográfico ya que algunos conocen su nodo terminal y otros no. Si te aparece algún match de otro haplogrupo, ya sabes que ha sido por casualidad. Ésto aunque improbable no es imposible y se puede dar sobre todo con matches de nivel 12  marcadores.

Esta aplicación es mejorable pues cuando el haplogrupo es  de un localización alta en el árbol, no te queda claro si se trata de nodos terminales  o de individuos que desconocen si nodo terminal. Con lo cual es imposible utilizar ésta aplicación para llegar a conclusiones.

2.7 Conclusiones provisionales con respecto a la plataforma de FTDNA.

Sin duda es la  más adecuada para los tests STR. Además de los resultados directos del test según el nivel elegido (Y12,Y25 etc…) y de las dos aplicaciones comentadas (Ancestral Origins, Haplogroup origins) tiene otras que para mi han sido menos  útiles pero que pueden serlo para el usuario general.

En general con respecto a la plataforma de FTDNA me pasa lo mismo que con respecto a 23andme. Te dan tus resultados, los output de tus aplicaciones pero no te dan un contexto estadístico que podría ser mucha ayuda para interpretar tus resultados. Ok, tengo 2 matches de 111/111, 20 de 67/67, 50 de  37/37 y 3000 de 12/12.  ¿ Esto es lo normal o soy un outlier genealogico genético ? O sólo tengo 40 matches de 11/12. De nuevo, ¿ es esto normal o soy “raro” ?. Esto son preguntas que seguramente se realiza todo usuario y que no se proporcionan. Quizás las respuestas varíen según los haplogrupos. El motivo es seguramente el mismo que 23andme:  la privacidad. Tus resultados sólo te pertenecen a ti y no a la plataforma dónde te  has realizado el test. Y compartes lo que quieras compartir en los espacio dónde quieras compartirlo: foros, grupos de apellidos, contacto directo con matches etc….  Obviamente esto es un defecto en principio no achacable a las plataformas. Sin embargo sí podrían esforzarse un poco en recopilar la información que los diferentes usuarios han ido haciendo pública en los diferentes espacios, procesarla de manera agregada y publicar resúmenes estadísticos que serían muy informativos.

2.7 Algunas aplicaciones informáticas.

a) El primer programa que se presenta a continuación calcula la distancia genética de acuerdo con la definición del Infinite Model con una sola diferencia: no contabiliza como unidad de distancia cuando número de cifras en marcadores palindrómicos es diferente.

Inicio programa aproximación distancia genética INFINITE MODEL.

a2 = “COPIAR AQUÍ LA SECUENCIA Y67 DEL INDIVIDUO 1 y borrar éste texto dejando las comillas“; v2 = \
StringPosition[a2, “-“]; Print[v2]; r = Range[Length[v2] – 1]; r = Prepend[r, \
0]; Print[r]; v3 = {}; For[i = 1, i < Length[v2] + 1, n = v2[[i, 1]] – \
r[[i]]; AppendTo[v3, n]; i++]; Print[v3]; For[j = 1, j < Length[v3] + 1,
a2 = StringDrop[a2, {v3[[j]], v3[[
j]]}]; j++]; a = a2; a =
Flatten[ImportString[a, “Table”]]; Print[a]; Print[Length[a]]

b2 = “COPIAR AQUÍ LA SECUENCIA Y67 DEL INDIVIDUO 2 y borrar éste texto dejando las comillas“; v2 = StringPosition[b2, “-“];
Print[v2]; r = Range[Length[v2] – 1]; r = Prepend[r,
0]; Print[
r]; v3 = {}; For[i = 1, i <
Length[v2] + 1, n =
v2[[i, 1]] – r[[i]]; AppendTo[v3, n]; i++]; Print[v3]; For[j = 1, j < \
Length[v3] + 1, b2 =
StringDrop[b2, {v3[[j]], v3[[j]]}]; j++]; Print[b2]; b = b2;
b = Flatten[ImportString[b, “Table”]]; Print[b]; Print[Length[b]]

c = {}; For[i = 1, i < Length[a] + 1, z = Part[a, {i}] –
Part[b, {i}]; AppendTo[c, z]; i++]; Print[ Length[c]]; Print[ Length[
a]]; Print[ Length[b]]; Print[c]; s = Position[c, 0];
distanciaa = (58 – Length[s])

Fin programa aproximación a distancia genética INFINITE MODEL.

Voy a ver si puedo modificar éste segundo programa para que tenga en cuenta la diferencia en el número de cifras en los marcadores palindrómicos y obtener un programa exacto para la distancia genética para el Infinite Allele Model.

b) El siguiente programa ya si que calcula la distancia genética correcta según el Infinite Model. Recordamos que FTDNA para un par de marcadores utiliza el sistema híbrido y por lo tanto la distancia que de nuestro programa será diferente con respecto a la distancia que de FTDNA. Es posible que programemos también la distancia FTDNA y la distancia según el Hybrid model.

¡¡ Joer & Ojo !! Tras haberlo reprogramado he visto que todavía no es exacto. Por ejemplo si en un marcador palindrómico del primer individuo aparece las siguientes  cifras 11-15-18-13 y en el del otro individuo para el mismo marcador aparece 11-15-18-13-15-16, según el modelo cuenta como diferencia genética 1  pero en el programa contaría como 2. ¿ Y si en el  segundo aparece 11-15-18 ? Entiendo que es lo mismo.

De nuevo tenemos una aproximación, mejor que la anterior.  Si ésto pasase en los ocho marcadores (evento  que diría es muy improbable), tendríamos una diferencia de 8 en la distancia genética. Ésta  es al máxima diferencia y normalmente será mucho menos, uno  o dos puntos. No obstante si es fácil corregirlo, lo corregiré; si no lo dejaré así pues para mis efectos me vale.

Inicio programa 3, distancia genética exacta según el Infinite model.

(*Input*)

secuencia1 = “COPIAR AQUÍ LA SECUENCIA Y67 DEL INDIVIDUO 1 y borrar éste texto dejando las comillas“; \

secuencia2 = “COPIAR AQUÍ LA SECUENCIA Y67 DEL INDIVIDUO 2 y borrar éste texto dejando las comillas

(*a partir de aquí calcula el la cantidad de marker mismatchs*)

a2 = secuencia1;

v2 = StringPosition[a2, “-“];

r = Range[Length[v2] – 1]; r = Prepend[r, 0];

v3 = {};

For[i = 1, i <
Length[v2] + 1, n = v2[[i, 1]] – r[[i]]; AppendTo[v3, n]; i++];

For[j = 1, j < Length[v3] + 1, a2 = StringDrop[a2, {v3[[j]], v3[[j]]}]; j++];

a = a2; a = Flatten[ImportString[a, “Table”]];

b2 = secuencia2;

v2 = StringPosition[b2, “-“];

r = Range[Length[v2] – 1]; r = Prepend[r, 0];

v3 = {}; For[i = 1, i < Length[v2] + 1, n = v2[[i, 1]] -r[[i]]; AppendTo[v3, n]; i++];

For[j =
1, j < Length[v3] + 1, b2 = StringDrop[b2, {v3[[j]], v3[[j]]}]; j++];

b = b2; b = Flatten[ImportString[b, “Table”]];

c = {}; For[i = 1, i < Length[a] + 1, z = Part[a, {i}] – Part[b, {i}]; AppendTo[c, z]; i++]; s = Position[c, 0];

distanciageneticaab = (58 – Length[s]);

(*hasta aquí calcula la primera distancia según el infinite model; a partir de aquí cuenta el número de  cifras diferentes en los marcadores palindromicos*)

at = Flatten[ImportString[secuencia1, “Table”] ]; at = DeleteCases[at, _Integer]; ct1 = StringCases[at[[2]], “-“];

bt = Flatten[ImportString[secuencia2, “Table”] ]; Print[bt]; bt =
DeleteCases[bt, _Integer]; ct2 = StringCases[bt[[2]], “-“];

gh = {}; For[i = 1, i < Length[at] + 1, ct1 = StringCases[at[[i]], “-“]; ct2 = StringCases[bt[[i]], “-“]; df = Length[ct1] – Length[ct2]; AppendTo[gh, df]; i++]; Print[gh]; gh = DeleteCases[gh, 0]; Print[gh]

distanciageneticaa = Length[gh]

(*a continuación sumamos las dos distancias para obtener la distancia genética exacta según el infinite model*)

distanciagenetica = distanciageneticaab + distanciageneticaa ; \
Print[distanciagenetica]

Fin programa 3, distancia genética exacta según el Infinite model.

c) Si lo que quieres es una aplicación avanzada bien diseñada aunque para usarla hay conocer bien el tema, que dadas dos secuencias del nivel que sea calcule distancias genéticas, TRMCA con la profundidad que sea etc…puedes ir a éste enlace. Aunque no lo he utilizado, aquí todo se limita a un corta y pega.

Un pantallazo de ésta aplicación (que no he realizado yo):

tmrca calculatro

3. Interpretando los resultados.

3.1. Los datos y factores a tener en cuenta.

Entonces tenemos una lista de matches  con los que tienes mayor o menor distancia genética, sabemos su haplogrupo (en que nivel del árbol se sitúan,  con el matiz indicado anteriormente) y el origen geográfico. También, si te lo has trabajado, tienes una genealogía más o menos documentada. Y también conoces el contexto histórico (a mi ésto es la parte que más me gusta de la  genealogía genética: es una gran excusa para aprender historia). El contexto histórico sobre todo es importante en su relación con acontecimientos que hayan tenido impactos poblacionales. En relación a ésto también hay que tener  en cuenta cuan productivos han sido los entornos (en términos poblacionales) que tu linea masculina ha ido ocupando (menos productivo es un desierto que una zona de buenas tierras y lluvia abundante. Historia y entorno son claves: se debe de evitar en todo momento considerar que los haplogrupos se mueven en un vacío. Los investigadores que analizan así los datos llegan a conclusiones vacías. No se deben de olvidar tampoco los sesgos varios en las muestras con las que se está trabajando: los matches actuales que te aparecen en el listado no son más que una muestra no representativa del total de matches reales. Finalmente, hay mucha información disponible que puede ser de gran utilidad para los diferentes usuarios, pero está en las manos privadas de otros usuarios. Llámemos a ésto los datos relevantes privados. Por eso la interactividad es un aspecto clave de la genealogía genética. Es decir la posibilidad de contactar con tus matches e intercambiar información de todo tipo con ellos es clave.

Con estos conjuntos de datos y algunos supuestos razonables (por ejemplo que tu linea masculina ha estado en todo momento en la media en cuanto a capacidad de reproducción; se debe de razonar siempre en términos de caso medio, pero sin olvidar que los casos extremos existen en un sentido y otro, e incluso sin olvidar que tu línea puede haber sido ese caso extremo :-)) el objetivo es obtener una narrativa sobre la historia de  tu línea masculina que se aproxime lo máximo posible a lo que sucedió en la realidad.

3.2. Algunos problemas y una proposición básica.

Los problemas de genealogía genética son problemas histórico-geográficos y por lo tanto implican dataciones y localizaciones geográficas. También puede ser interesarte determinar las diferentes identidades (étnicas, religiosas, linguisticas etc…) que ha ido adoptando tu línea a lo largo del tiempo. Esto, obviamente no siempre es posible. Es más,  casi siempre es más complicado.

Hay que jugar con todo todos los factores indicados para obtener narrativas plausibles. Cosa que en general no es  sencillo y por lo tanto hace que ésta actividad sea mucho más interesante.

La proposición básica (creo que es correcta) para razonar bien sobre éstos problema es que los descendientes actuales de las ramas que se han ido desprendiendo del tronco común de tu línea antes, tienen mayor distancia genética con respecto a ti, tienen que dar un TMRCA de más generaciones y tienen que tener por término medio más matches (también matches más débiles) que las ramas que se han ido desprendiendo posteriormente.

A partir de ésta proposición, de los datos que te proporciona FTDNA y de los otros factores  que hemos comentado puedes ir reconstruyendo la historia familiar. O por lo menos puedes construir hipótesis sobre la historia familiar que luego podrás ir contrastando.

En particular hay un problema, una pregunta que según he visto en los foros se plantea mucha gente que son o residen desde tiempo inmemorial en una zona geográfica (por ejemplo Europa) pero tienen haplogrupos que hoy son más frecuentes en otra zona geográfica (por ejemplo en Asia Central, o en el Caúcaso) y muy poco frecuentes en el país dónde residen ahora. En su genealogía conocida no aparece nada que permitiese haber previsto ésto pero entre los matches de FTDNA sí  les aparecen individuos  de esa otra zona geográfica (diría que en algunos casos lo normal es que aparezcan matches de varias zonas geográficas con diferente distancia genética media según la zona). Parece natural que concluyan que en algún momento su línea estuvo en esa otra zona (esas otras zonas) y se pregunten:  ¿ cuando migró mi línea a la zona dónde resido ahora ?  Muchas veces poder poner una fecha lo más concreta posible a éste acontecimiento permite contestar a la otra pregunta que surge de manera natural: ¿ cual fue la causa de la migración?. Si datamos con exactitud, podemos poner la migración en un contexto histórico  y ésto nos puede ayudar a conocer cuales pudieron ser los motivos de la migración.

¿ Podemos contestar a esta pregunta sobre la fecha aproximada de una migración con una cierta exactitud ?   Creo que si podemos tener una buena aproximación. O más bien tengo una idea todavía no clara del todo que igual se podría convertir en un modelo cuantitativo que permita acotar las fechas de migraciones más de lo que ahora es posible.  Pero igual se evapora ya que no termina de adoptar una forma clara  en mi cabeza….Si consigo darle forma matemática clara haré  una entrada específica. Y si la idea es formalizable, seguramente ya se habrá publicado algo al respecto.

3.3. Algunas dudas.

¿ Como se puede interpretar un caso de un individuo que se ha realizado un test Y111 y solo le salen muchos (unos 400) matches a 11/12, la mayoría de una determinada etnia ?  ¿ Y que además los mejores matches que tiene a nivel  Y111 están a bastante distancia, a una distancia superior al genealogical timeframe, por ejemplo a 87/111 ?  ¿ Estos resultados son ruido aleatorio o tiene sentido ponerse a razonar con ellos del modo que hemos indicado anteriormente ? No lo se.

En una de las páginas FAQ de FTDNA preguntan: If two men share a surname, how should the genetic distance at 67 Y-Chromosome STR markers be interpreted?

Para contestar presentan una tabla y comentan para cada distancia genética del nivel Y67 lo que debe de considerar el usuario. En la última casilla de la tabla, en la de mayor distancia genética comentan:

>11 Not Related The two men are totally unrelated within the genealogical time frame on their direct paternal line. Their shared ancestry is deeply anthropological and dates to the common African heritage of the human race.

¿ O sea que en cuanto que te sales del horizonte de la genealogía documentable, a partir de 55/67, ya no hay parentesco y hay una elevada probabilidad de que un match de por ejemplo 52/67 (distancia 15) pueda ser debido al azar ?  Me sorprendería mucho que ésto fuese así, pero de momento no lo tengo claro.

También he leído algunos foros que para el nivel Y67 una heurística para calcular a ojo de buen cubero la fecha más probable de separación entre dos individuos (entiendo que se refieren al TMRCA al 50%) es cómo sigue: se calcula primero la distancia genética y se considera que cada punto de distancia son 100 años. Por lo tanto la fórmula distancia x 100 años nos daría la fecha aproximada buscada. ¿ Es esto correcto ? Tampoco lo sé de momento.

Actualización día siguiente.

Dos comentarios en un foro del haplogrupo N que aclaran en parte las dos dudas planteadas.

http://www.molgen.org/eng/viewtopic.php?f=82&t=211&sid=b10a86ee1d1584722d86398af8368cdf&start=10

En éste primer comentario queda claro que hablan de Y67.

I’m very surprised at the nearest matches you quote for me. Comparing my 67 STR markers they come very far down my “match” list, eg 177000 is only 52/67 and 147230 is 50/67 (interestingly both these IDs quote the same “oldest known ancestor”, but they have slightly different STR values). 

Y en contestación a ese comentario

Nearest to you are N1796GD 16, ab 1420 years.7 Sweden GD 8, about 690 years and
217193 England, 97963 Sotland GD 11, ab 950 years. They are on the same branch in the phylogenetic tree (Network 4.6.1.0. MJ).
83582 England, 7356 England GD 15, ab 1330 years.
192609 Russia GD 15, ab 1330 years
N15255 England, N15255 England 
Some Finns GD 18-20.

Parece por lo tanto, primero, que no consideran éstas distancias (entre 8 y 20) en Y67 ruido aleatorio sino que piensan en ellas como significativas y segundo que aplican una heurística similar a la señalada: 1 punto de DG entre  86 y 88 años. Cuanta más distancia genética, más años. Entonces entre 86 y 88 años, ¿ pero con que probabilidad ?

Fin actualización].

En definitiva, éste tipo de test proporcionan una serie de problemas de todo tipo muy interesantes.

Terms and conditions: 1. Any commenter of this blog agrees to transfer the copy right of his comments to the blogger. 2. RSS readers and / or aggregators that captures the content of this blog (posts or comments) are forbidden. These actions will be subject to the DMCA notice-and-takedown rules and will be legally pursued by the proprietor of the blog.

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s


A %d blogueros les gusta esto: