El lapo azul (12). Test de cromosoma Y, una comparativa.

1. Motivación.

Una persona bastante cercana, tras leer mis entradas sobre este tema está pensando en hacerse un test de cromosoma Y y me ha pedido consejo sobre las alternativas en oferta. En esta entrada reflejo lo más brevemente que me ha sido posible el resultado de mis investigaciones al respecto. Espero  que le quede claro al lector que el foco de la entrada apunta a la genealogía genética y no se trata ni de temas relativos a la salud, ni de  pruebas de paternidad ni de genética criminal, temas que no me interesan especialmente.

Una primera distinción importante se refiere a los dos tipos básicos de ADN: el ADN neutro y el ADN codificante. Para evitar los efectos de selección que podrían hacer que dos individuos no relacionados genealógicamente tuviesen mutaciones idénticas, todos los tests se realizan en el ADN neutro. Aquí

Una segunda distinción importante se refiere a la potencia de la prueba: existen tests basados en muestras y tests basados en la secuencia del gen completo (full genome). Los segundos obviamente son más potentes pero también más caros. En función de lo que el usuario vaya buscando un test muestral puede ser suficiente.

La tercera distinción importante es de carácter cualitativo, en concreto se distingue entre el tipo de mutaciones que se analicen en el test. Como ya explicamos en las anteriores entradas básicamente hay dos tipos de mutaciones que se analizan en estos tests: SNP y STR (enlaces a los cuadros comparativos del ISOGG) y cada una de ellas es adecuada para contestar a diferentes interrogantes. En función de los objetivos de la investigación se deberá de utilizar uno u otro.

Para no complicar las cosas más de lo necesario me voy a centrar en las dos opciones que creo más adecuadas para esta persona: Y-67 deFTDNAY-111 de FTDNA y Y-Prime de FGC. Son los dos muestreos más potentes que existen a un precio relativamente asequible.

2. El cromosoma Y.

Primero algunos parámetros básicos del cromosoma Y humano: tiene unos 58 millones de pares de bases (el 2% del material genético del macho). Obviamente un análisis de la población completa, full genome, tendría que contener estos 58 millones de pares de bases. Esta cantidad de pares de bases se utiliza para expresar (la  parte expresiva claro) unos 200 genes, 72 de ellos codificantes de proteínas. A la parte que contiene los genes que determinan la masculinidad se le llama SRY (sex determining region Y). El 95% de este cromosoma es no recombinante. A esta gran parte no recombinante se le llama NRY (non recombining region of  Y-cromosome). A la parte recombinante (recombina con el cromosoma X que es su homólogo) se le llama región pseudo-autosomal. El cromosoma Y humano no es universal. Es decir existen otros mecanismos en otros linajes biológicos para realizar la misma función que el cromosoma Y, determinar el sexo. Nos remitimos al artículo de wikipedia para más información.

[Nota al margen. Aunque soy de los que piensa que las diferencias cognitivas entre machos y hembras provistos de cerebros capaces de universalidad, es decir entre mujeres y hombres, deben de ser inexistentes (si existiese alguna ventaja cognitiva asociada al sexo, sería a favor de la mujer), siempre me he preguntado si esta manera de pensar es correcta, y por lo tanto si el cromosoma Y podría contener algunos genes con efectos cognitivos. Me alegra saber que esto ya se está investigando: Research is currently investigating whether male-pattern neural development is a direct consequence of Y chromosome-related gene expression or an indirect result of Y chromosome-related androgenic hormone production].

 3.  Mutaciones relevantes para análisis de genealogía genética. 

Ahora otro breve punto sobre las mutaciones relevantes al caso que nos ocupa.

a) SNP.

Las mutaciones SNP son uniposicionales. Es decir son mutaciones en uno de los dos pares de bases (que como es sabido determina el otro par). Un ejemplo: AAGCCTA a AAGCTTA. A cada una de las dos secuencias que difieren en un nucleótido se le llama alelo.

Casi todos los SNPs tienen solo dos alelos. Son por lo tanto mutaciones bialelicas. Esto es lógico, teniendo en cuenta que estas mutaciones ocurren al azar y con una frecuencia bastante baja. Sería mucha casualidad que hubiese muchos alelos en una misma posición. Las mutaciones SNP no son las únicas bialelicas: ALU e Indels también lo son.

Obviamente, por efectos de la selección natural, recombinación  su distribución a lo largo de un cromosoma no es homogénea como debería de ser si todo el proceso fuese al azar.

Como la frecuencia de ocurrencia (mutation rate) es baja (una mutación SNP por cada 10^8 generaciones en contraste con una mutación STR por cada 1000 generaciones) este tipo de mutaciones no proporcionan huellas interesantes para investigaciones interesadas en horizontes temporales genealógicos (es decir a partir del  sXII para familias con antecedentes de nobleza y,  en general, del XV para el resto).

Sin embargo su frecuencia dentro del genoma (1 por cada 1000 bps) es mucho mayor que las mutaciones STR, cuyos rasgos describiremos a continuación. Teniendo en cuenta que las mutaciones SNP son menos frecuentes, no entiendo muy bien como se explica esto. Debería de ser lo contrario…

El resultado típico de un análisis SNP se puede /suele (al menos implícitamente) representar en forma de árbol. A medida que tus antecesores iban sufriendo mutaciones, se iban acumulando una tras otras y esto les distinguía de otros grupos. El árbol representa este proceso y puedes ir siguiendo a través del árbol el rastro de tus mutaciones hasta llegar al último marcador que te proporcionen (que podría no ser el último disponible si el chip que se ha utilizado no está actualizado). Este último marcador es tu haplogrupo, en términos absolutos (es decir no necesitas compararte con nadie).

Si dentro de unos años te repites el test con un chip más actualizado pertenecerás al mismo haplogrupo pero se podrá determinar a que sub-ramas de tu haplogrupo perteneces ya que habrá más marcadores en el chip que lo exploren en profundidad (siempre que pertenezcas a un colectivo lo suficientemente interesante desde el punto de vista comercial, claro: todo chip es un trade-off entre lo científico, lo técnico, lo económico y lo comercial).

b) STR.

Las  mutaciones STR (Short Tandem Repeat) a diferencia de las SNP no son puntuales o uniposicionales sino que ocupan varias posiciones del cromosoma. Y la ocupan de una manera repetitiva:  Si numeramos los 58 millones de nucleótidos del cromosoma Y, los 58 millones de posiciones asignando a cada una de ellas un número natural comenzando por la  unidad, cada mutación STR se podría especificar por un rango (desconozco cuan rígido es este número de posiciones, comparando entre individuos).

Si una mutación STR ocupa un rango dado del cromosoma se observará un patrón repetitivo. Por ejemplo en el marcador DYS388  se observará el triplete ATT repetido entre 10 y 16 veces. Entiendo que cada número de repeticiones es un alelo diferente. Es decir que inclusive 10 y 16 este marcador STR  tiene 7 alelos. Confirmado.

Las mutaciones STR son raras pero no tanto como las SNP. Even though they mutate rarely but they mutate much more than SNPs. From a father to a son 150 thousand STRs mutate out of millions existing STRs on the Y chromosome trunk that is composed of 2 billion blocks stacked as along thread. Fuente. Aquí hay algunos términos que no se si son técnicos: trunk, blocks 

Importante: a match of 50 STRs between two males means they are brothers, the less matches the less relatedness but the compared males have to have same SNP (Y haplogroup or subclade). No tengo claro que se considera un match: el tener exactamente el mismo alelo o  número de repeticiones o el tener un número de repeticiones dentro de un rango (por ejemplo entre 10 y 16 veces como en el ejemplo anterior. Confirmado, alelo.

A este respecto es  importante señalar que hay dos tipos de marcadores STR, los de una sola copia y los multicopia (el enlace es bastante informativo sobre el cromosoma Y en general). Si  me he enterado bien,  multicopia quiere decir que un marcador no ocupa un rango continuo en el cromosoma (sino dos o más)  y cada rango puede contener un número diferente de repeticiones. Obviamente esto es  importante a la hora de calcular la distancia genética entre dos individuos. En los marcadores unicopia el método es  el directo, el evidente; en los marcadores multicopia el método puede ser un poco más elaborado. En el siguiente artículo indican de manera muy sencilla y muy gráfica todo esto: How is genetic distance calculated for Y-DNA STR markers. Genebase Tutorials. Retrieved September 9, 2014, from http://www.genebase.com/learning/article/46

Como  ya hemos indicado anteriormente las mutaciones de tipo STRs are used to study recent genealogy (in the 4000 years before present such as surname studies) while SNPs are used to study old genealogy (mainly more than 4000 years before present to determine genealogy (ancestry of nations such as ancient Greek for example). 4000 años ya parece mucho, no se cuán fino es este método para un horizonte de entre 10 y 30 generaciones hacía atrás.

De acuerdo con todo esto un resultado típico, por ejemplo de Y-37 FTDNA lo que te proporciona es lo que aparece en la siguiente imagen:

ftdna-markers1

Aunque aquí lo que aparece es un resultado, en forma de tabla, una tabla en la que a cada marcador se le asigna un número que indica el alelo o número de repeticiones. Entiendo que también aquí la tabla condensa un proceso implícito que se podría representar ¿ en forma de árbol dirigido, árbol no dirigido o grafo ?. La direccionalidad tiene que ver con el hecho de las retromutaciones,  que se dan con una cierta probabilidad en las mutaciones STR (creo haber leído que bastante mayor que en las mutaciones SNP). La propiedad de ser grafo  tiene que ver con el hecho de que se pueda llegar a un mismo haplotipo por caminos evolutivos (o más bien de deriva  genética) diferentes, de tal manera que no es imposible que dos individuos tengan exactamente el mismo perfil STR sin estar emparentados en linea uniparental masculina (esta posibilidad obviamente disminuye con el número de marcadores analizados pero nunca se debe de descartar).   También femenina, pero nos estamos concentrando en la linea uniparental.

Lo  que si está claro es que la interpretación de los resultados es bastante más compleja que para mutaciones SNP. Primero porque al no ser mutaciones bialélicas, las frecuencias de cada alelo para cada marcador se deben de tener en cuenta. Segundo porque aquí la decisión ni es discreta ni es determinista. Un análisis STR sirve para responder a varias preguntas y la respuesta siempre es probabilista.  Sirve por ejemplo  para asignar a un individuo a un haplogrupo pero la respuesta es una probabilidad (a diferencia del test SNP que responde con certeza a esta pregunta). Sirve también para realizar estimaciones temporales en relación al ancestro común más reciente entre dos individuos, y la respuesta es también en términos probabilistas.

Por ejemplo, si comparamos dos individuos que se han realizado el test para 12 marcadores y para estos tienen alelos  idénticos entonces se puede determinar que hay un 50% de probabilidad que los dos individuos hayan tenido un ancestro común en las 7 generaciones anteriores, y una probabilidad del 95% de que este ancestro común haya existido en las 23 generaciones anteriores.

Si utilizásemos más marcadores ¿ que conseguiríamos ?.  Un resultado idéntico entre dos individuos para más marcadores reduce el número de generaciones desde el ancestro común.  Por ejemplo para 67 marcadores, identidad de resultados entre dos individuos significa que hay una probabilidad del 50%  de que su ancestro común se encuentre en las dos últimas generaciones (es decir sea su abuelo), y con probabilidad del 95% se encontrará en las últimas 6 generaciones. Por lo tanto cuantos más marcadores

Obviamente, al irse acumulando  en una misma línea paterna, los dos tipos de mutaciones (SNP y STR) están correlacionadas y un perfil STR permitirá, en general, predecir un haplogrupo sin necesidad de hacer un test SNP, sobre todo si el individuo tiene un perfil STR frecuente.

Extractos del último enlace (artículo de 2012).

At FamilyTreeDNA, two introductory levels of Y-chromosome STR testing are offered to new project members:  37-marker and 67-marker tests.  Every level of testing tells you something, but I have standardized my projects on 67 markers because that level allows for confident estimations of relatedness in virtually all cases.  Advanced testing to 111 or more markers is available to refine relationships (e.g., for distinguishing branches of the same family).

STR testing measures relationship in a time frame of hundreds of years, making the distance to the MRCA (Most Recent Common Ancestor) sufficiently close to be genealogically useful.  And “useful” is an understatement.  STR testing is a powerful tool for determing whether people do or do not share a recent common ancestor, and it is the foundation for Y-DNA surname projects.

As each individual has just one evolutionary path on their patrilineal line, so their SNP-based haplogroup should correlate with their STR-based haplotype, and it does.  If the haplotype is reasonably common (or similar to one that is), it can be used to deduce the basic Y-DNA haplogroup, without the added expense of SNP testing.  If the haplotype does not unequivocally indicate the haplogroup…

...

As the number of people STR tested increases, SNP testing will become important in separating “borderline” STR matches that are merely coincidental, that is, not indicative of real relationship, from ones that do indicate real relationship.  The problem of ambiguous coincidental matches, particularly in Haplogroup R1b1a2, is going to increase as more people are tested.  Thankfully, deep SNP testing gives us a method for detecting them.

Todavía no he encontrado un artículo que explique bien las tuercas y tornillos del análisis matemático (probabilístico) aplicable a estos resultados de Test STR pero con lo que ya he reseñado para que el lector se haga una idea y mi conocido pueda tener un cierto criterio a la hora de elegir producto. En parte todo se resume en este gráfico extraído de la página de FAQ de FTDNA.

probabilities

Un artículo de 2001 Estimating the time to the MRCA for the Y-chromosome or mtDNA  for a pair of individuals de Bruce Walsh trata de este tema y diría que es el  artículo seminal. La página web de este autor con otros interesantes artículos se puede ver aquí.Algunos no he podido descargarlos por problemas con el pdf.

Y una información interesante (la fuente es una de las páginas ya enlazadas anteriormente) que he encontrado buscando otra cosa:

What constitutes a match?

Matches in other surnames are usually mere coincidence, so please ignore them — I’ll let you know when you shouldn’t!

For 12 markers:  9 or less is a non-relative; 10-12, please see this table compiled by FTDNA.

For 25 markers:  21 or less is a non-relative; 22-25, please see this table compiled by FTDNA.

For 37 markers:  31 or less is a non-relative; 32-37, please see this table compiled by FTDNA.

For 67 markers:  57 or less is a non-relative; 58-67, please see this table compiled by FTDNA.

For 111 markers:  100 or less is a non-relative; 101-111, please see this table compiled by FTDNA.

For any test:  0 matching markers, please contact NASA.

Mi conocido es un poco extraño, así que le voy facilitando las coordenadas de esta institución  :-).

Y relacionado con este enlace anterior, un ejemplo  de proyecto de FTDNA relacionado con un haplogrupo en concreto (uno muy poco frecuente en Europa).

Otro tema que no tengo  muy claro es el mecanismo biológico de las mutaciones STR y su fenomenología. Las mutaciones SNP puntuales están más claras. Un artículo de interés al respecto. Y otro sobre los modelos aplicables a este tipo de mutaciones (extractos y resumen  del segundo: Because pedigree experiments have shown that most mutations are a change in one repeat unit (85% in [54], 78% in [50])…The predominant mechanism by which microsatellites mutate is believed to be replication slippage…resumo el resto: cuando el ADN se replica las dos cadenas a veces se disocian; si la secuencia de ADN es no repetitiva, las dos cadenas se unen de las misma manera  que estaban antes, por aquello de la afinidad de un nucleótido con otro; pero  cuando hay un patrón repetitivo como en los STR se pueden unir de varias maneras diferentes que a veces se unen formando un lazo libre en una de las cadenas; entonces cuando las  dos cadenas empiecen la replicación de nuevo, este lazo libre formará un microsatelite o mutación STR más largo que el que tenía anteriormente; ¿ quiere esto decir que la mutación es siempre en la dirección de un mayor número de repeticiones ? No: si el lazo está en la cadena molde entonces el microsatelite en la cadena de replicación será más corto; si por lo contrario el lazo está en la cadena de replicación, entonces será más largo; esto proceso ocurre con mucha más frecuencia que la observada para las mutaciones. Esto es debido a que muchas de estas son reparadas durante los procedimientos de autocorrección  o de reparación de la celula, que son bastante estrictos. Por lo tanto las mutaciones son las que han conseguido obviar estos procedimientos de autocorrección. Todo esto está bastante claro incluso para mi, que no domino especialmente estos temas. Hay que añadir otro dato:  Since longer microsatellites present more opportunity for slippage, we would expect mutation rates to increase as a function of microsatellite length; this prediction is experimentally supported [53]. Y todavía hay más, por ello recomendamos leer el  artículo completo). Esto es importante pues  decomo sea la fenomenología dependerá el tamaño del grafo que represente al cromosoma Y y todas sus posibles mutaciones, grafo que recorremos aleatoriamente (algunos dirían) alegremente los que tenemos cromosoma Y, generación tras generación. En cualquier caso seguramente será un peaso de grafo.

4. Análisis de los productos disponibles. 

Además de los dos productos comerciales que hemos citado en el primer punto también existen y he considerado Big Y de FTDNA. E

a) Big Y de FTDNA.

Como ya hemos indicado los tests SNP empiezan a ser informativos para el horizonte genealogico, pero no por sí solos sino como complemento de un test STR. Big Y es precisamente un potente análisis basado en SNP. En esta entrada de otro blog lo han analizado en profundidad indicando su utilidad:

Extractos.

It covers a minimum of 10 million base pairs and approximately 20,000 SNPs.

Who Needs This Test and Why?

This type of test is targeted at males who have one or both situations below.

  1. Has currently taken every available test, meaning through 111 markers and every applicable SNP test for your known haplogroup, and you still need additional information to differentiate lines.  Lines, in this context, can mean either family lines or clan lines.  With the advent of this new test, some men may want to skip the interim SNP testing and just move directly to this more comprehensive test.
  2. Those who want to learn all they can, participate in and contribute to research.  When new SNPs are discovered during the process, which is the goal of the testing, Family Tree DNA has committed to add them to the tree in their proper location immediately.  It’s fun to be part of the discovery process and learn something in the process.

 …

Adoptees and Those Seeking Their Biological Surname

In some cases, the differentiation will be outside of a family line group.  For example, let’s say you don’t know your biological surname and you match several men at 67 and 111 markers, none closely, and several distantly.  Let’s say that they have also tested currently available SNPs and they all match exactly at the haplogroup level.  In this case, I would encourage the adoptee to take the Big Y test and hope that others that you compare against will too.  This could be the differentiating factor in determining the biological paternal line when STR markers alone can’t do the job.  This will be especially true if the estimate of a new SNP every generation and a half proves to be universally accurate.

En función de los objetivos de investigación de mi conocido, que obviamente no voy a hacer públicos,  se descarta recomendar un test de tipo Big Y de momento.

b) Y-67 y Y-111 de FTDNA.  Versus.

Cuanto más leo más pienso que la estrategia tiene que ser gradual. No es necesario empezar por el análisis más potente. Esto puede ser matar moscas a cañonazos.  Esto mismo lo dicen muy explícitamente FTDNA en su página de FAQ:

Extracto.

However, not all participants or projects need to test 67 markers in order to achieve their objectives.

Some projects will be able to achieve their goals with a 12, 25 or 37 marker test. Only if you are in a project and part of a subgroup of that project where you match, exactly or nearly exactly, to several others will you gain by upgrading to additional marker.

Our motto could be: test only what you need, upgrade only when necessary.

Pero tampoco conviene empezar por el más bajo, pues cada upgrade, cada salto a un número mayor de marcadores, si al final es necesari0, tiene unos costes de gestión(tiempo, envios etc…). En términos de coste económico del test entiendo (y si el sistema de tarifas está bien diseñado así tendría que ser) que es lo mismo ir directamente a un test potente (por ejemplo el Y-111) que llegar a el de manera  gradual  (por ejemplo siguiendo la ruta de upgrades Y-37–>Y-67–>Y-111). Pero si al final  necesitas  un Y-111, la diferencia estará en el tiempo. Y los apasionados de la genealogía genética (que de momento son pocos, pero muy apasionados, se pueden poner muy nerviosos…).

Por otra parte creo que es importante también tener en cuenta dos factores más:

–cuantas personas se han realizado el Test con una determinada potencia (por ejemplo el Y-111). Estas son técnicas interesantes cuando puedes comparar tus resultados con otras personas, cuantas más mejor. Cuanto más caro sea el test menos personas se  lo habrán realizado. Llevado al extremo,  un test con un coste de 1 millón de euros se lo habrán realizado unos pocos y el hacértelo no te va a aportar nada, no va a ser informativo. Otro ejemplo si todo el mundo se hace el  Y-67 y sólo tu el Y-111, no vas a poder comparar  los  marcadores adicionales con nadie.

–cuan raro es tu haplotipo. Si tu haplotipo es muy raro (con respecto a la población de personas que se ha realizado el test), entiendo que con pocos marcadores va a ser suficiente para descartar la mayoría de los falsos positivos (personas con las que pensabas que podías estar emparentada pero no lo estás). Y no tengo claro si para identificar verdaderos positivos, en este mismo supuesto de rareza, ayuda mucho el tener más marcadores.  Tema a meditar (Indirectamente relacionado). Una vez lo tenga más claro ampliaré detalles.

Mi conclusión es que si finalmente FTDNA es la plataforma elegida (y tiene toda la pinta de que será así) de momento me oriento hacía  recomendar un Y-37 (169 usd) o un Y-67 (268 usd).

c) Y-Prime de FGC y Big Y de FTDNA (600 usd). Versus. 

Y Prime es un test muestral pero potente basado en SNP. Aparece como competidor de BigY, y se comercializa más o menos al mismo precio que éste.

Aunque ya se  mueven en un nivel de precios un poco elevado, cualquiera de ellos podría ser una opción siempre y cuando ofrezcan también un análisis STR, tan potente al menos como el de Y-111 de FTDNA.

Al respecto, con respecto a Y-Prime: Over 300 Y-STRs (a list of alleles for all the Y-STRs tested), and mtDNA sequence included provided in two separate files showing differences from the CRS and the RSRS.

En esto último contrasta con BigY de FTDNA: Y-STRs and mtDNA sequence included in BAM files but results are not reported though can be obtained by purchasing a third-party analysis.

BAM es un formato binario para almacenar secuencias genómicas. SAM es un formato similar pero más accesible a la lectura del  ser  humano.

BAM and SAM formats are designed to contain the same information. The SAM format is more human readable, and easier to process by conventional text based processing programs, such as awk, sed, python, cut and so on. The BAM format provides binary versions of most of the same data, and is designed to compress reasonably well.

Un enlace relacionado con esto:  http://cruwys.blogspot.com.es/2014/04/a-new-bam-file-analysis-service-from.html

Nota: estaré muy ocupado hasta el fin de semana. Completaré entonces la entrada. La voy publicando para que mi conocido pueda ir considerando el tema y ver si llegamos a las mismas conclusiones.   

5. Algunos otros enlaces. 

http://www.wikitree.com/g2g/38562/which-dna-test-lab-would-you-recommend

Terms and conditions: 1. Any commenter of this blog agrees to transfer the copy right of his comments to the blogger. 2. RSS readers and / or aggregators that captures the content of this blog (posts or comments) are forbidden. These actions will be subject to the DMCA notice-and-takedown rules and will be legally pursued by the proprietor of the blog.

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s


A %d blogueros les gusta esto: