El Lapo Azul. SNP terminal tras un test FGC y distancia genética STR.

Los datos de tests de mutaciones SNP y de tests de mutaciones STR no siempre parecen del todo coherentes. Incluso teniendo en cuenta que estamos tratando con procesos aleatorios. En una entrada anterior nos hacíamos una pregunta al respecto. El tema nos picó la curiosidad y la hemos intentado contestar experimentalmente esta misma tarde (con pocas tomas realmente, pues no tenemos mucho tiempo para estos temas, pero suficientes para aclarar más o menos mi duda, e informativas). Comentamos muy brevemente los resultados.

Planteamiento del problema. Un test FGC es bastante potente: chequea unos 14 millones de pares de bases del cromosoma Y, de un total de unos 25 millones de pares de bases “conocidas”.

Nota al margen 1.

En realidad el cromosoma Y tiene unos  59 millones de pares de bases: There are around 59 million base pairs in the Y-chromosome. However, surprising as it might be in this genomic era, there are still large sections of the Y-chromosome that have not yet been explored. Build 37, the current build of the human genome reference sequence, has only mapped out the positions of around 25 million base pairs – less than half of the Y-chromosome.The discovery of new SNPs is therefore limited to the parts of the Y-chromosome that can be sequenced using current technology. These areas represent just over 40% of the Y-chromosome. In theory, therefore, a SNP could be found on any one of the 25 million bases that can be sequenced.

Fuente. Por la fecha del enlace es posible que estos datos al día de hoy ya estén anticuados.

Fin de nota al margen.

Obviamente de la parte no recombinante y no selectiva. Que yo sepa es el test más potente en este sentido (aunque muy parecido en la práctica es el Big Y de FTDNA) y por lo tanto  nos basamos en él para realizar las “pruebas experimentales”.  Por lo tanto, aunque no es un test de cromosoma completo, es la mejor aproximación que tenemos al respecto (realmente teniendo en cuenta que ya se está próximo a peinar el 100% de la parte más interesante del cromosoma Y a estos efectos, no me queda claro si se espera un test de cromosoma Y completo y si este será mucho más útil de lo que  ya tenemos.

En fin la pregunta que me hacía es cuanto pueden diferir, por término medio, dos personas que tienen un mismo SNP terminal (idealmente tras un test completo de cromosoma Y; pragmáticamente tras un test FGC) en distancia genética STR (para 67 marcadores). Me esperaba que no demasiado: máximo unos diez puntos de GD (no recuerdo ahora muy bien como llegué a esta conclusión pero creo recordar que no fue de manera caprichosa).

Motivación. La motivación inicial ha sido práctica, observando los grupos de FTDNA. Conociendo la distancia genética media entre dos individuos con el mismo SNP terminal tras un test FGC, podríamos determinar si dos individuos que están clasificados en el mismo SNP terminal (tras un test de SNP o tras un predictivo en base a marcadores STR) en realidad tienen este SNP terminal o es de esperar que terminen en diferentes SNPs.

Método: hemos identificado en uno  de los grupos de FTDNA individuos  que tienen el mismo SNP terminal del tipo FGC y hemos calculado su distancia genética en STR para Y-67. Lo hemos realizado para dos SNPs. He realizado las comparaciones manualmente.

Nota al margen. El lector recordará que precisamente el año pasado hicimos un programa de Mathematica que  nos permitía automatizar el calculo del la distancia genética entre dos  individuos (incluso habíamos ampliado la versión para que se pudiese utilizar para una lista de individuos) pero se  nos “fundió” el notebook de Mathematica con la que estábamos trabajando, después de invertir bastante tiempo en construir una base de datos de individuos que queríamos comparar. Desde esta empresa nos contestaron rápidamente como recuperar el notebook, pero el proceso nos pareció complicado y dejamos  de tener tiempo para estos temas y por ello no lo ejecutamos). Podemos recuperar el programa de otra manera ya que lo copiamos en una de las entradas del blog. Entiendo  que sería un corta y pega, salvo que al copiar de wordpress a un notebook cambien los simbolos.  Fin de nota.

Resultados: En el primer SNP la distancia genética máxima (infinite model) entre 6 individuos ha sido de 11, lo cual estaba dentro de nuestras expectativas. En el segundo SNP he parado al ver que dos individuos estaban a una distancia de 15. Y hay otros que seguramente estén a mas distancias…

¿ Como explicar este dato tan abultado, 15, con respecto a nuestras expectativas ?.  Es  posible que nuestras expectativas estuviesen equivocadas: si el test FGC cubre sólo aproximadamente el x% de las pares de bases del cromosoma Y, en el (x-1)% (o % operativo correspondiente) restante puede haber muchos SNPs por descubrir (es decir este no sería en realidad el SNP terminal si un test de cromosoma completo  fuese posible), o es posible (y creo que esta puede ser la interpretación más correcta de la disparidad), que individuos que aparecen como teniendo el SNP terminal FGC-X en los grupos de FTDNA, en realidad no  se hayan realizado un test FGC, sino sólo un test de el SNP en cuestión. Y no es lo  mismo a estos efectos.

Realmente soy neófito en este tipo de tests que aproximan a un test de cromosoma completo (Big Y de FTDNA o el Elite de FGC) y podría haber otros motivos que expliquen la discrepancia. El tema es muy complejo incluso para individuos mucho más documentados que yo sobre estos temas…

Actualización día siguiente.

Confirmado que alguien que no se haya realizado el test FGC puede aparecer en los grupos de FTDNA como teniendo un SNP con nombre FGC. Y entiendo  que lo  mismo puede pasar con Big Y. Por lo tanto la metodología que hemos seguido no es correcta. La correcta pasa por identificar grupos de individuos que se hayan realizado el test FGC, que tengan el mismo SNP terminal tras este test,  y que  se hayan realizado el test STR Y-67. Seguramente son abundantes pero no creo que sea fácil identificarlos públicamente: los numeros de identificación de kit de FTDNA y FGC no  coinciden.

.  Fin actualización.

P.s. Realmente más allá del SNP terminal de dos individuos estarían los SNP privados y tiene que haber una relación entre la cantidad de estos y la distancia genética STR. Aunque no me ha quedado muy clara la diferencia  entre SNP “público” y privado (para que un SNP sea público, tiene que tenerlo el 1% de la población) diría que es otra manera de plantear el mismo problema.

P.s.2. Y sigo teniendo otra gran duda.

Supongamos  que un individuo M tiene dos hijos (N y R) que migran a sendas islas desiertas, N a A y R a B. Una, la  isla  A, solo permite el mantenimiento estático de la población, de tal manera que durante decenas  cientos de generaciones solo se reproduce un hijo; la otra dispone de muchos más recursos de tal manera que en cada generación se pueden reproducir, digamos 10 hijos varones. Si al cabo de x generaciones comparamos el único individuo de la isla A, un descendiente de N, con un individuo elegido al azar de la isla B, un descendiente de R, tendrá este último más mutaciones (digamos gd STR) con respecto a M que el  primero ?. Seguramente la respuesta es evidente pero ahora mismo no la veo clara…No tengo claro ni cuales son las dudas que tengo😦.

Relacionado 2. 

Extractos.

As is often the case in biology, the qualitative discovery of the existence of a process such as mutations during DNA replication and even the exploration of its implications is quite different from the ability to precisely quantify that process. To quantify the average rates of mutation what we want is measurements of the number of mutations per base pair for each replication event. What are typical rates for such genomic alterations and how are they measured?

In humans, a mutation rate of about 10-8 mutations/bp/generation (BNID 105813) was inferred from projects where both parents and their children were sequenced at high coverage. Note that the value of the mutation rate is on a per generation basis and is thus the accumulation in the gametes of mutations occurring over several tens of genome replications between fertilization of the egg all the way until the formation of the next generation of gametes. The characteristic number of such replications is discussed in the vignette on “How many chromosome replications occur per generation?”. In humans it is estimated that there are about 20-30 genome replications between the fertilized egg and the female gametes (BNID 105585) and about ten times that for males, with large variation depending on age (BNID 105574). With ≈3×109 bp in the human genome the mutation rate leads to about 10-8 mutations/bp/generation x 3×109 bp/genome ≈ 10-100 mutations per genome per generation (BNID 110293). Using an order of magnitude of 100 replications per generation, we arrive at 0.1-1 mutations per genome per replication

Entiendo que este efecto de replicación es el mismo en todos los casos y por lo tanto nos podemos abstraer de él para la duda que nos ocupa.

Relacionado 2. En la duda anterior, para simplificar al máximo, nos abstraemos del hecho que comentan en este artículo:

Kong et al. (2012) made an analysis of thecomplete genomes of 78 parent-offspring trios(i.e. father-mother-offspring). The study strictlyconfirmed the fact that the number ofmutations per meiosis increases with the age ofthe father. For the purposes of our study, werepresented the increase of base-substitutionsin a father’s gametes versus his age as a power-law. 
Es decir la probabilidad de mutación por meiosis no varía con la edad del padre.
E independientemente de esta duda un extracto  muy informativo (ya que constantemente se ve en los foros este tipo de estimaciones temporales sin saber muy bien de dónde vienen):
It is convenient to estimate genealogical agedirectly from the actual number of mutations. The formula for calculation of the coefficient is derived from equation (2). It is:
k=1/uB

It is essential for researchers to know the value B of the measured area length. For BigY,the confidence regions length averaged over individual bed files is 10.31 Mbp (BigY White 

Paper, 2014). For FGC Elite, the length is 23Mbp. At the average mutation rate 0,82*10^-9 the coefficient (formula 3) is 118 years for Big Y and 53 years for FGC. If the size of the measured area changes, itis necessary to recalculate the coefficient.
For example, if the measured area of BigY were not 10.31 Mbp but 11.0 Mbp, then the coefficientwould be k=118*(10,31/11) = 111 years per base substitution. For a more effective selection of actualmutations, we recommend that any researcharea be within the boundaries of the combBEDarea. The size of the combBED area inindividual BigY samples varies and the averageis about 7.6 Mbp. The appropriate conversionfactor, therefore, is 160 years per base-substitution.

Yo lo señalado en negrita no lo tenía claro hasta hoy (lo mismo vale para mutaciones STR: no es lo  mismo el multiplicador temporal de Y-67 que de Y-37 o de Y-111).

Actualización día siguiente.

Tal y como lo veo ahora, el caso de la isla de un solo hijo, es equivalente a realizar un experimento aleatorio una sola vez. Y el caso de la otra isla es como repetir el proceso un número exponencial de veces. Por lo tanto es de esperar que en esta isla haya mucha más variabilidad en los resultados. Lo que interesa es conocer la distribución de este proceso, su media y su varianza.

Según he visto en el artículo enlazado se trata de una distribución de Poisson. El evento que observamos k, es el número   de mutaciones en el cromosoma Y en un numero de generaciones dado, y el parámetro lambda (λ es un parámetro positivo que representa el número de veces que se espera que ocurra el fenómeno durante un intervalo dado) entiendo que es 1 mutación por generación x nº de generaciones.

Como yo el lector se habrá preguntado de dónde sale la fórmula de la distribución de Poisson. Como es conocido la distribución de Poisson es límite de la binomial cuando el número de pruebas o ensayos tiende a infinito y la probabilidad de éxito tiende a cero (o es muy pequeña). En la entrada de Mathworld nos  explican claramente como obtener una de otra.

Binomial: 

La fórmula de la binomial está clara.

inline6

  =

formula-distribucion-binomial

=

formula-binomial-2

con N siendo el número de pruebas, “tiradas”  o experimentos, n es el número de eventos positivos obtenido en estas pruebas y p la probabilidad de que salga el evento positivo en cada tirada o éxito.

En la representación gráfica el eje X recorre los valores del número de éxitos, quedando fijos p y el número de tiradas N.

De la binomial a Poisson

Viewing the distribution as a function of the expected number of successes

 nu=Np
(2)

instead of the sample size N for fixed p, equation (2) then becomes

 P_(nu/N)(n|N)=(N!)/(n!(N-n)!)(nu/N)^n(1-nu/N)^(N-n),
(3)

Letting the sample size N become large, the distribution then approaches

P_nu(n) = lim_(N->infty)P_p(n|N)
(4)
= lim_(N->infty)(N(N-1)...(N-n+1))/(n!)(nu^n)/(N^n)(1-nu/N)^N(1-nu/N)^(-n)
(5)
= lim_(N->infty)(N(N-1)...(N-n+1))/(N^n)(nu^n)/(n!)(1-nu/N)^N(1-nu/N)^(-n)
(6)
= 1·(nu^n)/(n!)·e^(-nu)·1
(7)
= (nu^ne^(-nu))/(n!),

Fuente.

Quizás al lector, como a mi al principio no le quede claro el paso de 6 a 7. En 6 tenemos cuatro términos. Cuando N tiende a infinito el primero tiende a 1 (lo cual no es evidente para mi, pero lo damos por bueno), el último también (idem), el segundo aparece tal cual y el tercero es una de las formas de caracterizar la función exponencial inversa

1. Define ex by the limit
{\displaystyle e^{x}=\lim _{n\to \infty }\left(1+{\frac {x}{n}}\right)^{n}.}

Fuente.

y por ello se cambia una expresión por la otra, obteniendo 7. Se recomienda leer esta otra publicación dónde nos explican lo mismo más claramente (ya me queda claro pq el primer término tiende a 1).

V aquí es lambda en otros artículos.

En fin, la parte algebraica está clara. También la operacional. Lo que no tengo tan claro de momento es la semántica (básicamente el paso de p a V=Np, de probabilidad a esperanza).

La esperanza matemática (media) de  la binomial es E(X)=np, con n siendo el número pruebas y p la probabilidad de éxito. La derivaci´n de esta sencilla formula es como sigue:

esperanza-matematica-binomial

Fuente.

Bueno ya está todo más o menos claro y sólo falta aplicar toda esta teoría al caso que nos ocupa, con datos reales en base a la referencia 2. Es decir el problema semántico al que nos referíamos.

Replanteamos el problema:

–Nos dicen en las conclusiones que

Using four independent calibrations andranking them in order of validity and reliabilityyielded independent but similar rates constant for SNP mutations (0.82∙10 ^-9 per year per bp, 95% CI:(0.70−0.94)∙10^-9.

Nos quedamos con este dato para la tasa de mutación, expresada en años y bp.

–consideremos 20 generaciones con una media de 30 años por generación = 600 años.

–en las dos islas se dispone de un test FYC Select, con una base de 10 Mbp (ficticio, pero no  muy alejado de los  datos de la referencia 2 ).

Nos interesa conocer la media y la varianza de la variable nº de mutaciones en un individuo en la Isla B al cabo del tiempo indicado.

[Lo que sigue entre corchetes puede estar sujeto a revisiones (entiendo que no es del todo correcto ¿ pues no estamos teniendo en cuenta el tamaño de una población en crecimiento exponencial ? no tengo claro que esto sea importante ya que Note that the sample size N has completely dropped out of the probability function, which has the same functional form for all values of nu. Estoy un poco perdido con esto…):

Seguimos lo establecido en la referencia 2 (arriba, relacionado 2).

Nos dan la fórmula que nos permite construir la distribución de Poisson como sigue:
Pk = (UT^k/k!)*e^UT. Por lo tanto la V o lambda aquí es  UT, dónde Pk es la probabilidad de k mutaciones que ocurran en un tiempo T dado en el  mismo par de bases de un cromosoma y U es el ratio de mutaciones. Y para obtener la media (que sabemos es igual a V) nos comentan
In practice, many nucleotide sites aremeasured simultaneously. Let a total number of measured base pairs be denoted as B. The average number of SNP mutations (Nsnp)  is determined by the ratio
Nsnp=UsnpTB, (1)
where Usnp is the rate constant of SNP mutations. For brevity’s sake, we call this the “mu-tation rate”.
Por lo tanto en la última fórmula T es el tiempo y B es la base o número de pares de bases que estamos considerando.

Según esto y los datos de los que partimos la media sería:

Nsnp = 0.8*10^(-9)*600*10.000.000 = 4,8 mutaciones SNP

¿ Y la varianza ? ¿ La  misma ?. Es decir 4,8. Si esto es así, los intervalos de confianza (95%) serían Nsnp +/- 1,96*Raiz cuadrada[4,8/n].  ¿ Cual  es el valor de n ?.  Si aplicamos lo  que nos dicen aquí

  • Assuming the number of events is big enough (n>20), the standard error is the standard deviation σ, which we can also estimate,
stderr=σ=Raiz cuadrada [λ]≈Raiz Cuadrada[n]. 
y consideramos 4,8 como grande, entonces el intervalo 1,96* Raiz cuadrada[4,8]=4,3 (aprox).
Con esto ya podemos calcular la variabilidad en mutaciones SNP de la población.

].

Coalescent theory. The mathematical theory of the coalescent was originally developed in the early 1980s by John Kingman.[2] In the simplest case, coalescent theory assumes no recombination, no natural selection, and no gene flow or population structure. Este es el caso  que  nos  interesa.

Referencia 1. Referencia 2. Referencia 3. Referecnia 4. Referencia 5.

Fin de actualización.

Terms and conditions: 1. Any commenter of this blog agrees to transfer the copy right of his comments to the blogger. 2. RSS readers and / or aggregators that captures the content of this blog (posts or comments) are forbidden. These actions will be subject to the DMCA notice-and-takedown rules and will be legally pursued by the proprietor of the blog.

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s


A %d blogueros les gusta esto: