El lapo azul. Relojes genéticos, una nueva propuesta.

Disclaimer. No soy experto en genética ni mucho menos en relojes genéticos. Como el lector habitual conoce me intereso de cuando en cuando con la metodología relacionada con la genealogía genética y en algunas entradas anteriores de la serie el Lapo Azul (ver por ejemplo, las últimas: aquí o aquí), hemos tratado sobre algunos de éstos métodos y sobre los sesgos estadísticos relacionados con ellos.  Creo recordar que también hablábamos  en concreto de los sesgos asociados al cálculo de los TMRCA. En ellas me había propuesto estudiar éstos métodos de cálculo en detalle en algún momento, cosa que aún no he realizado. 

Nota al margen. Por cierto me comentan mis conocidos que en los últimos tests que han encargado a FTDNA están tardando más que nunca y ni siquiera tienen todavía fecha prevista de entrega (de esas que no cumplen nunca ;-)). La incertidumbre es máxima. ¿ Es que no saben que el consumidor de hoy en día lo quiere todo de inmediato ?. ¿ Quien puede esperar varios meses de entrega para un tema que aparentemente se podría resolver en días o pocas semanas ?.  ¡¡ Vaaamos, que es para este siglo !!🙂.

Cuando lo reciban ya ni se acordarán de que hapotiplo eran. Y otra vez a empezarse a aprender toda la nomenclatura (que habrá cambiado otra vez por entonces, árboles (idem), metodologías (idem) etc… A mi ya que ni me consulten. ¡¡ Se me ha olvidado todo !!.   

Ya lo hemos comentado: preocupación por la privacidad, jerga técnica / nomenclatura incomprensibles y continuamente cambiantes, muy lento ritmo de actualización de las redes sociales asociadas a las plataformas y eternos tiempos de entrega (que son tres de los obstáculos que complican que ésta industria tenga una demanda más masiva. Otras dificultados son las negativas connotaciones de la genética en determinados entornos / politización (el enlace lo es a una noticia reciente: Hunt for Viking DNA among Normandy residents riles anti-racism activistsuna mala reputación bien ganada en algunos, casi muchos, casos).

Posiblemente también el precio. Por ello deberían de plantearse dar el salto al concepto de plataforma de test gratuito, con un modelo de rentabilización tipo publicidad o venta de datos (obviamente de manera agregada y anónima, sin perjuicio para el usuario, es decir el modelo 23andme, pero llevado al extremo). ¿ Que tal algún experimento piloto para ver cómo reacciona el mercado ?.

Fin de nota al margen.

Ésta entrada no es más que un recordatorio sobre ésta nueva propuesta para tenerlo a mano cuando los estudie detenidamente. De hecho tras leer por encima éstos artículos, que son cortos  si evitamos el apéndice matemático, ya tengo más clara toda la problemática relacionada con el TMRCA y en concreto con la famosa tasa de mutación. Eso sí todavía con muchas más dudas que certezas…

Me interesa también el posible aspecto sociológico de la propuesta, como caso de un “outsider” (ojo, entrecomillo dado que el autor es académico, es matemático, pero outsider dentro del campo de  la biología, de la genética, es decir de los círculos habituales dónde se discuten éstas cuestiones) que hace una propuesta, no se si interesante (es muy técnica pero a mi me ha parecido informativo con respecto a los supuestos de los métodos tradicionales), con, aparentemente, nula recepción. Ojo, la nula recepción puede tener otras explicaciones:

–puede ser que este tema de los relojes moleculares o genéticos, debido a las disparidades obtenidas con las diversas anteriores propuestas (enlace a un artículo de 2006: The answer to our initial question about dates from the molecular clock (‘how wrong could we be?’) appears to be that we do not yet know. In most cases, we would currently be dubious about a use for molecular clock, which required a date to be within 30% of the true value and we would be cautious about even bigger differences), esté quemado, se dé ya casi por perdido, nadie le preste atención. Posiblemente el parámetro más importante sea la tasa de mutación y mientras no haya avances científicos al respecto, cualquier cocina matemática, por sofisticada que sea, no tiene tanto  interés (el autor destaca que incluso con tasas de mutación bajas obtiene TMRCAs cortos). Seguramente ésto explica la indiferencia de una parte de la comunidad.

–O podría ser que las matemáticas utilizadas no son sencillas (procesos estocásticos, y además el autor no las comunique del todo con claridad) y por ello nadie le haya leído. Actualización 19 de junio 21015. Confirmado: Al menos en varios casos ésta ha sido la razón del desinterés: alguien ha comentado sobre la propuesta, sobre los resultados, de las fechas que proporciona para los haplogrupos,  en los comentarios de un blog, algunos comentaristas han recogido el guante, han mirado el  artículo, han comentado sobre un error en una cita, pero finalmente ante la dificultad de las matemáticas, según han comentado explícitamente, no ha cuajado, han pasado a otro tema. ¿ Prenderá finalmente el rescoldo o quedará sepultado por el poso o quizás avalancha de nuevos comentarios ?. Haremos seguimiento. La primera lección es que nadie habla de unos resultados si no comprende las técnicas o métodos en los que están basados, lo cual parece razonable. Esto puede explicar algunas bellas durmientes científicas (ojo, no estoy diciendo que éste artículo lo sea). La segunda lección es, que si tu resultado contiene matemáticas complicadas, ¡¡ hay que explicarse mejor !!🙂. ¿ Por que va alguien a invertir tiempo en leer un resultado si el propio autor no ha invertido tiempo en simplificarlo al máximo y explicarlo mejor ?. Por otra parte se debe de comentar que lo cierto es que otras comunidades (de comentaristas) del entorno de internet tienen más nivel que la que se mueve en el mundo de la biogeografía humana, dónde los intereses son muchas veces otros que los científicos. Dos días después consulto de nuevo: irreversiblemente sepultado.   fin actualización.

–O puede ser que la propuesta no tenga interés, que utilice unos supuestos extremos poco realistas, de interés matemático pero no científico (de hecho los ejemplos que pone son bastante extremos y no creo que representen la dinámica poblacional media, a nivel global), o que sea incorrecta.

–Una última posibilidad es su reciente publicación: primera versión, mayo 2015 (que no obstante se descargó de Bioarxiv unas 400 veces ya en mayo, que no está nada mal; la versión de junio, a 19 de junio, ya se ha descargado casi 100 veces; ¿ la están peinando todavía ?); aunque cómo veremos, la primera comunicación fue en 2012, fue en forma de conferencia.

En fin, que yo sepa soy el segundo bloguero que comenta sobre éste artículo y por los motivos señalados es muy posible que sea también el último. Yo lo he visto en otro blog, dado que no consulto regularmente bioarxiv; y por la presentación que hace de él, me da la impresión que el otro bloguero no se ha leído ni el abstract, o muy por encima :-)). Incluso es posible que uno mismo acabe eliminando ésta entrada o al menos la subsuma en otra más general, de recopilación de enlaces.

Fin de disclaimer.

1. Preliminares y  breve presentación. 

La propuesta no es tan nueva. El autor, un profesor de matemáticas de la Universidad de Maryland la lleva proponiendo al menos desde 2012.

Antes de seguir mostrando más en detalle los resultados del artículo, recordamos que el input para el cálculo del TMRCA es una serie  de “vectores” de marcadores genéticos para un conjunto de individuos. Dado éste input, un primer problema es encontrar un árbol genealógico que los relacione. El árbol debe de reflejar lo máximo posible lo que ocurrió en la realidad: se trata de reconstruir una historia en base a la información acumulada (a las  mutaciones acumuladas) en los genes de la muestra o de la población que se estudia. En general se asume que el árbol más probable es el real. Hasta aquí el problema, digamos, es “topológico”.

Si además añadimos al input una(s) tasa(s) de mutación(es) (que pueden diferir para cada marcador) ya estamos haciendo “geometría”, ya que podemos determinar la longitud de cada rama del árbol genealógico, que expresa el tiempo que pasó desde que las ramas se separaron. Siguiendo con la analogía anterior, como en toda historia, nos interesa conocer cuando, en que fechas en concreto, ocurrieron los hitos fundamentales, nos interesa fecharlos, datarlos. Esto es lo que expresa el TMRCA (que se puede expresar también sin relación al árbol, simplemente como una cantidad de distancia temporal). Cabe insistir en que la tasa de mutación es un dato  de la naturaleza que se desconoce, y que se debe de estimar con más o menos precisión. Las diferentes estimaciones por parte de los diferentes autores explican las disparidades obtenidas en relación al TMRCA. Si ya es complicado obtener un árbol topológico real, que no será obtener el árbol con la longitud correcta de las ramas….

A continuación, para que el lector no iniciado entienda de que hablamos, a continuación una formula para calcular el TMRCA según el método de la varianza.

TMRCA_ASD_formula

Fuente, dónde además facilitan un calculador de TMRCA automático on-line, para grupos de individuos (no sólo pares).

Se puede leer antes esta entrada de FTDNA escrita por Bruce Walsh dónde explica todos los detalles técnicos que ayudan a poner en constexto el TMRCA (me ha aclarado una duda que tenía), aunque utiliza métodos bayesanos.

Como se ve, se parte de la matriz o tabla de individuos x marcadores, que son los datos y se selecciona el ancestro modal. Otro dato que aparece en la fórmula y es empírico son las tasas de mutación. A continuación hacemos una breve análisis dimensional de la fórmula (de más general a más concreto):

–la parte entre corchetes nos va a dar un ratio que expresa el número de generaciones, que al ser multiplicado por el G, número de años por generación que se haya elegido (25, 27 o 30 suelen ser los habituales), nos dará el número total de años que separa al grupo del ancestro más reciente común, es decir el TMRCA.

–Dentro de los corchetes, la parte entre paréntesis es el numerador que nos da el cuadrado del número total de mutaciones del grupo (con respecto al modal).

–Dentro de los corchetes, la parte izquierda es el denominador, que  no es más que  una media ponderada de la famosa tasa de mutación (se puede determinar que sea la misma para todos los marcadores, lo cual simplifica) y que dimensionalmente se expresa en mutaciones por (pares de bases u otra unidad elegida) por generación. 

Resumiendo, la fórmula expresada dimensionalmente:

(Cantidad de mutaciones / mutaciones por generación)*(años por generación) = número de años hasta el último ancestro común = TMRCA.

Si comprende bien ésta fórmula (que cómo se ve no es complicada) el lector podrá evaluar mejor la propuesta de la que hablamos.

Sobre las tasas de mutación recordamos lo que comentaba uno de los padres de la técnica TMRCA para los STR, Walsh: the second issue is setting the rate of the clock. This just a function of the mutation rate. It is highly likely that the mutation rates will differ across markers, and markers with higher mutation rates give faster clocks. Faster clocks are a good thing, in that they allow for more precision in estimating TMRCA. We make the initial assumption that the mutation rate is the same for each marker, something we will adjust as new data become available. We compute TMRCA using two different mutation rates — the standard average (over a bunch of studies) of around 0.002 (1/500) per generation (so that on average there is about one mutation every 500 generations), and a faster rate that is consistent with at least some of the data. Es por lo tanto en general un parámetro que se define, es un dato que nos provee la naturaleza.

Nota al margen. Decíamos que el autor es un outsider del campo de la biología. No se debe de olvidar que, al igual que éste autor, uno de los padres de la teoría de la coalescencia era matemático. Sobre ésta teoría ver también éste enlace. Y sobre lo mismo, más resumido, claro y con gráficos. Fin de nota al margen.

Volviendo al artículo, según explica el autor, los métodos habituales (KAPZ/Varianza, es decir aquel cuya fórmula hemos presentado anteriormente  y BATWING/Bayesano) presuponen que el proceso estocástico (generador de mutaciones) es homogéneo en todas las ramas (star radiation process).

Según el  nuevo modelo que propone, asume un proceso estocástico diferente, en el que la mayoría de las ramas acaban extinguiendose (debido al proceso Watson-Galton) y algunas, los linajes singulares, son más exitosas (en términos reproductivos) que las otras (selección por parentesco de Hamilton).

Extracto.

We believe that the standard stochastic process is perturbed by other improbable events, which are then amplified by biological processes.

–First, the Watson-Galton Process implies lineages almost certainly die out. Relacionado.

–Conversely, the “kin selection” of W.D. Hamilton, shows kin co-operation gives genetic advantages.

We emphasize kin selection because it seems dominant over natural selection for recent branching, certainly we do not think the O’Niall are genetically superior! Natural selection would cause similar branching over longer time scales. Our model has many extinct twigs with a few successful branches, whereas current models assume a uniform “star radiation”.

Modelling singular lineages requires a new stochastic system where instead of a single patriarch we imagine many “virtual patriarchs each originating at a different time and giving a fixed proportion of the present population. Solving for these times and proportions is an inversion problem. But inversion is unstable for such systems, also there is no unique solution. However it turns out that, up to a standard deviation, most DYS markers show at most one singular branch which is found from asymmetries in the distribution. These singular branches are then reduced revealing the original lineage.

We then compute a branching time tj for each marker j. Now the nonuniform branching process causes the tj to be randomly distributed so their mean is not the TMRCA see figure 2. Large errors in mutation rates means one cannot simply take the max tj to be the TMRCA. Instead stochastic simulations of the branching process, using robust statistics to avoid outliers, find the most likely TMRCA. The effect of reduction is dramatic, e.g. the TMRCA for R1b1a2 changes from 5500BC(KAPZ) to 3700BC after singular reduction, using the same markers and mutation rates, see Figure 3 and Table 1.

Además de los dos factores señalados, asume o comenta también que en su modelo las mutaciones son asimétricas, es decir, obtener en la siguiente generación una repetición más en un marcador dado no es igual de probable que obtener una repetición menos. No entiendo muy bien la necesidad o justificación de esta parte, de ésta asimetría, ¿ tiene origen empírico, es decir la simetría de los otros modelos no es más que una simplificación de la realidad y el consigue un modelo más realista ?; ¿ es sólo una opción que el  autor explora ?; ¿ o es necesario para romper la uniformidad del otro proceso ?. Tras haber leído muy por encima el apéndice técnico / matématico sobre éste tema en concreto creo que el autor sigue sin explicar el motivo de ésta opción. Ya digo, o no me he enterado bien, o lo que leo no tiene mucho sentido.

También he leído por encima el apéndice matemático sobre el resto y obviamente de momento no me he enterado de todo (entre otras cosas no conozco los métodos que utiliza), pero los pasos están más justificados (aunque en esta parte de nuevo introduce y utiliza las mutaciones asimétricas sin justificación).  Primero plantea el caso de una ecuación estocástica homogénea que define un proceso uniforme (un sólo ancestro con todas las ramas teniendo un desarrollo uniforme, aunque con mutaciones asimétricas), da las soluciones y explica la problemática que surge con este modelo y que le lleva a plantear el modelo heterogéneo (varios ancestros que van surgiendo en diferentes momentos del tiempo). Este segundo sistema de ecuaciones estocásticas está mal definido lo cual corrige con la reducción de las singularidades (identifica asimetrías  en la distribución y al pulirlas realiza un cambio en las frecuencias). Al utilizar estas reducciones ya no puede utilizar la formula KAPZ (la que hemos explicado) para el TMRCA y presenta otra fórmula. En su modelo asume que las singularidades son únicas pero comenta que podrían ser más y que si se incluyesen más ajustaría mejor el TMRCA.

Extracto.

Reducing the singular lineages increases the frequency f(j, 0) of the mode and decreases the computed TMRCA. But as the method of reducing singularities does not respect higher frequencies f(j, k) it follows the KAPZ formula cannot be used and instead we use the probability of no mutations, i.e. solve F(j, 0) = (e^−µjt) I0[2t √ µj,−1 µj,1 ]. This is done for each DYS marker j , giving expansion times t1, …tN for each marker, with computed CI. (An extra fixed source of error is the uncertainty in the mutation rates which we deal with later). We find the reduction of singularities makes striking difference to the tj of the effected markers, often a reduction of ∼ 50% for TMRCA. Now the existence of side branches implies that the main branch could itself have been the side branch for an earlier branch that did not survive. Thus we do not expect the expansion times t1, …tN for each marker to be essentially equal., i.e they are not within the SD of each other. Indeed we see that the distribution of the times tj for different markers are almost certainly not randomly arranged about a single TRMCA T but distributed from T to the present. This is seen whether you use reduction or not, or our mutation rates or not. (For a given population one could scale mutation rates to get equal tj , but then applying these adhoc mutation rates to other populations does not yield the same values). The spread out distribution of surviving branches is another verification of our theory of many extinctions, few survivors. The distribution of the times tj for different markers we call the branching distribution, which is now discussed.

The Branching Distribution: The times tj for different markers are sorted from the youngest to the oldest, forming a sequence t ∗ 1, …t∗ N . The generation of these branches is by an unknown probability distribution dτ0 over [0, T]. We model dτ0 by assuming a surviving lineage is generated at random with probability β∆t in time period [t, t + ∆t], multiplied by the probability that the branching hasn’t already occurred. The constant β averages fertility and extinction rates, the chance of a new lineage surviving. As β → ∞ we get current theory where all lineages originate from a single patriarch at time T. Simulations with the data show that β varies in the range 1 to ∞. We make no a priori estimate of β, unlike Bayesian methods where an overall fertility rate is a predetermined parameter. Instead our stochastic simulation will find the most likely β, T in each case. Assuming independence, then the generation of branches follows the well known exponential distribution:

τ0[t] = Exp[β(t − T)] UnitStep[T − t].

Estimating the parameter T for an exponential distribution is a well known problem of statistics. Kendall proved the best estimate for T would be max tj.

Finalmente hay un apéndice, digamos informático, dónde muestra como  aplica el método a 8 haplotipos, que he mirado también muy por encima. El programa que utiliza para aplicar su método es Mathematica, programa que conozco. Además de las instrucciones y los outputs, va añadiendo algún comentario y en general el apéndice es bastante clarificador, peor no del todo. Si el autor lee ésta entrada, que no creo, le sugiero:

–que explique más claramente de dónde saca los datos genéticos para ésta parte. Entiendo que de los grupos de FTDNA, tal y cómo comenta en el artículo, pero también en ésta parte comenta: We use 29 markers (standard method) for G2a3, R1b1a2,R1a1, I1, L21, U106, J2, P312, requires running compiled functions from 29ComFun and its data file W29ComFun; ¿ que es w29comfun ?; si puede ser yo añadiría enlaces a los grupos de FTDNA),

–que añada al inicio un cuadro con un diagrama de flujo que detalle de manera resumida el algoritmo y luego que sea más explícito en los comentarios explicando cada paso. Por ejemplo en la matriz dónde aparecen datos de haplotipos x marcadores, podría indicar a que se refiere cada línea (las dos primeras están claras, identifican el haplotipo y el marcador, pero las 6 siguientes no, al menos para mi).

–También que explique mejor los gráficos. Por ejemplo en las distribuciones de tiempo por cada marcador, no está  claro si en las x habla de generaciones o años. También las y. Esto podría hacerlo en el avance de gráficos que hace en el artículo.

En fin, para terminar ésta breve presentación comentamos que éste método, que como se ve no es nada sencillo (yo, tras una lectura del apéndice matemático, entiendo más o menos la propuesta pero muy a vista de pájaro, intuitivamente y con más dudas que certezas: tengo claro el problema del método de la varianza en los casos que comenta, tengo claro por qué este método es adcuado cuando el proceso subyacente es uniforme, pero no tengo claro, en lo matemático, cual es el nuevo proceso que propone y por qué su nueva fórmula es adecuada para éste nuevo proceso, además del tema de la mutación asimétrica; para comprenderlo en detalle necesitaría dedicarle más tiempo que el que dispongo), con el que el autor dice que se obtiene unos TMRCA más cortos que los habituales y que además proporciona una nueva manera de estimar las tasas de mutación (These methods also imply a new way of computing mutation rates, see SM2 (material adicional 2). Previously, there were methods based on mitosis data or pedigree studies of family DNA projects (which gave quite different rates)), se debe de sumar a los ya existentes (que por cierto ofrecen bastante disparidad) y ser valorado por los especialistas, si es que lo lee alguno.

Como veremos la versión de mayo 2015 se ha descargado por cientos de individuos, y entiendo que entre ellos habrá expertos que lo puedan evaluar.

2. La conferencia de 2012. 

Title: An Accurate Genetic Clock And The Third Moment

  • Speaker: Prof. David Hamilton, (UMCP)
  • Date/Time: February 16, 2012, 3:30pm
  • Location: Room 1313, Math Building, University of Maryland College Park (directions).
  • Sponsor: University of Maryland, Statistics Program (seminar updates).

Abstract:

The genetic clock uses mutations at molecular markers to estimate the time T1 of origin of a population. It has become important in the evolution of species and diseases, forensics, history and geneology. However the two types of methods used yield very different estimates even from the same data. For humans at about 10,000 ybp. Mean square Estimates. (MSE) give results about 100% more than .Bayesian analysis of random trees. (BAT).

Also the SD are about 50% of T1. (In the last 500 years all methods give similar and accurate results). Our new theory explains why MSE overestimates by about 50%, while BAT underestimates by about 25%. This is just not a mathematical problem but involves two quite different physical phenomena. The first comes from the mutation process itself. The second is macroscopic and arises from the reproductive dominance of elite lineages. Our method deals with both giving 15% accuracy at 10,000 ybp. This is precise enough to resolve a question first mentioned in Genesis, argued over by archeologists and linguists (and Nazis): the origin of the Europeans. The theory depends on solving a stochastic system of infinite dimensional ode by hyperbolic Bessel functions. At the heart is a new inequality for probability distributions P normalized with mean . = 0, variance _ = 1: If the third moment ! > 0 we have P(1,+1) > 0.

3. El artículo de mayo de 2015.

Professor D. H. Hamilton Department of Mathematics, University of Maryland

Título. AN ACCURATE GENETIC CLOCK

Abstract.

Molecular clocks give “Time to most recent common ancestor” TMRCA of genetic trees. By Watson-Galton17 most lineages terminate, with a few overrepresented singular lineages generated by W. Hamilton’s “kin selection”13. Applying current methods to this non-uniform branching produces greatly exaggerated TMRCA. We introduce an inhomogenous stochastic process which detects singular lineages by asymmetries, whose reduction gives true TMRCA. This implies a new method for computing mutation rates. Despite low rates similar to mitosis data, reduction implies younger TMRCA, with smaller errors. We establish accuracy by a comparison across a wide range of time, indeed this is only clock giving consistent results for both short and long term times. In particular we show that the dominant European y-haplotypes R1a1a & R1b1a2, expand from c3700BC, not reaching Anatolia before c3300BC. While this contradicts current clocks which date R1b1a2 to either the Neolithic Near East4 or Paleo-Europe20, our dates support recent genetic analysis of ancient skeletons by Reich23 .

Según las estadísticas de Arxiv al día de hoy (16 de junio) han leído el abstract de ésta versión unos 744 individuos y se han descargado el PDF 433.

4. El artículo de junio de 2015.

Título. An accurate genetic clock

David Hamilton. Department of Mathematics, University of Maryland, College Park

Abstract. Our method for “Time to most recent common ancestor” TMRCA of genetic trees for the first time deals with natural selection by apriori mathematics and not as a random factor. Bioprocesses such as “kin selection” generate a few overrepresented “singular lineages” while almost all other lineages terminate. This non-uniform branching gives greatly exaggerated TMRCA with current methods. Thus we introduce an inhomogenous stochastic process which will detect singular lineages by asymmetries, whose “reduction” then gives true TMRCA. Reduction implies younger TMRCA, with smaller errors. This gives a new phylogenetic method for computing mutation rates, with results similar to “pedigree” (meiosis) data. Despite these low rates, reduction implies younger TMRCA, with smaller errors. We establish accuracy by a comparison across a wide range of time, indeed this is only y-clock giving consistent results for 500-15,000 ybp. In particular we show that the dominant European y-haplotypes R1a1a & R1b1a2, expand from c3700BC, not reaching Anatolia before c3300BC. This contradicts current clocks dating R1b1a2 to either the Neolithic Near East or Paleo-Europe. However our dates match R1a1a & R1b1a2 found in Yamnaya cemetaries of c3300BC by Svante P¨a¨abo et al, together proving R1a1a & R1b1a2 originates in the Russian Steppes

En éste artículo incorpora un apéndice matemático y metodológico más completo.

Nota. En el de mayo ya incorporaba en la bibliografía el resultado de Haak et al. (o Reich et al.), 2015. En la nueva versión de junio no ha incorporado el resultado de Allentoft et al. 2015. Fin de nota.

También en ésta versión se extiende un poco más en relación a las conclusiones (que en mi opinión no se siguen) sobre el tema de los indoeuropeos.

In checking accuracy we ran into the question of the origins of PIE. Although there are genes for language there is certainly none for any Indo-European language. Thus inferences have to be indirect. Marija Gimbutas saw patterns in symbolism and burial rituals suggesting the Yamnaya Culture was the cradle of Proto Indo-European. Also their physiology was robustly Europeanoid unlike the gracile skeletons of Neolithic Europe, but this could be nutrition and not genetic. From the above we conclude that the spread of this robust type into Western Europe in the late Neolithic marked an influx of Steppe nomads. Now if R1b1a2 had been shown to spread from Anatolia c6000BC it would have been taken as strong evidence for ”out of Anatolia” because of the association of R1b1a2, R1a1 with Indo-European languages. But our accuracy check showed that it was G2a, J2 that spread with the Neolithic Expansion from Anatolia. Now these have been associated with Caucasian languages or Semitic, but never with Indo-European

No pongo en duda que la corrección del proceso estocástico sobre la que habla tenga sentido (no lo sé) y que obtenga TMRCA más exactos, pero no estoy seguro que algunos pasos lógicos que da en la aplicación de su método al caso de los indoeuropeos sean correctos.

Me refiero el deducir de los datos de TRMCA de poblaciones actuales de un territorio, el que llegasen realmente allí en esa (aproximada) fecha pasada. Podrían ser una etnia que se movía, haber estado en cualquier otra parte en esa época y haber llegado más tarde a ese territorio en concreto. Ésto requiere mayor reflexión.

Por otra parte recuerdo una vez más las debidas precauciones a la hora de extrapolar datos obtenidos con los grupos de FTDNA, a la población a la que se supone que representan, ya que seguramente están sujetos a variados sesgos.

Nota al margen. Por cierto, por el camino he encontrado un artículo que me aclara en parte una duda que tenía hace tiempo:

Even with haploid DNA sequence data, estimating TMRCA based on a sample remains a major challenge. Saunders et al. (1984) have shown that, although the TMRCA estimated from a sample can be different from the true TMRCA, the probability that the estimate will coincide with the true value is

(n-1)/(n+1)*(N+1)/(N-1) =(aprox) (n-1)/(n+1).

, where n is the sample size and N (>> n) the population size (assumed to have been large and constant over evolutionary time). Thus, provided that we are dealing with numerically large and temporally constant-size populations, even with a sample of 38 haploid DNA sequences (n), the probability of correctly estimating the true TMRCA is 0.95. Thus the TMRCA of a sample is a reasonably good estimate of the TMRCA of the population (Saunders et al. 1984). Statistical methods have been developed to estimate TMRCA from a sample. However, the temporal constancy of population size is a crucial assumption underlying these methods. In practice, a population is expected to encounter demographic pressures (such as bottlenecks and expansions), resulting in violation of this assumption. The purpose of this study is to evaluate the impact of evolutionarily variable demographic scenarios on the estimates of TMRCA obtained by using two popular statistical methods.  

Por lo tanto para estimar este parámetro, dadas las condiciones, no se necesitan muestras muy amplias. Pero ojo, tiene que ser una muestra seleccionada aleatoriamente entre de la población. Los grupos de FTDNA no son selecciones aleatorias.

El título del artículo es: A comparison of two popular statistical methods for estimating the time to most recent common ancestor (TMRCA) from a sample of DNA sequences. 2003.

Saunders I. W., Tavare S. and Watterson G. A. 1984 On the genealogy of nested subsamples from a haploid population. Adv. Appl. Prob. 16, 471–491.

Fin de nota al margen. 

Extractos (del artículo que comentamos, versión junio, lo relacionado con la aplicación) con comentarios.

Las discrepancias de los métodos habituales son bastante acusadas.

For R1b1a2 the KAPZ has TMRCA 9800BC compared with 18,000BC for BATWING.

Y explica cual es la causa de ésto, los linajes singulares:

Now these singular lineages are very (mathematically) unlikely to arise from the stochastic system which is the mathematical basis of KAPZ (or the equivalent Monte-Carlo process modeling BATWING). We believe that the standard stochastic process is perturbed by “improbable” biological processes.

Nos comenta a que grupos ha aplicado su método:

We begin with 8 very large SNP projects from FTDNA using 37 markers, of course with unknown TMRCA. 

Creo que quiere decir STR y no SNP.

The next table shows the expansion times of the dominant European y-haplotypes R1b1a2 & R1a1a. These are very close to c3700BC, only Scandinavia is significantly later. This data is from FTDNA projects for region X only using individuals with named ancestor from X. These independent results agree within the standard deviation, with dates matching the Corded Ware Culture, a semi-nomadic people with wagons and horses who expanded west from the Urkraine c3500BC. This is consistent with the oldest R1b1a2, R1a1a skeletons being from the Yamnaya Culture, c 3300BC, see S. P¨a¨abo et al [24]

Luego muestra una tabla en la que el TMRCA calculado para R1b1a2 para los individuos que hoy viven en Polonia es mayor que el de los alemanes y éste, a su vez, mayor que el de los Escandinavos.  Y para R1a1a el orden es Polonia>Escandinavia>Rusia=Alemania aunque ésta última tiene mayor desviación típica. Ya lo hemos dicho: no sé si se puede deducir de todo ésto que estos haplotipos llegaron a estas zonas en éstas fechas. Me temo que no.

Analiza otros casos con muestras débiles para mostrar las enormes desviaciones estándar que se producen (por lo tanto  es consciente del problema que puede suponer el trabajar con muestras no representativas ni de los individuos ni de los genomas) y luego analiza un caso con muestras más potentes: Armenia.

Fortunately, once again, we find good data from FTDNA: the Armenian DNA project, see below. By tradition the Armenians entered Anatolia from the Balkans c1000BC so they might not seem a good example of ancient Anatolian DNA. But some 100 generations of genetic diffusion has resulted in an Armenian distribution of Haplotypes J, G, R1b1a2 closely matching that of all Anatolians, therefore representive of typical Anatolian DNA. We see that Anatolian R1b1a2 arrived after c3300BC, ruling out the Neolithic expansion c6000BC. When dealing with regional haplotypes, e.g. R1b1a2 in Anatolia, the TMRCA is only a upper bound for the arrival times, for the genetic spread may be carried by movements of whole peoples from some other region. This means one has to be careful interpreting regional data, e.g. the TMRCA for the R1b1a2(USA) is c3700BC but nobody thinks it arrived then. 

En la tabla el TMRCA para J2 es 12.000 años, con una DT de 2000.

Observe that our TMRCA for Armenian G2a2b (formerly G2a3) and J2 show them to be the first Neolithic farmers from Anatolia, i.e. older than 7000BC. From Table 1 we see J2, G2a2b for all of Western Europe (non-Armenian data). Our dates show J2 was expanding at the end of the Ice Age. Modern J2 is still concentrated in the fertile crescent, but also in disconnected regions across the Mediterranean. The old genetic model predicted a continuous wave of Neolithic farmers settling Europe [8]. But you cannot have a continuous maritime settlement: it must be leap-frog. Also repeated resettlement from the Eastern Mediterranean has mixed ancient J2 populations, and our method gives the oldest date. On the other hand G2a2b shows exactly the dates expected from a continuous wave of Neolithic farmers across Central Europe. Our dates are consistent with recent findings that the majority of early Neolithic skeletons found in Western Europe are G2a2, c 5000BC see[33], whereas the oldest R1b1a2 found so far is Bellbeaker c2300BC, [24], [25].

En la discusión hace un comentario relevante para la teoría biológica:

Some geneticists thought natural selection makes mutation rates too variable to be useful. The problem is confusion between the actual biochemistry giving mutations and superimposed processes like kin selection producing apparently greater rates. Notice that the SD for our mutation rates is on average 14% which is much smaller than the actual previous rates. We believe this proves the reality of neutral mutation rates.

Al final hay un largo apéndice matemático y metodológico, con un programa de Mathematica y todo…:-).

Artículo citado. THE EVOLUTION OF SELECTIVELY SIMILAR ELECTROPHORETICALLY DETECTABLE ALLELES IN FINITE NATURAL POPULATIONS 

P.s.1 Ya he visto que algunos están utilizando éste artículo (la versión junio 2015) para llegar a conclusiones que no se siguen. En ciencia no  se puede dar por supuesto lo que precisamente hay que demostrar.

Actualización 19  junio 2015. También he visto una entrada en la que desautorizan, en parte, a un blog al que hemos enlazado en relación a la vigencia (más bien a al menos todavía no ha qudado descartada por los nuevos datos) de la hipótesis de Renfrew. Parece que hay acuerdo entre los dos campos en que para decidir la cuestión hay que obtener datos de DNA Antiguo del sur de Eurasia (Europa, Oriente Medio +Irán, Asia Central e India). Fin actualización.

 

Terms and conditions: 1. Any commenter of this blog agrees to transfer the copy right of his comments to the blogger. 2. RSS readers and / or aggregators that captures the content of this blog (posts or comments) are forbidden. These actions will be subject to the DMCA notice-and-takedown rules and will be legally pursued by the proprietor of the blog.

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s


A %d blogueros les gusta esto: