Imperialismo computacional & biología. El lapo azul.

Actualizado 9/4/2014 con apéndice metodológico sobre Ancestry Composition de 23andme. 

1. Los interesados en la genealogía científica (son los menos; los más se conforman con la de tipo legendario; a los primeros les motiva la curiosidad, a los segundos la vanidad, las dos motivaciones perfectamente legítimas) conocen bien la cantidad de horas que hay que pasarse en archivos, bibliotecas etc…para cubrir algunas de las lagunas existentes en alguna línea, para realizar un mínimo avance.

[Nota al margen: yo esto de ir a los archivos lo dejé la primera vez que fui a uno de ellos, con miles de documentos a mi mano, que pensaba podían ser relevantes, pero no entendía nada (por razones de paleografía).  Es como meter a un lobo en un corral pero con un cristal irrompible que lo separe del rebaño. Se me ocurre otra metáfora similares para describir la situación que harían comprender mejor la situación a cualquier hombre pero las omito. Al contrario mi acompañante que no era ni historiador /ora ni experto/a ni nada de eso los leía como si fuesen el periódico. He de decir que es la persona más inteligente que conozco y por ello no me extrañó. Por ello desde ese momento lo dejé en sus manos, en muy buenas manos. Y además de compartir interés, tenía más tiempo que yo. Dicho esto desde entonces admiro a los que se dedican a la transcripción de documentos antiguos, admiración sobre la que quiero dejar constancia explícita aquí].

Y aún así esta disciplina es muy ingrata: lo normal es que siga habiendo lagunas insoslayables, lineas no  documentadas plenamente, agujeros genealogicos.  El resultado de tanto  trabajo, de tantas horas, de tantas miopías ganadas, de tanto polvo ancestral inhalado, de tanto callo en los dedos o de tanta agujeta en las mejillas (por tener que sonreír al bibliotecario /a o archivero /a de turno) puede y suele ser infructuoso.

Pues bien todo esto ha cambiado. Ahora echando un lapo, un escupitajo,  un sipiajo o como quiera llamarlo el lector, en un pequeño recipiente puedes conocer tus orígenes hasta el principio de los tiempos. Parece mentira que algo tan insignificante,  tan desechable, incluso diría despreciable si de verdad alguien quisiera perder el tiempo en calificar negativamente tal cosa, algo que tiramos en cualquier momento y en cualquier parte (cuando no estamos en casa y no  nos ve nadie), sea tan informativo, contenga nuestra realidad biológica, pasada y presente, pero así es.

Sí me refiero a los tests genéticos,  con aplicaciones para temas de salud pero también para temas de genealogía genética. Yo es algo que había considerado hacerme, pero que de momento había desechado por no tener tampoco un enorme interés en ello. Siento curiosidad, pero puedo pasarme sin conocer si soy del  haplogrupo (del cromosoma Y), Z o Y. El caso es que tampoco son prohibitivos en coste (puedes conseguir un test estándar por menos de 20o euros), pero llevan su tiempo, hay que conocer en detalle en que consisten, hay problemas de privacidad e incluso de bien comunitario (en el fondo determinada información genética no es solo tuya sino también de todos tus parientes)…y ya he comentado en otras ocasiones  que me interesan más los temas culturales que los biológicos o genéticos.

El caso es que recientemente se los ha hecho una persona conocida (no es familiar), en la plataforma 23andme (hay otras plataformas similares) y como tenemos confianza y esta persona sabe que sigo aunque  a distancia estos temas de biogeografía humana, me ha permitido acceso a su cuenta y me ha planteado una serie de interrogantes que he intentado atender.

2. La utilidad de los Tests genéticos para la genealogía.

La primera pregunta que se hará el lector es que resultados te dan en este tipo de tests y que utilidad tienen estos para la genealogía genética (otra cosa, muy diferente, son su utilidad en materia de salud; entiendo que de momento limitada dado que la disciplina de la medicina genética, pese a los grandes avances, está todavía en pañales.

Los resultado son de tres tipos (la genética es una disciplina biológica y por lo tanto utilizamos  su propia terminología):

genética uniparental macho  Lo que te  proporcionan es, primero una muestra de la secuencia de tu adn para el cromosoma Y (hay plataformas que por lo visto e ofrecen la secuencia del 100%).  Como es sabido, el  cromosoma Y se transmite de padre a hijo sin mezcla. Como la transmisión genética es bastante fiel, los únicos cambios que puede haber en esta transmisión son mutaciones de varios tipos (bastante infrecuentes), entre ellas de un solo nucleótido (los llamados SNP) o de otro tipo (las llamadas Short Tandem  Repeats). Una artículo muy claro que explica la diferencia entre estos dos tipos de mutaciones aquí.  Gracias a esto desde hace unos años se ha construido una “tabla de los elementos” de la genética masculina que permite conocer a una persona a que clase pertenece.  Las clases o haplogrupos típicos que aparecen en Europa son R, I, G, N o E y de manera bastante más minoritaria la J (la dinámica del cromosoma Y es muy parecida a la dinámica de los apellidos, y al final lo  normal  es que en comunidades aisladas predominen unos pocos.). Las clases típicas de África son A, B, E. Etc…  Cada una de estas clases viene definida por varias mutaciones a y su vez hay subclases basadas en mutaciones adicionales. El muestreo que hace el  chip de 23and me, dónde se ha depositado el lapo, no es aleatorio, es dirigido y permite identificar el Haplogrupo y otro tipo de mutaciones relevantes.

genética uniparental hembra. Hay un tipo de ADN, llamado mitocondrial (el asociado a las mitocondrias), que se transmite por línea de hembra directa: de madre a hija. Ojo, no confundir con la transmisión del apellido materno en España. Esto último no es  una transmisión por línea de hembra directa. El caso es que gracias a esto, también existe una tabla de elementos de la mujer, también con letras. Reconozco que la genética de esta línea la conozco menos en detalle, pero todo lo que hemos comentado anteriormente se puede trasladar aquí.

El tamaño dela cadena de ADN del cromosoma Y es  bastante mayor que la cadena del ADN mitcondrial:   el adn mitocondrial tiene 16000 bases para codificar 37 genes;  el cromosoma Y tiene unos 59 millones de bases para codificar 397 genes, y esta diferencia en tamaño tiene importantes diferencias. Recordemos al  lector que una base es una posición en la cadena de ADN. Como es sabido cada posición la puede ocupar uno cuatro compuestos bioquímicos muy concretos (timina, guanina, adenosina y citosina o t, g, a y c).  Por  lo tanto el lector puede pensar en el adn como en una cadena más o menos larga (según el cromosoma) de cuatro letras. Por ejemplo: aatgccctaactgaaaagtgtgtgtcccagtgt  es una cadena de adn (no es realista, la he fabricado yo ahora  mismo).

Ojo, no todas las bases son codificantes y es gracias al adn no codificante, llamado neutro, que se pueden realizar una tabla de los elementos que no esté distorsionada por la selección natural y que permita establecer relaciones de parentesco. Es esto lo que permite asegurar que dos individuos que pertenecen a la misma clase, al mismo haplogrupo, por ejemplo el R en cromosoma Y, están emparentados, descienden de otro anterior.

genética del cromosoma X. Es recombinante pero algo diferente al del resto de cromosomas.

–genética somática.

Las dos líneas anteriores nos dan información sólo sobre dos líneas de ancestros.  Pero tenemos muchas más. Concretamente para n generaciones de distancia tenemos, en teoría 2^n ancestros diferentes (2  padres, 4 abuelos, 8 bisabuelos…2^n ene-uelos). Lógicamente hay repeticiones  y cuanto  más  lejos en el  tiempo, más repeticiones. Aún así a una distancia razonable de 40-20 generaciones, que es el horizonte geneálogico máximo documentable que podemos esperar (entre la Antigüedad y la  Edad Media hubo una ruptura documental imposible de superar para casi todo el mundo, y yo diría que si somos estrictos en las exigencias científicas para todo el mundo), lo normal es que tengamos múltiples líneas diferentes (con algunas repeticiones). Si lo que queremos es tener información sobre la genética de estas otras líneas tenemos que estudiar el adn de los otros 22 cromosomas restantes, a cuya constitución han contribuido todos los ancestros (ojo, aunque, nuestro adn actual no tenga segmentos de todos ellos). Y esto plantean un problema: se transmiten de generación en generación pero con mezcla (no vamos a profundizar en como  es esta mezcla). Aún así se puede extraer información interesante de ellos, incluso relevante desde el  punto de vista genealógico: por ejemplo región de origen (región en sentido amplio:  continente, y por ejemplo este norte o sur de Europa; incluso, cuando esto avance más y haya bases de datos más completas, es decir cuanta más gente se haya realizado este tipo de tests, de menor escala geográfica).   De estas líneasen 23andme te ofrecen también una muestra de la  secuencia de cada uno de los cromosomas en forma de datos brutos.

A continuación un pantallazo de la página de datos brutos de 23andme. Como se ve hay una lista de los 22 cromosomas, el X y el Y (falta el enlace relativo al adn mitocondrial que aparece en la siguiente linea que no he podido  meter en el pantallazo).

 23andme1

Si le das al enlace de uno de los cromosomas lo que te aparece es esto. Ojo además de la columna con el nombre del gen, su posición dentro del cromosoma, el nombre que permite identificar el SNP, las  dos versiones posibles de nucleótidos que pueden aparecer en esta posición y en este SNP, hay una última columna dónde aparece la versión concreta para este SNP dela persona que realiza el test.

En cada página te aparecen unas 28 posiciones, con números no consecutivos entiendo que por ser una muestra. Si fuese una secuencia completa serían consecutivas (no estoy seguro).

23andme2

Además de estos datos en bruto uniparentales y somáticos,que sería el input, te proporcionan varios tipos de análisis: el haplogrupo Y y mitocondrial y un análisis del adn somático  (asignación a regiones amplias de tu adn: sureuropeo, noreuropeo, iberia, italia, parecido con determinados colectivos con una genética específica como los askenazi (para el que lo tenga), % de adn de  origen neandertal etc…que serían el output.

Está bien en lo uniparental ya que te da el haplogrupo, pero a un nivel muy poco profundo: es decir no llega hasta cubrir el estado del arte en materia de SNPs (lo cual es lógico, no pueden fabricar un chip cada mes). Para la genealogía genética precisa es claramente insuficiente.

En lo somático en mi modesta opinión  el output de 23andme es bastante genérico y superficial. Puede ser informativo para adoptados o alguien que sospeche de infidelidad pero para el consumidor medio le va a decir lo que ya sabe. A efectos de genealogía es un poco (mejor, pero similar) como el escudo heráldico que te dan por un euro. Te puede dar pistas, te puede confrimar lo que ya sabes (si has documentado al máximo tu genealogía en las primeras tres o cuatro primeras generaciones, por ejemplo hasta bisabuelos). En la tercera parte de la  entrada veremos porque más allá  se necesitan herramientas mucho más profundas.

Por ejemplo no te proporcionan información comparativa: de acuerdo tengo  un 99% de europeo, un X% de sudeuropeo y un dentro de sudeuropeo un X-Y% de ibérico. ¿ Esto es lo normal en el español medio  o no ? Claramente está diseñado para los consumidores USA, pero no para los europeos, a los que les puede interesar información más profunda (en el tiempo). ¿ Que soy europeo ? Sí eso ya lo sabía…Podían hacer una base de datos anónima dónde colgar estos perfiles. Imagino que no lo han hecho por cuestiones de privacidad o lo han hecho y yo no lo he visto.

Pero que juzgue el lector. Un ejemplo gráfico del output de la aplicación Ancestry Composition de una persona 100% mexicana (extraído de esta página web dónde proporcionan muchos otros perfiles; esto es lo que yo esperaría ver pero mucho más masivo en la propia plataforma de 23andme):

Person2_23andMeComposition

Otro ejemplo, de la misma página (Británico: 7/8 irlandés y 1/8 escocés).

Person4_23andMeComposition (2)

[Actualización día siguiente. Otra opción de Ancestry Composition muy interesante es la siguiente:

Person1_23andMeNewPainting

Te identifican segmentos (entiendo que neutros, no codificantes) que compartes con poblaciones de todo el mundo que se han hecho pruebas similares y tienen en su base de datos, agrupadas por regiones o países. Te indican las muestras de cada grupo con el que te han comparado. El individuo de la imagen tiene un bisabuelo (1/8) amerindio y los segmentos naranjas y granates son amerindios /asiáticos, provenientes de este ancestro. Como se ve hay bastantes segmentos y todavía relativamente largos. A medida que pasan generaciones si  esta persona y sus descendientes se mezclasen con gente siempre de origen 100% europeo estos segmentos amerindios se irían haciendo cada vez menos numerosos y cortos. Para ser señal el segmento debe de tener una longitud mínima. Me imagino que a partir de un cierto número de generaciones desaparecerá toda señal. Con secuencia de genoma completo la señal dura bastantes generaciones, las suficientes para cubrir todo el horizonte genealogico documental que como  ya hemos dicho llega hasta finales de la Alta Edad Media; el lector se puede quedar con la referencia del Año Mil; lo digo porque con este tipo de análisis de segmentos neutros todavía hoy podemos detectar mezcla con primos neandertales, pero me temo que con el muestro de 23andme (escaso para poder ofrecer el servicio barato: no se puede tener todo) entiendo que no debe de ir más allá de 6-8 generaciones (ojo, estimación basada en mi ojo clínico, que de momento es mínimo para esto). La imagen en la aplicación de 23andme es mucho más que una imagen. Es interactiva y al marcar una región geográfica en la leyenda te destacan en la imagen del cromosoma la región dónde aparece esta señal. Esta aplicación descubierta hoy me parece muy interesante y conseguida. Fin actualización]

Además de Ancestry Composition hay otras aplicaciones que, de momento, me parecen similares en profundidad. Una de ellas tiene muy buena pinta: te identifica personas en su base de datos con los que tienes segmentos idénticos en tu adn (parientes lejanos, distant cousins) y te puedes poner en contacto con ellos. Lo  malo es que no te dicen si tu relación genética con ellos es por el lado paterno o por el materno y por lo tanto su utilidad para la genealogía genética es limitada. Salvo que obligues a tus padres a realizarse el  test (200 euros más cada uno).  En este caso si quedaría claro y sería útil desde el  punto de vista genealógico. Incluso podría ser que estuvieses emparentado a través de las dos líneas.

Ojo, no quiero que el lector se lleve una mala impresión de 23andme. Me parece un buen producto comercial para el usuario medio, profano (mejorable claro: deberían de internacionalizarlo, es decir hacerlo más atractivo para usuarios no américanos del norte; también hacer aplicaciones algo más profundas para el usuario avanzado; y en los datos brutos deberían de incorporar una opción de búsqueda por posición en el cromosoma, me parece que no la tienen),  un buen primer paso, y si alguna vez decido hacerme las pruebas, posiblemente  lo haga con ellos: son asequibles, rápidos según me han contado y he experimentado, y con una plataforma bastante bien diseñada y usable. Es un buen primer paso. Realmente he pasado unos días abducido con esto (no sólo por 23andme como veremos) y me he divertido lo que no está escrito con mi conocido analizando el tema. Lo único que me echa atrás son sobre todo los temas de privacidad y bien común, y si me lo hago alguna vez será seguramente (estoy valorando esto) de manera completamente anónima.

Además lo bueno es que te proporcionan los datos en bruto en una forma que puedes utilizar en tus propias aplicaciones o en aplicaciones externas, por ejemplo la que ofrecen en Gedmatch, que son más  potentes que las propias de 23andme.

Gracias a esto, mi conocido (con mi pequeña  aportación), ha podido conocer su haplogrupo Y, y el perfil geográfico de su ADN somático bastante antes de que 23andme le facilitase los resultados de su análisis y en lo somático de manera más detallada.

[Actualización día siguiente. En Gedmatch también hay aplicaciones de búsqueda de individuos con los que compartes segmentos. Aquí el segmento mínimo que consideran señal es de 700 SNPs (recordemos que en genética se utiliza la unidad del centimorgan, concepto que no es fácil de comprender: In genetics, a centiMorgan (abbreviated cM) or map unit (m.u.) is a unit of recombinant frequency for measuring genetic linkage. It is often used to imply distance along a chromosome. The number of base-pairs to which it corresponds varies widely across the genome (different regions of a chromosome have different propensities towards crossover). One centiMorgan corresponds to about 1 million base pairs in humans on average. The centiMorgan is equal to a 1% chance that a marker at one genetic locus on a chromosome will be separated from a marker at a second locus due to crossing over in a single generation). Si alguien lo entiende a la primera sin saber de genética que me lo diga.🙂. En esta aplicación (que no se porque se me cae constantemente) te estiman  (no se como lo hacen de momento, me imagino que en función del tamaño del segmento) el número de generaciones que te separan de esta persona. Para segmentos de entre 7,4 centimorgans (840 SNPs) te estiman unas 7,5 generaciones MRCA (most comon recent ancestor). Pero ojo:

This utility allows you to make detailed comparisons of 2 DNA kits. Results may be based on either default thresholds, or thresholds that you provide. Estimates of ‘generations’ are provided as a relative means of comparison, and should not be taken too literally, especially for more than a couple of generations back.

Fin actualización ].

Lo primero, identificar tu haplogrupo de cromosoma Y, cuando tienes los datos brutos es sencillo: buscas el nombre de SNP de las mutaciones correspondientes a los diferentes haplogrupos (por ejemplo en esta tabla bastante completa facilitada por ISOGG, o cualquier otra suficientemente actualizada). Si eres europeo debes de empezar por las mutaciones del haplogrupo R que es el más vulgar común en Europa, y metes este nombre en  el buscador de los datos brutos de 23andme y compruebas si la mutación indicada aparece en tu secuencia. Si aparece tienes que seguir probando con todos losmarcadores

Para lo segundo, identificar el perfil geográfico de tu genoma te puedes registrar en Gedmatch y utilizar las aplicaciones disponibles. Ha utilizado una en concreto llamada Eurogenes V2 K15 (V2 = versión 2; K15 entiendo que se refiere al número de iteraciones).  ¿ Que tipo de información proporciona esta aplicación ? Es parecido a la  aplicación de Ancestry Composition de 23andme. Les proporcionas tu input (datos en bruto de 23andme) y a continuación algunos casos de output de Eurogenes V2 K15 (dos ejemplos extraídos de esta entrada del blog  del creador de la aplicación; en los comentario puedes encontrar muchos más ejemplos):

La primera persona es española, más concretamente con 6 bisabuelos de Castilla-La Mancha (sobre los otros dos no  hay información). Por lo tanto un ibérico.  Este es el output:

Componentes regionales del genoma (en porcentajes).

1 Atlantic 30.09

2 North_Sea 26.54

3 West_Med 22.51

4 Red_Sea 8.46

5 Baltic 7

6 Northeast_African 2.79

7 West_Asian 2

8 East_Med 0.31

9 Oceanian 0.3

El  autor de la  herramienta comenta que porcentajes inferiores a 1% pueden ser  ruido (es decir desaparecerían con cualquier otra muestra de la población) y las inferiores a 1,5% son fronterizas. Diría que esta misma regla se aplica a diferencias porcentuales entre poblaciones, pero no lo tengo 100% claro.

Poblaciones más cercanas en genética (las cifras no son porcentajes sino una medida estadística cuyos detalles desconozco; cuanto menor la cifra, más cercana la población).

1 Spanish_Galicia 10.51

2 Spanish_Cantabria 10.6

3 Spanish_Castilla_Y_Leon 10.69

4 Portuguese 11.48

5 Spanish_Cataluna 11.83

6 Spanish_Extremadura 11.97

7 Southwest_French 12.38

8 French 12.45

9 Spanish_Castilla_La_Mancha 12.68

10 Spanish_Murcia 12.88

11 Spanish_Aragon 12.91

12 Spanish_Valencia 14.19

13 Spanish_Andalucia 14.8

14 Southwest_English 16.73

15 French_Basque 17.91

16 North_Italian 18.12

17 Southeast_English 18.5

18 German 18.82

19 Irish 19.83

20 Dutch 20.3

Sobre este output me ha quedado la duda si las distancias entre dos individuos son comparables. En algunos casos las diferencias son muy acusadas. Por ejemplo 2 ibéricos o 2 británicos pueden tener una distancia muy diferente a la primera población, la de distancia mínima.   En este caso el ibérico considerado tiene una distancia de 10,5. Pero podría haber otro ibérico con una distancia de 3. ¿ Esto expresa una diferencia comparativa real entre los dos o es comparar peras con manzanas ?

El siguiente output es parecido al anterior, pero intentan encontrar combinaciones de dos poblaciones que mejoren la medida de una sola población. De nuevo cuanto menor sea la cifra más cercana la combinación. Las dos primeras cifras son la mezcla de cada población en porcentajes. La última una medida de distancia.

1 80% Spanish_Cantabria + 20% Orcadian @ 9.37

2 73.7% Spanish_Cantabria + 26.3% Southwest_English @ 9.38

3 76.7% Spanish_Galicia + 23.3% French_Basque @ 9.44

4 78.6% Spanish_Cantabria + 21.4% Irish @ 9.49

5 79.4% Spanish_Cantabria + 20.6% West_Scottish @ 9.5

6 79.4% Spanish_Cantabria + 20.6% Dutch @ 9.53

7 82.5% Spanish_Cantabria + 17.5% Norwegian @ 9.54

8 83.3% Spanish_Cantabria + 16.7% Swedish @ 9.55

9 78% Spanish_Cantabria + 22% Southeast_English @ 9.61

10 80.8% Spanish_Cantabria + 19.2% Danish @ 9.68

11 64.5% Spanish_Cantabria + 35.5% French @ 9.69

12 76.3% Spanish_Castilla_Y_Leon + 23.7% Southwest_English @ 9.83

13 51.7% Spanish_Galicia + 48.3% Spanish_Cantabria @ 9.86

14 80.5% Spanish_Cantabria + 19.5% German @ 9.86

15 87% Spanish_Cantabria + 13% North_Swedish @ 9.94

16 83.3% Spanish_Castilla_Y_Leon + 16.7% Orcadian @ 9.96

17 80% Spanish_Galicia + 20% Southwest_English @ 9.96

18 83.9% Spanish_Galicia + 16.1% Irish @ 9.98

19 82.6% Spanish_Castilla_Y_Leon + 17.4% West_Scottish @ 10.01

20 84.9% Spanish_Galicia + 15.1% West_Scottish @ 10.02

Además en Eurogenes V2 K15 tienen otro output, los oráculos que entiendo que son lo mismo que lo anterior pero con más poblaciones (hasta cuatro). Aunque no conozco los detalles me ha dado la impresión de que incorporan demasiada “cocina” y los resultados que he visto no me parecen convincentes. Son un ajuste a datos. Por ello no pongo ejemplos ni  desarrollo el tema.

Un segundo ejemplo de una persona, medio holandés / medio alemán y por lo tanto podríamos decir que nórdico.

1 North_Sea 42.70

2 Atlantic 19.97

3 Eastern_Euro 11.33

4 West_Med 9.57

5 Baltic 8.16

6 West_Asian 5.10

7 East_Med 2.30

8 Northeast_African 0.8

Least-squares method. Using 1 population approximation:

1 Norwegian @ 8.372

2 Orcadian @ 8.777

3 Dutch @ 9.439

4 Swedish @ 10.075

5 Danish @ 12.076

6 Southwest_English @ 12.501

7 West_Scottish @ 12.840

8 Southeast_English @ 12.899

9 North_Swedish @ 12.914

10 German @ 13.303 165 iterations.

Using 2 populations approximation:

1 50% Norwegian +50% Orcadian @ 8.173

2 50% Norwegian +50% Norwegian @ 8.372

3 50% Dutch +50% Norwegian @ 8.586

4 50% Orcadian +50% Swedish @ 8.699

5 50% Orcadian +50% Orcadian @ 8.777

6 50% Dutch +50% Orcadian @ 8.804

7 50% Norwegian +50% Swedish @ 9.151

8 50% Dutch +50% Swedish @ 9.230

9 50% Norwegian +50% Southwest_English @ 9.367

10 50% Dutch +50% Dutch @ 9.439

El componente nórdico está compuesto por poblaciones de países que rodean el Mar del Norte: básicamente anglosajones o germanos en el sentido más  amplio posible. Más o menos las tierras en torno a doggerland.

doggerland_530

El componente atlántico está compuesto por poblaciones ribereñas de este océano. Para  que el lector se haga una idea: la población cuya media es mayor para este componente son los vascos.

En esta aplicación de Eurogenes te dan medias para las poblaciones lo cual es muy informativo (un perfil aislado de una persona, como te dan en 23andme no dice nada). El lector interesado puede consultar las medias de todas las poblaciones utilizadas en la aplicación en este enlace.

En el cuadro siguiente, un extracto de cuatro poblaciones. Dos provenientes de Estados – Nación mediterráneos relativamente cercanos (aunque cada uno está en una orilla) y otra de “dos” Naciones, también de origen mediterráneo, pero que al ser más bien nómadas (voluntaria o involuntariamente) no han tenido Estado hasta hace poco, pero que por  su endogamia tienen una genética somática muy peculiar y perfectamente identificable. Como veremos, que una población cualquiera más o  menos grande tenga un determinado perfil genético (del tipo geográfico de Eurogenes) es sólo debido a que han tenido un régimen endogámico durante el tiempo suficiente. A nada más. Los perfiles endogámicos se pueden obtener con una mezcla inicial ad-hoc con aportes ad-hoc y aislamiento reproductivo. Mostramos un cuadro también con frecuencia de haplogrupos Y para estas mismas poblaciones.

[Advertencia: la aparición de estas poblaciones en el cuadro y las utilizadas en el modelo matemático no se han escogido por ningún motivo especial. Simplemente tenía hecho el cuadro con estas poblaciones y las he utilizado para ahorrarme trabajo, pues hacer un cuadro para nuevas poblaciones lleva su tiempo. Realmente, las utilizadas en el modelo matemático no creo que supongan un ejemplo realista pues quien sabe que se la habría perdido a un miembro de la población utilizada en Castilla la Mancha en esa época, con la Inquisición a funcionando a tope].

Lamentablemente no facilitan o no he encontrado información ni sobre el número de individuos de cada población, ni sobre como los han seleccionado, ni que poblaciones constituyen cada componente (esto quizás se pueda deducir de las medias poblacionales), ni como asignan un % del genoma de cada uno de estos individuos a cada componente (para esto utilizan métodos estadísticos contrastados cuyo detalle desconozco):

I. Genética somática.

                         Manchego Sefardita    Askenazi  Argelino 

North Sea      17.84             5,29              9,89          4,18

Atlantic          33.09           14,02           10,7            8,75

Baltic                  4.72             6,74              0,98         0,42

East euro         3.46              1,42              5,17          0,51

West med       22.53           16,21            14,82         21,32

West asian       3.48            13,51            13,05          0.93

East med           9.32            33,88           26,61         25,14

Red sea               3.19               9,68              8,07        15,47 

South asian     0.3                0,74              1,2              0,2

South-east asian 0.11        0,27            0,6             0,24

Siberian             0.08              0,38             0,58           0,04

Amerindian 0.13                 0                    0,32           0,12

Oceanian        0.06                0,24             0,24            0,18

North east africa 1.4           1,56             1,56          11,84

Sub saharan      0.28              0,43 .         0,39         10,12

II. Genética de cromosoma Y. Haplogrupo (fuente).

I                                  3,5                   1                 4                    0

R1a                            1,5                   5                 10                  0,5

R1b                           66                    13                 9                   9,5

G                                 8                      15                9,5                 0,5

J2                              10                    25               19                     5

J1                                 4                     22              19                    22

E                                  8                       9              20,5                  59

T                                  2                      6                2                         0

Q                                  0                      2                5                        0,5

N                                  0                     0                0                         0

L                                    0                     0               0,5                      0

Otros                          –                          2               1,5                      3

En este último cuadro sobre cromosoma Y, los datos para Manchegos y Argelinos son con muestras de entre 100 y 250 individuos. Desconozco el tamaño muestral  para Askenazis y Sefarditas. En general en este tipo de estudios se intenta evitar el efecto emigración reciente,  controlando que los individuos de la muestra tengan al menos los 4 abuelos originarios del país. El perfil manchego  es bastante similar al del resto de los españoles. Las dos mayores diferencias, que podrían ser una pura oscilación estadística, debido al pequeño tamaño de las muestras, son los haplogrupos  G y J1, más abundantes entre manchegos que en el resto de regiones. En los cuatro grupos el 90% o más se reparte en 7 haplogrupos, pero este 90% está más concentrado en determinados haplogrupos en manchegos y argelinos (R1b y E, respectivamente) y se distribuye de manera más uniforme entre los diferentes haplogrupos en los askenazi y sefarditas. La mayor diferencia entre estos dos últimos grupos es el haplogrupo E (10%,sin duda estadísticamente significativa), que ¿sorprendentemente? es más frecuente en los askenazi (aquí hay que hilar más fino pues hay un subgrupo europeo de este haplogrupo y podrían pertenecer a este; ojo y también es posible que parte del R1b de estos dos grupos no pertenezca al específicamente europeo sino al que es prevalente en oriente medio). Diría que entre los grandes países europeos (demás de 40 millones de habitantes), los más parecidos en la distribución más uniforme (menos concentrada) entre diferentes haplogrupos  son los alemanes e italianos, luego los franceses. Esto es normal pues son precisamente los países que se encuentran en el  centro.

En lo somático, el perfil del castellano es muy parecido al del resto de los españoles, dónde predomina el componente atlántico, luego mediterráneo del oeste y luego del Mar del Norte. Según el autor, % inferiores a 1,5% pueden ser ruido estadístico.

Si eres español, con ancestros conocidos hasta 1500 españoles y tienes un perfil diferente del ibérico, algo pasó que desconoces. Y si eres  español y tienes ancestros cercanos (digamos un bisabuelo) de fuera de iberia pero tu perfil sigue sigue siendo ibérico “puro”, algo ha pasado también.

Sin embargo cuando episodios curiosos de tu genealogía han pasado hace más tiempo (digamos un ancestro de china por línea somática de hace 10 generaciones: de 1700) entiendo (no soy experto) que lo normal es su diferencia genética aparezca muy atenuada y que tu perfil  sea prácticamente ibérico.

En el siguiente punto explico porque pienso  que esto es así con un modelo matemático que he generado para explicar la problemática a mi conocido.

3. Un modelo de mezcla.

Quiero dejar claro de nuevo que ni soy experto en genética ni siquiera he leído recientemente sobre esta materia  y que por lo tanto el modelo puede contener errores. Aún así creo que es una buena aproximación simplificada a esta problemática. Si algún experto o aficionado bien documentado pasa por aquí y encuentra errores sustanciales le  agradecería que me lo señalase. Por mi parte prometo que intentaré leer sobre el  tema y corregirlo. El lector queda advertido.

La pregunta es la siguiente. Si una persona con perfil, por ejemplo de askenazi medio (ver datos en el cuadro anterior), hubiese aterrizado en Castilla la Mancha (CLM) en 1700 y desde ese momento se hubiese reproducido con personas de perfil medio ibérico de CLM (ver datos en el cuadro anterior) ¿ que perfil tendría, askenazi, castellano manchego o una cosa intermedia ?.

Es una pregunta que se repite mucho en los foros de genealogía genética, en múltiples variantes. Algunas de ellas son las siguientes:

joer, me he hecho el test de 23andme y teniendo una apariencia física en todo de bantu me sale haplogrupo de cromosoma Y de chino y una genética somática de bantu.  ¿ Como puede ser esto ?. Ok, esta es ficticia, pero expresa bien la problemática.

Esto de los tests genéticos es un fraude: soy un nordicista radical, con una pinta de ario que te cagas, puedo documentar que desciendo de nórdicos por los cuatro costados desde los tiempos de las sagas y me ha salido un cromosoma Y semita, concretamente el de los cherifes (descendientes de Mahoma). Aunque me he repetido el test 200 veces en diferentes plataformas porque estaba seguro que era un error me sigue saliendo ¡¡ Esto es imposible!!. Lamentablemente este es un caso real. Lo he visto repetido varias veces en algunos foros. No muchas pues los haplogrupos típicos de poblaciones de oriente medio, se dan, pero son muy poco frecuentes en Europa.

Para mi todos estos casos son muy posibles y la respuesta es clara (y ya digo que puedo estar equivocado). La razón es la siguiente. En el  cuadro que hemos presentado anteriormente, cada columna con los valores medios de la población por componente es un vector. Con la mezcla, para cada uno de los componentes se hace una media entre los valores de las dos poblaciones iterada tantas veces como generaciones haya. Suponemos que desde 1700 hasta hoy ha habido 10 generaciones.

Por ejemplo el askenazi que llega a España, para el componente North Sea tiene un valor de 9,89 y su pareja CLM tiene valor para este mismo componente  de 17,84. Su hijo tendría un valor para este componente de (9,89+17,84) / 2 = 13,515.  Este hijo casa con otra persona de CLM y su hijo (segunda generación, nieto) tendrá un valor para este componente nórdico de (13,515 + 17,84) /2 =   15,6775. Como se ve, en cada generación, cada vez se aproxima más y de manera muy rápida al valor medio de CLM.

La formula general para este proceso de media iterada (para cada componente) es

1/ (2^g)*(CiP1+((2^g)-1)*CiP2,

dónde

g = número de generaciones.

CiP1 = valor para el componente i de la persona (o población) 1.

CiP2 = valor para el componente i de la persona (o población) 2.

Como se ve a partir de un cierto número de generaciones (pocas) el valor para el emigrante se aproximará al de la población absorbente y obviamente nunca lo superará.   Y esto para todas los componentes. Por lo tanto cualquier emigrante a las pocas generaciones tendrá el perfil genético de la población que lo acoge. Por ejemplo, si el modelo es correcto, ni un converso de judaísmo de la Monarquía Hispánica en 1492, cuando se les dio la opción de convertirse o abandonar el país, ni uno del islamismo de la misma entidad política, convertido en 1609, cuando se les dio la misma opción, suponiendo que en ese momento tuviesen un perfil diferente al resto, debería de esperar encontrar un perfil genético diferente (ojo, utilizando estas herramientas superficiales que ofrecen este tipo de plataformas; como veremos hay herramientas mas potentes que posiblemente permitan identificar este tipo de eventos) que el resto de ibéricos. Sólo cuando dos poblaciones de tamaño similar se mezclan, se apreciarán cambios significativos en el perfil  genético de un territorio. Por ello si los colectivos señalados eran numerosos en una determinada región española, esto se debería poder ver en los perfiles medios regionales.

[Advertencia. El comentario siguiente es general y no tiene nada que ver con las poblaciones de las que hemos hablado. Como ya he dicho, todo esto es pura casualidad: simplemente tenía ya hechos los cuadro y por evitarme el trabajo de hacer otros los he utilizado en el ejemplo.

Soy consciente de que el comentario que hago a continuación trata de temas sensibles. En mi opinión son temas sobre los que la gente habla o al menos tiene opiniones personales y se deberían de tratar con más naturalidad y menos dramatismo. Fin advertencia].

Por lo descrito en esello los planteamientos endogámicos son una opción válida (ojo, a veces son opcionales, a veces han sido o son obligatorios para alguna de las poblaciones): si pienso que mi mezcla es la óptima, o  simplemente suficientemente buena para la supervivencia, es mejor no mezclarse con otras poblaciones. La otra opción es pensar (como  pienso yo), que lo óptimo aunque quizás arriesgado, es la mezcla: sólo de la mezcla puede venir la novedad. La endogamia es más bien tradición y repetición.

Creo que a este respecto, la analogía entre reproducción sin sexo y reproducción con sexo es  perfectamente aplicable.  Ambas son dos opciones biológicamente válidas y que conviven. Y es posible que cuando el ser humano estaba empotrado en su entorno (periodo cazador recolector o agrícola), los planteamientos endogámicos tuviesen sentido. Pero hoy que nos hemos independizado de este entorno, han perdido en mi opinión todo su sentido. No se  si es prueba de esto  (sería muy complicado de demostrar) que precisamente el “país” más creativo y dinámico es el que tiene mayor mezcla de tipo individualista de todos, los EEUU.

4. Conclusión: ¿ entonces, son útiles los Tests genéticos para la genealogía científica ? 

Por lo ya comentado, si te vas a limitar a análisis genéticos superficiales del tipo de los que te pueden proporcionar en 23andme e incluso en plataformas de análisis más avanzadas como Gedmatch, mi impresión de momento es que es una herramienta interesante pero corta de miras. Es un telescopio para mirarte la nariz, que ya te la ves todos los días. Ya hemos visto que con la precisión de la  muestra de la secuencia de adn de esta plataforma no llegan más allá de 9-10 generaciones en línea directa (para que el lector comprenda: en linea directa, si se tuviese dna antiguo de ancestros, llegaría a detectar parentesco con un 8th-grand parent, con el que se compartiría en teoría un 0,0 98%; esta persona hubiese vivido aproximadamente en 1660; el 1st-grand parent es el bisabuelo nuestro). Esto está bien para el norteamericano medio pero no para el europeo medio cuyo horizonte temporal documental abarca dependiendo del estamento al que perteneciesen sus ancestros entre 20 (unos 500 años) y 40 generaciones (unos mil años, para individuos contados con los dedos de las  manos). También en lo uniparental si te limitas a los pocos marcadores que proporciona 23andme te quedarás corto (aunque como ya he dicho es un buen primer paso).

En concreto a mi  conocido los resultados le han sido sorprendentes, gratificantes e incluso excitantes, y muy informativos desde el punto de vista genealógicos,  aunque no le han resuelto de manera definitiva sus dudas, ni mucho menos.  Al perfil de consumidor vanidoso, amante de la genealogía legendaria este tipo de resultados le pueden bien decepcionar profundamente (caso del nórdico), bien llenarle de orgullo y reforzarle  en sus falsas creencias dogmáticas, bien dejar completamente indiferentes.  En cualquier caso para todos es más un complemento que una alternativa a la genealogía histórica y realizar este tipo de tests será mucho más satisfactorio si ya tienes una genealogía histórica bien documentada.

Por otra parte tras este primer paso hay técnicas más potentes que permiten detectar eventos ancestrales con una profundidad que van más allá  de pocas generaciones y pueden llegar incluso a milenios, pero entiendo que para aplicarlas hay que realizar análisis genéticos e informáticos mucho más costosos que los que se puede ofrecer gratis como Gedmatch o pagando poco como en 23andme.   Por ejemplo secuencias de genoma completo, todavía caras para el consumidor medio, pero cada vez más apróximandose a un precio asequible (hoy se puede conseguir ya una secuencia de genoma completo por unos 3600 euros y ya hay empresas especializadas en cromosoma completo, por ejemplo el Y  por 918 euros). Y en un futuro seguramente nos esperan maravillas en cuanto al conocimiento de nuestros antepasados.

Terminamos recomendando, a los interesados en técnicas  más avanzadas de genética que lean este artículo titulado: The geography of recent genetic ancestry across europe 

Extracto. 

We can only hope to learn from genetic data about those common ancestors from whom two individuals have both inherited the same genomic region. If a pair of individuals have both inherited some genomic region from a common ancestor, that ancestor is called a “genetic common ancestor,” and the genomic region is shared “identical by descent” (IBD) by the two. Here we define an “IBD block” to be a contiguous segment of genome inherited (on at least one chromosome) from a shared common ancestor without intervening recombination (see Figure 1A). A more usual definition of IBD restricts to those segments inherited from some prespecified set of “founder” individuals (e.g., [8],[27],[28]), but we allow ancestors to be arbitrarily far back in time. Under our definition, everyone is IBD everywhere, but mostly on very short, old segments [29]. We measure lengths of IBD segments in units of Morgans (M) or centiMorgans (cM), where 1 Morgan is defined to be the distance over which an average of one recombination (i.e., a crossover) occurs per meiosis. Segments of IBD are broken up over time by recombination, which implies that older shared ancestry tends to result in shorter shared IBD blocks.

Utilizan la técnica IBD (identity by descent).

y este otro titulado

Inferring demographic history froma spectrum of shared haplotype lenghts,  de 2013.   

Abstract.

There has been much recent excitement about the use of genetics to elucidate ancestral history and demography. Whole genome data from humans and other species are revealing complex stories of divergence and admixture that were left undiscovered by previous smaller data sets. A central challenge is to estimate the timing of past admixture and divergence events, for example the time at which Neanderthals exchanged genetic material with humans and the time at which modern humans left Africa. Here, we present a method for using sequence data to jointly estimate the timing and magnitude of past admixture events, along with population divergence times and changes in effective population size. We infer demography from a collection of pairwise sequence alignments by summarizing their length distribution of tracts of identity by state (IBS) and maximizing an analytic composite likelihood derived from a Markovian coalescent approximation. Recent gene flow between populations leaves behind long tracts of identity by descent (IBD), and these tracts give our method power by influencing the distribution of shared IBS tracts. In simulated data, we accurately infer the timing and strength of admixture events, population size changes, and divergence times over a variety of ancient and recent time scales. Using the same technique, we analyze deeply sequenced trio parents from the 1000 Genomes project. The data show evidence of extensive gene flow between Africa and Europe after the time of divergence as well as substructure and gene flow among ancestral hominids. In particular, we infer that recent African-European gene flow and ancient ghost admixture into Europe are both necessary to explain the spectrum of IBS sharing in the trios, rejecting simpler models that contain less population structure.

Aquí utilizan la técnica IBS (Identity by State).

Actualización metodológica de Ancestry Composition 9/4/2014.

La base técnica de 23andme Ancestry Composition (enlace a un artículo de 23andme de diciembre de 2012 dónde explican en detalle esta herramienta; para un paper muy resumido y más técnico el lector puede mirar aquí, muy recomendable) es Beagle (de cuyas tuercas y tornillos se muestran aquí.

Extracto del segundo enlace (con algunos comentarios mios). 

Input: unphased genotype data for admixed individual. (Entiendo que se refieren al raw data, es decir a la muestra de la secuencia del dna del individuo en concreto).

Output: ancestral origin of each chromosomal region

•  Straightforward when populations are sufficiently distinct.

•  Hard for closely-related populations (e.g., within Europe).

•  Want efficient algorithm that scales to reference panels containing thousands of individuals.!

•  Want well-calibrated confidence estimates to avoid
making predictions where algorithm is too uncertain.

Phasing, aplicado a dna recombinante es, simplificando, determinar la linea paterna o materna de las partes de un genoma. Esto se puede hacer en base al genoma de dos o tres individuos (el hijo y sus dos padres o el hijo y uno de sus dos padres)  o en base a un genoma (digamos el del hijo) y el de poblaciones  de referencia (¿ entiendo que dos poblaciones ?).

Extracto del primer enlace:

We start off by phasing your chromosomes using an in-house adaptation of the well-known programBEAGLE. That’s how we handle phasing.

Then we break up the chromosomes into short, non-overlapping, adjacent windows, like boxcars in a train. The idea is that you inherited all the DNA in that window from a single parent, grandparent, great-grandparent, etc., going back quite a few generations. Using these short windows is how we handle admixture.

We compare the DNA you have in each window to the DNA in the same window in our reference dataset, and assign the DNA in each window to the population whose DNA it’s most similar to.

Then we process those assignments further, “smoothing” them out. For instance, if you have a long run of assignments from population A, interrupted by an assignment to population B, this process can correct that B to an A.

Finally, we calibrate the results to ensure the results are accurate at the confidence levels we report.

 

Terms and conditions: 1. Any commenter of this blog agrees to transfer the copy right of his comments to the blogger. 2. RSS readers and / or aggregators that captures the content of this blog (posts or comments) are forbidden. These actions will be subject to the DMCA notice-and-takedown rules and will be legally pursued by the proprietor of the blog.

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s


A %d blogueros les gusta esto: