El lapo azul. Algunas reflexiones sobre estadística aplicada a genealogía genética.

(Advertencias. ésta entrada sólo interesará a aquellos que ya practiquen o sientan curiosidad por la genealogía genética y genética de poblaciones).

1. Planteamiento del problema: los grupos de FTDNA como muestras sesgadas.

Al día de hoy (enero 2015), se estima que se han realizado pruebas de genealogía genética, más o menos precisas, a nivel global, como mucho, entre 2 y 3 millones de personas, la mayoría seguramente provenientes de EEUU. Fuente.

Una muestra de 2-3 millones en relación a una población de 7000 millones (¿ cuantas familias ?). Una de las preguntas que abordamos indirectamente en ésta entrada es si ésta muestra, seguramente sesgada, es suficiente para obtener una imagen fiel de la realidad filogenética.

Más  concretamente, en una entrada anterior comentaba que llevo un cierto tiempo preguntándome sobre que tipo de sesgos puedan tener los grupos de FTDNA si los consideramos como muestras estadísticas de una determinada población y las consecuencias de éstos sesgos para las conclusiones que se obtienen en base a éstas muestras. Está  claro que son muestras sesgadas pero no sé muy bien en que sentido. ¿ Realmente es importante un sesgo de clase cuando lo que se está estudiando son mutaciones neutras ?. En anteriores entradas sobre otros temas, ya hemos comentado sobre el problema de llegar a conclusiones sobre la población cuando se parte de muestras sesgadas.

En esta entrada quiero desarrollar muy brevemente ésta cuestión en relación al campo de la genealogía genética, más planteando interrogantes que dando respuestas y recopilar, si es que existe, literatura al respecto dónde se puedan obtener las respuestas. Como siempre el objetivo es aprender. El lector que no tenga claro a que me refiero por grupo de FTDNA puede pulsar en éste enlace al grupo de Iberian DNA.

¡¡ Destacado !!: En ésta misma página se puede acceder a un interesante listado de apellidos españoles o ibéricos con sus correspondientes haplogrupos de cromosoma Y. Ojo lector, si tu apellido aparece en ésta lista, no deduzcas inmediatamente que eres del haplogrupo que aparece asociado a él, incluso aunque el apellido sea poco común y sólo aparezca asociado a un haplogrupo; ya verás que en muchos casos para un mismo apellido aparecen diferentes haplogrupos, y esto es lo normal; tampoco compartir apellido y haplogrupo, tal  y cómo aparecen en ésta lista es prueba parentesco: los que aparecen son muy genéricos, poco profundos, y además las descripciones de ellos matizables; en fin hasta que no te hagas la prueba, nunca podrás estar seguro de tu haplogrupo; y lo mejor es una prueba dónde puedas obtener un resultado más  profundo).

[Nota al margen. Me comenta mi conocido que ya ha obtenido información muy parcial sobre sus resultados de FTDNA. Por lo parcial de momento no puede llegar a conclusiones. Sigue pensando que en FTDNA son demasiado lentos: han pasado ya casi cuatro meses, y nada. Tienen un  buen producto pero con esto de los plazos se queman. Fin de nota al margen].

Como los criterios para formar un grupo de FTDNA pueden variar, el concepto de población de referencia puede variar también: podrían ser todos los miembros de una nacionalidad  (por ejemplo españoles), o de una etnia (definida ésta con un criterio claro que permita decidir si un individuo pertenece a ella o no), de una zona geográfica (una comarca internacional, un continente) o de un haplogrupo más o menos  general (por ejemplo el R o alguno de sus subclades, como R-M207, cuya filogenia, no actualizada y muy simplificada, se muestra en la imagen siguiente etc…). En otro punto posterior mostramos  dos árboles de otro haplogrupo, menos simplificados y mucho más complejos.

rm207

De nuevo para cada una de estas poblaciones  debemos  de pensar en la matriz completa de la población (en la que aparecen todos los individuos con sus respectivos genomas completos secuenciados) como el objeto teórico (en el sentido de que nunca dispondremos de él, por motivos económicos y logísticos) el input inicial que representa a la población, sobre el que vamos a efectuar las muestras.

En lo  que sigue, para simplificar nos referiremos a poblaciones en las que sólo nos interesa obtener datos sobre el cromosoma  Y. Éste es el caso de los grupos de FTDNA,  aunque en general también aparece información sobre el ADN mitocondrial. Partimos por lo tanto de una matriz completa teórica en la que para todos y cada uno de los individuos de una población tenemos una secuencia completa de su cromosoma Y.

2. Reflexiones e interrogantes.

Dada la población, según descrito en el punto anterior, nos puede interesar resumir sus características genéticas con unos parámetros numéricos o estructurales:

parámetro numérico sería por ejemplo la frecuencia correspondiente a cada  uno de los haplogrupos de cromosoma Y en un país, en una etnia o en una zona geográfica.

parámetro estructural sería por ejemplo, si lo que tenemos es una población de individuos que pertenecen todos a un mismo haplogrupo, el árbol filogenético de ésta población, con todos sus subclades, construido de acuerdo con una determinada técnica (obviamente, también se podría realizar un árbol con individuos de diferentes haplogrupos, de un país, etnia o región).

Nota: en los que sigue obviamos la distinción terminológica entre parámetro (el valor para la población) y estadístico (que sería el valor para la muestra) y llamamos a los dos parámetro.

Una primera pregunta que nos podemos plantear es:  si lo que tenemos, en vez  de la población completa, es una muestra, más o menos pequeña de ésta, en que medida los parámetros  numéricos o estructurales obtenidos con inputs muestrales reflejan los de la población real, en que medida podemos extrapolar los datos muestrales a la población total.

Está claro que la muestra puede ser más o menos completa en las dos dimensiones: en cuanto al número de individuos y en cuanto al número de marcadores de mutaciones STR para cada individuo. Podemos por ejemplo trabajar con 12 marcadores como en Y-12, con 37 como en Y-37, Y-67, Y-111, Big-Y o Full-Y (para más detalles sobre éstos productos comerciales de FTDNA podemos ver por ejemplo éste enlace; para  los productos de Full Genomes Corp. un competidor de FTDNA para los productos de alta gama como Big-Y (su producto similar  se llama Y Prime sequencing) y la única compañía que ofrece Full-Y o como ellos los llaman whole genome  sequencing se puede ver la página web de la empresa).

Para el caso de parámetros numéricos como frecuencias se puede aplicar directamente todo el aparato estadístico de la teoría del muestreo de que ya disponemos. Éste no sería más que un caso en concreto al  que se puede aplicar la teoría general. Por ello me interesa sobre todo lo relativo a parámetros estructurales, concretamente el árbol filogenético de cromosomas uniparentales.

Nota: diría que en general nos podemos  limitar a considerar árboles  binarios ya que cuando aparece una mutación, divide la población en dos, aquellos que la tienen y aquellos que no. Un ejemplo sencillo de matriz de especies X caracteres, que sería el input ydos posibles árboles filogenéticos. En el caso de especies X proteínas, en su codificación por ADN, en vez de ceros y unos aparecerían 1 en cada posición de la tabla o matriz una de cuatro letras o caracteres: a,t,g,c que simbolizan los cuatro nucléotidos (adenina, timina, guanina, citosina). En el caso de individuos x cromosoma Y  si tenemos el cromosoma completo, también las casillas de la matriz se ocuparían por los 4 nucleótidos. Los números en los  arcos del árbol  indican el número  de mutaciones o diferencias entre una cadena de caracteres y otra adyacente. Nótese que sólo existe un árbol filogenético que describa lo que haya pasado en la realidad. Un método es bueno si nos permite identificar ese único árbol filogenético.

aop0575fig1

Un árbol filogenético puede ser más o menos rico, puede incorporar más o menos información. Puede ser proporcionar información sólo topológica (en cuyo caso indicaría sólo las  relaciones de antecesor y descendiente  entre los nodos; es el caso del ejemplo mostrado en la imagen anterior), puede incorporar información temporal, por ejemplo ser histórico (es decir incluir además de las  relaciones filogenéticas algún tipo de distancia temporal entre los nodos; éste tipo de  árboles  nos permite datar eventos históricos como cuando ocurrió una determinada mutación; existe mucha controversia sobre los métodos de datación, controversia que no conozco en detalle) y puede incorporar además información espacial, ser histórico-geográfico (en cuyo caso nos indicaría además del tiempo la posición geográfica de un determinado nodo  del árbol (clade) en un determinado momento del tiempo.

Aquí surge una segunda reflexión. Diría que obtener éste último tipo de árboles, los histórico-geográficos, si queremos que se correspondan con la realidad y no con la ficción o imaginación del investigador (y algunos tienen mucha imaginación), es imposible salvo que contemos con varias tomas de ADN  antiguo bien datadas y bien localizadas. Si además queremos asignar el nodo en concreto a una determinada civilización (en sentido arqueológico) entonces la toma de ADN antiguo debe de estar bien contextualizada desde el punto de vista arqueológico. Incluso en éstas condiciones puede  ser complicado llegar a conclusiones ciertas: ¿  era un local o era esclavo importado, un comerciante extranjero ?. Todo ésto, aunque es complicado (más por falta de datos que por otra cosa),  se está realizando, con toda la solidez metodológica posible, en algunos casos. Por otra parte tampoco estoy seguro de  que lo que afirmo sea correcto. Surge entonces la pregunta: ¿ es posible obtener árboles histórico geográficos ciertos  (que se correspondan, aunque sea de manera aproximada, con la realidad) sin tomas de DNA antiguo ?.

[Nota al margen. Me interesa mucho el problema más general de como extraer conocimiento cierto combinando datos provenientes de fuentes históricas heterogéneas, en principio independientes (climatológicas o ambientales, arqueológicas, epigráficas, documentales, linguísticas, y últimamente las propias de la arqueogenética; pocos historiadores provenientes de las humanidades han incorporado ésta última fuente), aunque se puede presuponer que tienen una cierta relación. En éste tema no es nada fácil pasar de la especulación gratuita al conocimiento cierto. Cuando uno lee algunos estudios supuestamente científicos, entradas en blogs de especialistas o comentarios en blogs o foros, se asombra de lo rápido que se salta a determinadas conclusiones con evidencias muy débiles. En una entrada reciente comentábamos  sobre dos de éstos estudios. Creo que hay una muy necesaria pero escasa reflexión teórico-metodológica, al respecto. En definitiva hace falta una filosofía de la genealogía genética, y de sus aplicaciones a la  historia.  Fin de nota al margen]. 

Otras preguntas que me planteo en relación a toda ésta temática son:

— ¿ en que medida el árbol filogenético que obtengo de una muestra representa el árbol que obtendría  si dispusiese de datos sobre toda la población, aplicando la misma técnica de construcción en ambos casos, muestra y población ?. Esta pregunta es una concreción de la primera pregunta que nos planteábamos. Nótese que incluso cuando se trabaja con datos poblacionales, cuando  se obtiene un árbol filogenético hay una cierta incertidumbre en cuanto a que el árbol obtenido sea el real. Dado un input (un cierto número de secuencias de cromosoma Y) se pueden construir múltiples árboles filogenéticos y decidir cual es el que se corresponde con la realidad no es fácil. Éste es un tema sobre el que no vamos a profundizar. Cuando se trabaja con una muestra la incertidumbre es mucho mayor.

–Una segunda pregunta relacionada con la  anterior. ¿ De que manera pueden diferir el árbol muestral con respecto al teórico árbol de la población que obtendríamos si trabajásemos con la matriz completa ? Entiendo que al menos de dos maneras diferentes:

a) cuantitativa: el árbol muestral es de menor tamaño que el árbol poblacional (menos nodos, menos ramas, menos profundo…). En éste caso se puede considerar que, al menos, la muestra era insuficiente (si no hay diferencias cualitativas, como las que se señalan en el punto siguiente).

b) cualitativa: el árbol muestral puede ser igual a una  parte del árbol poblacional (en términos  técnicos un sub-árbol isomorfo a una parte del árbol poblacional), o puede no  serlo, en cuyo caso la muestra  seleccionada no era representativa.

Cuando la muestra es insuficiente (en cuanto a número de individuos) y sesgada, lo  normal es que obtengamos un árbol que difiere cuantitativa y cualitativamente del poblacional. ¿ Y cuando la muestra es suficiente y no sesgada, deberíamos esperar obtener un árbol filogenético isomorfo al poblacional ? Finalmente  señalar que una teoría estadística de los árboles filogenéticos debería de poder calcular de alguna manera la diferencia entre árboles.

–¿ Existe mucha diferencia si el muestreo es aleatorio o auto-seleccionado (como es el caso de los grupos de FTDNA) ?. Entiendo que dado un input, en el fondo es lo mismo calcular una medida numérica (una media, una proporción) que construir un objeto con estructura (un árbol, un grafo) y que si la muestra es sesgada, el objeto estructurado que obtengamos puede estar bastante alejado del que obtendríamos con datos poblacionales.

— ¿ cuanta información es suficiente para obtener un árbol lo suficientemente próximo al  que se  obtendría con la matriz completa ?. ¿ Como se aplica en éste caso la teoría del muestreo aleatorio para determinar tamaños de la muestras que nos aseguren un determinado  error ?

–¿ que pasa si utilizamos muestras heterogéneas. Me refiero por ejemplo a una muestra que contenga varios Y-12, varios Y 37, varios Y-67 etc…Estos casos son reales y frecuentes en los grupos de FTDNA.

Actualización 4 de febrero 2015.

Otra manera de mirar el mismo tema, más algorítmica que estadística, es como sigue. Entiendo que si utilizásemos datos poblacionales (matriz completa), al final obtendríamos un árbol filogenético en el que en cada nodo habría una cierta cantidad de individuos (aquellos que comparten el cromosoma Y que “termina” en ese nodo). Es decir no  hay un nodo diferente para cada individuo. O al menos a efectos de genealogía genética podría obtenerse un árbol de éstas características. Esto significa que no necesitamos  a todos los individuos para reconstruir el árbol,  algunos son redundantes.

Si ésto es correcto (que no lo sé), las preguntas son: ¿ cual es el método más eficiente (rápido y que necesite el menor número de individuos para construir el árbol completo ? ¿ Cuanto son éste número mínimo de individuos ? ¿ Cómo nos  puede indicar éste método que ya tenemos el árbol completo ?. ¿ Es el mejor método aleatorio o determinista ?. En relación a ésta última pregunta, si las mutaciones son al azar, posiblemente el método más adecuado de reconstrucción del árbol (la muestra) será aleatorio. En fin, las respuestas a éstas preguntas nos pueden dar información sobre cual es tipo y tamaño de la muestra  más adecuado para explorar éstos árboles. Tengo que releerlo, pero creo que en artículo de Felsenstein se habla de alguna manera de todo ésto.

Y seguramente si incorporamos conocimiento biológico que pueda restringir la forma y tamaño de los árboles filogenéticos biológicos posibles, podemos mejorar éste mejor método ajustandolo a éste tipo de árboles. Preguntas en relación con ésto son: ¿ que forma y tamaño pueden tener los árboles filogenéticos biológicos humanos ?

Por ejemplo,  si no me equivoco, en un árbol enraizado, los nodos que representan cromosomas Y con más mutaciones  con respecto a la raíz, son aquellos que tendrían que terminar con más individuos, si se trabajase con datos poblacionales (ahora creo que no tiene que ser necesariamente así; en una  entrada posterior ampliaremos sobre ésto). Y los cercanos a la raíz son aquellos con menos individuos. Obtener un conocimiento cuantitativo sobre ésto nos podría dar información sobre el tamaño más adecuado de la muestra: tiene que contener tantos individuos como  sean necesarios para que con alta probabilidad los nodos menos frecuentados con datos poblacionales sean visitados. Las muestras  sesgadas / insuficientes serán de individuos de nodos más frecuentes.

Podemos pensar en todo ésto como en un proceso en el que se van generando una secuencia de árboles, cada vez de mayor  tamaño, secuencia que converge al árbol poblacional. Con el primer individuo exploramos una rama; al añadir otro individuo añadimos otra así hasta que la información del enésimo individuo (con n, la muestra, bastante inferior a N, la población) y todos los siguientes sea redundante.

Para que el lector comprenda sobre que estamos hablando, un ejemplo muy gráfico. En las tres imágenes siguientes el árbol filogenético de un haplogrupo, el J1. La primera imagen es una versión simplificada, realizada por un “ciudadano científico”. La segunda, también realizada por otro “ciudadano científico”, es una versión que incorpora toda la complejidad posible, tal y como se construyó con los datos (resultados de tests) disponibles al 9 de julio de 2013 (primera imagen). Entiendo que la versión simplificada, de agosto de 2013 se basó en ésta versión más compleja. La tercera imagen es la versión a 24 de enero de 2015. Incorpora más información (tests de más individuos y seguramente algunos con mayor resolución, es decir con más marcadores, de nivel BigY). Con la precisión de las imágenes no puedo indicar las diferencias entre las dos, pero se pueden apreciar a vista de pájaro. Si me consta que la realidad, con los datos a día de hoy, es bastante diferente de lo que se refleja en la primera imagen simplificada. Quizás no cambios revolucionarios pero sí algunos detalles importantes. Y seguramente la tercera imagen quedará desfasada en algunos meses (dependerá del ritmo de nuevas incorporaciones de clientes que se hagan el  test). A efectos de visualización, nótese que en éstos tres árboles, a diferencia del árbol de R mostrado en el punto anterior, no se proyectan todos los nodos terminales sobre una linea situada en la parte de debajo de la hoja, y por lo tanto hay nodos terminales en el interior del árbol. Por ejemplo hay individuos cuyo nodo terminal es la bifurcación etiquetada con P-58 en la primera imagen.  Serían lo que se llama el paragrupo P-58*. Esto quiere decir que tienen todas las mutaciones hasta la P-58, ésta inclusive, y ninguna más. Las referencias geográficas en ésta misma imagen se refieren a dónde se encuentran poblaciones con estos marcadores en la actualidad, no a  muestras de ADN antiguo. Lo mismo pasa con las referencias étnicas, que cuando menos son bastantes inexactas. No tengo de momento detalles técnicos sobre las  muestras utilizadas (si se que las fuentes son FTDNA y Geno 2.0) para lo dos árboles más detallados ni la metodología utilizada para construirlo. La pregunta es:  en ésta secuencia ¿ nos estamos acercando al árbol real o estamos  sesgados ?

Fuente de las dos últimas imágenes. La versión del árbol en ISOGG, al 1 de enero de 2015, mucho menos actualizada o mucho más prudente. La página web de ISOGG desde dónde se puede acceder a los árboles de todos los otros haplogrupos del cromosoma Y.

J1-tree

p_01

p_01 enero

Quizás estas consideraciones ayuden también a conocer si para explorar el árbol de manera óptima es mejor más individuos con menos marcadores, al contrario menos individuos con más marcadores o Full-Y o si lo mejor es una matriz equilibrada.

Fin actualización].

3. Las fuentes  de datos.

Cuando uno empieza a interesarse por estos  temas, ve enseguida que hay dos tipos de  estudios que proporcionan dos tipos diferentes de datos:

–los estudios científicos, en general de origen académico, en los que se define claramente una población, se extrae una muestra pequeña en principio aleatoria y por lo tanto representativa de la población y en base a ésta  muestra llegan a conclusiones sobre frecuencias de haplogrupos, dentro  de unos márgenes de error, y realizan un primer árbol filogenético (idem). Estos estudios,  cuando están bien realizados son fiables, sobre todo en cuanto a frecuencias (que serán estables), pero tienen un problema con los árboles filogenéticos: están desfasados nada más publicarse o quedan desfasados enseguida ya que en general, por motivos económicos utilizan marcadores (SNPs o STRs) muy generales, muy poco profundos, de poco interés en genealogía genética o una vez  publicados,  se descubren nuevos marcadores más interesantes que reducen el interés del estudio.

–los estudios / datos provenientes de investigaciones realizadas por parte  de la ciudadanía científica o de las empresas del sector. En estos casos se forma por ejemplo un grupo de FTDNA, originalmente con pocos miembros, una primera muestra pequeña de individuos auto-seleccionados y por lo tanto muy sesgada. En base a éste grupo se obtienen los haplogrupos propios del grupo, las frecuencias correspondientes y un primer árbol filogenético.  A medida que se van incorporando miembros al grupo, se van ajustando las proporciones y profundizando el árbol. En todo momento es una muestra autoseleccionada. A medida que se incorporan nuevos miembros sigue siendo sesgada, pero seguramente cada vez más los parámetros obtenidos aproximan mejor la realidad. ¿ A partir de que momento los parámetros obtenidos para ésta muestra dinámica y siempre sesgada serán suficientemente  buenos ?. Por supuesto la situación ideal, aunque antieconómica y posiblemente innecesaria es un grupo que contenga el 100% de la población con análisis full-genome. Una situación intermedia es una muestra reducida de individuos pero con datos potentes de marcadores para algunos, muchos o todos ellos, por ejemplo Big-Y o Full-Y. Esto es la situación a la que se está llegando en algunos grupos de FTDNA. Como anécdota comentar que en éste tipo de estudios existe una cierta mentalidad mesiánica: la esperanza de que se incorpore al grupo un individuo que aporte una nueva mutación SNP o cuyos resultados causen un reordenamiento significativo del árbol o proporcione información relevante a los miembros desde el punto de  vista genealógico etc…Este mesianismo está en parte motivado porque hay mucha gente reacia a realizarse éstos tests y a participar en los grupos, y ello por múltiples y variados motivos, que en ocasiones comparto. Por lo tanto los nuevos miembros, y sobre todo aquellos cuyos resultados son realmente informativos son un bien escaso. Por ello se puede considerar que la gente que participa en éstos grupos son verdaderos emprendedores que asumen sus riesgos, verdaderos científicos motivados por la pura curiosidad, verdaderos pioneros, explorando la geografía del genoma humano.

[Nota al margen. 

¿ Que puede pasar cuando se incorpora un nuevo miembro ? O bien que se le pueda clasificaren alguno de los nodos que ya existan  sin más cambios, o bien que en éste individuo aparezcan nuevas mutaciones en cuyo caso se pueden dar varias posibilidades:

–puede ser una mutación paralela  a alguna otra que ya exista (para comprobar si se da este caso hay comprobar si otros que ya tienen ésta otra también tienen la nueva;de ser así esta nueva mutación no es fuente de una nueva rama, no es informativa;

–puede ser una mutación que provoque una reorganización en partes del árbol que ya estaban consolidadas,

–o puede ser una mutación que abra una nueva rama  que no no  existía.

Me  estoy iniciando en éste tema y posiblemente la lista anterior no sea exhaustiva. En cualquier caso si las muestras que  conforman los grupos  de FTDNA  fuesen aleatorias, entiendo que se exploraría el árbol de manera más eficiente que siendo auto-seleccionadas, sesgadas y con un mismo número de personas  tendríamos un conocimiento más cierto.

Fin de  nota la margen].

En fin, las dos fuentes son más bien complementarias. Si existe un estudio científico cuya población sea idéntica a la de un grupo de ciudadanía científica se puede contrastar los haplogrupos y frecuencias de éstos en ambos para ver en que medida el grupo ciudadano está sesgado. Si faltan haplogrupos o si las frecuencias son muy diferentes entonces se puede concluir que hay sesgo. Y por otra parte, los estudios científicos pueden y suelen utilizar los resultados de los estudios de ciudadanía para incorporar los nuevos marcadores más significativos a sus nuevos estudios. A medida que pasa el tiempo ambos tendrían que converger a resultados similares.

[Nota al margen. Hace poco estaba leyendo en profundidad un buen estudio de ciudadanía genética relacionado con grupo muy estudiado, sobre el que hay una cierta controversia sobre sus orígenes.

El autor concluye, en base a una muestra de unos 2000 individuos x (en general) Y-67 (con algunos Big-Y), obtenida agregando varios grupos de FTDNA, muestra sesgada de una población total que se estima en unos 12 millones de habitantes, que sus resultados (por ejemplo los haplogrupos y subclades de ésta población, sus frecuencias y los árboles filogenéticos de  cada haplogrupo) serán estables.

Piensa que el 100% de los 12 millones de individuos de ésta población se podrá clasificar en unos 100 clades o nodos terminales, de los que ya tiene identificados el 90%. Es decir piensa que obtener datos full-Y de toda la población no haría variar mucho sus resultados. En parte, la lectura de éste estudio y el querer evaluar si sus conclusiones son válidas es lo que me ha llevado a estudiar más detenidamente éste tema. Es un buen estudio y su autor es un científico, pero en otras disciplinas, en física creo, pero de momento no sé si estoy de acuerdo con la estabilidad de  sus resultados. Fin de nota al margen].

4. Literatura relevante.

Obviamente no  soy el primero que se ha planteado estas cuestiones y seguramente todas ellas  ya tienen una buena respuesta técnica desde hace bastante tiempo. En lo que sigue recopilo literatura relevante.

En general gran parte de la literatura es sobre el  caso de árboles filogenéticos genuinos, es decir aquellos en los que la matriz es especie x proteína.   Las caractarísticas pueden ser una determinada proteína (o su código en forma de ADN), y por lo tanto las posiciones de la matriz serán o alguno de los 20 aminoácidos o alguno de los cuatro  nucleótidos. En base a la comparación de éstas secuencias de proteínas / adn,  el árbol establece las  relaciones filogenéticas entre especies. En nuestro caso la matriz es individuo de una especie x cromosma Y. Aunque no lo tengo claro entiendo que las reflexiones de un caso son extrapolables al  otro sin más problema.

En el primer caso (especies x proteína) los sesgos pueden provenir de la  selección del individuo representante de cada especie (si todos los individuos de una especie tienen la misma secuencia,éste sesgo desaparece) o de la  selección de especies (la población serían todas las especies que tengan la proteína dada y si no trabajamos con todas  las  especies y sólo con una muestra, podría haber sesgos). Combinando los dos, la población serían todos los individuos de todas las especies.

–para empezar es recomendable éste artículo de divulgación sobre el cromosoma Y y su relevancia para la genealogía genética, publicado en 2003 en Nature. Además de  hablar de muestras, de sesgos, de métodos de construcción de árboles filogenéticos, proporciona información más general sobre el cromosoma Y que ayudará a comprender otros artículos que se listan a continuación.

Extracto.

Efforts to discover genome-wide sequence variation have identified vast numbers of Y-specific single nucleotide polymorphisms (SNPs): the Ensembl database lists 28,650 at the time of writing, which might seem enough to provide an extremely detailed PHYLOGENETIC TREE of Y-chromosomal lineages. But how many of these SNPs are real, and how many are artefacts that are produced by unknowingly comparing true Y-chromosomal sequences with similar sequences (PARALOGUES) elsewhere on the same or other chromosomes ? Also, are these SNPs a representative set of sequence variants from the human population as a whole? The answer is no, because of ascertainment bias (BOX 1) in the range of populations that were surveyed for variation

–un artículo en el que presentan, dentro del campo de la genealogía genética, un método para elaborar árboles filogenéticos en base a  datos STR. Pero ojo, no hablan del problema del muestreo. En algunos casos, cuando por ejemplo el objetivo es determinar si una serie de individuos tienen parentesco, el  problema  del muestreo no aparece. Un ejemplo. 

http://biorxiv.org/content/biorxiv/early/2013/12/13/000802.full.pdf

–una buena introducción a la genealogía genética del cromosoma Y.

http://www.hollandsociety.com/HSNY-Genetic-Genealogy-Y-DNA.pdf

El índice de un libro, en PDF, que trata exactamente del tema sobre el que nos hemos interrogado:  los árboles  filogenéticos y su estimación. Si en vez de índice fuese libro completo no necesitaríamos más. Una crítica del libro.

–Lo mismo pero en un artículo mucho más corto y por  lo tanto mucho menos detallado. Ojo es  de 2005 y seguramente no está actualizado en algunos aspectos. Explican que el proceso de elaboración de un árbol filogenético consiste en varias fases: muestreo, secuenciación, alineamiento  de secuencias (no entiendo muy bien ésta fase; entiendo que cuando el input es un Y-X de FTDNA podemos obviarla puesto que no se trabaja directamente con las secuencias del cromosoma, sino con las mutaciones STR) y construcción del árbol aplicando algunos de los métodos alternativos disponibles (algunos son los métodos de distancia, de parsimonia, de máxima verosimilitud y bayesanos). Una subfase de la construcción del árbol es el enraizamiento, es decir el encontrar el nodo inicial, del que se derivan todos los demás. Este paso se puede obviar si nos es suficiente trabajar con un árbol sin raiz.  Y finalmente hay una fase de análisis estadístico de remuestreo, que intenta determinar la fiabilidad (reliability) y robustez del árbol obtenido. De momento tampoco entiendo muy bien ésta fase que es clave para la estadística inferencial de árboles filogenéticos. La vemos más detenidamente en el punto siguiente.

–Los dos  métodos alternativos de remuestreo con vistas a asegurarse de la validez / robustez del árbol obtenido son bootstrapping y jacknife. En éste artículo ¿ de 2003  ? explican la necesidad y lógica del bootstrapping.

Jakknife fue inventado,  en un contexto no biológico por Maurice Quenouille en 1949.

Bootstrapping fue inventado más tarde por Bradely Efron en 1979 (publicación), tras estudiar el método jackknife. También en un contexto no biológico.

El primero que aplicó el método  de bootstrapping a árboles filogenéticos fue Felsenstein y presentó su resultado  en éste artículo (titulado: Statistical Inference of  phylogenies, de 1983). En la bibliografía que aparece en esta presentación del mismo autor aparecen todos los artículos relevantes con notas históricas.

¿¿ Los dos métodos, bootstrapping y jackknife, parten del supuesto de que no se puede conocer la distribución de la población ni sus parámetros y para asegurarse que no hay sesgos muestrales hacen un remuestreo con reposición, con los individuos de la muestra inicial, repetidas veces (cientos, miles) y para cada vez calculan el valor del parámetro (entiendo que en el caso  que nos interesa, reconstruyen el árbol). De esta manera pueden asignar un valor  de confianza a cada ramificación. Las ramificaciones que aparecen en todas los remuestreos son robustas y tendrán un valor más elevado. A grouping that is present in a low percentage of the bootstrap replicates is sensitive to the exact combination of sites that were sequenced. This implies that if another data set were collected, there is a good chance that the group would not be recovered. Bootstrapping is a remarkably versatile tool (it can be used to assess the strength of support in virtually any type of analysis) that makes only minimal assumptions (although it does assume that each of the sites in the original data is independent of the others)…It is also important  to bear in mind that bootstrap proportions help predict whether the same result would be seen if more data were collected, not whether the result is correct…It might be said that high bootstrap proportions are a necessary, but not sufficient, condition for having high confidence in a group. Aunque ya lo tengo más claro,  sigo sin entender 100% estos métodos.

Mi  gran duda sobre estos métodos de remuestreo es como sigue: si yo quiero conocer por ejemplo la altura de una población dónde hay una minoría de enanos, por poner un ejemplo gráfico, y tengo una muestra sesgada siendo todos los individuos miembros de esta minoría, por  mucho que remuestree con reposición obtendré siempre una media de enanos. De acuerdo que es un caso extremo. Con que en la población haya algunos individuos de altura “normal”, el remuestreo con reposición ya nos dará algunas muestras con alturas medias más parecidas a la que pueda ser la de la población. Pocas pero las suficientes para saber que podemos estar sesgados ¿ Pero como sabemos que no estamos en este extremo en el caso de árboles filogenéticos ?. Extrapolando al tema que nos interesa, si tenemos una muestra sesgada en extremo, ¿ pueden indicarnos estos métodos que la tenemos ? ¿ como sabemos que con la muestra sesgada que tenemos, con todos los individuos pertenecientes a los subhaplogrupos más frecuentes, no estamos construyendo un árbol incorrecto ? Por mucho que remuestremos,   las ramificaciones van a parecer robustas, cuando no lo son. Será un falso positivo.

Una presentación muy interesante, con enfoque algorítmico y múltiple aparato gráfico. Explican claramente el problema del alineamiento que ya comprendo más o menos. Se confirma que no es relevante cuando se parte de los resultados de FTDNA. Desde el punto de vista de la complejidad computacional, el problema del alineamiento es intratable. Ver aquí. Y ver éste otro enlace.

Un PDF muy reciente que presenta la problemática de los árboles filogenéticos de manera muy resumida.

otro PDF en el cual explican los métodos bayesanos en relación con los tres métodos tradicionales: distancia, parsimonia y verosimilitud. Bayesian approaches to phylogenetics are relatively new30–35, but they are already generating a great deal of excitement because the primary analysis produces both a tree estimate and measures of uncertainty for the groups on the tree. Éste artículo es de 2003. En wikipedia hay una buena entrada (entiendo que actualizada) explicando el alcance de los métodos bayesanos. A vista de  pájaro, pues todavía no los conozco en detalle, son más  eficientes que el método  de verosimilitud, ya que de alguna manera podan el número de posibilidades (el número  de árboles a tener en cuenta). Si  embargo ésta poda que está basada en determinados supuestos(que incorporan conocimiento biológico) puede ser peligrosa ya que te puede llevar a obtener un árbol que no se corresponda con la realidad. El método de verosimilitud contempla todos los árboles y por lo tanto es mejor  en éste sentido, aunque computacionalmente muy intensivo, prohibitivo  para determinados volúmenes de datos. La entrada se titula Bayesan Inference in Phylogenies.

–En ésta entrada  de  Wikipedia titulada Computational phylogenetics nos informan sobre la complejidad computacional de los  distintos métodos de construcción de árboles filogenéticos. Algunos extractos: …Finding the optimal least-squares tree with any correction factor is NP-complete…;…However, this is only possible for a relatively small number of sequences or species because the problem of identifying the most parsimonious tree is known to be NP-hard…;…Searching tree topologies defined by likelihood has not been shown to be NP-complete,[4] but remains extremely challenging because branch-and-bound search is not yet effective for trees represented in this way…

Interesante que no se conozca la complejidad de los métodos de verosimilitud. Tampoco he conseguido averiguar la de los métodos bayesanos. No se  cuantos taxones permite atacar el estado del arte actual. Y entiendo que en la práctica la complejidad dependerá no sólo del número de taxones (individuos o especies) sino también del tamaño de las secuencias. No es lo mismo, computacionalmente, calcular  un árbol con Y-12 que con Full-Y. Y sobre todo recordemos que para el problema previo de alineamiento sí es directamente relevante el tamaño de las secuencias a alinear. No tengo claro que la complejidad del problema de alineamiento dependa más del tamaño de las secuencias a alinear que del número de secuencias.

Terms and conditions: 1. Any commenter of this blog agrees to transfer the copy right of his comments to the blogger. 2. RSS readers and / or aggregators that captures the content of this blog (posts or comments) are forbidden. These actions will be subject to the DMCA notice-and-takedown rules and will be legally pursued by the proprietor of the blog.

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s


A %d blogueros les gusta esto: