El Lapo Azul. Ancestry Composition de 23andme vs. MyOrigins de FTDNA. Una comparativa metodológica en relación a las poblaciones de referencia.

Disclaimer: Esta es una entrada que interesará sólo a los usuarios de estas plataformas y lectores interesados en genética y genealogía genética en general.

1. Introducción.

Como conocerán los lectores habituales, uno de mis conocidos se hizo cliente primero de 23andme  y luego (esto es la novedad reciente) envío sus resultados autosomales a FTDNA para que los incluyesen en su plataforma y comparasen con resultados similares de su base de datos. Esto segundo se puede hacer pagando una pequeña cantidad.

Como es conocido también, para el ADN autosomal 23andme tiene un programa en base a Análisis de Componentes Principales, Ancestry Composition, que descompone tu genética en componentes geográficos: norte de europa, sur de europa,  europa báltica, norte de áfrica, áfrica del este, afrcia subsahariana central, oriente medio, sudeste asiático, extremo oriente etc….También tienen un programa, llamado DNA Relatives que busca y lista individuos de su base de datos con los que estás emparentado y con los que puedes contactar para mayores averiguaciones.

FTDNA tiene los mismos servicios a los que llama respectivamente MyOrigins y Family Finder.

Como ya comenté mi conocido me facilitó las claves y he podido usar las dos plataformas. Comparando ambas (y téngase en cuenta que llevo utilizando y he utilizado mucho más intensivamente 23andme que FTDNA)  me  gusta más  de momento en lo informático la primera.Un diseño más intuitivo y una estructura de plataforma más navegable. Es posible que cambie de opinión más  adelante…

2. El problema. 

Pero lo  que quería comentar es que los resultados técnicos de estos dos servicios (descomposición geográfica y lista de parientes lejanos), en relación al DNA de mi conocido no podrían ser más dispares:

exagerando la situación, es como si, siendo por  ejemplo chino, en uno te digan que eres 100% chino (lo cual es correcto) y en el otro que 100% subsahariano (lo cual te sorprendería).

Repito que es una exageración, pero ante estos sorprendentes resultados (que a mi me  dejaron un poso de sospecha, dado que si no hubiesemos tenido los datos de 23andme hubiésemos tenido que dar por  buenos los de FTDNA, que estaban dentro de lo posible y los hubiésemos aceptado),  se le envío un e-mail a FTDNA para que aclarasen dudas. Cosa que hicieron aunque la respuesta no fue 100% satisfactoria. Tampoco estoy diciendo que fuese una respuesta genérica, no informativa; contestaba bien a los puntos planteados por nosotros.

3. Una posible explicación.

En mi opinión la mejor explicación de  la disparidad en los listados de parientes lejanos está en las diferencias en la composición de la base de clientes  de una y otra plataforma.

En cuanto a las diferencias en composición geográfica (y aquí si cabe los resultados fueron incluso más dispares), depende de las poblaciones que hayan utilizado como referencia y entiendo que menos,  mucho menos de los métodos o algoritmos de análisis de datos utilizados. Por ejemplo en FTDNA utilizan Admixture (el enlace lo es al artículo técnico en el que se presenta el método, autor Alexander 2009, título: Fast Model-Based Estimation of Ancestry in Unrelated Individuals.

3. MyOrigins y Ancestry Composition. Breve comparativa de las respectivas poblaciones de referencias.

MyOrigins de FTDNA.

Para los interesados  en cuestiones técnicas en este enlace explican cuestiones metodológicas de MyOrigins (segunda mitad de 2014; el encontrar hoy este documento casualmente es lo que ha motivado la presente entrada). Incluye información sobre las poblaciones de referencia, método de selección (no es aleatorio sino dirigido, y diría que esto es lo normal, con mucha cocina que no puedo evaluar) y otras de interés.

En total una muestra de 1353  individuos, extraídos de las siguientes bases de datos

•     GeneByGene DNA customer database

•     Human Genome Diversity Project

•     International HapMap Project

•     Estonian Biocentre

obteniendo las siguientes 36 poblaciones.

MyOrigins, Table of reference populations.

Population N Population       N N
Armenian 46 Lithuanian           6
Ashkenazi 60 Masai               140
British 39 Mbuti                 15
Burmese 8 Moroccan            7
Cambodian 26 Mozabite           24
Danish 13 Norwegian        17
Filipino 20 Pashtun            33
Finnish 49 Polish                35
French 17 Portuguese      25
German 17 Russian            41
Gujarati 31 Saudi                19
Iraqi 12 Scottish            43
Irish 45 Slovakian         12
Italian 30 Spanish          124
Japanese 147 Surui                21
Karitiana 23 Swedish           33
Korean 15 Ukrainian        10
Kuwaiti 14 Yoruba          136

Al ver la tabla me he quedado mucho más sorprendido con los resultados  de mi conocido pues es de una zona geográfica bien representada. Habíamos interpretado, erróneamente que no había representantes de su país entre las poblaciones de referencia. 

No tengo claro que método de análisis de datos han utilizado.

Ancestry Composition de 23andme.

Y los datos metodológicos de Ancestry Composition (y aquí un pdf dónde explican de manera más técnica los pasos de su algoritmo, aunque no bajan 100% al detalle) son una muestra dirigida de 10.418 individuos, extraídos de las siguientes bases de datos: la propia base de clientes de 23andme (la mayoría) y The public reference datasets we’ve drawn from include the Human Genome Diversity ProjectHapMap, and the 1000 Genomes project. For these datasets as well as the data from 23andMe, we perform filtering to ensure accuracy. 

En este caso no existe una tabla con datos de las poblaciones de referencia pero estos datos se pueden consultar en la propia plataforma e incluso yo, como tengo acceso, podría construirla.

Facilitamos un ejemplo para el caso europeo:

Population Source Sample Size
Ashkenazi 23andMe 1305
United Kingdom 23andMe 870
Italy 23andMe 556
Germany 23andMe 367
Ireland 23andMe 292
Russia 23andMe 253
Finland 23andMe 245
Poland 23andMe 240
Spain 23andMe 234
Norway 23andMe 220
Netherlands 23andMe 207
France 23andMe 200
Sweden 23andMe 170
Greece 23andMe 147
Portugal 23andMe 132
Romania 23andMe 129
Denmark 23andMe 125
Italy 1000 Genomes 98
Finland 1000 Genomes 93
United Kingdom 1000 Genomes 89
Switzerland 23andMe 87
Hungary 23andMe 86
Ukraine 23andMe 82
Belgium 23andMe 80
Bulgaria 23andMe 75
Austria 23andMe 54
Croatia 23andMe 51
Slovakia 23andMe 45
Czech Republic 23andMe 44
Belarus 23andMe 31
France HGDP 29
Sardinian HGDP 28
Bosnia and Herzegovina 23andMe 25
Russian HGDP 25
France Basque HGDP 24
Slovenia 23andMe 20
Serbia 23andMe 17
Spain 1000 Genomes 14
North Italian HGDP 13
Macedonia 23andMe 12
Tuscan HGDP 8
Albania 23andMe 8
Montenegro 23andMe 6
Malta 23andMe 6

Al igual que con FTDNA, no tengo claro que método de análisis de datos o clustering han utilizado.

Conclusiones provisionales.

Esta entrada es meramente informativa y no voy a entrar en una crítica metodológica hasta estudiar ambas metodología en detalle. Quiero además dejar claro que aunque desde hace tiempo tengo ganas de documentarme al respecto, no soy experto, ni mucho menos,  en los métodos utilizados. En realidad ni siquiera principiante (aunque he estudiado algunos, creo recordar que nunca los he utilizado éste método).

Si señalar que la muestra de 23andme es aparentemente mucho más potente y esto podría explicar la disparidad de resultados entre ambas plataformas y entiendo que también explicaría el por qué el resultado de 23andme es mucho más atinado (esto es así: los resultados de 23andme se corresponden más con la realidad en este caso que los de FTDNA).

Actualización día siguiente (3 de enero 2014).

Para que la entrada no sea confusa he borrado  los comentarios finales dentro de las  conclusiones que hice ayer. Aunque todavía no tengo 100% claro las matemáticas y otras propiedades de los métodos si tengo claro algunas dudas que planteaba en estos comentarios. En lo  que sigue el fruto de  mi consulta con la almohada (a veces consulto con la almohada sobre otros temas ¡¡ eh !! :-)).  Como se verá muchas de estas todavía están en modo duda.

Este tipo de métodos se aplican para varias finalidades: determinar la descomposición en subpolaciones de  un individuo dado;  otra extrapolar los resultados sobre la estructura obtenida en la muestra a la población objetivo. Algunos de los comentarios siguientes son relevantes para los dos objetivos, otros para uno solo.

–La población objetivo de  la que se extraen las muestras para aplicar los métodos es el conjunto de individuos cuyos cuatro abuelos provengan de una determinada zona geográfica (país o afinando más, lo cual sería más correcto provincia). Importante: ver siguiente actualización.

–Una primera  condición de representatividad es que todas las zonas geográficas  del globo estén representadas, y cuanto más afinada sea este representación, mejor (es  decir país mejor que provincia). Si se  da esta primera condición los individuos cuyos cuatro abuelos no sean de  una zona aparecerán como mezcla de algunas de estas poblaciones. Pero si hay poblaciones no  representadas y algún individuo tiene abuelos de estas, entonces le aparecerán resultados extraños (todavía no tengo claro que forma tendrán: le  dirán que tiene mezcla de poblaciones no representadas, o lo asignarán a poblaciones próximas.

Hay poblaciones que están relacionadas genéticamente por haber tenido un comportamiento endogámico pero que no ocupan un territorio geográfico  concreto, sino que están  distribuidas por diferentes países. Por ejemplo los gitanos, los judios askenazi, los judios sefarditas, los asirios y seguramente bastantes otras. ¿ Es correcto crear subpoblaciones de este tipo y que haya representantes de estas en la muestra ? Mi intuición de diceque esto distorsiona de alguna manera la  muestra pero no sabría decir de momento porqué. Si no distorsionase, entiendo también que todas ellas deberían de estar incluidas.

–Una segunda condición de representatividad (de nuevo esta no la tengo 100% clara pero creo que se acabará confirmando) es que la  cantidad de individuos correspondientes a cada subpoblación (país o provincia) debería tener un mínimo de individuos. Esto es  así porque si la población no es homogénea (y muy pocas lo son) es complicado que un individuo o unos pocos puedan representar genéticamente a un grupo amplio. No tengo claro cuales son estos mínimos en las dos  familias de métodos que repasamos en el punto siguiente.

–Una tercera condición de representatividad (esta si que no la tengo nada clara) es que la cantidad de representantes de cada subpoblación debería de ser proporcional al censo (o en su caso a un concepto de subpoblación relevante desde el punto de  vista biológico). Si sobrecargamos un grupo e infrarepresentamos otro entiendo que los resultados saldrán distorsionados. Insisto en que este es el punto que tengo menos claro. Es posible con que sea suficiente

–Finalmente, entiendo (y de nuevo esto que lo más adecuado sería realizar muestras aleatorios de la población objetivo (la señalada antes)en vez de construir muestras dirigidas (purpose sampling).

Fin actualización.

[Actualización 2. 7 de enero de 2015.

Hasta aquí nos hemos hemos centrado en la  selección de individuos pero también es importante la selección de SNPs.

–La matriz genética más completa posible que represente el stock genético de la humanidad viva actual sería un matriz de unos 7.000.000.000 millones de individuos x 3 079 843 747 pares de bases (la cantidad de pares de bases del genoma humano); en cada casilla uno de cuatro símbolos posibles (normalmente las letras C,T,G,A). Esta es la matriz máxima: incluye individuos cuyos 4 abuelos no son de un mismo territorio y pares de bases que no son SNPs.

El lector debe tener en cuenta que esta matriz que representa el stock genético de la humanidad actual, que podemos llamar Matriz Completa (que para cualquier especie, aunque nunca se dispone de ella, es la materia prima de la genética de poblaciones, materia a la que se aplican una serie de transformaciones para obtener submatrices y medidas para determinar la estructura genética de la población), se ha generado tras un proceso evolutivo. Hace 10.000 años existía por ejemplo otra matriz que representaba el stock genético de la humanidad de entonces. ¿ Cual es la diferencia entre esta matriz de hace 10.000 años con respecto a la actual: tenía menos individuos, tenía la misma cantidad de pares de bases, los individuos eran más similares entre ellos que hoy (las filas serían más similares, si los individuos se representan en las filas). Cada varias generaciones se podría construir una matriz completa y habría variaciones en el número de individuos (pueden ser más o menos, dependiendo de la suerte de la población, incluso puede no haber matriz si hay extinción) y en las casillas (por las mutaciones selectivas, neutras y otros procesos genéticos).

–la matriz que representa a la población objetivo de interés para el  tema que nos ocupa, sobre la que se realizan los muestreos sería una submatriz de la  anterior, digamos de unos 5.000.000.000 individuos (dato ficticio de numero total de individuos con los 4 abuelos nacidos en una misma región; desconozco la cantidad real pero posiblemente sea superior al dato dado) x ¿ 20.000.000 ? SNPs (número estimado o al menos cota superior de SNPs del genoma humano una vez se hayan descubierto todos; no se cual es la diferencia entre RefSNPs, dbSNPs y validated SNPs),

dbsnp-growth-2003-2009

El obtener esta inmensa matriz hoy por hoy es impracticable por muchos motivos y por lo tanto nos debemos de conformar con muestras más o menos amplias (más menos que más).

La muestras pueden ser obtenidas de modo dirigido o aleatorio en cualquiera de estas dos dimensiones, es decir tanto para individuos como para SNPs. Entiendo  que los métodos que aplican tanto 23andme como FTDNA son dirigidos en los dos aspectos y la  duda es si esto es del todo correcto cuando queremos extrapolar las medidas o estimadores obtenidos en la muestra a la población total o incluso cuando queremos clasificar un individuo en base a los datos muestrales. Si lo hacen siendo expertos seguramente es porque es correcto.

Si por lo que sea queremos un muestreo dirigido, dada una muestra representativa por individuos, ¿ que muestras de SNPs garantizan representatividad por esta otra dimensión ?. No lo se de momento: entiendo que para esto hay que tener un cierto conocimiento de genética.

Pero señalamos algunos errores que pienso pueden ocurrir: por ejemplo incluso con una selección representativa de individuos, podríamos clasificar a un individuo en base a una selección sesgada de SNPs cuando si hubiésemos seleccionado otros SNPs la clasificación hubiese sido diferente. Dependiendo del número de SNPs seleccionados, esto puede ser más o menos probable. Con pocos SNPs es muchos más probable que si estamos utilizando una proporción grande de SNPs con respecto al total de SNPs posible.

En este artículo comentan:

The establishment of inexpensive single nucleotide polymorphism (SNP) genotyping platforms in the previous decade has allowed for relatively facile collection of markers to assess genetic ancestry in human populations. With prior knowledge of population-specific allele frequencies, panels of SNPs referred to as ancestry informative markers (AIMs) can be used to estimate genetic ancestry[36]. AIMs are markers whose frequencies are significantly different, and thus able to distinguish, between two or more populations [7]. Panels of AIMs vary in size, depending on the intended purpose. Relatively small panels numbering in the dozens to hundreds of SNPs can be used when the purpose is to define continental genetic ancestry, whereas hundreds or thousands of SNPs are required for more refined sub continental estimation or for traditional mapping by admixture linkage disequilibrium (MALD) [810]. Alternatively, the advent of genome-wide association studies (GWAS) has made it increasingly common to use the large amount of SNP data already present on genome-wide arrays to estimate genetic ancestry [11]. Some of the methods presented in this review do not require the use of specific AIM panels, but work more effectively with dense genotyping data, though different softwares are more or less adept at handling different sized marker sets. Subsets of AIMs can also be selected from GWAS data using traditional approaches based on SNP informativeness [12] or more recent principal components analysis (PCA) approaches [13].

Fin actualización 7 de enero 2015].

Tengo que investigar sobre todo esto, cosa que paso a hacer en el siguiente punto.

4. Métodos de análisis de datos FTDNA (en construcción; sujeto a cambios; puede contener errores).

Según estoy leyendo hay dos familias de métodos, la algorítmica (dentro de la cual estarían los métodos basados en el análisis de componentes principales también llamados eigenanalysis methods por motivos obvios para quien conozca los métodos ACP y métodos de clustering) y la model-based (). No tengo claro todavía que aplicaciones de software (Structure, Admixture, Frappe, Eigensoft etc… se corresponde con cada familia).

Un artículo reciente (2015) dónde hablan,  en la intoducción de los diferentes métodos para determinar la estructura de una población. Añaden una tercera familia de métodos que denominan tree-based. En ellos se intenta reconstruir una filogenia de los individuos o poblaciones considerados. Las variantes más avanzadas de esta familia (por ejemplo TreeMix), utilizan DAGs para visualizar las relaciones entre poblaciones.

Matemáticamente ambas familias (algorítmica y model-based están relacionadas: Engelhardt and Stephens (2010) showed that the model-based approach and the eigenanalysis-based approach to stratification could both be interpreted as different ways of factorizing the genotype matrix of the given data, which suggests that both methods are related despite their apparent differences. Luego veremos cuales son las matrices factores.

Los detalles del artículo enlazado son como sigue.

Título. Analysis of Population Structure: A Unifying Framework and Novel Methods Based on Sparse Factor Analysis. Se puede leer completo en HTML.

Abstract.

We consider the statistical analysis of population structure using genetic data. We show how the two most widely used approaches to modeling population structure, admixture-based models and principal components analysis (PCA), can be viewed within a single unifying framework of matrix factorization. Specifically, they can both be interpreted as approximating an observed genotype matrix by a product of two lower-rank matrices, but with different constraints or prior distributions on these lower-rank matrices. This opens the door to a large range of possible approaches to analyzing population structure, by considering other constraints or priors. In this paper, we introduce one such novel approach, based on sparse factor analysis (SFA). We investigate the effects of the different types of constraint in several real and simulated data sets. We find that SFA produces similar results to admixture-based models when the samples are descended from a few well-differentiated ancestral populations and can recapitulate the results of PCA when the population structure is more “continuous,” as in isolation-by-distance models.

Antes de empezar señalar que en ISOGG tienen una página web dónde comparan las diferentes posibilidades comerciales o no para obtener este tipo de servicios.  Además  de 23andme y FTDNA, hay otras. No bajan mucho al detalle.

Según estoy viendo todos los artículos son avanzados. No he encontrado de momento ningún texto introductorio en el que presenten los diferentes métodos de manera sencilla. Aquí otro artículo dónde proponen otro método PSIKO.

4.1 Familia algorítmica (también llamada eigenanalysis, que es lo que se realiza en el ACP). 

Análisis de componentes principales.

Reduce la dimensionalidad de los datos. Un primer input es una matriz

Sobre la importancia del tamaño de la  muestra en ACP.

Extracto.

Larger samples are better than smaller samples (all other things being equal) because larger samples tend to minimize the probability of errors, maximize the accuracy of population estimates, and increase the generalizability of the results.  Unfortunately, there are few sample size guidelines for researchers using EFA or PCA, and many of these have minimal empirical evidence (e.g., Guadagnoli & Velicer, 1988).

This is problematic because statistical procedures that create optimized linear combinations of variables (such as multiple regression, canonical correlation, and EFA\PCA) tend to “overfit” the data.  This means that these procedures optimize the fit of the model the given data; yet no sample is perfectly reflective of the population.  Thus, this overfitting can result in erroneous conclusions if models fit to one data set are applied to others.  In multiple regression this manifests itself as inflated R2 (shrinkage) and mis-estimated variable regression coefficients (Cohen & Cohen, 1983, p. 106).  In EFA or PCA this “overfitting” can result in erroneous conclusions in several ways, including the extraction of erroneous factors or mis-assignment of items to factors (e.g., Tabachnick & Fidell, 2001, p. 588)

The ultimate concern is error.  At the end of the analysis, if one has too small a sample, errors of inference can easily occur, particularly with techniques such as EFA or PCA.

Comfrey and Lee (1992) suggest that “the adequacy of sample size might be evaluated very roughly on the following scale: 50 – very poor; 100 – poor; 200 – fair; 300 – good; 500 – very good; 1000 or more – excellent” (p. 217).  Guadagnoli and Velicer (1988) review several studies that conclude that absolute minimum sample sizes, rather than subject to item ratios, are more relevant.  These studies range in their recommendations from an N of 50 (Barrett & Kline, 1981) to 400 (Aleamoni, 1976). 

4.2. Métodos estadístidcos o model-based.

4.2.1. Structure. (pdte).

STRUCTURE uses a systematic Bayesian clustering approach applying Markov Chain Monte Carlo(MCMC) estimation. The MCMC process begins by randomly assigning individuals to a pre-determined number of groups, then variant frequencies are estimated in each group and individuals re-assigned based on those frequency estimates. This is repeated many times, typically comprising 100,000 iterations, in the burnin process that results in a progressive convergence toward reliable allele frequency estimates in each population and membership probabilities of individuals to a population.

FuenteAn overview of STRUCTURE: applications, parameter settings, and supporting software. 2013.

4.2.2. Admixture.

Aunque he leído que es un refinamiento de Structure, son algo diferentes.

Aquí el input es una matriz en la que en cada fila  aparecen los diferentes individuos (i1, i2…in) y en cada columna sus correspondientes alelos para cada SNP (J1, J2…Jn).

Esta  muestra de individuos son fruto de K supuestas poblaciones ancestrales. El output sería otra matriz en la cual se cruzan individuos en filas (i1, i2,…in) con poblaciones en columnas (k1,k2,…kn) y en cada casilla aparecerían la proporción del  genoma de cada individuo que le ha aportado cada población ancestral (digamos Qik).

Otro output que necesariamente puede proporcionar este método es una matriz que cruza poblaciones K con SNPs J y en cada casilla aparecería la frecuencia correspondiente Fjk a cada alelo de cada SNP en cada población. Nos centramos en el anterior que es el que interesa en Admixture.

Para pasar del input al  output se asumen los siguientes supuestos biológicos:

–los individuos se forman por la unión (tras la selección) aleatoria de gametos (uno de cada padre). De aquí se obtienen las proporciones o frecuencias binomiales para cada posible alelo. Por ejemplo, Pr(alelo 1/1 en el SNP j) = (Suma de k factores Qik*Fkj)^2. El lector podrá deducir los otros dos casos 1/2 y 2/2 o puede ver el artículo de Alexander 2009. Entiendo que este supuesto y las proporciones obtenidas se corresponden con la Ley Hardy-Weinberg.

–Equilibrio de ligamiento (Linkage equilibrium) entre los marcadores. Como  esto puede no ser realista eliminan los conjuntos de marcadores (SNPs) densos dónde puede haber desequilibrio de ligamiento o Linkage Desequilibrium, lo cual se puede hacer de varias maneras.   Como dicen este supuesto proporciona una aproximación útil.

En las casillas de la  matriz input en vez de poner los símbolos alélicos 1/1, 1/2  y 2/2  ponen respectivamente los números 2,1,0, es decir  el número de veces que aparece el alelelo menor en cada SNP. Esto supone una primera transformación sencilla del input.

En base a los  datos dados (proporciones y segunda matriz input) se puede construir la correspondiente formula o función de verosimilitud.   Los Qik y Fkj buscados son los que maximizan esta  función cuya formulación se puede ver en el paper.

Hay varios métodos  de optimización que permiten esto y para seleccionar el más adecuado entran consideraciones de complejidad computacional. Todo esto lo tratan en el punto 2.2.

En el punto 2.3 comentan sobre los errores estándar para la estimación de los parámetros. No comprendo muy bien esta parte.

En el punto 3 realizan una serie de simulaciones aplicando el método a casos reales para validarlo. Por  ejemplo de la base de datos HapMap Fase 3 seleccionan individuos originarios de México, del Sudoeste de Norte América, CEU (individuos de origen Europeo) y de la población africana Yoruba.     324 individuos y x unos 13000 SNPs.  Los resultados: Figure 1 summarizes the results of analyzing HapMap3 with admixture, structure, and eigenstrat. admixture, like structure and eigenstrat, resolves the CEU and YRI samples and identifies the ASW sample as an admixture between the YRI and CEU, samples, and the MEX sample as an admixture between the CEU sample and a third ancestral population, lo cual se corresponde con la realidad.

Ojo: Choice of an appropriate value for K is a notoriously difficult statistical problem. It seems to us that this choice should be guided by knowledge of a population’s history. Because experimentation with different values of K is advisable, admixture prints values of the familiar AIC (Akaike Information Criterion) and BIC (Bayesian Information Criterion) statistics, widely applied in model selection.

Es decir el numero de poblaciones ancestrales que mejor se ajusta a los datos lo debe de fijar el investigador haciendo pruebas.

Dudas sobre Admixture:

Tengo algunas dudas sobre la  validez  de estos métodos.

–Entonces, para aplicar Admixture,  se selecciona una muestra de otra muestra. Por ejemplo HapMap es una muestra y de esta muestra se selecciona otra a la que se aplica Admixture. Las proporciones obtenidas son válidas para los individuos a los  que se ha aplicado Admixture. Pero ¿ en que medida las proporciones obtenidas para esta última se pueden extrapolar a la población original de la que proviene la primera muestra ? O lo que es lo mismo si escogemos un individuo al azar de la población original y lo añadimos a la muestra a la que se aplica Admixture, saldrá con las mismas proporciones que la media de los individuos de su misma población que ya estaban en la muestra ?

Artículo relacionado: Population stratification is an important task in genetic analyses. It provides information about the ancestry of individuals and can be an important confounder in genome-wide association studies. Public genotyping projects have made a large number of datasets available for study. However, practical constraints dictate that of a geographical/ethnic population, only a small number of individuals are genotyped. The resulting data are a sample from the entire population. If the distribution of sample sizes is not representative of the populations being sampled, the accuracy of population stratification analyses of the data could be affected. We attempt to understand the effect of biased sampling on the accuracy of population structure analysis and individual ancestry recovery. We examined two commonly used methods for analyses of such datasets, ADMIXTURE and EIGENSOFT, and found that the accuracy of recovery of population structure is affected to a large extent by the sample used for analysis and how representative it is of the underlying populations. Using simulated data and real genotype data from cattle, we show that sample selection bias can affect the results of population structure analyses. We develop a mathematical framework for sample selection bias in models for population structure and also proposed a correction for sample selection bias using auxiliary information about the sample. We demonstrate that such a correction is effective in practice using simulated and real data.

Extractos. 

A number of factors are known to affect the accuracy of population stratification and individual ancestry recovery. In one of the early works on model-based methods for population stratification, Pritchard et al. (2000)showed that the number of loci available for analysis had a significant effect on the recovery of individual ancestry using STRUCTURE. Kaeuffer et al. (2007)studied the effect of linkage disequilibrium on recovery of population structure using simulated data.

A common assumption of statistical algorithms is that the available sample is representative of the underlying population. In reality, this assumption may not always be true. Sample selection bias is any systematic difference between the sample and the population. It affects the internal validity of an analysis by leading to inaccurate estimation of relationships between variables. It also can affect the external validity of an analysis because the results from a biased sample may not generalize to the population.

–Cuales son las consecuencias de que las muestras no sean representativas de la  población original ? Es decir ¿ la pregunta que nos planteábamos antes con respecto a la infrarepresentación de los rusos tiene sentido ?

–¿ como aparecen en las matrices output las poblaciones que son ancestrales ? ¿ Como mezcla de ellas mismas (100%) o con proporción cero ?

–Y si una población tiene proporción de otra que no está en la muestra (caso Mexicano), como aparece esta proporción ?

4.3 Sobre el Fixation Index, Fst.

http://en.wikipedia.org/wiki/Fixation_index

http://www.nature.com/scitable/topicpage/using-snp-data-to-examine-human-phenotypic-706

PCA y Fst.

http://hal.ird.fr/hal-00661214/document

P.s. Por cierto otro conocido ha encargado otro test diferente en FTDNA, me ha pedido que le ayude pues está completamente pez en esto, y por estas fechas ya deberían de estar listos los resultados, y no lo están. Son bastante lentos, bastante más lentos que 23andme… Cuando alguien decido gastarse una cantidad considerable en estos temas es porque le puede la curiosidad. Y cuando la curiosidad te puede, 2 meses supera el límite de paciencia que uno puede aguantar.

Actualización 3 de enero de 2014: Mi conocido ha leído la entrada y me comenta que hoy mismo le han comunicado en la plataforma de FTDNA que hay un retraso de hasta 6 semanas más para su resultado. Lo del caballo del malo se queda  corto…:-)

Terms and conditions: 1. Any commenter of this blog agrees to transfer the copy right of his comments to the blogger. 2. RSS readers and / or aggregators that captures the content of this blog (posts or comments) are forbidden. These actions will be subject to the DMCA notice-and-takedown rules and will be legally pursued by the proprietor of the blog.

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s


A %d blogueros les gusta esto: