Biología. ¡ Parasiten, coño !

tejero-congreso

Hace meses nos hicimos eco en una entrada descriptiva, que no crítica (hace mucho que no leo sobre genética y no podría hacerla), sobre los sorprendentes resultados del proyecto ENCODE. Aunque ya hemos actualizado esa entrada con un enlace a este reciente artículo crítico, parece justo que también lo reseñemos en una entrada nueva.

I. Biología.

El artículo crítico pone en cuestión algunas conclusiones del Proyecto ENCODE sobre el ADN basura o parásito (cómo también se llama en ocasiones).

Título. On the immortality of television sets: “function” in the human genome according to the evolution-free gospel of ENCODE.

————————————————————————————————-

Abstract con algunos extractos (en itálica, con mis comentarios en letra normal).

A recent slew of ENCODE Consortium publications, specifically the article signed by all Consortium members, put forward the idea that more than 80% of the human genome is functional. This claim flies in the face of current estimates according to which the fraction of the genome that is evolutionarily conserved through purifying selection is under 10%. Thus, according to the ENCODE Consortium, a biological function can be maintained indefinitely without selection, which implies that at least 80 – 10 = 70% of the genome is perfectly invulnerable to deleterious mutations, either because no mutation can ever occur in these “functional” regions, or because no mutation in these regions can ever be deleterious. This absurd conclusion was reached through various means, chiefly

(1) by employing the seldom used “causal role” definition of biological function and then applying it inconsistently to different biochemical properties,

No sólo en matemáticas se puede hacer trampas con las definiciones. Y hacerlas siempre es legítimo si esto permite que el conocimiento avance. En efecto, la realidad es cómo es. Pero las vías para conocerla son tortuosas. Y sobre definiciones no hay nada escrito.  En este punto los autores señalan, primero que el proyecto ENCODE optó por una definición incorrecta (ya veremos que no necesariamente), y segundo que incluso si su opción hubiese sido correcta, el uso que han hecho de su definición es también incorrecto.  Veamos en detalle.

Hay dos definiciones operativas posibles de función en biología: la basada en efectos seleccionados y la basada en efectos causales. En este caso en concreto, la distinción entre efectos seleccionados y efectos causales se parece mucho a la que existe en ciencias sociales entre función explícita (aquella que se ha tenido en cuenta a la hora de diseñar la insttitución) y función latente o efectos no intencionales de una institución.

La opción de ceñirse a la primera definición (efectos seleccionados), bastante más conservadora, me parece que tiene sentido, es más correcta metodológicamente en biología (más evolucionista) y por lo tanto esta crítica sería legítima. pero tampoco soy experto. Y ojo, los propios autores reconocen: Hence the proportion of the human genome that is functional is likely to be larger to some extent than the approximately 9% for which there exists some evidence for selection (Smith et al. 2004), but the fraction is unlikely to be anything even approaching 80%. Y en este blog elaboran sobre las limitaciones de ceñirse a esta estricta definición, la primera.

Con respecto al mal uso de su definición, esto nos lleva al segundo punto.

(2) by committing a logical fallacy known as “affirming the consequent,”

Esto  si que es sorprendente. Este fallo, esta falacia, es muy frecuente pero parece increíble que suceda en este tipo de resultados que pretenden ser revolucionarios y que por lo tanto deberían de haber sido revisados con el máximo rigor.

El argumento falaz es cómo sigue (por propiedad se entiende cualquiera de los criterios de los que se hablará a continuación):

Si el gen X expresa una función, entonces tiene la propiedad Y.

El gen Z tiene la propiedad Y,

Por lo tanto expresa una función.

Esto es obviamente una falacia. Pero ojo, desde el punto de vista puramente lógico, el gen Z todavía podría expresar una función aunque fuese por motivos que no tuviesen nada que ver con la propiedad Y. Es decir los cinco criterios que vamos a ver  ahora pudieran no ser exhaustivos y el Proyecto ENCODE pudiera haber identificado genes funcionales utilizando falacias lógicas. Aunque esto pueda sorprender, estas cosas pasan constantemente en ciencia.

Luego los autores repasan los criterios del proyecto ENCODE para la funcionalidad. Nótese que en el extracto siguiente se habla de un “o”: es decir con que se cumpla cualquiera de ellos, se considera que existe funcionalidad.

A cada criterio le asignan una proposición contraria (que nosotros ponemos a continuación) y que desarrollan en detalle: In our evaluation of the properties deemed functional by ENCODE, we pay special attention to the means by which the genomic pervasiveness of functional DNA was inflated. We identified three main statistical infractions. ENCODE used methodologies encouraging:

–biased errors in favor of inflating estimates of functionality,

–it consistently and excessively favored sensitivity over specificity, and

–it paid unwarranted attention to statistical significance, rather than to the magnitude of the effect.

Los criterios y las proposiciones contrarias figuran a continuación. Si quieres ver el desarrollo de las contraproposiciones debes de leer el artículo (yo lo estoy leyendo en detalle ahora pero no voy a ampliar comentarios): 

According to ENCODE, for a DNA segment to be ascribed functionality it needs to

(1) be transcribed or 

Pero Transcription does not equal function.

(2) associated with a modified histone or

Pero Histone modification does not equal function

(3) located in an open chromatin area or

Pero open chromatin does not equal function.

(4) to bind a transcription factors or

Pero Transcription-factor binding does not equal function.

(5) to contain a methylated CpG dinucleotide.

Pero DNA methylation does not equal function.

We note that most of these properties of DNA do not describe a function; some describe a particular genomic location or a feature related to nucleotide composition. To turn these properties into causal role functions, the ENCODE authors engage in a logical fallacy known as  “affirming the consequent”.

A lo largo del paper repasan algunos de los errores metodológico-estadísticos que se han cometido en cada uno de esto cinco criterios (que sintetizan en los puntos 4, 5 y 6 del abstract).

Los errores estadístico metodológicos son los que siguen:

(4) by using analytical methods that yield biased errors and inflate estimates of functionality,

(5) by favoring statistical sensitivity over specificity, and

De nuevo en este punto ENCODE ha optado por una opción metodológica discutible.

At this point, we must ask ourselves, what is the aim of ENCODE: Is it to identify every possible functional element at the expense of increasing the number of elements that are falsely identified as functional? Or is it to create a list of functional elements that is as free of false positives as possible.

If the former, then sensitivity should be favored over selectivity; if the latter then selectivity should be favored over sensitivity. ENCODE chose to bias its results by excessively favoring sensitivity over specificity. In fact, they could have saved millions of dollars and many thousands of research hours by ignoring selectivity altogether, and proclaiming a priori that 100% of the genome is functional. Not one functional element would have been missed by using this procedure.

En general, interesa una metodología que excluya los falsos positivos y no se deje fuera los falsos negativos.

(6) by emphasizing statistical significance rather than the magnitude of the effect.

Pero antes, en el tercer punto, elaboran sobre el concepto de ADN basura.

(3) by failing to appreciate the crucial difference between “junk DNA” and “garbage DNA,”

Sobre esto primero recuerdan la definición original de Ohno (First, we note that Susumu Ohno’s original definition of “junk DNA” referred to a genomic segment on which selection does not operate (Ohno 1972). The correct usage implies a genomic segment that has no immediate use, but that might occasionallyacquire a useful function in the future).

Segundo, recuerdan que la evolution can only produce a genome devoid of “junk” if and only if the effective population size is huge and the deleterious effects of increasing genome size are considerable (Lynch 2007). In the vast majority of known bacterial species, these two conditions are met; selection against excess genome is extremely efficient due to enormous effective population sizes, and the fact that replication time and, hence, generation time are correlated with genome size. In humans, there seems to be no selection against excess genomic baggage. Our effective population size is pitiful and DNA replication does not correlate with genome size.

Y tercero, citan a Brenner:

“Some years ago I noticed that there are two kinds of rubbish in the world and that most languages have different words to distinguish them. There is the rubbish we keep, which is junk, and the rubbish we throw away, which is
garbage. The excess DNA in our genomes is junk, and it is there because it is harmless, as well as being useless, and because the molecular processes generating extra DNA outpace those getting rid of it. Were the extra DNA to become disadvantageous, it would become subject to selection, just as junk that takes up too much space, or is beginning to smell, is instantly converted to garbage…”. 

Large genomes belonging to species with small effective population sizes should contain considerable amounts of junk DNA and possibly even some garbage DNA. The amount of indifferent DNA is not known. Junk DNA and indifferent DNA can persist in the genome for very long periods of evolutionary time; garbage is transient.

Entonces además de

–ADN funcional,

–ADN trasto (junk) y

–ADN basura (garbage) hay un cuarto tipo,

–el ADN indiferente, que no expresa una función fenotípica, es decir cuya secuencia no importa ya que es una parte del ADN que no se expresa, pero que tiene una “función” estructural, es decir, es importante que esté presente, con la secuencia que sea, en el ADN:  Examples of indifferent DNA are spacers and flanking elements whose presence is required but whose sequence is not important. Another such case is the third position of four-fold redundant codons, which needs to be present to avoid a downstream frameshift.

Fin del abstract con extractos.

————————————————————————————————-

En definitiva, parece que dependiendo del método, obtenemos dos cotas sobre la magnitud del ADN funcional: una cota inferior en torno al 10% y una cota superior en torno al 80%.

La magnitud real tiene que estar entre estas dos cotas. Si los matemáticos muchas veces se tienen que conformar con soluciones aproximadas basadas en este tipo de cotas, no veo porque los biólogos deberían de ser más exactos. De cualquier manera, y dado que la diferencia entre cota superior y cota inferior es bastante sustancial (nada menos que un 70%), esperemos que posteriores investigaciones puedan ajustarlas.

II. Sociología. 

Los autores de artículo terminan con una evaluación del proyecto ENCODE, que estaría dentro del tipo de proyectos llamados BIG SCIENCE (normalmente, de financiación pública;  y concretamente en este caso lo es).

The Editor-in-Chief of Science, Bruce Alberts, has recently expressed concern about the future of “small science,” given that ENCODE-style Big Science grabs the headlines that decision makers so dearly love (Alberts 2012).

Actually, the main function of Big Science is to generate massive amounts of reliable and easily accessible data.

Totalmente de acuerdo. Sólo ésta debería ser su función.

The road from data to wisdom is quite long and convoluted (Royar 1994). Insight, understanding, and scientific progress are generally achieved by “small science.” The Human Genome Project is a marvelous example of “big science,” as are the Sloan Digital Sky Survey (Abazajian et al. 2009) and the Tree of Life Web Project (Maddison et al. 2007).

Recordemos que el proyecto Genoma Humano sólo se puso la pilas cuando Venter creó su empresa privada y empezó a avanzar a pasos de gigante con la intención de convertir sus descubrimientos en patentes. Hasta entonces, cómo de manera inevitable suele pasar con muchos proyectos públicos, las cosas iban más lentas de lo previsto.

Did ENCODE generate massive amounts of reliable and easily accessible data? Judging by the computer memory it takes to store the data, ENCODE certainly delivered quantitatively.

Unfortunately, the ENCODE data are neither easily accessible nor very useful—without ENCODE, researchers would have had to examine 3.5 billion nucleotides in search of function, with ENCODE, they would have to sift through 2.7 billion nucleotides.

ENCODE’s biggest scientific sin was not being satisfied with its role as data provider; it assumed the small-science role of interpreter of the data, thereby performing a kind of textual hermeneutics on a 3.5-billion-long DNA text.

So, what have we learned from the efforts of 442 researchers consuming 288 million dollars? According to Eric Lander, a Human Genome Project luminary, ENCODE is the “Google Maps of the human genome” (Durbin et al. 2010). We beg to differ, ENCODE is considerably worse than even Apple Maps. Evolutionary conservation may be frustratingly silent on the nature of the functions it highlights, but progress in understanding the functional significance of DNA sequences can only be achieved by not ignoring evolutionary principles.

Sobran los comentarios. Podríamos, pero no vamos a utilizar esta oportunidad para criticar una vez más la financiación pública de la investigación. Me ha gustado el artículo; así es cómo avanza la ciencia: por medio de debates no artificiales, y este no parece serlo.

Por lo tanto, el debate está servido y esperamos respuesta por parte de los responsables del proyecto ENCODE.

III. Teología. 

En el transfondo de estas dos cotas parece haber un run run teológico: no sé muy bien porqué, los partidarios del diseño inteligente se pusieron muy contentos cuando se informó sobre la cota superior del 80%. Y los autores entran al trapo sobre esto en el paper:

We urge biologists not be afraid of junk DNA. The only people that should be afraid are those claiming that natural processes are insufficient to explain life and that evolutionary theory should be supplemented or supplanted by an intelligent designer (e.g., Dembski 1998; Wells 2004). ENCODE’s take-home message that everything has a function implies purpose, and purpose is the only thing that evolution cannot provide. Needless to say, in light of our investigation of the ENCODE publication, it is safe to state that the news concerning the death of “junk DNA” have been greatly exaggerated.

Lo uno (la actitud entusiasta) y lo otro (la respuesta a este entusiasmo) son completamente absurdos. Lo primero no se puede evitar; lo segundo si, y en mi modesta opinión sobra este comentario en un artículo científico. Esto lo único que no me ha gustado de este paper.

P.s. Visto en el Blog de FtE. Por lo tanto HT. Otros enlaces: me ha gustado el artículo de Scientific American sobre esto.

Terms and conditions: 1. Any commenter of this blog agrees to transfer the copy right of his comments to the blogger. 2. RSS readers and / or aggregators that captures the content of this blog (posts or comments) are forbidden. These actions will be subject to the DMCA notice-and-takedown rules and will be legally pursued by the proprietor of the blog.

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s


A %d blogueros les gusta esto: