3 MODELOS DE ESTADO

La idea de combinar las predicciones en una estructura génica completa es que las restricciones «gramaticales» pueden descartar algunos conjuntos de exones erróneos. La estructura gramatical del problema ha sido destacada por David Searls (Searls, 1992; Dong y Searls, 1994), quien también propuso utilizar los métodos de las gramáticas formales de la informática y la lingüística. La programación dinámica suele describirse convenientemente mediante algún tipo de autómata de estado finito (Searls y Murphy, 1995; Durbin et al., 1998). Un modelo puede tener un estado para el inicio de la traducción (S), otro para los sitios donantes (D), otro para los sitios aceptores (A) y otro para la terminación de la traducción (T). Cada vez que se realiza una transición de un estado a otro, se añade una puntuación (o una penalización). Para la transición del estado donante al estado aceptor, la puntuación del intrón se añade a la puntuación total, y así sucesivamente. En la Figura 11.2 se muestra el diagrama de estados del algoritmo de programación dinámica simple anterior. Para cada variable del algoritmo hay un estado correspondiente con el mismo nombre, y también se necesita un estado de inicio y de fin.

Figura 11.2. Un autómata de estado finito correspondiente al algoritmo de DP simple.

La ventaja de tal formulación es que la programación dinámica para encontrar la máxima puntuación (o la mínima penalización) es de tipo más general, y por tanto añadir nuevos estados o nuevas transiciones es fácil. Por ejemplo, dibujar el diagrama de estados para un algoritmo de programación dinámica más general que permita cualquier número de genes y también genes parciales es sencillo (Figura 11.3), mientras que escribirlo es complicado. Del mismo modo, el diagrama de estado para el algoritmo consciente del marco esbozado anteriormente se muestra en la Figura 11.4.

Figura 11.3. El modelo de la Figura 11.2 con transiciones añadidas que permiten predecir cualquier número de genes y genes parciales en los que la secuencia comienza o termina en medio de un exón o intrón.

Figura 11.4. Un modelo que asegura la consistencia del marco a lo largo de un gen. Como en las dos figuras anteriores, las líneas punteadas corresponden a las regiones intergénicas, las punteadas a los intrones y las líneas completas a las regiones codificantes (exones).

Si las puntuaciones utilizadas son probabilidades logarítmicas o probabilidades logarítmicas, entonces un autómata de estado finito es esencialmente un modelo de Markov oculto (HMM), y éstos han sido introducidos recientemente en la búsqueda de genes por varios grupos. La única diferencia fundamental con respecto a los esquemas de programación dinámica que se han comentado anteriormente es que estos modelos son totalmente probabilísticos, lo que tiene ciertas ventajas. Una de las ventajas es que el problema de la ponderación es más fácil.

VEIL (Henderson et al., 1997) es una aplicación de un HMM al problema de la búsqueda de genes. En este modelo todos los sensores son HMMs. El módulo de exones es esencialmente una cadena de Markov inhomogénea de primer orden, que se describe anteriormente. Este es el orden natural para la implementación en un HMM, porque entonces cada una de las probabilidades condicionales de la cadena de Markov no homogénea corresponde a la probabilidad de una transición de un estado al siguiente en el HMM. No es posible evitar los codones de parada en el marco de lectura cuando se utiliza un modelo de primer orden, pero en VEIL se añaden algunos estados más de forma inteligente, lo que hace que la probabilidad de un codón de parada sea cero. Los sensores para los sitios de empalme se hacen de manera similar. A continuación, los módulos individuales se combinan esencialmente como en la Figura 11.2 (es decir, no se impone la consistencia del marco). El modelo combinado es un gran HMM, y todas las transiciones tienen probabilidades asociadas. Estas probabilidades pueden estimarse a partir de un conjunto de datos de entrenamiento mediante un método de máxima verosimilitud. Para combinar los modelos, esto se reduce esencialmente a contar las ocurrencias de los diferentes tipos de transiciones en el conjunto de datos. Por lo tanto, la ponderación implícita de los sensores individuales no es realmente un problema.

Aunque la forma en que se encuentra la estructura genética óptima es similar en espíritu a la programación dinámica anterior, se ve muy diferente en la práctica. Esto se debe a que la programación dinámica se realiza a nivel de los estados individuales en todos los submodelos; hay más de 200 estados de este tipo en VEIL. Como el modelo es totalmente probabilístico, se puede calcular la probabilidad de cualquier secuencia de estados para una secuencia de ADN determinada. Esta secuencia de estados (denominada trayectoria) determina la asignación de exones e intrones. Si el camino pasa por el modelo de exón, esa parte de la secuencia se etiqueta como exón; si pasa por el modelo de intrón se etiqueta como intrón, y así sucesivamente. El algoritmo de programación dinámica, que se denomina algoritmo de Viterbi, encuentra el camino más probable a través del modelo para una secuencia dada, y a partir de él se deriva la estructura génica predicha (véase Rabiner (1989) para una introducción general a los HMM).

Este modelo probabilístico tiene la ventaja de resolver el problema de la ponderación de los sensores individuales. Se puede demostrar que la estimación de máxima verosimilitud de los parámetros es óptima si hay suficientes datos de entrenamiento, y si la naturaleza estadística de los genes puede ser descrita por dicho modelo. Una parte débil de VEIL es el modelo de exones de primer orden, que probablemente no es capaz de capturar las estadísticas de las regiones codificantes, y la mayoría de los otros métodos utilizan modelos de cuarto o quinto orden.

Actualmente se está desarrollando un buscador de genes basado en HMM llamado HMMgene. El método básico es el mismo que VEIL, pero incluye varias extensiones a la metodología estándar de HMM, que son descritas por Krogh (1997). Una de las más importantes es que las regiones de codificación se modelan mediante una cadena de Markov inhomogénea de cuarto orden en lugar de una cadena de primer orden. Esto se hace mediante una extensión casi trivial del formalismo HMM estándar, que permite una cadena de Markov de cualquier orden en un estado del modelo, mientras que el HMM estándar tiene una simple distribución de probabilidad incondicional sobre las cuatro bases (correspondiente al orden 0). El modelo es consciente del marco y puede predecir cualquier número de genes y genes parciales, por lo que la estructura general del modelo es como en la Figura 11.4 con transiciones añadidas para permitir el comienzo y el final en los intrones, como en la Figura 11.3.

Como ya se ha mencionado, el método de estimación de máxima verosimilitud funciona bien si la estructura del modelo puede describir las verdaderas estadísticas de los genes. Esta es una suposición muy idealizada, y por lo tanto HMMgene utiliza otro método para estimar los parámetros llamado máxima verosimilitud condicional (Juang y Rabiner, 1991; Krogh, 1994). En términos generales, la máxima verosimilitud maximiza la probabilidad de las secuencias de ADN en el conjunto de entrenamiento, mientras que la máxima verosimilitud condicional maximiza la probabilidad de las estructuras génicas de estas secuencias, que, después de todo, es lo que nos interesa. Este tipo de optimización es conceptualmente similar a la utilizada en GeneParser, donde también se optimiza la precisión de la predicción. HMMgene también utiliza un algoritmo de programación dinámica diferente del algoritmo de Viterbi para la predicción de la estructura del gen. Todos estos métodos han contribuido a un alto rendimiento de HMMgene.

Genie es otro ejemplo de modelo de estado probabilístico que se denomina HMM generalizado (Kulp et al., 1996; Reese et al., 1997). La figura 11.4 es, de hecho, la estructura de estado de Genie, y tanto esta figura como la figura 11.2 están esencialmente copiadas de Kulp et al. (1996). En Genie, los sensores de señal (sitios de empalme) y los sensores de contenido (potencial de codificación) son redes neuronales, y la salida de estas redes se interpreta como probabilidades. Esta interpretación requiere la estimación de parámetros de probabilidad adicionales que funcionan como pesos en los sensores. Así que, aunque se formule como un modelo probabilístico, el problema de la ponderación sigue apareciendo disfrazado. El algoritmo de predicción es casi idéntico al de programación dinámica de la última sección. Una versión de Genie también incluye las similitudes de la base de datos como parte del sensor de exones (Kulp et al., 1997).

Hay dos ventajas principales de los HMM generalizados en comparación con los HMM estándar. En primer lugar, los sensores individuales pueden ser de cualquier tipo, como las redes neuronales, mientras que en un HMM estándar están restringidos por el marco del HMM. En segundo lugar, la distribución de la longitud (de, por ejemplo, las regiones de codificación) puede tenerse en cuenta explícitamente, mientras que la distribución natural de la longitud para un HMM es una distribución geométrica, que decae exponencialmente con la longitud. Sin embargo, es posible tener un modelo de longitud bastante avanzado en un HMM si se utilizan varios estados (Durbin et al., 1998). La ventaja de un sistema como HMMgene, en cambio, es que se trata de un modelo integrado, que puede optimizarse de una sola vez para obtener la máxima precisión en la predicción.

Otro buscador de genes basado en un HMM generalizado es GENSCAN (Burge y Karlin, 1997). Las principales diferencias entre la estructura de estados de GENSCAN y la de Genie o HMMgene es que GENSCAN modela la secuencia en ambas direcciones simultáneamente. En muchos buscadores de genes, como los descritos anteriormente, los genes se predicen primero en una hebra y luego en la otra. La modelización simultánea de ambas cadenas se realizó con mucho éxito en GeneMark, y en GENSCAN se aplica un método similar. Una de las ventajas (y quizás la principal) es que esta construcción evita las predicciones de genes superpuestos en las dos cadenas, que presumiblemente son muy raras en el genoma humano. GENSCAN modela cualquier número de genes y genes parciales como HMMgene. Los sensores de GENSCAN son similares a los utilizados en HMMgene. Por ejemplo, el sensor de codificación es una cadena de Markov inhomogénea de quinto orden. Los sensores de señal son esencialmente matrices de peso dependientes de la posición, y por lo tanto también son muy similares a los de HMMgene, pero hay características más avanzadas en los modelos de sitios de empalme. GENSCAN también modela los promotores y las UTRs 5′ y 3′.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.