Saltar a: navegación, buscar

Bioinformática

Bioinformática
Información sobre la plantilla
La bioinformática.JPG
Campo al que perteneceBiología
Principales exponentesDisciplina científica emergente que utiliza tecnología de la información para organizar, analizar y distribuir información biológica
Bioinformática. Se centra en el desarrollo de herramientas prácticas para la gestión de datos y el análisis (por ejemplo, la presentación de información genómica y análisis secuencial), pero con menor énfasis en la eficiencia y en la precisión.

Concepto

Bioinformática es una disciplina científica emergente que utiliza tecnología de la información para organizar, analizar y distribuir información biológica con la finalidad de responder preguntas complejas en biología. Es un área de investigación multidisciplinaria, la cual puede ser ampliamente definida como la interfase entre dos ciencias: Biología y Computación y esta impulsada por la incógnita del genoma humano y la promesa de una nueva era en la cual la investigación genómica puede ayudar dramáticamente a mejorar la condición y calidad de vida humana.

Avances en la detección y tratamiento de enfermedades y la producción de alimentos genéticamente modificados son entre otros ejemplos de los beneficios mencionados más frecuentemente. Involucra la solución de problemas complejos usando herramientas de sistemas y computación. También incluye la colección, organización, almacenamiento y recuperación de la información biológica que se encuentra en base de datos.

Según la definición del Centro Nacional para la Información Biotecnológica "National Center for Biotechnology Information" (NCBI por sus siglas en Inglés, 2001):

Bioinformática es un campo de la ciencia en el cual confluyen varias disciplinas tales como: biología, computación y tecnología de la información. El fin último de este campo es facilitar el descubrimiento de nuevas ideas biológicas así como crear perspectivas globales a partir de las cuales se puedan discernir principios unificadores en biología. Al comienzo de la "revolución genómica", el concepto de bioinformática se refería sólo a la creación y mantenimiento de base de datos donde se almacena información biológica, tales como secuencias de nucleótidos y aminoácidos.

El desarrollo de este tipo de base de datos no solamente significaba el diseño de la misma sino también el desarrollo de interfaces complejas donde los investigadores pudieran acceder los datos existentes y suministrar o revisar datos.

Luego toda esa información debía ser combinada para formar una idea lógica de las actividades celulares normales, de tal manera que los investigadores pudieran estudiar cómo estas actividades se veían alteradas en estados de una enfermedad. De allí viene el surgimiento del campo de la bioinformática y ahora el campo más popular es el análisis e interpretación de varios tipos de datos, incluyendo secuencias de nucleótidos y aminoácidos, dominios de proteínas y estructura de proteínas.

Otras disciplinas

El proceso de analizar e interpretar los datos es conocido como biocomputación. Dentro de la bioinformática y la biocomputación existen otras sub-disciplinas importantes:

El desarrollo e implementación de herramientas que permitan el acceso, uso y manejo de varios tipos de información. El desarrollo de nuevos algoritmos (fórmulas matemáticas) y estadísticos con los cuales se pueda relacionar partes de un conjunto enorme de datos, como por ejemplo métodos para localizar un gen dentro de una secuencia, predecir estructura o función de proteínas y poder agrupar secuencias de proteínas en familias relacionadas.

La Medicina molecular y la Biotecnología constituyen dos áreas prioritarias científico tecnológicas como desarrollo e Innovación Tecnológica. El desarrollo en ambas áreas están estrechamente relacionadas. En ambas áreas se pretende potenciar la investigación genómica y postgenómica así como de la bioinformática, herramienta imprescindible para el desarrollo de estas debido al extraordinario avance de la genética molecular y la genómica, la Medicina Molecular se constituye como arma estratégica del bienestar social del futuro inmediato. Se pretende potenciar la aplicación de las nuevas tecnologías y de los avances genéticos para el beneficio de la salud.

Dentro de las actividades financiables, existen acciones estratégicas, de infraestructura, centros de competencia y grandes instalaciones científicas. En esta área, la dotación de infraestructura se plasmará en la creación y dotación de unidades de referencia tecnológica y centros de suministro común, como Centros de Bioinformática, que cubran las necesidades de la investigación en Medicina Molecular.

En cuanto a centros de competencia, se crearán centros de investigación de excelencia en hospitales en los que se acercará la investigación básica a la clínica, así como centros distribuidos en red para el apoyo a la secuenciación, DNA microarrays y DNA chips, bioinformática, en coordinación con la red de centros de investigación genómica y proteómica que se proponen en el área de Biotecnología. En esta área la genómica y proteómica se fundamenta como acción estratégica o instrumento básico de focalización de las actuaciones futuras.

Las tecnologías de la información jugarán un papel fundamental en la aplicación de los desarrollos tecnológicos en el campo de la genética a la práctica médica como refleja la presencia de la Bioinformática médica y la Telemedicina dentro de las principales líneas en patología molecular. La aplicación de los conocimientos en genética molecular y las nuevas tecnologías son necesarios para el mantenimiento de la competitividad del sistema sanitario no sólo paliativo sino preventivo.

La identificación de las causas moleculares de las enfermedades junto con el desarrollo de la industria biotecnológica en general y de la farmacéutica en particular permitirán el desarrollo de mejores métodos de diagnóstico, la identificación de dianas terapéuticas y desarrollo de fármacos personalizados y una mejor medicina preventiva.

Historia

No se puede mirar la historia de la bioinformática sin describir inicialmente la historia de la biología. En realidad son los biólogos y los bioquímicos quienes hacen su primer acercamiento a la tecnología computacional como elemento fundamental para su trabajo diario.

La biocomputación ha sido la base para ayudar en las grandes investigaciones sobre la vida; el diagnóstico genético por ejemplo tiene mucha influencia en la vida de todas las personas pero la mayoría de la gente no está enterada de ello.

La tecnología proporciona un elemento teórico y proporciona a las herramientas prácticas, para que los científicos puedan explorar las proteínas y el DNA. Esas son las moléculas grandes que consisten en un encadenamiento de residuos más pequeños llamados los nucleótidos o los aminoácidos, respectivamente.

Son bloques de edificio de la naturaleza, pero estos bloques de edificio no se utilizan exactamente como los ladrillos, la función de la molécula final depende fuertemente del orden de estos bloques. La estructura (tridimensional) 3D de una proteína depende de la secuencia individual de estos residuos numerados. El orden de aminoácidos de una proteína dada se deriva del DNA correspondiente. Este pedazo de DNA consiste en una secuencia ordenada de nucleótidos.

Las primeras décadas: años 60 y 70 del siglo XX

En los años 60, L. Pauling elabora su teoría sobre evolución molecular (1962) y Margaret Dayhoff, una de las pioneras de la bioinformática, publica el primero de los Atlas of Protein Sequences (1965), que tendrá continuidad en años posteriores, se convertirá en una obra básica en el desarrollo estadístico, algunos años más tarde, de las matrices de sustitución PAM, y será precursor de las actuales bases de datos de proteínas. En el área de la tecnología de computadores, se presentan en el ARPA (Advanced Research Projects Agency, agencia de proyectos de investigación avanzados) los protocolos de conmutación de paquetes de datos sobre redes de ordenadores (1968), que permitirán enlazar poco después varios ordenadores de diferentes universidades en EE.UU, había nacido ARPANET (1969), embrión de lo que posteriormente sería Internet.

En 1970 se publica el algoritmo Needleman-Wunsch para alineamiento de secuencias, se establece el Brookhaven Protein Data Bank (1971), se crea la primera molécula de ADN recombinante (Paul Berg, 1972), E. M. Southern desarrolla la técnica Southern blot de localización de secuencias específicas de ADN (1976) comienza la secuenciación de ADN y el desarrollo de software para analizarlo (F. Sanger, software de R. Staden, 1977), y se publica en 1978 la primera secuencia de genes completa de un organismo, el fagoΦ-X174 (5.386 pares de bases que codifican 9 proteínas).

En ámbitos tecnológicos vinculados, en estos años se asiste al nacimiento del correo electrónico (Ray Tomlinson, BBN, 1971) al desarrollo de Ethernet (protocolo de comunicaciones que facilitará la interconexión de ordenadores, principalmente en redes de ámbito local) por Robert Metcalfe (1973) y al desarrollo del protocolo TCP (Transmission Control Protocol, protocolo de control de transmisión) por Vinton Cerf y Robert Kahn (1974), uno de los protocolos básicos para Internet.

Años 80

En la década de los 80 se asiste, en diversas áreas, a importantes avances: Científicos: tras la secuenciación del fago Φ-X174 a finales de la década de los 70, en 1982 F. Sanger consigue la secuenciación del genoma del fago λ (fago lambda) utilizando una nueva técnica, la secuenciación shotgun (secuenciación por perdigonada), desarrollada por él mismo; también entre 1981 y 1982 K. Wüthrich publica el método de utilización de la RMN (Resonancia magnética nuclear) para determinar estructuras de proteínas; Ford Doolittle trabaja con el concepto de secuencia motivo (similitudes supervivientes, según las denomina en el resumen de su artículo) en 1981; el descubrimiento en 1983 de la PCR (Polymerase Chain Reaction, reacción en cadena de la polimerasa) lleva a la multiplicación de muestras de ADN, lo que permitirá su análisis; en 1987, D. T. Burke et al, describen el uso de cromosomas artificiales de levadura (YAC, Yeast Artificial Chromosome), y Kulesh et al. sientan las bases de los chips de ADN.

  • Bioinformáticos: por lo que se refiere al desarrollo de algoritmos, métodos y programas, aparece el algoritmo Smith-Waterman (1981), el algoritmo de búsqueda en bases de datos de secuencias (Wilbur-Lipman, 1983), FASTP/FASTN (búsqueda rápida de similitudes entre secuencias, 1985), el algoritmo FASTA para comparación de secuencias (Pearson y Lipman, 1988), y comienzan a utilizarse modelos ocultos de Márkov para analizar patrones y composición de las secuencias (Churchill, 1989), lo que permitirá más adelante localizar genes y predecir estructuras protéicas; aparecen importantes bases de datos biológicas (GenBank en 1982, Swiss-Prot en 1986), redes que las interconectan (EMBnet en 1988), y se potencian o se crean diferentes organismos e instituciones (EMBL se constituye en 1974 pero se desarrolla durante la década de los 80, NCBI en 1988); también en estos años empieza a estudiarse la viabilidad de la Human Genome Initiative (First Santa Fe Conference, 1985), que será anunciada un año después por el DoE (Department of Energy, departamento de energía del gobierno de los EE.UU.) y que pondrá en marcha proyectos piloto para desarrollar recursos y tecnologías críticas; en 1987 el NIH (National Institutes of Health, institutos nacionales de la salud de EE.UU.) comienza aportar fondos a proyectos genoma, mientras que en 1988 arranca la Human Genome Initiative, más conocida finalmente como Human Genome Project (Proyecto Genoma Humano).
  • Tecnológicos: 1983 verá la aparición del estándar Compact Disc (CD) en su versión para ser leído por un ordenador (Yellow Book); Jon Postel y Paul Mockapetris desarrollan en 1984 el sistema de nombres de dominio DNS, necesario para un direccionamiento correcto y ágil en Internet; en 1987 Larry Wall desarrolla el lenguaje de programación PERL, de amplio uso posterior en bioinformática; y a finales de la década se verán las primeras compañías privadas importantes con actividades vinculadas al genoma, proteínas, bioquímica, etc. (Genetics Computer Group – GCG, Oxford Molecular Group, Ltd.), y que, en general, experimentarán importantes transformaciones años más tarde.

Años 90

En los años 90 asistimos a los siguientes eventos:

  • Científicos: en 1991 comienza la secuenciación con EST (Expressed Sequence Tags, marcaje de secuencias expresadas); al año siguiente es publicado el mapa de ligamiento genético (en baja resolución) del genoma humano completo; en 1995 se consigue secuenciar completamente los primeros genomas de bacterias (Haemophilus influenzae, Mycoplasma genitalium, de 1,8 millones de pares de bases -Mbps- y 0,58 Mbps, respectivamente); en 1996, y en diferentes pasos (por cromosoma), se hace lo propio con el primer genoma eucariota, el de la levadura (Saccharomyces cerevisiae, con 12 Mbps), así como en 1997 con el genoma de Escherichia coli (4,7 Mbps), en 1998 con el primer genoma de un organismo multicelular (97 Mbp del Caenorhabditis elegans), para terminar la década con el primer cromosoma humano (el 22) completamente secuenciado en 1999 (33,4 Mbps).
  • Bioinformáticos: búsqueda rápida de similitudes entre secuencias con BLAST (1990); base de datos de huellas de proteínas PRINTS, de Attwood y Beck (1994); ClustalW, orientado al alineamiento múltiple de secuencias, en 1994, y PSI-BLAST en 1997; a finales de la década se desarrolla T-Coffee, que se publica en 2000. Por lo que se refiere a actividades institucionales y nuevos organismos, tenemos la presentación por parte del DoE y NIH al Congreso de los EE.UU., en 1990, de un plan de esfuerzos conjuntos en el Human Genome Project para cinco años; se crean el Sanger Centre (Hinxton, UK, 1993; ahora Sanger Institute) y el European Bioinformatics Institute (EBI, Hinxton, UK, 1992-1995).
  • Tecnológicos: Tim Berners-Lee inventa la World Wide Web (1990) mediante aplicación de protocolos de red que explotan las características del hipertexto; en 1991 aparecen los protocolos definitivos de Internet (CERN) y la primera versión del sistema operativo Linux, muy utilizado posteriormente en aplicaciones científicas; en 1998 Craig Venter funda Celera, compañía que perfeccionará la secuenciación por perdigonada de F. Sanger y analizará los resultados con software propio.

Primeros años del siglo XXI

A destacar que en los años 2000 están culminando múltiples proyectos de secuenciación de genomas de diferentes organismos: en 2000 se publican, entre otros, el genoma de Arabidopsis thaliana (100 Mb) y el de Drosophila melanogaster (180 Mbp). Tras un borrador operativo de la secuencia de ADN del genoma humano del año 2000, en 2001 aparece publicado el genoma humano (3 Gbp). Poco después, en 2003, y con dos años de adelanto sobre lo previsto, se completa el Human Genome Project.

Por mencionar algunos de los genomas analizados en los años siguientes, anotaremos que en 2004 aparece el borrador del genoma de Rattus norvegicus (rata), en 2005 el del chimpancé, en 2006 el del macaco rhesus, en 2007 el del gato doméstico, y en 2008 se secuencia por primera vez el genoma de una mujer. Gracias al desarrollo de las técnicas adecuadas, asistimos actualmente a un aluvión de secuenciaciones de genomas de todo tipo de organismos.

En 2003 se funda en España el Instituto Nacional de Bioinformática, soportado por la Fundación Genoma España (fundada, a su vez, un año antes y que pretende constituirse en instrumento del estado para potenciar la investigación en este campo). En 2004, la estadounidense FDA (Food and Drug Administration, agencia para la administración de alimentos y fármacos) autoriza el uso de un chip de ADN por primera vez. En 2005 se completa el proyecto HapMap (catalogación de variaciones genéticas en el ser humano). En 2008 UniProt presenta el primer borrador del proteoma completo del ser humano, con más de veinte mil entradas.

Poco a poco, los primeros programas bioinformáticos se van perfeccionando, y vemos versiones más completas como la 2.0 de ClustalW (reescrito en C++ en 2007).

Importancia de la bioinformática

Integración es la palabra clave para entender la importancia de la bioinformática, ya que a través de herramientas y utilizando la información ya depositada en bases de datos alrededor del mundo estamos comenzando a descubrir relaciones no triviales escondidas en el código de la vida.

La bioinformática ha empezado a ocupar un papel central como "la pega" que une a diversas áreas de la ciencia tales como enzimología, genética, biología estructural, medicina, morfología, y ecología entre muchos otros. La pregunta crítica es ¿cómo conseguir las relaciones importantes entre tanta información? esta pregunta y muchos otros problemas biológicos están siendo respondidos a través de la bioinformática, uniendo o relacionando toda la información que esta depositada en las bases de datos a través sus asociaciones con los genes. Como un ejemplo práctico de lo anterior, NCBI, el centro de bioinformática del NIH, reciben y procesan en su sitio Web alrededor de 3 millones de requisiciones al día provenientes de investigadores ubicados alrededor del mundo.

Áreas de investigación

  • Análisis de secuencias
  • Anotación de genomas
  • Biología evolutiva computacional
  • Medición de la biodiversidad
  • Análisis de la expresión génica
  • Análisis de la regulación
  • Análisis de la expresión de proteínas
  • Análisis de mutaciones en el cáncer
  • Predicción de la estructura de las proteínas
  • Genómica comparativa
  • Modelado de sistemas biológicos
  • Análisis de imagen de alto rendimiento
  • Acoplamiento proteína-proteína

Fuentes