downloading - genoma . unsam . edu . ar
Transcripción
downloading - genoma . unsam . edu . ar
Análisis y anotación de genomas Fernán Agüero 23 September 2010 Fernán Agüero Historia • Primer proyecto de secuenciación de un genoma: Escherichia coli (US + Japón). Comenzó en 1992 y terminó en 1997. 4.6 MB • Primer genoma (eubacteria): Haemophilus influenzae (1995). 1.83 MB • Primer genoma (archaea): Metanococcus jannaschii (1996). 1.6 MB • Primer genoma (eukarya): Caenorhabditis elegans (1998). 97 MB – http://www.sanger.ac.uk/Projects/C_elegans/Science98 – Hoy – ~ 140 Eukaryotic genomes – ~ 1100 Bacterial genomes – ~ 100 Archaeal genomes 23 September 2010 Fernán Agüero Qué es un genoma? • Una colección de – genes • que codifican productos proteicos • que codifican RNAs – pseudogenes – regiones no codificantes • regulatorias (expresión) • estructurales – attachment a matriz nuclear – mitosis / meiosis – elementos repetitivos 23 September 2010 Fernán Agüero Qué es anotar? • Agregar información, de la manera más confiable y actualizada que se pueda para describir una secuencia • Información asociada a coordenadas genómicas (comienzo..fin), a distintos niveles • Interpretar la información cruda de secuencia en un marco biológico 23 September 2010 Fernán Agüero Anotación genómica • Dos niveles de anotación – Estructural: encontrar genes y otros sitios con relevancia biológica. Armar un modelo del genoma: cada gen/sitio es un objecto asociado a una posición en el genoma – Funcional: los objetos son utilizados en búsquedas (y experimentos). El objetivo es atribuir información biológica relevante a los objetos. 23 September 2010 Fernán Agüero Más niveles de anotación • Organismo: fenotipo: morfología, fisiología, comportamiento, respuestas ambientales • Celula: vías metabólicas, cascadas de señalización, localización subcelular. • Molecula: sitios de binding, actividad catalítica, estructura tridimensional • Dominio • Motif • Residuo 23 September 2010 Fernán Agüero De donde proviene la anotación? • Fuentes utilizadas en la anotación: – publicaciones que reportan nuevas secuencias – reviews que actualizan periódicamente la anotación de familias o grupos de proteínas – expertos externos – análisis de secuencia 23 September 2010 Fernán Agüero Anotación genómica ab initio gene prediction Genomic DNA transcription Unprocessed RNA RNA processing Mature mRNA Gm3 AAAAAAA translation Comparative gene prediction Nascent polypeptide folding Active enzyme Functional identification Function 23 September 2010 Reactant A Product B Fernán Agüero Annotation & functional genomics La anotación del genoma es esencial en el desarrollo de estrategias funcionales (functional genomics) proteome based functional genomics RNAi phenotypes Gene Knockout Expression Microarray 23 September 2010 Fernán Agüero Anotación: busqueda de genes • Buscar genes en el genoma – RNA • ribosomal RNAs • tRNAs – protein coding • ab initio gene prediction • similarity BLASTN tRNAscan ORFs, codon usage, frecuencia de hexámeros, modelos, etc.) BLASTX, otros • Buscar regiones no codificantes – regulatorias • ab initio • similarity – repetitivas • similarity • ab initio • En todos los casos 23 September 2010 Gibbs sampling patterns, profiles literatura! Fernán Agüero Integrar resultados BLASTX BLASTN Secuencia genoma DB RepeatMasker tRNASCan flatfiles gene prediction Visualización 23 September 2010 Fernán Agüero Genome annotation: C. elegans • C. elegans, 1997 • Se utilizaban métodos basados en un único algoritmo • Tendencia actual: • Integrar predicciones de distintos algoritmos 23 September 2010 Fernán Agüero Genome annotation: hoy 23 September 2010 Fernán Agüero Genome annotation • Automated genome annotation • • Pipelines • Usan scripts (small programs) • They run in Unix Store results in databases • • Or in flat files Graphical workflows • Taverna, http://taverna.sf.net • Escrito en Java • Corre en PCs/Macs • No es necesario instalar bases de datos o software adicional • Utiliza estos recursos en forma remota 23 September 2010 Taverna: a tool for building and running workflows of services. Nucleic Acids Research 2006 34:W729 http://dx.doi.org/10.1093/nar/gkl320 Fernán Agüero Workflows / Taverna 23 September 2010 Fernán Agüero Resumir resultados de análisis • Guardar el reporte crudo de un BLAST (lista de hits, alineamientos) es demasiado • Prácticamente cualquiera de los análisis que se realizan sobre DNA o proteínas para anotar un genoma pueden resumirse en: – secuencia – cromosoma1 start end 1723 3456 • Este formato básico es la base del formato GFF (Sanger) Secuencia metodo programa Contig1 similarity blastx Contig1 cds glimmer 85 Contig1 similarity blastn 23 September 2010 start end frame score extra 100 1000 +1 132 gi|12345|AF34093 casein kinase ... 1201 +1 1321 ORF0001; overlap with ORF0002 80 1300 . 136 gi|54321|AF09990 complete genome Fernán Agüero Anotación: herramientas • Artemis – http://www.sanger.ac.uk/Software/Artemis – Permite visualizar • secuencia, con sus traducciones virtuales (6) • tracks de anotación (entries) • plots (built-ins y creados por el usuario) – Lee secuencias en formato FASTA, EMBL, GenBank – Lee features en formato EMBL, GenBank, GFF, MSPcrunch, BLAST 23 September 2010 Fernán Agüero Artemis: main window Sequence view Sequence view Feature list 23 September 2010 Fernán Agüero Artemis: plots %GC plot AA properties plot para un CDS 23 September 2010 Fernán Agüero Artemis: display de análisis Frameplot BLASTX BLASTN 23 September 2010 Fernán Agüero Artemis: 23 September 2010 Fernán Agüero Artemis: zoom 23 September 2010 Fernán Agüero Artemis: spliced genes 23 September 2010 Fernán Agüero Artemis: comparar análisis 23 September 2010 Fernán Agüero Otras estrategias • Artemis se usa para anotar genomas bacterianos o para pequeños proyectos (cósmidos, BACs, etc.) • En genomas más grandes, la tendencia es a distribuir la anotación • Los tracks de anotación son generados en distintos centros • Ejemplo: UCSC Genome Browser (genoma humano, ratón). 23 September 2010 Fernán Agüero Anotación automática: TrEMBL • La anotación de TrEMBL (translated EMBL) se hace por métodos automáticos. – Requerimientos para anotar automáticamente • Una base de datos de referencia bien anotada (ej. Swissprot) • Una base de datos que sea altamente confiable (en el sentido diagnóstico) en la asignación de proteínas a grupos o familias (ej CDD, InterPro) • Una serie de reglas de anotación 23 September 2010 Fernán Agüero Anotación automática • El problema – SwissProt vs TrEMBL (2003) • Human, chromosome by chromosome 100 • http://www.ebi.ac.uk/proteome/HUMAN/ 90 70 % in Swiss-Prot 60 50 49% 40 30 20 10 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 X Y 23 September 2010 Total number of entries (SP+Tr) 80 1: 1'640 2: 1'044 3: 879 4: 630 5: 745 6: 969 7: 752 8: 549 9: 617 10: 594 11: 976 12: 852 13: 275 14: 508 15: 469 16: 706 17: 538 18: 229 19: 1'121 20: 554 21: 179 22: 405 X: 645 Y: 61 Chromosome Fernán Agüero Anotación automática • Exceso de información – ~ 136,000 secuencias en SwissProt – Pero mas de 1 millón esperando en TrEMBL para ser incorporadas, luego de pasar por curación manual – El número de secuencias en TrEMBL crece exponencialmente • Soluciones – Aumento en la calidad de las anotaciones automáticas • HAMAP – Mejor integración de datos funcionales – Explorar automatica de la literatura 23 September 2010 Fernán Agüero Transferencia directa de anotación • Realizar una búsqueda en la base de datos de referencia y transferir la anotación XDB Target 23 September 2010 • Ejemplo: FASTA contra una base de datos de secuencias y transferencia de la línea DE del mejor hit Fernán Agüero Anotación a partir de múltiples fuentes • Generalmente se usa más de una base de datos externa XDB • Hay que combinar los resultados Target 23 September 2010 Fernán Agüero Conflictos • Contradicción • Inconsistencia • Sinónimos • Redundancia 23 September 2010 Fernán Agüero Traducción de anotaciones • Es necesario utilizar un traductor para mapear el lenguaje utilizado en la base de datos externa (XDB) al lenguaje utilizado en la base de datos target que queremos anotar XDB Target 23 September 2010 Fernán Agüero Traducciones: algunos ejemplos ENZYME TrEMBL CA L-ALANINE=D-ALANINE CC -!- CATALYTIC ACTIVITY: L-ALANINE= CC D-ALANINE. PROSITE TrEMBL /SITE=3,heme_iron FT METAL IRON Pfam TrEMBL FT DOMAIN FT ZN_FING 23 September 2010 zf_C3HC4 C3HC4-TYPE Fernán Agüero Requerimientos de un sistema de anotación automática • • • • • • Corrección Escalable Actualizable Poco redundante Completo Vocabulario controlado 23 September 2010 Fernán Agüero Cómo funciona? • Una proteína en TrEMBL es reconocida como un miembro de cierto grupo o familia de proteínas • Este grupo de proteínas en Swissprot comparten entre sí partes de la anotación • La anotación común es transferida automáticamente a la proteína en TrEMBL y marcada como „annotated by similarity‟ 23 September 2010 Fernán Agüero Anotación: evidencias • Las anotaciones suelen estar acompañadas de TAGS que indican la evidencia en la que se basa la anotación • Ejemplos de algunos TAGS utilizados en TrEMBL: – EMBL: la información fue copiada del original (EMBL/GenBank/DDBJ) – TrEMBL: anotación modificada para corregir errores o para adecuarse a la sintaxis propia de Swissprot – Curator: juicio del curador – Similarity: por similitud con otra secuencia, a juicio del curador – Experimental: evidencia experimental de acuerdo a una referencia, que usualmente es un paper. – Opinion: opinión emitida por el autor de una referencia, usualmente con poca o ninguna evidencia experimental – Rulebase: información derivada del uso de una regla de anotación automática – SignalP: programa de predicción 23 September 2010 Fernán Agüero Anotación: manual vs automática • La anotación de un genoma ocurre en etapas – anotación automática • correr todos los análisis sobre el genoma • generar un primer borrador con todos los datos organizados. Por ejemplo en páginas web o integrando todos los datos en un display unificado (Artemis) – anotación manual: cura de los datos • una persona (curador) revisa la anotación, gen por gen, verificando la anotación automática, agregando anotaciones manuales, corriendo eventualmente algún programa particular 23 September 2010 Fernán Agüero Qué herramientas se usan? • Oakridge Genome Annotation Channel – http://compbio.ornl.gov/channel • ENSEMBL – http://ensembl.ebi.ac.uk • Artemis – http://www.sanger.ac.uk/Software/Artemis • GeneQuiz – http://www.sander.ebi.ac.uk/genequiz • Genome browsers: varios – cada consorcio/proyecto desarrolló el suyo: Apollo (FlyBase, Drosophila), AceDB (C. elegans), 23 September 2010 Fernán Agüero Anotación: fuentes de error • Transferencia transitiva de anotaciones – gen1 mal anotado como „casein kinase‟ presente en los bancos de datos – gen2 con alta similitud con gen1, resulta anotado como casein kinase • Solución: – usar bases de datos curadas: por ejemplo Swissprot – revisar la anotación de más de un hit – verificar que las anotaciones de todos los hits concuerden 23 September 2010 Fernán Agüero Anotación confiable: proyecto HAMAP • High-quality Automated Microbial Annotation of Proteomes – Swissprot (Swiss Bioinformatics Institute-European Bioinformatics Institute) – CNRS Lyon – INRIA Grenoble – INRA Toulouse – CNRS Marseille – Pasteur Institute 23 September 2010 Fernán Agüero HAMAP • Hay muchos genomas bacterianos terminados, pero va a haber muchos más en los próximos años • El número de proteínas bacterianas proveniente de estos genomas llegará al millón muy rápidamente • Pero el análisis funcional y una caracterización detallada van a exsitir sólo en unos pocos casos: – todas las proteínas de organismos modelo (E. coli, B. subtilis) – proteínas involucradas en patogénesis (interés médico e industrial) – proteínas involucradas en vías metabólicas específicas (interés biotecnológico) 23 September 2010 Fernán Agüero Prioridades del proyecto HAMAP • Anotación de proteínas huérfanas • Pre-anotación de proteínas pertenecientes a familias grandes/complejas (transportadores ABC, HTH, sistemas de dos componentes, SDH) • Anotación de alta calidad de proteínas pertenecientes a familias bien caracterizadas • Anotación manual de proteínas caracterizadas experimentalmente en ese organismo • Anotación manual de proteínas no caracterizadas que muestren similitud con otras proteínas 23 September 2010 Fernán Agüero Estrategia HAMAP ORFans 23 September 2010 Fernán Agüero HAMAP: ORFans • No tienen similitud con otras proteínas (excepto tal vez otras proteínas de organismos muy cercanos) • No tienen hits contra InterPro (Prosite, PRINTS, Pfam, ProDom, SMART) • Qué se hace: – – – – Predicción de señales Predicción de regiones trans-membrana Predicción de coiled-coils Anotación de repeticiones 23 September 2010 Fernán Agüero HAMAP: ORFan antes 23 September 2010 Fernán Agüero HAMAP: ORFan después 23 September 2010 Fernán Agüero HAMAP: large/complex families 23 September 2010 Fernán Agüero HAMAP: anotación automática • Transferencia automática de anotación – Usando reglas específicas para cada famila de proteínas – Usando reglas específicas para un organismo particular • La transferencia de anotación puede ir acompañada de advertencias para el curador – Por ejemplo: • WARNING: this genome contains MF_00031 (ruvA) but not MF_00016 (ruvB) 23 September 2010 Fernán Agüero HAMAP: ejemplo reglas 23 September 2010 Fernán Agüero HAMAP: Escherichia coli • De acuerdo al análisis original: 4286 proteínas – – – – – 60 proteínas no detectadas (casi todas < 100 aa) 120 muy probablemente no existan 50 pares o tripletes de ORFs tuvieron que ser fusionados 719 con errores en la asignación del codón de inicio ~1800 todavía sin caracterización bioquímica (aproximadamente una asignación funcional por semana) 23 September 2010 Fernán Agüero Annotation of phenotypes in TDR Targets TDR Targets is an online [resource, database, tool] that integrates genomic information relevant for drug discovery on pathogens that cause human diseases. TDR Targets facilitates the prioritization of targets in complete genomes by allowing users to search for targets using defined criteria AND to weight these searches. Malaria African trypanosomiasis (Sleeping sickness) Plasmodium falciparum & vivax Leishmaniasis Tuberculosis Mycobacterium tuberculosis Leprosy Toxoplasma gondii Leishmania major American trypanosomiasis (Chagas Disease) Mycobacterium leprae Toxoplasmosis Trypanosoma brucei Trypanosoma cruzi http://tdrtargets.org Schistosomiasis Schistosoma mansoni Filariasis Brugia malayi Agüero F. et al. (2008) Nat Rev Drug Discov 7: 900 Curation of phenotype data • Human curator – Reads the literature – Extracts knowledge about target validation – Is target essential for growth / survival? – Is target assayable? – Is target expressed in a relevant stage? – Is target druggable? – Incorporates these data into the database using a controlled ‘pheno-syntax’ • Pheno-syntax – Uses controlled vocabularies (ontologies) – Builds easily readable phenotype descriptions – Mungall C. et al. (2010) Genome Biol 11: r2 Annotation using pheno-syntax Ontologies Phenotype Desctiption GO:Catalytic activity PATO:Decreased MI: in vitro ECO: inferred from specific protein inhibition Decreased catalytic activity in vitro, inferred from specific protein inhibition 53 Fernán Agüero Annotation using pheno-syntax Normal gene expression in amastigotes, inferred from protein expression Decreased catalytic activity in vitro, inferred from specific protein inhibition 54 Fernán Agüero Annotation using pheno-syntax • cAMP raising drugs – Decreased growth in promastigotes, inferred from bioassay – Disrupted cell differentiation in promastigotes, inferred from bioassay • Antimicrotubule agents – Abnormal morphology in promastigotes, inferred from visible phenotype – Discontiunous cytokinesis in promastigotes, inferred from visible phenotype • Double knockout – Disrupted autophagy in metacyclic form, inferred from loss-of-function mutant phenotype • Some numbers – 737 genes with annotated phenotypes – 407 genes with phenotypes corresponding to ‘genetic validation’ – 306 genes with phenotypes corresponding to ‘pharmacological validation’ 55 Fernán Agüero 56 Fernán Agüero Chromosome browsers • UCSC Genome Browser – provee un display rápido de cualquier región genómica – con varios “tracks” de anotación alineados al genoma – Por el momento sólo: Human & Mouse • Annotation tracks – – – – – – – – – genes conocidos (RefSeq, GenBank) predicted genes (Genscan, FGENESH, GeneID, Acembly) spliced ESTs CpG islands assembly gaps cobertura bandas cromosómicas elementos repetitivos etc 23 September 2010 Fernán Agüero 23 September 2010 Fernán Agüero UCSC Genome browser • UCSC sólo genera la mitad de los tracks • El resto proviene de la comunidad biomédica • El Genome Browser es una herramienta de visualización • No saca conclusiones! Simplemente integra en forma gráfica toda la información que posee sobre una región, dejando la exploración y la interpretación al usuario. 23 September 2010 Fernán Agüero UCSC Genome Browser: gene expression 23 September 2010 Fernán Agüero UCSC Genome browser: alternative splicing 23 September 2010 Fernán Agüero UCSC Genome browser: complex transcription 23 September 2010 Fernán Agüero UCSC Genoma browser: user tracks • • • • Ustedes pueden agregar sus propios tracks Pueden ser públicos o privados No necesitan saber programar Tienen que proveer información en formato GFF (u otros similares: GTF, BED) chrom start end [name strand score] chr1 1302347 1302357 SP1 + 800 chr1 1504778 1504787 SP2 – 980 23 September 2010 Fernán Agüero Ejemplo • Secuenciación de ESTs de Tupaia belangeri – Mamífero pequeño – Bibliotecas de cDNA sustractivas de hipocampo Alfonso et al J Neurosci Res (2004) 78: 702 23 September 2010 Fernán Agüero Anotación ESTs • Anotación y clasificación funcional de los ESTs Alfonso et al J Neurosci Res (2004) 78: 702 23 September 2010 Fernán Agüero ESTs Tupaia • ESTs que mapean en intrones de genes conocidos 23 September 2010 Fernán Agüero ESTs Tupaia • ESTs que mapean dentro de intrones de genes conocidos 23 September 2010 Fernán Agüero Acknowledgements • Nicola Mulder, EBI • Daniel Lawson, Sanger Centre 23 September 2010 Fernán Agüero