4. Secuenciación
Transcripción
4. Secuenciación
Cursos de Formación de la UCTS (2011) Plataforma de Genómica / Plataforma de Diagnóstico Molecular “Tecnologías de alto rendimiento en genómica” 2ª Parte: Tecnologías de ultrasecuenciación y de enriquecimiento de secuencia. Programa del curso De Sanger hacia NGS 454 de Roche Desarrollo de la tecnología Cómo funciona Aplicaciones Comparación con otros Sistemas NGS Sistema Nimblegen Cómo funciona Formatos Aplicaciones Análisis de datos de alta densidad (UEB) Cualquier DNA puede ser secuenciado Genomas Secuenciados Nature Reviews Genetics 9, 303-313, 2008 Cronología de la Secuenciación 1973 Método secuenciación “Wandering spot”, Maxam y Gilbert 1975 Método secuenciación “plus and minus”, Sanger y Coulson 1977 1.“ DNA sequencing by chemical degradation ”by Maxam y Gilbert. phi X 174 Primer genoma de DNA completo secuenciado 11 genes en 5386 bases (cadena sencilla) NGS:2ª GENERACIÓN 2.“Chain-terminator method” by Sanger et al. Método usado durante los proximos 30 años 1ª GENERACIÓN Francis Crick and James Watson describen el modelo de la doble hélice del DNA. 1ª GENERACIÓN 1953 1996 Pal Nyrén & Mostafa Ronagh i publican método de la pirosecuenciación en el Royal Institute of Technology (Stockholm). 2001 Se publica la primera versión del genoma humano. Science 291 (5507): 1304–51; Nature 409 (6822): 860–921 2003 Proyecto Genoma Humano (13 años). U.S. Department of Energy and the NIH 2005 454 Life Science comercializa el 1er ultrasecuenciador GS20 (20Mpb) 2006 Lanzamiento de SOLEXA (Illumina) 2007 Genoma de Venter mediante sec. Sanger automática (4 años) Lanzamiento de GS FLX de Roche (100Mbp) 2008 1987 1990 Serie de reactivos Titanium de Roche (500Mbp). Applied Biosystems comercializa el primer secuenciador automático, El modelo ABI 370. El Instituto Naiconal de Salud (NIH) empieza secuenciación a gran escala de diversos microorganismos, ej. E.coli SOLID de Applied Biosystem Genoma Watson mediante 454/ROCHE Nature 452, 872-876 (17 April 2008). N ª IÓ S:3 RAC G N NE GE 2010 1000 Genomes Project Método de secuenciaciación SingleMolecularRealTime 1ª Generación Secuenciación Método Sanger Fragmentación de DNA Clonaje en Vectores; Transformación Bacterias; crecimiento y aislamiento vector DNA Ciclo Secuenciación Sanger sequencing: - Long reads (500-1000 bp) - Low throughput (192 reactions/run) Secuencia: 3´…GACTAGATACGACGAGCGTGA…5´ Primer: 5´…CTGAT Electroforesis ( 1 Secuencia/Capilar) Polimerasa dNTPs ddNTPs marcados CTATGCTCG 2ª Generación Secuenciación Los Instrumentos de secuenciación de 2ª generación pueden generar tantos datos en un día como los generados por varios cientos de secuenciadores con capilares tipo Sanger, obtenidos por una sola persona. Sanger vs 2ª Generación Secuenciación Fragmentación de DNA Fragmentación de DNA Clonaje en Vectores; Transformación Bacterias; crecimiento y aislamiento vector DNA Ligación de adaptadores in vitro y amplificación clonal Secuenciación masiva en paralelo Ciclo Secuenciación Secuencia: Primer: Polimerasa dNTPs ddNTPs marcados Electroforesis ( 1 Secuencia/Capilar) Procesamiento imagen CTATGCTCG 2ª Generación Secuenciación ROCHE GS FLX 454 GS FLX+ 454 GS Junior 454 illumina Solexa Life Technology SOLiD™ 3System SOLiD™ 4 System 5500 System 5500xl System Ion Torrent System Servicio Ultrasecuenciación UCTS GS 454 de ROCHE GS FLX GS Junior ¿Cúantas muestras se pueden secuenciar por run? 1ª Generación Metal coated PTP reduces crosstalk 29 µm well diameter (20/bead) 3100 ABI 2ª Generación GS ROCHE 3,400,000 wells per PTP 96p-Plates 384p-Plates PicoTiterPlate_FLX 70x70mm PicoTiterPlate_Junior GS FLX/Junior 454 Troughput PTP Gaskets 35 -Tamaño de lo que quiero secuenciar -Coverage -Multiplexar (MIDS) N= (GxC)/Mbp por región PTP Donde: N= num de muestras que puedo secuenciar en un run G= tamaño de lo que quiero secuenciar C=Coverage (C= N * L / G) GS FLX/Junior 454 Workflow gDNA, Amplicones, cDNA 1.Calidad & Cantidad Material de partida 2. Construcción Librería 3. Amplificación mediante emPCR 4. Secuenciación Datos Obtenidos 1. Calidad & Cantidad Material de partida 1.1 Calidad mediante Chips Bioanalyzer; gel agarosa gDNA, RNA 1.2 Cuantificación mediante Picogreen (gDNA) o Ribogreen (RNA) y = 34,577x - 61,596 R2 = 0,9994 Fluorescence 20000 15000 10000 . 5000 0 0 200 400 Lam bda DNA (ng/m L) 600 Fluorímetro FLx800 GS FLX/Junior 454 Workflow gDNA, Amplicones, RNA 1.Calidad & Cantidad Material de partida 2. Construcción Librería 3. Amplificación mediante emPCR 4. Secuenciación Datos Obtenidos 2. Construcción Librería Fragmentación Selección Tamaño Ligación Adaptadores Librería Shotgun Librería Pair-End Librería cDNA Librería Amplicones gDNA, RNA Adaptador A (44 bases): Primer 4 nucleótidos Amplificación Primer “Key” Secuenciación PCR con Fusion Primers Adaptador B (44 bases) Biotina Primer 4 nucleótidos Amplificación Primer “Key” Secuenciación Fusion Primers Adaptador A Target Adaptador B Target 2. Construcción Librería: Fragmentación gDNA Librerías Shotgun NEBULIZACIÓN Rotura utilizando nitrógeno a alta presión DNA genómico Fragmentos de DNA de doble cadena 2.1 bar (30psi) Librerías Pair-End HYDROSHEAR Fuerzas de rotura hidrodinámicas Orificio gDNA gDNA fragmentado 2. Construcción Librería: Fragmentación RNA Librerías cDNA RNA Random Primers First Strand Synthesis Solución de Fragmentación de RNA Second Strand Synthesis Fragmentos de cDNA de doble cadena 2. Construcción Librería: Selección fragmentos gDNA Nebulizado: DNA 7500 Lab Chip AMPure beads SPRI (Solid Phase Reversible Immobilization) DNA 7500 LabChip 300pb-1000pb 50pb-1000pb gDNA fragmentado con Hydroshear: RNA Pico 6000 LabChip Electroelución 500pb-600 nt Tamaño medio de 500-600 nt (dep. del contenido en GC) Menos del 10% ≤ 300 nt, no adaptor dimers Conc >0.2 ng/µl (Ribogreen ®) 2. Construcción Librería Inmobilización Fragmentos y aislamiento de la Librería: AB AB Melt Solution BB AA 4 tipos de productos resultan de la ligación Los productos con Biotina (AB, BA, BB) se unen a bolas magnéticas que llevan estreptavidina. Los products AA son lavados y eliminados. Mediante Melt Solution (NaOH0.1N) las cadenas no biotiniladas de cada fragmento de dsDNA son aisladas. Ambas cadenas de los fragmentos BB quedarán unidas a las bolas. Sólo se aislan cadenas de DNA sencilla AB constituyendo la librería. 2. Construcción Librería: Q&Q Librería Molecules/µl = - Num de Avogadro es 6.022x1023 (moléculas/mole) -328.3x109 (gramos/mole) es peso molecular medio de nts. -Perfil típico de una librería ssDNA (Agilent 2100 RNA Pico 6000 LabChip): Tamaño medio de 500-800 bp -Cuantificación mediante Ribogreen -Dilución de trabajo para emPCR GS FLX/Junior 454 Workflow gDNA, Amplicones, cDNA 1.Calidad & Cantidad Material de partida 2. Construcción Librería 3. Amplificación mediante emPCR 4. Secuenciación Datos Obtenidos 3. Amplificación mediante emPCR Antes de la emPCR: high-speed shaker -1 starting effective fragment per microreactor - ~106 microreactors per ml - All processed in parallel (Amplificación clonal) 3. Amplificación mediante emPCR Después de la PCR: Rotura y Recuperación Contaje 65%, 85% óptimo DNA-beads/ml % Recuperación= x100 Input beads Enrequecimiento de beads con DNA: Melt 5-20% óptimo dsDNA Unión de Primer marcado con Biotina a bolas de captura con ssDNA Adición de bolas magnéticas con estreptavidina Melt DNA-beads/ml % Enrequecimiento= x100 Input beads emPCR Titulación sólo para GS FLX Antes de la emPCR: ¿Cuántas copias de librería por Beads de captura son óptimas? 1. Procesar 4 tubos emulsiones Tubo Moléculas de Librería por Bead de Captura (cpb) Vol Librería Diluida 1 2 1.2 µl 2 4 2.4 µl 3 8 4.8 µl 4 16 9.6 µl 2. Recuperación y enrequecimiento de cada tubo 3. Contaje de las beads enriquecidas 4. Escoger el ratio copia/bead con aproximadamente un 8% de enrequecimiento GS FLX/Junior 454 Workflow gDNA, Amplicones, cDNA 1.Calidad & Cantidad Material de partida 2. Construcción Librería 3. Amplificación mediante emPCR 4. Secuenciación Datos Obtenidos 4. Secuenciación Metal coated PTP reduces crosstalk 29 µm well diameter (20/bead) 3,400,000 wells per PTP Gaskets 4. Secuenciación Secuenciación mediante síntesis Química basada en la pirosecuenciación Polimerasa añade nucleótidos (dATP) Se libera pirofosfato (PPi) Sulfurilasa crea ATP a partir del PPi Luciferasa hidroliza ATP y usa luciferina para producir luz. Sulfurylase Luciferase Luciferina Light + oxyluciferin 4. Secuenciación Flujo de Reactivos Nucleotides are flowed sequentially across the PTPone at a time (200 cycles à4 bases) Pyrophosphate signal generation upon complimentary nucleotide incorporation — dark otherwise The CCDcamera is generating a image after every flow The signal strength is proportional to the number of nucleotides incorporated 4. Secuenciación Flowgama y Base calling: 4. Secuenciación:Ejemplo MULTIPLEXACIÓN DE MUESTRAS MIDS: -Los MIDs son secuencias cortas que se añaden a los fragmentos a secuenciar durante la generación de librería y permiten identificar cada muestra de manera individual. Primer 4 nucleótidos Amplificación Primer “Key” Secuenciación Biotina Primer 4 nucleótidos Amplificación Primer “Key” Secuenciación Adaptador A Adaptador B MIDS MIDS Target MIDS Target MIDS -Permite aumentar el número de muestras por PTP: -separación física: “gaskets” → pérdida física de espacio en la placa -separación por “código de barras” -Utilizando las dos posibilidades anteriores, aumenta el número de muestras a secuenciar por placa: -Kit comercial de 12 MIDs (diseñados por Roche) → 12 muestras/reg. -División de la PTP en 16 reg. con “gaskets” TOTAL: 12 MIDs/reg. * 16 reg. = 192 muestras por PTP (máx) (INCLUSO MÁS) Multiplexado de Muestras Multiplexado de amplicones MID2-Amplicón 2 MID1-Amplicón 1 MID4-Amplicón 4 MID3-Amplicón 3 MID5-Amplicón 5 MID6-Amplicón 6 Amplicón 7 Amplicón 8 Amplicón 11 Amplicón 12 Amplicón 9 Amplicón 10 SISTEMA GS FLX 454-APLICACIONES -Secuenciación de DNA a partir de muestras de especies extinguidas (shot-gun, paired-end) -Estudios de epigenética: amplicones -ChIP y secuenciación de los fragmentos de DNA presentes en los IPs -Metilación: conversión con bisulfito, amplificación de las regiones conteniendo islas CpG y secuenciación. -Ensamblaje de genomas eucariotas y procariotas completos, tanto de novo como resecuenciación (shot-gun +paired-end) -SAGE (Serial Analysis of Gene Expression Ditags): análisis cuantitativo y cualitativo del transcriptoma (shot-gun) -Caracterización y cuantificación de poblaciones virales a través de la secuenciación de genes diana (ej: transcriptasa reversa en VIH). Detección de quasiespecies (amplicones). -Metagenómica: estudio del contenido genómico en una mezcla compleja de microorganismos (microbiota, muestras medioambientales). Determinación tanto cuantitativa como cualitativa (shot-gun, retrotranscripción de RNA total o de mRNA, amplicones de 16S rRNA) SISTEMA GS FLX 454-APLICACIONES -Secuenciación de genomas de pequeño tamaño (virales, mitocondriales) o de plásmidos (shot-gun) -Secuenciación de RNAs de pequeño tamaño (microRNAs, siRNAs): generación del cDNA de doble cadena como material de partida (shot-gun) -Detección de SNPs, InDels, CNV (shot-gun) -Análisis del transcriptoma (partiendo de RNA total o mRNA), cuantitativo o cualitativo (comparación de niveles de expresión) (retrotranscripción y shot-gun) -Enriquecimiento de regiones del genoma/captura del exoma utilizando arrays de captura de Nimblegen. Secuenciación de las regiones capturadas (shot-gun). En función de la aplicación, puede ser necesario completar los datos de 454 utilizando otras tecnologías, p.ej. Resolución de homopolímeros utilizando Sanger o lecturas cortas de Illumina. En general, se recomienda validar siempre los resultados utilizando otro tipo de aproximaciones: arrays, secuenciación Sanger, PCR a tiempo real, otras tecnologías de ultrasecuenciación..... Especificaciones Sistemas GS FLX & GS Junior El futuro de la secuenciación 454 Programa del curso De Sanger hacia NGS 454 de Roche Desarrollo de la tecnología Cómo funciona Aplicaciones Comparación con otros Sistemas NGS Sistema Nimblegen Cómo funciona Formatos Aplicaciones Análisis de datos de alta densidad (UEB)ç Comparación Plataformas secuenciación HiSeq 2000-Illumina GS FLX 454 ABI SOLID 5500xl Chemistry based on pirosequencing Chemistry based on reversible terminators Chemistry based on sequencing by ligation Sample amplified by emulsion PCR Sample amplified by solidphase amplification Sample amplified by emulsion PCR Read length 250-500 bp Read length 2x100 bp Read length 50-100 bp >1 million reads per run 3 billions reads per run 100-500 million reads per run 400-600 Mb of sequence 600 Gb of sequence 50-100 Gb of sequence ~10 hours run 2-11 days run 4-8 days run Comparación Plataformas secuenciación Comparación Plataformas secuenciación Comparación Plataformas secuenciación Ejemplos de Genomas humanos secuenciados Nature Reviews Genetics 11, 31-46 (January 2010) Comparación Plataformas secuenciación 1ª Generación 2ª Generación 3ª Generación Secuenciación SCIENCE Vol 323 2 JANUARY 2009 Real-Time DNA Sequencing from Single Polymerase Molecules John Eid, Eid,* Adrian Fehr, Fehr,* Jeremy Gray,* Khai Luong, Luong,* John Lyle, Lyle,* Geoff Otto, Otto,* Paul Peluso, Peluso,* David Rank, Rank,* Primo Baybayan, Baybayan, Brad Bettman, Bettman, Arkadiusz Bibillo, Bibillo, Keith Bjornson, Bjornson, Bidhan Chaudhuri, Chaudhuri, Frederick Christians, Christians, Ronald Cicero, Cicero, Sonya Clark, Clark, Ravindra Dalal, Dalal, Alex deWinter, deWinter, John Dixon, Dixon, Mathieu Foquet, Alfred Gaertner, Gaertner, Paul Hardenbol, Hardenbol, Cheryl Heiner, Heiner, Kevin Hester, Hester, David Holden, Holden, Gregory Kearns, Kearns, Xiangxu Kong, Kong, Ronald Kuse, Kuse, Yves Lacroix, Lacroix, Steven Lin, Lin, Paul Lundquist, Lundquist, Congcong Ma, Patrick Marks, Marks, Mark Maxham, Maxham, Devon Murphy, Murphy, Insil Park, Park, Thang Pham, Pham, Michael Phillips, Phillips, Joy Roy, Roy, Robert Sebra, Sebra, Gene Shen, Shen, Jon Sorenson, Sorenson, Austin Tomaney, Tomaney, Kevin Travers, Travers, Mark Trulson, Trulson, John Vieceli, Vieceli, Jeffrey Wegener, Wegener, Dawn Wu, Wu, Alicia Yang, Yang, Denis Zaccarin, Zaccarin, Peter Zhao, Zhao, Frank Zhong, Zhong, Jonas Korlach, Korlach, Stephen Turner. Turner. Press Release Pacific Biosciences Announces Early Access Customers for Its Single Molecule Real Time System Eleven Leading Companies Support Launch of Third-generation DNA Sequencing http://www.pacificbiosciences.com MENLO PARK, Calif., Feb 23, 2010 Pacific Biosciences, a private company developing a disruptive technology platform for real-time detection of biological events at single molecule resolution, today announced the 10 institutions that have purchased its Single Molecule Real Time (SMRT(TM)) DNA sequencing system as part of the company's early access program in North America. Programa del curso De Sanger hacia NGS 454 de Roche Desarrollo de la tecnología Cómo funciona Aplicaciones Comparación con otros Sistemas NGS Sistema Nimblegen Cómo funciona Formatos Aplicaciones Análisis de datos de alta densidad (UEB) NIMBLEGEN: Arrays de Captura Los arrays de captura de secuencia de Nimblegen permiten capturar y enriquecer regiones génicas de interés, contiguas o no, con una elevada sensibilidad y especificidad, que luego pueden amplificarse y secuenciarse mediante tecnologías de alto rendimiento (454/Illumina). -Este sistema permite secuenciar regiones de interés en vez de genomas completos, con lo cual el coste de la secuenciación se reduce considerablemente. Técnicamente, el proceso también es menos costoso. -Sistema flexible: las regiones de interés pueden ser contiguas o no en el genoma. -Nimblegen diseña los arrays a la carta, solamente es necesario facilitarles las coordenadas de los genes diana. 1) Formato sólido -Arrays “ a la carta”, con dos posibles tamaños de captura: 5 Mb ó 30 Mb por array. -Arrays de captura del exoma: prediseñados, contienen 180.000 exones humanos codificantes y 551 exones para miRNA (34 Mb), utilizando 2,1 millones de sondas. El listado de genes que contienen estos arrays puede consultarse en la web de Nimblegen (www.nimblegen.com). -2) Formato en solución -Arrays de captura del exoma: prediseñados, contienen 180.000 exones humanos codificantes y 551 exones para miRNA (34 Mb). Existe una versión LR (long-read) optimizada para secuenciación con 454. Disponible en dos formatos, para 4 reacciones y para 48 reacciones. Próximamente existirá este formato para arrays de 5 Mb. NIMBLEGEN: Arrays de Captura PROTOCOLO DE ARRAYS DE CAPTURA EN SÓLIDO 3. Pre-capture amplification 4. Hybridization a) Ensamblaje del array b) Carga del array c) Hibridación: 42º C, 64-72 h PROTOCOLO DE ARRAYS DE CAPTURA EN SOLUCIÓN Streptavidin beads Pre-capture amplification Primers biotinilados 3. Hybridization 47 ºC, 64-72 horas CONTROL DE CALIDAD DE LA CAPTURA MEDIANTE qPCR La eficiencia teórica de una qPCR es del 100% y significa que las secuencias diana se doblan en cada ciclo, es decir, que E=2. Sin embargo, la eficiencia real nunca es del 100% y por eso el valor de E debe calcularse empíricamente para cada sonda. Los locus control NSC permiten determinar el enriquecimiento de un pequeño set de locus control estandarizados que se encuentran dentro de un rango de eficiencias de captura conocidas. Estos ensayos permiten hacer una estimación aproximada del enriquecimiento de poblaciones mayores de genes diana sin necesidad de secuenciarlos. Si la qPCR de estos locus control indica una captura correcta, es muy problable que los locus experimentales de interés también hayan sido capturados satisfactoriamente. TECNOLOGÍA DE NIMBLEGEN -Arrays de enriquecimiento de secuencia -CGH arrays CGX / CNV / Whole genome / Whole genome-exon focused / Custom -ChIP-chip arrays Whole genome / Promoter / Custom -Arrays de metilación Whole genome / Promoter / Custom -Arrays de expresión génica Whole genome / Promoter / Custom www.nimblegen.com OTRAS TECNOLOGÍAS DE ENRIQUECIMIENTO DE SECUENCIA -Sistema SureSelect (Agilent): arrays de captura en solución. Optimizada para la secuenciación con Illumina, SOLiD y 454. Existen versiones prediseñadas para capturar el exoma y el noma humanos, o bien pueden diseñarse ensayos “a la carta” (captura de 3.3 ó 6.6 Mb). Las muestras pueden “indexarse” después de la captura para optimizar el rendimiento de la ultrasecuenciación (=MIDs de Roche). Existe también un formato sólido que permite capturar hasta 1 Mb. http://www.genomics.agilent.com -Sistema Febit (ABI). Para ver una descripción de cómo funciona el sistema: http://www.nature.com/nmeth/journal/v6/n9/full/nmeth.f.266.html PAUTAS PARA EL DISEÑO EXPERIMENTAL DE UN ESTUDIO DE ULTRASECUENCIACIÓN UCTS WORKFLOW Researcher Statistics and Bioinformatics (UEB) EXPERIMENTAL DESIGN RESULTS CHECKING UCTS QUALITY SAMPLES COLLECTION EXPERIMENTS DATA ANALYSIS UEB Others SAMPLE PROCESSING SEQUENCING UCTS Programa del curso De Sanger hacia NGS 454 de Roche Desarrollo de la tecnología Cómo funciona Aplicaciones Comparación con otros Sistemas NGS Sistema Nimblegen Cómo funciona Formatos Aplicaciones Análisis de datos de alta densidad (UEB) Introduction to NGS (Now Generation Sequencing) Data Analysis Alex Sánchez Statistics and Bioinformatics Research Group Statistics department, Universitat de Barelona Statistics and Bioinformatics Unit Vall d’Hebron Institut de Recerca NGS Data analysis Picture 5 ... http://ueb.ir.vhebron.net/NGS Introduction to NGS (Now Generation Sequencing) Data Analysis Alex Sánchez Statistics and Bioinformatics Research Group Statistics department, Universitat de Barelona Statistics and Bioinformatics Unit Vall d’Hebron Institut de Recerca NGS Data analysis http://ueb.ir.vhebron.net/NGS Outline • Introduction • Bioinformatics Challenges • NGS data analysis: Some examples and workflows • Metagenomics, De novo sequencing, Variant detection, RNAseq • Software • Galaxy, Genome viewers • Data formats and quality control NGS Data analysis http://ueb.ir.vhebron.net/NGS Introduction NGS Data analysis http://ueb.ir.vhebron.net/NGS Why is NGS revolutionary? • NGS has brought high speed not only to genome sequencing and personal medicine, • it has also changed the way we do genome research Got a question on genome organization? SEQUENCE IT !!! Ana Conesa, bioinformatics researcher at Principe Felipe Research Center NGS Data analysis http://ueb.ir.vhebron.net/NGS NGS means high sequencing capacity GS FLX 454 (ROCHE) HiSeq 2000 (ILLUMINA) 5500xl SOLiD (ABI) GS Junior Ion TORRENT NGS Data analysis http://ueb.ir.vhebron.net/NGS NGS Platforms Performance 454 GS Junior 35MB NGS Data analysis http://ueb.ir.vhebron.net/NGS 454 Sequencing NGS Data analysis http://ueb.ir.vhebron.net/NGS ABI SOLID Sequencing NGS Data analysis http://ueb.ir.vhebron.net/NGS Solexa sequencing NGS Data analysis http://ueb.ir.vhebron.net/NGS Applications of Next-Generation Sequencing Comparison of 2nd NGS NGS Data analysis http://ueb.ir.vhebron.net/NGS Some numbers Platform 454/FLX Solexa (Illumina) AB SOLID Read length Single read Paired-end Reads Long-insert (several Kbp) mate-paired reads Number of reads por instrument run Max Data output Run time to 1Gb Ease of use (workflow) Base Calling ~350-400bp Yes Yes Yes 5.00K 0.5Gbp 6 Days Difficult Flow Space 36, 75, or 106 bp Yes Yes Yes >100 M 20.5 Gbp > 1 Day Least difficult Nucleotide space 50bp Yes Yes No 400M 20Gbp >1 Day Difficult Color sapce Whole genome sequencing and resequencing Yes Yes Yes de novo sequencing Yes Targeted resequencing Yes Yes Yes Yes Yes Discovery of genetic variants ( SNPs, InDels, CNV, ...) Chromatin Immunopecipitation (ChIP) Methylation Analysis Metagenomics Yes Yes Whole Transcriptome Small RNA Yes Yes Yes Yes Yes Yes Yes Yes Yes No Yes Yes Yes Yes Yes No Yes Yes Yes Expression Tags Yes Yes Yes DNA Applications RNA Applications NGS Data analysis http://ueb.ir.vhebron.net/NGS Bioinformatics challenges of NGS NGS Data analysis http://ueb.ir.vhebron.net/NGS I have my sequences/images. Now what? NGS Data analysis http://ueb.ir.vhebron.net/NGS NGS pushes (bio)informatics needs up • Need for computer power • • • VERY large text files (~10 million lines long) – Can’t do ‘business as usual’ with familiar tools such as Perl/Python. – Impossible memory usage and execution time • Impossible to browse for problems Need sequence Quality filtering Need for large amount of CPU power • • Informatics groups must manage compute clusters Challenges in parallelizing existing software or redesign of algorithms to work in a parallel environment • Need for Bioinformatics power!!! • • The challenges turns from data generation into data analysis! How should bioinformatics be structured • • Bigger centralized bioinformatics services? (or research groups providing service?) Distributed model: bioinformaticians must be part of the temas. Interoperability? NGS Data analysis http://ueb.ir.vhebron.net/NGS Data management issues • Raw data are large. How long should be kept? • Processed data are manageable for most people – 20 million reads (50bp) ~1Gb • More of an issue for a facility: HiSeq recommends 32 CPU cores, each with 4GB RAM • Certain studies much more data intensive than other – Whole genome sequencing • A 30X coverage genome pair (tumor/normal) ~500 GB • 50 genome pairs ~ 25 TB NGS Data analysis http://ueb.ir.vhebron.net/NGS So what? • In NGS we have to process really big amounts of data, which is not trivial in computing terms. • Big NGS projects require supercomputing infrastructures • Or put another way: it's not the case that anyone can do everything. – Small facilities must carefully choose their projects to be scaled with their computing capabilities. NGS Data analysis http://ueb.ir.vhebron.net/NGS Computational infrastructure for NGS • There is great variety but a good point to start with: – Computing cluster • Multiple nodes (servers) with multiple cores • High performance storage (TB, PB level) • Fast networks (10Gb ethernet, infiniband) – Enough space and conditions for the equipment ("servers room") – Skilled people (sysadmin, developers) • CNAG, in Barcelona: 36 people, more than 50% of them informaticians NGS Data analysis http://ueb.ir.vhebron.net/NGS Alternatives (1): Cloud Computing • Pros – Flexibility. – You pay what you use. – Don´t need to maintain a data center. • Cons – Transfer big datasets over internet is slow. – You pay for consumed bandwidth. That is a problem with big datasets. – Lower performance, specially in disk read/write. – Privacy/security concerns. – More expensive for big and long term projects. NGS Data analysis http://ueb.ir.vhebron.net/NGS Alternatives (2): Grid Computing • Pros – Cheaper. – More resources available. • Cons – Heterogeneous environment. – Slow connectivity (specially in Spain). – Much time required to find good resources in the grid. NGS Data analysis http://ueb.ir.vhebron.net/NGS In summary? •“NGS” arrived 2007/8 •No-one predicted NGS in 2001 (ten years ago) •Therefore we cannot predict what we will come up against •TGS represents specific challenges –Large Data Storage –Technology-aware software –Enables new assays and new science •We would have said the same about NGS…. •These are not new problems, but will require new solutions •There is a lag between technology and software…. NGS Data analysis http://ueb.ir.vhebron.net/NGS Bioinformatics and bioinformaticians • • • • The term bioinformatician means many things Some may require a wide range of skills Others require a depth of specific skills The best thing we can teach is the ability to learn and adapt • The spirit of adventure • There is a definite skills shortage • There always has been NGS Data analysis http://ueb.ir.vhebron.net/NGS Increasing importance of data analysis needs NGS Data analysis http://ueb.ir.vhebron.net/NGS NGS data analysis NGS Data analysis http://ueb.ir.vhebron.net/NGS NGS data analysis stages NGS Data analysis http://ueb.ir.vhebron.net/NGS Quality control and preprocessing of NGS data NGS Data analysis http://ueb.ir.vhebron.net/NGS Data types NGS Data analysis http://ueb.ir.vhebron.net/NGS Why QC and preprocessing • Sequencer output: – Reads + quality • Natural questions – Is the quality of my sequenced data OK? – If something is wrong can I fix it? • Problem: HUGE files... How do they look? • Files are flat files and big... tens of Gbs (even hard to browse them) NGS Data analysis http://ueb.ir.vhebron.net/NGS Preprocessing sequences improves results NGS Data analysis http://ueb.ir.vhebron.net/NGS How is quality measured? • Sequencing systems use to assign quality scores to each peak • Phred scores provide log(10)-transformed error probability values: If p is probability that the base call is wrong the Phred score is Q = .10·log10p – score = 20 corresponds to a 1% error rate – score = 30 corresponds to a 0.1% error rate – score = 40 corresponds to a 0.01% error rate • The base calling (A, T, G or C) is performed based on Phred scores. • Ambiguous positions with Phred scores <= 20 are labeled with N. NGS Data analysis http://ueb.ir.vhebron.net/NGS Data formats • FastA format (everybody knows about it) – Header line starts with “>” followed by a sequence ID – Sequence (string of nt). • FastQ format (http://maq.sourceforge.net/fastq.shtml) – First is the sequence (like Fasta but starting with “@”) – Then “+” and sequence ID (optional) and in the following line are QVs encoded as single byte ASCII codes • Different quality encode variants • Nearly all downstream analysis take FastQ as input sequence NGS Data analysis http://ueb.ir.vhebron.net/NGS The fastq format • A FASTQ file normally uses four lines per sequence. – Line 1 begins with a '@' character and is followed by a sequence identifier and an optional description (like a FASTA title line). – Line 2 is the raw sequence letters. – Line 3 begins with a '+' character and isoptionally followed by the same sequence identifier (and any description) again. – Line 4 encodes the quality values for the sequence in Line 2, and must contain the same number of symbols as letters in the sequence. • Different encodings are in use • Sanger format can encode a Phred quality score from 0 to 93 using ASCII 33 to 126 @Seq description GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65 NGS Data analysis http://ueb.ir.vhebron.net/NGS Some tools to deal with QC • Use FastQC to see your starting state. • Use Fastx-toolkit to optimize different datasets and then visualize the result with FastQC to prove your success! • Hints: – Trimming, clipping and filtering may improve quality – But beware of removing too many sequences… Go to the tutorial and try the exercises... NGS Data analysis http://ueb.ir.vhebron.net/NGS Applications • • • • • • [1] Metagenomics [2] De novo sequencing [3] Amplicon analysis [4] Variant discovery [5] Transcriptome analysis …and more … NGS Data analysis http://ueb.ir.vhebron.net/NGS [1] Metagenomics &other community-based “omics” Zoetendal E G et al. Gut 2008;57:1605-1615 NGS Data analysis http://ueb.ir.vhebron.net/NGS [1] Metagenomic Approaches SMALL-SCALE: 16S rRNA gene profiling The basic approach is to identify microbes in a complex community by exploiting universal and conserved targets, such as rRNA genesPetrosini. Challenges and limitations: Chimeric sequences caused by PCR amplification and sequencing errors. LARGE-SCALE: Whole Genome Shotgun (WGS) Whole-genome approaches enable to identify and annotate microbial genes and its functions in the community. Challenges and limitations: relatively large amounts of starting material required potential contamination of metagenomic samples with host genetic material high numbers of genes of unknown function. Environmental Shotgun Sequencing (ESS). A primer on metagenomics. PLoS Comput Biol. 2010 Feb 26;6(2):e1000667. [1] A metagenomics workflow AAGACGTGGACA GTCCGTCACAACTGA AAGACGTGGACAGATCTGCTCAGGCTAGCATGAAC CATGCGTGCATG GATAGGTGGACCGATATGCATTAGACTTGCAGGGC AGTCGTCAGTCATGGG Short reads (40-150 bps) 1 3000 Assembly Contigs Gene prediction 6000 1 1 3000 6000 2000 Homology searching ORFs Proteins, families, functions Functional classification Ontologies Binning Sequences into species Functional profiles [1] Comparative Metagenomics Comparing two or more metagenomes is necessary to understand how genomic differences affect, and are affected by the abiotic environment. MEGAN can also be used to compare the OTU composition of two or more frequencynormalized samples. MG-RAST provides a comparative functional and sequence-based analysis for uploaded samples . Other software based on phylogenetic data are UniFrac. [1] Some Metagenomics projects "whole-genome shotgun sequencing" was applied to microbial populations A total of 1.045 billion base pairs of nonredundant sequence were analyzed "whole-genome shotgun sequencing" 78 million base pairs of unique DNA sequence were analyzed To date, 242 metagenomic projects are on going and 103 are completed (www.genomesonline.org). [2] De novo sequencing NGS Data analysis http://ueb.ir.vhebron.net/NGS [3] Amplicon analysis Each amplicon (PCR product) is sequenced individually, allowing for the identification of rare variants and the assignment of haplotype information over the full sequence length Some applications: Detection of low-frequency (<1%) variants in complex mixtures → rare somatic mutations, viral quasispecies... deep sequencing Ultraamplicon Identification of rare alleles associated with hereditary diseases, heterozygote SNP calling... Ultra-broad amplicon sequencing Metabolic profiling of environmental habitats, bacterial taxonomy and phlylogeny 16S rRNA amplicon sequencing [3] Example of raw data generation with GS-FLX ... [3] Data Workflow Data Processing ... [3] Final output examples ... NT substitution (error) matrices Bar plots output example (with circular legend for the AA) AA frequency tables [4] Variant discovery Your aligner decides the type/amount of variants you can identify Naive SNP calling Reads counting Statistic support SNP calling Maximum likelihood, Bayesian Quality score recalibration Recalibrate quality score from whole alignment Local realignment around indels Realign reads Known variants (limited species) dbSNP [4] Example: Exome Variant Analysis [4] Genotype calling tools [4] GATK pipeline [4] NGS Data analysis http://ueb.ir.vhebron.net/NGS [4] Many ongoing sequencing projects NGS Data analysis http://ueb.ir.vhebron.net/NGS [5] Transcriptome Analysis using NGS RNA-Seq, or "Whole Transcriptome Shotgun Sequencing" ("WTSS") refers to use of HTS technologies to sequence cDNA in order to get information about a sample's RNA content. Reads produced by sequencing Aligned to a reference genome to build transcriptome mappings. [5] Applications (1) Whole transcriptome analysis mRNA AAAA Fragmentation Detects expression of known and novel mRNAs cDNA library Identification of alternative splicing events Detects expressed SNPs or mutations sequencing Identifies allele specific expression patterns RT Reads cover the full length of a transcript CEMCAT-Neuroimmunology [5] Applications (2) Differential expression 1.Reads are mapped to the reference genome or transcriptome 2.Mapped reads are assembled into expression summaries (tables of counts, showing how may reads are in coding region, exon, gene or junction); 3.The data are normalized; 4.Statistical testing of differential expression (DE) is performed, producing a list of genes with P-values and fold changes. [5] RNA Seq data analysis - Mapping •Main Issues: –Number of allowed mismatches –Number of multihits –Mates expected distance –Considering exon junctions 10 years or plus of high throughput data analysis End up with a list of # of reads per transcript These will be our (discrete) response variable [5] RNA Seq data analysis -Normalization • Two main sources of bias – Influence of length: Counts are proportional to the transcript length times the mRNA expression level. – Influence of sequencing depth: The higher sequencing depth, the higher counts. • How to deal with this – Normalize (correct) gene counts to minimize biases. – Use statistical models that take into account length and sequencing depth 10 years or plus of high throughput data analysis [5] RNA Seq - Differential expression methods • Fisher's exact test or similar approaches. • Use Generalized Linear Models and model counts using – Poisson distribution. – Negative binomial distribution. • Transform count data to use existing approaches for microarray data. • … 10 years or plus of high throughput data analysis [5] Advantages of RNA-seq Unlike hybridization approaches does not require existing genomic sequence Very low background noise Better than Sanger sequencing of cDNA or EST libraries Cost decreasing all the time Reads can be unabmiguously mapped Resolution up to 1 bp High-throughput quantitative measurement of transcript abundance Expected to replace microarrays for transcriptomic studies Lower than traditional sequencing Can reveal sequence variations (SNPs) Automated pipelines available Software for NGS preprocessing and analysis NGS Data analysis http://ueb.ir.vhebron.net/NGS Which software for NGS (data) analysis? • Answer is not straightforward. • Many possible classifications http://seqanswers.com/wiki/Software/list – Biological domains • SNP discovery, Genomics, ChIP-Seq, De-novo assembly, … – Bioinformatics methods • Mapping, Assembly, Alignment, Seq-QC,… – Technology • Illumina, 454, ABI SOLID, Helicos, … – Operating system • Linux, Mac OS X, Windows, … – License type • GPLv3, GPL, Commercial, Free for academic use,… – Language • C++, Perl, Java, C, Phyton – Interface • Web Based, Integrated solutions, command line tools, pipelines,… NGS Data analysis http://ueb.ir.vhebron.net/NGS Which software for NGS (data) analysis? • Answer is not straightforward. • Many possible classifications http://seqanswers.com/wiki/Software/list – Biological domains • SNP discovery, Genomics, ChIP-Seq, De-novo assembly, … – Bioinformatics methods • Mapping, Assembly, Alignment, Seq-QC,… – Technology • Illumina, 454, ABI SOLID, Helicos, … – Operating system • Linux, Mac OS X, Windows, … – License type • GPLv3, GPL, Commercial, Free for academic use,… – Language • C++, Perl, Java, C, Phyton – Interface • Web Based, Integrated solutions, command line tools, pipelines,… NGS Data analysis http://ueb.ir.vhebron.net/NGS Some popular tools and places NGS Data analysis http://ueb.ir.vhebron.net/NGS http://galaxy.psu.edu/ Galaxy Site 11 9 Obtain data from many data sources including the Prepare data for further UCSC Table Browser, analysis by rearranging BioMart, WormBase, or cutting data columns, or your own data. filtering data and many other actions. Analyze data by finding overlapping regions, determining statistics, phylogenetic analysis and much more 12 0 User contains links to the downloading, pre-procession and analysis tools displays menus and data inputs Register Shows the history of analysis steps, data and result viewing 12 1 Click Get Data 12 2 Get Data from Database 12 3 Upload File File Format Upload or paste file 12 4 12 5 FASTQ file manipulation: format conversation, summary statistics, trimming reads, filtering reads by quality score… Input: sanger FASTQ Output: SAM format Downstream analysis: SAM -> BAM List saved histories and shared histories. Work on a current history, create new, share workflow Co py rig ht Op en He lix. No us e or re pr od uct ion wit ho ut ex pr es s wri tte n co ns 12 en t 9 Creates a workflow, allows user to repeat analysis using different datasets. DATA VISUALIZATION NGS Data analysis http://ueb.ir.vhebron.net/NGS History of Genome Visualization 1800s 1900s time 2000s Why is visualization important? make large amounts of data more interpretable glean patterns from the data sanity check / visual debugging more… What is a “Genome Browser” linear representation of a genome position-based annotations, each called a track continuous annotations: e.g. conservation interval annotations: e.g. gene, read alignment point annotations: e.g. SNPs user specifies a subsection of genome to look at Server-side model (e.g. UCSC, Ensembl, Gbrowse) server • central data store • renders images • sends to client client • requests images • displays images Client-side model (e.g. Savant, IGV) server • stores data client • local HTS store • renders images • displays images HTS machine Rough comparison of Genome Browsers Model Interactive HTS support Database of tracks Plugins UCSC Ensem GBrows Savant bl e Server Server Server Client No support Some support Good support IGV Client Limitations of most genome browsers do not support multiple genomes simultaneously do not capture 3-dimensional conformation do not capture spatial or temporal information do not integrate well with analytics cannot be customized The SAVANT GENOME BROWSER has been created to overcome these limitations Integrative Genomics Viewer (IGV) he Integrative Genomics Viewer (IGV) is a high-performance visualization tool for interactive exploration of large, integrated datasets. It supports a wide variety of data types including sequence alignments, microarrays, and genomic annotations. Acknowledgements Grupo de investigación en Estadística y Bioinformática del departamento de Estadística de la Universidad de Barcelona. All the members at the Unitat d’Estadística i Bioinformàtica del VHIR (Vall d’Hebron Institut de Recerca) Unitat de Serveis Científico Tècnics (UCTS) del VHIR (Vall d’Hebron Institut de Recerca) People whose materials have been borrowed or who have contributed with their work Manel Comabella, Rosa Prieto, Paqui Gallego, Javier Santoyo, Ana Conesa, Thomas Girke and Silvia Cardona.… NGS Data analysis http://ueb.ir.vhebron.net/NGS Gracias por la atención y la paciencia NGS Data analysis http://ueb.ir.vhebron.net/NGS