4. Secuenciación

Transcripción

4. Secuenciación
Cursos de Formación de la UCTS (2011)
Plataforma de Genómica / Plataforma de Diagnóstico Molecular
“Tecnologías de alto rendimiento en genómica”
2ª Parte: Tecnologías de ultrasecuenciación y de enriquecimiento
de secuencia.
Programa del curso
De Sanger hacia NGS
454 de Roche
Desarrollo de la tecnología
Cómo funciona
Aplicaciones
Comparación con otros Sistemas NGS
Sistema Nimblegen
Cómo funciona
Formatos
Aplicaciones
Análisis de datos de alta densidad (UEB)
Cualquier DNA puede ser secuenciado
Genomas Secuenciados
Nature Reviews Genetics 9, 303-313, 2008
Cronología de la Secuenciación
1973
Método secuenciación
“Wandering spot”, Maxam y Gilbert
1975
Método secuenciación
“plus and minus”, Sanger y Coulson
1977
1.“ DNA sequencing by chemical degradation ”by
Maxam y Gilbert.
phi X 174
Primer genoma de DNA completo secuenciado
11 genes en 5386 bases (cadena sencilla)
NGS:2ª GENERACIÓN
2.“Chain-terminator method” by Sanger et al.
Método usado durante los proximos 30 años
1ª GENERACIÓN
Francis Crick and James
Watson describen el modelo
de la doble hélice del DNA.
1ª GENERACIÓN
1953
1996
Pal Nyrén & Mostafa Ronagh i publican método
de la pirosecuenciación en el Royal Institute of
Technology (Stockholm).
2001
Se publica la primera versión del genoma humano.
Science 291 (5507): 1304–51; Nature 409 (6822): 860–921
2003
Proyecto Genoma Humano (13 años).
U.S. Department of Energy and the NIH
2005
454 Life Science comercializa el
1er ultrasecuenciador GS20 (20Mpb)
2006
Lanzamiento de SOLEXA (Illumina)
2007
Genoma de Venter mediante sec. Sanger
automática (4 años)
Lanzamiento de GS FLX de Roche (100Mbp)
2008
1987
1990
Serie de reactivos Titanium de Roche (500Mbp).
Applied Biosystems comercializa el
primer secuenciador automático,
El modelo ABI 370.
El Instituto Naiconal de Salud (NIH)
empieza secuenciación a gran escala de
diversos microorganismos, ej. E.coli
SOLID de Applied Biosystem
Genoma Watson mediante 454/ROCHE
Nature 452, 872-876 (17 April 2008).
N
ª
IÓ
S:3 RAC
G
N NE
GE
2010
1000 Genomes Project
Método de secuenciaciación
SingleMolecularRealTime
1ª Generación Secuenciación
Método Sanger
Fragmentación de DNA
Clonaje en Vectores; Transformación Bacterias;
crecimiento y aislamiento vector DNA
Ciclo Secuenciación
Sanger sequencing:
- Long reads (500-1000 bp)
- Low throughput (192 reactions/run)
Secuencia: 3´…GACTAGATACGACGAGCGTGA…5´
Primer:
5´…CTGAT
Electroforesis
( 1 Secuencia/Capilar)
Polimerasa
dNTPs
ddNTPs marcados
CTATGCTCG
2ª Generación Secuenciación
Los Instrumentos de secuenciación de 2ª generación
pueden generar tantos datos en un día como los
generados por varios cientos de secuenciadores con
capilares tipo Sanger, obtenidos por una sola persona.
Sanger vs 2ª Generación Secuenciación
Fragmentación de DNA
Fragmentación de DNA
Clonaje en Vectores; Transformación Bacterias;
crecimiento y aislamiento vector DNA
Ligación de adaptadores in vitro y
amplificación clonal
Secuenciación masiva en paralelo
Ciclo Secuenciación
Secuencia:
Primer:
Polimerasa
dNTPs
ddNTPs marcados
Electroforesis
( 1 Secuencia/Capilar)
Procesamiento imagen
CTATGCTCG
2ª Generación Secuenciación
ROCHE
GS FLX 454
GS FLX+ 454
GS Junior 454
illumina
Solexa
Life Technology
SOLiD™ 3System
SOLiD™ 4 System
5500 System
5500xl System
Ion Torrent System
Servicio Ultrasecuenciación UCTS
GS 454 de ROCHE
GS FLX
GS Junior
¿Cúantas muestras se pueden secuenciar por run?
1ª Generación
Metal coated PTP reduces crosstalk
29 µm well diameter (20/bead)
3100 ABI
2ª Generación
GS ROCHE
3,400,000 wells per PTP
96p-Plates
384p-Plates
PicoTiterPlate_FLX
70x70mm
PicoTiterPlate_Junior
GS FLX/Junior 454 Troughput
PTP
Gaskets
35
-Tamaño de lo que quiero secuenciar
-Coverage
-Multiplexar (MIDS)
N= (GxC)/Mbp por región PTP
Donde: N= num de muestras que puedo secuenciar en un run
G= tamaño de lo que quiero secuenciar
C=Coverage (C= N * L / G)
GS FLX/Junior 454 Workflow
gDNA, Amplicones, cDNA
1.Calidad & Cantidad
Material de partida
2. Construcción Librería
3. Amplificación mediante emPCR
4. Secuenciación
Datos Obtenidos
1. Calidad & Cantidad Material de partida
1.1 Calidad mediante Chips Bioanalyzer; gel agarosa
gDNA, RNA
1.2 Cuantificación mediante Picogreen (gDNA) o Ribogreen (RNA)
y = 34,577x - 61,596
R2 = 0,9994
Fluorescence
20000
15000
10000
.
5000
0
0
200
400
Lam bda DNA (ng/m L)
600
Fluorímetro FLx800
GS FLX/Junior 454 Workflow
gDNA, Amplicones, RNA
1.Calidad & Cantidad
Material de partida
2. Construcción Librería
3. Amplificación mediante emPCR
4. Secuenciación
Datos Obtenidos
2. Construcción Librería
Fragmentación
Selección Tamaño
Ligación Adaptadores
Librería Shotgun
Librería Pair-End
Librería cDNA
Librería Amplicones
gDNA, RNA
Adaptador A (44 bases):
Primer
4 nucleótidos
Amplificación Primer
“Key”
Secuenciación
PCR con Fusion Primers
Adaptador B (44 bases)
Biotina
Primer
4 nucleótidos
Amplificación Primer
“Key”
Secuenciación
Fusion Primers
Adaptador A
Target
Adaptador B Target
2. Construcción Librería: Fragmentación gDNA
Librerías Shotgun
NEBULIZACIÓN
Rotura utilizando nitrógeno a alta presión
DNA genómico
Fragmentos de DNA
de doble cadena
2.1 bar (30psi)
Librerías Pair-End
HYDROSHEAR
Fuerzas de rotura hidrodinámicas
Orificio
gDNA
gDNA
fragmentado
2. Construcción Librería: Fragmentación RNA
Librerías cDNA
RNA
Random
Primers
First Strand
Synthesis
Solución de
Fragmentación de RNA
Second Strand
Synthesis
Fragmentos de cDNA
de doble cadena
2. Construcción Librería: Selección fragmentos
gDNA Nebulizado:
DNA 7500 Lab Chip
AMPure beads
SPRI (Solid Phase Reversible Immobilization)
DNA 7500 LabChip
300pb-1000pb
50pb-1000pb
gDNA fragmentado con Hydroshear:
RNA Pico 6000 LabChip
Electroelución
500pb-600 nt
Tamaño medio de 500-600 nt (dep. del contenido en GC)
Menos del 10% ≤ 300 nt, no adaptor dimers
Conc >0.2 ng/µl (Ribogreen ®)
2. Construcción Librería
Inmobilización Fragmentos y aislamiento de la Librería:
AB
AB
Melt Solution
BB
AA
4 tipos de productos resultan de la ligación
Los productos con Biotina (AB, BA, BB) se unen a bolas magnéticas que llevan
estreptavidina. Los products AA son lavados y eliminados.
Mediante Melt Solution (NaOH0.1N) las cadenas no biotiniladas de cada
fragmento de dsDNA son aisladas. Ambas cadenas de los fragmentos BB quedarán
unidas a las bolas.
Sólo se aislan cadenas de DNA sencilla AB constituyendo la librería.
2. Construcción Librería: Q&Q Librería
Molecules/µl =
- Num de Avogadro es 6.022x1023 (moléculas/mole)
-328.3x109 (gramos/mole) es peso molecular medio de nts.
-Perfil típico de una librería ssDNA (Agilent 2100 RNA Pico 6000
LabChip): Tamaño medio de 500-800 bp
-Cuantificación mediante Ribogreen
-Dilución de trabajo para emPCR
GS FLX/Junior 454 Workflow
gDNA, Amplicones, cDNA
1.Calidad & Cantidad
Material de partida
2. Construcción Librería
3. Amplificación mediante emPCR
4. Secuenciación
Datos Obtenidos
3. Amplificación mediante emPCR
Antes de la emPCR:
high-speed
shaker
-1 starting effective fragment per microreactor
- ~106 microreactors per ml
- All processed in parallel
(Amplificación clonal)
3. Amplificación mediante emPCR
Después de la PCR:
Rotura y Recuperación
Contaje
65%, 85% óptimo
DNA-beads/ml
% Recuperación=
x100
Input beads
Enrequecimiento de
beads con DNA:
Melt
5-20% óptimo
dsDNA
Unión de Primer marcado
con Biotina a bolas de
captura con ssDNA
Adición de bolas
magnéticas con
estreptavidina
Melt
DNA-beads/ml
% Enrequecimiento=
x100
Input beads
emPCR Titulación sólo para GS FLX
Antes de la emPCR:
¿Cuántas copias de librería por
Beads de captura son óptimas?
1. Procesar 4 tubos emulsiones
Tubo
Moléculas de Librería por
Bead de Captura (cpb)
Vol Librería
Diluida
1
2
1.2 µl
2
4
2.4 µl
3
8
4.8 µl
4
16
9.6 µl
2. Recuperación y enrequecimiento de cada tubo
3. Contaje de las beads enriquecidas
4. Escoger el ratio copia/bead con aproximadamente un 8% de enrequecimiento
GS FLX/Junior 454 Workflow
gDNA, Amplicones, cDNA
1.Calidad & Cantidad
Material de partida
2. Construcción Librería
3. Amplificación mediante emPCR
4. Secuenciación
Datos Obtenidos
4. Secuenciación
Metal coated PTP reduces crosstalk
29 µm well diameter (20/bead)
3,400,000 wells per PTP
Gaskets
4. Secuenciación
Secuenciación mediante síntesis
Química basada en la pirosecuenciación
Polimerasa añade
nucleótidos (dATP)
Se libera pirofosfato (PPi)
Sulfurilasa crea ATP a
partir del PPi
Luciferasa hidroliza ATP y
usa luciferina para producir
luz.
Sulfurylase
Luciferase
Luciferina
Light + oxyluciferin
4. Secuenciación
Flujo de Reactivos
Nucleotides are flowed sequentially across
the PTPone at a time (200 cycles à4 bases)
Pyrophosphate signal generation upon
complimentary nucleotide incorporation —
dark otherwise
The CCDcamera is generating a image after
every flow
The signal strength is proportional to the
number of nucleotides incorporated
4. Secuenciación
Flowgama y Base calling:
4. Secuenciación:Ejemplo
MULTIPLEXACIÓN DE MUESTRAS
MIDS:
-Los MIDs son secuencias cortas que se añaden a los fragmentos a secuenciar
durante la generación de librería y permiten identificar cada muestra de manera
individual.
Primer
4 nucleótidos
Amplificación Primer
“Key”
Secuenciación
Biotina
Primer
4 nucleótidos
Amplificación Primer
“Key”
Secuenciación
Adaptador A
Adaptador B
MIDS
MIDS
Target
MIDS
Target
MIDS
-Permite aumentar el número de muestras por PTP:
-separación física: “gaskets” → pérdida física de espacio en la placa
-separación por “código de barras”
-Utilizando las dos posibilidades anteriores, aumenta el número de muestras a
secuenciar por placa:
-Kit comercial de 12 MIDs (diseñados por Roche) → 12 muestras/reg.
-División de la PTP en 16 reg. con “gaskets”
TOTAL: 12 MIDs/reg. * 16 reg. = 192 muestras por PTP (máx) (INCLUSO MÁS)
Multiplexado de Muestras
Multiplexado de amplicones
MID2-Amplicón 2
MID1-Amplicón 1
MID4-Amplicón 4
MID3-Amplicón 3
MID5-Amplicón 5
MID6-Amplicón 6
Amplicón 7
Amplicón 8
Amplicón 11
Amplicón 12
Amplicón 9
Amplicón 10
SISTEMA GS FLX 454-APLICACIONES
-Secuenciación de DNA a partir de muestras de especies extinguidas (shot-gun,
paired-end)
-Estudios de epigenética: amplicones
-ChIP y secuenciación de los fragmentos de DNA presentes en los IPs
-Metilación: conversión con bisulfito, amplificación de las regiones
conteniendo islas CpG y secuenciación.
-Ensamblaje de genomas eucariotas y procariotas completos, tanto de novo como
resecuenciación (shot-gun +paired-end)
-SAGE (Serial Analysis of Gene Expression Ditags): análisis cuantitativo y cualitativo
del transcriptoma (shot-gun)
-Caracterización y cuantificación de poblaciones virales a través de la secuenciación
de genes diana (ej: transcriptasa reversa en VIH). Detección de quasiespecies
(amplicones).
-Metagenómica: estudio del contenido genómico en una mezcla compleja de
microorganismos (microbiota, muestras medioambientales). Determinación tanto
cuantitativa como cualitativa (shot-gun, retrotranscripción de RNA total o de mRNA,
amplicones de 16S rRNA)
SISTEMA GS FLX 454-APLICACIONES
-Secuenciación de genomas de pequeño tamaño (virales, mitocondriales) o de plásmidos
(shot-gun)
-Secuenciación de RNAs de pequeño tamaño (microRNAs, siRNAs): generación del
cDNA de doble cadena como material de partida (shot-gun)
-Detección de SNPs, InDels, CNV (shot-gun)
-Análisis del transcriptoma (partiendo de RNA total o mRNA), cuantitativo o
cualitativo (comparación de niveles de expresión) (retrotranscripción y shot-gun)
-Enriquecimiento de regiones del genoma/captura del exoma utilizando arrays de
captura de Nimblegen. Secuenciación de las regiones capturadas (shot-gun).
En función de la aplicación, puede ser necesario completar los datos de 454 utilizando
otras tecnologías, p.ej. Resolución de homopolímeros utilizando Sanger o lecturas
cortas de Illumina.
En general, se recomienda validar siempre los resultados utilizando otro tipo de
aproximaciones: arrays, secuenciación Sanger, PCR a tiempo real, otras tecnologías de
ultrasecuenciación.....
Especificaciones Sistemas GS FLX & GS Junior
El futuro de la secuenciación 454
Programa del curso
De Sanger hacia NGS
454 de Roche
Desarrollo de la tecnología
Cómo funciona
Aplicaciones
Comparación con otros Sistemas NGS
Sistema Nimblegen
Cómo funciona
Formatos
Aplicaciones
Análisis de datos de alta densidad (UEB)ç
Comparación Plataformas secuenciación
HiSeq 2000-Illumina
GS FLX 454
ABI SOLID 5500xl
Chemistry based on
pirosequencing
Chemistry based on
reversible terminators
Chemistry based on
sequencing by ligation
Sample amplified by
emulsion PCR
Sample amplified by
solidphase amplification
Sample amplified by
emulsion PCR
Read length 250-500 bp
Read length 2x100 bp
Read length 50-100 bp
>1 million reads per run
3 billions reads per run
100-500 million reads per run
400-600 Mb of sequence
600 Gb of sequence
50-100 Gb of sequence
~10 hours run
2-11 days run
4-8 days run
Comparación Plataformas secuenciación
Comparación Plataformas secuenciación
Comparación Plataformas secuenciación
Ejemplos de Genomas humanos secuenciados
Nature Reviews Genetics 11, 31-46 (January 2010)
Comparación Plataformas secuenciación
1ª Generación
2ª Generación
3ª Generación Secuenciación
SCIENCE Vol 323 2 JANUARY 2009
Real-Time DNA Sequencing from
Single Polymerase Molecules
John Eid,
Eid,* Adrian Fehr,
Fehr,* Jeremy Gray,* Khai Luong,
Luong,* John Lyle,
Lyle,* Geoff Otto,
Otto,* Paul
Peluso,
Peluso,* David Rank,
Rank,* Primo Baybayan,
Baybayan, Brad Bettman,
Bettman, Arkadiusz Bibillo,
Bibillo, Keith
Bjornson,
Bjornson, Bidhan Chaudhuri,
Chaudhuri, Frederick Christians,
Christians, Ronald Cicero,
Cicero, Sonya Clark,
Clark,
Ravindra Dalal,
Dalal, Alex deWinter,
deWinter, John Dixon,
Dixon, Mathieu Foquet, Alfred Gaertner,
Gaertner, Paul
Hardenbol,
Hardenbol, Cheryl Heiner,
Heiner, Kevin Hester,
Hester, David Holden,
Holden, Gregory Kearns,
Kearns, Xiangxu
Kong,
Kong, Ronald Kuse,
Kuse, Yves Lacroix,
Lacroix, Steven Lin,
Lin, Paul Lundquist,
Lundquist, Congcong Ma,
Patrick Marks,
Marks, Mark Maxham,
Maxham, Devon Murphy,
Murphy, Insil Park,
Park, Thang Pham,
Pham, Michael
Phillips,
Phillips, Joy Roy,
Roy, Robert Sebra,
Sebra, Gene Shen,
Shen, Jon Sorenson,
Sorenson, Austin Tomaney,
Tomaney, Kevin
Travers,
Travers, Mark Trulson,
Trulson, John Vieceli,
Vieceli, Jeffrey Wegener,
Wegener, Dawn Wu,
Wu, Alicia Yang,
Yang,
Denis Zaccarin,
Zaccarin, Peter Zhao,
Zhao, Frank Zhong,
Zhong, Jonas Korlach,
Korlach, Stephen Turner.
Turner.
Press Release
Pacific Biosciences Announces Early Access
Customers for Its Single Molecule Real Time System
Eleven Leading Companies Support Launch of Third-generation DNA Sequencing
http://www.pacificbiosciences.com
MENLO PARK, Calif., Feb 23, 2010 Pacific Biosciences, a private company
developing a disruptive technology platform for real-time detection of biological
events at single molecule resolution, today announced the 10 institutions that
have purchased its Single Molecule Real Time (SMRT(TM)) DNA sequencing
system as part of the company's early access program in North America.
Programa del curso
De Sanger hacia NGS
454 de Roche
Desarrollo de la tecnología
Cómo funciona
Aplicaciones
Comparación con otros Sistemas NGS
Sistema Nimblegen
Cómo funciona
Formatos
Aplicaciones
Análisis de datos de alta densidad (UEB)
NIMBLEGEN: Arrays de Captura
Los arrays de captura de secuencia de Nimblegen permiten capturar y enriquecer regiones génicas
de interés, contiguas o no, con una elevada sensibilidad y especificidad, que luego pueden
amplificarse y secuenciarse mediante tecnologías de alto rendimiento (454/Illumina).
-Este sistema permite secuenciar regiones de interés en vez de genomas completos, con lo cual el
coste de la secuenciación se reduce considerablemente. Técnicamente, el proceso también es menos
costoso.
-Sistema flexible: las regiones de interés pueden ser contiguas o no en el genoma.
-Nimblegen diseña los arrays a la carta, solamente es necesario facilitarles las coordenadas de los
genes diana.
1)
Formato sólido
-Arrays “ a la carta”, con dos posibles tamaños de captura: 5 Mb ó 30 Mb por array.
-Arrays de captura del exoma: prediseñados, contienen 180.000 exones humanos
codificantes y 551 exones para miRNA (34 Mb), utilizando 2,1 millones de sondas. El
listado de genes que contienen estos arrays puede consultarse en la web de Nimblegen
(www.nimblegen.com).
-2) Formato en solución
-Arrays de captura del exoma: prediseñados, contienen 180.000 exones humanos
codificantes y 551 exones para miRNA (34 Mb). Existe una versión LR (long-read)
optimizada para secuenciación con 454. Disponible en dos formatos, para 4 reacciones y
para 48 reacciones.
Próximamente existirá este formato para arrays de 5 Mb.
NIMBLEGEN: Arrays de Captura
PROTOCOLO DE ARRAYS DE CAPTURA EN SÓLIDO
3. Pre-capture amplification
4. Hybridization
a) Ensamblaje del array
b) Carga del array
c) Hibridación: 42º C, 64-72 h
PROTOCOLO DE ARRAYS DE CAPTURA EN SOLUCIÓN
Streptavidin beads
Pre-capture amplification
Primers biotinilados
3. Hybridization
47 ºC,
64-72 horas
CONTROL DE CALIDAD DE LA CAPTURA MEDIANTE qPCR
La eficiencia teórica de una qPCR es del 100% y significa que las
secuencias diana se doblan en cada ciclo, es decir, que E=2. Sin embargo,
la eficiencia real nunca es del 100% y por eso el valor de E debe calcularse
empíricamente para cada sonda.
Los locus control NSC permiten determinar el enriquecimiento de un
pequeño set de locus control estandarizados que se encuentran
dentro de un rango de eficiencias de captura conocidas. Estos
ensayos permiten hacer una estimación aproximada del
enriquecimiento de poblaciones mayores de genes diana sin
necesidad de secuenciarlos. Si la qPCR de estos locus control indica
una captura correcta, es muy problable que los locus experimentales
de interés también hayan sido capturados satisfactoriamente.
TECNOLOGÍA DE NIMBLEGEN
-Arrays de enriquecimiento de secuencia
-CGH arrays
CGX / CNV / Whole genome / Whole genome-exon focused / Custom
-ChIP-chip arrays
Whole genome / Promoter / Custom
-Arrays de metilación
Whole genome / Promoter / Custom
-Arrays de expresión génica
Whole genome / Promoter / Custom
www.nimblegen.com
OTRAS TECNOLOGÍAS DE ENRIQUECIMIENTO DE SECUENCIA
-Sistema SureSelect (Agilent): arrays de captura en solución. Optimizada
para la secuenciación con Illumina, SOLiD y 454. Existen versiones
prediseñadas para capturar el exoma y el noma humanos, o bien pueden
diseñarse ensayos “a la carta” (captura de 3.3 ó 6.6 Mb). Las muestras
pueden “indexarse” después de la captura para optimizar el rendimiento de
la ultrasecuenciación (=MIDs de Roche). Existe también un formato sólido
que permite capturar hasta 1 Mb.
http://www.genomics.agilent.com
-Sistema Febit (ABI). Para ver una descripción de cómo funciona el sistema:
http://www.nature.com/nmeth/journal/v6/n9/full/nmeth.f.266.html
PAUTAS PARA EL DISEÑO EXPERIMENTAL DE UN ESTUDIO DE
ULTRASECUENCIACIÓN
UCTS WORKFLOW
Researcher
Statistics and Bioinformatics
(UEB)
EXPERIMENTAL DESIGN
RESULTS CHECKING
UCTS
QUALITY SAMPLES COLLECTION
EXPERIMENTS
DATA ANALYSIS
UEB
Others
SAMPLE PROCESSING
SEQUENCING
UCTS
Programa del curso
De Sanger hacia NGS
454 de Roche
Desarrollo de la tecnología
Cómo funciona
Aplicaciones
Comparación con otros Sistemas NGS
Sistema Nimblegen
Cómo funciona
Formatos
Aplicaciones
Análisis de datos de alta densidad (UEB)
Introduction to NGS
(Now Generation Sequencing)
Data Analysis
Alex Sánchez
Statistics and Bioinformatics Research Group
Statistics department, Universitat de Barelona
Statistics and Bioinformatics Unit
Vall d’Hebron Institut de Recerca
NGS Data analysis
Picture 5 ...
http://ueb.ir.vhebron.net/NGS
Introduction to NGS
(Now Generation Sequencing)
Data Analysis
Alex Sánchez
Statistics and Bioinformatics Research Group
Statistics department, Universitat de Barelona
Statistics and Bioinformatics Unit
Vall d’Hebron Institut de Recerca
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Outline
• Introduction
• Bioinformatics Challenges
• NGS data analysis: Some examples and workflows
• Metagenomics, De novo sequencing, Variant detection, RNAseq
• Software
• Galaxy, Genome viewers
• Data formats and quality control
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Introduction
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Why is NGS revolutionary?
• NGS has brought high speed not only to genome
sequencing and personal medicine,
• it has also changed the way we do genome research
Got a question on genome organization?
SEQUENCE IT !!!
Ana Conesa, bioinformatics researcher at
Principe Felipe Research Center
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
NGS means high sequencing capacity
GS FLX 454
(ROCHE)
HiSeq 2000
(ILLUMINA)
5500xl SOLiD
(ABI)
GS Junior
Ion TORRENT
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
NGS Platforms Performance
454 GS Junior
35MB
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
454 Sequencing
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
ABI SOLID Sequencing
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Solexa sequencing
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Applications of Next-Generation Sequencing
Comparison of 2nd NGS
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Some numbers
Platform
454/FLX
Solexa (Illumina) AB SOLID
Read length
Single read
Paired-end Reads
Long-insert (several Kbp) mate-paired reads
Number of reads por instrument run
Max Data output
Run time to 1Gb
Ease of use (workflow)
Base Calling
~350-400bp
Yes
Yes
Yes
5.00K
0.5Gbp
6 Days
Difficult
Flow Space
36, 75, or 106 bp
Yes
Yes
Yes
>100 M
20.5 Gbp
> 1 Day
Least difficult
Nucleotide space
50bp
Yes
Yes
No
400M
20Gbp
>1 Day
Difficult
Color sapce
Whole genome sequencing and resequencing
Yes
Yes
Yes
de novo sequencing
Yes
Targeted resequencing
Yes
Yes
Yes
Yes
Yes
Discovery of genetic variants ( SNPs, InDels, CNV, ...)
Chromatin Immunopecipitation (ChIP)
Methylation Analysis
Metagenomics
Yes
Yes
Whole Transcriptome
Small RNA
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
No
Yes
Yes
Yes
Yes
Yes
No
Yes
Yes
Yes
Expression Tags
Yes
Yes
Yes
DNA Applications
RNA Applications
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Bioinformatics challenges of NGS
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
I have my sequences/images. Now what?
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
NGS pushes (bio)informatics needs up
• Need for computer power
•
•
•
VERY large text files (~10 million lines long)
– Can’t do ‘business as usual’ with familiar tools such as Perl/Python.
– Impossible memory usage and execution time
• Impossible to browse for problems
Need sequence Quality filtering
Need for large amount of CPU power
•
•
Informatics groups must manage compute clusters
Challenges in parallelizing existing software or redesign of algorithms to work in a
parallel environment
• Need for Bioinformatics power!!!
•
•
The challenges turns from data generation into data analysis!
How should bioinformatics be structured
•
•
Bigger centralized bioinformatics services? (or research groups providing service?)
Distributed model: bioinformaticians must be part of the temas. Interoperability?
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Data management issues
• Raw data are large. How long should be kept?
• Processed data are manageable for most people
– 20 million reads (50bp) ~1Gb
• More of an issue for a facility: HiSeq recommends
32 CPU cores, each with 4GB RAM
• Certain studies much more data intensive than other
– Whole genome sequencing
• A 30X coverage genome pair (tumor/normal) ~500 GB
• 50 genome pairs ~ 25 TB
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
So what?
• In NGS we have to process really big amounts of data,
which is not trivial in computing terms.
• Big NGS projects require supercomputing infrastructures
• Or put another way: it's not the case that anyone can do
everything.
– Small facilities must carefully choose their projects to be scaled
with their computing capabilities.
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Computational infrastructure for NGS
• There is great variety but a good point to start with:
– Computing cluster
• Multiple nodes (servers) with multiple cores
• High performance storage (TB, PB level)
• Fast networks (10Gb ethernet, infiniband)
– Enough space and conditions for the equipment
("servers room")
– Skilled people (sysadmin, developers)
• CNAG, in Barcelona: 36 people, more than 50% of them
informaticians
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Alternatives (1): Cloud Computing
• Pros
– Flexibility.
– You pay what you use.
– Don´t need to maintain a data center.
• Cons
– Transfer big datasets over internet is
slow.
– You pay for consumed bandwidth.
That is a problem with big datasets.
– Lower performance, specially in disk
read/write.
– Privacy/security concerns.
– More expensive for big and long
term projects.
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Alternatives (2): Grid Computing
• Pros
– Cheaper.
– More resources available.
• Cons
– Heterogeneous
environment.
– Slow connectivity (specially
in Spain).
– Much time required to find
good resources in the grid.
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
In summary?
•“NGS” arrived 2007/8
•No-one predicted NGS in 2001 (ten years ago)
•Therefore we cannot predict what we will come
up against
•TGS represents specific challenges
–Large Data Storage
–Technology-aware software
–Enables new assays and new science
•We would have said the same about NGS….
•These are not new problems, but will require
new solutions
•There is a lag between technology and
software….
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Bioinformatics and bioinformaticians
•
•
•
•
The term bioinformatician means many things
Some may require a wide range of skills
Others require a depth of specific skills
The best thing we can teach is the ability to learn and
adapt
• The spirit of adventure
• There is a definite skills shortage
• There always has been
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Increasing importance of data analysis needs
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
NGS data analysis
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
NGS data analysis stages
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Quality control and preprocessing of
NGS data
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Data types
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Why QC and preprocessing
• Sequencer output:
– Reads + quality
• Natural questions
– Is the quality of my sequenced
data OK?
– If something is wrong can I fix it?
• Problem: HUGE files... How
do they look?
• Files are flat files and big...
tens of Gbs (even hard to
browse them)
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Preprocessing sequences improves results
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
How is quality measured?
• Sequencing systems use to assign quality scores to each peak
• Phred scores provide log(10)-transformed error probability values:
If p is probability that the base call is wrong the Phred score is
Q = .10·log10p
– score = 20 corresponds to a 1% error rate
– score = 30 corresponds to a 0.1% error rate
– score = 40 corresponds to a 0.01% error rate
• The base calling (A, T, G or C) is performed based on Phred scores.
• Ambiguous positions with Phred scores <= 20 are labeled with N.
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Data formats
• FastA format (everybody knows about it)
– Header line starts with “>” followed by a sequence ID
– Sequence (string of nt).
• FastQ format (http://maq.sourceforge.net/fastq.shtml)
– First is the sequence (like Fasta but starting with “@”)
– Then “+” and sequence ID (optional) and in the following line are
QVs encoded as single byte ASCII codes
• Different quality encode variants
• Nearly all downstream analysis take FastQ as input
sequence
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
The fastq format
• A FASTQ file normally uses four lines per sequence.
– Line 1 begins with a '@' character and is followed by a sequence
identifier and an optional description (like a FASTA title line).
– Line 2 is the raw sequence letters.
– Line 3 begins with a '+' character and isoptionally followed by the same
sequence identifier (and any description) again.
– Line 4 encodes the quality values for the sequence in Line 2, and must
contain the same number of symbols as letters in the sequence.
• Different encodings are in use
• Sanger format can encode a Phred quality score from 0 to 93 using ASCII 33 to 126
@Seq description
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Some tools to deal with QC
• Use FastQC to see your starting state.
• Use Fastx-toolkit to optimize different datasets and then
visualize the result with FastQC to prove your success!
• Hints:
– Trimming, clipping and filtering may improve quality
– But beware of removing too many sequences…
Go to the tutorial and try the exercises...
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Applications
•
•
•
•
•
•
[1] Metagenomics
[2] De novo sequencing
[3] Amplicon analysis
[4] Variant discovery
[5] Transcriptome analysis
…and more …
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
[1] Metagenomics &other community-based “omics”
Zoetendal E G et al.
Gut 2008;57:1605-1615
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
[1] Metagenomic Approaches
SMALL-SCALE: 16S rRNA gene profiling
The basic approach is to identify microbes in a complex
community by exploiting universal and conserved targets,
such as rRNA genesPetrosini.
Challenges and limitations: Chimeric sequences caused by
PCR amplification and sequencing errors.
LARGE-SCALE: Whole Genome Shotgun (WGS)
Whole-genome approaches enable to identify and
annotate microbial genes and its functions in the
community.
Challenges and limitations:
relatively large amounts of starting material required
potential contamination of metagenomic samples with host
genetic material
high numbers of genes of unknown function.
Environmental Shotgun Sequencing (ESS).
A primer on metagenomics.
PLoS Comput Biol. 2010 Feb 26;6(2):e1000667.
[1] A metagenomics workflow
AAGACGTGGACA
GTCCGTCACAACTGA
AAGACGTGGACAGATCTGCTCAGGCTAGCATGAAC
CATGCGTGCATG
GATAGGTGGACCGATATGCATTAGACTTGCAGGGC
AGTCGTCAGTCATGGG
Short reads (40-150 bps)
1
3000
Assembly
Contigs
Gene prediction
6000
1
1
3000
6000
2000
Homology searching
ORFs
Proteins, families, functions
Functional classification
Ontologies
Binning
Sequences into species
Functional profiles
[1] Comparative Metagenomics
Comparing two or more metagenomes is necessary to understand how genomic differences affect,
and are affected by the abiotic environment.
MEGAN can also be used to
compare the OTU composition
of two or more frequencynormalized samples.
MG-RAST provides a
comparative functional and
sequence-based analysis for
uploaded samples
.
Other software based on
phylogenetic
data are UniFrac.
[1] Some Metagenomics projects
"whole-genome shotgun sequencing" was applied to microbial populations
A total of 1.045 billion base pairs of nonredundant sequence were analyzed
"whole-genome shotgun sequencing"
78 million base pairs of unique DNA sequence were analyzed
To date, 242 metagenomic projects are on going and 103 are completed
(www.genomesonline.org).
[2] De novo sequencing
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
[3] Amplicon analysis
Each amplicon (PCR product) is sequenced individually, allowing
for the identification of rare variants and the assignment of
haplotype information over the full sequence length
Some applications:
Detection of low-frequency (<1%) variants in complex
mixtures → rare somatic mutations, viral quasispecies...
deep
sequencing
Ultraamplicon
Identification of rare alleles associated with hereditary
diseases, heterozygote SNP calling... Ultra-broad amplicon sequencing
Metabolic profiling of environmental habitats, bacterial
taxonomy and phlylogeny
16S rRNA amplicon sequencing
[3] Example of raw data generation with GS-FLX
...
[3] Data Workflow
Data Processing
...
[3] Final output examples
...
NT substitution (error) matrices
Bar plots output example (with circular legend for the AA)
AA frequency tables
[4] Variant discovery
Your aligner decides the type/amount of variants you can
identify
Naive SNP calling
Reads counting
Statistic support SNP calling
Maximum likelihood, Bayesian
Quality score recalibration
Recalibrate quality score from whole alignment
Local realignment around indels
Realign reads
Known variants (limited species)
dbSNP
[4] Example: Exome Variant
Analysis
[4] Genotype calling tools
[4] GATK pipeline
[4]
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
[4] Many ongoing sequencing projects
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
[5] Transcriptome Analysis using NGS
RNA-Seq, or "Whole
Transcriptome Shotgun
Sequencing" ("WTSS")
refers to use of HTS
technologies to sequence
cDNA in order to get
information about a
sample's RNA content.
Reads produced by
sequencing
Aligned to a reference
genome to build
transcriptome mappings.
[5] Applications (1) Whole transcriptome analysis
mRNA
AAAA
Fragmentation
Detects expression of known and novel
mRNAs
cDNA library
Identification of alternative splicing
events
Detects expressed SNPs or mutations
sequencing
Identifies allele specific expression
patterns
RT
Reads cover the
full length of a transcript
CEMCAT-Neuroimmunology
[5] Applications (2) Differential expression
1.Reads are mapped to the reference
genome or transcriptome
2.Mapped reads are assembled into
expression summaries (tables of
counts, showing how may reads are in
coding region, exon, gene or junction);
3.The data are normalized;
4.Statistical testing of differential
expression (DE) is performed,
producing a list of genes with P-values
and fold changes.
[5] RNA Seq data analysis - Mapping
•Main Issues:
–Number of allowed mismatches
–Number of multihits
–Mates expected distance
–Considering exon junctions
10 years or plus of high
throughput data analysis
End up with a list of
# of reads per transcript
These will be our (discrete)
response variable
[5] RNA Seq data analysis -Normalization
• Two main sources of bias
– Influence of length: Counts are proportional to the transcript length
times the mRNA expression level.
– Influence of sequencing depth: The higher sequencing depth, the
higher counts.
• How to deal with this
– Normalize (correct) gene counts to minimize biases.
– Use statistical models that take into account
length and sequencing depth
10 years or plus of high throughput data analysis
[5] RNA Seq - Differential expression methods
• Fisher's exact test or similar approaches.
• Use Generalized Linear Models and model counts using
– Poisson distribution.
– Negative binomial distribution.
• Transform count data to use existing approaches for
microarray data.
• …
10 years or plus of high throughput data analysis
[5] Advantages of RNA-seq
Unlike hybridization approaches does not require existing genomic
sequence
Very low background noise
Better than Sanger sequencing of cDNA or EST libraries
Cost decreasing all the time
Reads can be unabmiguously mapped
Resolution up to 1 bp
High-throughput quantitative measurement of transcript abundance
Expected to replace microarrays for transcriptomic studies
Lower than traditional sequencing
Can reveal sequence variations (SNPs)
Automated pipelines available
Software for NGS preprocessing and analysis
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Which software for NGS (data) analysis?
• Answer is not straightforward.
• Many possible classifications
http://seqanswers.com/wiki/Software/list
– Biological domains
• SNP discovery, Genomics, ChIP-Seq, De-novo assembly, …
– Bioinformatics methods
• Mapping, Assembly, Alignment, Seq-QC,…
– Technology
• Illumina, 454, ABI SOLID, Helicos, …
– Operating system
• Linux, Mac OS X, Windows, …
– License type
• GPLv3, GPL, Commercial, Free for academic use,…
– Language
• C++, Perl, Java, C, Phyton
– Interface
• Web Based, Integrated solutions, command line tools, pipelines,…
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Which software for NGS (data) analysis?
• Answer is not straightforward.
• Many possible classifications
http://seqanswers.com/wiki/Software/list
– Biological domains
• SNP discovery, Genomics, ChIP-Seq, De-novo assembly, …
– Bioinformatics methods
• Mapping, Assembly, Alignment, Seq-QC,…
– Technology
• Illumina, 454, ABI SOLID, Helicos, …
– Operating system
• Linux, Mac OS X, Windows, …
– License type
• GPLv3, GPL, Commercial, Free for academic use,…
– Language
• C++, Perl, Java, C, Phyton
– Interface
• Web Based, Integrated solutions, command line tools, pipelines,…
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Some popular tools and places
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
http://galaxy.psu.edu/
Galaxy Site
11
9
Obtain data from many data
sources including the
Prepare data for further
UCSC Table Browser,
analysis by rearranging
BioMart, WormBase,
or cutting data columns,
or your own data.
filtering data and many
other actions.
Analyze data by finding
overlapping regions,
determining statistics,
phylogenetic analysis
and much more
12
0
User
contains links to
the downloading,
pre-procession and
analysis tools
displays
menus and
data inputs
Register
Shows the history
of analysis steps,
data and result
viewing
12
1
Click Get Data
12
2
Get Data
from Database
12
3
Upload File
File Format
Upload or paste file
12
4
12
5
FASTQ file manipulation:
format conversation,
summary statistics,
trimming reads,
filtering reads
by quality score…
Input: sanger FASTQ
Output: SAM format
Downstream analysis:
SAM -> BAM
List saved histories and
shared histories.
Work on a current history,
create new, share workflow
Co
py
rig
ht
Op
en
He
lix.
No
us
e
or
re
pr
od
uct
ion
wit
ho
ut
ex
pr
es
s
wri
tte
n
co
ns
12
en
t
9
Creates a workflow, allows
user to repeat analysis
using different datasets.
DATA VISUALIZATION
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
History of Genome Visualization
1800s
1900s
time
2000s
Why is visualization important?
make large amounts of data more interpretable
glean patterns from the data
sanity check / visual debugging
more…
What is a “Genome Browser”
linear representation of a genome
position-based annotations, each called a track
continuous annotations: e.g. conservation
interval annotations: e.g. gene, read alignment
point annotations: e.g. SNPs
user specifies a subsection of genome to look at
Server-side model
(e.g. UCSC, Ensembl, Gbrowse)
server
• central data store
• renders images
• sends to client
client
• requests images
• displays images
Client-side model
(e.g. Savant, IGV)
server
• stores data
client
• local HTS store
• renders images
• displays images
HTS machine
Rough comparison of Genome Browsers
Model
Interactive
HTS support
Database of
tracks
Plugins
UCSC Ensem GBrows Savant
bl
e
Server Server
Server
Client
No support
Some support Good support
IGV
Client
Limitations of most genome browsers
do not support multiple genomes simultaneously
do not capture 3-dimensional conformation
do not capture spatial or temporal information
do not integrate well with analytics
cannot be customized
The SAVANT
GENOME BROWSER
has been created
to overcome these
limitations
Integrative Genomics Viewer (IGV)
he Integrative Genomics Viewer (IGV) is a high-performance visualization tool
for interactive exploration of large, integrated datasets. It supports a wide variety
of data types including sequence alignments, microarrays, and genomic
annotations.
Acknowledgements
Grupo de investigación en Estadística y Bioinformática del
departamento de Estadística de la Universidad de
Barcelona.
All the members at the Unitat d’Estadística i Bioinformàtica
del VHIR (Vall d’Hebron Institut de Recerca)
Unitat de Serveis Científico Tècnics (UCTS) del VHIR (Vall
d’Hebron Institut de Recerca)
People whose materials have been borrowed or who have
contributed with their work
Manel Comabella, Rosa Prieto, Paqui Gallego, Javier
Santoyo, Ana Conesa, Thomas Girke and Silvia
Cardona.…
NGS Data analysis
http://ueb.ir.vhebron.net/NGS
Gracias por la atención y la paciencia
NGS Data analysis
http://ueb.ir.vhebron.net/NGS