TP Bioinformática Autores: Máximo Rivarola, Ana Julia

Transcripción

TP Bioinformática Autores: Máximo Rivarola, Ana Julia
TP Bioinformática
Autores: Máximo Rivarola, Ana Julia Distéfano, Paula Fernández, Norma Paniego, Sergio
González
Instituto de Biotecnología, Centro de Investigaciones en Ciencias Veterinarias y Agronómicas
(CICVyA), INTA-Castelar
NCBI - BLAST
1. Uso de Entrez
1. Utilizando Entrez, encuentra cuantos genes humanos tienen un dominio WAP. Tipear human
[orgn] AND WAP domain (23 entradas)
2. Acotar la búsqueda para encontrar cuantas proteínas con este tipo de dominio están
localizadas en el cromosoma 20. Usar el buscador en la página principal de Entrez y tipear:
20 [chr] AND human [orgn] and WAP domain. Hay 16 entradas clasificadas como genes.
2. NCBI - BLAST
Estamos trabajando con el cDNA AF217525. Utiliza Entrez para obtener la secuencia FASTA y
encontrar la siguiente información:
1. ¿Cuál gen está codificado por este cDNA? DSCAM gene, mol de adhesión en Síndrome
de Down
2. ¿Cuántos aminoácidos tiene la traducción? 2012 aa AF217525_1
3. ¿Cuáles son los IDs de cada posible transcripto de este gen y confirmar si fueron manual o
automáticamente curados (NM o XM)?. ¿Que variante contiene el cDNA AF217525?
NM_001389 y NM_001271534, NM indica que fue curado manualmente. La variante
que contiene al cDNA es NM_001389.
4. ¿Qué dominios Pfam contiene la proteína? Para ver el dominio en Entrez clickear en el
link del dominio conservado bajo la proteína refseq (pfam07679)
5. Utilizando NCBI, ejecute 2 nucleotide Blast con la secuencia RefSeq NM_001389 contra la
base de datos human genomic + transcript: primero utilizar los parametros por default,
luego destildar opcion “mask for look up table only” ¿Existe diferencia entre ambos
resultados? ¿Cambia el resultado si se aplica o no el low complexity filter? La aplicacion o
no de los distintos parmetros modifica el funcionamiento del blast en la consideracion o
no de regiones de baja complejidad para en distintas fases del alineamiento.
Galaxy – UCSC Browser
Introducción:
En este Trabajo Practico veremos como es un análisis típico de un bioinformático. En el
caso de obtener una gran cantidad de datos, como sucede con las tecnologías NGS, la terminal de
Linux es requerida! Sin embargo, existen otras posibilidades para analizar tus datos de manera
similar. Ahora te mostraremos como se hace un trabajo bioinformático con una herramienta mucho
mas “amigable”. La herramienta se desarrollo en la Universidad de Estatal de Pensilvana (Penn
State) y el programa se llama “Galaxy” (Blankenberg et al. 2007, PMID 17568012).
Luego te mostraremos como visualizar una inmensa cantidad de datos, públicos o propios,
en un visualizador de Genomas. El UCSC Genome browser (Kent et al., The human genome
browser at UCSC. Genome Res. 2002 Jun;12(6):996-1006).
Información sobre Galaxy:
“Galaxy Penn State’s Galaxy is a useful way of wrapping many command line modules
together in a user-friendly GUI. When logged in, you can save your workflow and execute the
entire workflow on a new dataset without manually executing each individual step. You can also
easily share these workflows with others.”
Figura 1. Algunos Iconos de Galaxy explicados
Nota de los datos usados en este TP:
Este set de datos es solo una pequeña parte de los verdaderos resultados, se utiliza esta
cantidad de datos por razones practicas de tiempo y uso de computadora.
Comenzamos el Trabajo Practico:
1. Abrir el explorador de internet de tu PC e ir a:
•
https://main.g2.bx.psu.edu/
2. Registrarse:
•
Clic en “User”, luego en “Register” en la barra superior.
3. Subir Archivo que utilizaremos para trabajar:
•
Solapa Get Data: ejecutar Upload File.
Ejercicio 1.
Crear un archivo con la información de cada SNP obtenido por los “reads” alineados al genoma
humano. El archivo de entrada (.fq) es un FASTQ que contiene la secuencia de ADN mas su calidad
en cada posición.
(El resultado va ser SNPs ubicados en el gen humano BRCA1 ubicado en el cromosoma 17).
Primero, veamos el archivo fastq (fq) y luego alineamos al genoma humano:
1. Solapa NGS: QC and manipulation:
1. Ejecutar FastQC Read QC: run on the BRCA1reads.fq. Que muestran las figuras
generadas?
2. Ejecutar FASTQ Groomer: run on the BRCA1reads.fq (Sanger quality output). Cuantas
secuencias teniamos antes y después de ejecutar FASTQ Groomer?
2. Solapa NGS: Mapping:
Ahora vamos a alinear contra el genoma humano.
1. Ejecutar “Map with Bowtie for Illumina”. Usamos un programa que mapea (alinea
rápido) usando el programa “Bowtie” con los reads del output: FASTQ groomed data.
El genoma que usaremos para “mapear” sera el hg19 (versión 19 del genoma humano).
El resto de parámetros los dejamos como están.
2. Cuantos “reads” se mapearon? Que porcentaje de los “reads” se alineo? Para poder saber
las estadísticas del resultado de “Bowtie”, realizaremos lo siguiente: Vamos a solapa
NGS: SAM Tools: Utilizamos el programa “SAM-to-BAM”: El input de este programa
es el output de “Bowtie”. El output de “sam-to-bam” es luego utilizado por el programa
“flagstat” que nos da las estadísticas del mapeo.
3. Verifiquemos el archivo de mapeo a ver si encontramos SNPs
1. Solapa NGS: SAM Tools: programa “Generate Pileup”: El input es el archivo de salida
de sam-to-bam, el archivo BAM. Aquí creamos el archivo “pileup” que contiene el
detalle de las variantes.
2. Solapa NGS: SAM Tools: Programa “Filter pileup”: Para ello antes debemos editar los
atributos de archivo que fue generado en el paso anterior:
•
Click en el icono del lapiz.
•
Solapa Datatype
•
Completamo el campo New Type con “pileup”
•
Save
Ahora si ejecutamos Filter pileup (parametros por defecto). Cuantos SNPs tenemos?
Veamos esos resultados! Los podemos guardar a la PC de manera local.
Ejercicio 2.
En este ejercicio Utilizaremos un Genome Browser para buscar la informacion disponible de los
lugares del genoma humano en los cuales encontramos SNP's
Vamos al UCSC genome browser: http://genome.ucsc.edu/index.html
1. Clic “Genome Browser”.
2. Select the human genome hg19 assembly.
3. Vamos a la posicion en la cual queremos buscar, en el box ponemos: chr[numero de
cromosoma]:[posicion inicio]-[posicion fin] (ver ejemplo en figura 2)
4. Visualizar en Genome browser, Primero hacer clic en “hide all”
5. Luego mostrar y esconder tracks de interés! Por ejemplo: RefSeq genes
6. Dentro de que gen se ubican nuestros SNP's?
7. Hay SNP's reportados en estas posiciones? Son los mismos que encontramos nosotros con
nuestros reads?
8. Para contestar estas preguntas visualizar “tracks” de SNPs (el ultimo grupo de tracks
disponibles: Variation and Repeats).
9. Otra pregunta, El hombre Neandertal tenia este gen? Se tiene información sobre SNPs? Ver
track: SNPS Used for Selective Sweep Scan (S) (All Neandertal Assembly and Analysis
tracks).
Figura 2. Visualización de la posicion 41245546 (intervalo alrrededor) del cromosoma 17 en el UCSC Genome
Browser.
Créditos: Algunas partes de este TP son de:
Hands on workshop: Next generation sequence data analysis.
The Netherlands Bioinformatics Centre.
Leiden Genome Technology Center