Anotación con M5NR

Actividades:

 

  1. Leer el artículo del M5NR
  2. Descargar el archivo con los archivos de esta clase
  3. La base de datos de anotación es el archivo clase.fasta que es una versión local del M5NR
  4. Utilizar el proteoma de Agrobacterium H13
  5. Sigue las siguientes instrucciones

 

Prueba hacer un heatmap con las funciones recien anotadas:

 

El heatmap se puede definir como: Una representación gráfica de datos donde los valores individuales se contienen en una matriz representada como colores (definición completa aquí). Es muy útil para analizar y agrupar, lo uso principalmente para comparar perfiles de genes, especies. Un par de ejemplos de la vida real (http://www.biomedcentral.com/1471-2164/11/332/figure/F4 , http://www.biomedcentral.com/1471-2164/11/332/figure/F3 este es muy parecido al que vamos a obtener aquí).

Pasos previos, instalar R y las bibliotecas gplots y RColorBrewer Desde R para instalar las bibliotecas:

install.packages("gplots")
install.packages("RColorBrewer")

1. Cargar el archivo:

histericograma <- read.table ("heat.data", header=TRUE, row.names=1, sep="\t")

El archivo usado para este heatmap es este: ARCHIVO), sustituirlo por el archivo que uno quiera analizar.

2. Cargar las bibliotecas:

library (gplots)
library (RColorBrewer)

3. Asignar una paleta de color:

coloritos <- colorRampPalette(brewer.pal(9, "PuOr"))

4. Primer plot:

heatmap.2  (as.matrix(histericograma), key=T, symkey=F, trace="none", scale="column", 
col=coloritos, dendrogram = c("column"), Rowv=T, keysize=2, cexRow=0.5,  cexCol=0.5)


Publicado en: 2017 Bioinformática

Biotecnología tarea entrega 14 de noviembre 2017

Ve el siguiente video:

Lee las siguientes notas:

  1. https://elcomidista.elpais.com/elcomidista/2016/08/31/articulo/1472625105_953819.html
  2. http://www.gaceta.unam.mx/20170918/90-4-de-tortillas-en-mexico-contiene-maiz-transgenico/
  3. http://www.gaceta.unam.mx/20171106/presencia-de-maiz-transgenico-de-importacion-en-mexico-20-anos-de-inocuidad-en-productos-derivados-para-consumo-humano-y-animal/
  4. http://web.ecologia.unam.mx/laboratorios/genomica/biotech/articulos_curso/Golden_rice.pdf
  5. https://elpais.com/elpais/2016/06/30/ciencia/1467286843_458675.html
  6. http://www.elmundo.es/grafico/salud/2015/10/30/5633c8cb22601da2218b458d.html
  7. https://www.nytimes.com/es/2017/04/03/mexico-maiz-renegociacion-tlcan/

 


Aquí un complemento de lo que vimos en la clase:

Publicado en: 2017-2 Biotecnología

Bioinformática 6 de Noviembre. Amplicones

Las herramientas y programas listados a continuación serán utilizadas para resolver los ejercicios:

pandaseq
fastqc
fastx_trimmer
qiime: assign_taxonomy.py, make_otu_table.py, biom convert
R
phyloseq: plot_bar, plot_ordination

Documentación:

http://qiime.org/scripts/index.html
https://joey711.github.io/phyloseq/tutorials-index.html

Ejercicios.

Descarga los archivos que utilizaremos para esta sesión:

https://drive.google.com/drive/folders/0B4yYJADlEqTnQW9kckpvbGlrYms?usp=sharing
1. Utilizando la herramienta fastx_trimmer recorta las lecturas crudas de amplicones (R1_sub_pe.fastq y R2_sub_pe.fastq) para que tengan una longitud de 250 pb. Ensambla las secuencias recortadas utilizando el programa Pandaseq con los siguientes calificadores -B -F -t 0.95 -l 250 -L 470 -o 10 -w assembled.fastq. ¿Qúe indican estos calificadores? Genera el reporte de calidad de los archivos originales y recortados. ¿Qué diferencias encuentras?

2. Realiza el agrupamiento al 97% de identidad de las secuencias de todas las muestras. Utiliza el script “header.fasta.number.pl” para renombrar las secuencias de cada muestra previamente al agrupamiento. ¿Cuántas secuencias de rRNA 16S tenías antes y despues del agrupamiento? ¿Cuál es el número de OTUs resultantes?


#Utiliza esta línea de comando para editar la tabla de clusters que genera CD-HIT. 
perl -pne 's/\t//g;s/^.*,//g;s/\.\.\..*$//g;s/\n/\t/g;s/\>Cluster\ /\n/g;s/\>//g; eof && do{chomp; print "$_ \n"; exit}' archivo.clstr

3. Realiza la asignación taxonómica del archivo de secuencias representativas con el script de qiime “assign_taxonomy.py” con el método de RDP. ¿Qué archivo obtienes?

4. Genera una tabla de otus con el script de qiime “make_otu_table.py”. Para este punto debes excluir las secuencias consideradas contaminantes (mitocondrias y cloroplastos). Revisa la tabla de taxonomía y explora la opción -e del script de qiime con la cual puedes dar una lista de los identificadores únicos que deben ser exluidos de la tabla de OTUs. ¿Qué tipo de archivo genera este script?

Posteriormente utiliza “biom convert” para pasar la tabla de otus a un formato tabular. Puedes emplear la siguiente linea de comando:
biom convert –to-tsv -i archivo.biom -o archivo_tabular.txt –table-type “Taxon table”

5. Carga los datos en R con phyloseq para poder realizar los análisis subsecuentes. En el archivo “carga_de_datos_R.txt” encontrarás las instrucciones.
Consulta los manuales de plot_bar para realizar gráficas de barras con la descripción taxonómica de cada muestra y plot_ordination para realizar gráficos de ordenamiento. Juega con las distintas opciones que se presentan en los tutoriales. https://joey711.github.io/phyloseq/tutorials-index.html

5.1 Genera un gráfico de barrras con los 50 OTUs más abundanes en cada muestra y descríbelo.
5.2 Genera gráficos de ordenamiento de las muestras por el método NMDS y PCoA. Compara los resultados. Colorea a las muestras de acuerdo a las variables de los metadatos (índice de aridez y ph)

Consulta el siguiente manual para el procesamiento de los datos y la carga de datos en R. Descarga el HTML y puedes abrirlo en Firefox.

https://drive.google.com/file/d/0B4yYJADlEqTnMlVJeE1odnYzWEU/view?usp=sharing

Publicado en: 2017 Bioinformática, curso_bioinfo_2017

Bioinformática 30 de octubre

Alineamiento de genomas

Vamos a hacer alineamientos entre todos los genomas de las especies de Agrobacterium y tratar de determinar quienes son los más parecidos entre sí (visualmente).  Para este objetivo vamos a utilizar el programa MUMmer.

Consulte la publicación de MUMmer 3:

Kurtz S, Phillippy A, Delcher AL, Smoot M, Shumway M, Antonescu C, et al. Versatile and open software for comparing large genomes. Genome Biol. 2004;5: 0. Available: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=14759262

El manual se encuentra en la siguiente dirección:

http://mummer.sourceforge.net/manual/

En esta ocasión les damos permiso de instalar desde los repositorios:

sudo apt-get install mummer

sudo apt-get install gnuplot-x11

Ejercicios

  1. Alinee los genomas de Agrobacterium completos todos contra todos (por pares) usando nucmer y graficalos, puede guiarse de los ejemplos que se proponen en el manual, conviene que revise para qué sirve cada comando. Interprete brevemente cada comparación usando esta guía: http://mummer.sourceforge.net/manual/AlignmentTypes.pdf
  2. Descargue el siguiente genoma (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/bacteria/Escherichia_coli/latest_assembly_versions/GCF_000005845.2_ASM584v2/GCF_000005845.2_ASM584v2_genomic.fna.gz)  y utilice nucmer para alinearlo contra el genoma de Agrobacterium que desee. Grafique los resultados.
  3. Alinee el mismo genoma con promer, en lugar de nucmer. Grafique los resultados.
  4. Experimente con las opciones mummerplot (-l , -c, -S, -t, etc.).
  5. ¿Qué puede concluir de la comparación entre usar nucmer y promer en la comparación entre E. coli y Agrobacterium?

 

Publicado en: 2017 Bioinformática

bioinformática 2017 filogenia

Vamos a practicar los conceptos de filogenia. Los datos a utilizar los pueden descargar de la siguiente dirección:

Después de descargarlos podemos comenzar con un clásico de los análisis filogenéticos: Phylip.

Pueden revisar este manual que hizo nuestro amigo el Dr. Pablo Vinuesa:

http://www.ccg.unam.mx/~vinuesa/Cursos2RMBF/PDFs/C1/Tutorial_Pablo_Vinuesa_uso_paqute_Phylip.pdf

Hagan los pasos hasta conseguir un arbol de NJ

Ahora bien, una herramienta muy utilizada es MEGA y hay una versión que funciona para linux, descarga el archivo de instalación del archivo disponible de los descargables anteriores:

megacc_7.0.7-1_amd64.deb #solo para 64 bits puedes revisar en la página de MEGA si hay otras versiones.

Para instalar, necesitas permisos de root y se hace así:

$sudo dpkg -i megacc_7.0.7-1_amd64.deb

Después puedes revisar el manual de instalación y operación aquí:

http://www.megasoftware.net/MEGA7-CC-Quick-Start-Tutorial.pdf

Ahora, en megacc y con ayuda de megaproto:

Calcula una matriz de distancias

Elabora un arbol de NJ

Elabora un árbol de ML

Elabora un árbol de MP

Elabora el mismo árbol NJ con 500 bootstraps

Visualiza los resultados con treeview y dendroscope.

Si quieres saber que secuencia utilizaste aquí estan los identificadores:

http://www.uniprot.org/docs/speclist

Publicado en: 2017 Bioinformática

Biotecnología 2017 tarea, entrega el 24 de octubre

La siguiente parte se entrega a mano el 24 de octubre de 2017 en la clase, por equipos de laboratorio:

Ejercicio 1. Resuelve el siguiente ejercicio de restricción:

Ejercicio 2 El siguiente es el esquema del plasmido 31416 (p31416):

Las enzimas de restricción que cortan el vector se muestran a continuación, no hay ningún otro sitio de corte en el vector:

Un gen W que se quiere clonar en p31416. Menciona tres diferentes estrategias (con que cortarías el vector y con que cortarías el gen) que emplearías para clonar el gen W y seleccionar colonias que contengan a un plásmido recombinante. A continuación el mapa de restricción del gen W:

Para describir tus estrategias (3) haz enunciados como el siguiente:

La estrategia de clonación 1 utiliza la(s) enzima(s) de restricción_______para cortar el vector y la(s)
enzima(s) de restriccción_________ para cortar el gen W

¿En cuál de las tres estrategias se insertaría el gen W en p31416 en una sola dirección?

¿En qué medio de cultivo crecerias a las bacterias que contengan el plásmido recombinante con el gen W?

 


La siguiente parte de la tarea se hace online, de forma individual:

  1. Ve los siguientes dos videos de TED:

 

2.Lee el siguiente artículo:

Publicado en: 2017-2 Biotecnología

Bioinformática 16 de octubre 2017

El día de hoy quiero que hagan un ejercicio de genómica comparativa, un diagrama de Venn comparando el número de proteínas compartidas por al menos 4 especies de Agrobacterium que están analizando.

Sugerencias:

1. Utiliza BLASTp para hacer tus comparaciones.
2. La clave está en los identificadores.
3. Un formato tabular de reporte de BLAST puede ayudar.
4. Para el diagrama de Venn pueden utilizar esta herramienta online si revisas bien como funciona puedes obtener la clave de que elementos necesitas para hacer el diagrama de Venn
5. En los aciertos de BLAST siempre existe la posibilidad de tener duplicados, para removerlos puedes correr el siguiente código:


#sugerencia de como correr un par de blasts, no se olviden que hay que formatear las bases de datos
blastp -db database -word_size 6 -query query -outfmt 6 -evalue 1e-10 -num_alignments 10 -out Salida.bout

#oneliner para concatenar salidas de blast, ordenarlas por valor de bitscore, remover duplicados con el mismo valor de bitscore se guardan en el archivo: best_uniq

cat Salida.bout | perl -pe ' $name_col=0; $score_col=11; while(<>) { s/\r?\n//; @F=split /\t/, $_; ($n, $s) = @F[$name_col, $score_col]; if (! exists($max{$n})) { push @names, $n }; if (! exists($max{$n}) || $s > $max{$n}) { $max{$n} = $s; $best{$n} = () }; if ($s == $max{$n}) { $best{$n} .= "$_\n" }; } for $n (@names) { print $best{$n} } ' >best; perl -e ' $column=0; $unique=0; while(<>) { s/\r?\n//; @F=split /\t/, $_; if (! ($save{$F[$column]}++)) { print "$_\n"; $unique++ } } ' best >best_uniq; rm best


Para la siguiente sesión hay que leer el capítulo “Reconstrucción de la historia de cambio de los caracteres”. En este capítulo, el Dr. León Martínez Castilla logra recapitular varios conceptos que hemos estado revisando en clase.

 

 

El libro completo lo pueden descargar del sitio del inecc o conseguir una edición impresa:

http://www2.inecc.gob.mx/publicaciones/consultaPublicacion.html?id_pub=530

 

Publicado en: 2017 Bioinformática

Bioinformática 9 de octubre. Anotación

1. A partir de los resultados del ejercicio de agrupamiento en familias de proteínas de una de las especies de Agrobacterium (28 de agosto), reproduce la figura 9 del artículo de Pushker et al., 2004. Realiza la anotación con las base de datos de COG (https://drive.google.com/file/d/0B4yYJADlEqTndnBfV1Y3akI4QjQ/view?usp=sharing) utilizando como criterio de corte 30% de identidad y 70% de longitud de alineamiento entre la secuencia problema y la base de datos.

2. Utilizando las secuencias de proteínas predichas por Glimmer y Prodigal del ejercicio de predicción de genes codificantes (26 de septiembre), realiza la anotación contra la base de datos de COG empleando los mismos criterios de corte de la pregunta anterior. Describe los resultados y las diferencias que encuentras entre las anotaciones de ambos juegos de datos.

3. Realiza la anotación de las proteínas predichas por Prodigal con la base de datos de KEGG. Para esto visita la página web de BlastKoala (http://www.kegg.jp/blastkoala/) en donde se puede hacer la anotación en un servidor en línea. Compara los resultados que obtienes usando KEGG y COG. ¿Qué diferencias encuentras y qué tipo de información obtienes en cada caso?

Aquí puedes encontrar un archivo con un ejemplo para hacer las búsquedas de los identificadores contra los COGs. https://drive.google.com/file/d/0B4yYJADlEqTncDVWRDZCdmRLWFE/view?usp=sharing

Detalla los procedimientos que seguiste para llegar a los resultados. Utiliza capturas de pantalla para mostrar los resultados que obtienes en BlastKoala.

Publicado en: 2017 Bioinformática, blog

Bioinformática predicción de genes no codificantes 2 de octubre 2017

Predicción de genes no codificantes:

1. Descarga el código fuente de tRNAScanSE:

wget http://lowelab.ucsc.edu/software/tRNAscan-SE.tar.gz

, el artículo lo puedes consultar en: http://nar.oxfordjournals.org/content/25/5/0955.abstract?sid=c28dd9c3-943e-44d4-99fe-15ee8a5ac051

2. Descomprime el archivo

3. Entra al directorio de tRNAscan-SE

4. Ejecuta un ls -lh y guarda la salida a un archivo

5. Ejecuta el comando

make

6. Ejecuta el comando

make install

 

Al finalizar les pide que agreguen las variables del sistema al final del archivo /home/estudiantes/.bashrc

 

export PATH=$PATH:/home/estudiante/bin

export PERl5LIB=”$PERl5LIB:/home/estudiante/bin”

export MANPATH=”$MANPATH:/home/estudiante/bin”

abre el script /home/estudiante/bin/tRNAscan-SE con un editor de texto plano (como mousepad) y en la línea número 28 agrega esta línea:

use lib “/home/estudiante/bin”;

7. vuelve a hacer un ls -lh y guarda la salida a un nuevo archivo

8. Utiliza el comando diff y di que diferencia hay entre el archivo (4) y (7)

9. Ejecuta tRNAScan sobre el cromosoma elegido anteriormente en (4; ejercicio 1)

10. Del artículo que bajaste en 1 describe con tus palabras la figura 1

UTILIZA CUALQUIER ARCHIVO FASTA DE GENOMA COMPLETO (*.fna)

11. De las opciones de tRNAScan, que diferencia hay entre usar el calificador -i y -C?

12. ¿Qué es un modelo de covarianza?

13. Con el calificador -f genera la predicción de las estructuras secundarias.

14. Copia 1 secuencia generada en (13) y pegala en el siguiente servidor:

http://rna.tbi.univie.ac.at/cgi-bin/RNAWebSuite/RNAfold.cgi

Usa los parámetros por defecto y manda una búsqueda

15. Copia la primer figura de los análisis generados en 14 y comparala con los archivos generados en (13).

Búsqueda y alineamiento estructural de los 16S rRNA

1. Descarga SSU-align http://eddylab.org/software/ssu-align/ssu-align-0.1.1.tar.gz

2. Descomprime el archivo, entra a la carpeta

3. Lee las instrucciones de instalación (cat INSTALL)

4. Para instalar sin permisos de ROOT (su, sudo):

./configure –prefix=/home/$TU_USUARIO/bin

5. Instala, ten cuidado de actualizar ~/.bashrc con las instrucciones que salen al final de la instalación

6. Concatena todos los archivos frn

7. Corre ssu-align sobre los archivo frn

8. Ejecuta ssu-draw sobre la carpeta generada en (7)

9. Explora los archivos generados en la carpeta. Haz una lista del contenido de cada archivo en la carpeta, lo que entiendas que puede ser.

10. Visualiza el pdf generado y que es lo que se observa.

11. Compara tus respuestas de (9) con lo que dice el manual: ftp://selab.janelia.org/pub/software/ssu-align/Userguide.pdf

Publicado en: blog

Ejercicio de predicción de genes, bioinformática 2017

Predicción de genes codificantes

Ejercicio

1. Lee el artículo de Glimmer: https://ccb.jhu.edu/papers/glimmer2.pdf

2. Busca, que es un modelo interpolado de Markov

3. Selecciona un archivo fna (de Agrobacterium) de un cromosoma y corre la predicción de genes.

Baja el siguiente script en la carpeta en la que estes trabajando:

https://drive.google.com/file/d/0B7dtIr9rg974M25Wb3Zndkt6QkU/view?usp=sharing

Cambia sus permisos a ejecutable:

$chmod +x g3-from-scratch.csh

Ejecuta el script con el archivo de un genoma (fna)

$./g3-from-scratch.csh GENOMA.fna prefijo

prefijo= cualquier nombre que quieras que tengan los archivos

Este script hace los siguientes pasos:

long-orfs -n -t 1.15 genom.seq run1.longorfs
extract -t genom.seq run1.longorfs > run1.train
build-icm -r run1.icm < run1.train
glimmer3 -o50 -g110 -t30 genom.seq run1.icm run1

A partir del manual https://ccb.jhu.edu/software/glimmer/glim302notes.pdf

Responde:

¿Qué es cada paso?

¿Qué archivos se generan?

Ahora, hay múltiples formas de hacer esto, instala prodigal en tu computadora:

$sudo apt-get install prodigal #si te pide password es estudiante el que está predeterminado en la distro.

Luego ejecutalo, lo siguiente es un ejemplo:

$prodigal -a agro.faa -d agro.fna -s agro.genes.scores -i cromosoma.fas

¿Qué le estoy pidiendo a prodigal, con la línea anterior?

¿Qué archivos se generan?

Genera traducciones de los ORFs posibles con algún programa (de tu elección de emboss)

Abre el genoma que seleccionaste con el programa artemis (ya instalado):

$artimis genoma.fas #es un ejemplo

Busca que te genere los ORFs con un tamaño mínimo de 100

Del genoma que seleccionaste de Agrobacterium sp., abre el archivo genebank (*.gbk) con el programa (ya instalado) artemis:

$artemis agrobacterium.gbk #es otro ejemplo

Ahora tienes traducciones y predicciones de novo de genes del genoma con glimmer, prodigal, emboss y artemis. En el caso del último archivo que abriste es la anotación “oficial” del genoma.

Menciona e ilustra que pasos y programas utilizarías para obtener los genes predichos que coincidan entre los ORFs, glimmer, artemis y prodigal. ¿Es mucha la diferencia con los archivos de aminoácidos predichos en el archivo faa del genoma que utilizaste?

Publicado en: 2017 Bioinformática

Translate into your language:



Visitas (desde 2012)

0141250
Visit Today : 71