introduc¸ao e conceitos fundamentais˜ -...

78
Bioinform´ atica DCC/FCUP 2012/2013 Pedro Ribeiro Unidade 1 Introduc ¸˜ ao e Conceitos Fundamentais (baseado nos slides de V´ ıtor Costa/FCUP e de Sushmita Roy/UWisconsin)

Upload: dinhdan

Post on 09-Nov-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

BioinformaticaDCC/FCUP

2012/2013

Pedro Ribeiro

Unidade 1Introducao e Conceitos Fundamentais

(baseado nos slides de Vıtor Costa/FCUP e de Sushmita Roy/UWisconsin)

Funcionamento da Unidade Curricular

• Pagina: http://www.dcc.fc.up.pt/∼pribeiro/aulas/bioinformatica1213/

• Aulas Teoricas (sala S3): tercas, das 15:30 as 17:00 / quartas, das 14:00 as 15:30

• Aulas Praticas (Lab 3): quartas, das 15:30 as 17:00

• Atendimento: tercas, das 14:30 as 15:30

Avaliacao

• Componente Distribuıda (10 valores)

? Mini-Trabalhos (2 valores) - individual ou em grupos de 2? Projecto (4 valores) - individual ou em grupos de 2? Apresentacao de Artigo (4 valores) - individual

• Exame Final (10 valores)

Mini-Trabalhos

• Implementacao de algoritmos (C, C++ ou Java)

• 5 mini-trabalhos, cada um vale 0.5, melhores 4 contam

• Submissao via Mooshak com feedback automatico

• Nota baseada na quantidade de testes correctos

• Datas previstas (2 semanas de prazo para cada um)

1. 27/02: assemblagem2. 13/03: alinhamento3. 20/03: arvores filogeneticas4. 10/04: cadeias de markov5. 24/04: redes

Projecto

• Duracao prevista de 1 mes

• Vamos falar mais sobre eles final de Abril

• Projecto de bioinformatica que pode ser 1 de 3 alternativas:

? Criacao de ferramenta de bioinformatica (entrega: codigo + manual)? Artigo de revisao do estado da arte (entrega: artigo escrito)? Aplicacao de bioinformatica (entrega: artigo escrito)

Apresentacao de Artigo

• Apresentacao oral com base em slides

• Realizada nas ultimas aulas teoricas

• Artigo cientıfico recente (ano >= 2010) em Bioinformatica

• Algumas revistas conferencias possıveis:

? Bioinformatics (Oxford) [DBLP]? BMC Bioinformatics [DBLP]? PLOS Computational Biology [DBLP]? Algorithms in Bioinformatics (Workshop) [DBLP]

• Exemplos do ano passado (MIM):? A Quick Guide for Developing Effective Bioinformatics Programming Skills (2009)? GPU-BLAST: using graphics processors to accelerate protein sequence alignment (2010)? A Comprehensive Benchmark Study of Multiple Sequence Alignment Methods: Current Challenges and

Future Perspectives (2011)? Mugsy: fast multiple alignment of closely related whole genome (2010)? When the Web meets the cell: using personalized PageRank for analyzing protein interaction networks

(2010)

Antecedentes

• O que espera que o aluno saiba a partida?

? Algoritmos e Estruturas de Dados: essencial? Estatıstica: conveniente, mas nao obrigatorio? Biologia Molecular: nao se espera background, mas interesse e esperado

Objectivos do Curso

Pretende-se que o aluno:

• Se familiarize com os conceitos basicos de Bioinformatica, com especial enfase naBiologia Molecular Computacional

• Conheca e compreenda os tipos e fontes de dados usados

• Conheca os problemas computacionais mais importantes

• Entenda os algoritmos mais importantes e interessantes, em particular na assem-blagem, emparelhamento de sequencias, filogenia e reconhecimento de padroes (nogenoma, proteoma e redes de interacao)

• Tenha uma perspectiva das ferramentas mais populares e das questoes abertas naarea

Bibliografia

1. Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids.R. Durbin, S. Eddy, A. Krogh, and G. Mitchison. Cambridge University Press,1998. [Google Scholar]

2. Computational Genome Analysis An Introduction, Richard Deonier, S Tavare, andMichael S. Waterman, Springer Verlag, 2005.

3. Artigos cientıficos (revistas, conferencias, etc)

Cursos Relacionados

• Introduction to Bionformatics (Sushmita Roy, Univ. Wisconsin)

• Introduction to Computational Molecular Biology (Bonnie Berger, MIT)

• Introduction to Bioinformatics (Yael Mandel-Gutfreund, IIT, Israel)

• Bioinformatica (Leonor Morais, IST)

• Biologia Computacional (Joao Meidanis, UNICAMP)

O que vamos aprender?

• Conceitos de Ciencia de Computadores

? Programacao Dinamica, Teoria de Grafos, Arvores, Cadeias de Markov, ..

• Conceitos de Biologia

? Entidades moleculares e Dados Biologicos

• Problemas Importantes da Biologia Molecular

• Compreender alguns dos mais importantes e significativos algoritmos

Bioinformatica

Processamento/armazenamento/apresentacao/pesquisa de dados biologicos:

1. sequencias;

2. estruturas;

3. funcoes;

4. nıveis de actividade;

5. redes de interacao;

de/entre biomoleculas.

Tambem conhecida como Biologia Computacional ou Biologia Molecular Computa-cional

Porque usar computadores?

• Biologia e muito baseada em dados

? Riqueza de dados: muitos tipos e fontes? Complexidade: sistemas complexos e dados com “ruıdo”

• Sao necessarios computadores para guardar, gerenciar, analisar e visualizar os dados

• Queremos essencialmente passar de dados para conhecimento

• Muitas questoes biologicas traduzem-se intuitivamente para um problema computa-cional

? Descobrir padroes, inferir relacoes, ...

Resumo dos topicos que vamos abordar

• Assemblagem de genomas

• Comparacao de genomas

• Anotacao de genomas

• Analise de Redes Biologicas

Assemblagem de Genomas

Sequenciacao e assemblagem: qual e o DNA de um dado organismo?

Topicos em Assemblagem de Genomas

• Sequenciacao

• Algoritmos greedy

• Teoria de Grafos e o problema da “superstring” mınima

? Caminhos de Hamilton e de Euler? Grafos ”De Bruijn”

• Alguns dos algoritmos reais mais populares

Comparacao de Genomas I

Quao similares sao duas ou mais sequencias?

Topicos em Comparacao de Sequencias

• Alinhamento de pares com programacao dinamica

• Alinhamentos locais e globais

• Modelos de avaliacao de alinhamentos

• Metodos Heurısticos

Comparacao de Genomas II

Como estao os organismos relacionados?

Topicos na Comparacao de Genomas

• Alinhamentos multiplos

? Programacao Dinamica? Alinhamento em Estrela? Alinhamento em Arvore

• Arvores filogeneticas

? Construcao de arvores? Metodos baseados em distancia e em parcimonia? Branch & Bound

Anotacao de Genomas

Anotacao de Genomas

Anotacao de Genomas

Onde estao os genes e as zonas regulatorias?

.

Topicos na Anotacao de Genomas

• Conceitos de Probabilidade

• Cadeias de Markov

• Cadeias de Markov Escondidas (HMMs)

• Aprendizagem de HMMs: forward/backward/Viterbi

• Aplicacoes

Redes Biologicas

Quais sao as interaccoes entre entidades biologicas? Como caracteriza-las?

Topicos em Redes Biologicas

• Tipos de Redes

• Propriedades teoricas (scale-free, small-world, ...)

• Metricas (grau, diametro, centralidade, coeficient de clustering, ...)

• Padroes (motifs, graphlets)

• Algoritmos para pesquisa e contagem de subgrafos

• Aplicacoes

Outros topicos

• Plataformas de software: BioC++, BioJava, etc

• Servicos e workflows: Taverna, BioCatalogue

• Computacao voluntaria: BOINC, @HOME

• Algoritmos de clustering e de classificacao (actividade de genes)

• Estrutura de proteınas

• Inferencia de redes

• ...

Introducao a Biologia Molecular

• Organizacao da informacao biologica

• As diferentes partes da celula

• DNA, RNA, cromossoma, nucleo, ...

• Entidades bioquımicas: mRNA, proteınas, metabolitos, ...

• Genes, heredetariedade, transcricao, traducao, regulacao, expressao, splicing, ...

• Genoma e outros “omas”, redes de interacao

Organizacao da Informacao Biologica

DNA

• Acido desoxirribonucleico

• Vista como sendo a Matriz que codifica o organismo

• Composta de pequenas moleculas chamadas nucleotidos

• Distinguidos por uma base:

? A: adenina? C: citosina? G: guanina? T: timina

• Polımero: macromolecula enorme composta por unidades estruturais similares

DNA

• Pode ser visto como uma sequencia de 4 letras:ctgcatctatacgatcg

cggggccgggggtgcggg

ctaggaccctgactgcc

cggggccgggggtgcggg

• Moleculas usualmente sao duas fitas formando a famosa helice dupla.

A Helice Dupla

Pares de Watson-Crick

• No DNA de 2 fitas:

? A sempre liga com T e

? G sempre liga com C

A Helice Dupla

• Cada fita de DNA tem uma “direccao”:

? Num lado o carbono terminal da coluna esta ligado ao carbono 5’ do acucar? No oposto, esta ligado ao carbono 3’

• Podemos portanto falar do terminal 5’ e 3’ de uma fita

• As fitas sao antiparalelas

DNA como a “planta” de um organismo

• E a “molecula da hereditariedade”

• Contem toda a informacao necessaria para “criar” um organismo

• A ligacao com pares torna possıvel a auto-replicacao:

? Uma fita contem toda a informacao necessaria

Cromossomas

• O DNA esta armazenado em cromossomas (juntamente com proteınas)

• procariontes sao organismos uni-celulares sem nucleo e tem apenas um cromos-soma circular

• eucariontes sao organismos com nucleo e tem um numero especıfico de cromosso-mas lineares.

Organizacao Fısica do DNA

DNA e muito “longo” ( 3m nos humanos, 3000 milhoes de nucleotidos)Ccelula e muito pequena: os cromossomas comprimem a molecula de DNACromatina = DNA+proteınas

Numero de Cromossomas

As diferentes especies possuem um numero diferente de cromossomas:

Myrmecia pilosula (formiga) 2Drosopihla melanogaster (mosca) 8Macropus (canguru) 16Phaseolus (feijao) 22Felis catus (gato) 38Homo sapiens (humano) 46Bos primigenius (vaca) 60Canis lupus familiaris (cao) 78Carpa (peixe) 104Ophioglossum reticulatum (planta) 1440

Nota: nesta tabela estao os numeros diploides (2n)

Genoma

O termo genoma refere-se ao DNA completo para uma especie

• O ser humano tem 46 cromossomas;

• Todas as celulas tem o genoma completo

? Excepcoes: celulas sexuais e celulas vermelhas maduras do sangue.

Genomas Completamente Publicados

Dados de GOLD

A Corrida do Genoma

Tipo Genoma One AnoProcarionte H. Influenza TIGR 1995Eucarionte S. Cerevisiae (fermento) Wisconsin 1997Animal C. Elegans (verme) Washington U./Sanger 1998Planta A. thaliana varios grupos 2000Mosca: Drosophila M. varios grupos 2000Primata: H. Sapiens colaboracao internacional/Celera 2001

Tamanhos de Alguns Genomas

Genoma #bpsHIV 9750E. coli 4.6 milhoesS. cerevisiae 12 milhoesC. elegans 97 milhoesDrosophila M. 137 milhoeshuman 3000 milhoes

Ha Mais

• > 300 outros bancos de dados sobre biologia nuclear.

• GenBank (Mar 2012):

? 135.440.924 sequencias? 26.551.501.141 bases

• UniProt com SWISS-Prot (2012 12):

? 534.695 entradas com sequencias de proteınas? 189667883 amino-acidos

• Protein Data Bank (Abril 06):

? 79697 proteinas e estruturas relacionadas.

Mais Dados

• EMBL/EBI:

• International HapMap

• Yeast Genome

• Drosophila

Genes

Genes sao a unidade basica de hereditariedade:

• sequencia de bases do DNA que carrega a informacao necessaria para construir umacerta proteına (ou RNA)

• diz-se que genes codificam proteınas

• estimativa: o nosso genoma tem cerca de 25000 genes

• Um gene pode ter varias funcoes, uma funcao pode precisar de varios genes

Densidade de Genes

Nem todo o DNA no genoma codifica proteınas:

microbios 90% codificacaohumanos 3% codificacao

Proteınas

• Proteınas sao moleculas compostas de polipeptıdeos;

• Um polipeptıdeo e um polımero composto de amino-acidos

• As celulas constroem as suas proteınas de cerca de 20 amino-acidos diferentes

• Um polipeptıdeo pode ser visto como uma sequencia composta de um alfabeto com20 caracteres.

Funcao das Proteınas

• Suporte Estrutural

• Armazenamento de Amino Acidos

• Transporte de outras substancias

• Coordenacao das actividades do organismo

• Resposta ao estımulos quımicos

• Movimento

• Proteccao contra doencas

• Aceleracao selectiva de reaccoes quımicas

Amino-Acidos

Alanina Ala A Isoleucina Ile IArginina Arg R Leucina Leu LAcido Aspartico Asp D Licina Lys KAsparagina Asn N Metionina Met MCisteına Cys C Prolina Pro PAcido Glutamico Clu E Serina Ser SFenilalanina Phe F Treonina Thr TGlutamina Gln Q Triptofan Trp WGlicina Cly G Tirosina Tyr YHistina His H Valina Val V

Hexokinase

5 10 15 20 25 301 A A S X D X S L V E V H X X V F I V P P X I L Q A V V S I A

31 T T R X D D X D S A A A S I P M V P G W V L K Q V X G S Q A61 G S F L A I V M G G G D L E V I L I X L A G Y Q E S S I X A91 S R S L A A S M X T T A I P S D L W G N X A X S N A A F S S

121 X E F S S X A G S V P L G F T F X E A G A K E X V I K G Q I151 T X Q A X A F S L A X L X K L I S A M X N A X F P A G D X X181 X X V A D I X D S H G I L X X V N Y T D A X I K M G I I F G211 S G V N A A Y W C D S T X I A D A A D A G X X G G A G X M X241 V C C X Q D S F R K A F P S L P Q I X Y X X T L N X X S P X271 A X K T F E K N S X A K N X G Q S L R D V L M X Y K X X G Q301 X H X X X A X D F X A A N V E N S S Y P A K I Q K L P H F D331 L R X X X D L F X G D Q G I A X K T X M K X V V R R X L F L361 I A A Y A F R L V V C X I X A I C Q K K G Y S S G H I A A X391 G S X R D Y S G F S X N S A T X N X N I Y G W P Q S A X X S421 K P I X I T P A I D G E G A A X X V I X S I A S S Q X X X A451 X X S A X X A

Hexokinase: Modelo Espacial

Hemoglobina

Construıda com 4 Polipeptıdeos:

RNA

• RNA e como DNA excepto que:

? habitualmente apenas uma fita? usa uracilo (U) em vez de timina (T)

• Uma fita de RNA pode ser vista como uma sequencia formada com 4 letras: A, C,G, U.

Transcripcao

Transcripcao

• RNA Polimerase e o enzima que constroi uma fita de RNA a partir de um gene.

• O RNA que e transcrito e chamado de RNA mensageiro: RNA-m.

• Existem mais variedades de RNA.

O Codigo Genetico

Traducao

• Ribossomas sao as maquinas que sintetizam proteınas a partir do mRNA;

• Um grupo de codoes e chamado de quadro de leitura (“reading frame”):Fita de DNA A C G C A G A T A T C A T G A

A C G C A G A T A T C A T G AA C G C A G A T A T C A T G AA C G C A G A T A T C A T G A

• a traducao comeca com o “start codon”

• a traducao termina com o “stop codon”

Codoes e Quadros de Leitura

Traducao

Processamento do RNA nos eucariontes

• Eucariontes sao organismos que tem nucleos fechados nas suas celulas

• Nos eucariontes, o mRNA consiste de segmentos alternados de exoes e introes:

? os exoes sao as componentes responsaveis por codificacao? os introes sao removidos antes da traducao

Remocao do DNA

Sıntese de Proteınas

Variacao do DNA

RNA e Genes

• Ha genes que nao codificam proteınas

• Em alguns casos o resultado e RNA:

? RNA ribossomal (rRNA), inclui componentes importantes dos ribossomas? RNA de transferencia (tRNA), que envia amino-acidos para ribossomas? micro RNAs (miRNAs) que tem um papel regulatorio importante em muitas

plantas e animais

Resumo

• Conceitos Chave

? Dogma central? DNA, RNA, proteınas? Cromossoma, Nucleo, Ribossoma

• Processos Importante

? Transcricao? Traducao? Splicing de RNA

Dinamica da Celula

• quase todas as celulas no mesmo ser tem o mesmo genoma, mas os genes sao ex-pressos de forma diferente de acordo com tipo da celula, tempo, e ambiente.

• DNA e “estatico” mas RNA nao

• Existem redes de interacao entre diferente entidades bioquımicas na celula (DNA,RNA, proteınas, moleculas) que executam processos como:

? metabolismo (conjunto de reaccoes quımicas)? regulacao (quais genes sao expressos e quando)? sinalizacao (intra e inter)

Interacoes

• cada no representa o produto de um gene (proteına)

• linhas azuis representam interaccoes directas entre proteınas

• linhas amarelas mostram interaccoes em que uma proteına se associa a DNA e alteraa expressao de outra.

Significado da Revolucao Genomica

• Biologia baseada em dados:

? genomicas funcional? biologia de sistemas

• Medicina Molecular:

? Identificacao de componentes geneticos de varias doencas? diagnose/prognose a partir de sequencias/expressoes? terapia com genes

• Farmacogenomicas:

? Desenvolver drogas altamente especializada

• Toxicogenomicas:

? Que genes sao afectadas por que agentes quımicos.

Resumo

• Celulas tem (muitas) diferentes entidades

• Celulas funcionam atraves da interaccao (complexa) entre estas entidades

• Biologia de Sistemas procurar criar modelos compreensivos

Bioinformatica Revisitada

Representacao/Armazenamento/Recuperacao/Analise de dados biologicos sobresequencias (DNA, proteınas)

• estruturas (proteınas)

• funcoes (proteınas, sinais de sequencias)

• nıveis de actividade (mRNA, proteınas)

• redes de interaccoes (caminhos metabolicos, caminhos regulatorios, caminhos desinalizacao)

de/entre biomoleculas

Artigo recomendado

L. Hunter. Life and Its Molecules: A Brief Introduction. AI Magazine 25(1):9-22,2004.