4
Análise Complexa
PUC
32
Análise Complexa
UAM
1
Análise Complexa
UNIP
1
Análise Complexa
UAM
4
Análise Complexa
UNIP
1
Análise Complexa
UNIP
1
Análise Complexa
UNIP
35
Análise Complexa
UAM
1
Análise Complexa
UNIP
1
Análise Complexa
UAM
Texto de pré-visualização
Análise de Dados Moleculares ROTEIRO 1 Montagem e anotação funcional de genomas I Nome dos integrantes do grupo Montagem de genomas fundamentos Apesar de os genomas serem constituídos por longas moléculas de DNA ou de RNA no caso de alguns vírus as técnicas atuais de sequenciamento produzem segmentos de sequência curtos Desse modo para serem sequenciados ou seja para se determinar a sequência de nucleotídeos dessas moléculas os genomas são primeiramente fragmentados Esses fragmentos são então sequenciados por completo ou nas suas extremidades Cada sequência obtida é denominada de uma leitura sequence read A montagem do genoma assembly consiste no processo de determinação da sequência de nucleotídeos da molécula ou moléculas do genoma no caso de genomas constituídos por mais de um cromossomo a partir dessa informação fragmentada obtida a partir do sequenciamento de pequenos segmentos desse genoma Existem quatro abordagens para a montagem de genomas 1 Hierárquica Na abordagem hierárquica clones contendo grandes insertos de DNA do genoma são primeiramente mapeados de modo a se determinar sua localização no genoma Um subconjunto desses clones contendo grandes insertos é então selecionado para ser sequenciado Cada um deles é fragmentado são obtidas reads a partir dos fragmentos e as reads são então alinhadas gerando sequências contíguas contigs Nessa abordagem o processo de montagem das reads sequenciadas é realizado independentemente para cada um dos grandes insertos reduzindo a complexidade computacional do problema quando comparado ao processo de fragmentação e produção de reads a partir do genoma completo WGS Whole Genome Shotgun Mas quais insertos grandes iremos sequenciar Na figura estão ilustrados apenas os insertos selecionados mas na realidade são gerados diferentes insertos com variados níveis de sobreposição uns com os outros Abaixo temos uma representação mais realista da situação A fragmentação e sequenciamento de todos os segmentos indicados acima representaria uma redundância desnecessária aumentando os custos do procedimento Em vermelho estão destacados os segmentos que se sequenciados permitiriam determinar a sequência completa da região correspondente com a menor redundância possível Podemos imaginar que esses segmentos correspondam metaforicamente a ladrilhos ou azulejos que somados resultam em um caminho ao longo da sequência A determinação deste caminho de ladrilhos Tiling Path TPF possibilita portanto aumentar e eficiência do processo de sequenciamento Esse é um problema computacional e existem programas dedicados a essa tarefa Gigassembler e TPF Analyzer por exemplo 2 Montagem do genoma completo Whole Genome Assembly Nesta abordagem como ilustrado na figura acima o genoma completo é totalmente fragmentado e as reads são alinhadas de modo a se obter a sequência completa sem um mapeamento prévio e montagem em separado de insertos como na abordagem hierárquica Inicialmente limitado a genomas bacterianos a estratégia passou a ser usada também em genomas maiores após avanços na capacidade computacional e nos algoritmos de montagem 3 Montagem híbrida É uma abordagem que combina as duas anteriores dados parciais de mapeamento de grandes insertos é usado para auxiliar no processo de montagem de reads obtidas a partir da fragmentação completa do genoma 4 Montagem por comparação Com o aumento das sequências disponíveis passou a ser possível montar um genoma fazendo uso de sequências similares já disponíveis nas bases de dados Essas sequências são usadas como referências para determinar a posição de cada read obtida em um projeto de sequenciamento PARTE 1 VISÃO GERAL DA MONTAGEM DE GENOMAS Acesse httpswwwncbinlmnihgovgdv No Genome Data Viewer incialmente aparecem os dados do Genoma humano conforme abaixo Esta página nos fornece acesso à versão mais atualizada da montagem do genoma humano usado como genoma de referência para nossa espécie O código de acesso dessa entrada na base de dados de sequências referenciais RefSeq é GCF000001405 estando atualmente na versão 40 GCF00000140540 Essa montagem do genoma humano também recebe um nome GRCh38p14 Esse nome inclui as iniciais do consórcio responsável pela submissão da sequência GRC Genome Reference Consortium e indica que é uma sequência humana h Os números correspondem a revisões principais e menores Genome Reference Consortium Human Build 38 patch release 14 GRCh38p14 Como pode ser observado o nível da montagem Level do genoma humano atual está descrito como Chromosome Tarefa 1 O que quer dizer nível de montagem de Cromossomo Assembly level Chromosome Acesse o site httpswwwncbinlmnihgovassemblyhelp e explique abaixo com as suas palavras Tarefa 2 Estude a figura acima Qual a diferença entre um contig e um scaffold Tarefa 3 Observe a figura abaixo Mais explicações sobre o L50 e n50 no link httpswwwmolecularecologistcom20170329whatsn50 Qual o valor de L50 nessa figura De modo correspondente N50 corresponde ao tamanho do menor dentre os X contigs mais longos Desse modo qual o valor de N50 nessa figura Tarefa 4 Voltando a página do GDV httpswwwncbinlmnihgovgdv clique no link RefSeq accession do genoma humano conforme abaixo Certifiquese que o nome da montagem é GRCh38p14 Role até a sessão intitulada Assembly statistics copie esta sessão e cole aqui Observe os valores de Genome size Total ungapped length Number of scaffolds e Number of contigs Quantos scaffolds esperamos encontrar em um cromossomo completamente sequenciado E qual seria o valor do parâmetro Ungapped length Tarefa 5 Volte novamente para a página do GDV httpswwwncbinlmnihgovgdv e na caixa Assembly selecione o T2TCHM13v20 conforme a fig abaixo Este é a montagem de um genoma humano completamente sequenciado do consórcio T2T TelomeretoTelomere Clique no RefSeq accession como antes e role até a sessão intitulada Assembly statistics e cole abaixo esta sessão com as estatísticas do T2T Observe e compare os valores de Genome size Total ungapped length Number of scaffolds e Number of contigs com os valores da versão anterior incompleta do genoma humano GRCh38p14 que foram copiados na tarefa 4 Tarefa 6 Quais diferenças podem ser observadas Tarefa 7 O que significa essa diferença nos dados das duas montagens do genoma humano Tarefa 8 Volte novamente para a página do GDV httpswwwncbinlmnihgovgdv O Genome Data Viewer disponibiliza atualmente a montagem de mais de 2000 genomas eucarióticos para análise Os genomas podem ser acessados por meio de uma árvore filogenética interativa Ao acessar um organismo informações sobre o genoma correspondente irão aparecer à direita Ao clicar em o grupo correspondente é selecionado Cilcando em e mantendo o botão pressionado todos os ramos contendo genomas disponíveis pela ferramenta serão visualizados Tarefa 9 encontre pela ferramenta o genoma do gato doméstico Capture a tela print screen e adicione abaixo Tarefa 10 Selecione uma espécie de interesse e capture a tela contendo a seleção do organismo escolhido para as análises pelo grupo e adicione abaixo PARTE 2 Acesse a página do NCBI httpswwwncbinlmnihgov Selecione Genome no menu à direita conforme a figura abaixo A nova página abaixo mostrará o total de genomas disponíveis no NCBI e separados nos quatro grandes grupos de organismos destacando também os genomas de referência completos em nível cromossômico e de alta qualidade e os anotados com identificação dos genes mas não necessariamente completos Tarefa 11 Clique nos 4 diferentes grupos no menu à esquerda e cole as telas de cada um deles Tarefa 12 Selecione Eukaryota no menu à esquerda e depois clique em Reference onde aparecerá uma lista dos genomas de referência os mais recentes primeiro Escolha um genoma que NÃO SEJA Homo sapiens e clique no link Assembly primeira coluna com o símbolo em verde Role até a sessão intitulada Assembly statistics e estude as principais características deste genoma pex Nº de cromossomos e da montagem pex Nº de contigs cobertura coverage Coverage é a média de vezes que cada nucleotídeo do genoma foi sequenciando Copie esta sessão e cole aqui Tarefa 13 Agora role até a sessão intitulada Annotation details e estude as informações pex Nº de genes Copie esta sessão e cole aqui Tarefa 14 Agora role até a sessão seguinte intitulada Chromosomes e estude as características dos cromossomos pex o ideograma e os tamanhos Copie e cole aqui esta sessão se forem muitos cromossomos apenas a tela inicial visível Agora volte para a parte superior da tela e clique na aba Genome voltando à página inicial conforme abaixo Tarefa 15 Agora selecione Bacteria clique em Reference onde aparecerá a lista dos genomas de referência do grupo conforme abaixo Escolha um genoma de Bacteria desta lista Agora vamos repetir as tarefas anteriores comparando e identificando as principais diferenças do genoma desta Bacteria com o Eucarioto anterior Clique no link Assembly primeira coluna com o símbolo de em verde Role até a sessão intitulada Assembly statistics e estude as principais características do genoma pex Nº de cromossomos e da montagem pex Nº de contigs cobertura coverage Copie esta sessão e cole aqui Tarefa 16 Agora role até a sessão intitulada Annotation details e estude as informações pex Nº de genes Copie esta sessão e cole aqui Tarefa 17 Agora role até a sessão seguinte intitulada Chromosomes e estude as características dos cromossomos pex o ideograma e os tamanhos Copie esta sessão e cole aqui Tarefa 18 Descreva aqui quais são as principais diferenças entre o genoma eucarioto do genoma da bactéria Análise de Dados Moleculares ROTEIRO 2 Montagem e anotação funcional de genomas II Nome dos integrantes do grupo Nas ilustrações abaixo o genoma do gato e o gene IGF1R foram escolhidos como um exemplo Cada grupo deverá seguir os passos indicados com o seu organismo e gene escolhido Tarefa 1 Vá para a página do GDV httpswwwncbinlmnihgovgdv Escolha uma espécie para usar daqui em diante Use a árvore de espécie ou digite o nome em inglês ou nome científico na caixa Com o organismo de escolha selecionado digite no campo Search in genome o nome do gene escolhido pelo grupo e clique no botão de busca conforme abaixo Uma visão panorâmica da região do genoma selecionado contendo o gene de interesse é apresentada conforme abaixo Nas espécies mais bem estudadas a estrutura do gene é apresentada de acordo com duas bases de dados de montagem de genomas NCBI Homo sapiens Annotation e Ensembl Em ambos os casos os éxons estão representados como barras retangulares e os íntrons como linhas ver imagem acima Tarefa 2 Capture a tela mostrando uma visão panorâmica do gene selecionado e adicione abaixo Tarefa 3 Mantenha o cursor sobre a linha verde na parte superior que representa o gene na montagem do NCBI Uma janela flutuante irá aparecer com algumas informações elementares sobre a sequência Tarefa 4 Faça esse mesmo procedimento com o gene escolhido pelo grupo e complete as informações abaixo Nome Localização Tamanho do gene bp A sequência dos éxons pode ser acessada diretamente por meio de uma opção disponível na barra de ferramentas azul Cada círculo representando um éxon No caso do gene IGF1R vemos que ele apresenta 21 éxons cada um representado por um círculo OBS Alguns genes só têm um éxon Tarefa 5 Quantos éxons apresenta o gene escolhido pelo grupo Ao selecionar o primeiro éxon do gene primeiro círculo da esquerda para a direita vemos uma imagem aumentada da região Mantenha o cursor sobre o primeiro círculo Observe que o éxon destacado apresenta duas porções uma maior colorida em verde claro e uma porção final em verde escuro Porções destacadas em verde escuro correspondem a sequência codificadora CDS São os segmentos do gene que contêm os códons que irão determinar a sequência de resíduos de aminoácidos de uma cadeia polipeptídica Usualmente transcritos maduros contêm uma região 5UTR região 5 não traduzida e uma região 3 UTR 3 não traduzida estas são as porções verde claras Tarefa 6 Faça o mesmo para o gene escolhido clique no primeiro éxon e mantenha o cursor em cima Capture a tela e cole aqui Retorne à visão panorâmica do gene acessando o menu Region no canto esquerdo da barra de ferramentas azul e selecionando a opção Go to gene with pad conforme abaixo Posicione novamente o cursor sobre a linha verde que representa o gene na montagem do NCBI e a seguir pressione o botão esquerdo do mouse Uma nova janela irá aparecer conforme abaixo Tarefa 7 Faça o mesmo para o gene escolhido Capture a tela e cole aqui Nesta figura as linhas de coloração violeta representam modelos de transcritos RNA mensageiros sendo antecedidas por um código de acesso NM ou XM Cada linha violeta é seguida por uma linha vermelha antecedidos por códigos de acesso NP ou XP que representam segmentos do genoma que compreendem as chamadas sequências codificadoras CDS Estas incluem os íntrons regiões não expressas que estão localizados no interior de uma sequência codificadora Desse modo as CDSs propriamente ditas são muito menores do que os segmentos representados em vermelho Além disso não incluem as regiões 5 e 3UTR Tarefa 8 De acordo com a montagem do NCBI quantos transcritos linhas violetas apresenta o gene escolhido pelo grupo Cada um desses diferentes transcritos corresponde a uma variante transcricional Variantes transcricionais diferentes podem codificar cadeias polipeptídicas que apresentam diferenças em estrutura primária denominadas isoformas ou não Usualmente variantes transcricionais são resultado de processos de splicing alternativo de uso de sítios de início de transcrição alternativos ou de sítios de poliadenilação alternativos Além disso uma mesma variante transcricional pode codificar para mais de uma isoforma proteica por meio de processos como uso de sítios de início start codon e de término stop codon alternativos Observe a figura abaixo que corresponde a uma ampliação da estrutura do gene IGF1R As barras em cada linha e as barras verticais que passam por elas representam os éxons nas diferentes isoformas Tarefa 9 Repita o procedimento para o gene escolhido destacando uma região onde se observem diferenças entre variantes transcricionais caso ocorram no gene escolhido Capture a tela e copie no espaço abaixo Tarefa 10 Finalmente vamos observar uma visão mais geral destas variantes em uma porção do cromossomo compreendendo vários genes Para isso primeiro vamos fazer um zoom out clicando 3 vezes na lupa com sinal negativo conforme acima Agora podemos observar vários genes nesta parte do cromossomo Segundo clique no botão com linhas coloridas à direita Assim podemos observar as variantes transcricionais de vários genes ao mesmo tempo Capture a tela e copie abaixo Tarefa 11 Agora use as setas próximas da lupa para navegar pelo cromossomo e observar o padrão O que podemos observar Existe um padrão geral em relação à existência destas variantes Análise de Dados Moleculares ROTEIRO 3 Montagem e anotação funcional de genomas III Nome dos integrantes do grupo ATIVIDADE 1 Visualização e comparação entre genomas Tarefa 1 Agora volte para a tela com a árvore Genome Data Viewer httpswwwncbinlmnihgovgdv À direita clique no botão Compare Genomes A nova tela é uma ferramenta muito interessante que permite comparar genomas de diferentes espécies usando as caixas 1 e 3 conforme abaixo A espécie 1 normalmente já está préselecionada com o genoma humano se não estiver selecione Homo sapiens e a montagem assembly GRCh38p14 Agora podemos comparar o genoma humano com genomas de outros organismos Pex na caixa 2 digite whale e na lista selecione Balaenoptera musculus blue whale e clique no botão View Comparison Você deverá ver a seguinte imagem Acima temos os cromossomos da baleia azul e abaixo os humanos As linhas conectam as regiões semelhantes entre as espécies mesmos genes e sequências similares Em púrpura são as regiões com orientação reversa Tarefa 2 Descreva as características pex semelhanças diferenças desta comparação que mais chamam a atenção Tarefa 3 Você pode fazer diferentes zooms com o mouse Pex clicando na imagem do cromossomo em uma ou nas duas espécies Primeiro escolha um cromossomo da espécie de cima e clique Cole a imagem aqui Tarefa 4 Agora clique no cromossomo na espécie de baixo que tenha maior identidade mais linhas conectadas e cole a imagem aqui Tarefa 5 Você pode fazer um zoom in ou zoom out em uma região ou no cromossomo superior ou inferior apontando o cursor para a região do cromossomo de interesse ou para uma parte central da imagem e usando a roda do mouse ou os botões da lupa na parte superior direita Para voltar à imagem inicial selecione o botão Reset acima à direita Faça um zoom nos cromossomos escolhidos anteriormente até encontrar os genes em comum em regiões com identidade entre as espécies Veja o exemplo abaixo Para encontrar as regiões em comum pode ser necessário usar as setas que movimentam o cromossomo ou o botão de inverter Tarefa 6 Faça a mesmo no seu caso e cole aqui Tarefa 7 É possível buscar a localização de genes específicos nestas comparações Inicialmente volte para a imagem com todos os cromossomos selecionando o botão Reset acima à direita Vamos iniciar com o gene TP53 nome de um gene relacionado ao câncer Na caixa Find a gene in this alignment digite p53 e clique em Search Selecione a linha com o gene TP53 na montagem humana conforme abaixo Tarefa 8 Copie a figura e cole abaixo Tarefa 9 Descreva o que você vê Tarefa 10 Agora faça um Zoom out com o mouse na região central até aparecerem outros genes próximos nos dois cromossomos O que dá para perceber em relação a outros genes próximos Tarefa 11 Agora repita a Tarefa 07 escolhendo um gene de seu interesse não pode ser um gene mitocondrial e depois repita a tarefa 08 colando a imagem aqui Compare com o que foi visto com o TP53 Tarefa 12 Agora volte para a página de seleção dos genomas selecionando CGV Home conforme abaixo Na caixa 2 digite Monkey e selecione a espécie de macaco que aparece Macaca mulatta Rhesus monkey e clique no botão View Comparison Copie a imagem cole abaixo Tarefa 13 Compare esta imagem com a anterior Humano vs baleia Descreva as diferenças mais importantes entre as duas comparações Tarefa 14 Volte novamente para a página de seleção dos genomas selecionando CGV Home novamente Finalmente na caixa 2 digite Chimp e selecione o chimpanzé comum Pan troglodytes chimpanzee e na caixa 4 a primeira montagem que aparecer e então clique no botão View Comparison Copie a imagem e cole abaixo Tarefa 15 Compare esta imagem com a anterior Humano vs macaco Rhesus Descreva as diferenças mais importantes entre as duas comparações Tarefa 16 Agora selecione apenas o cromossomo 2 humano e veja as identidades com os cromossomos do chimpanzé Cole abaixo O que é possível deduzir Tarefa 17 Também é possível comparar diferentes montagens da mesma espécie observando as mudanças a cada nova montagem Volte para a página de seleção dos genomas selecionando CGV Home e selecione Homo sapiens nas caixas 1 e 2 e os as assemblies T2TCHM13v20 e GRCh38p14 nas caixas 3 e 4 Cole a figura aqui Tarefa 18 O que dá para perceber Tarefa 19 Agora selecione o cromossomo 16 nas duas montagens Cole a figura aqui Tarefa 20 O que dá para perceber O que significa nível de montagem de Cromossomo Assembly level Chromosome O nível de montagem Chromosome significa que o genoma foi montado em sequências que correspondem aos cromossomos do organismo mas pode não estar completamente contínuo pois ainda apresenta lacunas ou regiões não sequenciadas como áreas repetitivas ou heterochromáticas Qual a diferença entre um contig e um scaffold Um contig é uma sequência contínua de DNA gerada pelo alinhamento direto de reads sequenciadas sem lacunas Um scaffold é uma estrutura maior que organiza múltiplos contigs em uma ordem aproximada com lacunas gaps entre eles estimadas com base em informações de mapeamento ou pareamento Assembly Statistics da montagem GRCh38p14 genoma humano Tabela copiada do site do NCBI RefSeq GenBank Genome size 31 Gb 31 Gb Total ungapped length 29 Gb 29 Gb Gaps between scaffolds 349 349 Number of chromosomes 24 24 Number of organelles 1 1 Number of scaffolds 470 473 Scaffold N50 678 Mb 678 Mb Scaffold L50 16 16 Number of contigs 996 999 Contig N50 579 Mb 579 Mb Contig L50 18 18 GC percent 41 41 Assembly level Chromosome Chromosome View sequences view RefSeq sequences view GenBank sequences Número esperado de scaffolds em um genoma completamente sequenciado 24 scaffolds 1 por cromossomo autossômico X Y Ungapped length 29 Gb 2900000000 pares de bases RefSeq GenBank Genome size 31 Gb 31 Gb Total ungapped length 31 Gb 31 Gb Number of chromosomes 24 24 Number of organelles 0 1 Number of scaffolds 24 24 Scaffold N50 1506 Mb 1506 Mb Scaffold L50 9 9 Number of contigs 24 24 Contig N50 1506 Mb 1506 Mb Contig L50 9 9 GC percent 41 41 Genome coverage 30x 30x Assembly level Complete Genome Complete Genome View sequences view RefSeq sequences view GenBank sequences Número de contigs e scaffolds A montagem T2T possui apenas 24 contigs e 24 scaffolds indicando que cada cromossomo está representado por uma única sequência contínua e sem lacunas Já a GRCh38p14 possui 996 contigs e 470 scaffolds o que indica que ainda há regiões fragmentadas e lacunas Total ungapped length A T2T tem 31 Gb completamente contínuos enquanto a GRCh38 tinha 29 Gb ou seja a nova montagem inclui regiões que estavam ausentes anteriormente como centrômeros telômeros e regiões altamente repetitivas Gaps entre scaffolds A montagem T2T não tem lacunas enquanto a GRCh38 possui 349 lacunas entre scaffolds Assembly level A T2T é considerada Complete Genome a mais alta qualidade de montagem existente enquanto a GRCh38 ainda é Chromosome level Cobertura A T2T foi montada com uma profundidade de leitura de 30x suficiente para alta confiabilidade na montagem genoma de Felis catus O genoma do gato doméstico foi localizado na árvore filogenética do NCBI Genome Data Viewer seguindo a hierarquia Eukaryota Metazoa Chordata Mammalia Carnivora Felidae Felis catus A montagem atual é identificada como Genome assembly GCF0001813353 Feliscatus90 Archaea 3065K Total 757 Reference 1668K Annotated Bacteria 269M Total 2110K Reference 224M Annotated Viruses 23041K Total 0 Reference 17888K Annotated Assembly statistics RefSeq GenBank Genome size 31 Gb 31 Gb Total ungapped length 29 Gb 29 Gb Gaps between scaffolds 349 349 Number of chromosomes 24 24 Number of organelles 1 1 Number of scaffolds 470 473 Scaffold N50 678 Mb 678 Mb Scaffold L50 16 16 Number of contigs 996 999 Contig N50 579 Mb 579 Mb Contig L50 18 18 GC percent 41 41 Assembly level Chromosome Chromosome View sequences view RefSeq sequences view GenBank sequences Annotation details See full annotation report RefSeq Provider NCBI RefSeq Name GCF00000140540RS202408 Date Aug 23 2024 Genes 59 715 Proteincoding 20 078 Software version 103 Assembly Statistics Escherichia coli GCF0000058452 ASM584v2 Genome size 4641652 bp 46 Mb Total ungapped length 4641652 bp 46 Mb Number of chromosomes 1 Number of scaffolds 1 Number of contigs 1 Scaffold N50 4641652 bp 46 Mb Contig N50 4641652 bp 46 Mb Genome coverage 50x Assembly level Complete Genome Annotation Details Escherichia coli GCF0000058452 ASM584v2 Annotation Release 200 Number of genes 4361 Number of proteincoding genes 4149 Number of noncoding genes 212 Number of transcripts 4361 O genoma eucariótico Felis catus GCF0001813353 é significativamente maior 25 Gb em comparação com o genoma bacteriano Escherichia coli GCF0000058452 46 Mb Felis catus possui 19 cromossomos lineares enquanto E coli tem um único cromossomo circular O genoma eucariótico contém mais scaffolds 4525 e contigs 4909 devido à sua maior complexidade enquanto o genoma bacteriano tem apenas 1 scaffold e 1 contig indicando uma montagem completa Felis catus tem aproximadamente 21672 genes incluindo 19748 codificadores de proteínas e 1924 não codificadores com presença de íntrons e extensas regiões não codificadoras Em contraste E coli tem cerca de 4361 genes majoritariamente codificadores 4149 sem íntrons refletindo a simplicidade estrutural das bactérias Comparação detalhada Tamanho do genoma Felis catus 25 Gb E coli 46 Mb Cromossomos Felis catus 19 lineares E coli 1 circular ScaffoldsContigs Felis catus 4525 scaffolds 4909 contigs E coli 1 scaffold 1 contig Genes Felis catus 21672 19748 codificadores E coli 4361 4149 codificadores Íntrons Presentes em Felis catus ausentes em E coli Regiões não codificadoras Extensas em Felis catus 557 de elementos repetitivos mínimas em E coli Espécie selecionada Felis catus gato doméstico GCF0001813353 Feliscatus90 Gene selecionado IGF1R receptor do fator de crescimento semelhante à insulina 1 A espécie foi selecionada no NCBI Genome Data Viewer GDV em httpswwwncbinlmnihgovgdv usando a árvore filogenética Eukaryota Metazoa Chordata Mammalia Carnivora Felidae Felis catus e o gene IGF1R foi buscado no campo Search in genome Nome IGF1R Localização Cromossomo B1 posições 96861720 96897614 complemento Tamanho do gene bp 35895 bp Assembly statistics RefSeq GenBank Genome size 24 Gb 24 Gb Total ungapped length 24 Gb 24 Gb Number of chromosomes 19 19 Number of organelles 1 0 Number of scaffolds 70 70 Scaffold N50 1485 Mb 1485 Mb Scaffold L50 7 7 Number of contigs 109 109 Contig N50 907 Mb 907 Mb Contig L50 10 10 GC percent 42 42 Genome coverage 76x 76x Assembly level Chromosome Chromosome Ao navegar pelo cromossomo B1 de Felis catus usando as setas próximas à lupa no NCBI GDV observase que a maioria dos genes apresenta múltiplas variantes transcricionais resultantes de processos como splicing alternativo uso de sítios de início de transcrição alternativos ou sítios de poliadenilação alternativos Esse padrão é característico de genomas eucarióticos como o de Felis catus devido à complexidade regulatória que permite a geração de diversas isoformas proteicas a partir de um mesmo gene Genes como IGF1R frequentemente exibem duas ou mais variantes com diferenças na inclusão de éxons enquanto genes menores podem apresentar apenas uma variante A presença de múltiplas variantes reflete a flexibilidade funcional do genoma permitindo adaptações específicas em diferentes tecidos ou condições
4
Análise Complexa
PUC
32
Análise Complexa
UAM
1
Análise Complexa
UNIP
1
Análise Complexa
UAM
4
Análise Complexa
UNIP
1
Análise Complexa
UNIP
1
Análise Complexa
UNIP
35
Análise Complexa
UAM
1
Análise Complexa
UNIP
1
Análise Complexa
UAM
Texto de pré-visualização
Análise de Dados Moleculares ROTEIRO 1 Montagem e anotação funcional de genomas I Nome dos integrantes do grupo Montagem de genomas fundamentos Apesar de os genomas serem constituídos por longas moléculas de DNA ou de RNA no caso de alguns vírus as técnicas atuais de sequenciamento produzem segmentos de sequência curtos Desse modo para serem sequenciados ou seja para se determinar a sequência de nucleotídeos dessas moléculas os genomas são primeiramente fragmentados Esses fragmentos são então sequenciados por completo ou nas suas extremidades Cada sequência obtida é denominada de uma leitura sequence read A montagem do genoma assembly consiste no processo de determinação da sequência de nucleotídeos da molécula ou moléculas do genoma no caso de genomas constituídos por mais de um cromossomo a partir dessa informação fragmentada obtida a partir do sequenciamento de pequenos segmentos desse genoma Existem quatro abordagens para a montagem de genomas 1 Hierárquica Na abordagem hierárquica clones contendo grandes insertos de DNA do genoma são primeiramente mapeados de modo a se determinar sua localização no genoma Um subconjunto desses clones contendo grandes insertos é então selecionado para ser sequenciado Cada um deles é fragmentado são obtidas reads a partir dos fragmentos e as reads são então alinhadas gerando sequências contíguas contigs Nessa abordagem o processo de montagem das reads sequenciadas é realizado independentemente para cada um dos grandes insertos reduzindo a complexidade computacional do problema quando comparado ao processo de fragmentação e produção de reads a partir do genoma completo WGS Whole Genome Shotgun Mas quais insertos grandes iremos sequenciar Na figura estão ilustrados apenas os insertos selecionados mas na realidade são gerados diferentes insertos com variados níveis de sobreposição uns com os outros Abaixo temos uma representação mais realista da situação A fragmentação e sequenciamento de todos os segmentos indicados acima representaria uma redundância desnecessária aumentando os custos do procedimento Em vermelho estão destacados os segmentos que se sequenciados permitiriam determinar a sequência completa da região correspondente com a menor redundância possível Podemos imaginar que esses segmentos correspondam metaforicamente a ladrilhos ou azulejos que somados resultam em um caminho ao longo da sequência A determinação deste caminho de ladrilhos Tiling Path TPF possibilita portanto aumentar e eficiência do processo de sequenciamento Esse é um problema computacional e existem programas dedicados a essa tarefa Gigassembler e TPF Analyzer por exemplo 2 Montagem do genoma completo Whole Genome Assembly Nesta abordagem como ilustrado na figura acima o genoma completo é totalmente fragmentado e as reads são alinhadas de modo a se obter a sequência completa sem um mapeamento prévio e montagem em separado de insertos como na abordagem hierárquica Inicialmente limitado a genomas bacterianos a estratégia passou a ser usada também em genomas maiores após avanços na capacidade computacional e nos algoritmos de montagem 3 Montagem híbrida É uma abordagem que combina as duas anteriores dados parciais de mapeamento de grandes insertos é usado para auxiliar no processo de montagem de reads obtidas a partir da fragmentação completa do genoma 4 Montagem por comparação Com o aumento das sequências disponíveis passou a ser possível montar um genoma fazendo uso de sequências similares já disponíveis nas bases de dados Essas sequências são usadas como referências para determinar a posição de cada read obtida em um projeto de sequenciamento PARTE 1 VISÃO GERAL DA MONTAGEM DE GENOMAS Acesse httpswwwncbinlmnihgovgdv No Genome Data Viewer incialmente aparecem os dados do Genoma humano conforme abaixo Esta página nos fornece acesso à versão mais atualizada da montagem do genoma humano usado como genoma de referência para nossa espécie O código de acesso dessa entrada na base de dados de sequências referenciais RefSeq é GCF000001405 estando atualmente na versão 40 GCF00000140540 Essa montagem do genoma humano também recebe um nome GRCh38p14 Esse nome inclui as iniciais do consórcio responsável pela submissão da sequência GRC Genome Reference Consortium e indica que é uma sequência humana h Os números correspondem a revisões principais e menores Genome Reference Consortium Human Build 38 patch release 14 GRCh38p14 Como pode ser observado o nível da montagem Level do genoma humano atual está descrito como Chromosome Tarefa 1 O que quer dizer nível de montagem de Cromossomo Assembly level Chromosome Acesse o site httpswwwncbinlmnihgovassemblyhelp e explique abaixo com as suas palavras Tarefa 2 Estude a figura acima Qual a diferença entre um contig e um scaffold Tarefa 3 Observe a figura abaixo Mais explicações sobre o L50 e n50 no link httpswwwmolecularecologistcom20170329whatsn50 Qual o valor de L50 nessa figura De modo correspondente N50 corresponde ao tamanho do menor dentre os X contigs mais longos Desse modo qual o valor de N50 nessa figura Tarefa 4 Voltando a página do GDV httpswwwncbinlmnihgovgdv clique no link RefSeq accession do genoma humano conforme abaixo Certifiquese que o nome da montagem é GRCh38p14 Role até a sessão intitulada Assembly statistics copie esta sessão e cole aqui Observe os valores de Genome size Total ungapped length Number of scaffolds e Number of contigs Quantos scaffolds esperamos encontrar em um cromossomo completamente sequenciado E qual seria o valor do parâmetro Ungapped length Tarefa 5 Volte novamente para a página do GDV httpswwwncbinlmnihgovgdv e na caixa Assembly selecione o T2TCHM13v20 conforme a fig abaixo Este é a montagem de um genoma humano completamente sequenciado do consórcio T2T TelomeretoTelomere Clique no RefSeq accession como antes e role até a sessão intitulada Assembly statistics e cole abaixo esta sessão com as estatísticas do T2T Observe e compare os valores de Genome size Total ungapped length Number of scaffolds e Number of contigs com os valores da versão anterior incompleta do genoma humano GRCh38p14 que foram copiados na tarefa 4 Tarefa 6 Quais diferenças podem ser observadas Tarefa 7 O que significa essa diferença nos dados das duas montagens do genoma humano Tarefa 8 Volte novamente para a página do GDV httpswwwncbinlmnihgovgdv O Genome Data Viewer disponibiliza atualmente a montagem de mais de 2000 genomas eucarióticos para análise Os genomas podem ser acessados por meio de uma árvore filogenética interativa Ao acessar um organismo informações sobre o genoma correspondente irão aparecer à direita Ao clicar em o grupo correspondente é selecionado Cilcando em e mantendo o botão pressionado todos os ramos contendo genomas disponíveis pela ferramenta serão visualizados Tarefa 9 encontre pela ferramenta o genoma do gato doméstico Capture a tela print screen e adicione abaixo Tarefa 10 Selecione uma espécie de interesse e capture a tela contendo a seleção do organismo escolhido para as análises pelo grupo e adicione abaixo PARTE 2 Acesse a página do NCBI httpswwwncbinlmnihgov Selecione Genome no menu à direita conforme a figura abaixo A nova página abaixo mostrará o total de genomas disponíveis no NCBI e separados nos quatro grandes grupos de organismos destacando também os genomas de referência completos em nível cromossômico e de alta qualidade e os anotados com identificação dos genes mas não necessariamente completos Tarefa 11 Clique nos 4 diferentes grupos no menu à esquerda e cole as telas de cada um deles Tarefa 12 Selecione Eukaryota no menu à esquerda e depois clique em Reference onde aparecerá uma lista dos genomas de referência os mais recentes primeiro Escolha um genoma que NÃO SEJA Homo sapiens e clique no link Assembly primeira coluna com o símbolo em verde Role até a sessão intitulada Assembly statistics e estude as principais características deste genoma pex Nº de cromossomos e da montagem pex Nº de contigs cobertura coverage Coverage é a média de vezes que cada nucleotídeo do genoma foi sequenciando Copie esta sessão e cole aqui Tarefa 13 Agora role até a sessão intitulada Annotation details e estude as informações pex Nº de genes Copie esta sessão e cole aqui Tarefa 14 Agora role até a sessão seguinte intitulada Chromosomes e estude as características dos cromossomos pex o ideograma e os tamanhos Copie e cole aqui esta sessão se forem muitos cromossomos apenas a tela inicial visível Agora volte para a parte superior da tela e clique na aba Genome voltando à página inicial conforme abaixo Tarefa 15 Agora selecione Bacteria clique em Reference onde aparecerá a lista dos genomas de referência do grupo conforme abaixo Escolha um genoma de Bacteria desta lista Agora vamos repetir as tarefas anteriores comparando e identificando as principais diferenças do genoma desta Bacteria com o Eucarioto anterior Clique no link Assembly primeira coluna com o símbolo de em verde Role até a sessão intitulada Assembly statistics e estude as principais características do genoma pex Nº de cromossomos e da montagem pex Nº de contigs cobertura coverage Copie esta sessão e cole aqui Tarefa 16 Agora role até a sessão intitulada Annotation details e estude as informações pex Nº de genes Copie esta sessão e cole aqui Tarefa 17 Agora role até a sessão seguinte intitulada Chromosomes e estude as características dos cromossomos pex o ideograma e os tamanhos Copie esta sessão e cole aqui Tarefa 18 Descreva aqui quais são as principais diferenças entre o genoma eucarioto do genoma da bactéria Análise de Dados Moleculares ROTEIRO 2 Montagem e anotação funcional de genomas II Nome dos integrantes do grupo Nas ilustrações abaixo o genoma do gato e o gene IGF1R foram escolhidos como um exemplo Cada grupo deverá seguir os passos indicados com o seu organismo e gene escolhido Tarefa 1 Vá para a página do GDV httpswwwncbinlmnihgovgdv Escolha uma espécie para usar daqui em diante Use a árvore de espécie ou digite o nome em inglês ou nome científico na caixa Com o organismo de escolha selecionado digite no campo Search in genome o nome do gene escolhido pelo grupo e clique no botão de busca conforme abaixo Uma visão panorâmica da região do genoma selecionado contendo o gene de interesse é apresentada conforme abaixo Nas espécies mais bem estudadas a estrutura do gene é apresentada de acordo com duas bases de dados de montagem de genomas NCBI Homo sapiens Annotation e Ensembl Em ambos os casos os éxons estão representados como barras retangulares e os íntrons como linhas ver imagem acima Tarefa 2 Capture a tela mostrando uma visão panorâmica do gene selecionado e adicione abaixo Tarefa 3 Mantenha o cursor sobre a linha verde na parte superior que representa o gene na montagem do NCBI Uma janela flutuante irá aparecer com algumas informações elementares sobre a sequência Tarefa 4 Faça esse mesmo procedimento com o gene escolhido pelo grupo e complete as informações abaixo Nome Localização Tamanho do gene bp A sequência dos éxons pode ser acessada diretamente por meio de uma opção disponível na barra de ferramentas azul Cada círculo representando um éxon No caso do gene IGF1R vemos que ele apresenta 21 éxons cada um representado por um círculo OBS Alguns genes só têm um éxon Tarefa 5 Quantos éxons apresenta o gene escolhido pelo grupo Ao selecionar o primeiro éxon do gene primeiro círculo da esquerda para a direita vemos uma imagem aumentada da região Mantenha o cursor sobre o primeiro círculo Observe que o éxon destacado apresenta duas porções uma maior colorida em verde claro e uma porção final em verde escuro Porções destacadas em verde escuro correspondem a sequência codificadora CDS São os segmentos do gene que contêm os códons que irão determinar a sequência de resíduos de aminoácidos de uma cadeia polipeptídica Usualmente transcritos maduros contêm uma região 5UTR região 5 não traduzida e uma região 3 UTR 3 não traduzida estas são as porções verde claras Tarefa 6 Faça o mesmo para o gene escolhido clique no primeiro éxon e mantenha o cursor em cima Capture a tela e cole aqui Retorne à visão panorâmica do gene acessando o menu Region no canto esquerdo da barra de ferramentas azul e selecionando a opção Go to gene with pad conforme abaixo Posicione novamente o cursor sobre a linha verde que representa o gene na montagem do NCBI e a seguir pressione o botão esquerdo do mouse Uma nova janela irá aparecer conforme abaixo Tarefa 7 Faça o mesmo para o gene escolhido Capture a tela e cole aqui Nesta figura as linhas de coloração violeta representam modelos de transcritos RNA mensageiros sendo antecedidas por um código de acesso NM ou XM Cada linha violeta é seguida por uma linha vermelha antecedidos por códigos de acesso NP ou XP que representam segmentos do genoma que compreendem as chamadas sequências codificadoras CDS Estas incluem os íntrons regiões não expressas que estão localizados no interior de uma sequência codificadora Desse modo as CDSs propriamente ditas são muito menores do que os segmentos representados em vermelho Além disso não incluem as regiões 5 e 3UTR Tarefa 8 De acordo com a montagem do NCBI quantos transcritos linhas violetas apresenta o gene escolhido pelo grupo Cada um desses diferentes transcritos corresponde a uma variante transcricional Variantes transcricionais diferentes podem codificar cadeias polipeptídicas que apresentam diferenças em estrutura primária denominadas isoformas ou não Usualmente variantes transcricionais são resultado de processos de splicing alternativo de uso de sítios de início de transcrição alternativos ou de sítios de poliadenilação alternativos Além disso uma mesma variante transcricional pode codificar para mais de uma isoforma proteica por meio de processos como uso de sítios de início start codon e de término stop codon alternativos Observe a figura abaixo que corresponde a uma ampliação da estrutura do gene IGF1R As barras em cada linha e as barras verticais que passam por elas representam os éxons nas diferentes isoformas Tarefa 9 Repita o procedimento para o gene escolhido destacando uma região onde se observem diferenças entre variantes transcricionais caso ocorram no gene escolhido Capture a tela e copie no espaço abaixo Tarefa 10 Finalmente vamos observar uma visão mais geral destas variantes em uma porção do cromossomo compreendendo vários genes Para isso primeiro vamos fazer um zoom out clicando 3 vezes na lupa com sinal negativo conforme acima Agora podemos observar vários genes nesta parte do cromossomo Segundo clique no botão com linhas coloridas à direita Assim podemos observar as variantes transcricionais de vários genes ao mesmo tempo Capture a tela e copie abaixo Tarefa 11 Agora use as setas próximas da lupa para navegar pelo cromossomo e observar o padrão O que podemos observar Existe um padrão geral em relação à existência destas variantes Análise de Dados Moleculares ROTEIRO 3 Montagem e anotação funcional de genomas III Nome dos integrantes do grupo ATIVIDADE 1 Visualização e comparação entre genomas Tarefa 1 Agora volte para a tela com a árvore Genome Data Viewer httpswwwncbinlmnihgovgdv À direita clique no botão Compare Genomes A nova tela é uma ferramenta muito interessante que permite comparar genomas de diferentes espécies usando as caixas 1 e 3 conforme abaixo A espécie 1 normalmente já está préselecionada com o genoma humano se não estiver selecione Homo sapiens e a montagem assembly GRCh38p14 Agora podemos comparar o genoma humano com genomas de outros organismos Pex na caixa 2 digite whale e na lista selecione Balaenoptera musculus blue whale e clique no botão View Comparison Você deverá ver a seguinte imagem Acima temos os cromossomos da baleia azul e abaixo os humanos As linhas conectam as regiões semelhantes entre as espécies mesmos genes e sequências similares Em púrpura são as regiões com orientação reversa Tarefa 2 Descreva as características pex semelhanças diferenças desta comparação que mais chamam a atenção Tarefa 3 Você pode fazer diferentes zooms com o mouse Pex clicando na imagem do cromossomo em uma ou nas duas espécies Primeiro escolha um cromossomo da espécie de cima e clique Cole a imagem aqui Tarefa 4 Agora clique no cromossomo na espécie de baixo que tenha maior identidade mais linhas conectadas e cole a imagem aqui Tarefa 5 Você pode fazer um zoom in ou zoom out em uma região ou no cromossomo superior ou inferior apontando o cursor para a região do cromossomo de interesse ou para uma parte central da imagem e usando a roda do mouse ou os botões da lupa na parte superior direita Para voltar à imagem inicial selecione o botão Reset acima à direita Faça um zoom nos cromossomos escolhidos anteriormente até encontrar os genes em comum em regiões com identidade entre as espécies Veja o exemplo abaixo Para encontrar as regiões em comum pode ser necessário usar as setas que movimentam o cromossomo ou o botão de inverter Tarefa 6 Faça a mesmo no seu caso e cole aqui Tarefa 7 É possível buscar a localização de genes específicos nestas comparações Inicialmente volte para a imagem com todos os cromossomos selecionando o botão Reset acima à direita Vamos iniciar com o gene TP53 nome de um gene relacionado ao câncer Na caixa Find a gene in this alignment digite p53 e clique em Search Selecione a linha com o gene TP53 na montagem humana conforme abaixo Tarefa 8 Copie a figura e cole abaixo Tarefa 9 Descreva o que você vê Tarefa 10 Agora faça um Zoom out com o mouse na região central até aparecerem outros genes próximos nos dois cromossomos O que dá para perceber em relação a outros genes próximos Tarefa 11 Agora repita a Tarefa 07 escolhendo um gene de seu interesse não pode ser um gene mitocondrial e depois repita a tarefa 08 colando a imagem aqui Compare com o que foi visto com o TP53 Tarefa 12 Agora volte para a página de seleção dos genomas selecionando CGV Home conforme abaixo Na caixa 2 digite Monkey e selecione a espécie de macaco que aparece Macaca mulatta Rhesus monkey e clique no botão View Comparison Copie a imagem cole abaixo Tarefa 13 Compare esta imagem com a anterior Humano vs baleia Descreva as diferenças mais importantes entre as duas comparações Tarefa 14 Volte novamente para a página de seleção dos genomas selecionando CGV Home novamente Finalmente na caixa 2 digite Chimp e selecione o chimpanzé comum Pan troglodytes chimpanzee e na caixa 4 a primeira montagem que aparecer e então clique no botão View Comparison Copie a imagem e cole abaixo Tarefa 15 Compare esta imagem com a anterior Humano vs macaco Rhesus Descreva as diferenças mais importantes entre as duas comparações Tarefa 16 Agora selecione apenas o cromossomo 2 humano e veja as identidades com os cromossomos do chimpanzé Cole abaixo O que é possível deduzir Tarefa 17 Também é possível comparar diferentes montagens da mesma espécie observando as mudanças a cada nova montagem Volte para a página de seleção dos genomas selecionando CGV Home e selecione Homo sapiens nas caixas 1 e 2 e os as assemblies T2TCHM13v20 e GRCh38p14 nas caixas 3 e 4 Cole a figura aqui Tarefa 18 O que dá para perceber Tarefa 19 Agora selecione o cromossomo 16 nas duas montagens Cole a figura aqui Tarefa 20 O que dá para perceber O que significa nível de montagem de Cromossomo Assembly level Chromosome O nível de montagem Chromosome significa que o genoma foi montado em sequências que correspondem aos cromossomos do organismo mas pode não estar completamente contínuo pois ainda apresenta lacunas ou regiões não sequenciadas como áreas repetitivas ou heterochromáticas Qual a diferença entre um contig e um scaffold Um contig é uma sequência contínua de DNA gerada pelo alinhamento direto de reads sequenciadas sem lacunas Um scaffold é uma estrutura maior que organiza múltiplos contigs em uma ordem aproximada com lacunas gaps entre eles estimadas com base em informações de mapeamento ou pareamento Assembly Statistics da montagem GRCh38p14 genoma humano Tabela copiada do site do NCBI RefSeq GenBank Genome size 31 Gb 31 Gb Total ungapped length 29 Gb 29 Gb Gaps between scaffolds 349 349 Number of chromosomes 24 24 Number of organelles 1 1 Number of scaffolds 470 473 Scaffold N50 678 Mb 678 Mb Scaffold L50 16 16 Number of contigs 996 999 Contig N50 579 Mb 579 Mb Contig L50 18 18 GC percent 41 41 Assembly level Chromosome Chromosome View sequences view RefSeq sequences view GenBank sequences Número esperado de scaffolds em um genoma completamente sequenciado 24 scaffolds 1 por cromossomo autossômico X Y Ungapped length 29 Gb 2900000000 pares de bases RefSeq GenBank Genome size 31 Gb 31 Gb Total ungapped length 31 Gb 31 Gb Number of chromosomes 24 24 Number of organelles 0 1 Number of scaffolds 24 24 Scaffold N50 1506 Mb 1506 Mb Scaffold L50 9 9 Number of contigs 24 24 Contig N50 1506 Mb 1506 Mb Contig L50 9 9 GC percent 41 41 Genome coverage 30x 30x Assembly level Complete Genome Complete Genome View sequences view RefSeq sequences view GenBank sequences Número de contigs e scaffolds A montagem T2T possui apenas 24 contigs e 24 scaffolds indicando que cada cromossomo está representado por uma única sequência contínua e sem lacunas Já a GRCh38p14 possui 996 contigs e 470 scaffolds o que indica que ainda há regiões fragmentadas e lacunas Total ungapped length A T2T tem 31 Gb completamente contínuos enquanto a GRCh38 tinha 29 Gb ou seja a nova montagem inclui regiões que estavam ausentes anteriormente como centrômeros telômeros e regiões altamente repetitivas Gaps entre scaffolds A montagem T2T não tem lacunas enquanto a GRCh38 possui 349 lacunas entre scaffolds Assembly level A T2T é considerada Complete Genome a mais alta qualidade de montagem existente enquanto a GRCh38 ainda é Chromosome level Cobertura A T2T foi montada com uma profundidade de leitura de 30x suficiente para alta confiabilidade na montagem genoma de Felis catus O genoma do gato doméstico foi localizado na árvore filogenética do NCBI Genome Data Viewer seguindo a hierarquia Eukaryota Metazoa Chordata Mammalia Carnivora Felidae Felis catus A montagem atual é identificada como Genome assembly GCF0001813353 Feliscatus90 Archaea 3065K Total 757 Reference 1668K Annotated Bacteria 269M Total 2110K Reference 224M Annotated Viruses 23041K Total 0 Reference 17888K Annotated Assembly statistics RefSeq GenBank Genome size 31 Gb 31 Gb Total ungapped length 29 Gb 29 Gb Gaps between scaffolds 349 349 Number of chromosomes 24 24 Number of organelles 1 1 Number of scaffolds 470 473 Scaffold N50 678 Mb 678 Mb Scaffold L50 16 16 Number of contigs 996 999 Contig N50 579 Mb 579 Mb Contig L50 18 18 GC percent 41 41 Assembly level Chromosome Chromosome View sequences view RefSeq sequences view GenBank sequences Annotation details See full annotation report RefSeq Provider NCBI RefSeq Name GCF00000140540RS202408 Date Aug 23 2024 Genes 59 715 Proteincoding 20 078 Software version 103 Assembly Statistics Escherichia coli GCF0000058452 ASM584v2 Genome size 4641652 bp 46 Mb Total ungapped length 4641652 bp 46 Mb Number of chromosomes 1 Number of scaffolds 1 Number of contigs 1 Scaffold N50 4641652 bp 46 Mb Contig N50 4641652 bp 46 Mb Genome coverage 50x Assembly level Complete Genome Annotation Details Escherichia coli GCF0000058452 ASM584v2 Annotation Release 200 Number of genes 4361 Number of proteincoding genes 4149 Number of noncoding genes 212 Number of transcripts 4361 O genoma eucariótico Felis catus GCF0001813353 é significativamente maior 25 Gb em comparação com o genoma bacteriano Escherichia coli GCF0000058452 46 Mb Felis catus possui 19 cromossomos lineares enquanto E coli tem um único cromossomo circular O genoma eucariótico contém mais scaffolds 4525 e contigs 4909 devido à sua maior complexidade enquanto o genoma bacteriano tem apenas 1 scaffold e 1 contig indicando uma montagem completa Felis catus tem aproximadamente 21672 genes incluindo 19748 codificadores de proteínas e 1924 não codificadores com presença de íntrons e extensas regiões não codificadoras Em contraste E coli tem cerca de 4361 genes majoritariamente codificadores 4149 sem íntrons refletindo a simplicidade estrutural das bactérias Comparação detalhada Tamanho do genoma Felis catus 25 Gb E coli 46 Mb Cromossomos Felis catus 19 lineares E coli 1 circular ScaffoldsContigs Felis catus 4525 scaffolds 4909 contigs E coli 1 scaffold 1 contig Genes Felis catus 21672 19748 codificadores E coli 4361 4149 codificadores Íntrons Presentes em Felis catus ausentes em E coli Regiões não codificadoras Extensas em Felis catus 557 de elementos repetitivos mínimas em E coli Espécie selecionada Felis catus gato doméstico GCF0001813353 Feliscatus90 Gene selecionado IGF1R receptor do fator de crescimento semelhante à insulina 1 A espécie foi selecionada no NCBI Genome Data Viewer GDV em httpswwwncbinlmnihgovgdv usando a árvore filogenética Eukaryota Metazoa Chordata Mammalia Carnivora Felidae Felis catus e o gene IGF1R foi buscado no campo Search in genome Nome IGF1R Localização Cromossomo B1 posições 96861720 96897614 complemento Tamanho do gene bp 35895 bp Assembly statistics RefSeq GenBank Genome size 24 Gb 24 Gb Total ungapped length 24 Gb 24 Gb Number of chromosomes 19 19 Number of organelles 1 0 Number of scaffolds 70 70 Scaffold N50 1485 Mb 1485 Mb Scaffold L50 7 7 Number of contigs 109 109 Contig N50 907 Mb 907 Mb Contig L50 10 10 GC percent 42 42 Genome coverage 76x 76x Assembly level Chromosome Chromosome Ao navegar pelo cromossomo B1 de Felis catus usando as setas próximas à lupa no NCBI GDV observase que a maioria dos genes apresenta múltiplas variantes transcricionais resultantes de processos como splicing alternativo uso de sítios de início de transcrição alternativos ou sítios de poliadenilação alternativos Esse padrão é característico de genomas eucarióticos como o de Felis catus devido à complexidade regulatória que permite a geração de diversas isoformas proteicas a partir de um mesmo gene Genes como IGF1R frequentemente exibem duas ou mais variantes com diferenças na inclusão de éxons enquanto genes menores podem apresentar apenas uma variante A presença de múltiplas variantes reflete a flexibilidade funcional do genoma permitindo adaptações específicas em diferentes tecidos ou condições