4
Engenharia de Software
UMG
3
Engenharia de Software
UMG
1
Engenharia de Software
UMG
11
Engenharia de Software
UMG
32
Engenharia de Software
UMG
54
Engenharia de Software
UMG
11
Engenharia de Software
UMG
14
Engenharia de Software
UMG
9
Engenharia de Software
UMG
11
Engenharia de Software
UMG
Texto de pré-visualização
1 TÍTULO Centralizado em negrito fonte Arial MAIÚSCULA tamanho 14 SOBRENOME Nome do Aluno1 SOBRENOME Nome do Orientador2 Formatação do Artigo Faça a leitura do material PDF FORMATAÇÃO do Artigo O limite de páginas será de 12 a 15 páginas sem considerar o Resumo e as Referências Não utilize linguagem pessoal no Artigo Aqui é utilizado por se tratar de um Modelo Instrucional Todas as imagens no texto Figuras Tabelas e Quadros devem ser sempre citadas e explicadas previamente em parágrafo anterior Exemplo De acordo com a Figura 1 é verificado que Cada Figura Quadro ou Tabela deve possuir Legendas com a descrição e fonte Legenda com a descrição deve ficar EM CIMA da imagem Exemplo Figura 1 Descrição Legenda com a fonte deve ficar EMBAIXO da imagem Exemplo Fonte Autorano ou Autoria própriaano Para as legendas deve utilizar fonte Arial tamanho 10 sem negrito e sem itálico RESUMO O resumo deve conter uma sequência corrente de frases concisas e deve se apresentar em parágrafo único Não pule linhas para iniciar novos parágrafos O resumo deve conter entre 150 e 250 palavras sem a utilização de citações Fonte Arial tamanho 10 1Primeiro deve descrever a contextualização pelo qual o seu tema está inserido problemática 2 Descrever o objetivo geral os objetivos específicos não aparecem no resumo 3 Descrever a justificativa da pesquisa 4 Explicar a metodologia utilizada 5 Finalizar o resumo explicando sucintamente quais foram os principais resultados encontrados Palavraschave Criar entre 3 e 5 palavraschave 1 Informações do aluno exceto o nome 2 Informações do orientador exceto o nome 2 1 INTRODUÇÃO Fonte Arial tamanho 12 MAIÚSCULA com negrito Introdução é a apresentação do assunto abordado na qual será uma seção que irá aguçar a curiosidade do leitor e tentar venderlhe o projeto O formato é de Artigo portanto o fluxo de informação no capítulo 1 será ÚNICO e NÃO haverá aberturas de seções secundárias 11 12 etc Este capítulo deverá possuir MOTIVAÇÃO PROBLEMATIZAÇÃO PERGUNTA DE PESQUISA OBJETIVO GERAL OBJETIVOS ESPECÍFICOS JUSTIFICATIVA e ESTRUTURA DO TRABALHO Para facilitar a estruturação e desenvolvimento completo do capítulo de Introdução são descritas aqui 6 etapas com informações que DEVEM ser cumpridas neste capítulo 1 Deverá descrever a MOTIVAÇÃO PROBLEMATIZAÇÃO da pesquisa dentro da contextualização global que envolve o seu projeto QUAL a problematização O que quer resolver ou melhorar POR QUE é importante resolvêla DE QUE FORMA identificou esta problematização Lembrese de sempre desenvolver o texto inicial através de estudos científicos buscar no google acadêmico pelos quais deverá citálos no texto e posteriormente colocálos nas referências bibliográficas Dúvidas em relação a citações referências analise o arquivo PDF nos Materiais Complementares no AVA Você irá alinhando e afunilando esta contextualização do tema até onde for possível explicar ao leitor coerentemente e suficientemente qual a OPORTUNIDADE DE PESQUISA OU QUAL A PROBLEMÁTICA IDENTIFICADA QUE PRECISA DE MELHORIA 2 Após explicar a motivação problematização deve desenvolver a PERGUNTA DE PESQUISA 3 Uma pergunta de pesquisa é a declaração de uma indagação específica que o pesquisador deseja responder para abordar o problema de pesquisa A pergunta de pesquisa orienta os tipos de dados a serem coletados e o tipo de estudo a ser desenvolvido A pergunta de pesquisa traz uma indagação que indicará qual o problema que o objetivo geral precisará responder no seu desenvolvimento A problemática dá origem a pergunta de pesquisa a qual não pode ter respostas abertas como sim ou não mas deve causar no pesquisador esforço para a formulação da resposta 3 Após a pergunta de pesquisa deve declarar qual o OBJETIVO GERAL pelo qual será a proposta de solução de como irá resolver a problematização O cumprimento do objetivo geral deverá atingir a resposta da pergunta de pesquisa desenvolvida e declarada anteriormente O objetivo geral deve ser direto e global com uma única ação O objetivo geral é 4 Após o Objetivo Geral deve declarar quais são os OBJETIVOS ESPECÍFICOS no mínimo 3 Os objetivos específicos representam entregas intermediárias que se somadas compõem o resultado final ou seja irão auxiliar no cumprimento do objetivo geral Liste seus objetivos específicos através de algarismos romanos ianalisar ii investigariii iv e assim por diante Os objetivos específicos são metas para se atingir o objetivo geral Por exemplo imagine que o objetivo geral será assar um bolo dessa forma os objetivos específicos seriam i identificar ingredientes sólidos e líquidos ii analisar a temperatura ideal para assar o bolo iii identificar métricas para verificar se o bolo foi preparado corretamente Os objetivos específicos também devem ser declarados diretamente Os objetivos específicos são 4 5 Após descrever o objetivo GERAL e os objetivos ESPECÍFICOS desenvolva uma JUSTIFICATIVA que comprove o porquê o cumprimento deste objetivo será importante e qual será a CONTRIBUIÇÃO do projeto para a sua área após o cumprimento do objetivo geral Nessa parte do texto deve ficar claro que o projeto é uma resposta a determinado problema percebido e identificado devendo estar fundamentada e suportada por meio de dados e informações obtidas nas etapas e componentes do projeto Devem ficar evidenciadas as razões tanto de ordem teórica como prática Também deve ser definida com clareza a perspectiva do projeto explicitando os resultados e benefícios que poderão ser obtidos 6 No último parágrafo deverá encerrar o capítulo 1 criando uma explicação resumida da ESTRUTURA DO TRABALHO ou seja o que será tratado nos próximos capítulos Exemplo O documento é estruturado em cinco seções já com a inclusão da seção de Introdução apresentada A seção 2 contém a fundamentação teórica A seção 3 contém a metodologia aplicada ao desenvolvimento do projeto A seção 4 apresenta o cronograma do projeto 2 FUNDAMENTAÇÃO TEÓRICA altere o nome deste título ao invés de fundamentação teórica para algo que tenha relação com o que será abordado no capítulo ou seja um título que aborde o que será tratado como fundamento ao SEU projeto 21 SEÇÃO SECUNDÁRIA Fonte Arial tamanho 12 MAIÚSCULA sem negrito 22 SEÇÃO SECUNDÁRIA 23 SEÇÃO SECUNDÁRIA 231 Seção terciária Fonte Arial tamanho 12 minúscula com negrito Diferentemente da INTRODUÇÃO aqui será importante criar novas seções para organizar a divisão dos tópicos que serão abordados 5 Na Fundamentação Teórica NÃO IRÁ colocar qualquer explicação sobre o desenvolvimento do projeto ou seja sobre as etapas que irá desenvolver para atingir o objetivo da pesquisa A Fundamentação Teórica possui o propósito de concentrar informações conceituais RETIRADAS DA LITERATURA para explicar conceitos definições e características fundamentais dos assuntos relacionados ao seu projeto Deve identificar quantos e QUAIS são os temas conceituais referentes à SUA pesquisa Desta forma pode criar um subtítulo para cada tema a fim de organizar os temas envolvidos no projeto 21 TEMA 1 22 TEMA 2 23 TEMA3 Seções terciárias serão utilizadas apenas se julgar necessário O objetivo da fundamentação teórica é EXPLORAR os estudos já publicados que envolvam os conceitos teóricos relacionados ao tema da pesquisa aprofundando e detalhando os conceitos relacionados ao SEU objetivo Como um esclarecimento de tudo que já foi estabelecido até hoje e então compreender claramente toda a BASE do que irá acrescentar em seu projeto Lembrese que todos os conceitos que serão abordados neste capítulo 2 precisam ter EXCLUSIVA relação com o foco do seu projeto ou seja deve evitar desenvolver aprofundamentos de conteúdos que não irão influenciar ou fazer parte do seu projeto ou que não terão nenhuma conexão com os tópicos que serão abordados citações de outros estudos são fundamentais 6 Além de livros é essencial buscar informações em artigos científicos Sugerese realizar pesquisas no Google Acadêmico por estudos que possam complementar as informações conceituais do seu estudo O endereço eletrônico do Google Acadêmico é httpsscholargooglecombr 3 METODOLOGIA É importante destacar que a metodologia é um plano de atividades com etapas a serem seguidas ao cumprimento do objetivo geral do projeto mas que AINDA irá ser executado portanto não deve ser escrito no tempo verbal passado ou seja como se o projeto já tivesse sido concluído e sim no PRESENTE ou no FUTURO de forma a estruturar não apenas um plano para ser executado neste projeto vigente mas também para que quaisquer outros pesquisadores possam repetilo através das mesmas instruções Primeiramente precisa CLASSIFICAR a sua pesquisa conforme os 4 grupos de pesquisa demonstradas no Quadro 1 e divididos em 16 tipos de pesquisa Geralmente para a classificação de uma pesquisa são selecionados 1 tipo de pesquisa para cada grupo mas há situações pelo qual as pesquisas podem possuir mais de 4 classificações Deverá classificar e explicar cada classificação de acordo com a literatura Exemplo Esta pesquisa é classificada como bibliográfica pois de acordo com FULANO2002 uma pesquisa bibliográfica se utiliza de pesquisas realizadas em livrosetc Quadro 1 Classificação de Pesquisa Tipo Descrição 1Natureza Básica Objetiva gerar conhecimentos novos úteis para o avanço da ciência sem aplicação prática prevista Envolve verdades e interesses universais Aplicada Objetiva gerar conhecimentos para aplicação prática e dirigidos à solução de 7 problemas específicos Envolve verdades e interesses locais 2Abordagem do Problema Quantitativa Considera que tudo pode ser quantificável o que significa traduzir em números opiniões e informações para classificálas e analisá las Requer o uso de recursos e de técnicas estatísticas percentagem média moda mediana etc Qualitativa Considera que há uma relação dinâmica entre o mundo real e o sujeito isto é um vínculo indissociável entre o mundo objetivo e a subjetividade do sujeito que não pode ser traduzido em números A interpretação dos fenômenos e a atribuição de significados são básicas no processo de pesquisa qualitativa Não requer o uso de métodos e técnicas estatísticas O ambiente natural é a fonte direta para coleta de dados e o pesquisador é o instrumentochave 3Objetivos Exploratória Visa proporcionar maior familiaridade com o problema com vistas a tornálo explícito ou a construir hipóteses Envolve levantamento bibliográfico entrevistas com pessoas que tiveram experiências práticas com o problema pesquisado análise de exemplos que estimulem a compreensão Assume em geral as formas de Pesquisas Bibliográficas e Estudos de Caso Descritiva Não tem como objetivo a proposição de soluções mas sim a descrição de fenômenos Isso não significa que nessa modalidade de pesquisa não exista interpretação ou aprofundamento Aqui o objeto é analisado de forma a penetrar em sua natureza descrevendo todos os seus lados e características Prescritiva Tem como objetivo a proposição de soluções as quais fornecem uma resposta direta ao problema apresentado ou prescrevem um modelo teórico ideal para 8 delimitar conceitos que servirão posteriormente de respostas diretas Explicativa visa identificar os fatores que determinam ou contribuem para a ocorrência dos fenômenos Aprofunda o conhecimento da realidade e explica o porquê das coisas 4Procedimentos Técnicos Pesquisa Teórica Bibliográfica Quando elaborada a partir de material já publicado constituído principalmente de livros artigos de periódicos e atualmente com material disponibilizado na Internet Documental Quando elaborada a partir de materiais que não receberam tratamento analítico Pesquisa Empírica ou Prática Experimental Quando se determina um objeto de estudo selecionamse as variáveis que seriam capazes de influenciálo definemse as formas de controle e de observação dos efeitos que a variável produz no objeto ou seja se analisa enquanto se testa Levantamento Quando a pesquisa envolve a interrogação direta das pessoas cujo comportamento se deseja conhecer Esta pesquisa pode ser de uma amostra ou de uma população Exemplos são os estudos de opiniões e atitudes Estudo de Caso Envolve o estudo profundo e exaustivo de um ou poucos objetos buscando profundo detalhamento e conhecimento Pesquisa de Campo Caracterizase pelas investigações realizadas por meio da coleta de dados junto às pessoas somando à pesquisa bibliográfica eou documental Pesquisa de Laboratório É uma pesquisa mais exata pois vai preocuparse em descrever e analisar situações que são controladas Essas situações poderão ocorrer tanto em um 9 recinto fechado um laboratório como em um recinto aberto e terão como característica básica o controle sobre os dados e efeitos Pesquisa Ex PostFacto Investiga possíveis relações de causa e efeito entre um determinado fato e um fenômeno que ocorre posteriormente É o inverso do experimental pois os dados são coletados após a ocorrência dos eventos Fonte Adaptado de Silva e Menezes 2001 Gil 2002 Morais e Boiko 2013 Após a classificação deverá explicar COMO exatamente irá desenvolver o seu projeto COMO irá atingir o objetivo da pesquisa eg visita à empresa coletar dados aplicar ferramenta etc ou seja NÃO É um passo a passo para a sequência de escrita do documento eg escrever introdução escrever fundamentação escrever metodologia etc As atividades a serem desenvolvidos no projeto deverão ser listadas e descritas seguindo uma ordem cronológica adequada e passível de compreensão a qualquer outro pesquisador que pretenda repetir esta pesquisa Consequentemente no cap de Resultados capítulo 4 será preciso descrever a mesma ordem de eventos aqui descrita Estas atividades podem ser listadas em marcadores numéricos uma vez que a ordem das etapas é importante 1Nome da primeira atividade descrever 2Nome da segunda atividade descrever 3 Exemplo 1 Caracterização da empresa 2 Coleta de Dados informações 10 3 Elaboração de Fluxograma do processo atual 4 Aplicação da Técnica 5 Realizar estimativa de ganhos financeiros com a padronização de processos ou redução de desperdícios 6 Caso seu projeto seja pesquisa bibliográfica deverá criar itens relacionados a Qual a estratégia para buscar as melhores fontes Como pretende executar e iniciar estas pesquisas quais os sites qual o foco da pesquisa Irá utilizar quais palavras chaves nos sites no campo de busca O que especificamente pretende analisar nestas pesquisas desafios estratégias novas oportunidades de desenvolvimento combinações com novas tecnologias perspectivas para o futuro etc 4 RESULTADOS E DISCUSSÕES A sequência dos resultados deverá seguir exatamente a mesma ordem de atividades desenvolvidas no capítulo de Metodologia tanto em pesquisas empíricas práticas como em pesquisas teóricas Após apresentar a metodologia o texto deve trazer os resultados da pesquisa além de uma discussão sobre eles Um trabalho de conclusão de curso sem resultados e discussões é um trabalho incompleto O principal objetivo é interpretar as relações entre o que foi desenvolvido com o teste das hipóteses e a resolução dos problemas Quanto melhores forem as contestações demonstradas aqui maior será a qualidade do seu projeto Citações são importantes neste capítulo de resultados principalmente em pesquisas bibliográficas mas é importante lembrar de não utilizar citações diretas neste 11 capítulo pois os resultados do SEU projeto deverão ter prevalência ao SEU texto apenas baseandose em outros autores no alcance de resultados satisfatórios Gráficos tabelas e outras ilustrações são bemvindos para demonstrar os resultados obtidos 5 CONSIDERAÇÕES FINAIS As conclusões devem responder às questões da pesquisa em relação aos objetivos e às hipóteses Devem ser breves podendo apresentar recomendações e sugestões para trabalhos futuros Na conclusão não deverá ser utilizado citação e não se deve repetir os resultados A conclusão deverá responder os objetivos do trabalho portanto antes de redigi la o autor deverá ler os objetivos e então apresentar a conclusão de forma coerente com os mesmos REFERÊNCIAS Referências devem ser organizadas em ordem alfabética Tudo que for citado no texto DEVE constar nas referências e tudo que estiver nas referências DEVE constar no texto Estude os exemplos abaixo para que possa preencher corretamente as referências do seu projeto As classificações em verde são apenas guias para este modelo ou seja no seu projeto deve colocar apenas as referências sequencialmente na ordem alfabética 12 Esteja atento as palavras com negrito a formatação do seu texto deve seguir exatamente a mesma estrutura de cada categoria aqui descrita Exemplo de livro Apenas 1 autor SOBRENOME Nome Abreviado Título subtítulo se houver Edição se houver Local de publicação Editora data de publicação da obra RAUEN Fábio José Roteiros de pesquisa Rio do Sul Nova Era 2006 TANENBAUM Andrew Redes de computadores 5 ed São Paulo Elsevier 2016 QUEIRÓZ E O Primo Basílio 25 ed Rio de Janeiro Ediouro 1878 Até 3 autores SOBRENOME Nome Abreviado SOBRENOME Nome Abreviado SOBRENOME Nome Abreviado Título subtítulo se houver Edição se houver Local de publicação Editora data de publicação da obra ADES L KERBAUY R R Análise sobre o Comportamento de Compra 5 ed São Paulo Editora USP 2002 MAIS de 3 autores SOBRENOME Nome Abreviado et al Título subtítulo se houver Edição se houver Local de publicação Editora data de publicação da obra SILVA L et al Como a Poluição Afeta nossa Saúde 1 ed Curitiba Editora Sol Nascente 2002 Autor é desconhecido TÍTULO EM CAIXA ALTA Edição se houver Local de publicação Editora data de publicação da obra Página AS VÁRIAS FACES DA SAÚDE São Paulo Editora Academia 1994 p134 Exemplo de Monografia 13 MEDEIROS João Bosco Alucinação e magia na arte o ultimatum futurista de Almada Negreiros 1991 100 f Monografia Departamento de Letras Faculdade de Filosofia Letras e Ciências Humanas USP São Paulo 1991 Exemplo de TCC BRUXEL J L Definição de um interpretador para a linguagem Portugol utilizando gramática de atributos 1996 77 f Trabalho de Conclusão de Curso Bacharelado em Ciências da Computação Centro de Ciências Exatas e Naturais Universidade Regional de Blumenau Blumenau Exemplo de Trabalho apresentado em Evento CONGRESSO DO MINISTÉRIO PÚBLICO DO ESTADO DE SÃO PAULO 3 2005 Anais São Paulo Páginas Letras 2006 v 1 ISBN 8586508535 CONGRESSO DO MINISTÉRIO PÚBLICO DO ESTADO DE SÃO PAULO 3 2005 Anais São Paulo Páginas Letras 2006 v 2 ISBN 8586508535 ESSADO Tiago Cintra O poderdever material de investigação do Ministério Público In Congresso do Ministério Público do Estado de São Paulo 3 2005 Anais São Paulo Páginas Letras 2006 p205209 FRALEIGH A The Algerian of independence In Annual Meeting of the American Society of International Law 61 1967 Washington Proceedings Washington Society of International Law 1967 p 612 MORAIS M DE F BOIKO T J P Metodologia de Pesquisa uma proposta de estrutura para pesquisas técnicocientíficas em Engenharia de Produção VIIIE Encontro de Engenharia de Produção Agroindustrial v 1 p 112 2013 SANTOS IB MAURICIO TB Aplicação de Ferramentas da Qualidade para Análise e Solução de Rupturas em um Processo de Admissão de Estagiários In ENEGEP Encontro Nacional de Engenharia de Produção 36 Anais João PessoaPB Abepro 2016 Exemplo de ARTIGO SOBRENOME Nome Título da matéria Nome do jornal cidade de publicação dia mês e ano Seção se houver Acesso em dia mês e ano 14 CASAGRANDE Naiara Machado Vanessa Renata Monteiro and Nadja Zim Alexandre Aplicação do método Lean Seis Sigma no reuso do efluente tratado Estudo de caso fabricação de papel tissue Tecnologia e Ambiente 25 2019 160175 KNUTH D E Semantic of contextfree languages Mathematical Systems Theory New York v 2 n 2 p 3350 JanMar 1968 NUNES C História da educação brasileira novas abordagens de velhos objetos Teoria Educação Porto Alegre n 6 p 151182 1992 Exemplo de Artigo com autor SOBRENOME Nome Título da matéria Nome do jornal cidade de publicação dia mês e ano Seção se houver CARAZZAI Estelita Hass Trump agora promete acabar com política que separa famílias de refugiados Folha de SPaulo São Paulo 20 de jun de 2018 Exemplo de Artigo sem autor neste caso as referências também devem constar no RODAPÉ DA PÁGINA Na nota de rodapé 1 TÍTULO da matéria Nome do jornal cidade de publicação dia mês e ano Seção se houver Na lista de referências TÍTULO da matéria Nome do jornal cidade de publicação dia mês e ano Seção se houver TRUMP agora promete acabar com política que separa famílias de refugiados Folha de SPaulo São Paulo 20 de jun de 2018 Exemplo de Dissertação ALVERODRIGUES M V Qualidade de vida no trabalho 1989 180 f Dissertação Mestrado em Administração Faculdade de Ciências Econômicas Universidade Federal de Minas Gerais Belo Horizonte 1989 Exemplo de Tese 15 RAUEN Fábio José Influência do sublinhado na produção de resumos informativos 1996 200f Tese Doutorado em LetrasLingüística Curso de Pós graduação em LetrasLingüística Universidade Federal de Santa Catarina Florianópolis 1996 Exemplo de Informação de Internet www com AUTOR SOBRENOME Nome Título da matéria Nome do site ano Disponível em URL Acesso em dia mês e ano ALVES Jessica O correto é há muito tempo ou a muito tempo EducaBrasil 2022 Disponível em httpswwweducamaisbrasilcombreducacaodicasocorretoeha muitotempoouamuitotempo Acesso em 20 de ago de 2022 Exemplo de Informação de Internet www sem AUTOR neste caso as referências também devem constar no RODAPÉ DA PÁGINA TÍTULO da matéria Nome do siteautor ano Disponível em URL Acesso em dia mês e ano No texto O Engenheiro de Produção possui vasta atuação no mercado tanto no segmento industrial como na área de serviços1 Na nota de rodapé 1 ENGENHEIRO de Produção pode trabalhar com inteligência artificial EducaBrasil 2019 Disponível em httpswwweducamaisbrasilcombrcursose faculdadesengenhariadeproducaonoticiasengenheirodeproducaopodetrabalhar cominteligenciaartificial Acesso em 20 de jun de 2020 na primeira vez que aparece no texto Na lista de referências ENGENHEIRO de Produção pode trabalhar com inteligência artificial EducaBrasil 2019 Disponível em httpswwweducamaisbrasilcombrcursose faculdadesengenhariadeproducaonoticiasengenheirodeproducaopodetrabalhar cominteligenciaartificial Acesso em 20 de jun de 2020 Exemplo de norma 16 ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS NBR 6023 Informação e documentação Referências Rio de Janeiro p 24 2002 ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS NBR 6029 Informação e documentação Livros e folhetos Rio de Janeiro p 162 2006 ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS NBR 9050 Acessibilidade a edificações mobiliário espaços e equipamentos urbanos Rio de Janeiro p 162 2015 MT Ministério do Trabalho Portaria nº 24GM de 29 de dezembro de 1994 NR 7 Norma Regulamentadora7 1994 Programa de contole médico de saúde ocupacional Diário Oficial da União Poder Executivo Brasília DF 30 dez 1994 Exemplo de legislação BRASIL Constituição 1988 Constituição da República Federativa do Brasil 1988 Brasília Senado Federal Centro Gráfico 1988 BRASIL Lei nº 9394 de 20 de dezembro de 1996 Estabelece as diretrizes e bases da educação nacional Diário Oficial da União Brasília DF v 134 n 248 23 dez 1996 Seção 1 p 2783427841 BRASIL Portaria nº 344 de 12 de maio de 1998 Aprova o Regulamento Técnico sobre substâncias e medicamentos sujeitos a controle especial Diário Oficial da União 31 dez 1998 Seção I 1 SISTEMA HÍBRIDO PARA COMPARAÇÃO DE DOCUMENTOS TEXTUAIS COM TFIDF MÉTRICAS ESTATÍSTICAS E EMBEDDINGS SEMÂNTICOS SOBRENOME Nome do Aluno1 SOBRENOME Nome do Orientador2 RESUMO A comparação de documentos textuais é uma necessidade recorrente em contextos acadêmicos organizacionais e científicos especialmente quando se busca identificar interrelações temáticas entre arquivos com estilos de escrita distintos Métodos exclusivamente lexicais podem apresentar limitações em cenários de paráfrase enquanto abordagens estritamente semânticas podem reduzir a transparência interpretativa dos resultados Diante disso este trabalho tem como objetivo desenvolver e avaliar um sistema de comparação de conteúdo entre dois documentos capaz de estimar indicadores de similaridade e correlação e apresentar evidências explicáveis da relação entre textos A pesquisa justificase pela demanda por soluções acessíveis replicáveis e interpretáveis para análise documental integrando fundamentos clássicos de Recuperação de Informação a técnicas modernas de representação semântica A metodologia adotada envolveu o projeto e a implementação de um protótipo web voltado à comparação documental em múltiplos formatos com suporte a arquivos TXT PDF e DOCX incorporando um pipeline de préprocessamento textual e a integração de métricas complementares de similaridade e correlação No núcleo técnico do sistema foram utilizadas vetorização por TFIDF com similaridade cosseno correlação de Pearson baseada em frequências de termos índice de Jaccard e similaridade semântica por embeddings via Sentence Transformers de modo a equilibrar robustez de detecção temática e transparência interpretativa Os testes experimentais com pares de textos do mesmo tema textos distintos e textos parafraseados indicaram que a abordagem híbrida implementada no protótipo melhora a detecção de proximidade temática e sustenta a explicabilidade por meio de termos compartilhados e visualizações Palavraschave Comparação de Documentos Similaridade Textual TFIDF Embeddings Semânticos Processamento de Linguagem Natural 1 Informações do aluno exceto o nome 2 Informações do orientador exceto o nome 2 1 INTRODUÇÃO A produção e circulação de documentos textuais em ambientes digitais cresceram de forma intensa nos últimos anos alcançando universidades empresas órgãos públicos e plataformas de conhecimento Esse cenário ampliou o acesso à informação mas também trouxe desafios para organização de acervos análise de conteúdo identificação de redundâncias apoio à tomada de decisão e avaliação de proximidade temática entre materiais de diferentes origens Em contextos acadêmicos a comparação entre textos pode apoiar revisões da literatura e mapeamentos de temas emergentes Em ambientes organizacionais pode contribuir para a gestão do conhecimento a padronização de relatórios e a redução de retrabalho Assim tornase relevante dispor de métodos automáticos que estimem a interrelação entre documentos com critérios objetivos e reprodutíveis Na Recuperação de Informação a representação vetorial consolidou métricas lexicais como TFIDF e similaridade cosseno amplamente utilizadas em indexação e comparação de textos devido à simplicidade eficiência e interpretabilidade MANNING RAGHAVAN SCHÜTZE 2008 Entretanto em situações de paráfrase reescrita ou variação estilística documentos semanticamente próximos podem apresentar baixa sobreposição lexical Nesses casos métodos exclusivamente baseados em termos tendem a subestimar relações temáticas especialmente quando a análise ocorre em nível documental e envolve textos longos ZATARAIN GONZÁLEZCASTOLO RAMOSCABRAL 2025 Avanços recentes em Processamento de Linguagem Natural destacam o uso de embeddings para capturar proximidade de significado mesmo quando o vocabulário difere REIMERS GUREVYCH 2019 A biblioteca Sentence Transformers e seus modelos multilíngues permitem aplicar essa abordagem de forma acessível na comparação de sentenças e documentos SENTENCETRANSFORMERS 2025a SENTENCETRANSFORMERS 2025b Benchmarks contemporâneos também indicam uma tendência de integração entre estratégias lexicais e semânticas para análises mais robustas em múltiplos idiomas RANASINGHE et al 2025 Esse panorama evidencia a oportunidade de desenvolver um sistema híbrido que combine 3 métricas clássicas leituras estatísticas e embeddings gerando indicadores quantitativos e evidências interpretáveis da relação entre documentos Neste estudo o índice de interrelação é interpretado a partir do conjunto de métricas com ênfase na correlação de Pearson como leitura estatística complementar às similaridades lexical e semântica Ressaltase que nesta versão do protótipo não se adota um índice composto único a interrelação é inferida pela leitura conjunta dos indicadores lexical estatístico e semântico apresentados pelo sistema Com base nisso estabelecese a seguinte pergunta de pesquisa como desenvolver e avaliar um sistema híbrido de comparação de documentos textuais que estime a interrelação entre dois arquivos por meio de métricas lexicais estatísticas e semânticas gerando indicadores quantitativos e evidências interpretáveis da similaridade O objetivo geral deste trabalho é desenvolver e avaliar um sistema híbrido de comparação de documentos textuais que integre TFIDF métricas estatísticas e embeddings semânticos para estimar a interrelação entre dois arquivos Como objetivos específicos definemse i analisar fundamentos teóricos de Recuperação de Informação e Similaridade Textual ii projetar a arquitetura do sistema e o pipeline de préprocessamento e representação textual iii implementar um protótipo web com suporte à leitura de arquivos TXT PDF e DOCX iv integrar e calcular métricas lexicais e estatísticas incluindo similaridade cosseno com TFIDF correlação de Pearson baseada em frequências de termos e índice de Jaccard v incorporar embeddings semânticos utilizando Sentence Transformers e comparar os resultados com métodos lexicais e vi realizar testes com pares de documentos de temas iguais diferentes e parafraseados analisando coerência dos indicadores e potencial de explicabilidade por termos compartilhados e visualizações A pesquisa justificase pela necessidade de soluções de comparação textual que sejam acessíveis interpretáveis e coerentes com o estado da arte Enquanto métricas lexicais favorecem transparência e auditoria do resultado embeddings ampliam a robustez em contextos de variação linguística e reescrita Assim ao propor e implementar uma abordagem híbrida em um sistema funcional este estudo contribui para as áreas de Processamento de Linguagem Natural e Recuperação de Informação 4 e pode apoiar pesquisa organização de acervos digitais e gestão do conhecimento Para reforçar práticas de ciência aberta e permitir replicação dos experimentos o protótipo e os arquivos de teste foram disponibilizados em repositório público no GitHub acompanhados de instruções de execução e dependências Além desta introdução este trabalho está estruturado da seguinte forma a Seção 2 discute os fundamentos conceituais relacionados à comparação e à similaridade de documentos textuais A Seção 3 descreve a metodologia e as decisões de engenharia do sistema A Seção 4 apresenta e discute os resultados experimentais Por fim a Seção 5 reúne as considerações finais limitações e possibilidades de trabalhos futuros 2 REPRESENTAÇÕES E MÉTRICAS PARA COMPARAÇÃO DE DOCUMENTOS TEXTUAIS A comparação de documentos textuais exige bases conceituais que expliquem como textos podem ser representados analisados e relacionados por métricas quantitativas Como diferentes abordagens capturam dimensões distintas de proximidade desde sobreposição lexical até similaridade de significado tornase necessário integrar fundamentos da Recuperação de Informação e do Processamento de Linguagem Natural para sustentar escolhas técnicas consistentes Neste capítulo são apresentados os conceitos de representação textual e as métricas de similaridade aplicáveis ao desenvolvimento de um sistema de comparação de conteúdo com destaque para o modelo vetorial a ponderação TFIDF medidas complementares baseadas em conjuntos e correlação e o uso de embeddings semânticos Essa fundamentação fornece suporte para as decisões de engenharia do protótipo e para a interpretação do índice de correlação adotado como síntese comparativa entre dois arquivos 21 RECUPERAÇÃO DE INFORMAÇÃO E O MODELO VETORIAL 5 A comparação automática de documentos textuais está associada ao campo de Recuperação de Informação RI que investiga métodos para organizar indexar e recuperar conteúdo em coleções de textos Em ambientes acadêmicos e organizacionais a RI oferece uma base conceitual para representar documentos formalmente e comparálos por critérios objetivos permitindo interpretar resultados de proximidade de modo sistemático MANNING RAGHAVAN SCHÜTZE 2008 Entre os modelos clássicos o modelo vetorial consolidouse como referência para comparação textual Nesse paradigma documentos são representados como vetores em um espaço de termos no qual cada dimensão corresponde ao vocabulário da coleção Essa representação permite estimar relações entre textos por operações matemáticas favorecendo análises de similaridade e construção de indicadores reproduzíveis MANNING RAGHAVAN SCHÜTZE 2008 Uma vantagem relevante desse modelo especialmente no desenvolvimento de sistemas de comparação documental é a interpretabilidade o resultado quantitativo mantém conexão com os termos que sustentam a similaridade Esse aspecto permite que o protótipo associe o score a evidências observáveis como termos compartilhados reforçando transparência na análise MANNING RAGHAVAN SCHÜTZE 2008 Ainda assim a literatura ressalta que similaridade também envolve significado não apenas coincidência literal de palavras Em reescritas uso de sinônimos e variações estilísticas documentos do mesmo tema podem apresentar baixa sobreposição lexical Por isso o modelo vetorial deve ser entendido como peça de uma estratégia mais ampla especialmente quando o sistema precisa distinguir proximidade temática em nível documental JURAFSKY MARTIN 2025 22 REPRESENTAÇÕES LEXICAIS E SIMILARIDADE BASEADA EM TERMOS As representações lexicais descrevem documentos a partir da presença e relevância de palavras Entre as abordagens mais difundidas o TFIDF permite estimar a importância de um termo considerando sua frequência no documento e sua raridade na coleção analisada MANNING RAGHAVAN SCHÜTZE 2008 Assim termos 6 comuns ao conjunto total recebem menor peso enquanto palavras mais características de um texto ganham destaque No contexto do sistema proposto o TFIDF funciona como base estruturante da comparação lexical favorecendo análises eficientes e interpretáveis Essa escolha se alinha ao uso da similaridade cosseno que estima proximidade entre documentos a partir do ângulo entre seus vetores reduzindo o impacto do tamanho do texto sobre o resultado final MANNING RAGHAVAN SCHÜTZE 2008 Embora robustas como baseline medidas estritamente lexicais podem se enfraquecer em cenários de paráfrase e variação vocabular significativa Nessas situações mudanças pontuais no vocabulário podem reduzir o score mesmo quando o tema permanece equivalente Por esse motivo abordagens lexicais costumam ser combinadas a outras métricas e representações sobretudo em sistemas que buscam analisar interrelações temáticas de forma mais abrangente JURAFSKY MARTIN 2025 23 PRÉPROCESSAMENTO TEXTUAL E NORMALIZAÇÃO A qualidade das representações textuais depende diretamente do pré processamento adotado Essa etapa busca reduzir ruídos e padronizar padrões superficiais da escrita tornando a comparação entre documentos mais consistente do ponto de vista computacional JURAFSKY MARTIN 2025 Para um sistema que aceita múltiplos formatos de arquivo decisões como tokenização normalização de caixa remoção de pontuação e tratamento de stopwords são fundamentais para estabilizar resultados A normalização também reduz distorções causadas por diferenças de estilo e formatação Em coleções heterogêneas pequenas variações estruturais podem aumentar artificialmente a dissimilaridade lexical Assim no protótipo desenvolvido o préprocessamento é compreendido como um módulo essencial de padronização para garantir maior aderência entre o conteúdo analisado e as métricas aplicadas especialmente nas representações baseadas em termos como o TFIDF MANNING RAGHAVAN SCHÜTZE 2008 JURAFSKY MARTIN 2025 7 24 MÉTRICAS LEXICAIS ESTATÍSTICAS E BASEADAS EM CONJUNTOS A comparação de documentos pode ser ampliada ao incorporar métricas complementares que analisam a relação entre textos por diferentes perspectivas Além do cosseno com TFIDF como medida de proximidade lexical ponderada o índice de Jaccard oferece uma leitura direta da interseção de vocabulário relevante entre dois documentos Essa medida é útil tanto para análises exploratórias quanto para a camada explicativa do sistema pois associa o resultado ao compartilhamento de termos centrais MANNING RAGHAVAN SCHÜTZE 2008 A correlação de Pearson aplicada a vetores de frequência de termos adiciona uma dimensão estatística à comparação Ao observar o alinhamento entre padrões de uso de vocabulário essa métrica pode reforçar conclusões de proximidade ou evidenciar divergências relevantes No escopo deste trabalho sua adoção contribui para a construção de um índice interpretável de interrelação textual alinhado à proposta de estimar a correlação entre dois arquivos em uma aplicação funcional JURAFSKY MARTIN 2025 A literatura recente também reforça que estratégias multiindicador tendem a oferecer análises mais robustas pois diferentes métricas capturam dimensões distintas do fenômeno textual sobreposição de palavras peso informativo e alinhamento de padrões lexicais o que favorece a estabilidade do diagnóstico em cenários contrastantes MANNING RAGHAVAN SCHÜTZE 2008 IHNAINI et al 2024 25 SIMILARIDADE SEMÂNTICA E EMBEDDINGS DE TEXTOS Embora métricas lexicais e estatísticas forneçam evidências consistentes e interpretáveis estudos contemporâneos apontam limitações dessas abordagens em casos de reformulação paráfrase e variação lexical substantiva Nesses cenários documentos podem compartilhar o mesmo núcleo temático sem apresentar grande coincidência de termos reduzindo os escores de métodos baseados exclusivamente em vocabulário JURAFSKY MARTIN 2025 IHNAINI et al 2024 8 Embeddings semânticos oferecem uma alternativa robusta ao representar textos em espaços vetoriais densos capazes de capturar proximidade de significado O SentenceBERT SBERT constitui um marco importante ao adaptar arquiteturas do tipo BERT para produzir embeddings comparáveis de forma eficiente viabilizando a estimativa de similaridade semântica por cosseno em tarefas de busca agrupamento e comparação textual REIMERS GUREVYCH 2019 No sistema proposto essa camada semântica complementa as métricas lexicais ao permitir reconhecer proximidade temática mesmo sob baixa sobreposição vocabular 251 SENTENCE TRANSFORMERS E MODELOS MULTILÍNGUES A biblioteca Sentence Transformers consolidouse como uma das implementações práticas mais relevantes para o uso de embeddings em tarefas de similaridade Sua documentação destaca a aplicação de modelos prétreinados para comparação de sentenças parágrafos e documentos com custo operacional viável para sistemas aplicados SENTENCETRANSFORMERS 2025a No contexto multilíngue modelos como o paraphrasemultilingualMiniLML12v2 mapeiam textos de diferentes idiomas para um espaço vetorial compartilhado favorecendo análises em português e aumentando robustez diante de variações lexicais e estilísticas Essa característica reforça a adequação dessa escolha para o protótipo desenvolvido sobretudo em comparação de documentos com grande diversidade vocabular SENTENCETRANSFORMERS 2025b RANASINGHE et al 2025 26 COMPARAÇÃO DE TEXTOS LONGOS E AGREGAÇÃO DE SIGNIFICADO A extensão dos textos constitui um fator adicional de complexidade para a similaridade Em documentos longos diferentes seções podem contribuir de maneira desigual para o significado global e a proximidade temática pode estar concentrada em segmentos específicos Por isso a literatura recente indica que análises de similaridade documental exigem maior cuidado em cenários de textos extensos ZATARAIN GONZÁLEZCASTOLO RAMOSCABRAL 2025 9 Esse aspecto reforça a pertinência de combinar abordagens lexicais e semânticas no sistema proposto Enquanto embeddings contribuem para capturar proximidade conceitual em nível temático métricas baseadas em termos preservam interpretabilidade por evidências observáveis e favorecem a explicação do índice final de interrelação IHNAINI et al 2024 ZATARAIN GONZÁLEZCASTOLO RAMOS CABRAL 2025 27 ABORDAGENS HÍBRIDAS E EXPLICABILIDADE EM SIMILARIDADE DOCUMENTAL A integração entre métricas lexicais estatísticas e embeddings é apresentada na literatura como uma estratégia consistente para ampliar robustez e confiabilidade em tarefas de similaridade Métodos como TFIDF com cosseno Jaccard e leituras de correlação oferecem evidências interpretáveis por termos compartilhados e alinhamento vocabular enquanto embeddings aumentam sensibilidade temática diante de variação lexical MANNING RAGHAVAN SCHÜTZE 2008 REIMERS GUREVYCH 2019 IHNAINI et al 2024 Essa complementaridade é especialmente relevante em um sistema cujo objetivo é estimar interrelações entre dois arquivos e produzir um índice de correlação acompanhado de evidências compreensíveis Assim a abordagem híbrida adotada neste trabalho busca equilibrar desempenho analítico e transparência interpretativa oferecendo suporte teórico e técnico para as decisões de implementação do protótipo e para a leitura dos resultados experimentais JURAFSKY MARTIN 2025 IHNAINI et al 2024 3 METODOLOGIA Este estudo tem como foco a proposição e avaliação de um sistema híbrido para comparação de documentos textuais integrando métricas lexicais estatísticas e semânticas com o objetivo de estimar a interrelação entre dois arquivos e oferecer evidências interpretáveis de similaridade O percurso metodológico adota as 10 orientações de classificação de pesquisa apresentadas por Silva e Menezes 2001 Gil 2002 e Morais e Boiko 2013 permitindo caracterizar o estudo quanto à natureza abordagem do problema objetivos e procedimentos técnicos de modo a favorecer clareza rigor e reprodutibilidade Quanto à natureza esta pesquisa é classificada como aplicada pois busca resolver um problema prático desenvolver uma solução funcional para comparação de conteúdo entre dois documentos com suporte a múltiplos formatos de arquivo e geração de indicadores quantitativos acompanhados de evidências de interpretação SILVA MENEZES 2001 Assim o estudo é orientado à construção de um protótipo utilizável em contextos acadêmicos e organizacionais No que se refere à abordagem do problema adotase uma perspectiva predominantemente quantitativa fundamentada no cálculo de métricas numéricas para estimar proximidade textual contemplando sinais de vocabulário distribuição de termos e similaridade semântica por embeddings SILVA MENEZES 2001 GIL 2002 Complementarmente a análise dos resultados assume um caráter descritivo interpretativo ao examinar coerência temática contraste entre métricas e qualidade explicativa das evidências apresentadas ao usuário Em relação aos objetivos o estudo possui caráter prescritivo pois propõe uma estratégia de solução para comparação documental ao articular uma abordagem híbrida sustentada na literatura Apresenta também traços exploratórios ao investigar o comportamento das métricas diante de pares de documentos com diferentes níveis de proximidade lexical e semântica com atenção especial à consistência do índice de interrelação gerado pelo sistema GIL 2002 MORAIS BOIKO 2013 Quanto aos procedimentos técnicos combinamse pesquisa bibliográfica e pesquisa experimental A etapa bibliográfica consolida os fundamentos de Recuperação de Informação métricas lexicaisestatísticas e representações semânticas orientando a seleção de técnicas o desenho do pipeline e a definição do conjunto de evidências explicáveis a ser exposto na interface do sistema GIL 2002 A etapa experimental valida o comportamento das métricas em cenários representativos de comparação documental verificando se a integração proposta distingue adequadamente 11 proximidade temática dissimilaridade de assunto e casos de reescritaparáfrase SILVA MENEZES 2001 O percurso metodológico foi estruturado em etapas de engenharia coerentes com o objetivo central do trabalho Inicialmente realizouse o levantamento teórico para delimitar dimensões complementares de comparação proximidade lexical ponderada sobreposição de vocabulário alinhamento de padrões de frequência e similaridade semântica Em seguida definiramse requisitos funcionais e não funcionais do protótipo com ênfase na necessidade de receber documentos em formatos TXT PDF e DOCX padronizar entradas por préprocessamento e apresentar ao usuário resultados numéricos acompanhados por evidências interpretáveis Na etapa de implementação estruturouse um protótipo web desenvolvido em Python com interface construída no framework Streamlit responsável pelo fluxo de interação do usuário upload dos arquivos e visualização comparativa dos indicadores Para leitura e extração de texto foram integradas bibliotecas específicas para diferentes formatos utilizandose pypdf para documentos PDF e pythondocx para arquivos DOCX além do suporte direto à leitura de TXT O pipeline de pré processamento textual foi implementado com apoio do NLTK incluindo procedimentos de normalização e filtragem linguística para reduzir ruídos e estabilizar as métricas No núcleo computacional do sistema utilizouse o ecossistema científico do Python para representar e comparar os documentos A vetorização lexical por TFIDF e as rotinas de cálculo associadas foram implementadas com suporte do scikitlearn complementadas por operações auxiliares com NumPy Para a análise estatística e de conjuntos integrouse o cálculo da correlação de Pearson baseada em frequências de termos e do índice de Jaccard compondo uma leitura multiindicador da interrelação entre textos A camada semântica foi incorporada por meio da biblioteca Sentence Transformers para geração de embeddings com execução baseada em PyTorch permitindo a estimativa de similaridade por cosseno em um espaço vetorial denso Quando necessário estruturas de organização e consolidação dos resultados utilizaram Pandas para facilitar a apresentação dos dados na interface do protótipo Por fim organizaramse testes experimentais com pares de documentos distribuídos em três cenários contrastantes i textos do mesmo tema com escrita 12 diferente ii textos de temas distintos e iii textos muito próximos semanticamente por reescrita técnica Essa organização possibilita avaliar a sensibilidade de cada métrica isoladamente e o ganho interpretativo da abordagem híbrida quando os resultados são analisados em conjunto Com o objetivo de reforçar a transparência do desenvolvimento e assegurar reprodutibilidade o protótipo implementado os scripts auxiliares e os arquivos de teste utilizados nos experimentos foram disponibilizados em repositório público no GitHub acompanhados de instruções de execução e dependências O repositório do projeto está disponível em INSERIR LINK DO GITHUB Essa disponibilização permite replicação dos testes descritos neste trabalho e facilita a ampliação do sistema para novos conjuntos documentais 4 RESULTADOS E DISCUSSÕES Esta seção apresenta e discute os resultados obtidos a partir da implementação e avaliação do protótipo de comparação de documentos descrito na metodologia O objetivo desta etapa é analisar o comportamento do sistema híbrido em cenários contrastantes de interrelação textual e verificar a contribuição das métricas integradas e dos recursos de interface para a explicabilidade dos resultados Com base na fundamentação teórica o sistema foi estruturado para combinar quatro sinais principais de comparação proximidade lexical ponderada por TFIDF sobreposição de vocabulário por Jaccard alinhamento de frequência por correlação de Pearson e similaridade semântica por embeddings Essa composição foi implementada no protótipo web com um fluxo de préprocessamento unificado e suporte à leitura de arquivos TXT PDF e DOCX permitindo que a comparação ocorra de forma padronizada independentemente do formato de entrada A interface foi projetada para exibir os indicadores em conjunto e apresentar evidências lexicais por meio da extração de termos compartilhados reforçando a transparência de interpretação Os testes experimentais foram organizados em três cenários i documentos do mesmo tema com escrita diferente ii documentos de temas distintos e iii documentos semanticamente próximos por reescrita técnica Esse arranjo buscou 13 avaliar não apenas a coerência dos escores numéricos mas também a capacidade do sistema de evidenciar ao usuário por que determinados pares são interpretados como próximos ou distantes Tabela 1 Resultados comparativos das métricas aplicadas aos pares de documentos avaliados Cenário TFIDF cosseno Pearson freq Jaccard Embedding cosseno Síntese interpretativa Textos 1 e 2 mesmo tema 04073 01854 02146 09115 Sobreposição lexical moderada e alta proximidade semântica Par A temas diferentes 00036 08143 00051 04072 Dissimilaridade lexical extrema e baixa proximidade semântica Par B paráfrase técnica 04673 01070 03459 09588 Similaridade semântica muito alta com variação lexical moderada A Tabela 1 sintetiza os valores obtidos e evidencia como a leitura integrada dos indicadores amplia a robustez interpretativa do sistema Em particular a diferença de comportamento entre métricas lexicais e embeddings reforça a utilidade de uma abordagem híbrida quando o objetivo é estimar interrelação temática sem perder suporte explicável baseado em vocabulário No primeiro cenário relativo aos Textos 1 e 2 a similaridade por TFIDF 04073 e o índice de Jaccard 02146 indicam uma sobreposição lexical moderada enquanto a correlação de Pearson 01854 sugere alinhamento parcial dos padrões de frequência Em contraste a similaridade por embeddings 09115 aponta forte proximidade semântica Esse comportamento é coerente com textos pertencentes ao mesmo domínio porém com diferenças na seleção e na organização de termos destacando o papel do componente semântico para sustentar a interpretação de proximidade temática mesmo diante de variação vocabular Figura 1 Gráfico de barras com os termos centrais compartilhados entre os Textos 1 e 2 14 Fonte Autoria própria 2025 A Figura 1 atua como evidência complementar na interface do sistema ao expor termos recorrentes compartilhados no cenário de mesmo tema Essa visualização reforça a interpretabilidade da comparação conectando os escores lexicais à presença de vocabulário associado ao domínio analisado e oferecendo ao usuário uma justificativa textual para a relação detectada No segundo cenário referente ao Par A os resultados lexicais foram próximos de zero em TFIDF 00036 e Jaccard 00051 e a correlação de Pearson foi fortemente negativa 08143 indicando divergência significativa nos padrões de vocabulário A similaridade por embeddings 04072 permaneceu baixa sugerindo que a proximidade semântica é limitada Em conjunto esses sinais sustentam o diagnóstico de dissimilaridade temática consistente demonstrando que o sistema não depende de um único indicador para diferenciar pares de assuntos distintos No terceiro cenário referente ao Par B observouse uma similaridade lexical intermediária por TFIDF 04673 e Jaccard 03459 com Pearson relativamente baixo 01070 Já a similaridade por embeddings 09588 indicou equivalência semântica muito elevada Esse resultado é característico de reescrita técnica com manutenção do conteúdo central sugerindo que o componente semântico do sistema é decisivo para capturar interrelação de significado quando a correspondência literal de vocabulário não é alta o suficiente para explicar sozinho a proximidade entre os documentos Durante os testes verificouse ainda que marcadores estruturais como Título podem surgir entre termos compartilhados especialmente em cenários de menor relação temática Esse comportamento evidencia limitações de préprocessamento e 15 aponta a necessidade de refinamento futuro de filtros textuais e listas de stopwords para reduzir ruídos provenientes de cabeçalhos e metadados quando a camada explicativa do sistema estiver ativada Em síntese os resultados confirmam que o protótipo cumpre o objetivo de comparar documentos por múltiplas dimensões de similaridade e de apresentar evidências interpretáveis ao usuário A integração entre métricas lexicais estatísticas e embeddings contribui para uma leitura mais estável da interrelação entre documentos ao mesmo tempo em que a visualização de termos compartilhados fortalece a explicabilidade do sistema no nível de interface sustentando a utilidade da abordagem proposta para análise comparativa de documentos em formatos heterogêneos 5 CONSIDERAÇÕES FINAIS Este trabalho teve como objetivo desenvolver e avaliar um sistema híbrido de comparação de documentos textuais capaz de estimar a interrelação entre dois arquivos por meio de métricas lexicais estatísticas e embeddings semânticos apresentando ao usuário um índice de correlação acompanhado de evidências interpretáveis A implementação do protótipo e sua validação em cenários contrastantes permitiram alcançar o objetivo geral evidenciando que a combinação de múltiplos indicadores integrada a uma interface explicativa favorece uma análise mais segura e compreensível da relação entre documentos Em relação aos objetivos específicos o estudo organizou os fundamentos necessários para a comparação textual em decisões práticas de engenharia de software Foram definidos requisitos funcionais e não funcionais estruturado um pipeline de pré processamento e implementada uma arquitetura de aplicação com suporte aos formatos TXT PDF e DOCX A integração das métricas selecionadas em um fluxo único de cálculo e a apresentação dos resultados em camadas indicadores numéricos e evidências textuais consolidaram uma solução funcional orientada à explicabilidade e ao uso em contextos acadêmicos e organizacionais A pergunta de pesquisa foi respondida ao demonstrar que é viável construir um sistema de comparação de conteúdo que articule abordagens clássicas e semânticas em um mesmo ambiente de análise preservando tanto a sensibilidade temática quanto a 16 transparência do resultado Nesse sentido o trabalho contribui ao propor uma implementação aplicável de baixa complexidade de uso e com potencial de replicação e extensão Como limitações destacamse a dependência de modelos prétreinados para a camada semântica a sensibilidade das métricas lexicais a elementos estruturais dos documentos e o número reduzido de pares utilizados na validação inicial do protótipo Além disso o estudo foi conduzido em condições controladas o que recomenda cautela ao extrapolar o comportamento do sistema para coleções amplas e altamente heterogêneas Como trabalhos futuros sugerese ampliar os experimentos com documentos reais de diferentes domínios refinar técnicas de limpeza e detecção de metadados incorporar estratégias de segmentação e agregação de similaridade para textos longos e estudar a criação de um índice composto com ponderação ajustável das métricas Também seria relevante explorar modelos semânticos adicionais especialmente alternativas com desempenho otimizado para português e evoluir os componentes de interface para oferecer explicações ainda mais detalhadas e amigáveis ao usuário final REFERÊNCIAS 17 GIL Antonio Carlos Como elaborar projetos de pesquisa São Paulo Atlas 2002 IHNAINI Baha et al Semantic similarity on multimodal data a comprehensive and systematic literature survey Journal of King Saud University Computer and Information Sciences 2024 Disponível em httpswwwsciencedirectcomsciencearticlepiiS1319157824003525 JURAFSKY Daniel MARTIN James H Speech and Language Processing An Introduction to Natural Language Processing Computational Linguistics and Speech Recognition with Language Models 3 ed Manuscrito online 2025 Disponível em httpswebstanfordedujurafskyslp3 MANNING Christopher D RAGHAVAN Prabhakar SCHÜTZE Hinrich Introduction to Information Retrieval Cambridge Cambridge University Press 2008 MORAIS M de F BOIKO T J P Metodologia de Pesquisa uma proposta de estrutura para pesquisas técnicocientíficas em Engenharia de Produção VIIIE Encontro de Engenharia de Produção Agroindustrial v 1 p 112 2013 RANASINGHE Tharindu HETTIARACHCHI Hansi ORASAN Constantin MITKOV Ruslan MUSTS MUltilingual Semantic Textual Similarity Benchmark In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics Volume 2 Short Papers Vienna Association for Computational Linguistics 2025 REIMERS Nils GUREVYCH Iryna SentenceBERT Sentence Embeddings using Siamese BERTNetworks In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing EMNLPIJCNLP Hong Kong Association for Computational Linguistics 2019 18 SENTENCETRANSFORMERS Sentence Transformers Documentation 2025a Disponível em httpssbertnet SENTENCETRANSFORMERS Pretrained Models Sentence Transformers documentation 2025b Disponível em httpswwwsbertnetdocssentencetransformerpretrainedmodelshtml SENTENCETRANSFORMERS paraphrasemultilingualMiniLML12v2 model card 2025c Disponível em httpshuggingfacecosentencetransformersparaphrase multilingualMiniLML12v2 SILVA Edna Lúcia da MENEZES Estera Muszkat Metodologia da pesquisa e elaboração de dissertação Florianópolis UFSC 2001 ZATARAIN Omar GONZÁLEZCASTOLO Juan Carlos RAMOSCABRAL Silvia A method for semantic textual similarity on long texts PeerJ Computer Science v 11 2025 Disponível em httpspeerjcomarticlescs3202
4
Engenharia de Software
UMG
3
Engenharia de Software
UMG
1
Engenharia de Software
UMG
11
Engenharia de Software
UMG
32
Engenharia de Software
UMG
54
Engenharia de Software
UMG
11
Engenharia de Software
UMG
14
Engenharia de Software
UMG
9
Engenharia de Software
UMG
11
Engenharia de Software
UMG
Texto de pré-visualização
1 TÍTULO Centralizado em negrito fonte Arial MAIÚSCULA tamanho 14 SOBRENOME Nome do Aluno1 SOBRENOME Nome do Orientador2 Formatação do Artigo Faça a leitura do material PDF FORMATAÇÃO do Artigo O limite de páginas será de 12 a 15 páginas sem considerar o Resumo e as Referências Não utilize linguagem pessoal no Artigo Aqui é utilizado por se tratar de um Modelo Instrucional Todas as imagens no texto Figuras Tabelas e Quadros devem ser sempre citadas e explicadas previamente em parágrafo anterior Exemplo De acordo com a Figura 1 é verificado que Cada Figura Quadro ou Tabela deve possuir Legendas com a descrição e fonte Legenda com a descrição deve ficar EM CIMA da imagem Exemplo Figura 1 Descrição Legenda com a fonte deve ficar EMBAIXO da imagem Exemplo Fonte Autorano ou Autoria própriaano Para as legendas deve utilizar fonte Arial tamanho 10 sem negrito e sem itálico RESUMO O resumo deve conter uma sequência corrente de frases concisas e deve se apresentar em parágrafo único Não pule linhas para iniciar novos parágrafos O resumo deve conter entre 150 e 250 palavras sem a utilização de citações Fonte Arial tamanho 10 1Primeiro deve descrever a contextualização pelo qual o seu tema está inserido problemática 2 Descrever o objetivo geral os objetivos específicos não aparecem no resumo 3 Descrever a justificativa da pesquisa 4 Explicar a metodologia utilizada 5 Finalizar o resumo explicando sucintamente quais foram os principais resultados encontrados Palavraschave Criar entre 3 e 5 palavraschave 1 Informações do aluno exceto o nome 2 Informações do orientador exceto o nome 2 1 INTRODUÇÃO Fonte Arial tamanho 12 MAIÚSCULA com negrito Introdução é a apresentação do assunto abordado na qual será uma seção que irá aguçar a curiosidade do leitor e tentar venderlhe o projeto O formato é de Artigo portanto o fluxo de informação no capítulo 1 será ÚNICO e NÃO haverá aberturas de seções secundárias 11 12 etc Este capítulo deverá possuir MOTIVAÇÃO PROBLEMATIZAÇÃO PERGUNTA DE PESQUISA OBJETIVO GERAL OBJETIVOS ESPECÍFICOS JUSTIFICATIVA e ESTRUTURA DO TRABALHO Para facilitar a estruturação e desenvolvimento completo do capítulo de Introdução são descritas aqui 6 etapas com informações que DEVEM ser cumpridas neste capítulo 1 Deverá descrever a MOTIVAÇÃO PROBLEMATIZAÇÃO da pesquisa dentro da contextualização global que envolve o seu projeto QUAL a problematização O que quer resolver ou melhorar POR QUE é importante resolvêla DE QUE FORMA identificou esta problematização Lembrese de sempre desenvolver o texto inicial através de estudos científicos buscar no google acadêmico pelos quais deverá citálos no texto e posteriormente colocálos nas referências bibliográficas Dúvidas em relação a citações referências analise o arquivo PDF nos Materiais Complementares no AVA Você irá alinhando e afunilando esta contextualização do tema até onde for possível explicar ao leitor coerentemente e suficientemente qual a OPORTUNIDADE DE PESQUISA OU QUAL A PROBLEMÁTICA IDENTIFICADA QUE PRECISA DE MELHORIA 2 Após explicar a motivação problematização deve desenvolver a PERGUNTA DE PESQUISA 3 Uma pergunta de pesquisa é a declaração de uma indagação específica que o pesquisador deseja responder para abordar o problema de pesquisa A pergunta de pesquisa orienta os tipos de dados a serem coletados e o tipo de estudo a ser desenvolvido A pergunta de pesquisa traz uma indagação que indicará qual o problema que o objetivo geral precisará responder no seu desenvolvimento A problemática dá origem a pergunta de pesquisa a qual não pode ter respostas abertas como sim ou não mas deve causar no pesquisador esforço para a formulação da resposta 3 Após a pergunta de pesquisa deve declarar qual o OBJETIVO GERAL pelo qual será a proposta de solução de como irá resolver a problematização O cumprimento do objetivo geral deverá atingir a resposta da pergunta de pesquisa desenvolvida e declarada anteriormente O objetivo geral deve ser direto e global com uma única ação O objetivo geral é 4 Após o Objetivo Geral deve declarar quais são os OBJETIVOS ESPECÍFICOS no mínimo 3 Os objetivos específicos representam entregas intermediárias que se somadas compõem o resultado final ou seja irão auxiliar no cumprimento do objetivo geral Liste seus objetivos específicos através de algarismos romanos ianalisar ii investigariii iv e assim por diante Os objetivos específicos são metas para se atingir o objetivo geral Por exemplo imagine que o objetivo geral será assar um bolo dessa forma os objetivos específicos seriam i identificar ingredientes sólidos e líquidos ii analisar a temperatura ideal para assar o bolo iii identificar métricas para verificar se o bolo foi preparado corretamente Os objetivos específicos também devem ser declarados diretamente Os objetivos específicos são 4 5 Após descrever o objetivo GERAL e os objetivos ESPECÍFICOS desenvolva uma JUSTIFICATIVA que comprove o porquê o cumprimento deste objetivo será importante e qual será a CONTRIBUIÇÃO do projeto para a sua área após o cumprimento do objetivo geral Nessa parte do texto deve ficar claro que o projeto é uma resposta a determinado problema percebido e identificado devendo estar fundamentada e suportada por meio de dados e informações obtidas nas etapas e componentes do projeto Devem ficar evidenciadas as razões tanto de ordem teórica como prática Também deve ser definida com clareza a perspectiva do projeto explicitando os resultados e benefícios que poderão ser obtidos 6 No último parágrafo deverá encerrar o capítulo 1 criando uma explicação resumida da ESTRUTURA DO TRABALHO ou seja o que será tratado nos próximos capítulos Exemplo O documento é estruturado em cinco seções já com a inclusão da seção de Introdução apresentada A seção 2 contém a fundamentação teórica A seção 3 contém a metodologia aplicada ao desenvolvimento do projeto A seção 4 apresenta o cronograma do projeto 2 FUNDAMENTAÇÃO TEÓRICA altere o nome deste título ao invés de fundamentação teórica para algo que tenha relação com o que será abordado no capítulo ou seja um título que aborde o que será tratado como fundamento ao SEU projeto 21 SEÇÃO SECUNDÁRIA Fonte Arial tamanho 12 MAIÚSCULA sem negrito 22 SEÇÃO SECUNDÁRIA 23 SEÇÃO SECUNDÁRIA 231 Seção terciária Fonte Arial tamanho 12 minúscula com negrito Diferentemente da INTRODUÇÃO aqui será importante criar novas seções para organizar a divisão dos tópicos que serão abordados 5 Na Fundamentação Teórica NÃO IRÁ colocar qualquer explicação sobre o desenvolvimento do projeto ou seja sobre as etapas que irá desenvolver para atingir o objetivo da pesquisa A Fundamentação Teórica possui o propósito de concentrar informações conceituais RETIRADAS DA LITERATURA para explicar conceitos definições e características fundamentais dos assuntos relacionados ao seu projeto Deve identificar quantos e QUAIS são os temas conceituais referentes à SUA pesquisa Desta forma pode criar um subtítulo para cada tema a fim de organizar os temas envolvidos no projeto 21 TEMA 1 22 TEMA 2 23 TEMA3 Seções terciárias serão utilizadas apenas se julgar necessário O objetivo da fundamentação teórica é EXPLORAR os estudos já publicados que envolvam os conceitos teóricos relacionados ao tema da pesquisa aprofundando e detalhando os conceitos relacionados ao SEU objetivo Como um esclarecimento de tudo que já foi estabelecido até hoje e então compreender claramente toda a BASE do que irá acrescentar em seu projeto Lembrese que todos os conceitos que serão abordados neste capítulo 2 precisam ter EXCLUSIVA relação com o foco do seu projeto ou seja deve evitar desenvolver aprofundamentos de conteúdos que não irão influenciar ou fazer parte do seu projeto ou que não terão nenhuma conexão com os tópicos que serão abordados citações de outros estudos são fundamentais 6 Além de livros é essencial buscar informações em artigos científicos Sugerese realizar pesquisas no Google Acadêmico por estudos que possam complementar as informações conceituais do seu estudo O endereço eletrônico do Google Acadêmico é httpsscholargooglecombr 3 METODOLOGIA É importante destacar que a metodologia é um plano de atividades com etapas a serem seguidas ao cumprimento do objetivo geral do projeto mas que AINDA irá ser executado portanto não deve ser escrito no tempo verbal passado ou seja como se o projeto já tivesse sido concluído e sim no PRESENTE ou no FUTURO de forma a estruturar não apenas um plano para ser executado neste projeto vigente mas também para que quaisquer outros pesquisadores possam repetilo através das mesmas instruções Primeiramente precisa CLASSIFICAR a sua pesquisa conforme os 4 grupos de pesquisa demonstradas no Quadro 1 e divididos em 16 tipos de pesquisa Geralmente para a classificação de uma pesquisa são selecionados 1 tipo de pesquisa para cada grupo mas há situações pelo qual as pesquisas podem possuir mais de 4 classificações Deverá classificar e explicar cada classificação de acordo com a literatura Exemplo Esta pesquisa é classificada como bibliográfica pois de acordo com FULANO2002 uma pesquisa bibliográfica se utiliza de pesquisas realizadas em livrosetc Quadro 1 Classificação de Pesquisa Tipo Descrição 1Natureza Básica Objetiva gerar conhecimentos novos úteis para o avanço da ciência sem aplicação prática prevista Envolve verdades e interesses universais Aplicada Objetiva gerar conhecimentos para aplicação prática e dirigidos à solução de 7 problemas específicos Envolve verdades e interesses locais 2Abordagem do Problema Quantitativa Considera que tudo pode ser quantificável o que significa traduzir em números opiniões e informações para classificálas e analisá las Requer o uso de recursos e de técnicas estatísticas percentagem média moda mediana etc Qualitativa Considera que há uma relação dinâmica entre o mundo real e o sujeito isto é um vínculo indissociável entre o mundo objetivo e a subjetividade do sujeito que não pode ser traduzido em números A interpretação dos fenômenos e a atribuição de significados são básicas no processo de pesquisa qualitativa Não requer o uso de métodos e técnicas estatísticas O ambiente natural é a fonte direta para coleta de dados e o pesquisador é o instrumentochave 3Objetivos Exploratória Visa proporcionar maior familiaridade com o problema com vistas a tornálo explícito ou a construir hipóteses Envolve levantamento bibliográfico entrevistas com pessoas que tiveram experiências práticas com o problema pesquisado análise de exemplos que estimulem a compreensão Assume em geral as formas de Pesquisas Bibliográficas e Estudos de Caso Descritiva Não tem como objetivo a proposição de soluções mas sim a descrição de fenômenos Isso não significa que nessa modalidade de pesquisa não exista interpretação ou aprofundamento Aqui o objeto é analisado de forma a penetrar em sua natureza descrevendo todos os seus lados e características Prescritiva Tem como objetivo a proposição de soluções as quais fornecem uma resposta direta ao problema apresentado ou prescrevem um modelo teórico ideal para 8 delimitar conceitos que servirão posteriormente de respostas diretas Explicativa visa identificar os fatores que determinam ou contribuem para a ocorrência dos fenômenos Aprofunda o conhecimento da realidade e explica o porquê das coisas 4Procedimentos Técnicos Pesquisa Teórica Bibliográfica Quando elaborada a partir de material já publicado constituído principalmente de livros artigos de periódicos e atualmente com material disponibilizado na Internet Documental Quando elaborada a partir de materiais que não receberam tratamento analítico Pesquisa Empírica ou Prática Experimental Quando se determina um objeto de estudo selecionamse as variáveis que seriam capazes de influenciálo definemse as formas de controle e de observação dos efeitos que a variável produz no objeto ou seja se analisa enquanto se testa Levantamento Quando a pesquisa envolve a interrogação direta das pessoas cujo comportamento se deseja conhecer Esta pesquisa pode ser de uma amostra ou de uma população Exemplos são os estudos de opiniões e atitudes Estudo de Caso Envolve o estudo profundo e exaustivo de um ou poucos objetos buscando profundo detalhamento e conhecimento Pesquisa de Campo Caracterizase pelas investigações realizadas por meio da coleta de dados junto às pessoas somando à pesquisa bibliográfica eou documental Pesquisa de Laboratório É uma pesquisa mais exata pois vai preocuparse em descrever e analisar situações que são controladas Essas situações poderão ocorrer tanto em um 9 recinto fechado um laboratório como em um recinto aberto e terão como característica básica o controle sobre os dados e efeitos Pesquisa Ex PostFacto Investiga possíveis relações de causa e efeito entre um determinado fato e um fenômeno que ocorre posteriormente É o inverso do experimental pois os dados são coletados após a ocorrência dos eventos Fonte Adaptado de Silva e Menezes 2001 Gil 2002 Morais e Boiko 2013 Após a classificação deverá explicar COMO exatamente irá desenvolver o seu projeto COMO irá atingir o objetivo da pesquisa eg visita à empresa coletar dados aplicar ferramenta etc ou seja NÃO É um passo a passo para a sequência de escrita do documento eg escrever introdução escrever fundamentação escrever metodologia etc As atividades a serem desenvolvidos no projeto deverão ser listadas e descritas seguindo uma ordem cronológica adequada e passível de compreensão a qualquer outro pesquisador que pretenda repetir esta pesquisa Consequentemente no cap de Resultados capítulo 4 será preciso descrever a mesma ordem de eventos aqui descrita Estas atividades podem ser listadas em marcadores numéricos uma vez que a ordem das etapas é importante 1Nome da primeira atividade descrever 2Nome da segunda atividade descrever 3 Exemplo 1 Caracterização da empresa 2 Coleta de Dados informações 10 3 Elaboração de Fluxograma do processo atual 4 Aplicação da Técnica 5 Realizar estimativa de ganhos financeiros com a padronização de processos ou redução de desperdícios 6 Caso seu projeto seja pesquisa bibliográfica deverá criar itens relacionados a Qual a estratégia para buscar as melhores fontes Como pretende executar e iniciar estas pesquisas quais os sites qual o foco da pesquisa Irá utilizar quais palavras chaves nos sites no campo de busca O que especificamente pretende analisar nestas pesquisas desafios estratégias novas oportunidades de desenvolvimento combinações com novas tecnologias perspectivas para o futuro etc 4 RESULTADOS E DISCUSSÕES A sequência dos resultados deverá seguir exatamente a mesma ordem de atividades desenvolvidas no capítulo de Metodologia tanto em pesquisas empíricas práticas como em pesquisas teóricas Após apresentar a metodologia o texto deve trazer os resultados da pesquisa além de uma discussão sobre eles Um trabalho de conclusão de curso sem resultados e discussões é um trabalho incompleto O principal objetivo é interpretar as relações entre o que foi desenvolvido com o teste das hipóteses e a resolução dos problemas Quanto melhores forem as contestações demonstradas aqui maior será a qualidade do seu projeto Citações são importantes neste capítulo de resultados principalmente em pesquisas bibliográficas mas é importante lembrar de não utilizar citações diretas neste 11 capítulo pois os resultados do SEU projeto deverão ter prevalência ao SEU texto apenas baseandose em outros autores no alcance de resultados satisfatórios Gráficos tabelas e outras ilustrações são bemvindos para demonstrar os resultados obtidos 5 CONSIDERAÇÕES FINAIS As conclusões devem responder às questões da pesquisa em relação aos objetivos e às hipóteses Devem ser breves podendo apresentar recomendações e sugestões para trabalhos futuros Na conclusão não deverá ser utilizado citação e não se deve repetir os resultados A conclusão deverá responder os objetivos do trabalho portanto antes de redigi la o autor deverá ler os objetivos e então apresentar a conclusão de forma coerente com os mesmos REFERÊNCIAS Referências devem ser organizadas em ordem alfabética Tudo que for citado no texto DEVE constar nas referências e tudo que estiver nas referências DEVE constar no texto Estude os exemplos abaixo para que possa preencher corretamente as referências do seu projeto As classificações em verde são apenas guias para este modelo ou seja no seu projeto deve colocar apenas as referências sequencialmente na ordem alfabética 12 Esteja atento as palavras com negrito a formatação do seu texto deve seguir exatamente a mesma estrutura de cada categoria aqui descrita Exemplo de livro Apenas 1 autor SOBRENOME Nome Abreviado Título subtítulo se houver Edição se houver Local de publicação Editora data de publicação da obra RAUEN Fábio José Roteiros de pesquisa Rio do Sul Nova Era 2006 TANENBAUM Andrew Redes de computadores 5 ed São Paulo Elsevier 2016 QUEIRÓZ E O Primo Basílio 25 ed Rio de Janeiro Ediouro 1878 Até 3 autores SOBRENOME Nome Abreviado SOBRENOME Nome Abreviado SOBRENOME Nome Abreviado Título subtítulo se houver Edição se houver Local de publicação Editora data de publicação da obra ADES L KERBAUY R R Análise sobre o Comportamento de Compra 5 ed São Paulo Editora USP 2002 MAIS de 3 autores SOBRENOME Nome Abreviado et al Título subtítulo se houver Edição se houver Local de publicação Editora data de publicação da obra SILVA L et al Como a Poluição Afeta nossa Saúde 1 ed Curitiba Editora Sol Nascente 2002 Autor é desconhecido TÍTULO EM CAIXA ALTA Edição se houver Local de publicação Editora data de publicação da obra Página AS VÁRIAS FACES DA SAÚDE São Paulo Editora Academia 1994 p134 Exemplo de Monografia 13 MEDEIROS João Bosco Alucinação e magia na arte o ultimatum futurista de Almada Negreiros 1991 100 f Monografia Departamento de Letras Faculdade de Filosofia Letras e Ciências Humanas USP São Paulo 1991 Exemplo de TCC BRUXEL J L Definição de um interpretador para a linguagem Portugol utilizando gramática de atributos 1996 77 f Trabalho de Conclusão de Curso Bacharelado em Ciências da Computação Centro de Ciências Exatas e Naturais Universidade Regional de Blumenau Blumenau Exemplo de Trabalho apresentado em Evento CONGRESSO DO MINISTÉRIO PÚBLICO DO ESTADO DE SÃO PAULO 3 2005 Anais São Paulo Páginas Letras 2006 v 1 ISBN 8586508535 CONGRESSO DO MINISTÉRIO PÚBLICO DO ESTADO DE SÃO PAULO 3 2005 Anais São Paulo Páginas Letras 2006 v 2 ISBN 8586508535 ESSADO Tiago Cintra O poderdever material de investigação do Ministério Público In Congresso do Ministério Público do Estado de São Paulo 3 2005 Anais São Paulo Páginas Letras 2006 p205209 FRALEIGH A The Algerian of independence In Annual Meeting of the American Society of International Law 61 1967 Washington Proceedings Washington Society of International Law 1967 p 612 MORAIS M DE F BOIKO T J P Metodologia de Pesquisa uma proposta de estrutura para pesquisas técnicocientíficas em Engenharia de Produção VIIIE Encontro de Engenharia de Produção Agroindustrial v 1 p 112 2013 SANTOS IB MAURICIO TB Aplicação de Ferramentas da Qualidade para Análise e Solução de Rupturas em um Processo de Admissão de Estagiários In ENEGEP Encontro Nacional de Engenharia de Produção 36 Anais João PessoaPB Abepro 2016 Exemplo de ARTIGO SOBRENOME Nome Título da matéria Nome do jornal cidade de publicação dia mês e ano Seção se houver Acesso em dia mês e ano 14 CASAGRANDE Naiara Machado Vanessa Renata Monteiro and Nadja Zim Alexandre Aplicação do método Lean Seis Sigma no reuso do efluente tratado Estudo de caso fabricação de papel tissue Tecnologia e Ambiente 25 2019 160175 KNUTH D E Semantic of contextfree languages Mathematical Systems Theory New York v 2 n 2 p 3350 JanMar 1968 NUNES C História da educação brasileira novas abordagens de velhos objetos Teoria Educação Porto Alegre n 6 p 151182 1992 Exemplo de Artigo com autor SOBRENOME Nome Título da matéria Nome do jornal cidade de publicação dia mês e ano Seção se houver CARAZZAI Estelita Hass Trump agora promete acabar com política que separa famílias de refugiados Folha de SPaulo São Paulo 20 de jun de 2018 Exemplo de Artigo sem autor neste caso as referências também devem constar no RODAPÉ DA PÁGINA Na nota de rodapé 1 TÍTULO da matéria Nome do jornal cidade de publicação dia mês e ano Seção se houver Na lista de referências TÍTULO da matéria Nome do jornal cidade de publicação dia mês e ano Seção se houver TRUMP agora promete acabar com política que separa famílias de refugiados Folha de SPaulo São Paulo 20 de jun de 2018 Exemplo de Dissertação ALVERODRIGUES M V Qualidade de vida no trabalho 1989 180 f Dissertação Mestrado em Administração Faculdade de Ciências Econômicas Universidade Federal de Minas Gerais Belo Horizonte 1989 Exemplo de Tese 15 RAUEN Fábio José Influência do sublinhado na produção de resumos informativos 1996 200f Tese Doutorado em LetrasLingüística Curso de Pós graduação em LetrasLingüística Universidade Federal de Santa Catarina Florianópolis 1996 Exemplo de Informação de Internet www com AUTOR SOBRENOME Nome Título da matéria Nome do site ano Disponível em URL Acesso em dia mês e ano ALVES Jessica O correto é há muito tempo ou a muito tempo EducaBrasil 2022 Disponível em httpswwweducamaisbrasilcombreducacaodicasocorretoeha muitotempoouamuitotempo Acesso em 20 de ago de 2022 Exemplo de Informação de Internet www sem AUTOR neste caso as referências também devem constar no RODAPÉ DA PÁGINA TÍTULO da matéria Nome do siteautor ano Disponível em URL Acesso em dia mês e ano No texto O Engenheiro de Produção possui vasta atuação no mercado tanto no segmento industrial como na área de serviços1 Na nota de rodapé 1 ENGENHEIRO de Produção pode trabalhar com inteligência artificial EducaBrasil 2019 Disponível em httpswwweducamaisbrasilcombrcursose faculdadesengenhariadeproducaonoticiasengenheirodeproducaopodetrabalhar cominteligenciaartificial Acesso em 20 de jun de 2020 na primeira vez que aparece no texto Na lista de referências ENGENHEIRO de Produção pode trabalhar com inteligência artificial EducaBrasil 2019 Disponível em httpswwweducamaisbrasilcombrcursose faculdadesengenhariadeproducaonoticiasengenheirodeproducaopodetrabalhar cominteligenciaartificial Acesso em 20 de jun de 2020 Exemplo de norma 16 ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS NBR 6023 Informação e documentação Referências Rio de Janeiro p 24 2002 ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS NBR 6029 Informação e documentação Livros e folhetos Rio de Janeiro p 162 2006 ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS NBR 9050 Acessibilidade a edificações mobiliário espaços e equipamentos urbanos Rio de Janeiro p 162 2015 MT Ministério do Trabalho Portaria nº 24GM de 29 de dezembro de 1994 NR 7 Norma Regulamentadora7 1994 Programa de contole médico de saúde ocupacional Diário Oficial da União Poder Executivo Brasília DF 30 dez 1994 Exemplo de legislação BRASIL Constituição 1988 Constituição da República Federativa do Brasil 1988 Brasília Senado Federal Centro Gráfico 1988 BRASIL Lei nº 9394 de 20 de dezembro de 1996 Estabelece as diretrizes e bases da educação nacional Diário Oficial da União Brasília DF v 134 n 248 23 dez 1996 Seção 1 p 2783427841 BRASIL Portaria nº 344 de 12 de maio de 1998 Aprova o Regulamento Técnico sobre substâncias e medicamentos sujeitos a controle especial Diário Oficial da União 31 dez 1998 Seção I 1 SISTEMA HÍBRIDO PARA COMPARAÇÃO DE DOCUMENTOS TEXTUAIS COM TFIDF MÉTRICAS ESTATÍSTICAS E EMBEDDINGS SEMÂNTICOS SOBRENOME Nome do Aluno1 SOBRENOME Nome do Orientador2 RESUMO A comparação de documentos textuais é uma necessidade recorrente em contextos acadêmicos organizacionais e científicos especialmente quando se busca identificar interrelações temáticas entre arquivos com estilos de escrita distintos Métodos exclusivamente lexicais podem apresentar limitações em cenários de paráfrase enquanto abordagens estritamente semânticas podem reduzir a transparência interpretativa dos resultados Diante disso este trabalho tem como objetivo desenvolver e avaliar um sistema de comparação de conteúdo entre dois documentos capaz de estimar indicadores de similaridade e correlação e apresentar evidências explicáveis da relação entre textos A pesquisa justificase pela demanda por soluções acessíveis replicáveis e interpretáveis para análise documental integrando fundamentos clássicos de Recuperação de Informação a técnicas modernas de representação semântica A metodologia adotada envolveu o projeto e a implementação de um protótipo web voltado à comparação documental em múltiplos formatos com suporte a arquivos TXT PDF e DOCX incorporando um pipeline de préprocessamento textual e a integração de métricas complementares de similaridade e correlação No núcleo técnico do sistema foram utilizadas vetorização por TFIDF com similaridade cosseno correlação de Pearson baseada em frequências de termos índice de Jaccard e similaridade semântica por embeddings via Sentence Transformers de modo a equilibrar robustez de detecção temática e transparência interpretativa Os testes experimentais com pares de textos do mesmo tema textos distintos e textos parafraseados indicaram que a abordagem híbrida implementada no protótipo melhora a detecção de proximidade temática e sustenta a explicabilidade por meio de termos compartilhados e visualizações Palavraschave Comparação de Documentos Similaridade Textual TFIDF Embeddings Semânticos Processamento de Linguagem Natural 1 Informações do aluno exceto o nome 2 Informações do orientador exceto o nome 2 1 INTRODUÇÃO A produção e circulação de documentos textuais em ambientes digitais cresceram de forma intensa nos últimos anos alcançando universidades empresas órgãos públicos e plataformas de conhecimento Esse cenário ampliou o acesso à informação mas também trouxe desafios para organização de acervos análise de conteúdo identificação de redundâncias apoio à tomada de decisão e avaliação de proximidade temática entre materiais de diferentes origens Em contextos acadêmicos a comparação entre textos pode apoiar revisões da literatura e mapeamentos de temas emergentes Em ambientes organizacionais pode contribuir para a gestão do conhecimento a padronização de relatórios e a redução de retrabalho Assim tornase relevante dispor de métodos automáticos que estimem a interrelação entre documentos com critérios objetivos e reprodutíveis Na Recuperação de Informação a representação vetorial consolidou métricas lexicais como TFIDF e similaridade cosseno amplamente utilizadas em indexação e comparação de textos devido à simplicidade eficiência e interpretabilidade MANNING RAGHAVAN SCHÜTZE 2008 Entretanto em situações de paráfrase reescrita ou variação estilística documentos semanticamente próximos podem apresentar baixa sobreposição lexical Nesses casos métodos exclusivamente baseados em termos tendem a subestimar relações temáticas especialmente quando a análise ocorre em nível documental e envolve textos longos ZATARAIN GONZÁLEZCASTOLO RAMOSCABRAL 2025 Avanços recentes em Processamento de Linguagem Natural destacam o uso de embeddings para capturar proximidade de significado mesmo quando o vocabulário difere REIMERS GUREVYCH 2019 A biblioteca Sentence Transformers e seus modelos multilíngues permitem aplicar essa abordagem de forma acessível na comparação de sentenças e documentos SENTENCETRANSFORMERS 2025a SENTENCETRANSFORMERS 2025b Benchmarks contemporâneos também indicam uma tendência de integração entre estratégias lexicais e semânticas para análises mais robustas em múltiplos idiomas RANASINGHE et al 2025 Esse panorama evidencia a oportunidade de desenvolver um sistema híbrido que combine 3 métricas clássicas leituras estatísticas e embeddings gerando indicadores quantitativos e evidências interpretáveis da relação entre documentos Neste estudo o índice de interrelação é interpretado a partir do conjunto de métricas com ênfase na correlação de Pearson como leitura estatística complementar às similaridades lexical e semântica Ressaltase que nesta versão do protótipo não se adota um índice composto único a interrelação é inferida pela leitura conjunta dos indicadores lexical estatístico e semântico apresentados pelo sistema Com base nisso estabelecese a seguinte pergunta de pesquisa como desenvolver e avaliar um sistema híbrido de comparação de documentos textuais que estime a interrelação entre dois arquivos por meio de métricas lexicais estatísticas e semânticas gerando indicadores quantitativos e evidências interpretáveis da similaridade O objetivo geral deste trabalho é desenvolver e avaliar um sistema híbrido de comparação de documentos textuais que integre TFIDF métricas estatísticas e embeddings semânticos para estimar a interrelação entre dois arquivos Como objetivos específicos definemse i analisar fundamentos teóricos de Recuperação de Informação e Similaridade Textual ii projetar a arquitetura do sistema e o pipeline de préprocessamento e representação textual iii implementar um protótipo web com suporte à leitura de arquivos TXT PDF e DOCX iv integrar e calcular métricas lexicais e estatísticas incluindo similaridade cosseno com TFIDF correlação de Pearson baseada em frequências de termos e índice de Jaccard v incorporar embeddings semânticos utilizando Sentence Transformers e comparar os resultados com métodos lexicais e vi realizar testes com pares de documentos de temas iguais diferentes e parafraseados analisando coerência dos indicadores e potencial de explicabilidade por termos compartilhados e visualizações A pesquisa justificase pela necessidade de soluções de comparação textual que sejam acessíveis interpretáveis e coerentes com o estado da arte Enquanto métricas lexicais favorecem transparência e auditoria do resultado embeddings ampliam a robustez em contextos de variação linguística e reescrita Assim ao propor e implementar uma abordagem híbrida em um sistema funcional este estudo contribui para as áreas de Processamento de Linguagem Natural e Recuperação de Informação 4 e pode apoiar pesquisa organização de acervos digitais e gestão do conhecimento Para reforçar práticas de ciência aberta e permitir replicação dos experimentos o protótipo e os arquivos de teste foram disponibilizados em repositório público no GitHub acompanhados de instruções de execução e dependências Além desta introdução este trabalho está estruturado da seguinte forma a Seção 2 discute os fundamentos conceituais relacionados à comparação e à similaridade de documentos textuais A Seção 3 descreve a metodologia e as decisões de engenharia do sistema A Seção 4 apresenta e discute os resultados experimentais Por fim a Seção 5 reúne as considerações finais limitações e possibilidades de trabalhos futuros 2 REPRESENTAÇÕES E MÉTRICAS PARA COMPARAÇÃO DE DOCUMENTOS TEXTUAIS A comparação de documentos textuais exige bases conceituais que expliquem como textos podem ser representados analisados e relacionados por métricas quantitativas Como diferentes abordagens capturam dimensões distintas de proximidade desde sobreposição lexical até similaridade de significado tornase necessário integrar fundamentos da Recuperação de Informação e do Processamento de Linguagem Natural para sustentar escolhas técnicas consistentes Neste capítulo são apresentados os conceitos de representação textual e as métricas de similaridade aplicáveis ao desenvolvimento de um sistema de comparação de conteúdo com destaque para o modelo vetorial a ponderação TFIDF medidas complementares baseadas em conjuntos e correlação e o uso de embeddings semânticos Essa fundamentação fornece suporte para as decisões de engenharia do protótipo e para a interpretação do índice de correlação adotado como síntese comparativa entre dois arquivos 21 RECUPERAÇÃO DE INFORMAÇÃO E O MODELO VETORIAL 5 A comparação automática de documentos textuais está associada ao campo de Recuperação de Informação RI que investiga métodos para organizar indexar e recuperar conteúdo em coleções de textos Em ambientes acadêmicos e organizacionais a RI oferece uma base conceitual para representar documentos formalmente e comparálos por critérios objetivos permitindo interpretar resultados de proximidade de modo sistemático MANNING RAGHAVAN SCHÜTZE 2008 Entre os modelos clássicos o modelo vetorial consolidouse como referência para comparação textual Nesse paradigma documentos são representados como vetores em um espaço de termos no qual cada dimensão corresponde ao vocabulário da coleção Essa representação permite estimar relações entre textos por operações matemáticas favorecendo análises de similaridade e construção de indicadores reproduzíveis MANNING RAGHAVAN SCHÜTZE 2008 Uma vantagem relevante desse modelo especialmente no desenvolvimento de sistemas de comparação documental é a interpretabilidade o resultado quantitativo mantém conexão com os termos que sustentam a similaridade Esse aspecto permite que o protótipo associe o score a evidências observáveis como termos compartilhados reforçando transparência na análise MANNING RAGHAVAN SCHÜTZE 2008 Ainda assim a literatura ressalta que similaridade também envolve significado não apenas coincidência literal de palavras Em reescritas uso de sinônimos e variações estilísticas documentos do mesmo tema podem apresentar baixa sobreposição lexical Por isso o modelo vetorial deve ser entendido como peça de uma estratégia mais ampla especialmente quando o sistema precisa distinguir proximidade temática em nível documental JURAFSKY MARTIN 2025 22 REPRESENTAÇÕES LEXICAIS E SIMILARIDADE BASEADA EM TERMOS As representações lexicais descrevem documentos a partir da presença e relevância de palavras Entre as abordagens mais difundidas o TFIDF permite estimar a importância de um termo considerando sua frequência no documento e sua raridade na coleção analisada MANNING RAGHAVAN SCHÜTZE 2008 Assim termos 6 comuns ao conjunto total recebem menor peso enquanto palavras mais características de um texto ganham destaque No contexto do sistema proposto o TFIDF funciona como base estruturante da comparação lexical favorecendo análises eficientes e interpretáveis Essa escolha se alinha ao uso da similaridade cosseno que estima proximidade entre documentos a partir do ângulo entre seus vetores reduzindo o impacto do tamanho do texto sobre o resultado final MANNING RAGHAVAN SCHÜTZE 2008 Embora robustas como baseline medidas estritamente lexicais podem se enfraquecer em cenários de paráfrase e variação vocabular significativa Nessas situações mudanças pontuais no vocabulário podem reduzir o score mesmo quando o tema permanece equivalente Por esse motivo abordagens lexicais costumam ser combinadas a outras métricas e representações sobretudo em sistemas que buscam analisar interrelações temáticas de forma mais abrangente JURAFSKY MARTIN 2025 23 PRÉPROCESSAMENTO TEXTUAL E NORMALIZAÇÃO A qualidade das representações textuais depende diretamente do pré processamento adotado Essa etapa busca reduzir ruídos e padronizar padrões superficiais da escrita tornando a comparação entre documentos mais consistente do ponto de vista computacional JURAFSKY MARTIN 2025 Para um sistema que aceita múltiplos formatos de arquivo decisões como tokenização normalização de caixa remoção de pontuação e tratamento de stopwords são fundamentais para estabilizar resultados A normalização também reduz distorções causadas por diferenças de estilo e formatação Em coleções heterogêneas pequenas variações estruturais podem aumentar artificialmente a dissimilaridade lexical Assim no protótipo desenvolvido o préprocessamento é compreendido como um módulo essencial de padronização para garantir maior aderência entre o conteúdo analisado e as métricas aplicadas especialmente nas representações baseadas em termos como o TFIDF MANNING RAGHAVAN SCHÜTZE 2008 JURAFSKY MARTIN 2025 7 24 MÉTRICAS LEXICAIS ESTATÍSTICAS E BASEADAS EM CONJUNTOS A comparação de documentos pode ser ampliada ao incorporar métricas complementares que analisam a relação entre textos por diferentes perspectivas Além do cosseno com TFIDF como medida de proximidade lexical ponderada o índice de Jaccard oferece uma leitura direta da interseção de vocabulário relevante entre dois documentos Essa medida é útil tanto para análises exploratórias quanto para a camada explicativa do sistema pois associa o resultado ao compartilhamento de termos centrais MANNING RAGHAVAN SCHÜTZE 2008 A correlação de Pearson aplicada a vetores de frequência de termos adiciona uma dimensão estatística à comparação Ao observar o alinhamento entre padrões de uso de vocabulário essa métrica pode reforçar conclusões de proximidade ou evidenciar divergências relevantes No escopo deste trabalho sua adoção contribui para a construção de um índice interpretável de interrelação textual alinhado à proposta de estimar a correlação entre dois arquivos em uma aplicação funcional JURAFSKY MARTIN 2025 A literatura recente também reforça que estratégias multiindicador tendem a oferecer análises mais robustas pois diferentes métricas capturam dimensões distintas do fenômeno textual sobreposição de palavras peso informativo e alinhamento de padrões lexicais o que favorece a estabilidade do diagnóstico em cenários contrastantes MANNING RAGHAVAN SCHÜTZE 2008 IHNAINI et al 2024 25 SIMILARIDADE SEMÂNTICA E EMBEDDINGS DE TEXTOS Embora métricas lexicais e estatísticas forneçam evidências consistentes e interpretáveis estudos contemporâneos apontam limitações dessas abordagens em casos de reformulação paráfrase e variação lexical substantiva Nesses cenários documentos podem compartilhar o mesmo núcleo temático sem apresentar grande coincidência de termos reduzindo os escores de métodos baseados exclusivamente em vocabulário JURAFSKY MARTIN 2025 IHNAINI et al 2024 8 Embeddings semânticos oferecem uma alternativa robusta ao representar textos em espaços vetoriais densos capazes de capturar proximidade de significado O SentenceBERT SBERT constitui um marco importante ao adaptar arquiteturas do tipo BERT para produzir embeddings comparáveis de forma eficiente viabilizando a estimativa de similaridade semântica por cosseno em tarefas de busca agrupamento e comparação textual REIMERS GUREVYCH 2019 No sistema proposto essa camada semântica complementa as métricas lexicais ao permitir reconhecer proximidade temática mesmo sob baixa sobreposição vocabular 251 SENTENCE TRANSFORMERS E MODELOS MULTILÍNGUES A biblioteca Sentence Transformers consolidouse como uma das implementações práticas mais relevantes para o uso de embeddings em tarefas de similaridade Sua documentação destaca a aplicação de modelos prétreinados para comparação de sentenças parágrafos e documentos com custo operacional viável para sistemas aplicados SENTENCETRANSFORMERS 2025a No contexto multilíngue modelos como o paraphrasemultilingualMiniLML12v2 mapeiam textos de diferentes idiomas para um espaço vetorial compartilhado favorecendo análises em português e aumentando robustez diante de variações lexicais e estilísticas Essa característica reforça a adequação dessa escolha para o protótipo desenvolvido sobretudo em comparação de documentos com grande diversidade vocabular SENTENCETRANSFORMERS 2025b RANASINGHE et al 2025 26 COMPARAÇÃO DE TEXTOS LONGOS E AGREGAÇÃO DE SIGNIFICADO A extensão dos textos constitui um fator adicional de complexidade para a similaridade Em documentos longos diferentes seções podem contribuir de maneira desigual para o significado global e a proximidade temática pode estar concentrada em segmentos específicos Por isso a literatura recente indica que análises de similaridade documental exigem maior cuidado em cenários de textos extensos ZATARAIN GONZÁLEZCASTOLO RAMOSCABRAL 2025 9 Esse aspecto reforça a pertinência de combinar abordagens lexicais e semânticas no sistema proposto Enquanto embeddings contribuem para capturar proximidade conceitual em nível temático métricas baseadas em termos preservam interpretabilidade por evidências observáveis e favorecem a explicação do índice final de interrelação IHNAINI et al 2024 ZATARAIN GONZÁLEZCASTOLO RAMOS CABRAL 2025 27 ABORDAGENS HÍBRIDAS E EXPLICABILIDADE EM SIMILARIDADE DOCUMENTAL A integração entre métricas lexicais estatísticas e embeddings é apresentada na literatura como uma estratégia consistente para ampliar robustez e confiabilidade em tarefas de similaridade Métodos como TFIDF com cosseno Jaccard e leituras de correlação oferecem evidências interpretáveis por termos compartilhados e alinhamento vocabular enquanto embeddings aumentam sensibilidade temática diante de variação lexical MANNING RAGHAVAN SCHÜTZE 2008 REIMERS GUREVYCH 2019 IHNAINI et al 2024 Essa complementaridade é especialmente relevante em um sistema cujo objetivo é estimar interrelações entre dois arquivos e produzir um índice de correlação acompanhado de evidências compreensíveis Assim a abordagem híbrida adotada neste trabalho busca equilibrar desempenho analítico e transparência interpretativa oferecendo suporte teórico e técnico para as decisões de implementação do protótipo e para a leitura dos resultados experimentais JURAFSKY MARTIN 2025 IHNAINI et al 2024 3 METODOLOGIA Este estudo tem como foco a proposição e avaliação de um sistema híbrido para comparação de documentos textuais integrando métricas lexicais estatísticas e semânticas com o objetivo de estimar a interrelação entre dois arquivos e oferecer evidências interpretáveis de similaridade O percurso metodológico adota as 10 orientações de classificação de pesquisa apresentadas por Silva e Menezes 2001 Gil 2002 e Morais e Boiko 2013 permitindo caracterizar o estudo quanto à natureza abordagem do problema objetivos e procedimentos técnicos de modo a favorecer clareza rigor e reprodutibilidade Quanto à natureza esta pesquisa é classificada como aplicada pois busca resolver um problema prático desenvolver uma solução funcional para comparação de conteúdo entre dois documentos com suporte a múltiplos formatos de arquivo e geração de indicadores quantitativos acompanhados de evidências de interpretação SILVA MENEZES 2001 Assim o estudo é orientado à construção de um protótipo utilizável em contextos acadêmicos e organizacionais No que se refere à abordagem do problema adotase uma perspectiva predominantemente quantitativa fundamentada no cálculo de métricas numéricas para estimar proximidade textual contemplando sinais de vocabulário distribuição de termos e similaridade semântica por embeddings SILVA MENEZES 2001 GIL 2002 Complementarmente a análise dos resultados assume um caráter descritivo interpretativo ao examinar coerência temática contraste entre métricas e qualidade explicativa das evidências apresentadas ao usuário Em relação aos objetivos o estudo possui caráter prescritivo pois propõe uma estratégia de solução para comparação documental ao articular uma abordagem híbrida sustentada na literatura Apresenta também traços exploratórios ao investigar o comportamento das métricas diante de pares de documentos com diferentes níveis de proximidade lexical e semântica com atenção especial à consistência do índice de interrelação gerado pelo sistema GIL 2002 MORAIS BOIKO 2013 Quanto aos procedimentos técnicos combinamse pesquisa bibliográfica e pesquisa experimental A etapa bibliográfica consolida os fundamentos de Recuperação de Informação métricas lexicaisestatísticas e representações semânticas orientando a seleção de técnicas o desenho do pipeline e a definição do conjunto de evidências explicáveis a ser exposto na interface do sistema GIL 2002 A etapa experimental valida o comportamento das métricas em cenários representativos de comparação documental verificando se a integração proposta distingue adequadamente 11 proximidade temática dissimilaridade de assunto e casos de reescritaparáfrase SILVA MENEZES 2001 O percurso metodológico foi estruturado em etapas de engenharia coerentes com o objetivo central do trabalho Inicialmente realizouse o levantamento teórico para delimitar dimensões complementares de comparação proximidade lexical ponderada sobreposição de vocabulário alinhamento de padrões de frequência e similaridade semântica Em seguida definiramse requisitos funcionais e não funcionais do protótipo com ênfase na necessidade de receber documentos em formatos TXT PDF e DOCX padronizar entradas por préprocessamento e apresentar ao usuário resultados numéricos acompanhados por evidências interpretáveis Na etapa de implementação estruturouse um protótipo web desenvolvido em Python com interface construída no framework Streamlit responsável pelo fluxo de interação do usuário upload dos arquivos e visualização comparativa dos indicadores Para leitura e extração de texto foram integradas bibliotecas específicas para diferentes formatos utilizandose pypdf para documentos PDF e pythondocx para arquivos DOCX além do suporte direto à leitura de TXT O pipeline de pré processamento textual foi implementado com apoio do NLTK incluindo procedimentos de normalização e filtragem linguística para reduzir ruídos e estabilizar as métricas No núcleo computacional do sistema utilizouse o ecossistema científico do Python para representar e comparar os documentos A vetorização lexical por TFIDF e as rotinas de cálculo associadas foram implementadas com suporte do scikitlearn complementadas por operações auxiliares com NumPy Para a análise estatística e de conjuntos integrouse o cálculo da correlação de Pearson baseada em frequências de termos e do índice de Jaccard compondo uma leitura multiindicador da interrelação entre textos A camada semântica foi incorporada por meio da biblioteca Sentence Transformers para geração de embeddings com execução baseada em PyTorch permitindo a estimativa de similaridade por cosseno em um espaço vetorial denso Quando necessário estruturas de organização e consolidação dos resultados utilizaram Pandas para facilitar a apresentação dos dados na interface do protótipo Por fim organizaramse testes experimentais com pares de documentos distribuídos em três cenários contrastantes i textos do mesmo tema com escrita 12 diferente ii textos de temas distintos e iii textos muito próximos semanticamente por reescrita técnica Essa organização possibilita avaliar a sensibilidade de cada métrica isoladamente e o ganho interpretativo da abordagem híbrida quando os resultados são analisados em conjunto Com o objetivo de reforçar a transparência do desenvolvimento e assegurar reprodutibilidade o protótipo implementado os scripts auxiliares e os arquivos de teste utilizados nos experimentos foram disponibilizados em repositório público no GitHub acompanhados de instruções de execução e dependências O repositório do projeto está disponível em INSERIR LINK DO GITHUB Essa disponibilização permite replicação dos testes descritos neste trabalho e facilita a ampliação do sistema para novos conjuntos documentais 4 RESULTADOS E DISCUSSÕES Esta seção apresenta e discute os resultados obtidos a partir da implementação e avaliação do protótipo de comparação de documentos descrito na metodologia O objetivo desta etapa é analisar o comportamento do sistema híbrido em cenários contrastantes de interrelação textual e verificar a contribuição das métricas integradas e dos recursos de interface para a explicabilidade dos resultados Com base na fundamentação teórica o sistema foi estruturado para combinar quatro sinais principais de comparação proximidade lexical ponderada por TFIDF sobreposição de vocabulário por Jaccard alinhamento de frequência por correlação de Pearson e similaridade semântica por embeddings Essa composição foi implementada no protótipo web com um fluxo de préprocessamento unificado e suporte à leitura de arquivos TXT PDF e DOCX permitindo que a comparação ocorra de forma padronizada independentemente do formato de entrada A interface foi projetada para exibir os indicadores em conjunto e apresentar evidências lexicais por meio da extração de termos compartilhados reforçando a transparência de interpretação Os testes experimentais foram organizados em três cenários i documentos do mesmo tema com escrita diferente ii documentos de temas distintos e iii documentos semanticamente próximos por reescrita técnica Esse arranjo buscou 13 avaliar não apenas a coerência dos escores numéricos mas também a capacidade do sistema de evidenciar ao usuário por que determinados pares são interpretados como próximos ou distantes Tabela 1 Resultados comparativos das métricas aplicadas aos pares de documentos avaliados Cenário TFIDF cosseno Pearson freq Jaccard Embedding cosseno Síntese interpretativa Textos 1 e 2 mesmo tema 04073 01854 02146 09115 Sobreposição lexical moderada e alta proximidade semântica Par A temas diferentes 00036 08143 00051 04072 Dissimilaridade lexical extrema e baixa proximidade semântica Par B paráfrase técnica 04673 01070 03459 09588 Similaridade semântica muito alta com variação lexical moderada A Tabela 1 sintetiza os valores obtidos e evidencia como a leitura integrada dos indicadores amplia a robustez interpretativa do sistema Em particular a diferença de comportamento entre métricas lexicais e embeddings reforça a utilidade de uma abordagem híbrida quando o objetivo é estimar interrelação temática sem perder suporte explicável baseado em vocabulário No primeiro cenário relativo aos Textos 1 e 2 a similaridade por TFIDF 04073 e o índice de Jaccard 02146 indicam uma sobreposição lexical moderada enquanto a correlação de Pearson 01854 sugere alinhamento parcial dos padrões de frequência Em contraste a similaridade por embeddings 09115 aponta forte proximidade semântica Esse comportamento é coerente com textos pertencentes ao mesmo domínio porém com diferenças na seleção e na organização de termos destacando o papel do componente semântico para sustentar a interpretação de proximidade temática mesmo diante de variação vocabular Figura 1 Gráfico de barras com os termos centrais compartilhados entre os Textos 1 e 2 14 Fonte Autoria própria 2025 A Figura 1 atua como evidência complementar na interface do sistema ao expor termos recorrentes compartilhados no cenário de mesmo tema Essa visualização reforça a interpretabilidade da comparação conectando os escores lexicais à presença de vocabulário associado ao domínio analisado e oferecendo ao usuário uma justificativa textual para a relação detectada No segundo cenário referente ao Par A os resultados lexicais foram próximos de zero em TFIDF 00036 e Jaccard 00051 e a correlação de Pearson foi fortemente negativa 08143 indicando divergência significativa nos padrões de vocabulário A similaridade por embeddings 04072 permaneceu baixa sugerindo que a proximidade semântica é limitada Em conjunto esses sinais sustentam o diagnóstico de dissimilaridade temática consistente demonstrando que o sistema não depende de um único indicador para diferenciar pares de assuntos distintos No terceiro cenário referente ao Par B observouse uma similaridade lexical intermediária por TFIDF 04673 e Jaccard 03459 com Pearson relativamente baixo 01070 Já a similaridade por embeddings 09588 indicou equivalência semântica muito elevada Esse resultado é característico de reescrita técnica com manutenção do conteúdo central sugerindo que o componente semântico do sistema é decisivo para capturar interrelação de significado quando a correspondência literal de vocabulário não é alta o suficiente para explicar sozinho a proximidade entre os documentos Durante os testes verificouse ainda que marcadores estruturais como Título podem surgir entre termos compartilhados especialmente em cenários de menor relação temática Esse comportamento evidencia limitações de préprocessamento e 15 aponta a necessidade de refinamento futuro de filtros textuais e listas de stopwords para reduzir ruídos provenientes de cabeçalhos e metadados quando a camada explicativa do sistema estiver ativada Em síntese os resultados confirmam que o protótipo cumpre o objetivo de comparar documentos por múltiplas dimensões de similaridade e de apresentar evidências interpretáveis ao usuário A integração entre métricas lexicais estatísticas e embeddings contribui para uma leitura mais estável da interrelação entre documentos ao mesmo tempo em que a visualização de termos compartilhados fortalece a explicabilidade do sistema no nível de interface sustentando a utilidade da abordagem proposta para análise comparativa de documentos em formatos heterogêneos 5 CONSIDERAÇÕES FINAIS Este trabalho teve como objetivo desenvolver e avaliar um sistema híbrido de comparação de documentos textuais capaz de estimar a interrelação entre dois arquivos por meio de métricas lexicais estatísticas e embeddings semânticos apresentando ao usuário um índice de correlação acompanhado de evidências interpretáveis A implementação do protótipo e sua validação em cenários contrastantes permitiram alcançar o objetivo geral evidenciando que a combinação de múltiplos indicadores integrada a uma interface explicativa favorece uma análise mais segura e compreensível da relação entre documentos Em relação aos objetivos específicos o estudo organizou os fundamentos necessários para a comparação textual em decisões práticas de engenharia de software Foram definidos requisitos funcionais e não funcionais estruturado um pipeline de pré processamento e implementada uma arquitetura de aplicação com suporte aos formatos TXT PDF e DOCX A integração das métricas selecionadas em um fluxo único de cálculo e a apresentação dos resultados em camadas indicadores numéricos e evidências textuais consolidaram uma solução funcional orientada à explicabilidade e ao uso em contextos acadêmicos e organizacionais A pergunta de pesquisa foi respondida ao demonstrar que é viável construir um sistema de comparação de conteúdo que articule abordagens clássicas e semânticas em um mesmo ambiente de análise preservando tanto a sensibilidade temática quanto a 16 transparência do resultado Nesse sentido o trabalho contribui ao propor uma implementação aplicável de baixa complexidade de uso e com potencial de replicação e extensão Como limitações destacamse a dependência de modelos prétreinados para a camada semântica a sensibilidade das métricas lexicais a elementos estruturais dos documentos e o número reduzido de pares utilizados na validação inicial do protótipo Além disso o estudo foi conduzido em condições controladas o que recomenda cautela ao extrapolar o comportamento do sistema para coleções amplas e altamente heterogêneas Como trabalhos futuros sugerese ampliar os experimentos com documentos reais de diferentes domínios refinar técnicas de limpeza e detecção de metadados incorporar estratégias de segmentação e agregação de similaridade para textos longos e estudar a criação de um índice composto com ponderação ajustável das métricas Também seria relevante explorar modelos semânticos adicionais especialmente alternativas com desempenho otimizado para português e evoluir os componentes de interface para oferecer explicações ainda mais detalhadas e amigáveis ao usuário final REFERÊNCIAS 17 GIL Antonio Carlos Como elaborar projetos de pesquisa São Paulo Atlas 2002 IHNAINI Baha et al Semantic similarity on multimodal data a comprehensive and systematic literature survey Journal of King Saud University Computer and Information Sciences 2024 Disponível em httpswwwsciencedirectcomsciencearticlepiiS1319157824003525 JURAFSKY Daniel MARTIN James H Speech and Language Processing An Introduction to Natural Language Processing Computational Linguistics and Speech Recognition with Language Models 3 ed Manuscrito online 2025 Disponível em httpswebstanfordedujurafskyslp3 MANNING Christopher D RAGHAVAN Prabhakar SCHÜTZE Hinrich Introduction to Information Retrieval Cambridge Cambridge University Press 2008 MORAIS M de F BOIKO T J P Metodologia de Pesquisa uma proposta de estrutura para pesquisas técnicocientíficas em Engenharia de Produção VIIIE Encontro de Engenharia de Produção Agroindustrial v 1 p 112 2013 RANASINGHE Tharindu HETTIARACHCHI Hansi ORASAN Constantin MITKOV Ruslan MUSTS MUltilingual Semantic Textual Similarity Benchmark In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics Volume 2 Short Papers Vienna Association for Computational Linguistics 2025 REIMERS Nils GUREVYCH Iryna SentenceBERT Sentence Embeddings using Siamese BERTNetworks In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing EMNLPIJCNLP Hong Kong Association for Computational Linguistics 2019 18 SENTENCETRANSFORMERS Sentence Transformers Documentation 2025a Disponível em httpssbertnet SENTENCETRANSFORMERS Pretrained Models Sentence Transformers documentation 2025b Disponível em httpswwwsbertnetdocssentencetransformerpretrainedmodelshtml SENTENCETRANSFORMERS paraphrasemultilingualMiniLML12v2 model card 2025c Disponível em httpshuggingfacecosentencetransformersparaphrase multilingualMiniLML12v2 SILVA Edna Lúcia da MENEZES Estera Muszkat Metodologia da pesquisa e elaboração de dissertação Florianópolis UFSC 2001 ZATARAIN Omar GONZÁLEZCASTOLO Juan Carlos RAMOSCABRAL Silvia A method for semantic textual similarity on long texts PeerJ Computer Science v 11 2025 Disponível em httpspeerjcomarticlescs3202