·

Cursos Gerais ·

Machine Learning Associação Agrupamento

Envie sua pergunta para a IA e receba a resposta na hora

Fazer Pergunta

Texto de pré-visualização

ACESSE AQUI ESTE MATERIAL DIGITAL JOSÉ AVELINO PLACCA MACHINE LEARNING ASSOCIAÇÃO E AGRUPAMENTO Coordenadora de Conteúdo Greisse Moser Badalotti Projeto Gráfico e Capa Arthur Cantareli Silva Editoração Juliana Duenha Design Educacional Vanessa Tibúrcio Revisão Textual Tatiane Schmitt Costa Ilustração Geison Odlevati Ferreira Fotos Shutterstock e Envato Impresso por Bibliotecária Leila Regina do Nascimento CRB 91722 Ficha catalográfica elaborada de acordo com os dados fornecidos peloa autora Núcleo de Educação a Distância PLACCA José Avelino Machine Learning Associação e Agrupamento José Avelino Placca Florianópolis SC Arqué 2024 232 p ISBN papel 9786527901679 ISBN digital 9786527901686 1 Inteligência artificial 2 Dados 3 EaD I Título CDD 00572 EXPEDIENTE FICHA CATALOGRÁFICA N964 AVALIE ESTE LIVRO CRIAR MOMENTOS DE APRENDIZAGENS INESQUECÍVEIS É O NOSSO OBJETIVO E POR ISSO GOSTARÍAMOS DE SABER COMO FOI SUA EXPERIÊNCIA Conta para nós leia menos de 2 minutos Vamos lá DIGITE O CÓDIGO 035073333 RESponda a pesquisa RECURSOS DE IMERSÃO Utilizado para temas assuntos ou con ceitos avançados levando ao aprofun damento do que está sendo trabalhado naquele momento do texto APROFUNDANDO Uma dose extra de conhecimento é sempre bemvinda Aqui você terá indicações de filmes que se conectam com o tema do conteúdo INDICAÇÃO DE FILME Uma dose extra de conhecimento é sempre bemvinda Aqui você terá indicações de livros que agregarão muito na sua vida profissional INDICAÇÃO DE LIVRO Utilizado para desmistificar pontos que possam gerar confusão sobre o tema Após o texto trazer a explicação essa interlocução pode trazer pontos adicionais que contribuam para que o estudante não fique com dúvidas sobre o tema ZOOM NO CONHECIMENTO Este item corresponde a uma proposta de reflexão que pode ser apresentada por meio de uma frase um trecho breve ou uma pergunta PENSANDO JUNTOS Utilizado para aprofundar o conhecimento em conteúdos relevantes utilizando uma lingua gem audiovisual EM FOCO Utilizado para agregar um conteúdo externo EU INDICO Professores especialistas e con vidados ampliando as discus sões sobre os temas por meio de fantásticos podcasts PLAY NO CONHECIMENTO PRODUTOS AUDIOVISUAIS Os elementos abaixo possuem recursos audiovisuais Recursos de mídia dispo níveis no conteúdo digital do ambiente virtual de aprendizagem 145 4 145U N I D A D E 3 INTRODUÇÃO AO CLUSTERING 146 CLUSTERING MÉTODOS HIERÁRQUICOS 174 CLUSTERING BASEADOS EM DENSIDADE 198 7U N I D A D E 1 INTRODUÇÃO AO KDD E AO PRÉPROCESSAMENTO DE DADOS PARA CLASSIFICAÇÃO E AGRUPAMENTO 8 INTRODUÇÃO ÀS REGRAS DE ASSOCIAÇÃO 28 IMPLEMENTAÇÃO DE ALGORITMOS DE REGRAS DE ASSOCIAÇÃO APRIORI 50 71U N I D A D E 2 IMPLEMENTAÇÃO DE ALGORITMOS DE REGRAS DE ASSOCIAÇÃO FPGROWTH 72 INTRODUÇÃO A SISTEMAS DE RECOMENDAÇÃO 98 APLICAÇÕES DE SISTEMAS DE RECOMENDAÇÃO 120 5 SUMÁRIO unidade 1 MINHAS METAS INTRODUÇÃO AO KDD E AO PRÉ PROCESSAMENTO DE DADOS PARA CLASSIFICAÇÃO E AGRUPAMENTO Compreender os conceitos fundamentais relacionados à descoberta de conhecimento em bases de dados Compreender técnicas de préprocessamento de dados como limpeza transformação e redução de dimensionalidade Compreender os fundamentos da mineração de dados Saber aplicar técnicas estatísticas relevantes para a mineração de dados Compreender o processo de criação e interpretação de visualizações de dados Entender métodos avançados de detecção de outliers e anomalias Aplicar os conhecimentos adquiridos em casos de uso práticos e estudos de caso reais T E M A D E A P R E N D I Z A G E M 1 8 INICIE SUA JORNADA Imagine que você trabalha em uma empresa de ecommerce que possui uma vas ta quantidade de dados sobre o comportamento de seus clientes O desafio é iden tificar padrões nesses dados para personalizar ofertas e aprimorar a experiência do usuário No entanto os dados estão desorganizados possuem inconsistências e precisam ser preparados para análise Como você pode extrair conhecimento valioso dessas informações para impulsionar as estratégias de negócios A resolução dessa problemática é crucial para maximizar o potencial dos da dos disponíveis O conhecimento extraído pode otimizar campanhas de marke ting recomendações de produtos e a compreensão do comportamento do cliente Isso não apenas impulsiona a eficiência operacional da empresa mas também a coloca em uma posição estratégica no mercado oferecendo produtos e serviços mais alinhados às expectativas dos clientes Quando lidamos com situações práticas podemos nos deparar com dados reais de empresas semelhantes à situação proposta Através de técnicas de KDD Kno wledge Discovery in Databases e préprocessamento de dados teremos a oportu nidade de colocar em prática a limpeza de dados a redução de dimensionalidade e a transformação necessárias para uma análise eficaz Ao aplicar algoritmos de classificação e agrupamento teremos a oportunidade de experimentar na prática como essas etapas são cruciais para a extração de conhecimento significativo O tema abre espaço para reflexões sobre a importância crescente da análise de dados no cenário profissional atual A capacidade de transformar dados brutos em insights valiosos é uma habilidade estratégica em diversas áreas desde o mar keting até a tomada de decisões estratégicas Além disso incentiva a reflexão sobre a ética no uso de dados e a necessidade de profissionais capacitados para lidar com questões de privacidade e segurança da informação A introdução ao KDD e ao préprocessamento de dados é portanto um passo essencial para qualquer profissional que busque se destacar em um mundo movido por dados Neste podcast vamos fazer uma breve retrospectiva sobre os principais marcos e eventos relacionados ao desenvolvimento da atividade de Mineração de Dados Dê o play Recursos de mídia disponíveis no conteúdo digital do ambiente virtual de aprendizagem PLAY NO CONHECIMENTO UNIASSELVI 9 TEMA DE APRENDIZAGEM 1 DESENVOLVA SEU POTENCIAL PROCESSO DE DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS O conceito de descoberta de conhecimento em bases de dados pode ser resumido como o processo nãotrivial de identificar padrões novos válidos potencialmente úteis e principalmente compreensíveis em meio às observações presentes em uma base de dados Fayyad PiatetskyShapiro Smyth 1996 VAMOS RECORDAR Neste vídeo vamos recordar como as técnicas e ferramentas de Big Data podem nos ajudar em problemas nas mais diversas áreas tornando nossas tarefas diárias muito rápidas e eficientes httpswwwyoutubecomwatchvhEFFCKxYbKM 1 1 Dados Seleção Preprocessamento Transformação Mineração de Dados Interpretação Avaliação Padrões Dados transformados Dados preprocessados Dados Alvo Conhecimento Figura 1 Etapas do KDD Knowledge Discovery in Databases Fonte Han and Kamber 2000 Descrição da Imagem esquema com as etapas do Processo de Descoberta de Conhecimento em Base de Dados O processo iniciase a partir dos bancos de dados corporativos representados por um cilindro grande onde ocorre um processo de seleção dos dados que vão formar os Dados Alvo representados por vários pequenos cilindros Esses dados passam então por um processo de préprocessamento culminando em um conjunto de dados pré processados representados por um conjunto de folhas com informações A seguir esses dados passam por um processo de transformação obtendose um conjunto de dados transformados representados por uma sequência de retângulos postos verticalmente e alinhados Os dados passam agora por um processo de mineração de dados culminando num conjunto de padrões representados por um conjunto de retângulos alinhados com comprimentos distintos Finalmente esses padrões passam por um processo de interpretação e avaliação culminando num con junto de dados de conhecimento representado por uma pirâmide de base retangular Fim da descrição O processo de KDD Knowledge Discovery in Databases Descoberta de co nhecimento de base de dados inclui a seleção e integração das bases de dados a limpeza da base préprocessamento a transformação dos dados a mineração e a avaliação dos dados 1 SELEÇÃO DOS DADOS Nessa etapa são identificados e coletados os dados relevantes para a análise A esco lha dos dados apropriados é crucial para garantir que as informações extraídas sejam pertinentes ao objetivo da análise UNIASSELVI 1 1 TEMA DE APRENDIZAGEM 1 2 PRÉPROCESSAMENTO Os dados coletados frequentemente contêm ruídos valores ausentes ou inconsis tências No préprocessamento esses problemas são tratados por meio de técnicas como limpeza preenchimento de valores faltantes e remoção de outliers O objetivo é preparar os dados para análise sem comprometer a qualidade dos resultados 3 TRANSFORMAÇÃO Nessa etapa os dados são transformados para se adequarem aos requisitos da análi se Isso pode envolver a normalização de variáveis a redução de dimensionalidade e a criação de novas características que destacam padrões importantes 4 MINERAÇÃO DE DADOS A fase de mineração é o cerne do KDD Algoritmos de mineração são aplicados aos dados transformados para identificar padrões associações classificações ou agrupa mentos relevantes Essa etapa utiliza técnicas de aprendizado de máquina e outras abordagens estatísticas para descobrir conhecimentos ocultos nos dados 5 INTERPRETAÇÃO DOS DADOS Os resultados da mineração são interpretados à luz do contexto do problema É crucial compreender e validar os padrões descobertos relacionandoos aos objetivos da aná lise A interpretação dos dados é essencial para traduzir os insights obtidos em ações ou decisões práticas Essas etapas formam um ciclo iterativo pois a interpretação dos resultados muitas vezes conduz a ajustes nas fases anteriores do processo O KDD é uma abordagem estruturada que capacita profissionais a transformarem grandes vo lumes de dados em conhecimento útil para tomada de decisões 1 1 MINERAÇÃO DE DADOS Mineração de dados consiste na exploração e análise por meios automáticos ou semiautomáticos de grandes quantidades de dados com objetivo de descobrir padrões significativos Berry Linoff 1997 Figura 2 Mineração de Dados Descrição da Imagem tela de um computador exibindo um grafo com diversos nós conectados entre si desta candose regiões distintas desses nós com cores diferentes e labels indicando cada uma dessas regiões e uma mão humana à direita onde o dedo indicador aponta para uma determinada região do grafo Fim da descrição A Mineração de Dados é uma disciplina que se destaca no campo da ciência de dados focada na descoberta de padrões informações e conhecimentos valiosos em grandes conjuntos de dados Essa abordagem interdisciplinar combina téc nicas de estatística aprendizado de máquina inteligência artificial e bancos de dados para extrair insights significativos e predições a partir de dados brutos As tarefas fundamentais da mineração de dados incluem a classificação que orga niza os dados em categorias ou classes distintas a regressão que busca identificar relações entre variáveis a detecção de anomalias a clusterização que agrupa dados similares e a associação que revela padrões frequentemente concorrentes A aplicação da Mineração de Dados é vasta e impactante em diversas áreas No campo do marketing ela é utilizada para segmentar clientes e personalizar estratégias publicitárias Em medicina auxilia na identificação de padrões em UNIASSELVI 1 1 TEMA DE APRENDIZAGEM 1 dados de pacientes para diagnóstico e tratamento personalizado Na área finan ceira ajuda na detecção de fraudes e na análise de riscos Além disso na pesquisa científica a Mineração de Dados é empregada para analisar grandes conjuntos de informações e identificar correlações que podem levar a descobertas inova doras Em resumo a Mineração de Dados desempenha um papel fundamental na transformação de dados em conhecimento útil em uma variedade de setores A Figura 3 apresenta um paralelo do termo Mineração de Dados com a ati vidade de mineração de metais e pedras preciosas Mina Base de dados Substância Dados Ferramentas Algoritmos Mineral Informação Resultado Conhecimento Figura 3 Elementos ferramentas e resultados da Mineração de Dados Fonte o autor Descrição da Imagem desenho contendo um cilindro representando uma mina base de dados uma folha de papel contendo uma tabela representando a substância dados um fluxograma representando ferramentas algoritmo um conjunto de barras verticais de cores e alturas diferentes representando o mineral informação e finalmente uma lâmpada acesa representando o resultado conhecimento Fim da descrição Tipo de Dados No processo de Mineração de Dados os tipos de dados desempenham um papel crucial influenciando as técnicas e abordagens utilizadas Dados es truturados referemse a conjuntos de informações organizadas em tabelas ou bancos de dados com formatos consistentes e relações predefinidas entre as variáveis Esses dados são altamente organizados e adequados para análises 1 4 quantitativas sendo comumente encontrados em sistemas de gerenciamento de bancos de dados relacionais Dados semiestruturados possuem alguma forma de organização mas não seguem estritamente um modelo predefinido Exemplos incluem formatos como XML Extensible Markup Language e JSON JavaScript Object Notation Esses dados são mais flexíveis em termos de representação permitindo uma maior va riedade de informações mas podem exigir processamento adicional para serem integrados a técnicas de Mineração de Dados Já os dados nãoestruturados são informações que não possuem uma organização formal ou esquema predefinido Textos imagens vídeos e áudios são exemplos comuns de dados nãoestruturados A Mineração de Dados em dados nãoestruturados muitas vezes envolve o uso de técnicas avançadas como processamento de linguagem natural reconhecimento de padrões em imagens ou análise de sentimentos em textos O desafio reside na transformação desses dados em formatos compreensíveis para análises quantitativas e na extração de conhecimentos significativos A diversidade desses tipos de dados ressalta a im portância da flexibilidade e adaptabilidade das técnicas de Mineração de Dados para lidar com diferentes estruturas de informação Dados estruturados Dados semiestruturados Dados não estruturados Figura 4 Tipos de Dados Fonte o autor Descrição da Imagem a imagem apresenta exemplos de dados estruturados exemplo dados de um processo judicial dados semiestruturados email arquivo XML e arquivo JSON e dados nãoestruturados vídeos arquivos de áudio imagens textos em diversos formatos Fim da descrição UNIASSELVI 1 5 TEMA DE APRENDIZAGEM 1 Tipo de Tarefas As tarefas da Mineração de Dados abrangem uma variedade de objetivos cada uma com enfoque específico na extração de conhecimentos úteis a partir dos dados Agrupamento Clustering essa tarefa visa identificar padrões natu rais e relações intrínsecas nos dados agrupando elementos similares em conjuntos distintos O objetivo é revelar estruturas subjacentes nos dados sem a necessidade de rótulos predefinidos O agrupamento é aplicado em situações em que a classificação não é conhecida a priori Modelagem Preditiva Classificação a modelagem preditiva busca construir modelos capazes de prever a categoria ou classe à qual um novo conjunto de dados pertence Utiliza algoritmos de aprendizado super visionado onde o modelo é treinado com dados rotulados para fazer previsões sobre dados não rotulados É amplamente empregada em áreas como marketing para segmentação de clientes e em diagnósticos médicos Detecção de Anomalias Outliers a detecção de anomalias concen trase na identificação de padrões que se desviam significativamente do comportamento normal dos dados Essa tarefa é crucial em situações onde a detecção de eventos raros ou incomuns é fundamental como na segurança cibernética para identificar atividades fraudulentas ou na ma nutenção preditiva para detectar falhas em equipamentos Regras de Associação a tarefa de regras de associação busca identificar relações e padrões entre variáveis em conjuntos de dados Essas regras ajudam a revelar associações frequentes entre itens sendo amplamente aplicadas em áreas como análise de cesta de compras em varejo onde a compreensão das relações entre produtos pode informar estratégias de marketing e disposição de produtos Essas tarefas representam abordagens distintas para explorar e compreender dife rentes aspectos dos dados proporcionando insights valiosos que podem orientar decisões estratégicas e ações em diversas áreas 1 1 Préprocessamento para agrupamento e classificação O préprocessamento de dados é uma etapa essencial ao realizar as tarefas de agrupamento e classificação no processo de Mineração de Dados Esse processo visa preparar os dados para análise eliminando ruídos tratando inconsis tências e destacando características relevantes para a identificação de padrões naturais Algumas etapas fundamentais incluem LIMPEZA DE DADOS Remoção de dados ausentes duplicatas e correção de erros para garantir a qualidade e integridade dos dados NORMALIZAÇÃO Ajuste de escalas para evitar que variáveis com unidades distintas tenham pesos des proporcionais na análise REDUÇÃO DE DIMENSIONALIDADE Utilização de técnicas como Análise de Componentes Principais PCA para reduzir a complexidade do conjunto de dados preservando suas características essenciais TRATAMENTO DE OUTLIERS Identificação e tratamento de valores atípicos que podem distorcer os resultados do agrupamento O préprocessamento de dados desempenha um papel vital na eficácia das tarefas de classificação e agrupamento dentro do processo de mineração de dados Ao lidar com a classificação onde o objetivo é treinar um modelo para prever a ca tegoria de novos dados e o agrupamento que busca identificar padrões naturais nos dados é essencial adotar cuidados específicos Pontos de atenção no préprocessamento para tarefa de Classificação UNIASSELVI 1 1 TEMA DE APRENDIZAGEM 1 Seleção Adequada de Características escolher as variáveis certas é crucial Características irrelevantes ou redundantes podem afetar nega tivamente a qualidade dos agrupamentos Balanceamento de Classes garantir que as classes alvo estejam balancea das é crucial para evitar vieses no modelo Se uma classe for dominante o modelo pode favorecer a previsão dessa classe em detrimento das outras Manuseio de Dados Desbalanceados em situações de desbalancea mento técnicas como oversampling ou undersampling podem ser apli cadas para equilibrar a representação das classes durante o treinamento do modelo Tratamento de Dados Categóricos técnicas apropriadas para lidar com dados categóricos como codificação onehot devem ser aplicadas para integrar essas variáveis aos algoritmos de classificação Pontos de atenção no préprocessamento para tarefa de Agrupamento Escolha de Métricas de Similaridade a seleção adequada de métricas de similaridade influencia significativamente os resultados do agrupa mento Diferentes algoritmos podem exigir métricas específicas sendo crucial entender a natureza dos dados Tratamento de Outliers a presença de outliers pode afetar a qualidade dos agrupamentos Cuidados específicos como escolher algoritmos ro bustos a outliers devem ser considerados Determinação do Número de Clusters K a escolha do número de clusters é uma decisão crítica Métodos como o método do cotovelo ou índices de validação de clusters podem auxiliar mas a interpretação dos resultados também é fundamental Em ambas as tarefas a normalização dos dados é vital para evitar que carac terísticas com escalas diferentes dominem a análise Certifiquese de escolher a técnica de normalização apropriada para os requisitos específicos do algoritmo Outro ponto importante é a utilização de técnicas de validação cruzada ao préprocessar os dados especialmente ao ajustar parâmetros ou escolher modelos ajuda a garantir que os resultados sejam generalizáveis para novos conjuntos de dados Em resumo os cuidados no préprocessamento são cruciais para o sucesso das tarefas de classificação e agrupamento em Mineração de Dados Uma com 1 8 preensão profunda da natureza dos dados e das nuances dos algoritmos escolhi dos é essencial para obter resultados confiáveis e significativos Técnicas e Ferramentas Ferramentas de Mineração de Dados ferramentas como Weka scikit learn e R oferecem implementações de algoritmos de agrupamento e funciona lidades de préprocessamento Algoritmos de Agrupamento algoritmos como KMeans DBSCAN e Hie rarchical Clustering são frequentemente utilizados e têm requisitos específicos de préprocessamento Visualização de Dados técnicas de visualização como gráficos de dispersão ou mapas de calor podem ajudar a entender a distribuição dos dados e a necessidade de ajustes no préprocessamento O préprocessamento eficiente é crucial para garantir que os resultados do agrupamento sejam significativos e representem de maneira fidedigna as estru turas subjacentes dos dados contribuindo para uma análise mais precisa e in terpretação dos resultados Apresentação e tratamento dos resultados visualização dos dados estatística e detecção de outliers A visualização de dados desempenha um papel crucial na Mineração de Dados fornecendo insights intuitivos sobre padrões tendências e relações nos conjuntos de dados Gráficos de dispersão histogramas mapas de calor e visualizações tridi mensionais são exemplos de ferramentas visuais que auxiliam na compreensão da distribuição e estrutura dos dados Além disso a visualização é fundamental para identificar clusters potenciais entender a variabilidade dos dados e comunicar resultados de forma acessível a diferentes públicos A aplicação de técnicas estatísticas é central na Mineração de Dados permi tindo a análise quantitativa de padrões e relações nos dados Medidas de tendên cia central dispersão correlação e testes de hipóteses são algumas das ferramentas estatísticas utilizadas Elas ajudam a caracterizar a variabilidade dos dados avaliar a significância estatística de padrões identificados e validar a robustez dos mo delos gerados durante o processo de Mineração de Dados UNIASSELVI 1 9 TEMA DE APRENDIZAGEM 1 A detecção de outliers é uma etapa crítica no préprocessamento de dados Outliers são valores atípicos que podem distorcer análises e resultados Técnicas estatísticas como a identificação de valo res além de determinados limites e abordagens mais avançadas como métodos baseados em distâncias ou modelos probabilísticos são empregadas para detectar e lidar com outliers A remoção ou tratamento adequado desses valores anômalos contribui para a robustez e confiabilidade das análises realizadas na Mineração de Dados Em síntese a visualização de dados o uso de técnicas estatísticas e a detecção de outliers são elementos essenciais no processo de Mineração de Dados Juntos esses aspectos fornecem uma compreensão abrangente e confiável dos dados facilitando a identificação de padrões e a tomada de decisões informadas com base nas informações extraídas Dado informação e conhecimento No contexto do processo de Mineração de Dados a evolução do dado para in formação e por fim para conhecimento representa uma jornada essencial na extração de significado dos conjuntos de dados Inicialmente os dados brutos são coletados e armazenados representando observações e medidas A transformação desses dados em informação ocorre por meio de processos como limpeza integração e seleção conferindolhes contexto e relevância Por fim a Mineração de Dados busca extrair conhecimento a partir dessas informações revelando padrões relações e tendências que podem ser utilizados para fazer predições tomar decisões informadas e entender melhor o domínio específico Portanto o processo de Mineração de Dados transcende a mera manipulação de dados buscando agregar valor ao transformar informações em conhecimento que pode impulsionar ações estratégicas e insights inovadores Outliers são valores atípicos que podem distorcer análises e resultados 1 1 1000 milibares 51 ms 95º 30ºC poucas 100 mts Pressão atmosférica 1000milibares Velocidade e direção do vento 51 ms 95º Temperatura do ar 30ºC Nuvens poucas Visibilidade 1000 mts A probabilidade de chuva baixa então posso ir à praia Figura 5 Dado informação e conhecimento Fonte adaptada de Castro e Ferrari 2016 Descrição da Imagem a imagem apresenta um exemplo de dado informação e conhecimento Como dado temos uma tabela com indicações de valores numéricos de pressão velocidade temperatura etc Como informação temos a apresentação da informação sobre as grandezas de pressão atmosférica velocidade direção do vento tempe ratura nuvens e visibilidade com seus respectivos valores Finalmente como conhecimento temos a indicação da interpretação desses valores com a conclusão de que a probabilidade de chuva é baixa indicando a possibilidade de ir à praia Fim da descrição Filme O Homem que Mudou o Jogo Sinopse baseado em fatos reais O Homem que Mudou o Jogo é a história de Billy Beane Brad Pitt gerente do time de base ball Oakland Athletics Com pouco dinheiro em caixa e a ajuda de Peter Brand Jonah Hill ele desenvolve um sofisticado pro grama de estatísticas para o clube fazendo com que ficasse entre as principais equipes do esporte nos anos 80 Comentário nesse filme iremos perceber como um trabalho objetivo e direcionado aos resultados com os dados gerados pelo próprio clube pode ajudar a equipe a mudar de patamar no ranking da qual pertencia INDICAÇÃO DE FILME UNIASSELVI 1 1 TEMA DE APRENDIZAGEM 1 NOVOS DESAFIOS Na introdução ao processo de Descoberta de Conhecimento em Bancos de Da dos KDD e ao préprocessamento de dados para classificação e agrupamento a interseção entre teoria e prática é fundamental para preparar profissionais para os desafios do mercado de trabalho em Mineração de Dados Teoricamente os alunos aprendem os conceitos fundamentais desde as eta pas do KDD até as técnicas específicas de préprocessamento entendendo a im portância da limpeza de dados normalização e seleção de características Contudo a prática é essencial para aplicar esses conhecimentos em situações do mundo real No mercado de trabalho os profissionais enfrentam conjuntos de dados complexos e variados exigindo habilidades práticas para adaptar e oti mizar estratégias de KDD Além disso a demanda por especialistas em Mineração de Dados continua a crescer em setores como saúde finanças e marketing onde a capacidade de transformar dados em conhecimento valioso é altamente valorizada A conexão entre teoria e prática neste contexto prepara os alunos para en frentar os desafios do mercado de trabalho onde a aplicação eficaz dos conceitos aprendidos é crucial para o sucesso profissional Confira aqui uma aula referente a este assunto Recursos de mídia disponíveis no conteúdo digital do ambiente virtual de aprendizagem EM FOCO 1 1 1 A Descoberta de Conhecimento em Bases de Dados Knowledge Discovery in Databases KDD é um processo composto de várias etapas iniciando com a coleta de dados para o problema em pauta e finalizando com a interpretação e avaliação dos resultados obtidos Em um processo de Descoberta de Conhecimento em Bases de Dados KDD qual das seguintes etapas é responsável por preparar os dados brutos para análise a Modelagem preditiva b Interpretação de resultados c Seleção de características d Limpeza dos dados e Análise exploratória 2 Mineração de dados em inglês data mining é o processo de encontrar anomalias padrões e correlações em grandes conjuntos de dados para prever resultados Analise as sentenças a seguir I A Mineração de Dados é um processo que visa descobrir padrões relações e informações úteis em grandes conjuntos de dados Essa prática utiliza técnicas estatísticas algoritmos de aprendizado de máquina e métodos de visualização para transformar dados brutos em conhecimento valioso II Uma das principais etapas da Mineração de Dados é a préprocessamento de dados que envolve atividades como limpeza de dados normalização e seleção de características Essas ações são essenciais para garantir a qualidade e a relevância dos dados contri buindo para a eficácia das análises subsequentes III A Mineração de Dados é um processo que garante resultados precisos e conclusivos em todas as situações É correto o que se afirma em a I apenas b III apenas c I e II apenas d II e III apenas e I II e III AUTOATIVIDADE 1 1 3 Os tipos de dados se dividem em estruturados não estruturados e semiestruturados Indique a alternativa correta a Dados estruturados referemse a dados que não possuem uma organização específica e não seguem um formato predefinido b Dados não estruturados são altamente organizados armazenados em tabelas ou bancos de dados relacionais c Dados semiestruturados são formatados de maneira rigorosa seguindo um esquema prédefinido d Dados estruturados são comumente encontrados em documentos de texto emails e páginas da web e Dados não estruturados geralmente seguem um esquema predefinido facilitando a análise automatizada AUTOATIVIDADE 1 4 REFERÊNCIAS BERRY M J A LINOFF G S Data Mining Techniques for Marketing Sales and Customer Re lationship Management Indianapolis Wiley Publishing Inc 2004 CAMILO C O SILVA J C Mineração de Dados Conceitos Tarefas Métodos e Ferramentas Goiânia UFG 2009 CASTRO L N de FERRARI D G Introdução à Mineração de Dados São Paulo Saraiva 2016 FAYYAD U M PIATETSKYSHAPIRO G AND SMYTH P From Data Mining to Knowledge Dis covery An Overview In Advances in Knowledge Discovery and Data Mining eds Menlo Park Calif AAAI Press 1996 p 130 1 5 1 Alternativa D A alternativa A está incorreta pois a modelagem preditiva diz respeito a uma tarefa da Mine ração de Dados e não diz respeito a etapa de préprocessamento dos dados A alternativa B está incorreta pois a interpretação dos resultados é a última etapa do pro cesso de KDD A alternativa C está incorreta pois a seleção de características é uma etapa realizada na seleção de dados e não no préprocessamento A alternativa E está incorreta pois a análise exploratória visa identificar padrões ou anomalias após a etapa de préprocessamento dos dados 2 Alternativa C A afirmação III está incorreta pois na realidade os resultados da Mineração de Dados po dem ser influenciados por diversos fatores incluindo a qualidade dos dados a escolha dos algoritmos e a interpretação dos resultados A complexidade dos dados e a necessidade de ajustes frequentes no processo tornam a obtenção de insights totalmente precisos um desafio constante 3 Alternativa D A alternativa A está incorreta pois os dados estruturados tem um formato prédefinido A alternativa B está incorreta pois os dados não estruturados não possuem uma estrutura bem definida ou organizada A alternativa C está incorreta pois os dados semiestruturados tem uma combinação das características dos dados estruturados e não estruturados e portanto não são formatados de maneira rigorosa A alternativa E está incorreta pois a definição apresentada é exatamente a dos dados es truturados GABARITO 1 1 MINHAS ANOTAÇÕES 71 43 29 MINHAS METAS INTRODUÇÃO ÀS REGRAS DE ASSOCIAÇÃO Entender os conceitos fundamentais de suporte confiança e lift nas Regras de Associação Capacidade de identificar e interpretar o suporte em conjuntos de dados Desenvolver habilidade para calcular e interpretar a confiança em análises de cestas de mercado Compreender o conceito de lift e sua importância na identificação de associações significativas Aplicar os conceitos de suporte e confiança em planilhas ou tabelas para análise de cestas de mercado Desenvolver a capacidade de interpretar os resultados obtidos em análises de regras de associação em contextos do mundo real Aplicar os conceitos de suporte confiança e lift em diferentes cenários além de análise de cestas de mercado T E M A D E A P R E N D I Z A G E M 2 1 8 INICIE SUA JORNADA Imagine que você é o gerente de um supermercado e precisa otimizar o layout das prateleiras para aumentar as vendas No entanto você percebe que muitos clientes compram itens de maneira aleatória sem uma lógica aparente Como resolver esse desafio e criar um arranjo eficiente que impulsione as vendas A resolução desse problema é crucial para o sucesso do supermercado pois um layout estratégico pode influenciar diretamente o comportamento de compra dos clientes Ao aplicar técnicas de Regras de Associação é possível identificar padrões nas escolhas dos consumidores otimizando a disposição dos produtos e aumentando a eficiência das vendas Isso não apenas impulsio na o desempenho financeiro mas também melhora a experiência do cliente fortalecendo a fidelidade à marca Para compreender como as Regras de Associação podem ser aplicadas considere o seguinte exemplo ao analisar dados de vendas você percebe que clientes que compram carne também têm uma alta probabilidade de adqui rir carvão para churrasco Implementando essa associação na disposição das prateleiras você cria um espaço do churrasco facilitando a localização dos produtos e incentivando compras adicionais Você estudante ao enfrentar si tuações semelhantes em seus próprios contextos poderá aplicar essas técnicas para descobrir padrões e melhorar processos Ao explorar a aplicação das Regras de Associação na resolução do problema do supermercado é importante refletir sobre como esses conceitos extrapolam o ambiente empresarial As mesmas técnicas podem ser utilizadas em áreas como marketing medicina educação entre outras Essa reflexão incentiva os estudan tes a considerarem as implicações éticas a adaptabilidade e a responsabilidade na aplicação dessas ferramentas poderosas Além disso estimula o pensamento crítico sobre como as descobertas podem ser interpretadas e aplicadas de maneira significativa em diversas situações da vida real Vamos ouvir no podcast um breve relato sobre diversos casos de sucesso de apli cação de técnicas de mineração de dados e regras de associação em diversas áreas de aplicação Recursos de mídia disponíveis no conteúdo digital do am biente virtual de aprendizagem PLAY NO CONHECIMENTO UNIASSELVI 1 9 TEMA DE APRENDIZAGEM 2 DESENVOLVA SEU POTENCIAL MINERAÇÃO DE DADOS A mineração de dados é um processo de descoberta de padrões significativos informações úteis e conhecimento previamente desconhecido em grandes con juntos de dados A tarefa de descoberta de regras de associação é uma das técnicas fundamentais da mineração de dados que visa encontrar relações frequentes entre diferentes itens em conjuntos de dados transacionais Tan et al 2006 VAMOS RECORDAR Vamos recordar alguns conceitos sobre operações com conjuntos particularmente as operações de união e interseção de conjuntos que iremos utilizar em Regras de Associação httpswwwyoutubecomwatchvc5a99sXSq8 Data Mining Atividade Preditiva Classificação Regressão Atividade Descritiva Regras de Associação Clustering Sumarização Figura 1 Tarefas da Mineração de Dados Fonte o autor Descrição da Imagem diagrama com a taxonomia das tarefas de Data Mining ao centro que se divide em 2 gran des ramificações a direita indicando a tarefa de Atividade Preditiva e a esquerda indicando a tarefa de Atividade Descritiva A atividade Preditiva por sua vez se desdobra em tarefas Classificação e Regressão e a atividade Descritiva se desdobra em três tarefas Regras de Associação Clustering e Sumarização Fim da descrição 1 1 REGRAS DE ASSOCIAÇÃO As Regras de Associação são uma poderosa técnica de mineração de dados que revela padrões frequentes em conjuntos de dados Essa abordagem é amplamente utilizada para descobrir relações significativas entre diferentes variáveis especial mente em cenários onde a coocorrência de itens é relevante O conceito de regras de associação é dado através de uma expressão de im plicação da forma Regra X Y onde X e Y São conjuntos de itens e indica que quem compra X também compra Y As Regras de Associação são amplamente empregadas para otimizar estratégias de marketing e gerenciamento de estoque em lojas mas sua aplicação vai além alcançando áreas como diagnóstico de falhas em redes de comunicação inte rações na interface do usuário análise de crimes individuais e identificação de padrões em doenças recorrentes Essa tarefa visa descobrir elementos que estão associados a outros em uma mesma transação revelando relacionamentos ou padrões comuns entre conjuntos de dados Assim as Regras de Associação reve lam padrões presentes nas transações de um banco de dados Um exemplo clássico é observado em transações de clientes onde são regis trados os itens adquiridos Nesse contexto uma regra de associação poderia ser leite pão manteiga sugerindo que com certo grau de certeza se um cliente compra leite e pão é provável que também adquira manteiga Essas associações fornecem insights valiosos para estratégias de vendas e gerenciamento de estoque permitindo uma abordagem mais eficaz e personalizada Han Kamber Pei 2011 Análise de padrões frequentes Padrões frequentes são um padrão um conjunto de itens subsequências su bestruturas etc que ocorrem frequentemente em um conjunto de dados Foi proposto inicialmente por Agrawal e Srikant 1994 no contexto de conjunto de itens frequentes e mineração de regras de associação UNIASSELVI 1 1 TEMA DE APRENDIZAGEM 2 Essa tarefa abordada pela área de Análise de Associação busca identificar pa drões e regularidades nos dados para responder a perguntas específicas como en tender quais produtos são frequentemente comprados juntos ou quais compras são realizadas após a compra de um determinado item A análise de associação é fundamental para descobrir relações ocultas nos dados e pode ser aplicada em di versas áreas desde o varejo até a pesquisa de mercado e o planejamento estratégico Ela tem por objetivo encontrar regularidades em dados e responder pergun tas como por exemplo Que produtos são usualmente comprados em conjunto Quais são as compras subsequentes à compra de um PC Que tipos de DNA são sensíveis a uma droga Podemos classificar automaticamente os documentos da Web Algumas das aplicações incluem análise de dados de cesta crossmarketing de sign de catálogos análise de campanha de venda análise de log de Web fluxo de clique e análise de sequência de DNA Conceitos relacionados à Regras de Associação Dado um conjunto de transações encontre as regras que irão predizer a ocorrên cia de um item baseado nas ocorrências de outros itens em transação TID ÍTENS EXEMPLO DE REGRAS DE ASSOCIAÇÃO 1 Pão Leite Fralda Cerveja Leite Pão Ovos Coca Cerveja Pão Leite Implicação significa coocorrência não causa lidade 2 Pão Fralda Cerveja Ovos 3 Leite Fralda Cerveja Ovos 5 Pão Leite Fralda Cerveja 5 Pão Leite Fralda Coca Quadro 1 Regras de associação Fonte o autor 1 1 Principais conceitos relacionados a Regras de Associação Conjunto de itens uma coleção de um ou mais itens Exemplo Leite Pão Fralda Conjunto de kitens um conjunto que contém k itens Exemplo 1itemset CaféLeitePão Exemplo 2itemset Café Leite CaféPão LeitePão Contagem de suporte σ a frequência de ocorrência de um conjunto de itens Exemplo 2 Leite Pão Fralda σ Suporte a fração de transações que contém um conjunto de itens Exemplo 2 5 Leite Pão Fralda σ Conjunto de itens frequente um conjunto de itens com suporte maior ou igual do que o limiar minsup Métricas de avaliação de regras Suporte s Fração probabilidade de transações que contém tanto X como Y Suporte número de transações para as quais uma regra faz a predição correta utilidade Dada a Regra X Y Suporte Freq X Y N X Y N σ Onde FreqXY σ XY número de transações em que X e Y ocorrem simultaneamente e N número total de transações Exemplo Leite Fralda Cerveja Suporte 5 σ Leite Fralda Cerveja 5 σ Leite Fralda Cerveja 2 5 Confiança c Mede a frequência probabilidade condicional com que os itens em Y aparecem também em transações que contém X Confiança número de transações que a regra prediz corretamente entre as transações para as quais a regra se aplica certeza UNIASSELVI 1 1 TEMA DE APRENDIZAGEM 2 Dada a Regra Leite Fralda Cerveja Confiança Freq X Y σ X X Y X σ σ X Y X σ σ Freq X Y σ X Onde FreqXY σ XY número de transações em que X e Y ocorrem simultaneamente e σ X número transações que contém X Exemplo Leite Fralda Cerveja Confiança Leite Fralda Cerveja Leite Fralda σ σ 2 3 Dado um conjunto de transações T o objetivo da mineração de regras de associação é encontrar todas as regras que têm suporte minsup confiança minconf MINERAÇÃO DE REGRAS DE ASSOCIAÇÃO Abordagem da força bruta passos a serem efetuados Liste todas as possíveis regras de associação Calcule o suporte e a confiança para cada regra Corte as regras que não satisfazem minsup ou minconf Esse método é computacionalmente proibitivo Complexidade Computacional Dado d itens únicos O número total de conjuntos de itens 2d O número total de possíveis regras de associação 1 4 Figura 2 Número de regras de associação x total de itens Fonte adaptada de Eick e Christoph 1997 Descrição da Imagem gráfico representando a função exponencial que relaciona o número de regras com o número de itens únicos d Alguns pontos relevantes do gráfico são d6 e R602 e d10 e R 50000 A relação entre R e d é dada pela fórmula R 3d 2d 1 Fim da descrição MINERANDO AS REGRAS DE ASSOCIAÇÃO Considerando as transações indicadas no Quadro 1 podemos gerar as seguintes regras Exemplos de regras Leite Fralda Cerveja s04c067 Leite Cerveja Fralda s04c10 Fralda Cerveja Leite s04c067 Cerveja Leite Fralda s04c067 Fralda Leite Cerveja s04c05 Leite Fralda Cerveja s04c05 Todas as regras acima são partições do mesmo conjunto de itens Leite Fralda Cerveja O suporte é igual para regras que têm origem do mesmo conjunto de itens a confiança pode ser diferente Assim poderemos desacoplar os requisitos de suporte e confiança TEMA DE APRENDIZAGEM 2 Abordagem de dois passos A abordagem de 2 passos também conhecida como força bruta é uma técnica utilizada na descoberta de regras de associação em mineração de dados Nesse método a busca por todas as possíveis regras é realizada em duas etapas distintas Na primeira etapa são gerados todos os conjuntos de itens frequentes ou seja os conjuntos de itens que aparecem com uma frequência superior a um limiar mínimo de suporte predefinido Na segunda etapa todas as regras possíveis são extraídas a partir dos conjuntos de itens frequentes identificados na etapa ante rior Essa abordagem é chamada de força bruta devido à sua natureza exaustiva uma vez que considera todas as combinações possíveis de itens para identificar as regras de associação Embora seja computacionalmente intensiva a abordagem de 2 passos pode ser eficaz para descobrir regras de associação em conjuntos de dados de tamanho moderado Abordagem de dois passos 1 Geração de conjuntos frequentes de itens gere todos os conjuntos de itens com suporte minsup 2 Geração de regras gere regras de alta confiança para cada conjunto frequente de itens em que cada regra é uma partição binária do conjunto frequente de itens Conclusão geração de conjuntos frequentes de itens ainda é computacionalmente Geração de Itens Frequentes A descoberta de padrões frequentes em conjuntos de dados costuma envolver a construção de um grafo de itens frequentes onde cada nó representa um conjunto de itens que ocorre com uma frequência superior a um limiar mínimo de suporte No entanto à medida que o número de itens em um conjunto aumenta o número de conjuntos candidatos a serem considerados também cresce exponencialmente Esse fenômeno é conhecido como explosão combinatória e é um dos principais desafios na mineração de dados Em um conjunto de dados com d itens o número de conjuntos candidatos pode chegar a 2 elevado a d o que pode tornar a geração e avaliação desses conjuntos inviável em termos de tempo e recursos computacio nais Portanto lidar com a grande quantidade de nós gerados em um grafo de itens frequentes é fundamental para a eficiência dos algoritmos de mineração de dados 1 1 Dado d itens existem 2º possíveis conjuntos de itens candidatos A B C null D E ABCD ABCE ABDE ABCDE ACDE BCDE AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE Figura 3 Grafo de itens frequentes Fonte adaptada de Eick e Christoph 1997 Descrição da Imagem grafo mostrando a geração de conjunto de itens candidatos onde a partir do nó inicial raiz gerase 5 nós ABCD e E representando as combinações umaum dos 5 itens representados No se gundo nível temos as combinações doisadois com 10 nós seguindose as combinações trêsatrês com 10 nós seguindose as combinações quatroaquatro com 5 nós e finalmente o último nó contendo a combinação dos 5 itens Fim da descrição Algoritmo A Priori alternativa de solução para reduzir a complexidade de geração de Regras de Associação Princípio Apriori Se um conjunto de itens é frequente então todos os seus subconjuntos tam bém devem ser frequentes O princípio Apriori se aplica por causa da seguinte propriedade de medida de suporte X Y X Y s X s Y O suporte de um conjunto de itens nunca excede o suporte de seus subconjuntos conhecida como a propriedade antimonótona do suporte UNIASSELVI 1 1 TEMA DE APRENDIZAGEM 2 Demonstrando o Princípio A Priori O gráfico a seguir mostra a aplicação do Princípio A Priori que considera que todos os subconjuntos de itens não frequentes também serão não frequentes o que possibilita descartar todos esses subconjuntos Determinado como não frequente Superconjuntos eliminados A B C null D E ABCD ABCE ABDE ABCDE ACDE BCDE AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE Figura 4 Grafo do princípio A Priori Fonte adaptada de Eick e Christoph 1997 Descrição da Imagem grafo mostrando a geração de todos os subconjuntos candidatos a partir de 5 itens destacandose os superconjuntos eliminados considerandose que o subconjunto AB não é frequente O gráfico indicado os subconjuntos AB ABC ABD ABE ABCD ABCE ABDE e ABCDE como eliminados Fim da descrição Processo de Geração de Regras de Associação O processo de geração de regras de associação envolve as etapas de préprocessa mento geração do conjunto de itens frequentes mineração de regras e avaliação 1 8 Préprocessamento Geração do conjunto de itens frequentes Avaliação Mineração de regras Figura 5 Processo de geração de regras de associação Fonte o autor Descrição da Imagem esquema indicando as etapas de geração de regras de associação Iniciase pela etapa de PréProcessamento seguindose a etapa de Geração de conjunto de itens frequentes continuando pela etapa de Mineração de Dados e concluindo com a etapa de Avaliação Destacase que dependente do resultado da Avaliação podese retornar a etapa de Geração do conjunto de itens frequentes Fim da descrição PRÉPROCESSAMENTO nessa etapa os dados brutos são preparados para a análise Isso inclui a remoção de dados irrelevantes tratamento de valores nulos e a organização adequada das transa ções O objetivo é criar um conjunto de dados limpo e coerente para a mineração de regras GERAÇÃO DO CONJUNTO DE ITENS FREQUENTES utilizando algoritmos como Apriori ou FPGrowth identificamos os conjuntos de itens que ocorrem frequentemente nas transações Isso envolve a criação de itens frequen tes que são conjuntos de itens que atendem a um determinado limiar de suporte MINERAÇÃO DE REGRAS a partir dos conjuntos de itens frequentes são derivadas as regras de associação O processo envolve a geração de todas as regras possíveis e a aplicação de critérios de confiança para selecionar as mais relevantes Regras de associação representam padrões identificados nos dados indicando relações entre diferentes itens UNIASSELVI 1 9 TEMA DE APRENDIZAGEM 2 AVALIAÇÃO após a mineração as regras geradas são avaliadas em termos de sua utilidade e sig nificância Isso inclui a análise de métricas como confiança suporte e lift para garantir que as regras identificadas sejam relevantes e possam ser aplicadas de maneira eficaz no contexto específico do conjunto de dados A avaliação ajuda a refinar e ajustar o modelo de regras para melhor atender aos objetivos da análise Avaliação Os critérios de avaliação se utilizam de medidas de interesse que avaliam as ca racterísticas das regras e medem a sua relevância As métricas mais utilizadas são Suporte já visto à significância estatística da regra usado para eliminar regras pouco interessantes Confiança já visto à mede a acurácia da regra Lift à inclui a contagem do consequente na medida da confiança Convicção à razão entre a diferença de suporte do consequente e o erro de confiança O lift é uma métrica crucial na avaliação de regras de associação fornecendo insights sobre a significância e a relevância prática dessas regras Essencialmente o lift compara a probabilidade de ocorrência de uma associação específica com a probabilidade esperada na ausência de qualquer relação Lift 1 Indica independência a associação é tão provável quanto seria aleatoriamente Lift 1 Sugere uma associação positiva a ocorrência dos itens juntos é mais provável do que seria esperado aleatoriamente Lift 1 Indica uma associação negativa a ocorrência dos itens juntos é menos provável do que seria esperado aleatoriamente Valores altos de lift indicam associações mais significativas e potencialmente úteis na prática O Lift é especialmente valioso para filtrar regras priorizando aquelas que têm um impacto real e não são simplesmente o resultado de coincidências 4 1 Na análise de cestas de mercado por exemplo um lift elevado para a associa ção entre dois produtos sugere que a venda conjunta é mais substancial do que o esperado Isso pode orientar decisões estratégicas como arranjos de prateleiras ou campanhas de marketing direcionadas Assim o lift desempenha um papel fundamental na seleção e interpretação de regras de associação ajudando a identificar padrões de interesse e direcionar a tomada de decisões informadas Em uma regra de associação óbvia como quem compra rádio de pilha também compra pilha o lift tende a ser próximo ou igual a 1 Base de 100000 registros e 20 atributos equipamentos eletrônicos Figura 6 Associações óbvias Fonte o autor Descrição da Imagem figura com um rádio portátil e uma bateria e a indicação da associação óbvia entre ambos Fim da descrição Vamos entender isso Lift 1 Indica independência a associação é tão provável quanto seria alea toriamente Nesse caso se a compra de rádio de pilha e pilhas são independentes ou seja a probabilidade de comprar pilhas é a mesma independentemente da compra do rádio de pilha o lift será próximo de 1 Isso porque o lift compara a probabilidade conjunta de comprar ambos os itens com a probabilidade esperada com base nas taxas individuais de compra No entanto mesmo que o lift seja próximo de 1 isso não torna a regra sem valor A regra ainda pode ser útil indicando uma associação lógica entre os produtos A interpretação do lift deve considerar o contexto e o propósito específico da análise UNIASSELVI 4 1 TEMA DE APRENDIZAGEM 2 Título Inteligência Artificial ascensão das máquinas Vamos ver um filme que aborda uma questão já presente em muitas discussões sobre robôs e aplicativos de Inteligência Ar tificial o relacionamento emocional entre humanos e máquinas O filme se passa em um futuro distante onde Milutin um as tronauta com problemas de relacionamento é escolhido para uma longa jornada espacial em uma nave quase totalmente automatizada Para evitar que ele fique solitário a empresa responsável constrói um robô humanoide chamado Nimani O enredo se desenrola como uma ficção científica íntima centra da no relacionamento entre os dois personagens principais e abordando temas como machismo violência solidão assédio moral e sexual dependência emocional e amor O filme des tacase por sua ênfase nos aspectos humanos em contraste com os efeitos especiais culminando em um desfecho emo cionante e reminiscente das tragédias de Shakespeare INDICAÇÃO DE FILME Confira aqui uma aula referente a este assunto Recursos de mídia disponíveis no conteúdo digital do ambiente virtual de aprendizagem EM FOCO 4 1 NOVOS DESAFIOS Na Mineração de Dados a teoria e prática se entrelaçam de maneira fundamental especialmente no contexto da aplicação de regras de associação A teoria fornece os fundamentos conceituais algoritmos e métricas que orientam a descoberta de padrões em conjuntos de dados A prática por sua vez é moldada pela aplicação desses conceitos em cenários do mundo real como no mercado de trabalho A teoria oferece uma compreensão profunda dos conceitos incluindo suporte confiança lift e algoritmos como Apriori ou FPGrowth E também delineia algoritmos eficientes para identificar conjuntos de itens frequentes e derivar regras de associação Nas aplicações práticas empresas usam regras de associação para análise de mercado segmentação de clientes e otimização de processos A Mineração de Dados é aplicada em RH para análise de padrões de contratação identi ficação de competências essenciais e previsão de demandas de habilidades Finalmente empregadores podem usar regras de associação para entender comportamentos de compra de clientes personalizar estratégias de marketing e tomar decisões informadas A demanda por profissionais qualificados em Mineração de Dados com habilidades em aplicar teorias complexas em situações práticas está em cons tante crescimento A capacidade de interpretar e aplicar regras de associação tornase uma habilidade valiosa em funções relacionadas à inteligência de negócios e análise de dados Portanto a integração eficaz entre teoria e prática na aplicação de regras de associação é essencial para o sucesso no mercado de trabalho impulsio nando a tomada de decisões estratégicas e a obtenção de insights valiosos a partir de dados complexos UNIASSELVI 4 1 1 Regras de associação são relações entre os itens frequentemente encontrados juntos em um banco de dados transacional Elas são expressas na forma de se X então Y onde X e Y são conjuntos de itens Uma regra de associação pode conter as seguintes características Informações estatísticas sobre a frequência da ocorrência Confiança Importância desta relação Qual das seguintes afirmações sobre Regras de Associação é verdadeira a O suporte mede a probabilidade condicional de que a compra de um item seja seguida pela compra de outro item b A confiança indica a frequência relativa de uma associação em relação ao total de tran sações c Um lift igual a 1 indica uma associação positiva e relevante entre os itens d Regras de Associação são comumente usadas para análise de cestas de mercado e identificação de padrões de compra dos clientes e Regras de associação são sempre úteis para prever comportamentos futuros com pre cisão 2 O fator Suporte indica a ocorrência relativa da regra de associação detectada dentro do conjunto de dados de transações É calculado pela razão entre o número de transações que sustentam a regra e o número total de transações sendo este fator uma medida relativa Analise as sentenças a seguir I O suporte mede a frequência absoluta de uma associação em um conjunto de transações II Um alto valor de suporte indica que a associação é frequente e potencialmente útil para análise III O suporte é uma medida que indica a força da relação entre os itens em uma associação É correto o que se afirma em a I apenas b III apenas c I e II apenas d II e III apenas e I II e III AUTOATIVIDADE 4 4 3 A confiança de uma regra de associação é uma medida da probabilidade condicional de que um item ou conjunto de itens ocorra dado que outro item ou conjunto de itens ocorra Em outras palavras a confiança mede a probabilidade de que a presença de um item ou conjunto de itens no conjunto de transações esteja associada à presença de outro item ou conjunto de itens no mesmo conjunto de transações Qual das seguintes afirmações sobre o fator confiança em Regras de Associação é verda deira a A confiança mede a frequência relativa de uma associação em relação ao total de tran sações b A confiança indica a força da relação entre os itens em uma associação c Um alto valor de confiança indica uma associação fraca e pouco significativa d Regras de Associação com alta confiança são geralmente consideradas mais relevantes e úteis para análise e O cálculo da confiança envolve a comparação da frequência de uma associação com sua ocorrência esperada na ausência de qualquer relação AUTOATIVIDADE 4 5 REFERÊNCIAS AGRAWAL R SRIKANT R Fast Algorithms for Mining Association Rules IBM Almaden Resear ch Center1994 EICK C F Department of Computer Sciense University of Houston CSUH 1997 HAN J KAMBER M PEI J Data Mining Concepts and Techniques 3rd ed Morgan Kaufmann 2011 TAN P N STEINBACH M KUMAR V Introduction to Data Mining Pearson Education 2006 4 1 1 Alternativa D A alternativa A está errada pois esta afirmação descreve o conceito de confiança não de suporte O suporte mede a frequência absoluta de uma associação não sua probabilidade condicional A alternativa B está errada pois esta afirmação descreve o suporte corretamente não a confiança O suporte indica a frequência relativa não a confiança A alternativa C está errada pois um lift igual a 1 indica independência não uma associação positiva e relevante Lift maior que 1 indica associação positiva e relevante A alternativa D está certa pois descreve uma aplicação comum das Regras de Associação na análise de cestas de mercado A alternativa E está errada Embora as regras de associação possam fornecer insights valiosos sobre padrões de comportamento passado e associações entre itens elas não garantem necessariamente a precisão na previsão de comportamentos futuros 2 Alternativa C A afirmação I é verdadeira pois o suporte é uma medida que indica a frequência com que uma determinada associação ocorre em relação ao total de transações Ele é calculado dividindo o número de transações que contêm os itens da associação pelo número total de transações no conjunto de dados A afirmação II é verdadeira pois quando o suporte de uma associação é alto isso significa que essa associação ocorre com frequência significativa nas transações Associações com alto suporte são consideradas mais relevantes e úteis para análise pois representam padrões comuns nos dados A afirmação III é falsa pois o suporte não indica a força da relação entre os itens mas sim a fre quência relativa da associação Para medir a força da relação usamos a métrica de confiança 3 Alternativa D Alternativa A está errada Essa afirmação descreve o conceito de suporte não de confiança O suporte mede a frequência relativa de uma associação em relação ao total de transações Alternativa B está errada O conceito de força da relação entre os itens em uma associação é mais bem representado pelo lift não pela confiança A confiança mede a probabilidade condicional de que a compra de um item seja seguida pela compra de outro item Alternativa C está errada Um alto valor de confiança indica uma associação forte e signifi cativa não uma associação fraca e pouco significativa Associações com alta confiança são consideradas mais confiáveis e úteis para análise GABARITO 4 1 Alternativa D está certa Regras de Associação com alta confiança são geralmente consi deradas mais relevantes e úteis para análise pois indicam uma forte probabilidade de que a compra de um item leve à compra de outro Alternativa E está errada Essa afirmação descreve o cálculo do lift não da confiança O lift compara a frequência de uma associação com sua ocorrência esperada na ausência de qualquer relação A confiança por outro lado é uma medida de probabilidade condicional GABARITO 4 8 MINHAS ANOTAÇÕES MINHAS METAS IMPLEMENTAÇÃO DE ALGORITMOS DE REGRAS DE ASSOCIAÇÃO APRIORI Compreender os fundamentos do algoritmo Apriori incluindo a sua abordagem de busca por itens frequentes em conjuntos de dados Familiarizarse com o conceito de suporte em regras de associação Dominar a equação do suporte e sua aplicação prática na análise de padrões de compra dos clientes Explorar o processo de geração de regras de associação a partir dos conjuntos de itens frequentes Entender o conceito de confiança em regras de associação Dominar a equação da confiança e sua utilização na avaliação de regras de associação Aplicar o algoritmo Apriori e as métricas de suporte e confiança em uma base de dados de transações de supermercado T E M A D E A P R E N D I Z A G E M 3 5 1 INICIE SUA JORNADA Imagine que você é um gerente de uma grande rede de supermercados e está inte ressado em aumentar as vendas adicionais entre os produtos da sua loja Você perce be que os clientes que compram determinados produtos tendem a comprar outros itens em conjunto e deseja identificar padrões de compra para otimizar a disposição dos produtos nas prateleiras e criar estratégias de marketing mais eficazes A resolução dessa problemática é de extrema importância para a maximiza ção das vendas e a satisfação dos clientes Ao identificar os padrões de compra dos clientes é possível agrupar produtos complementares e posicionálos estra tegicamente nas prateleiras aumentando a probabilidade de vendas cruzadas Isso não apenas aumenta a receita da loja mas também melhora a experiência de compra dos clientes que encontram os produtos que desejam mais facilmente Para resolver essa questão você decide implementar o algoritmo Apriori para identificar as regras de associação entre os produtos mais vendidos na sua loja Você coleta dados de transações de vendas e utiliza o algoritmo Apriori para identificar conjuntos de itens frequentes e derivar regras de associação a partir desses conjuntos Por exemplo você pode descobrir que os clientes que compram pão também tendem a comprar queijo Com base nessa informação você pode colocar o queijo próximo ao pão para incentivar as vendas cruzadas A implementação do algoritmo Apriori em Regras de Associação nos permite extrair insights valiosos dos dados de transações de vendas e tomar decisões estratégicas informadas para melhorar o desempenho do negócio No entanto é importante considerar que a análise de regras de associação pode ser complexa e requer uma compreensão profunda do domínio do problema e das métricas de avaliação Além disso é fundamental atualizar continuamente as análises à medida que os padrões de compra dos clientes mudam ao longo do tempo Antes de iniciarmos a implementação do algoritmo A Priori vamos ouvir um po dcast que vai discorrer sobre os principais conceitos que serão utilizados na sua implementação Recursos de mídia disponíveis no conteúdo digital do ambiente virtual de aprendizagem PLAY NO CONHECIMENTO UNIASSELVI 5 1 TEMA DE APRENDIZAGEM 3 DESENVOLVA SEU POTENCIAL Vamos implementar o algoritmo A Priori utilizando a linguagem Python e o pacote Apyori disponível através da ferramenta de gerenciamento de pacotes de software PIP e desenvolvida em Python 27 e 33 35 sendo disponibilizada através de APIs e interfaces de linha de comando Apyori c2019 Nessa implementação usaremos o algoritmo Apriori em uma base de dados contendo transações de compra em um supermercado Dados Cada linha representa uma transação e cada coluna corresponde a um pro duto comprado As células contêm uma sequência dos produtos comprados em cada transação caso contrário o valor é nulo Os dados foram obtidos do Kaggle e estão disponíveis neste link httpswww kagglecomdatasetsayushish12marketbasketoptimisation Certifiquese que tem o Python instalado no seu computador Você pode utilizar a distribuição do Anaconda httpswwwanacondacomdownload Anaconda c2024 ou o PyCharm httpswwwjetbrainscompycharmdownloadsectionwindows Pycharm 2023 ou acessar diretamente o site do Python httpswwwpythonorg downloads Python 2024 Para usar o Jupyter notebook veja as instruções em httpsjupyterorginstall Jupyter c2015 VAMOS RECORDAR Vamos recordar os principais conceitos presentes na Mineração de Dados revendo eventos e conceitos como o grande crescimento da produção de dados tipos de dados e as aplicações correspondentes ferramentas de mineração de dados e a diferença entre dado informação e conhecimento h t t p s w w wyo u t u b e c o m w a t c h v S 8 e E P p LyT I A l i s t P LYe n alduuqrMeAMYe6xXNO875JsPMYzj 5 1 1 Inicialmente vamos criar um novo Jupyter notebook e incluir uma des crição para ele 2 Nessa atividade além das bibliotecas pandas e numpy vamos importar as bibliotecas apyori para usar o algoritmo apriori e a matplotlib para gerar gráficos import pandas as pd import matplotlibpyplot as plt import numpy as np pltrcParamsfigurefigsize 1510 3 Instale e importe a biblioteca apyori pip qq install apyori import apyori 4 Importando a base de dados Cada objeto representa uma compra ou transação e contém o nome de um ou mais produtos que fazem parte da compra url httpsrawgithubusercontentcomhigoramariounivespcom360mineracaoda dosmainmarketbasketoptimisationcsv mercado pdreadcsvurl headerNone printmercadoiloc10 5 O Google Colab é um serviço gratuito oferecido pelo Google que permite escre ver e executar códigos Python diretamente no navegador É amplamente utilizado para aprendizado de máquina análise de dados e ensino de programação pois oferece GPUs gratuitas e integração com Google Drive Para utilizálo basta aces sar o Google Colab httpscolabresearchgooglecom criar um novo notebook e começar a codificar sem necessidade de instalação de software EU INDICO UNIASSELVI 5 1 TEMA DE APRENDIZAGEM 3 Após a execução dessa célula os seguintes dados serão exibidos apenas as 10 primeiras transações e as 5 primeiras colunas onde podemos observar que na primeira transação exibida na linha 0 temos os produtos que foram adquiridos nessa transação como shrimp almonds avocado vegetables mix e green grapes Na segunda transação indicada pela linha 1 temos os produtos burgers mea tballs eggs O termo NaN indica ausência de ítem comprado E assim temos a indicação dos ítens comprados nas demais transações Figura 1 Tela com as 10 primeiras transações constantes na base de dados Fonte o autor Descrição da Imagem tabela com os itens presentes nas 10 primeiras transações sendo a primeira transação com os seguintes ítens shrimp almonds avocadovegetables mix e green grapes Na segunda transação burgers meatballs e eggs E nas demais transações diversos outros produtos do mix de produtos constante nos dados carregados O tamanho total da base de dados pode ser feito com o comando lenmercado Que retornará a saída 7501 5 Nesse momento será preciso fazer uma limpeza nos dados removendo espaços em branco de alguns produtos for index in mercadocolumns mercadoindex mercadoindexstrstrip 5 4 6 Vamos fazer uma análise exploratória inicial vendo os produtos existentes na base de dados A função melt permite modificar o formato original do dataframe Nesse caso estamos pegando os valores excluindo os nulos e ordenando itens mercadomeltvaluedropnasortvalues printfExistem itensnunique produtos distintos itensunique Após a execução dessa célula os seguintes dados serão exibidos lista dos pro dutos distintos nas transações Figura 2 Tela com a lista dos produtos distintos nas transações Fonte o autor Descrição da Imagem impressão dos 199 produtos distintos em ordem alfabética iniciando com o produto almonds e encerrando com o produto zucchini Fim da descrição UNIASSELVI 5 5 TEMA DE APRENDIZAGEM 3 7 Vamos verificar os itens mais vendidos qtdeitens itensvaluecounts barra qtdeitensnlargest10plotkindbar barrasettitleItens mais vendidos size20 weight500 pad15 barrasetylabelQtde pltshow Após a execução dessa célula os seguintes dados serão exibidos gráfico dos itens mais vendidos 1750 1500 1250 1000 750 500 250 0 água mineral ovos espaguete batatas fritas chocolate chá verde leite carne moída vegetais congelados panquecas Itens mais vendidos Figura 3 Tela com os itens mais vendidos Fonte o autor Descrição da Imagem gráfico de barras verticais de totais de vendas por tipo de produto que mostra que o produto mais vendido foi água mineral com mais 1750 unidades vendidas vindo a seguir o produto ovos com mais de 1250 unidades vendidas seguido por espaguete batatas fritas chocolate chá verde leite carne moída vegetais congelados e panquecas Fim da descrição 5 1 8 E também os itens menos vendidos barra qtdeitensnsmallest10plotkindbar barrasettitleItens menos vendidos size20 weight500 pad15 barrasetylabelQtde pltshow Após a execução dessa célula os seguintes dados serão exibidos gráfico dos itens menos vendidos Itens menos vendidos Figura 4 Tela com os itens menos vendidos Fonte o autor Descrição da Imagem gráfico de barras verticais de totais de vendas por tipo de produto que mostra que o produto menos vendido foi spray de água com menos de 5 unidades vendidas vindo a seguir o produto guardanapos com 5 unidades vendidas seguido por creme ameixa chá purê de batata molho picante pão de chocolate ketchup e aveia Fim da descrição TEMA DE APRENDIZAGEM 3 9 Préprocessamento vamos contar os itens de cada transação para iden tificar objetos com mais de um item por transação conta a qtde de itens não nulos em cada objeto qtdeporcesta mercadonotnaapplysum axis1 10 No Apriori é necessário haver ao menos 2 itens em cada transação então vamos eliminar transações com um único produto separando os objetos com mais de um item na transação cestas setlinhadropna for linha in mercadoqtdeporcesta 1iterrows cestas5 Após a execução dessa célula os seguintes dados serão exibidos relação dos objetos com mais de um ítem na transação Figura 5 Tela com os objetos com mais de um ítem na transação Fonte o autor Descrição da Imagem listagem das transações que possuem mais de um ítem Iniciando com a transação com 20 ítens cujo primeiro item é o almond e o último é o yams seguindo as demais transações que contém mais de um ítem na transação Fim da descrição 5 8 Podemos agora verificar o total das combinações cestas lencestas Que exibirá o resultado 5747 11 Vamos rodar o Apriori definindo os valores mínimos de suporte e con fiança O resultado mostra as regras de associação que atendem aos ní veis de suporte e confiança que escolhemos Nesse exemplo os níveis de suporte são baixos O item mais vendido água mineral aparece na maioria das relações Os resultados podem ser usados para a criação de promoções de itens relacionados ou então para reorganizar os produtos de forma a facilitar as compras que os clientes fazem minsup 004 minconf 03 regrasassociacao apyoriaprioricestas minsupportminsup minconfidencemin conf for regra in regrasassociacao itens listregraitems print fitens1 itens1 Suporte regrasupport3f f Confiança regraorderedstatistics0confidence3f Após a execução dessa célula os seguintes dados serão exibidos relação das regras geradas UNIASSELVI 5 9 TEMA DE APRENDIZAGEM 3 Figura 6 Tela com as regras geradas Fonte a outor Descrição da Imagem impressão da tela com as regras geradas iniciando com a regra chocolate então mineral water com suporte de 0069 e confiança de 0342A segunda regra é eggs então mineral water com suporte de 0066 e confiança de 0304 e assim sucessivamente até a oitava regra que é mineral water então spaghetti com suporte de 0078 e confiança de 0357 Fim da descrição O mesmo algoritmo pode ser utilizado em outras bases de dados como por exem plo uma base de dados de preferências de leitores por seus autores favoritos Substitua o trecho de leitura da base dados do exemplo anterior no item 4 por Figura 7 Tela com dados de leitores Fonte o autor Descrição da Imagem impressão da tela com informações sobre leitores tendo a primeira linha os dados 1 Cervantes Shakespeare Hemingway na linha seguinte 2 Goethe Dostoievski Shakespeare Hemingway e assim sucessivamente até a linha 10 com os dados Neruda Amado Dostoievski Fim da descrição E a seguir crie um dataframe com esses dados 1 1 Figura 8 Tela com dataframe criado Fonte o autor Descrição da Imagem impressão com o dataframe criado tendo a primeira linha os dados 1 Cervantes Shakes peare Hemingway na linha seguinte 2 Goethe Dostoievski Shakespeare Hemingway e assim sucessivamente até a linha 10 com os dados Neruda Amado Dostoievski Fim da descrição Agora basta executar as células a seguir do exemplo anterior que teremos as regras de associação geradas conta a qtde de itens não nulos em cada objeto qtdeporcesta nnotnaapplysum axis1 separando os objetos com mais de um item na transação cestas setlinhadropna for linha in nqtdeporcesta 1iterrows cestas5 minsup 03 minconf 05 regrasassociacao apyoriaprioricestas minsupportminsup minconfidencemin conf for regra in regrasassociacao itens listregraitems Verifica se todos os itens são diferentes de nan if allitem nan for item in itens print fitens1 itens1 Suporte regrasupport3f f Confiança regraorderedstatistics0confidence3f As regras de associação geradas desse exemplo são UNIASSELVI 1 1 TEMA DE APRENDIZAGEM 3 Figura 9 Tela com regras geradas Fonte o autor Descrição da Imagem tela com a impressão das duas regras criadas sendo a primeira Shakespeare então Cervantes com suporte de 0300 e confiança de 1000 e a segunda regra Dostoiévski então Shakespeare com suporte de 0300 e confiança de 0600 Fim da descrição Acesso ao código Para conferir todo o processo desenvolvido até o momento bem como editar e executar o passo a passo do algoritmo acesse o link a seguir httpscolab researchgooglecomdrive12qr8jo1H6IfGDGfhUdHzxNoWO2ONNnusp sharing No Google Colab você pode executar códigos Python diretamente no navegador colaborar em tempo real com outros usuários e utilizar GPUs gratuitas para acelerar suas tarefas Esta ferramenta é ideal para aprendizado de máquina análise de dados e ensino de programação proporcionando um ambiente intera tivo e eficiente EU INDICO Fatores que afetam a complexidade do algoritmo A Priori A escolha do limiar de suporte mínimo diminuir o suporte resulta em mais conjuntos frequentes de itens isso pode aumentar o número de candidatos e tamanho máximo dos conjuntos frequentes de itens A dimensionalidade número de itens mais espaço é necessário para guardar a contagem de suporte de cada item se o número de itens frequen tes também aumenta tanto custos de computação como IO aumentam O tamanho da base de dados como Apriori faz múltiplas varreduras o tempo de execução do algoritmo pode aumentar com o número de transações O tamanho médio da transação tamanho da transação aumenta com conjuntos de dados mais densos isso pode aumentar o comprimento máximo de conjuntos frequentes de itens e varreduras por subconjuntos em uma transação maior quantidade de subconjuntos 1 1 Chegamos ao final da implementação do algoritmo A Priori Você pode utilizar outras bases de dados que desejar para extrair as possíveis regras de associação dependendo dos valores informados para os fatores de suporte e confiança A utilização de técnicas de mineração de dados pode até ser utilizada em previsões de cotação na Bolsa de Valores e também em sugestões de apostas em jogos de azar Filme Quebrando a banca Ben Campbell Jim Sturgess é um jovem tímido e superdota do do MIT que precisando pagar a faculdade busca a quantia necessária em jogos de cartas Ele é chamado para integrar um grupo de alunos que liderado por Micky Rosa Kevin Spacey um professor de matemática e gênio em estatística conse guem montar um código infalível Contando cartas e usando um complexo sistema de sinais eles conseguem quebrar di versos cassinos INDICAÇÃO DE FILME Confira aqui uma aula referente a este assunto Recursos de mídia disponíveis no conteúdo digital do ambiente virtual de aprendizagem EM FOCO NOVOS DESAFIOS A teoria por trás da implementação do algoritmo Apriori em regras de associa ção fornece as bases fundamentais para entender como o algoritmo funciona e como ele pode ser aplicado na prática O algoritmo Apriori é uma técnica amplamente utilizada na mineração de dados para identificar padrões de asso ciação entre itens em grandes conjuntos de dados como transações de vendas em supermercados ou registros de cliques em sites A teoria por trás do Apriori como o princípio Apriori e as métricas de suporte confiança e lift proporciona uma compreensão profunda dos conceitos subjacentes à geração e avaliação de regras de associação UNIASSELVI 1 1 TEMA DE APRENDIZAGEM 3 Na prática a implementação do algoritmo Apriori envolve a aplicação desses conceitos teóricos a conjuntos de dados do mundo real No mercado de trabalho profissionais que possuem habilidades em implementar e interpretar o Apriori são altamente valorizados especialmente em setores como varejo marketing digital ecommerce e análise de dados Esses profissionais são responsáveis por extrair insights valiosos dos dados transacionais e ajudar as empresas a tomarem decisões estratégicas informadas Ao aplicar o Apriori no mercado de trabalho os profissionais podem 1 IDENTIFICAR PADRÕES DE COMPRA DOS CLIENTES ao analisar os dados de transações de vendas os profissionais podem usar o Apriori para identificar quais produtos são frequentemente comprados juntos Isso permite que as empresas criem estratégias de crossselling e posicionem os produtos de for ma mais eficaz nas prateleiras 2 OTIMIZAR CAMPANHAS DE MARKETING utilizando as regras de associação geradas pelo Apriori as empresas podem segmen tar melhor seus clientes e personalizar suas campanhas de marketing para atender às necessidades e preferências específicas de cada segmento 3 AUMENTAR A EFICIÊNCIA OPERACIONAL ao entender os padrões de compra dos clientes as empresas podem otimizar seus processos de estoque logística e distribuição para garantir que os produtos certos estejam disponíveis no momento certo e no local certo Em suma a conexão entre teoria e prática na implementação do algoritmo Aprio ri é fundamental para aproveitar ao máximo o poder dos dados e impulsionar o sucesso nos negócios Os profissionais que dominam tanto os fundamentos teóricos quanto as aplicações práticas do Apriori têm uma vantagem significativa no mercado de trabalho pois são capazes de traduzir insights de dados em ações tangíveis que impulsionam o crescimento e a inovação nas empresas 1 4 1 No algoritmo Apriori de Regras de Associação um conjunto de kitens é um conjunto de itens que contém exatamente k elementos Esses conjuntos de kitens são utilizados para gerar regras de associação entre os itens presentes nas transações de um conjunto de dados Qual é o conceito de conjunto de kitens utilizado no algoritmo Apriori de Regras de Asso ciação a Conjunto de itens que ocorrem em pelo menos k transações b Conjunto de itens que ocorrem em exatamente k transações c Conjunto de kitens mais frequentes em todas as transações d Conjunto de itens que ocorrem em mais de k das transações e Conjunto de kitens formado dentre os itens das transações 2 No algoritmo Apriori de Regras de Associação o fator de suporte é uma medida que indica a frequência com que um conjunto de itens aparece nas transações de um conjunto de dados Ele é calculado como a proporção de transações que contêm o conjunto de itens em relação ao número total de transações Analise as sentenças a seguir I O fator de suporte é uma medida que indica a frequência com que um conjunto de itens aparece nas transações de um conjunto de dados Quanto maior o suporte mais frequente é o conjunto de itens II O fator de suporte é utilizado no algoritmo Apriori para identificar conjuntos de itens frequentes Conjuntos de itens com um suporte maior ou igual ao suporte mínimo são considerados frequentes e são usados para gerar regras de associação III O fator de suporte é uma medida da proporção de transações que contêm um deter minado conjunto de itens em relação ao número total de transações Por exemplo se tivermos um conjunto de dados com 100 transações e o conjunto pão leite aparecer em 30 transações o suporte do conjunto pão leite será de 30 É correto o que se afirma em a I apenas b III apenas c I e II apenas d II e III apenas e I II e III AUTOATIVIDADE 1 5 3 No algoritmo Apriori de Regras de Associação o fator de confiança é uma medida que in dica a proporção de vezes em que o consequente ocorre dado o antecedente em relação à frequência com que apenas o antecedente ocorre Ele é calculado como o suporte do conjunto de itens antecedente consequente dividido pelo suporte do conjunto de itens antecedente Qual é o conceito do fator Confiança utilizado no algoritmo Apriori de Regras de Associação a A confiança mede a frequência absoluta de um conjunto de itens em relação ao número total de transações b A confiança indica a proporção de vezes em que o antecedente e o consequente de uma regra de associação ocorrem juntos em relação à frequência com que apenas o antecedente ocorre c A confiança é uma medida da frequência com que um conjunto de itens aparece nas transações de um conjunto de dados d A confiança é uma medida que indica a proporção de transações que contêm um deter minado conjunto de itens em relação ao número total de transações e A confiança é a probabilidade de ocorrer um determinado conjunto de itens em uma transação escolhida aleatoriamente do conjunto de dados AUTOATIVIDADE 1 1 REFERÊNCIAS AGRAWAL R SRIKANT R Algoritmos rápidos para regras de associação de mineração In VLDB Conference 1994 Santiago Chile Anais Santiago Chile Morgan Kaufmann 1994 p 487499 ANACONDA c2024 Disponível em httpswwwanacondacomdownload Acesso em 19 fev 2024 APYORI 112 c2019 Disponível em httpspypiorgprojectapyori Acesso em 19 fev 2024 JUPYTER c2015 Disponível em httpsdocsjupyterorgptbrlatestrunninghtml Acesso em 19 fev 2024 PYCHARM 2023 Disponível em httpswwwjetbrainscomhelppycharminstallationguide html Acesso em 19 fev 2024 PYTHON 2024 Disponível em httpswwwpythonorgdownloads Acesso em 19 fev 2024 1 1 1 Alternativa E A alternativa A está errada pois descreve o suporte mínimo para um conjunto de itens não o conceito de conjunto de kitens utilizado no Apriori A alternativa B está errada pois O Apriori não se baseia na contagem exata de ocorrências de itens mas sim na frequência mínima necessária para considerar um conjunto de itens como frequente A alternativa C está errada pois O Apriori não seleciona os k itens mais frequentes mas sim identifica conjuntos de k itens frequentes a partir dos dados A alternativa D está errada pois o suporte mínimo é uma porcentagem da frequência total das transações não uma contagem absoluta de ocorrências A alternativa E está correta pois o conceito de conjunto de kítens é exatamente todos os conjuntos de tamanho k formandos dentre os ítens das transações 2 Alternativa C A afirmação III é falsa pois o fator de suporte não indica a importância ou relevância de um conjunto de itens em relação a outros conjuntos Ele simplesmente indica a frequência com que um conjunto de itens aparece nas transações Portanto a afirmativa falsa não reflete corretamente o conceito de suporte 3 Alternativa B A alternativa A está errada pois descreve o suporte não a confiança A alternativa B está certa A confiança é a proporção de vezes em que o consequente ocorre dado o antecedente calculada como o número de transações contendo tanto o antecedente quanto o consequente dividido pelo número de transações contendo o antecedente A alternativa C está errada pois descreve o suporte não a confiança A alternativa D está errada pois também descreve o suporte não a confiança A alternativa E está errada pois não descreve corretamente a confiança pois não leva em consideração a relação entre o antecedente e o consequente de uma regra de associação GABARITO 1 8 MINHAS ANOTAÇÕES UNIASSSELVI 2 unidale MINHAS METAS IMPLEMENTAÇÃO DE ALGORITMOS DE REGRAS DE ASSOCIAÇÃO FP GROWTH Compreender o funcionamento do algoritmo FPGrowth Conhecer as equações e fórmulas matemáticas envolvidas no algoritmo FPGrowth incluindo cálculos de suporte confiança e lift Desenvolver a capacidade de implementar o algoritmo FPGrowth em Python Analisar os resultados da execução do algoritmo FPGrowth Compreender o impacto dos parâmetros do algoritmo FPGrowth na qualidade e na quantidade dos padrões frequentes e regras de associação geradas Comparar e contrastar o algoritmo FPGrowth com o algoritmo Apriori Entender as aplicações práticas do algoritmo FPGrowth T E M A D E A P R E N D I Z A G E M 4 1 1 INICIE SUA JORNADA Imagine que você trabalha em uma empresa de varejo e está encarregado de analisar os padrões de compra dos clientes para otimizar as estratégias de vendas No entanto lidar com grandes volumes de dados de transações de compras pode ser desafiador e demorado Como você pode identificar os padrões de compra mais frequentes de forma eficiente e escalável A resolução dessa problemática é de extrema importância pois permite à empresa entender melhor o comportamento de compra dos clientes identificar produtos frequentemente comprados juntos e oferecer recomendações persona lizadas Isso pode levar a um aumento nas vendas melhorando a satisfação do cliente e maximizando os lucros Uma maneira eficaz de resolver esse problema é utilizando o algoritmo FPGro wth em Regras de Associação Com o FPGrowth é possível identificar rapidamente os conjuntos de itens frequentes nas transações de compra dos clientes Por exem plo ao analisar os dados de vendas de um supermercado podemos descobrir que os clientes que compram pão também tendem a comprar leite e ovos Isso permite à empresa criar estratégias de marketing direcionadas como colocar esses itens próximos uns dos outros nas prateleiras ou oferecer descontos em conjunto A implementação do algoritmo FPGrowth em Regras de Associação não apenas facilita a análise de grandes volumes de dados mas também abre novas oportunidades de negócios e insights valiosos sobre o comportamento do cliente No entanto é importante lembrar que a análise de dados deve ser feita de forma ética e responsável respeitando a privacidade e os direitos dos consumidores Além disso é essencial continuar explorando novas técnicas e abordagens para aprimorar ainda mais a análise de padrões de compra e oferecer uma experiência de compra excepcional aos clientes A seguir iremos fazer uma breve explanação dos principais conceitos inerentes ao algoritmo FPGrowth como uma alternativa para o processo de descoberta de regras de associação em mineração de dados Vamos ouvir um podcast que irá abordar os principais conceitos do Algoritmo FPGrowth assim como suas limita ções e as principais áreas de aplicação Recursos de mídia disponíveis no conteú do digital do ambiente virtual de aprendizagem PLAY NO CONHECIMENTO UNIASSELVI 1 1 TEMA DE APRENDIZAGEM 4 VAMOS RECORDAR No vídeo a seguir vamos resgatar diversas questões relacionadas ao Algoritmo A Priori e como o algoritmo FPGrowth irá tratar essas situações httpswwwyoutubecomwatchv2jeflurDF0 DESENVOLVA SEU POTENCIAL ALGORITMO FPGROWTH UMA ABORDAGEM EFICIENTE PARA MINERAÇÃO DE PADRÕES FREQUENTES A mineração de padrões frequentes é uma técnica essencial na análise de dados permitindo a descoberta de padrões relevantes em grandes conjuntos de dados transacionais Witten et al 2016 Muitos algoritmos desenvolvidos para essa tarefa acabam sendo bastante dis pendiosos por ter que percorrer repetidas vezes a base de dados para verificar e testar todos os conjuntos de candidatos e seus padrões correspondentes Com o objetivo de superar essas limitações e melhorar a eficiência da descoberta de regras de associação diversos métodos e algoritmos alternativos têm sido desen volvidos Como por exemplo o algoritmo FPGrowth que utiliza uma abordagem diferente do Apriori sem a geração do conjunto de candidatos Nandi et al 2014 O FPGrowth Frequent Pattern Growth destacase por sua eficiência e escalabilidade Neste texto exploraremos em detalhes o funcionamento do al goritmo FPGrowth sua implementação em Python representações de dados utilizados limitações e diversas áreas de aplicação Ao contrário do algoritmo APriori o FPGrowth utiliza uma abordagem sem a geração do conjunto de candidatos Também não utiliza o paradigma de gerar e testar do Apriori ao contrário disso codifica o conjunto de dados em uma es trutura de dados compacta em forma de árvore chamada Frequent Pattern tree FPtree e extrai os conjuntos de itens frequentes diretamente dessa estrutura Isso possibilita uma melhor eficiência na geração das regras de associação pois evita constantes acessos na base de dados Tan Steinbach Kumar 2009 1 4 Funcionamento do Algoritmo FPGrowth O algoritmo FPGrowth foi proposto por Han Dong e Yin 2000 como uma al ternativa ao tradicional Apriori Ele se baseia em uma estrutura de dados chama da FPTree Frequent Pattern Tree que permite representar de forma compacta os padrões frequentes presentes nos dados O algoritmo necessita de no mínimo dois parâmetros de entrada Tan Stein bach Kumar 2009 a Suporte é a métrica utilizada pelo algoritmo para encontrar todos os N itemsets O suporte de uma regra de associação X A B é a porcen tagem das transações que contêm A U B em relação ao número total de transações analisadas b Confiança calcula a força da regra Assim sendo C a confiança de uma regra de associação A B C é na verdade a porcentagem das transações que contêm A U B em relação a todas as transações que contêm A Vamos considerar as seguintes transações para a exemplificação do uso do al goritmo Transações Pão Manteiga Leite Café Adoçante T1 Sim Sim Sim Não Não T2 Não Sim Sim Sim Não T3 Não Não Não Sim Sim T4 Sim Sim Não Sim Não T5 Sim Sim Sim Não Sim T6 Sim Sim Sim Sim Não Tabela 1 Transações efetuadas Fonte o autor UNIASSELVI 1 5 TEMA DE APRENDIZAGEM 4 O funcionamento do algoritmo pode ser dividido em algumas etapaschave 1 Construção da FPTree a primeira etapa é construir a FPTree a partir do conjunto de transações Isso envolve a contagem da frequência de cada item e a organização dos itens em uma estrutura de árvore hierárquica onde cada nó representa um item e suas ramificações representam as transações que contêm esse item Inicialmente vamos obter a frequência para conjuntos com 1 ítem 1itemset Itens No Transações Pão 4 Manteiga 5 Leite 4 Café 4 Adoçante 2 Tabela 2 Frequência de 1itemset Fonte o autor Considerando um minsup 50 e eliminando os itens que não alcançam esse limiar e ordenando em ordem decrescente de frequência temos Itens No Transações Manteiga 5 Pão 4 Leite 4 Café 4 Tabela 3 Frequência de 1itemset ordenado Fonte o autor 1 1 Baseado na ordem de frequência na Tabela 3 ordenamos os itens para cada tran sação excluindo o Adoçante pelo fato deste não ter o suporte mínimo Transações Itens Itens ordenado T1 Pão Manteiga Leite Manteiga Pão Leite T2 Manteiga Leite Café Manteiga Leite Café T3 Café Adoçante Café T4 Pão Manteiga Café Manteiga Pão Café T5 Pão Manteiga Leite Adoçante Manteiga Pão Leite T6 Pão Manteiga Leite Café Manteiga Pão Leite Café Tabela 4 Itens ordenados pela frequência em cada transação Fonte o autor Com os itens ordenados de cada transação podemos começar a construir a FP tree A raiz da árvore sempre será NULL e cada nó carregará o item e a frequência daquele padrão UNIASSELVI 1 1 TEMA DE APRENDIZAGEM 4 NULL Manteiga1 Leite1 Pão1 Figura 1 Árvore gerada na 1ª Iteração Fonte o autor Descrição da Imagem a figura contém a representação gráfica de uma árvore com quatro nós O primeiro nó que é o nó raiz não contém nenhuma informação e está conectado a um segundo nó que contém a informação Manteiga1 Este nó por sua vez está ligado a um terceiro nó que contém a informação Leite1 Finalmente este último nó está conectado a um quarto nó que contém a informação Pão1 Os nós estão dispostos verticalmente com linhas conectandoos na ordem mencionada Fim da descrição Iniciandose com a primeira transação vamos inserir os nós correspondentes aos itens na ordem em que aparecem na transação pois já foram ordenados pela sua frequência Assim abaixo da raiz iremos inserir na ordem Manteiga Leite e Pão e como será a primeira ocorrência de cada um desses itens cada um deles estará associado a um contador que terá valor 1 Adicionando a primeira transação T1 Manteiga Pão Leite na árvore temos 1 8 NULL Manteiga2 Leite1 Pão1 Leite1 Café1 Figura 2 Árvore gerada na 2ª Iteração Fonte o autor Descrição da Imagem a figura contém a representação gráfica de uma árvore com seis nós O primeiro nó que é o nó raiz não contém nenhuma informação e está conectado a um segundo nó que contém a informação Man teiga2 Este nó por sua vez está ligado a dois outros nós sendo o nó a sua esquerda contendo a informação Leite1 e o nó a sua direita contendo a informação Leite1 O nó à sua direita por sua vez está ligado a um outro nó que contém a informação Pão1 O nó da esquerda está ligado a um outro nó que contém a informação Café1 Os nós estão dispostos verticalmente com linhas conectandoos na ordem mencionada Fim da descrição Quando chegamos na segunda transação observamos os itens que já estão na árvore Quando acontecer a ocorrência de algum item ou conjunto de itens que já esteja na árvore iremos realizar o caminho existente até a inserção do novo ítem e incrementamos os respectivos contadores Segunda transação T2 Manteiga Leite Café Note que a contagem da Man teiga é incrementada e um outro nó Leite é criado UNIASSELVI 1 9 TEMA DE APRENDIZAGEM 4 Para a terceira transação temos apenas o item Café que ainda não apareceu na árvore de forma isolada Dessa maneira será criado um novo nó para o Café e seu contador será 1 Processando agora a terceira transação T3 Café NULL Manteiga2 Leite1 Pão1 Café1 Café1 Leite1 Figura 3 Árvore gerada na 3ª Iteração Fonte o autor Descrição da Imagem a figura contém a representação gráfica de uma árvore com sete nós O primeiro nó que é o nó raiz não contém nenhuma informação e está conectado a dois outros nós sendo que o nó à esquerda contém a informação Manteiga2 e o nó à direita contém a informação Café1 O nó com a informação Manteiga2 por sua vez está ligado a dois outros nós sendo o nó a sua esquerda contendo a informação Pão1 e o nó a sua direita contendo a informação Leite1 O nó que contém a informação Pão1 por sua vez está ligado a um outro nó que contém a informação Leite1 O nó que contém a informação Leite1 por sua vez está ligado a um outro nó que contém a informação Café1 Os nós estão dispostos verticalmente com linhas conectandoos na ordem mencionada Fim da descrição 8 1 Para a transação Manteiga Pão Café observamos que já temos o caminho de nós ManteigaPão na árvore Dessa maneira iremos incrementar o contador desses nós e inserir outro nó Café abaixo do nó Pão Processando agora a quarta transação T4 Manteiga Pão Café NULL Manteiga3 Leite1 Pão2 Café1 Café1 Café1 Leite1 Figura 4 Árvore gerada na 4ª Iteração Fonte Autor Descrição da Imagem a figura contém a representação gráfica de uma árvore com oito nós O primeiro nó que é o nó raiz não contém nenhuma informação e está conectado a dois outros nós sendo que o nó à esquerda contém a informação Manteiga3 e o nó à direita contém a informação Café1 O nó com a informação Mantei ga3 por sua vez está ligado a dois outros nós sendo o nó a sua esquerda contendo a informação Pão2 e o nó a sua direita contendo a informação Leite1 O nó que contém a informação Pão2 por sua vez está ligado a dois outros nós sendo que o nó à esquerda contém a informação Leite1 e o nó à direita contém a informação Café1 O nó que contém a informação Leite1 por sua vez está ligado a um outro nó que contém a informação Café1 Os nós estão dispostos verticalmente com linhas conectandoos na ordem mencionada Fim da descrição UNIASSELVI 8 1 TEMA DE APRENDIZAGEM 4 Para a transação com os ítens Manteiga Pão e Leite observamos que já existe esse caminho de nós na árvore de maneira que iremos apenas incrementar os respectivos contadores desses nós Processando agora a quinta transação T5 Manteiga Pão Leite NULL Manteiga4 Leite2 Pão3 Café1 Café1 Café1 Leite1 Figura 5 Árvore gerada na 5ª Iteração Fonte o autor Descrição da Imagem a figura contém a representação gráfica de uma árvore com oito nós O primeiro nó que é o nó raiz não contém nenhuma informação e está conectado a dois outros nós sendo que o nó à esquerda contém a informação Manteiga4 e o nó à direita contém a informação Café1 O nó com a informação Mantei ga4 por sua vez está ligado a dois outros nós sendo o nó a sua esquerda contendo a informação Pão3 e o nó a sua direita contendo a informação Leite1 O nó que contém a informação Pão3 por sua vez está ligado a dois outros nós sendo que o nó à esquerda contém a informação Leite2 e o nó à direita contém a informação Café1 O nó que contém a informação Leite1 por sua vez está ligado a um outro nó que contém a informação Café1 Os nós estão dispostos verticalmente com linhas conectandoos na ordem mencionada Fim da descrição 8 1 Finalmente na última transação temos os itens Manteiga Pão Leite e Café e ob servamos que já existe o caminho de itens ManteigaPãoLeite Dessa maneira iremos incrementar o contador desses nós e incluir ao final mais um nó Café Processando a última transação T6 Manteiga Pão Leite Café temos a nossa FP tree NULL Manteiga5 Leite3 Pão4 Café1 Café1 Café1 Café1 Leite1 Figura 6 Árvore gerada na 6ª e última Iteração Fonte o autor Descrição da Imagem a figura contém a representação gráfica de uma árvore com nove nós O primeiro nó que é o nó raiz não contém nenhuma informação e está conectado a dois outros nós sendo que o nó à esquerda contém a informação Manteiga5 e o nó à direita contém a informação Café1 O nó com a informação Mantei ga5 por sua vez está ligado a dois outros nós sendo o nó a sua esquerda contendo a informação Pão4 e o nó a sua direita contendo a informação Leite1 O nó que contém a informação Pão4 por sua vez está ligado a dois outros nós sendo que o nó à esquerda contém a informação Leite3 e o nó à direita contém a informação Café1 O nó que contém a informação Leite3 por sua vez está ligado a um outro nó que contém a informação Café1 Finalmente o nó que contém a informação Leite1 está ligado a um outro nó que contém a informação Café1 Os nós estão dispostos verticalmente com linhas conectandoos na ordem mencionada Fim da descrição UNIASSELVI 8 1 TEMA DE APRENDIZAGEM 4 2 Extração dos padrões frequentes uma vez construída a FPTree é pos sível extrair os padrões frequentes de forma eficiente Isso é feito através de uma busca recursiva na árvore onde cada caminho da raiz até um nó folha representa um padrão frequente Vamos construir os conjuntos intermediários conditional pattern base e con ditional FP tree para depois gerar os conjuntos frequentes A partir da árvore gerada vamos montar uma tabela com os padrões condicionais a partir de cada item considerando a frequência inversa Frequência inversa Conditional pattern Café ManteigaPãoLeite 1 Manteiga Leite 1 Manteiga Pão 1 Leite ManteigaPão 3 Manteiga 1 Pão Manteiga 4 Manteiga Tabela 5 Conditional Pattern base Fonte o autor Para achar o conditional pattern base precisamos iterar sobre cada item da coluna de frequência inversa e guardar o caminho da raiz até o nó em questão Exem plo podemos encontrar um nó Café pelos caminhos Manteiga Pão Leite Manteiga Leite Manteiga Pão Observe na Árvore 6 que o caminho direto da raiz ao Café não é contado A partir do conditional pattern base criamos o conditional FP tree que são os itens dos conjuntos de conditional pattern base que estão acima do suporte mínimo Conditional pattern base Conditional FPtree ManteigaPãoLeite 1 Manteiga Leite 1 Manteiga Pão 1 Manteiga 3 ManteigaPão 3 Manteiga 1 Manteiga 4 Pão 3 8 4 Manteiga 4 Manteiga 4 Tabela 6 Conditional FPtree Fonte o autor Agora finalmente podemos encontrar nossos conjuntos frequentes Frequência inversa Conditional FPtree Conjuntos frequentes Café Manteiga 3 Manteiga Café Leite Manteiga 4 Pão 3 Manteiga Leite Pão Leite Man teiga Pão Leite Pão Manteiga 4 Manteiga Pão Manteiga Tabela 7 Padrões frequentes FP Fonte o autor 3 Geração das regras de associação Com os padrões frequentes identi ficados o algoritmo pode gerar as regras de associação entre os itens Isso envolve a combinação dos padrões frequentes e a aplicação de métricas de interesse como suporte e confiança Dessa maneira fazendo todas as combinações dos conjuntos frequentes geradados teremos as seguintes regras com seus respectivos fatores de confiança e suporte Manteiga Café Manteiga Café suporte 36 confiança 35 Café Manteiga suporte 36 confiança 34 Manteiga Leite Manteiga Leite suporte 46 confiança 45 Leite Manteiga suporte 46 confiança 44 Pão Leite Pão Leite suporte 36 confiança 34 Leite Pão suporte 36 confiança 34 Manteiga Pão Leite Manteiga Pão Leite suporte 36 confiança 35 UNIASSELVI 8 5 TEMA DE APRENDIZAGEM 4 Pão Manteiga Leite suporte 36 confiança 34 Leite Manteiga Pão suporte 36 confiança 34 ManteigaPão Manteiga Pão suporte 46 confiança 45 Pão Manteiga suporte 46 confiança 44 Implementação em Python O FPGrowth é implementado de forma eficiente em Python graças às bibliotecas e ferramentas disponíveis na linguagem Uma das implementações mais popu lares é fornecida pela biblioteca mlxtend que oferece uma interface simples e intuitiva para execução do algoritmo Abaixo apresentamos um exemplo básico de implementação do FPGrowth em Python utilizando a biblioteca mlxtend pip qq install mlxtend import mlxtend from mlxtendfrequentpatterns import fpgrowth from mlxtendpreprocessing import TransactionEncoder import pandas as pd Dados de exemplo dataset A B C A B D E B D E A C D E Codificação das transações te TransactionEncoder teary tefitdatasettransformdataset Criação do DataFrame df pdDataFrameteary columnstecolumns Aplicação do algoritmo FPGrowth frequentitemsets fpgrowthdf minsupport05 usecolnames True Resultados printfrequentitemsets A saída final do algoritmo é exibida a seguir Note que foi utilizado um fator de suporte 50 8 1 Figura 7 Tela de resultado final do FPGrowth Fonte o autor Descrição da Imagem a tela de saída do algoritmo exibe os valores de suporte de cada itemset iniciando com o itemset formado do item B com um fator de suporte de 075 e assim por diante até o itemset formado pelos itens D e D com fator de suporte de 075 Fim da descrição Nesse exemplo estamos utilizando o FPGrowth para encontrar conjuntos de itens frequentes em um conjunto de transações A função fpgrowth recebe como entrada um DataFrame binário de transações e um valor mínimo de su porte retornando os conjuntos de itens frequentes Note que essa função já realiza toda a construção da árvore FPGrowth e identifica todos os itemsets possíveis com seus respectivos fatores de suporte Representações de Dados O algoritmo FPGrowth utiliza representações de dados específicas para ar mazenar as informações necessárias para a geração dos padrões frequentes A principal representação é a FPTree que consiste em uma estrutura de árvore compacta e eficiente Além disso o algoritmo também pode fazer uso de outras estruturas de dados como tabelas hash para otimizar o processo de busca e geração dos padrões frequentes UNIASSELVI 8 1 TEMA DE APRENDIZAGEM 4 Limitações do FPGrowth Embora o FPGrowth seja um algoritmo eficiente e escalável para a mineração de padrões frequentes ele também possui algumas limitações Uma das princi pais limitações está relacionada ao uso de memória especialmente ao lidar com conjuntos de dados muito grandes Além disso o desempenho do algoritmo pode ser afetado por diferentes parâmetros como o suporte mínimo e pela natureza dos dados especialmente quando há muitos itens únicos ou transações esparsas Áreas de Aplicação O algoritmo FPGrowth tem uma ampla gama de aplicações em diversas áreas incluindo ANÁLISE DE CESTAS DE MERCADO identificação de padrões de compra em transações de supermercado para estratégias de marketing e merchandising SEGMENTAÇÃO DE CLIENTES agrupamento de clientes com base em padrões de compra para personalização de ofertas e campanhas de marketing DETECÇÃO DE FRAUDES identificação de padrões suspeitos em transações financeiras para detecção de ativi dades fraudulentas ANÁLISE DE CLIQUES EM WEBSITES identificação de padrões de navegação em websites para recomendação de conteú do e otimização de layout 8 8 BIOINFORMÁTICA análise de padrões genéticos em sequências de DNA para identificação de mutações e associações genéticas Comparação entre o APriori e FPGrowth O algoritmo Apriori e o algoritmo FPGrowth são duas abordagens populares para a mineração de padrões frequentes em conjuntos de dados transacionais Ambos os algoritmos têm vantagens e desvantagens e a escolha entre eles depende das características específicas dos dados e dos requisitos de desempenho No Quadro 1 a seguir há uma breve comparação entre esses dois algorit mos destacando as situações em que cada um deles tem uma melhor perfor mance Acompanhe ALGORITMO APRIORI ALGORITMO FPGROWTH DESEMPENHO EM CONJUNTOS DE DADOS ESPARSOS É menos eficiente em conjuntos de dados com muitos itens únicos e transações esparsas pois requer várias passa gens pelos dados para construir candidatos frequentes Supera o Apriori em conjuntos de dados esparsos pois utiliza uma estrutura de dados compacta FPTree que permite uma única passagem pelos dados resultando em uma me lhor performance CONSUMO DE MEMÓRIA Pode consumir mais memória especialmente em conjuntos de dados grandes devido à ne cessidade de armazenar tabelas de candidatos frequentes e contadores de suporte Tende a consumir menos memória pois utiliza a estrutura de árvore compacta FPTree para representar os padrões frequentes de forma eficiente UNIASSELVI 8 9 TEMA DE APRENDIZAGEM 4 DESEMPENHO EM CONJUNTOS DE DADOS PEQUENOS Em conjuntos de dados pequenos onde o nú mero de itens únicos e transações é limitado o Apriori pode ter um de sempenho competitivo devido à simplicidade de sua abordagem Pode ser excessivamente complexo para conjuntos de dados pequenos pois a construção da FPTree pode introduzir overhead adicional em compara ção com abordagens mais diretas AJUSTE DE PARÂMETROS Pode ser mais fácil de ajustar em termos de pa râmetros como suporte mínimo e confiança mínima pois suas etapas são mais diretas e intuitivas Pode exigir ajustes mais cuidadosos devido à sensibilidade de seus parâmetros como o tamanho mínimo do padrão frequentemente usado para podar a árvo re e controlar o tamanho do espaço de busca Quadro 1 Comparação entre o algoritmo Apriori e o algoritmo FPGrowth Fonte o autor Em resumo o algoritmo Apriori pode ser mais adequado para conjuntos de dados peque nos ou densos enquanto o FPGrowth é geralmente preferido em conjuntos de dados grandes e esparsos No entanto a escolha entre os dois algoritmos depende das caracte rísticas específicas dos dados e dos requisitos de desempenho do problema em questão Filme Uma mente brilhante Sinopse John Nash Russell Crowe é um gênio da matemá tica que aos 21 anos formulou um teorema que provou sua genialidade e o tornou aclamado no meio onde atuava Após anos de luta para se recuperar de uma doença ele consegue retornar à sociedade e acaba sendo premiado com o Nobel Comentário o matemático John Nash formulou a Teoria dos Jogos que é o estudo das tomadas de decisões que um indiví duo realiza quando o resultado desta escolha depende do que outros indivíduos decidem como em um jogo de estratégias Assim como Nash identificou padrões e estratégias ótimas em jogos o FPGrowth identifica padrões de comportamento de compra que podem ser úteis para empresas no desenvolvi mento de estratégias de vendas e marketing INDICAÇÃO DE FILME 9 1 NOVOS DESAFIOS A implementação do algoritmo FPGrowth para tarefas de Regras de Associação não só é fundamentada em sólidos princípios teóricos mas também tem uma apli cação direta e significativa no mercado de trabalho Vamos explorar como a teoria e a prática se conectam destacando suas perspectivas no ambiente profissional 1 Teoria Fundamentada em Mineração de Dados O algoritmo FPGrowth baseiase em conceitos fundamentais da mineração de dados como suporte confiança e lift que são essenciais para identificar padrões relevantes em grandes conjuntos de dados transacionais Os profissionais que dominam esses conceitos teóricos têm uma base sólida para entender como o FPGrowth funciona e como aplicálo na prática 2 Implementação em Ambientes Profissionais No mercado de trabalho a capacidade de implementar o algoritmo FPGrowth é altamente valorizada em várias áreas incluindo varejo marketing finanças e saúde Empresas de varejo por exemplo utilizam o FPGrowth para analisar pa drões de compra dos clientes e oferecer recomendações personalizadas enquanto instituições financeiras o utilizam para detectar fraudes em transações 3 Análise de Dados e Tomada de Decisão A capacidade de utilizar o FPGrowth para identificar padrões e tendências nos dados é essencial para a tomada de decisão baseada em dados no ambiente pro fissional Profissionais que dominam o FPGrowth são capazes de extrair insights valiosos dos dados e usar essas informações para orientar estratégias de negócios e melhorar o desempenho organizacional Confira aqui uma aula referente a este assunto Recursos de mídia disponíveis no conteúdo digital do ambiente virtual de aprendizagem EM FOCO UNIASSELVI 9 1 TEMA DE APRENDIZAGEM 4 4 Adaptação a Diferentes Setores e Problemas Uma das vantagens do FPGrowth é sua aplicabilidade em uma variedade de setores e problemas Os alunos que dominam o algoritmo FPGrowth têm a capacidade de adaptálo a diferentes contextos e problemas específicos de cada setor o que os torna altamente versáteis e procurados pelos empregadores 5 Aprendizado Contínuo e Inovação Além de dominar a implementação do FPGrowth os profissionais também devem estar abertos ao aprendizado contínuo e à inovação O campo da mineração de dados está em constante evolução e novas técnicas e algoritmos estão sendo desen volvidos regularmente Os profissionais que se mantêm atualizados com as últimas tendências e tecnologias têm uma vantagem competitiva no mercado de trabalho Em suma a conexão entre teoria e prática na implementação do algoritmo FPGrowth para tarefas de Regras de Associação é fundamental para o sucesso no mercado de trabalho Os alunos que compreendem os princípios teóricos sub jacentes dominam a implementação prática e estão preparados para aplicar seus conhecimentos em diferentes setores e problemas têm excelentes perspectivas pro fissionais e contribuem significativamente para o sucesso de suas organizações 9 1 1 O algoritmo FPGrowth foi proposto por Jiawei Han Jian Pei e Yiwen Yin em 2000 Ele foi criado como uma alternativa eficiente ao algoritmo Apriori para a mineração de padrões frequentes em conjuntos de dados transacionais Qual das seguintes afirmações é verdadeira sobre o algoritmo FPGrowth a O FPGrowth utiliza uma abordagem de geração explícita de todos os conjuntos de itens frequentes b O FPGrowth é menos eficiente que o algoritmo Apriori em conjuntos de dados grandes e esparsos c O FPGrowth não utiliza uma estrutura de árvore para representar os padrões frequentes d O FPGrowth é amplamente utilizado para identificar padrões frequentes em grandes conjuntos de dados transacionais e O FPGrowth é uma variante do algoritmo KMeans utilizado em análise de clusters 2 A FPtree ou frequent pattern tree é uma estrutura de dados utilizada no algoritmo FPGro wth para representar padrões frequentes em conjuntos de dados transacionais Analise as sentenças a seguir I A FPtree é uma estrutura de dados compacta e eficiente para representar padrões frequentes em conjuntos de dados transacionais Essa estrutura permite uma única pas sagem pelos dados para construir a árvore o que torna o algoritmo FPGrowth mais eficiente do que o Apriori II Na FPtree os itens frequentes são ordenados de acordo com sua frequência de ocor rência nos dados transacionais Isso significa que os itens mais frequentes são colocados mais próximos da raiz da árvore facilitando a identificação de padrões frequentes durante a mineração III A FPtree utiliza uma estrutura de árvore balanceada para representar os padrões fre quentes nos dados transacionais Na verdade a FPtree não é uma árvore balanceada mas sim uma estrutura de árvore não balanceada onde os itens são organizados de acordo com sua frequência de ocorrência independentemente de equilíbrio É correto o que se afirma em a I apenas b III apenas c I e II apenas d II e III apenas e I II e III AUTOATIVIDADE 9 1 3 A Conditional FPtree é uma extensão da FPtree utilizada no algoritmo FPGrowth para mineração de padrões frequentes em conjuntos de dados transacionais Qual das seguintes afirmações é verdadeira sobre a Conditional FPtree a A Conditional FPtree é uma estrutura de dados utilizada no algoritmo Apriori para re presentar os padrões frequentes b A Conditional FPtree é uma versão modificada da FPtree utilizada no algoritmo FPGro wth para melhorar a eficiência da mineração de padrões frequentes c A Conditional FPtree é uma estrutura de árvore balanceada que organiza os itens fre quentes de acordo com sua frequência de ocorrência nos dados d A Conditional FPtree requer múltiplas passagens pelos dados para identificar padrões frequentes tornandoa menos eficiente que a FPtree e A Conditional FPtree é utilizada no algoritmo KMeans para agrupar os dados em clus ters com base em sua similaridade AUTOATIVIDADE 9 4 REFERÊNCIAS HAN J DONG G YIN Y Efficient mining of partial periodic patterns in time series database ICDE99 p 106115 2000 NANDI JCB et al O Algoritmo de Associação Frequent PatternGrowth na Shell Orion Data Mi ning Engine SULCOMP v 7 2014 Disponível em httpsperiodicosunescnetojsindexphp sulcompissueview97 Acesso em 24 fev 2024 TAN P STEINBACH M KUMAR V Introdução ao Data Mining Rio de Janeiro Ed Ciência Mo derna 2009 WITTEN I H et al Data Mining Practical Machine Learning Tools and Techniques 4th ed Mor gan Kaufmann 2016 9 5 1 Alternativa D A alternativa A está errada O FPGrowth utiliza uma abordagem de geração de padrões frequentes sem geração explícita de todos os conjuntos de itens frequentes Ele utiliza uma estrutura de árvore chamada FPTree para representar os padrões frequentes de forma compacta A alternativa B está errada Na verdade o FPGrowth é mais eficiente que o algoritmo Apriori especialmente em conjuntos de dados grandes e esparsos devido à sua abordagem de uma única passagem pelos dados e à utilização da estrutura de árvore FPTree A alternativa C está errada O FPGrowth utiliza uma estrutura de árvore chamada FPTree para representar os padrões frequentes de forma eficiente Essa estrutura de árvore é fun damental para a eficiência do algoritmo A alternativa D está correta O FPGrowth é amplamente utilizado para identificar padrões frequentes em grandes conjuntos de dados transacionais tornandose uma ferramenta valiosa na mineração de dados A alternativa E está errada O FPGrowth não é uma variante do algoritmo KMeans Enquanto o FPGrowth é utilizado para identificar padrões frequentes em conjuntos de dados transa cionais o KMeans é utilizado para agrupar dados em clusters com base em sua similaridade 2 Alternativa C A alternativa I é verdadeira A FPtree é uma estrutura de dados eficiente que permite uma única passagem pelos dados para identificar padrões frequentes Isso a torna mais eficiente do que abordagens que requerem múltiplas passagens pelos dados como o algoritmo Apriori A alternativa II é verdadeira A ordenação dos itens frequentes na FPtree de acordo com sua frequência de ocorrência facilita a identificação de padrões frequentes durante a mineração Itens mais frequentes estarão próximos da raiz da árvore enquanto itens menos frequentes estarão mais afastados A alternativa III é falsa A FPtree não utiliza uma estrutura de árvore balanceada Na verdade a FPtree é uma árvore não balanceada onde a ordem dos itens é determinada pela fre quência de ocorrência nos dados transacionais não pela necessidade de equilíbrio da árvore Essa falta de balanceamento é uma das características que contribuem para a eficiência do algoritmo FPGrowth GABARITO 9 1 3 Alternativa B A alternativa A está errada A Conditional FPtree não é utilizada no algoritmo Apriori mas sim no algoritmo FPGrowth A alternativa B está certa A Conditional FPtree é uma versão modificada da FPtree utilizada no algoritmo FPGrowth para melhorar a eficiência da mineração de padrões frequentes A alternativa C está errada A Conditional FPtree não é uma estrutura de árvore balanceada A alternativa D está errada A Conditional FPtree não requer múltiplas passagens pelos dados ela é construída em uma única passagem assim como a FPtree A alternativa E está errada A Conditional FPtree não é utilizada no algoritmo KMeans GABARITO 9 1 MINHAS METAS INTRODUÇÃO A SISTEMAS DE RECOMENDAÇÃO Compreender os fundamentos dos Sistemas de Recomendação Identificar os princípios da Recomendação Colaborativa reconhecendo a importância da análise coletiva de dados para sugestões personalizadas Analisar os Algoritmos e Técnicas de Recomendação Colaborativa algoritmos de filtra gem colaborativa baseada em memória e baseada em modelo Explorar os Desafios e Soluções na Recomendação Colaborativacold start e a esparsida de dos dados e técnicas como regularização e integração de informações auxiliares Entender os fundamentos da Recomendação Baseada em Conteúdo Aplicar Algoritmos e Técnicas de Recomendação Baseada em Conteúdo Integrar Personalização e Contexto na Recomendação Baseada em Conteúdo T E M A D E A P R E N D I Z A G E M 5 9 8 INICIE SUA JORNADA Imaginese navegando em uma loja online procurando por um novo livro para ler Você fica perdido em meio a milhares de opções sem saber por onde come çar Ou então pense em momentos em que você está assistindo a um serviço de streaming e passa mais tempo procurando algo para assistir do que realmente assistindo algo Essas situações são comuns na era digital onde somos bombar deados por uma infinidade de escolhas em todos os aspectos da vida A questão que surge é como podemos tomar decisões informadas e encontrar o que real mente nos interessa em meio a essa avalanche de opções A resolução dessa problemática é de extrema importância pois impacta dire tamente a experiência do usuário e a eficiência dos sistemas digitais Sistemas de recomendação desempenham um papel crucial ao ajudar os usuários a navegar por esse mar de opções oferecendo sugestões personalizadas com base em seus interesses preferências e comportamentos passados Essas recomendações não apenas facilitam a descoberta de novos produtos conteúdos ou serviços mas também aumentam o engajamento do usuário impulsionam as vendas e me lhoram a satisfação geral Por exemplo ao utilizar um serviço de streaming de música os estudantes podem experimentar como as recomendações automáticas os direcionam para novas músicas e artistas com base em suas preferências de audição anteriores Da mesma forma ao fazer compras online eles podem observar como os sistemas de recomendação sugerem produtos relacionados aos que eles visualizaram ou compraram anteriormente Essas situações práticas demonstram como os sis temas de recomendação podem simplificar o processo de tomada de decisão e enriquecer a experiência do usuário É fundamental refletir sobre como os sistemas de recomendação estão moldando nossas interações online e influenciando nossas escolhas Embora ofereçam inúmeros benefícios também levantam questões importantes sobre pri vacidade viés algorítmico e a filtragem de informações É essencial questionar como esses sistemas funcionam quem os controla e quais são as consequências de confiar cegamente em suas recomendações Ao compreendermos melhor o funcionamento dos sistemas de recomendação e suas implicações podemos utilizar essas ferramen tas de forma mais consciente e crítica garantindo que elas nos sirvam como auxílios na tomada de decisões e não como ditadores de nossas escolhas UNIASSELVI 9 9 TEMA DE APRENDIZAGEM 5 Convidamos você a ouvir nosso podcast sobre a fascinante evolução dos sistemas de recomendação ao longo do tempo Não perca a chance de entender a traje tória o impacto e o futuro dos sistemas de recomendação Recursos de mídia disponíveis no conteúdo digital do ambiente virtual de aprendizagem PLAY NO CONHECIMENTO VAMOS RECORDAR Vamos recordar a implementação do algoritmo de vizinhos mais próximos ou KNN KNearest Neighbours que é um dos métodos utilizados para a implementação dos Sistemas de Recomendação por ser fácil de entender e implementar Ele simplesmente encontra os K vizinhos mais próximos de um usuário ou item com base nas avaliações e faz recomendações com base nas preferências desses vizinhos Disponível em httpswwwyoutubecomwatchvDeAuVrhKw58 DESENVOLVA SEU POTENCIAL Os sistemas de recomendação surgiram para auxiliar no processo social de in dicar e receber indicações Procuram facilitar a busca por conteúdo interessante ao usuário Há vários tipos de recomendação Recomendação de produtos Recomendação de serviços Recomendação de usuários conhecida como combinação social A Figura 1 ilustra de forma espirituosa essa tendência que os usuários têm de buscar recomendações 1 1 1 Boa noite Senhores Gostariam do vinho de sempre Sim o de sempre Temos um novo vinho seco que também é muito bom Figura 1 Recomendação de bebida feita por um garçom Fonte Estrela Binária 2011 Descrição da Imagem charge de um garçom perguntando a um casal de clientes num restaurante se os mesmos gostariam do vinho de sempre O homem respondeu que sim e o garçom aproveita para oferecer um novo vinho que diz ser muito bom Os sistemas de colaboração têm suas raízes em trabalhos pioneiros que explora ram a ideia de filtragem colaborativa uma abordagem fundamental na recomen dação de conteúdo personalizado Um dos marcos iniciais nessa área é o sistema Tapestry proposto por Golberg et al 1992 1 TAPESTRY GOLBERG ET AL 1992 O Tapestry foi um dos primeiros sistemas a explorar a ideia de filtragem colaborativa Ele permitia que os usuários colaborassem para organizar e classificar informações na forma de anotações em uma rede hiperlinkada Essas anotações eram compartilhadas e recomendadas entre os usuários com base em suas interações e preferências UNIASSELVI 1 1 1 TEMA DE APRENDIZAGEM 5 2 GROUPLENS RESNICK ET AL 1994 O GroupLens é outro trabalho seminal na área de sistemas de colaboração Proposto por Resnick et al 1994 esse sistema introduziu a ideia de recomendações automáti cas de filmes com base nas avaliações dos usuários Utilizava algoritmos de filtragem colaborativa para prever as preferências de um usuário com base nas avaliações de usuários semelhantes 3 RINGO SHARDANAND MAES 1995 O Ringo foi um sistema que propôs uma abordagem inovadora de filtragem colabora tiva baseada em recomendações de músicas Desenvolvido por Shardanand e Maes 1995 o Ringo permitia que os usuários recebessem recomendações de músicas com base nas preferências musicais de outros usuários com gostos semelhantes 4 FAB KONSTAN ET AL 1997 O Fab foi um sistema que combinou elementos de filtragem colaborativa com filtra gem baseada em conteúdo Proposto por Konstan et al 1997 o Fab permitia que os usuários recebessem recomendações de filmes com base em avaliações de usuários semelhantes mas também considerava características dos filmes para melhorar as sugestões Esses são apenas alguns dos trabalhos importantes que contribuíram para o de senvolvimento dos sistemas de colaboração ao longo do tempo Cada um desses sistemas trouxe contribuições significativas para a área avançando nosso enten dimento sobre como os usuários podem colaborar para melhorar a descoberta de conteúdo online COLETA DE INFORMAÇÕES A coleta de informações em sistemas de recomendação é um processo funda mental para entender as preferências e comportamentos dos usuários permitin do assim gerar recomendações mais precisas e relevantes Existem duas formas principais de coleta de informações explícita e implícita 1 1 1 Coleta Explícita de Informações Na coleta explícita os usuários fornecem diretamente informações sobre suas preferências interesses ou avaliações de itens Isso pode ocorrer por meio de avaliações classificações avaliações numéricas ou feedback textual Por exemplo em um site de ecommerce um usuário pode classificar um produto com uma determinada quantidade de estrelas ou escrever uma avaliação detalhada sobre sua experiência com o produto Na Figura 2 temos um exemplo de avaliação explícita de um filme de uma plataforma de streaming Figura 2 Tela de avaliação de filme de uma plataforma de streaming Fonte Olhar Digital 2023 Descrição da Imagem tela de exibição de um filme pausado com opções de avaliação do tipo Gostei Não Gostei e Gostei Muito Fim da descrição O usuário pode num segundo momento consultar as avaliações já feitas por outros usuários do mesmo serviço UNIASSELVI 1 1 1 TEMA DE APRENDIZAGEM 5 Figura 3 Tela com textos de opiniões de espectadores do filme O poderoso chefão Fonte Olhar Digital 2018 Descrição da Imagem um total de 159 opiniões sobre O poderoso chefão A primeira opinião indica que o filme é excelente A segunda opinião indica que foi um dos melhores filmes já assistidos Fim da descrição Coleta Implícita de Informações Na coleta implícita as informações são deduzidas com base nas interações dos usuários com o sistema sem a necessidade de feedback direto Isso pode incluir informações como histórico de navegação tempo gasto em determi nadas páginas cliques em itens compras anteriores entre outros Esses dados são capturados de forma passiva sem que o usuário precise tomar uma ação específica para fornecêlos A Figura 4 apresenta um exemplo de um sistema de recomendação que pode monitorar os itens que um usuário visualiza os itens que adiciona ao carrinho de compras e os itens que finalmente compra inferindo assim suas preferências e interesses 1 1 4 Figura 4 Exemplo com carrinho de compras do site Mercado Livre Fonte Olist Blog 2023 Descrição da Imagem tela de venda do produto máquina de cortar do site Mercado Livre com informações sobre o produto preço e condições de pagamento Fim da descrição COLETA IMPLÍCITA x COLETA EXPLÍCITA Obtém dados do comportamento dos usuários de maneira indireta sem a necessidade de ações explícitas dos usuários Interesse em Jeep Obtém dados diretamente dos usuários através de ações deliberadas e conscientes como avaliações classificações preenchimento de formulários de preferências comentários e feedbacks Figura 5 Tipos de coleta de informações para Sistemas de Recomendação Fonte o autor Descrição da Imagem imagem de 2 telas de sites de anúncio de carros modelo Jeep indicando o interesse do usuário por esse tipo de produto Ao lado imagem de uma casa de site de aluguel por temporada com indicação de avaliação explícita feita pelo usuário Fim da descrição UNIASSELVI 1 1 5 TEMA DE APRENDIZAGEM 5 MÉTODOS PARA IDENTIFICAR USUÁRIOS Para coletar informações de forma eficaz é essencial identificar de forma única cada usuário Alguns métodos comuns para identificar o usuário incluem LOGIN DE USUÁRIO Requer que os usuários criem uma conta e façam login no sistema atribuindo assim um identificador único a cada usuário COOKIES São pequenos arquivos de texto armazenados no navegador do usuário que podem ser utilizados para identificar e rastrear os usuários entre as sessões IP ADDRESS O endereço de IP do usuário pode ser utilizado como uma forma de identificação embora não seja tão preciso quanto outras opções e possa mudar dinamicamente em alguns casos DISPOSITIVOS Identificação baseada em dispositivos como ID de dispositivo móvel ou endereço MAC pode ser usada em aplicativos móveis ou dispositivos específicos IDENTIFICAÇÃO POR SESSÃO Um identificador de sessão único pode ser atribuído a cada interação do usuário com o sistema permitindo rastrear suas ações durante uma sessão específica Ao utilizar métodos adequados de coleta de informações e identificação de usuários os sistemas de recomendação podem oferecer sugestões personalizadas e relevantes melhorando assim a experiência do usuário e a eficácia das recomendações 1 1 1 ESTRATÉGIAS DE RECOMENDAÇÃO O COMÉRCIO UNIVERSAL SITE DE VENDAS DE PRODUTOS PROMOÇÃO PROMOÇÃO Recomendados para você Produtos semelhantes Clientes também compraram Produtos mais vendidos Novidades Filtro Tipo Preço Modelo Figura 6 Exemplo fictício de site de venda de produtos com diversos tipos de listas de recomendação Fonte o autor Descrição da Imagem site de vendas de produtos contendo o nome da empresa fictícia Comércio Universal Em seguida um banner com diversos produtos eletrodomésticos em promoção A seguir as listas a Produtos Recomendados b Produtos Semelhantes c Clientes também compraram d0 Produtos mais vendidos e e No vidades Ao lado e à direita a opção de Filtro para que o cliente possa selecionar apenas por tipo preço modelo e outras opções Fim da descrição Existem várias estratégias de recomendação utilizadas em sistemas de recomen dação para sugerir itens aos usuários Algumas das principais estratégias incluem 1 Listas de Recomendação TOPN nessa estratégia o sistema recomen da uma lista dos N principais itens mais relevantes para o usuário com base em suas preferências e comportamentos passados Esses itens podem ser classificados de acordo com diferentes critérios como popularidade relevância ou interesse previsto do usuário 2 Avaliações de Usuários essa estratégia utiliza as avaliações e feedback dos usuários para recomendar itens Os usuários podem classificar ou avaliar os itens que experimentaram e o sistema utiliza essas avaliações para prever as preferências de outros usuários com gostos semelhantes recomendando itens bem avaliados UNIASSELVI 1 1 1 TEMA DE APRENDIZAGEM 5 3 Suas Recomendações do próprio usuário nessa estratégia o sistema leva em consideração as preferências explícitas do próprio usuário ao fa zer recomendações Isso pode incluir itens que o usuário marcou como fa voritos comprou anteriormente ou expressou interesse de alguma forma Essas estratégias podem ser combinadas e adaptadas de acordo com as neces sidades específicas de cada sistema de recomendação e do contexto em que são aplicadas Por exemplo um sistema de streaming de música pode utilizar uma combinação de listas de recomendação baseadas na popularidade das músicas avaliações dos usuários e preferências pessoais do próprio usuário para sugerir músicas que ele provavelmente gostará Essa abordagem ajuda a aumentar a re levância e a diversidade das recomendações levando em consideração diferentes aspectos das preferências dos usuários Recomendação Colaborativa A recomendação colaborativa é uma abordagem fundamental em sistemas de recomendação que utiliza as preferências e comportamentos de um grupo de usuários para fazer recomendações a outros usuários com gostos semelhantes Em vez de depender exclusivamente de características dos itens ou conteúdos como em outras abordagens a recomendação colaborativa se baseia na ideia de que usuários com históricos de interação semelhantes tendem a gostar de itens semelhantes no futuro Essa abordagem é construída sobre a premissa de que a opinião coletiva de um grupo de usuários pode ser mais confiável e útil do que a análise individual de cada usuário Dessa forma os sistemas de recomendação colaborativa explo ram padrões de comportamento e preferências compartilhadas para oferecer sugestões personalizadas Algoritmos e Técnicas Existem diferentes algoritmos e técnicas utilizadas na recomendação cola borativa com destaque para 1 1 8 FILTRAGEM COLABORATIVA BASEADA EM MEMÓRIA FILTRAGEM COLABORATIVA BASEADA EM MODELO UsuárioItem esse método calcula a similaridade entre usuários com base em seus padrões de preferência e em seguida utiliza essas similaridades para prever a preferência de um usuário por um item específico ItemUsuário nesse caso a similaridade entre itens é calculada e utilizada para prever a preferência de um usuário por um item com base nas preferências dos usuários por itens semelhantes Fatorização de Matrizes esse método modela as preferências de usuários e atributos de itens como vetores latentes em um espaço de menor dimensão permitindo previsões de preferências mesmo em cenários com muitos usuá rios e itens Redes Neurais as redes neurais podem ser utilizadas para aprender represen tações complexas de usuários e itens capturando padrões não lineares e inte rações entre diferentes características Desafios e Soluções Apesar de sua eficácia a recomendação colaborativa enfrenta diversos desafios Cold Start referese à dificuldade de recomendar itens para novos usuá rios ou itens com poucas interações pois há pouca ou nenhuma informa ção disponível sobre suas preferências Esparsidade dos Dados em sistemas com grandes conjuntos de dados é comum que as interações entre usuários e itens sejam esparsas ou seja muitos usuários interagem com apenas alguns itens e viceversa Para lidar com esses desafios são empregadas várias técnicas Regularização técnicas de regularização são utilizadas para evitar o overfitting e melhorar a generalização dos modelos especialmente em cenários com poucos dados Integração de Informações Auxiliares incorporar informações adi cionais como dados demográficos do usuário informações contextuais ou características dos itens pode ajudar a melhorar a qualidade das recomendações e lidar com o cold start Ao superar esses desafios e aplicar algoritmos e técnicas adequadas os sistemas de recomendação colaborativa podem fornecer sugestões precisas e relevantes contribuindo para uma experiência personalizada e satisfatória do usuário UNIASSELVI 1 1 9 TEMA DE APRENDIZAGEM 5 Recomendação Baseada em Conteúdos Figura 7 Recomendação baseada em conteúdo Fonte Bis2Bis 2023 Descrição da Imagem site de venda de produtos cosméticos indicado o produto pesquisado e diversos outros produtos similares que o cliente possa se interessar Fim da descrição A recomendação baseada em conteúdo é uma abordagem comum em sistemas de recomendação que utiliza características dos itens para recomendar outros itens semelhantes Ao contrário da recomendação colaborativa que se baseia nas preferências de usuários semelhantes a recomendação baseada em conteúdo ana lisa as características intrínsecas dos itens e as preferências passadas do usuário para fazer sugestões personalizadas Algoritmos e Técnicas 1 Análise de Texto para recomendação de artigos ou livros a análise de texto é fundamental Algoritmos de processamento de linguagem natural NLP são utilizados para extrair características relevantes do texto como palavraschave tópicos e sentimentos e então recomendar itens com base nessas características 2 Processamento de Imagens em casos de recomendação de produtos vi suais como roupas móveis ou obras de arte o processamento de imagens é essencial Algoritmos de visão computacional são empregados para ex trair características visuais das imagens como cores dominantes formas e texturas e recomendar itens visualmente semelhantes 1 1 1 3 Utilização de Metadados metadados como categorias tags ou descri ções também são importantes para a recomendação baseada em con teúdo Eles fornecem informações adicionais sobre os itens facilitando a compreensão de seu conteúdo e contexto Metadados adicionais como avaliações de usuários datas de lançamento e dados de localização fornecem uma contextualização mais rica para as recomendações Por exemplo ao considerar avaliações de usuários o sistema pode identificar itens altamente recomendados por pessoas com gostos semelhantes melhorando a precisão das sugestões Datas de lançamento permitem que o sistema priorize itens mais recentes ou ajuste as recomendações de acordo com tendências tempo rais Dados de localização podem ser usados para personalizar as recomendações com base nas preferências regionais ou eventos locais Além disso a integração de dados externos como informações de redes so ciais ou outras plataformas relevantes pode enriquecer ainda mais a base de conhe cimento do sistema Dados de redes sociais por exemplo podem revelar interesses e comportamentos do usuário que não estão explícitos nas interações diretas com o sistema de recomendação Ao combinar esses insights com os metadados existentes o sistema pode obter uma visão mais abrangente dos itens e das preferências dos usuários proporcionando recomendações mais precisas e personalizadas Essa abordagem integrada não só melhora a relevância das recomendações mas também aumenta a capacidade do sistema de adaptação a diferentes con textos e necessidades dos usuários Em suma a utilização de metadados e a inte gração de dados externos são fundamentais para o desenvolvimento de sistemas de recomendação mais eficazes e sofisticados que oferecem uma experiência de usuário mais rica e satisfatória Métodos de Extração de Características e Algoritmos de Similaridade Os sistemas de recomendação baseados em conteúdo dependem fortemente de métodos eficazes de extração de características e algoritmos de similaridade para fornecer recomendações precisas e relevantes A extração de característi cas envolve a transformação de dados brutos em informações estruturadas que podem ser utilizadas pelos algoritmos de recomendação Técnicas como TFI DF para análise de texto e redes neurais convolucionais CNNs para análise de imagens são amplamente empregadas para esse fim Após a extração das ca racterísticas algoritmos de similaridade são aplicados para identificar itens que UNIASSELVI 1 1 1 TEMA DE APRENDIZAGEM 5 compartilham características semelhantes utilizan do medidas como a distância euclidiana para dados numéricos e a similaridade de cosseno para dados textuais Esses processos são fundamentais para a eficácia dos sistemas de recomendação garantindo que as sugestões sejam altamente relevantes para os usuários Os principais métodos e algoritmos utilizados são 1 Extração de Características para extrair características dos itens técni cas como TFIDF Term FrequencyInverse Document Frequency para texto e extração de características visuais utilizando redes neurais con volucionais CNNs para imagens são comumente empregadas 2 Algoritmos de Similaridade após a extração de características algo ritmos de similaridade são utilizados para encontrar itens semelhantes Algoritmos comuns incluem Distância Euclidiana calcula a distância entre vetores de características sendo útil para dados numéricos Similaridade de Cosseno mede o cosseno do ângulo entre dois vetores de características sendo eficaz para dados textuais Personalização e Contexto A personalização e o contexto desempenham um papel crucial na recomen dação baseada em conteúdo Personalização ao analisar as preferências passadas do usuário e as ca racterísticas dos itens as recomendações podem ser altamente persona lizadas levando em consideração os interesses individuais e o histórico de interações do usuário Contexto além das preferências do usuário o contexto também é impor tante na recomendação baseada em conteúdo Por exemplo recomenda ções de filmes podem levar em conta o gênero preferido do usuário e o horário do dia para sugerir filmes adequados ao momento Técnicas avançadas de IA nos Sistemas de Recomendação baseados em conteúdo Muitos dos Sistemas de Recomendação Baseados em Conteúdo têm se uti lizado de técnicas avançadas de IA para capturar detalhes e características não Esses processos são fundamentais para a eficácia dos sistemas de recomendação 1 1 1 explícitas do conteúdo textual analisado como técnicas baseadas no modelo de transformadores e análise de sentimentos Além disso técnicas como Redes Neu rais Convolucionais e técnicas de segmentação de imagens têm sido utilizadas para potencializar as recomendações baseadas em imagens Modelos de Transformadores como BERT ou GPT Modelos de transformadores como BERT Bidirectional Encoder Repre sentations from Transformers e GPT Generative Pretrained Transformer têm revolucionado o processamento de linguagem natural NLP com sua ca pacidade de capturar nuances e contextos complexos em textos Em sistemas de recomendação baseados em conteúdo esses modelos são utilizados para analisar descrições de produtos resenhas de usuários e outros textos relacionados a itens A capacidade dos transformadores de entender contextos longos e sutis melhora significativamente a precisão das recomendações pois eles podem capturar me lhor as preferências e interesses do usuário Análise de Sentimentos e Emoções A análise de sentimentos e emoções envolve o uso de técnicas de NLP para determinar o sentimento positivo negativo ou neutro e as emoções expressas em textos escritos pelos usuários Em sistemas de recomendação essas análises são úteis para ajustar as recomendações de acordo com o estado emocional atual do usuário Por exemplo um usuário que expressa sentimentos negativos em suas interações recentes pode receber recomendações de conteúdo mais alegre e reconfortante Essa abordagem torna as recomendações mais contextualmente relevantes e personalizadas aumentando a satisfação do usuário Modelos de transformadores como BERT e GPT aprimoram os sistemas de recomendação baseados em conteúdo ao capturar nuances e contextos comple xos em textos Simultaneamente a análise de sentimentos e emoções ajusta as recomendações ao estado emocional do usuário fornecendo uma experiência mais personalizada e satisfatória Redes Neurais Convolucionais Avançadas CNNs e Segmentação de imagens O uso de Redes Neurais Convolucionais Avançadas CNNs como ResNet ou EfficientNet tem se mostrado eficaz na extração de características visuais detalhadas Essas redes profundas conseguem capturar nuances complexas em imagens identificando padrões intrincados e detalhes específicos que são fun damentais para fazer recomendações precisas Além disso a segmentação de UNIASSELVI 1 1 1 TEMA DE APRENDIZAGEM 5 imagens desempenha um papel crucial ao isolar e analisar partes específicas das imagens como padrões em roupas ou elementos em obras de arte Esta técnica permite que o sistema de recomendação se concentre em características visual mente significativas melhorando a relevância das recomendações Ao combinar CNNs avançadas e segmentação de imagens os sistemas de recomendação po dem fornecer sugestões altamente personalizadas e visualmente semelhantes elevando a experiência do usuário e a precisão das recomendações Adaptar recomendações ao perfil específico e às circunstâncias do usuário aumenta a relevância e a utilidade das sugestões melhorando assim a experiência do usuário e aumentando o engajamento com o sistema de recomendação Filme A Rede Social Comentário o filme A Rede Social narra a criação do Face book e como algoritmos de recomendação foram essenciais para seu sucesso conectando usuários e sugerindo amigos com base em interesses e atividades Sinopse em uma noite de outono em 2003 Mark Zuckerberg Jesse Eisenberg analista de sistemas graduado em Harvard se senta em seu computador e começa a trabalhar em uma nova ideia Apenas seis anos e 500 milhões de amigos mais tar de Zuckerberg se torna o mais jovem bilionário da história com o sucesso da rede social Facebook O sucesso no entanto o leva a complicações em sua vida social e profissional INDICAÇÃO DE FILME Confira aqui uma aula referente a este assunto Recursos de mídia disponíveis no conteúdo digital do ambiente virtual de aprendizagem EM FOCO NOVOS DESAFIOS A conexão entre teoria e prática no campo dos Sistemas de Recomendação é fun damental para o mercado de trabalho pois permite que os profissionais apliquem 1 1 4 conceitos e técnicas avançadas para criar soluções eficazes e inovadoras Vamos ex plorar como essa conexão se manifesta no mercado de trabalho e suas perspectivas 1 Aplicação de Algoritmos e Modelos Teóricos os profissionais que tra balham com Sistemas de Recomendação precisam entender os fundamen tos teóricos por trás dos algoritmos e modelos utilizados como filtragem colaborativa fatorização de matrizes e redes neurais Eles aplicam esses conhecimentos na prática ao desenvolver algoritmos personalizados ajus tar parâmetros e otimizar o desempenho dos sistemas de recomendação 2 Coleta e Análise de Dados uma compreensão sólida da teoria por trás da coleta e análise de dados é essencial para os profissionais de Sistemas de Recomendação Eles utilizam técnicas estatísticas e de aprendizado de máquina para extrair insights valiosos dos dados dos usuários identificar padrões de comportamento e entender as preferências dos usuários 3 Design e Implementação de Sistemas de Recomendação os profissio nais no mercado de trabalho são responsáveis por projetar e implementar sistemas de recomendação robustos e escaláveis Isso envolve traduzir os conceitos teóricos em soluções práticas desenvolvendo interfaces de usuário intuitivas e integrando os sistemas de recomendação com outras plataformas e sistemas 4 Avaliação de Desempenho e Melhoria Contínua além de criar sis temas de recomendação os profissionais também monitoram e avaliam seu desempenho na prática Eles utilizam métricas de avaliação como precisão revocação e F1score para medir a eficácia das recomendações e identificar áreas de melhoria Com base nesses insights eles realizam ajustes e refinamentos contínuos nos sistemas de recomendação para garantir que eles atendam às necessidades e expectativas dos usuários No mercado de trabalho as perspectivas para profissionais com experiência em Sistemas de Recomendação são promissoras Com o aumento da quantidade de dados disponíveis e a crescente demanda por experiências personalizadas empresas de diversos setores como comércio eletrônico mídia entretenimento e tecnologia estão buscando profissionais qualificados nessa área Além disso a constante evolução da tecnologia e a introdução de novas técnicas e algorit mos garantem que haja sempre oportunidades para inovação e crescimento profissional neste campo UNIASSELVI 1 1 5 1 Os métodos de identificação de usuários em sistemas web são essenciais para proporcionar uma experiência personalizada e segura Eles permitem personalizar conteúdos e reco mendações garantir a segurança das informações dos usuários rastrear suas atividades para análise de comportamentos e necessidades e direcionar anúncios e campanhas de marketing de forma eficaz A identificação dos usuários possibilita a coleta de dados valiosos para entender padrões de uso e tendências além de implementar medidas de autenticação e controle de acesso a dados sensíveis Quais dos seguintes métodos são comumente utilizados na identificação do usuário em sistemas de recomendação a Autenticação de 2 fatores Reconhecimento facial e Endereço de IP b Login de usuário Cockies e Endereço de IP c Reconhecimento facial Cockies Código Postal d Login de usuário biometria da digital Endereço de IP e Cockies Código Postal e Login de usuário 2 A principal finalidade da coleta de informações do usuário tanto implícita quanto explícita nos sistemas web é fornecer uma experiência personalizada e relevante aos usuários além de permitir análises e tomadas de decisão baseadas em dados Analise as sentenças a seguir I A coleta de informações do usuário em sistemas web pode incluir dados explícitos como informações fornecidas pelo próprio usuário durante o cadastro em um site ou aplicativo Esses dados podem incluir nome idade preferências de produtos entre outros II Além dos dados explícitos os sistemas de recomendação também coletam informações implícitas como histórico de navegação cliques em itens tempo gasto em páginas entre outros III Os sistemas de recomendação geralmente coletam informações sobre atividades offline dos usuários como suas interações sociais fora da internet ou compras em lojas físicas É correto o que se afirma em a I apenas b III apenas c I e II apenas d II e III apenas e I II e III AUTOATIVIDADE 1 1 1 3 As estratégias de recomendação servem para proporcionar uma experiência personalizada e relevante aos usuários em sistemas de recomendação na web Elas têm como objetivo principal sugerir itens ou conteúdos que sejam do interesse dos usuários aumentando sua satisfação e engajamento No geral essas estratégias visam aprimorar a experiência do usuário tornandoa mais personalizada relevante e satisfatória ao mesmo tempo em que ajudam a aumentar o engajamento a fidelidade e a satisfação dos usuários com os sistemas de recomendação na web Qual das seguintes afirmações é verdadeira sobre as estratégias de recomendação utilizadas em sistemas de recomendação a Filtragem por conteúdo é uma estratégia que utiliza apenas informações explícitas for necidas pelo usuário para fazer recomendações b Filtragem colaborativa baseiase exclusivamente no conteúdo dos itens recomendados para fazer sugestões aos usuários c Filtragem híbrida combina elementos de filtragem colaborativa e filtragem por conteúdo para fornecer recomendações mais precisas e diversificadas d Filtragem demográfica é uma estratégia que se concentra na análise de dados demo gráficos dos usuários para fazer recomendações e Filtragem epistemológica utiliza o conhecimento sobre o usuário para fazer recomen dações AUTOATIVIDADE 1 1 1 REFERÊNCIAS GOLBERG D NICHOLS D OKI B M TERRY D B Using collaborative filtering to weave an in formation tapestry Communications of the ACM v 35 n 12 p 6170 1992 RESNICK P et al GroupLens an open architecture for collaborative filtering of netnews ACM conference on Computer supported cooperative work p 175186 1994 KONSTAN J A et al GroupLens Applying collaborative filtering to Usenet news Communica tions of the ACM v 40 n 3 p 7787 1997 1 1 8 1 Alternativa B Apenas os métodos de login de usuário Cockies e Endereço de IP são utilizados na identifi cação do usuário Os métodos biométricos não são utilizados por questões de privacidade e segurança e também devido à complexidade desses métodos o que acarretaria um aumento nos custos dos sistemas de recomendação 2 Alternativa C A afirmação I é verdadeira pois tais informações são valiosas para personalizar recomenda ções e oferecer uma experiência mais relevante ao usuário A afirmação II é verdadeira pois esses dados fornecem insights sobre o comportamento do usuário e suas preferências permitindo recomendações mais precisas e adaptadas ao contexto A afirmação III é falsa porque tais dados não são relevantes para a personalização das recomendações online e podem violar a privacidade dos usuários Os sistemas de reco mendação baseiamse principalmente em dados online para oferecer sugestões relevantes aos usuários 3 Alternativa C A alternativa correta é a C pois a filtragem híbrida é uma estratégia que combina o melhor dos dois mundos a filtragem colaborativa que utiliza informações sobre as preferências de grupos de usuários semelhantes e a filtragem por conteúdo que analisa as características dos itens recomendados Ao combinar essas abordagens os sistemas de recomendação podem oferecer sugestões mais precisas e diversificadas levando em consideração tanto as preferências dos usuários quanto as características dos itens GABARITO 1 1 9 MINHAS METAS APLICAÇÕES DE SISTEMAS DE RECOMENDAÇÃO Compreender os fundamentos da Recomendação Baseada em Conhecimento Explorar os algoritmos de Recomendação Baseada em Conhecimento Analisar como os sistemas de recomendação podem ser personalizados para diferentes domínios de aplicação Discutir diferentes estratégias para combinar abordagens de recomendação Avaliar as preocupações éticas e de privacidade envolvidas nos sistemas de recomendação Avaliar o impacto dos sistemas de recomendação no comportamento do usuário satisfa ção do cliente e resultados de negócios Desenvolver habilidades para projetar implementar e avaliar sistemas de recomendação T E M A D E A P R E N D I Z A G E M 6 1 1 1 INICIE SUA JORNADA Imaginese navegando em uma plataforma de streaming de vídeos perdido em meio a uma vasta biblioteca de conteúdo Ou talvez você esteja explorando um ca tálogo de produtos online sem saber ao certo por onde começar Em um mundo digital repleto de opções a dificuldade de encontrar exatamente o que desejamos é uma realidade comum Nesse contexto surge a necessidade de sistemas capazes de sugerir conteúdo relevante com base em nossos interesses e preferências Os sistemas de recomendação surgem como uma solução para essa proble mática oferecendo uma maneira eficiente de personalizar a experiência do usuário Ao analisar o comportamento passado e as interações do usuário esses sistemas são capazes de entender seus interesses e sugerir conteúdo relevante aumentando a satisfação do usuário e facilitando a descoberta de novos itens de interesse Com sua aplicabilidade em uma variedade de domínios desde entre tenimento digital até comércio eletrônico os sistemas de recomendação desem penham um papel fundamental na otimização da experiência do usuário e no aumento da relevância do conteúdo disponibilizado A experimentação com sistemas de recomendação permite aos usuários explorar novos conteúdos de forma personalizada e eficiente Ao receber reco mendações alinhadas com seus gostos e preferências os usuários podem des cobrir novos filmes músicas produtos ou informações relevantes aumentando sua satisfação e engajamento com a plataforma Além disso as empresas que implementam sistemas de recomendação podem colher benefícios significativos como o aumento da retenção de clientes o aumento das taxas de conversão e a melhoria da fidelidade do cliente É importante refletir sobre o impacto dos sistemas de recomendação não apenas em termos de eficácia e conveniência mas também em relação às questões éticas e de privacidade envolvidas Embora esses sistemas possam melhorar significativamente a experiência do usuário é crucial garantir a transparência a equidade e a proteção dos dados pessoais dos usuários Além disso é necessário considerar constantemente formas de aprimorar esses sistemas adaptandoos às necessidades e expectativas em constante evolução dos usuários UNIASSELVI 1 1 1 TEMA DE APRENDIZAGEM 6 Vamos ouvir um podcast que irá destacar os principais desafios envolvidos na im plementação de algoritmos para implementar sistemas de recomendação enfa tizando suas características principais e áreas de utilização Recursos de mídia disponíveis no conteúdo digital do ambiente virtual de aprendizagem PLAY NO CONHECIMENTO VAMOS RECORDAR Vamos fazer a leitura de um livro que aborda os fundamentos dos sistemas colaborativos os sistemas e domínios envolvidos técnicas desenvolvimento e pesquisa na área com ênfase especial para o capítulo sobre Sistemas de Recomendação Os sistemas colaborativos representam uma evolução significativa na maneira como indivíduos e organizações interagem e compartilham informações permitindo uma cooperação eficiente e eficaz Este livro explora a intrincada relação entre sistemas colaborativos e sistemas de recomendação destacando como a sinergia entre essas tecnologias pode transformar a dinâmica de colaboração e personalização em diversos contextos Ao integrar recomendações personalizadas em plataformas colaborativas é possível otimizar a relevância e a qualidade das interações melhorando a experiência do usuário e impulsionando a produtividade Vamos examinar os fundamentos os avanços recentes e as aplicações práticas que demonstram o impacto transformador dessa combinação poderosa Disponível em httpssistemascolaborativosuniriotecbr DESENVOLVA SEU POTENCIAL SISTEMAS DE RECOMENDAÇÃO O desenvolvimento dos Sistemas de Recomendação iniciouse a partir de uma observação bastante simples os indivíduos muitas vezes confiam nas recomenda ções fornecidas por outras pessoas na tomada de decisões diárias e rotineiras Por exemplo é comum confiar no que os colegas recomendam quando selecionam um livro para ler os empregadores contam com cartas de recomendação nas 1 1 1 suas decisões de recrutamento e ao selecionar um filme para assistir as pessoas tendem a ler e confiar nas resenhas de filmes que um crítico de cinema escreveu e que aparecem no canal de mídia que lêem Ricci et al 2011 Os sistemas de recomendação demonstram uma aplicabilidade impressio nante em uma ampla gama de setores Além das abordagens tradicionais como a recomendação colaborativa e baseada em conteúdo avanços recentes têm im pulsionado a adoção de técnicas mais sofisticadas incluindo a recomendação baseada em conhecimento e sistemas híbridos Vamos explorar as aplicações práticas e os benefícios dessas abordagens avançadas Figura 1 Princípio dos sistemas de recomendação Fonte adaptada de Pimentel 2011 Descrição da Imagem figura mostrando diversos grupos de pessoas com as mesmas preferências Um grupo tem 2 pessoas com camisetas azuis outro grupo contém 2 pessoas com camisetas vermelhas outro grupo contém 2 pessoas com camisetas roxas e um último grupo contém 1 pessoa com camiseta amarela Fim da descrição Recomendação Baseada em Conhecimento A recomendação baseada em conhecimento utiliza informações detalhadas sobre os usuários e os itens para oferecer recomendações altamente personalizadas Em vez de depender exclusivamente do histórico de interações do usuário esses sistemas consideram fatores como preferências declaradas contexto situacional e conhecimento especializado sobre os itens Por exemplo em uma plataforma de elearning um sistema de recomendação baseado em conhecimento pode levar em conta o nível de habilidade do aluno suas preferências de aprendizado e os objetivos educacionais específicos ao sugerir cursos ou materiais de estudo UNIASSELVI 1 1 1 TEMA DE APRENDIZAGEM 6 Sistemas Híbridos Os sistemas híbridos combinam múltiplas abordagens de recomendação para aproveitar as vantagens de cada uma e superar suas limitações individuais Essa combinação pode ocorrer de várias maneiras como a fusão de resultados de diferentes algoritmos a utilização de técnicas de ponderação para equilibrar a contribuição de cada abordagem ou a implementação de métodos em cascata onde os resultados de uma abordagem são refinados ou complementados por outra Por exemplo um serviço de streaming de música pode usar um sistema híbrido que combina recomendação colaborativa com base em conteúdo ele pode primeiro sugerir músicas com base nos gostos de usuários semelhantes e em seguida refinar essas recomendações levando em consideração características específicas das músicas como gênero ritmo e instrumentação Na Figura 2 vemos as duas abordagens principais colaborativa e conteúdo além da abordagem híbrida Filtragem Colaborativa Filtragem Baseada em Conteúdo Filtragem Híbrida Comprado pelos dois usuários Usuários Similares Comprado por ela recomendado para ele Comprado peloa usuárioa Livros Similares Recomendado para oa usuárioa Entrada Entrada Combinador Recomendação Filtragem colaborativa Filtragem baseada em conteúdo Figura 2 Principais abordagens dos sistemas de recomendação Fonte Viniski 2021 Descrição da Imagem figura ilustrando os 3 tipos de abordagem dos sistemas de recomendação A Filtragem colaborativa é representada por dois usuários similares que fazem compras de livros os quais são recomendados um ao outro A Filtragem baseada em conteúdo ilustra um usuário que compra livros e o sistema identifica livros similares aquele e indica os mesmos ao usuário A Filtragem híbrida tem como entrada tanto o módulo de filtragem colaborativa como o módulo de filtragem por conteúdo e realiza uma combinação entre ambos para enviar seu resultado final Fim da descrição Essas abordagens avançadas têm sido adotadas em uma variedade de domínios incluindo comércio eletrônico entretenimento digital saúde educação e muito 1 1 4 mais Ao oferecer recomendações mais precisas e relevantes os sistemas basea dos em conhecimento e híbridos contribuem significativamente para a perso nalização da experiência do usuário o aumento do engajamento a retenção e a satisfação geral do cliente Além disso esses sistemas também são capazes de lidar melhor com desafios como o cold start em que há falta de dados históricos suficientes e a escassez de informações sobre determinados itens DESENVOLVIMENTO E IMPLEMENTAÇÃO DE SISTEMAS DE RECOMENDAÇÃO Avaliações de usuários Perfis de usuários Itens disponíveis Personalização Privacidade Privaci cidade Metodologia das recomendações TRANSPARÊNCIA E EXPLICABILIDADE CONSIDERAÇÕES ÉTICAS E SOCIAIS AVALIAÇÃO E MELHORIA CONTÍNUA DESENVOLVIMENTO E IMPLEMENTAÇÃO DE SISTEMAS DE RECOMENDAÇÃO Figura 3 Principais considerações no desenvolvimento de sistemas de recomendação Fonte o autor Descrição da Imagem figura com 5 considerações importantes no desenvolvimento de sistemas de recomendação 1 Qualidade e diversidade dos dados nuvem de banco de dados recebendo avaliações de usuários perfis de usuá rios e ítens de usuário 2 Personalização e Privacidade balança simbolizando o equilíbrio entre personalização e privacidade 3 Avaliação e Melhoria contínua gráfico de desempenho e símbolos de polegar para cima gostei e polegar para baixo não gostei 4 Considerações éticas e sociais martelo da justiça simbolizando a ética e grupo de pessoas com diversidade simbolizando a inclusão e 5 Transparência e Explicabilidade lupa num documento simbolizando a transparência e um balão popup com explicações simbolizando a explicabilidade Fim da descrição UNIASSELVI 1 1 5 TEMA DE APRENDIZAGEM 6 Ao desenvolver e implementar sistemas de recomendação há uma série de consi derações importantes que devem ser levadas em conta para garantir sua eficácia usabilidade e ética Vamos explorar algumas questões relevantes nesse processo QUALIDADE E DIVERSIDADE DOS DADOS os sistemas de recomendação dependem fortemente de dados de entrada para funcionar adequadamente Portanto é essencial garantir a qualidade e a diversidade dos dados coletados Isso inclui a precisão das avaliações dos usuários a variedade de itens disponíveis e a representatividade dos perfis dos usuários PERSONALIZAÇÃO E PRIVACIDADE encontrar o equilíbrio certo entre personalização e privacidade é fundamental Os sistemas de recomendação precisam oferecer recomendações relevantes e personali zadas sem comprometer a privacidade dos usuários Isso envolve a implementação de medidas de segurança robustas como anonimização de dados criptografia e consen timento explícito dos usuários TRANSPARÊNCIA E EXPLICABILIDADE os usuários devem entender como e por que determinadas recomendações são feitas Portanto é importante que os sistemas de recomendação sejam transparentes e expli cáveis Isso significa fornecer informações claras sobre os algoritmos e critérios de re comendação utilizados bem como permitir que os usuários controlem e personalizem suas preferências de recomendação AVALIAÇÃO E MELHORIA CONTÍNUA os sistemas de recomendação devem ser constantemente avaliados e aprimorados com base no feedback dos usuários e em métricas de desempenho relevantes Isso inclui a análise de métricas de precisão cobertura diversidade e serendipidade entre outras para garantir que as recomendações sejam úteis e relevantes para os usuários 1 1 1 CONSIDERAÇÕES ÉTICAS E SOCIAIS os sistemas de recomendação podem influenciar o comportamento e as decisões dos usuários o que levanta preocupações éticas e sociais É importante considerar questões como viés algorítmico discriminação justiça e equidade ao projetar e imple mentar sistemas de recomendação Vamos agora examinar um cenário de aplicação real de um sistema de recomen dação baseado em conhecimento Imagine um sistema de recomendação utilizado em um ambiente de assistên cia médica para fornecer recomendações personalizadas de tratamento e estilo de vida para pacientes com condições médicas específicas como diabetes ou hiper tensão Esse sistema baseado em conhecimento combina informações detalhadas sobre o histórico médico do paciente resultados de testes clínicos preferências de tratamento e diretrizes médicas reconhecidas para oferecer recomendações individualizadas e eficazes O passoapasso de execução do sistema recomendação incluiria as seguintes ações O sistema coleta dados médicos do paciente incluindo histórico médico resultados de exames laboratoriais medicamentos prescritos e informa ções sobre sintomas e estilo de vida Com base nesses dados o sistema aplica regras e lógicas específicas como diretrizes médicas protocolos de tratamento e conhecimento especiali zado sobre a condição médica do paciente para gerar recomendações personalizadas de tratamento e cuidados As recomendações são apresentadas ao médico e ao paciente de forma clara e compreensível permitindo discussões informadas e colaborativas sobre o plano de tratamento Dentre os benefícios que o sistema provê podemos destacar Personalização as recomendações são adaptadas às necessidades e preferências individuais de cada paciente levando em consideração sua condição médica específica histórico de saúde e estilo de vida Eficácia ao incorporar conhecimento especializado e diretrizes médicas reconhecidas o sistema ajuda a garantir que as recomendações sejam clinicamente relevantes e eficazes UNIASSELVI 1 1 1 TEMA DE APRENDIZAGEM 6 Empoderamento do Paciente ao fornecer informações detalhadas e recomendações personalizadas o sistema capacita os pacientes a tomar decisões informadas sobre seu próprio cuidado de saúde e estilo de vida Implementação Códigos em Python Clique neste botão e veja a criação de um dataset exemplo Vamos apresentar um programa em Python que implementa a filtragem baseada no usuário É necessá rio que veja o recurso antes de continuar seus estudos por aqui httpsdocsgooglecomdocumentd16rE0MMaIfUzHNh0oIFpmcaoso9BJw 2VzfNDV3GlPhzMedit EU INDICO 1 1 8 PERSONALIZAÇÃO EM DIFERENTES DOMÍNIOS DE APLICAÇÃO SISTEMAS DE RECOMENDAÇÃO Educação e Aprendizado online Saúde e bem estar Ecommerce Streaming de conteúdo Figura 4 Diferentes áreas de aplicação de sistemas de recomendação Fonte o autor Descrição da Imagem um losango ao centro indicando os sistemas de recomendação tendo em seus vértices as principais áreas Ecommerce simbolizado por um carrinho de compras Streaming de conteúdo simbolizado por uma TV com várias opções de atrações Saúde e bemestar simbolizado por uma pessoa sentada em posição de lótus e Educação e aprendizagem online simbolizado por uma pessoa a frente de uma tela de computador com diversos balões de informações ao redor Fim da descrição UNIASSELVI 1 1 9 TEMA DE APRENDIZAGEM 6 Os sistemas de recomendação têm a capacidade de se adaptar e serem personali zados para uma variedade de domínios de aplicação atendendo às necessidades específicas de cada contexto Vamos explorar como essa personalização ocorre em diferentes cenários ECOMMERCE em um ambiente de comércio eletrônico os sistemas de recomendação podem ser personalizados para sugerir produtos com base nas preferências histórico de compras e comportamento de navegação do cliente Por exemplo um cliente que comprou um laptop pode receber recomendações de acessórios complementares como bolsas para laptop adaptadores ou dispositivos de armazenamento STREAMING DE CONTEÚDO plataformas de streaming de vídeo música e podcast utilizam sistemas de recomen dação para personalizar a experiência do usuário sugerindo conteúdo relevante com base nos gostos e interesses do usuário Por exemplo um usuário que assistiu a vários filmes de comédia pode receber recomendações de outros filmes do mesmo gênero ou programas de TV relacionados SAÚDE E BEMESTAR em aplicativos de saúde e bemestar os sistemas de recomendação podem ser personalizados para fornecer orientações e sugestões personalizadas com base nos objetivos de saúde e nas preferências individuais do usuário Por exemplo um aplicativo de fitness pode recomendar rotinas de exercícios planos de alimentação ou dicas de estilo de vida com base nas metas de condicionamento físico e nas restrições dietéticas do usuário EDUCAÇÃO E APRENDIZADO ONLINE plataformas de educação online podem utilizar sistemas de recomendação para personalizar o conteúdo do curso sugerindo materiais de estudo recursos comple mentares e atividades práticas com base no estilo de aprendizado e no desempenho do aluno Por exemplo um aluno que demonstrou interesse em matemática pode receber recomendações de cursos avançados de álgebra ou tutoriais interativos 1 1 1 Um exemplo prático de personalização em sistemas de recomendação pode ser observado em plataformas de ecommerce Vamos considerar um caso de uso específico Um cliente acessa uma loja online para comprar um novo smartphone Com base nas interações anteriores do cliente como histórico de com pras itens visualizados e pesquisas realizadas o sistema de recomendação identifica padrões de comportamento e preferências O sistema sugere produtos relacionados como capas protetoras fones de ouvido sem fio ou carregadores portáteis que complementam a compra do smartphone Além disso o sistema pode levar em consideração fatores adicionais como preço disponibilidade em estoque e avaliações de produtos para fazer recomendações relevantes e personalizadas para o cliente Em resumo os sistemas de recomendação podem ser personalizados para dife rentes domínios de aplicação proporcionando uma experiência sob medida que atende às necessidades e preferências individuais dos usuários Essa capacidade de personalização contribui para uma maior satisfação do usuário aumento das taxas de conversão e fidelização da clientela A figura a seguir ilustra as principais etapas de um sistema de recomendação Lima 2016 UNIASSELVI 1 1 1 TEMA DE APRENDIZAGEM 6 Identificação de usuário Coleta de dados Banco de dados Respostas Realimentação Recomendações Personalização Estratégia de Recomendação Dispositivo com Recomendações Dispositivo com Recomendações Recomendações Personalização Respostas Realimentação Dados coletados Usuário Grupo de usuários Coleta de dados Figura 5 Etapas de um sistema de recomendação Fonte adaptada de Lima 2016 Descrição da Imagem esquema das etapas de um sistema de recomendação Iniciando pelo usuário que é identificado e seus dados enviados para um Banco de Dados que por sua vez coleta informações de um grupo de usuários O Banco de Dados envia informações para o módulo de estratégia de recomendação que por sua vez envia recomendaçõespersonalização para o dispositivo de recomendação que por sua vez retroalimenta o usuário e o grupo de usuários Fim da descrição ABORDAGEM HÍBRIDA EM SISTEMAS DE RECOMENDAÇÃO A abordagem híbrida em sistemas de recomendação é uma estratégia que visa combinar múltiplas técnicas de recomendação para aproveitar os pontos fortes e mitigar as limitações de cada método individual Vamos explorar os principais conceitos métodos e desafios associados a essa abordagem A ideia central por trás da abordagem híbrida é combinar diferentes téc nicas de recomendação como colaborativa baseada em conteúdo baseada em conhecimento ou mesmo abordagens contextuais para produzir recomendações mais precisas e relevantes 1 1 1 Ao integrar múltiplos métodos os sistemas híbridos po dem compensar as fraquezas de um método com as forças de outro resultando em recomendações mais diversificadas e personalizadas Os sistemas híbridos utilizam uma variedade de técnicas para combinar abordagens incluindo ponderação fusão e métodos em cascata Na técnica de ponderação diferentes métodos de recomendação são atribuídos pesos com base na sua eficácia relativa e as recomendações são geradas pon derando as contribuições de cada método A fusão de resultados envolve a combinação direta das listas de recomendação geradas por diferentes mé todos resultando em uma lista combinada que reflete as recomendações de todos os métodos Os métodos em cascata aplicam uma sequência de métodos de recomendação onde o resultado de um método é usado como entrada para o próximo mé todo na cadeia As vantagens dos sistemas híbridos incluem maior pre cisão e flexibilidade na geração de recomendações pois podem capturar uma gama mais ampla de informações do usuário e do item No entanto a implementação de sistemas híbridos apresenta desafios como a complexidade do design do sistema a ne cessidade de integrar e processar múltiplos tipos de dados e a dificuldade de encontrar o equilíbrio certo entre os diferentes métodos de recomendação Em resumo os sistemas de recomendação híbridos repre sentam uma abordagem poderosa para melhorar a qualidade e a relevância das recomendações aproveitando as vantagens de diferentes técnicas de recomendação Embora sua imple mentação possa ser desafiadora os benefícios de precisão e flexibilidade oferecidos pelos sistemas híbridos compensam os esforços adicionais necessários para sua criação e manutenção UNIASSELVI 1 1 1 TEMA DE APRENDIZAGEM 6 PRIVACIDADE ÉTICA ESCALABILIDADE E DESEMPENHO EM SISTEMAS DE RECOMENDAÇÃO ÉTICA Garantir a justiça e a transparência nas recomendações evitando discriminação e viés ESCALABILIDADE Desenvolver sistemas que possam crescer e se adaptar ao aumento do número de usuários e dados PRIVACIDADE Proteger os dados dos usuários através de anonimização e criptografia garantindo o consentimento explícito DESEMPENHO Manter a eficiência e a velocidade das recomendações mesmo com grandes volumes de dados Figura 6 Questões importantes num sistema de recomendação Fonte o autor Descrição da Imagem figura de uma balança simbolizando o equilíbrio entre as questões principais na imple mentação de um sistema de recomendação Nos quatros cantos da figura temos Ética simbolizada pela Justiça Privacidade simbolizada por um cadeado Escalabilidade simbolizada por um gráfico de crescimento e Desem penho simbolizada por um velocímetro Fim da descrição A implementação e operação eficazes de sistemas de recomendação enfrentam uma série de desafios éticos de privacidade escalabilidade e desempenho Vamos explorar esses tópicos em detalhes Preocupações Éticas e de Privacidade Os sistemas de recomendação lidam com grandes quantidades de dados pes soais dos usuários como histórico de navegação preferências de compra e avaliações de produtos 1 1 4 As preocupações éticas surgem quando esses sistemas utilizam esses dados de maneira inadequada como manipulação de recomendações para fins lucrativos ou violação da privacidade do usuário É essencial que os desenvolvedores de sistemas de recomendação sigam prin cípios éticos sólidos como transparência justiça responsabilidade e respeito pela privacidade do usuário Escalabilidade e Desempenho Em plataformas com um grande volume de usuários e itens a escalabilidade dos sistemas de recomendação é um desafio significativo Os sistemas devem ser capazes de lidar com um número crescente de usuários e itens sem comprometer o desempenho ou a qualidade das recomendações Estratégias eficazes de indexação armazenamento e processamento de dados são essenciais para garantir que os sistemas de recomendação possam dimensio nar horizontalmente conforme necessário Considerações Técnicas Além da escalabilidade os sistemas de recomendação também enfrentam desa fios relacionados ao desempenho como latência na geração de recomendações em tempo real e eficiência no processamento de grandes conjuntos de dados A otimização de algoritmos e a utilização de tecnologias de processamento distribuído como computação em nuvem e sistemas distribuídos são fundamen tais para lidar com esses desafios Além disso a implementação de estratégias de caching e préprocessamento de dados pode ajudar a melhorar o desempenho dos sistemas de recomendação reduzindo a carga sobre os servidores e acelerando o tempo de resposta Em resumo os sistemas de recomendação enfrentam desafios significativos em relação à ética privacidade escalabilidade e desempenho É crucial abordar essas preocupações de forma proativa garantindo que os sistemas sejam éticos transparentes eficientes e capazes de lidar com o crescente volume de dados e usuários Essa abordagem garante que os sistemas de recomendação continuem a fornecer recomendações relevantes e valiosas para os usuários ao mesmo tempo em que protegem sua privacidade e respeitam seus direitos éticos UNIASSELVI 1 1 5 TEMA DE APRENDIZAGEM 6 EXEMPLIFICANDO Vamos analisar uma aplicação numa plataforma de streaming de vídeo Imagine uma plataforma de streaming de vídeo popular como Netflix que utiliza um sofisticado sistema de recomendação para personalizar a experiên cia do usuário Vamos explorar como os diferentes aspectos dos sistemas de recomendação são integrados nesse cenário 1 Coleta de Dados A plataforma coleta uma variedade de dados dos usuários incluindo histórico de visualização preferências de gênero avaliações de filmes e séries além de informações demográficas e comportamentais 2 Processamento de Dados Os dados coletados são processados e analisados para extrair insights sobre os padrões de comportamento e preferências dos usuários Isso envolve técnicas de mineração de dados e aprendizado de máquina para identificar correlações e tendências nos dados 3 Algoritmos de Recomendação A plataforma utiliza uma combinação de algoritmos de recomendação incluindo filtragem colaborativa baseada em conteúdo e híbrida Esses algoritmos são projetados para prever quais filmes e séries um usuário pode gostar com base em seu histórico de visualização e preferências 4 Personalização e Relevância Com base nos insights obtidos o sistema de recomendação personaliza a inter face da plataforma para cada usuário fornecendo sugestões de filmes e séries que são altamente relevantes e adaptadas aos seus interesses específicos 5 Integração de Recursos Além das recomendações personalizadas a plataforma integra outros recursos como listas de reprodução temáticas categorias recomendadas e curadoria de conteúdo por especialistas para enriquecer ainda mais a experiência do usuário 6 Feedback do Usuário O sistema de recomendação também leva em consideração o feedback do usuário como avaliações de filmes visualizações repetidas e interações com as recomendações para ajustar continuamente os algoritmos e melhorar a precisão das sugestões 7 Avaliação de Desempenho A plataforma regularmente avalia o desempenho do sistema de recomendação por meio de métricas como taxa de cliques taxa de conversão e satisfação do usuário garantindo que as recomendações sejam eficazes e proporcionem uma experiência positiva para os usuários Nesse cenário os sistemas de recomendação desempenham um papel funda mental em cativar e engajar os usuários garantindo que eles descubram novos conteúdos de maneira fácil e intuitiva A integração de diferentes aspectos dos 1 1 1 sistemas de recomendação permite que a plataforma ofereça uma experiência altamente personalizada e relevante para cada usuário contribuindo para sua fidelidade e satisfação contínuas Análise de Impacto dos Sistemas de Recomendação Os sistemas de recomendação desempenham um papel crucial em diversas pla taformas digitais influenciando não apenas o comportamento dos usuários mas também a satisfação do cliente e os resultados de negócios Vamos examinar o impacto desses sistemas em três áreaschave 1 Comportamento do Usuário Os sistemas de recomendação têm um impacto significativo no comportamento dos usuários influenciando suas decisões de compra preferências de conteúdo e engajamento com a plataforma Ao fornecer recomendações personalizadas e re levantes os usuários são mais propensos a explorar novos produtos ou conteúdos aumentando o tempo de permanência na plataforma e a frequência de interações 2 Satisfação do Cliente A capacidade de oferecer uma experiência personalizada e sob medida contribui diretamente para a satisfação do cliente Quando os usuários recebem recomen dações precisas que atendem às suas necessidades e interesses eles tendem a sentirse mais valorizados e satisfeitos com a plataforma Isso pode levar a uma maior fidelidade do cliente e a uma melhor percepção da marca 3 Resultados de Negócios Os sistemas de recomendação têm um impacto direto nos resultados financeiros das empresas especialmente em setores como ecommerce streaming de mí dia e serviços de assinatura Ao aumentar as taxas de conversão impulsionar as vendas cruzadas e promover a retenção de clientes esses sistemas podem gerar um aumento significativo na receita e no lucro Além disso a análise dos dados de recomendação pode fornecer insights valiosos para otimizar estratégias de marketing desenvolver novos produtos e melhorar a experiência do usuário Em resumo os sistemas de recomendação têm um impacto multifacetado que se estende desde o comportamento individual dos usuários até os resulta dos financeiros globais das empresas Ao compreender e avaliar esse impacto as UNIASSELVI 1 1 1 TEMA DE APRENDIZAGEM 6 empresas podem maximizar o valor de seus sistemas de recomendação e impul sionar o sucesso a longo prazo de suas operações comerciais Filme Minority Report 2002 Comentário vamos ver um filme que embora não seja dire tamente sobre sistemas de recomendação o filme aborda te mas relacionados à análise de dados e algoritmos preditivos levantando questões sobre privacidade liberdade individual e responsabilidade moral Sinopse ambientado em um futuro distópico onde a polícia utiliza tecnologia de previsão de crimes para deter os suspei tos antes que os delitos ocorram INDICAÇÃO DE FILME Confira aqui uma aula referente a este assunto Recursos de mídia disponíveis no conteúdo digital do ambiente virtual de aprendizagem EM FOCO 1 1 8 NOVOS DESAFIOS A intersecção entre teoria e prática nos sistemas de recomendação é fundamental para compreendermos como essas tecnologias moldam o mercado de trabalho e influenciam as perspectivas profissionais Ao analisarmos essa conexão podemos destacar algumas considerações importantes Com o aumento da adoção de sistemas de recomendação em diversos setores há uma crescente demanda por profissionais qualificados e es pecializados nessa área Empresas estão buscando talentos capazes de desenvolver implementar e otimizar algoritmos de recomendação para atender às necessidades específicas de seus negócios Profissionais que compreendem tanto os fundamentos teóricos quanto as aplicações práticas dos sistemas de recomendação são altamente valori zados no mercado de trabalho Esses indivíduos são capazes de integrar conceitos complexos de aprendizado de máquina ciência de dados e ex periência do usuário para criar soluções eficazes e inovadoras As perspectivas de carreira no campo dos sistemas de recomendação são diversificadas e abrangem uma variedade de setores incluindo ecommerce entretenimento mídia serviços financeiros e muito mais Profissionais qualificados podem encontrar oportunidades em desenvol vimento de software análise de dados consultoria pesquisa acadêmica e empreendedorismo Devido à natureza dinâmica e em constante evolução da tecnologia os profissionais de sistemas de recomendação devem manterse atualizados com as últimas tendências ferramentas e metodologias Isso requer um compromisso com a aprendizagem contínua e o desenvolvimento pro fissional ao longo da carreira Em suma a conexão entre teoria e prática nos sistemas de recomendação é essen cial para preparar os profissionais para os desafios e oportunidades do mercado de trabalho Ao entender como esses conceitos se aplicam no mundo real os indivíduos podem se posicionar de forma competitiva e contribuir para o avanço e a inovação nesse campo em constante crescimento UNIASSELVI 1 1 9 1 A filtragem baseada em usuário é uma das técnicas mais utilizadas em sistemas de reco mendação Essa abordagem se baseia na ideia de que usuários com padrões de compor tamento semelhantes tendem a gostar dos mesmos itens Diversos algoritmos são empre gados para implementar essa técnica cada um com suas características e aplicabilidades específicas Qual dos seguintes algoritmos é amplamente utilizado na filtragem baseada em usuário em sistemas de recomendação a KMeans b Singular Value Decomposition SVD c Árvores de Decisão d KNearest Neighbors KNN e Support Vector Machines SVM 2 Os algoritmos de filtragem baseada em item são uma classe de técnicas amplamente empregadas em sistemas de recomendação Eles se concentram em identificar itens se melhantes com base nas avaliações dos usuários e em seguida recomendar itens seme lhantes aos que o usuário já gostou Vários métodos são utilizados para implementar essa abordagem cada um com suas características e aplicabilidades específicas Considere as seguintes afirmações sobre algoritmos de filtragem baseada em item em sistemas de recomendação I Os algoritmos de filtragem baseada em item são menos suscetíveis ao problema do cold start em comparação com os algoritmos de filtragem baseada em usuário II Um exemplo de algoritmo de filtragem baseada em item é a técnica de vizinhos mais próximos KNN que identifica itens semelhantes com base nas avaliações dos usuários III Os algoritmos de filtragem baseada em item são mais eficazes quando há um grande número de itens no sistema É correto o que se afirma em a I apenas b III apenas c I e II apenas d II e III apenas e I II e III AUTOATIVIDADE 1 4 1 3 Algoritmos como Singular Value Decomposition SVD e Alternating Least Squares ALS são técnicas comumente utilizadas em sistemas de recomendação Esses algoritmos são empregados para decompor a matriz de avaliações de usuários e itens em matrizes mais simples capturando padrões latentes nos dados e permitindo fazer previsões de avaliações para itens não avaliados Considerando o uso de algoritmos como Singular Value Decomposition SVD e Alternating Least Squares ALS em sistemas de recomendação qual das seguintes afirmações é ver dadeira a O SVD e o ALS são algoritmos baseados em conteúdo que consideram apenas as ca racterísticas dos itens para fazer recomendações b O SVD e o ALS são algoritmos de filtragem colaborativa que exploram a similaridade entre usuários para fazer recomendações c O SVD e o ALS são algoritmos de filtragem baseada em item que identificam itens se melhantes com base nas avaliações dos usuários d O SVD e o ALS são algoritmos de aprendizado supervisionado que exigem um conjunto de dados rotulado para fazer previsões e O SVD e o ALS são algoritmos de aprendizado não supervisionado que podem identificar padrões nos dados sem a necessidade de rótulos AUTOATIVIDADE 1 4 1 REFERÊNCIAS LIMA A M Um Sistema de Recomendação de Lugares Baseado na Localização e no Perfil 2016 Trabalho de Conclusão de Curso Graduação Curso de Sistemas de Informação Depar tamento de Sistemas de Informação Universidade Federal de Sergipe Itabaiana 2016 PIMENTEL M FUKS H Sistemas Colaborativos Editora SBCElsevier 2011 RICCI F ROKACH L SHAPIRA B Introduction to Recommender Systems Handbook1 ed Nova Iorque Editora Springer 2011 VINISKI ANTONIO DAVI O que fazem os sistemas de recomendação Newsletter Linkedin 2021 Disponível em httpswwwlinkedincompulseoquefazemossistemasderecomen daC3A7C3A3oantoniodavidviniski Acesso em 17 mai 2024 1 4 1 1 Alternativa D A Errada KMeans esse algoritmo é comumente usado para agrupamento clustering não para filtragem baseada em usuário B Errada Singular Value Decomposition SVD embora seja um método amplamente utilizado em sistemas de recomendação SVD é mais comumente associado à filtragem baseada em item não em usuário C Errada Árvores de Decisão as árvores de decisão são usadas principalmente em proble mas de classificação e regressão não em sistemas de recomendação D Correta KNearest Neighbors KNN esse algoritmo é amplamente empregado na fil tragem baseada em usuário pois identifica os usuários mais similares com base em suas avaliações de itens E Errada Support Vector Machines SVM embora seja um algoritmo poderoso para pro blemas de classificação e regressão o SVM não é comumente utilizado em sistemas de recomendação baseados em filtragem de usuário 2 Alternativa C I Correta Os algoritmos de filtragem baseada em item são menos suscetíveis ao problema do cold start porque podem recomendar itens com base em suas características indepen dentemente de informações sobre os usuários II Correta O KNN é um exemplo de algoritmo de filtragem baseada em item que identifica itens semelhantes com base nas avaliações dos usuários III Incorreta Na verdade os algoritmos de filtragem baseada em item podem enfrentar de safios de escalabilidade quando há um grande número de itens no sistema pois precisam calcular a similaridade entre todos os pares de itens 3 Alternativa B A Incorreta O SVD e o ALS não são algoritmos baseados em conteúdo mas sim de filtragem colaborativa B Correta Tanto o SVD quanto o ALS são algoritmos de filtragem colaborativa que utilizam a similaridade entre usuários para fazer recomendações C Incorreta Os algoritmos SVD e ALS não são especificamente de filtragem baseada em item D Incorreta O SVD e o ALS não são algoritmos de aprendizado supervisionado pois não requerem rótulos para fazer previsões E Incorreta O SVD e o ALS não são algoritmos de aprendizado não supervisionado pois são métodos específicos para sistemas de recomendação e não são utilizados para identificar padrões sem rótulos GABARITO 1 4 1 UNIASSSELVI 3 unidale MINHAS METAS INTRODUÇÃO AO CLUSTERING Compreensão dos Conceitos Básicos de Clustering Adquirir conhecimento sobre as principais técnicas de clustering Capacidade de selecionar e aplicar métricas adequadas de similaridade e distância de acordo com a natureza dos dados e dos problemas Desenvolver habilidades para avaliar a qualidade dos clusters utilizando métodos e inter pretar os resultados de forma eficaz Ser capaz de implementar algoritmos de clustering utilizando bibliotecas como scikit learn em Python Estar ciente dos desafios comuns no clustering e desenvolver estratégias eficazes para lidar Aplicar os conhecimentos adquiridos em diferentes áreas por meio do reconhecimento e da adaptação das técnicas de clustering conforme necessário T E M A D E A P R E N D I Z A G E M 7 1 4 1 INICIE SUA JORNADA O Agrupamento clustering é uma técnica essencial em machine learning mas frequentemente enfrenta desafios significativos Um dos principais dilemas é a escolha do número ideal de clusters uma decisão que pode influenciar profunda mente os resultados obtidos Além disso a sensibilidade a outliers e ruídos pode distorcer os agrupamentos dificultando a interpretação dos dados e a obtenção de insights significativos Apesar dos desafios o clustering desempenha um papel crucial em diversas áreas oferecendo uma maneira poderosa de identificar padrões e estruturas em conjuntos de dados Desde segmentação de mercado até análise de redes sociais e bioinformática o clustering possibilita a descoberta de informações valiosas que podem impulsionar a tomada de decisões informadas e promover a inovação em diversos domínios Na prática a experimentação é fundamental para explorar e entender o cluste ring Por meio de implementações em linguagens como Python e o uso de biblio tecas como scikitlearn os praticantes podem aplicar algoritmos de clustering em conjuntos de dados reais experimentando diferentes técnicas métricas e parâme tros para encontrar a abordagem mais adequada para cada problema específico Ao refletir sobre o processo de clustering tornase evidente a importância não apenas da escolha adequada de algoritmos e parâmetros mas também da interpretação cuidadosa dos resultados É essencial considerar o contexto do pro blema as características dos dados e os objetivos da análise ao realizar clustering além de estar ciente dos desafios e limitações inerentes a essa técnica A reflexão contínua permite uma compreensão mais profunda do clustering e sua aplicação eficaz em uma variedade de cenários do mundo real Neste podcast exploramos a evolução histórica do clustering desde os primeiros algoritmos como KMeans até as abordagens modernas baseadas em densidade como DBSCAN e OPTICS Entenda como essas técnicas estão sendo aplicadas e os desafios enfrentados pelos profissionais Veja como o clustering pode trans formar dados complexos em insights valiosos Recursos de mídia disponíveis no conteúdo digital do ambiente virtual de aprendizagem PLAY NO CONHECIMENTO UNIASSELVI 1 4 1 TEMA DE APRENDIZAGEM 7 DESENVOLVA SEU POTENCIAL INTRODUÇÃO AO CLUSTERING AGRUPAMENTO EM MACHINE LEARNING Clustering também conhecido como agrupamento é uma técnica de aprendiza do não supervisionado na área de machine learning Ele é usado para identificar estruturas ou padrões em conjuntos de dados agrupando os dados em clusters agrupamentos com base em suas semelhanças Martins 2003 O processo de clustering envolve a divisão de um conjunto de dados em gru pos de modo que os itens dentro de um grupo sejam mais semelhantes entre si do que com os itens em outros grupos A similaridade entre os itens é medida com base em métricas específicas como distância euclidiana distância Manhattan similaridade de cosseno etc Os principais objetivos do clustering incluem Identificar Padrões e Estruturas o clustering é utilizado para descobrir padrões intrínsecos e estruturas subjacentes nos dados permitindo uma compreensão mais profunda do conjunto de dados Agrupar Dados Similarmente o objetivo primário do clustering é agru par dados que sejam semanticamente semelhantes ou que compartilhem características comuns em clusters distintos Sumarizar Dados clustering pode ser usado para sumarizar grandes con juntos de dados tornandoos mais gerenciáveis e compreensíveis Existem várias abordagens para realizar clustering incluindo VAMOS RECORDAR Vamos recordar os conceitos básicos de grafos os quais serão utilizados em muitos dos algoritmos de agrupamento que iremos ver httpswwwyoutubecomwatchvMC0u4f334mI 1 4 8 KMEANS um dos algoritmos de clustering mais populares onde os dados são agrupados em k clusters com base na minimização da soma dos quadrados das distâncias dos pontos de dados até os centróides dos clusters HIERÁRQUICO esse método cria uma hierarquia de clusters onde os clusters são organizados em uma estrutura de árvore dendrograma Ele pode ser aglomerativo começando com cada ponto de dados como um cluster e mesclando clusters semelhantes ou divisivo iniciando com todos os pontos em um cluster e dividindoos em clusters menores DBSCAN DensityBased Spatial Clustering of Applications with Noise Agrupamento Espacial Baseado em Densidade de Aplicações com Ruído é um algoritmo que agrupa pontos em regiões de alta densidade separadas por regiões de baixa densidade O clustering tem uma ampla gama de aplicações em diversos domínios incluindo Marketing no marketing o clustering é fundamental para a segmentação de mercado onde os clientes são agrupados com base em seus comporta mentos de compra preferências e características demográficas Isso permite que as empresas personalizem suas estratégias de marketing e ofereçam produtos e serviços sob medida para diferentes grupos de clientes Biologia em biologia o clustering é usado para agrupar genes com ex pressão semelhante em diferentes condições experimentais Isso ajuda os pesquisadores a identificar padrões de expressão gênica e entender melhor os processos biológicos subjacentes como a regulação gênica e as vias metabólicas Redes Sociais nas redes sociais o clustering é aplicado para identificar comunidades ou grupos de usuários com interesses semelhantes Isso é útil para personalizar recomendações de amigos conteúdo e anúncios além de entender melhor a estrutura e a dinâmica das redes sociais online UNIASSELVI 1 4 9 TEMA DE APRENDIZAGEM 7 Medicina na medicina o clustering é usado para agrupar pacientes com base em características clínicas histórico médico e respostas ao tratamen to Isso pode auxiliar os médicos no diagnóstico de doenças na previsão de resultados clínicos e no desenvolvimento de terapias personalizadas Figura 1 Gráfico de agrupamento aplicado à Redes Sociais Fonte adaptada de Silva 2016 Descrição da Imagem gráfico de conexões de uma rede social indicando diversos grupos formados por ligações de relacionamento a partir de um dado nó Fim da descrição Apesar de ser uma técnica poderosa o clustering enfrenta alguns desafios incluindo Determinação do Número de Clusters k em métodos como o KMeans determinar o número ideal de clusters pode ser subjetivo e pode afetar signifi cativamente os resultados Sensibilidade a Escala e Ruído algoritmos de clustering podem ser sensíveis à escala dos dados e podem não funcionar bem em presença de ruído ou outliers Interpretação dos Resultados interpretar os clusters gerados e atribuir significa do a eles pode ser desafiador e muitas vezes requer conhecimento de domínio específico 1 5 1 Clustering Supervisionado vs Não Supervisionado A seguir apresentamos os tipos de clustering quanto a supervisão No clustering não supervisionado o algoritmo é deixado para agrupar os dados sem supervisão externa Os dados são agrupados com base em suas características sem a necessi dade de rótulos de classe préexistentes Os métodos não supervisionados incluem KMeans Hierárquico e DBSCAN Já o clustering supervisionado ao contrário do clustering não supervisionado utiliza rótulos de classe préexistentes para guiar o processo de agrupamento O objetivo é agrupar os dados de forma a maximizar a similaridade intraclasse e minimizar a similaridade interclasse Métodos super visionados incluem o Fuzzy CMeans e o Partitioning Around Medoids PAM Tipos de Clustering Existem várias abordagens para realizar clustering cada uma com suas próprias características e métodos A seguir apresentamos uma visão geral dos principais tipos de clustering Clustering Hierárquico o clustering hierárquico cria uma hierarquia de clusters onde os clusters são organizados em uma estrutura de árvore dendro grama Existem dois tipos de métodos hierárquicos Aglomerativo começa com cada ponto de dados como um cluster e mescla clusters semelhantes para formar clusters maiores O processo continua até que todos os pontos de dados estejam em um único cluster Divisivo começa com todos os pontos de dados em um único cluster e divide iterativamente o cluster em clusters menores à medida que o processo avança Clustering Baseado em Densidade o clustering baseado em densidade agrupa pontos de dados em regiões de alta densidade separadas por regiões de baixa densidade O algoritmo mais comum neste tipo de clustering é o DBSCAN Den sityBased Spatial Clustering of Applications with Noise que define clusters como regiões contínuas de alta densidade Clustering Particional no clustering particional os dados são divididos em um número prédefinido de clusters onde cada ponto de dados pertence a exatamente um cluster O objetivo é encontrar a melhor divisão dos dados em UNIASSELVI 1 5 1 TEMA DE APRENDIZAGEM 7 clusters minimizando uma função de cus to específica Exemplos de algoritmos de clustering particional incluem o KMeans e o Fuzzy CMeans Clustering Baseado em Modelos o clustering baseado em modelos assume que os dados são gerados a partir de um modelo probabilístico específico e tenta encontrar o melhor ajuste desse modelo aos dados Esse tipo de clustering é útil quando os dados possuem distribuições complexas e não podem ser facilmente agrupados usando métodos tradicionais Algoritmos comuns de clustering baseado em modelos incluem o ExpectationMa ximization EM e o Gaussian Mixture Models GMM Cada tipo de clustering tem suas pró prias vantagens e desvantagens e a escolha do algoritmo apropriado depende da na tureza dos dados e dos objetivos da análise Enquanto o clustering hierárquico é útil para explorar a estrutura hierárquica dos dados o clustering baseado em densida de é eficaz na identificação de clusters de formas arbitrárias e tamanhos variáveis Por outro lado o clustering particional é eficiente para grandes conjuntos de dados enquanto o clustering baseado em mode los é robusto em relação a distribuições complexas dos dados Em última análise a seleção do método de clustering adequado deve ser feita com base na compreensão dos dados e dos requisitos específicos do problema em questão 1 5 1 Medidas de Similaridade e Distância em Clustering x x y y Distância de Manhattan 12 Distância Eucídea 85 Manhattan Euclidean Métricas de distancia Distancia de Minkowski Figura 2 Tipos de métricas de distância utilizadas em agrupamento Fonte Han 2006 Descrição da Imagem gráfico cartesiano indicando a distância euclidiana e a distância de Manhattan entre dois pontos x e y Fim da descrição No processo de clustering a escolha adequada de medidas de similarida de e distância desempenha um papel crucial na determinação da separação e agrupamento eficazes dos dados Aqui estão algumas medidas comuns e sua importância no clustering Distância Euclidiana A distância euclidiana é a medida de distância mais comum e amplamente utilizada no clustering Ela calcula a distância entre dois pontos em um espaço ndimensional representando o comprimento da linha reta entre eles A fórmula para calcular a distância euclidiana entre dois pontos 1 2 1 2 n n P p p p eQ q q q 1 2 1 2 n n P p p p eQ q q q é dada por 2 2 2 1 1 2 2 n n p q p q p q UNIASSELVI 1 5 1 TEMA DE APRENDIZAGEM 7 Por exemplo a distância entre os pontos P130 e P204 pode ser calculada c o m o 2 2 1 1 2 2 p q p q 2 2 3 0 0 4 2 2 3 4 9 16 25 5 A distância euclidiana é especialmente útil quando os dados são contínuos e a magnitude das diferenças entre os pontos é significativa No entanto ela pode ser sensível a outliers e à escala dos dados Outliers em um processo de agrupamento de dados são pontos que se encon tram significativamente distantes dos demais pontos em um conjunto de dados não pertencendo a nenhum cluster identificado Eles representam dados atípicos que podem indicar variações inesperadas erros de medição ou fenômenos raros Por exemplo em uma análise de dados de transações financeiras para detectar padrões de gasto dos clientes a maioria dos clientes pode gastar entre 10 e 500 em cada transação No entanto uma transação isolada de 10000 seria consi derada um outlier pois está fora do padrão normal de comportamento de gasto identificado nos clusters principais ZOOM NO CONHECIMENTO Distância de Manhattan A distância de Manhattan também conhecida como distância de cidade ou distância L1 calcula a soma das diferenças absolutas entre as coordenadas dos pontos em cada dimensão A fórmula para calcular a distância de Manhattan entre dois pontos P e Q é dada por 1 1 2 2 n n p q p q p q 1 1 2 2 n n p q p q p q Por exemplo a distância de Manhattan entre os pontos P130 e P204 pode ser calculada como 1 1 2 2 p q p q 3 0 0 4 3 4 3 4 7 A distância de Manhattan é útil quando a direção das diferenças entre os pontos é mais importante do que a magnitude absoluta Ela é menos sensível a outliers do que a distância euclidiana e é eficaz em dados que seguem distribui ções não gaussianas 1 5 4 Distribuições não gaussianas em um processo de agrupamento de dados são distribuições de dados que não seguem a forma simétrica e campanular da dis tribuição normal gaussiana Elas podem apresentar assimetrias múltiplos picos modas ou caudas mais largas ou estreitas que as de uma distribuição normal Magnitude absoluta em um processo de agrupamento de dados referese ao valor absoluto de uma medida ou diferença desconsiderando o sinal Em cluste ring isso é frequentemente usado para calcular distâncias entre pontos de dados ajudando a determinar suas similaridades e diferenças sem considerar a direção Por exemplo ao analisar o desempenho de alunos em uma prova suponha que queremos agrupar os alunos com base nas diferenças de pontuação em relação à média da turma Se a média for 70 pontos as diferenças para alunos com pontua ções de 60 e 80 serão 10 e 10 respectivamente Usando a magnitude absoluta ambos seriam considerados igualmente distantes da média com uma diferença de 10 pontos permitindo que esses alunos sejam tratados de forma similar no processo de agrupamento ZOOM NO CONHECIMENTO Distância de Minkowski É uma métrica de distância generalizada utilizada em clustering de dados que unifica várias distâncias comuns como a distância Euclidiana e a distância de Manhattan Definida para dois pontos 1 2 n x x x x 1 2 n x x x x e 1 2 n y y y y em um 1 1 n p p i i i D x y x y espaço ndimensional a distância de Minko wski de ordem p é dada por 1 1 n p p i i i D x y x y Por exemplo a distância de Minkowski entre os pontos P130 e P204 para p 1 pode ser calculada como 1 1 11 1 1 2 2 1 n i x y x y 1 3 0 0 4 n i 1 3 4 n i 3 4 7 UNIASSELVI 1 5 5 TEMA DE APRENDIZAGEM 7 Quando p1 ela se torna a distância de Manhattan e quando p2 é equiva lente à distância Euclidiana Essa flexibilidade permite ajustar a métrica de acordo com as características específicas dos dados e a aplicação desejada no clustering Coeficiente de Jaccard O coeficiente de Jaccard é uma medida de similaridade que é comumente usada para dados categóricos ou binários como conjuntos de itens Ele mede a simila ridade entre dois conjuntos dividindo o tamanho da interseção pelo tamanho da união dos conjuntos A fórmula para calcular o coeficiente de Jaccard é dada por A B A B O coeficiente de Jaccard varia de 0 a 1 onde 0 indica completa dissimilaridade e 1 indica completa similaridade É especialmente útil quando a presença ou ausência de itens é mais relevante do que sua ordem ou magnitude Exemplo vamos considerar os conjuntos a seguir Conjunto A maçã banana laranja manga Conjunto B banana laranja uva melancia Interseção A B banana laranja União A B maçã banana laranja manga uva melancia Coeficiente de Jaccard A B A B 2 3 0333 Portanto o coeficiente de Jaccard para esses conjuntos é aproximadamente 0333 As medidas de similaridade e distância são cruciais para o processo de clustering pois determinam como os pontos de dados são agrupados com base em suas características A escolha da medida apropriada depende da natureza dos dados e dos objetivos da análise Ao selecionar uma medida de distância é importante considerar a escala dos dados a presença de outliers e a interpretabilidade dos resultados Em resumo medidas de similaridade e distância eficazes são essenciais para a realização de clustering preciso e significativo 1 5 1 Avaliação de Clusters A avaliação da qualidade dos clusters é uma etapa importante no processo de clustering pois permite determinar a eficácia dos algoritmos de agrupamento e a interpretação dos resultados Aqui estão alguns métodos comuns para avaliar a qualidade dos clusters ÍNDICE DE SILHOUETTE o índice de Silhouette é uma medida de validação interna que avalia a coesão intra cluster e a separação intercluster dos clusters Ele varia de 1 a 1 onde valores mais próximos de 1 indicam que os pontos estão bem agrupados valores próximos de 0 indicam sobreposição entre clusters e valores próximos de 1 indicam que os pontos podem ter sido atribuídos ao cluster errado O índice de Silhouette é calculado para cada ponto de dados e em seguida é calculada a média para obter o valor geral do índice de Silhouette para o conjunto de dados COEFICIENTE DE DUNN o coeficiente de Dunn é uma medida de validação externa que avalia a separação entre os clusters em relação ao tamanho dos clusters Ele é calculado como a razão entre a menor distância entre dois clusters e a maior distância dentro de cada cluster Um coeficiente de Dunn maior indica uma melhor separação entre os clusters MATRIZ DE CONFUSÃO a matriz de confusão é uma medida de avaliação comumente usada em tarefas de classificação mas também pode ser adaptada para avaliar a qualidade dos clusters em problemas de clustering supervisionado Neste contexto cada cluster é tratado como uma classe e os rótulos verdadeiros dos dados são comparados com os rótulos dos clusters A matriz de confusão fornece uma visão detalhada de quantos pontos fo ram corretamente atribuídos a cada cluster e quantos foram atribuídos erroneamente Na tabela a seguir vemos o exemplo de uma matriz de confusão UNIASSELVI 1 5 1 TEMA DE APRENDIZAGEM 7 Valor Predito Sim Não Real Sim Verdadeiro Positivo TP Falso Negativo FN Não Falso Positivo FP Verdadeiro Negativo TN Tabela 1 Exemplo de matriz de confusão Fonte autor Cada método de avaliação de clusters tem suas próprias vantagens e limitações e a escolha do método apropriado depende do tipo de dados da natureza do problema e dos objetivos da análise A combinação de diferentes métodos de avaliação pode fornecer uma visão mais abrangente da qualidade dos clusters e ajudar na inter pretação dos resultados É importante ressaltar que a avaliação de clusters é um processo iterativo e que a interpretação dos resultados deve ser feita com cuidado levando em consideração o contexto específico do problema em questão 1 5 8 DESAFIOS E CONSIDERAÇÕES PRÁTICAS NO CLUSTERING 35 25 15 5 0 30 20 10 1 2 3 4 5 6 7 8 9 10 Número de grupos k Somatória do erro quadrático de cada grupo SSE 0 50 100 150 00 02 04 06 Silhouette score Silhouette score 1 2 3 Cluster Observation 1 Escolha do Número de Clusters 2 Sensibilidade a Outliers e Ruídos OUTLIER Outliers are not included em any cluster DBSCAN 2 1 0 1 2 10 05 00 10 20 05 15 Cluster 1 Cluster 3 Cluster 2 99 79 90 4 12 3 Sensibilidade à Escala e à Natureza dos Dados Sample True True False False Predicted True Positive TP False Negative FN True Negative TN False Positive FP 4 Interpretação e Validade dos Resultados Aplication or User connection Control Node Compute Node Compute Node Compute Node Compute Node 5 Escalabilidade e Eficiência Computacional Massively Parallel Processing MPP eNGINE DMS DMS DMS DMS DMS Azure Storage SQL SQL SQL SQL SQL Figura 3 Principais considerações no processo de clustering Fonte o autor Descrição da Imagem esquema indicando as principais considerações no processo de clustering Na primeira parte a escolha do número de cluster Gráfico do Método do Cotovelo Elbow Method um gráfico de linha mostran do a soma das distâncias ao quadrado dentro dos clusters WSS versus o número de clusters k com um ponto marcado no cotovelo sugerido Gráfico de Silhouette um gráfico de barras mostrando os valores do índice de Silhouette para diferentes valores de k Na segunda parte Sensibilidade a Outliers e ruídos Exemplo de um gráfico de DBSCAN que identifica clusters densos e outliers em um conjunto de dados Na terceira parte Sensibilidade à escala e a natureza dos dados Gráfico de DBSCAN exibindo os cluster formados e seus centróides Na quarta parte interpretação e validade dos resultados Exemplo de matriz de confusão para validação externa dos clusters com clusters previstos versus clusters reais Na quinta parte escalabilidade e eficiência computacional Diagrama representando a distribuição de dados e processamento paralelo em vários nós de computação Fim da descrição UNIASSELVI 1 5 9 TEMA DE APRENDIZAGEM 7 O clustering apesar de ser uma técnica poderosa enfrenta alguns desafios e con siderações práticas que podem impactar significativamente os resultados Aqui estão alguns dos desafios mais comuns ESCOLHA DO NÚMERO DE CLUSTERS um dos desafios mais importantes no clustering é determinar o número ideal de clusters k Escolher um valor inadequado de k pode levar a agrupamentos subótimos ou interpretações incorretas dos resultados Métodos como o método do cotovelo elbow method critério de informação bayesiano BIC índice de Silhouette e validação externa podem ser utilizados para ajudar na escolha do número de clusters mais apropriado SENSIBILIDADE A OUTLIERS E RUÍDOS algoritmos de clustering podem ser sensíveis a outliers e ruídos o que pode resultar na formação de clusters distorcidos ou na inclusão de pontos irrelevantes nos clusters Estratégias como préprocessamento de dados para remover outliers ou usar algorit mos robustos a outliers como o DBSCAN podem ajudar a mitigar esse problema SENSIBILIDADE À ESCALA E À NATUREZA DOS DADOS alguns algoritmos de clustering são sensíveis à escala e à natureza dos dados Por exemplo o KMeans pode produzir resultados diferentes para diferentes escalas de dados enquanto o DBSCAN pode ter dificuldade em identificar clusters em espaços de alta dimensionalidade Normalização ou padronização dos dados pode ser ne cessária para garantir que os algoritmos de clustering funcionem de forma eficaz e consistente INTERPRETAÇÃO E VALIDADE DOS RESULTADOS interpretar e validar os resultados do clustering pode ser desafiador especialmente em conjuntos de dados grandes e complexos A interpretação dos clusters gerados muitas vezes requer conhecimento de domínio específico e análise visual dos dados Além disso a validade dos clusters pode ser avaliada usando métodos de avaliação interna e externa como o índice de Silhouette e a análise de matriz de confusão 1 1 1 ESCALABILIDADE E EFICIÊNCIA COMPUTACIONAL para conjuntos de dados muito grandes a escalabilidade e a eficiência computacional dos algoritmos de clustering podem ser um desafio Algoritmos como o KMeans são conhecidos por sua eficiência em grandes conjuntos de dados mas podem não ser adequados para conjuntos de dados muito grandes ou de alta dimensionalidade Nes ses casos técnicas de amostragem ou algoritmos distribuídos podem ser necessários Embora o clustering seja uma técnica poderosa para identificar padrões e estru turas em conjuntos de dados enfrenta vários desafios e considerações práticas que devem ser abordadas para garantir resultados robustos e significativos A escolha do número de clusters a sensibilidade a outliers a interpretação dos resultados e a eficiência computacional são apenas alguns dos desafios que os praticantes de clustering devem enfrentar e considerar cuidadosamente duran te o processo de análise de dados UNIASSELVI 1 1 1 TEMA DE APRENDIZAGEM 7 VISUALIZAÇÃO DE CLUSTERING Figura 4 Visualização de clusterings gerado pelo Python Fonte Gurgel 2020 Descrição da Imagem gráfico clusterização de dados gerados pelo Python exibindo 3 grandes grupos formados com concentração de cores azul verde e laranja Fim da descrição A visualização de clusters é uma ferramenta essencial para entender e interpretar os resultados do clustering Vamos apresentar um exemplo simples de imple mentação de clustering em Python usando a biblioteca scikitlearn e demonstrar como visualizar os clusters resultantes Para esse exemplo usaremos o conjunto de dados Iris que é amplamente utilizado em exemplos de aprendizado de máquina Neste exemplo primeiro importamos as bibliotecas necessárias incluindo numpy matplotlib scikitlearn e PCA para redução de dimensionalidade Em seguida carregamos o conjunto de dados Iris e reduzimos sua dimensionali dade para 2 utilizando PCA para visualização Depois aplicamos o algoritmo KMeans com 3 clusters aos dados e visualizamos os clusters resultantes jun tamente com os centróides 1 1 1 python Importar bibliotecas necessárias import numpy as np import matplotlibpyplot as plt from sklearndatasets import loadiris from sklearncluster import KMeans from sklearndecomposition import PCA O conjunto de dados Iris é carregado usando loadiris X contém os dados das características features das flores y contém as etiquetas labels das espécies das flores Carregar o conjunto de dados Iris iris loadiris X irisdata y iristarget Vamos aplicar a redução de dimensionalidade PCA Análise de Componentes Principais é configurado para reduzir os dados para 2 componentes principais fittransform é aplicado aos dados X para transformálos em Xpca que possui apenas 2 dimensões Reduzir a dimensionalidade dos dados para vi sualização pca PCAncomponents2 Xpca pcafittransformX Clustering com KMeans KMeans é configurado para encontrar 3 clusters fit é aplicado aos dados X para realizar o clustering Executar o algoritmo KMeans para clustering kmeans KMeansnclusters3 kmeansfitX Obtendo os centróides clustercenters retorna as coordenadas dos centróides dos clusters encontrados UNIASSELVI 1 1 1 TEMA DE APRENDIZAGEM 7 Obter os centróides dos clusters centroids kmeansclustercenters Configuração da figura pltfigure configura o tamanho da figura Plotagem dos pontos de dados pltscatter plota os dados transformados por PCA Xpca colorindo os pontos de acordo com os labels dos clusters kmeanslabels utilizando a colormap viridis s50 define o tamanho dos pontos alpha07 define a transparência e edgecolorsk define a cor das bordas dos pontos Visualizar os clusters pltfigurefigsize8 6 Plotar os pontos de dados pltscatterXpca 0 Xpca 1 ckmeans labels cmapviridis s50 alpha07 edgeco lorsk 15 10 05 00 05 10 3 2 1 0 1 2 3 4 Figura 5 Gráfico de dispersão com os pontos de dados do Dataset Fonte o autor Descrição da Imagem conjuntos de pontos gerados pela função Scatter indicando três possíveis agrupamentos Fim da descrição 1 1 4 Plotagem dos centróides pltscatter plota os centróides dos clusters com um marcador x tamanho 200 cor red e rótulo Centróides Plotar os centróides dos clusters pltscattercentroids 0 centroids 1 markerx s200 cred labelCentróides 34 33 32 31 30 29 28 500 525 575 625 675 550 600 650 Figura 6 Gráfico dos centroides do conjunto de dados do Dataset Fonte o autor Descrição da Imagem indicação as coordenadas dos centroides dos três agrupamentos Fim da descrição pltlegend No artists with labels found to put in legend Note that artists whose label start with an underscore are ignored when legend is called with no argument A mensagem No artists with labels found to put in legend indica que plt legend foi chamado mas não encontrou elementos com rótulos válidos pltshow UNIASSELVI 1 1 5 TEMA DE APRENDIZAGEM 7 Essa implementação simples demonstra como é fácil realizar clustering em Py thon e visualizar os resultados As aplicações são diversas e podem ser adaptadas para uma variedade de problemas do mundo real Confira aqui uma aula referente a esse assunto Recursos de mídia disponíveis no conteúdo digital do ambiente virtual de aprendizagem EM FOCO 1 1 1 NOVOS DESAFIOS No mercado de trabalho atual a capacidade de traduzir o conhecimento teórico em habilidades práticas é altamente valorizada No contexto do clustering em machine learning essa conexão entre teoria e prática é essencial para profissionais que desejam se destacar e ter sucesso em suas carreiras A compreensão dos fundamentos do clustering incluindo os diferentes tipos de algoritmos métricas de avaliação e desafios associados fornece uma base sólida para os profissionais entrarem no campo do aprendizado de máquina Esse conhecimento teórico permite que os profissionais entendam os conceitos por trás das técnicas de clustering e saibam como aplicálas de maneira eficaz em diversos contextos No ambiente profissional os profissionais precisam ser capazes de implemen tar e executar algoritmos de clustering em conjuntos de dados reais Isso envolve não apenas a habilidade de utilizar ferramentas e bibliotecas como Python e sci kitlearn mas também a capacidade de selecionar o algoritmo adequado ajustar seus parâmetros e interpretar os resultados obtidos O clustering é frequentemente utilizado para resolver problemas complexos em uma variedade de áreas como marketing saúde finanças e tecnologia Pro fissionais que possuem habilidades sólidas em clustering são capazes de analisar grandes volumes de dados identificar padrões relevantes e extrair insights sig nificativos para ajudar as empresas a tomar decisões informadas e estratégicas À medida que o campo do aprendizado de máquina continua a evoluir os profissionais precisam estar preparados para se adaptar às demandas em cons tante mudança do mercado Isso pode envolver a exploração de novas técnicas de clustering o domínio de ferramentas e tecnologias emergentes e a participação em cursos de atualização e treinamento para aprimorar suas habilidades Em resumo a conexão entre teoria e prática no contexto do clustering em machine learning é crucial para o sucesso profissional no mercado de trabalho atual Os profissionais que conseguem aplicar o conhecimento teórico de forma eficaz em situações práticas resolver problemas complexos e se adaptar às de mandas do mercado estão bem posicionados para prosperar e fazer contribuições significativas em suas áreas de atuação UNIASSELVI 1 1 1 1 Técnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes nos dados organizandoos em grupos de objetos similares O agrupamento pode ser visto como pertencente ao paradigma de aprendizado não supervisionado em que o aprendi zado é dirigido aos dados não requerendo conhecimento prévio sobre as suas classes ou categorias Qual dos seguintes é o principal objetivo do processo de clustering de dados a Determinar a correlação entre duas variáveis b Encontrar a linha de melhor ajuste em um conjunto de dados c Identificar e agrupar dados semelhantes em clusters d Minimizar a soma dos quadrados dos resíduos e Avaliar a significância estatística de um modelo preditivo 2 As técnicas de agrupamento são instrumentos valiosos na análise exploratória dos dados e encontram aplicações em várias áreas tais como biologia medicina engenharia marketing visão computacional e sensoriamento remoto Uma área de aplicação recente que tem se beneficiado significativamente da análise de agrupamento é a bioinformática Nessa área muitos trabalhos têm sido desenvolvidos aplicandose algoritmos de agrupamento para análise de dados de expressão gênica Qual das seguintes opções é uma área principal de aplicação do clustering de dados a Desenvolvimento de modelos de regressão para prever preços de imóveis b Segmentação de mercado para campanhas de marketing direcionadas c Análise de séries temporais para prever flutuações de estoque d Criação de algoritmos de criptografia para segurança de dados e Teste de hipóteses para validar significância estatística AUTOATIVIDADE 1 1 8 3 Os seres humanos estão sempre classificando e dando a cada classe uma forma diferente de tratamento formando classes de comportamento em diferentes ambientes definindo classes sociais estabelecendo preconceitos e tratanto as pessoas segundo estes estereó tipos entre outras formas de classificação Qual das seguintes afirmações é verdadeira sobre clustering supervisionado e clustering nãosupervisionado a Clustering supervisionado é usado quando há rótulos de classes disponíveis nos dados de treinamento b Clustering supervisionado é usado para prever valores contínuos em um conjunto de dados c Clustering nãosupervisionado requer que cada ponto de dado seja préclassificado em uma categoria específica d Clustering nãosupervisionado é utilizado para agrupar dados em clusters sem a neces sidade de rótulos prédefinidos e Clustering nãosupervisionado é equivalente a regressão linear pois ambos não neces sitam de rótulos de dados AUTOATIVIDADE 1 1 9 REFERÊNCIAS GURGEL I Análises com Algoritmos de Clustering Medium Blog 2020 Disponível em https mediumcomisnardgurgelanC3A1lisescomalgoritmosdeclustering40d52f36f67c Acesso em 18 mai 2024 HAN J Data Mining Concepts and Techniques Universidade de Illinois em UrbanaChampaign 2006 MARTINS C A Uma Abordagem para o Préprocessamento de Dados Textuais em Algorit mos de Aprendizado 2003 Doutorado Tese de Doutorado Instituto de Matemática e Com putação Universidade de São Paulo São Paulo 2003 Disponível em httpwwwtesesuspbr tesesdisponiveis5555134tde08032004164855 Acesso em 18 mai 2024 SILVA T Ferramentas para Análise de Redes e Grafos em Mídias Sociais Linkedin Newsletter 2016 Disponível em httpswwwlinkedincompulseferramentasparaanC3A1lisedere desegrafosemmC3ADdiassociaissilva Acesso em 18 mai 2024 1 1 1 1 Alternativa C A Errado Determinar a correlação entre duas variáveis é uma tarefa de análise estatística que mede a força e a direção de uma relação linear entre duas variáveis mas não envolve o agrupamento de dados em clusters B Errado Encontrar a linha de melhor ajuste é o objetivo da regressão linear que busca modelar a relação entre uma variável dependente e uma ou mais variáveis independentes e não de agrupar dados semelhantes C Correto O principal objetivo do clustering é agrupar dados semelhantes em clusters de forma que os pontos de dados dentro do mesmo cluster sejam mais semelhantes entre si do que aos pontos de dados em outros clusters Isso ajuda a identificar estruturas ou padrões subjacentes nos dados D Errado Minimizar a soma dos quadrados dos resíduos é o objetivo da análise de regres são que visa ajustar um modelo que explique a variabilidade dos dados não os agrupar em clusters E Errado Avaliar a significância estatística de um modelo preditivo é uma tarefa de validação de modelos estatísticos e não está relacionada diretamente ao processo de clustering que se concentra em agrupar dados semelhantes 2 Alternativa B A Errado A regressão é uma técnica de aprendizado supervisionado usada para prever valores contínuos com base em variáveis independentes e não se enquadra na categoria de clustering que é uma técnica não supervisionada B Correto Clustering é amplamente utilizado em segmentação de mercado para agrupar consumidores com comportamentos ou características semelhantes permitindo a criação de campanhas de marketing direcionadas e personalizadas C Errado A análise de séries temporais é usada para modelar e prever dados que mudam ao longo do tempo o que geralmente envolve técnicas de previsão não clustering D Errado A criptografia envolve a criação de algoritmos para proteger dados o que é um campo separado da análise de dados e não se relaciona diretamente com o clustering E Errado O teste de hipóteses é uma técnica estatística para determinar se há evidências suficientes para rejeitar uma hipótese nula não se relaciona com a técnica de clustering que agrupa dados com base em similaridades GABARITO 1 1 1 3 Alternativa D A Errado Clustering é uma técnica nãosupervisionada por definição usada para agrupar dados sem a necessidade de rótulos de classes Quando há rótulos de classes métodos de aprendizado supervisionado como classificação são utilizados B Errado Prever valores contínuos é tarefa da regressão que é uma técnica de aprendizado supervisionado e não está relacionada ao clustering C Errado Clustering nãosupervisionado por definição não requer rótulos de classe para os pontos de dados Ele agrupa os dados com base em similaridades intrínsecas sem rótulos prédefinidos D Correto Clustering nãosupervisionado agrupa dados com base em características e si milaridades internas dos dados sem necessitar de rótulos prédefinidos o que é a essência do clustering nãosupervisionado E Errado Clustering nãosupervisionado e regressão linear são técnicas completamente diferentes A regressão linear é um método supervisionado usado para prever valores contí nuos a partir de dados com rótulos enquanto o clustering é um método nãosupervisionado que agrupa dados sem rótulos prédefinidos GABARITO 1 1 1 MINHAS ANOTAÇÕES MINHAS METAS CLUSTERING MÉTODOS HIERÁRQUICOS Compreender os fundamentos teóricos do clustering hierárquico Aplicar algoritmos de clustering hierárquico em conjuntos de dados reais usando ferra mentas de software adequadas Analisar e interpretar dendrogramas gerados pelo clustering hierárquico e identificar padrões de similaridade entre os clusters Avaliar e selecionar métodos de ligação apropriados e selecionar o mais indicado com base nas características dos dados e nos objetivos da análise Resolver problemas práticos utilizando clustering hierárquico Analisar as limitações e desafios do clustering hierárquico Desenvolver habilidades de comunicação e colaboração para resolver problemas com plexos e desenvolver soluções inovadoras T E M A D E A P R E N D I Z A G E M 8 1 1 4 INICIE SUA JORNADA O clustering hierárquico uma técnica poderosa de agrupamento de dados en frenta diversos desafios que podem impactar sua aplicação em diferentes contex tos Um dos principais desafios é a escalabilidade especialmente em conjuntos de dados grandes onde o tempo de execução pode ser significativamente longo Quais são os outros desafios que você pode vislumbrar Pense por exemplo a dificuldade em determinar o número ideal de clusters pode levar a resultados subjetivos e interpretativos Como isso pode impactar na tomada de decisões Apesar dos desafios o clustering hierárquico possui uma significação im portante em diversas áreas incluindo biologia marketing e análise de dados Sua capacidade de identificar estruturas hierárquicas nos dados e de gerar den drogramas interpretáveis permite a extração de insights valiosos sobre padrões de similaridade e diferenciação entre os pontos de dados Isso possibilita uma compreensão mais profunda dos fenômenos estudados e orienta a tomada de decisões em diversos campos A experimentação com o clustering hierárquico envolve a aplicação de dife rentes métodos de ligação métricas de distância e técnicas de préprocessamento de dados para explorar sua eficácia e robustez em diferentes cenários É impor tante experimentar e comparar os resultados obtidos com diferentes abordagens para entender como elas afetam a estrutura dos clusters e a interpretabilidade dos resultados A experimentação também pode ajudar a identificar estratégias para lidar com desafios específicos como escalabilidade e sensibilidade a outliers Ao refletir sobre o uso do clustering hierárquico é importante considerar não apenas suas limitações mas também seus potenciais Apesar dos desafios o clustering hierárquico continua sendo uma ferramenta valiosa para explorar a estrutura de dados e identificar padrões de similaridade Ao enfrentar os desafios como a escalabilidade e a interpretação dos resultados os praticantes podem desenvolver abordagens mais eficazes e utilizar o clustering hierárquico de forma mais informada e significativa em suas análises e tomadas de decisão UNIASSELVI 1 1 5 TEMA DE APRENDIZAGEM 8 Vamos ouvir um podcast sobre como os métodos de clustering hierárquicos po dem ser utilizados para fornecer insights estratégicos assertivos nas empresas e apresentar situações reais na área de marketing e vendas Recursos de mídia dis poníveis no conteúdo digital do ambiente virtual de aprendizagem PLAY NO CONHECIMENTO VAMOS RECORDAR É importante retomar que a técnica de clustering é muito utilizada em diversas áreas com destaque para Marketing Biologia Redes Sociais Vamos assistir um vídeo sobre uma área de aplicação de clustering que tem crescido muito nos últimos anos a Segmentação de Mercado Vamos resgatar seu conceito quais as técnicas para se realizar e os desafios e dificuldades envolvidos Disponível em httpswwwyoutubecomwatchvS4zSX5mvtqU DESENVOLVA SEU POTENCIAL MÉTODOS HIERÁRQUICOS DE CLUSTERING UMA ABORDAGEM DETALHADA Os métodos hierárquicos de clustering são uma classe de algoritmos de agru pamento que organizam os dados em uma estrutura de árvore ou hierarquia Ao contrário dos métodos de clustering particionais como Kmeans onde é necessário especificar o número de clusters a priori os métodos hierárquicos produzem uma representação visual da relação de similaridade entre os dados independentemente do número de clusters desejado Neste material vamos ex plorar em detalhes o conceito características técnicas e aplicações dos métodos hierárquicos de clustering Uma análise de cluster bem realizada requer métodos que possuam as se guintes características Zaiane et al 2003 Capacidade de lidar com dados de alta dimensionalidade 1 1 1 Ser escalável tanto em relação ao número de dimensões quanto à quan tidade de elementos a serem agrupados Habilidade para tratar diferentes tipos de dados Aptidão para identificar agrupamentos de variados tamanhos e formas Necessitar de um mínimo conhecimento para a definição dos parâmetros de entrada Ser robusto na presença de ruído Apresentar resultados consistentes independentemente da ordem de apresentação dos dados Os métodos hierárquicos de clustering funcionam construindo uma hierarquia de clusters Existem dois tipos principais de métodos hierárquicos aglomera tivos e divisivos Aglomerativos começam com cada ponto de dados como um cluster individual e em seguida mesclam clusters semelhantes para formar clusters maiores O processo continua até que todos os pontos de dados estejam em um único cluster Divisivos começam com todos os pontos de dados em um único cluster e em seguida dividem recursivamente o cluster em clusters menores até que cada ponto de dados esteja em seu próprio cluster Os métodos hierárquicos de clustering funcionam construindo uma hierarquia de clusters Método Hierárquicos Aglomerativos Divisivos Vizinho mais próximo ou Ligação simples Método da mediana Método de Ward ou de Variância mínima Método de agrupamento de ligação média Vizinho mais distante ou Ligação completa Figura 1 Classificação de métodos hierárquicos Fonte adaptada de Calvo 2018 Descrição da Imagem esquema indicando a hierarquia dos métodos de clustering Os métodos Hierárquicos se dividem em Aglomerativos e Divisivos Fim da descrição Os métodos hierárquicos de clustering são uma abordagem poderosa e versátil na análise de dados oferecendo diversas características que os tornam especialmente úteis em diferentes contextos Uma das principais vantagens desses métodos é a UNIASSELVI 1 1 1 TEMA DE APRENDIZAGEM 8 visualização hierárquica que eles fornecem permitindo uma interpretação clara e detalhada da estrutura dos clusters Além disso os métodos hierárquicos são altamente flexíveis pois não requerem a especificação prévia do número de clusters o que é particularmente vantajoso quando esse número é desconhecido ou variável No entanto esses métodos também apresentam sensibilidade à esco lha da métrica de similaridade e à escala dos dados fatores que podem influenciar significativamente os resultados e devem ser cuidadosamente considerados Segue a seguir um resumo das principais características comparadas com outras técnicas de clustering VISUALIZAÇÃO HIERÁRQUICA os métodos hierárquicos fornecem uma visualização hierárquica da estrutura de clus tering o que pode ajudar na interpretação dos resultados FLEXIBILIDADE NA IDENTIFICAÇÃO DE CLUSTERS não é necessário especificar o número de clusters a priori tornandoos úteis quando o número de clusters não é conhecido ou variável SENSIBILIDADE À ESCALA E À MÉTRICA DE SIMILARIDADE a escolha da métrica de distância e a escala dos dados podem afetar significativamen te os resultados dos métodos hierárquicos Agora examinaremos as principais técnicas e algoritmos específicos utilizados em métodos hierárquicos de clustering destacando como cada um identifica e organiza clusters dentro de um conjunto de dados Single Linkage calcula a distância entre os clusters mais próximos consi derando apenas um ponto de cada cluster Complete Linkage calcula a distância entre os clusters mais distantes con siderando um ponto de cada cluster 1 1 8 Average Linkage calcula a média das distâncias entre todos os pares de pontos de dois clusters Centróide Linkage define a distância entre dois clusters como a distância entre seus centróides ou médias aritméticas dos pontos de dados em cada cluster Wards Method minimiza a soma dos quadrados das diferenças dentro de todos os clusters ao mesclar os clusters Os métodos hierárquicos são amplamente utilizados em bioinformática para classificar genes na análise de dados espaciais na segmentação de clientes em marketing entre outros Suas limitações se devem ao fato de que podem ser computacionalmente caras para grandes conjuntos de dados sensíveis à escolha da métrica de distância e à presença de outliers Além disso a interpretação dos resultados pode ser subjetiva especialmente em árvores de clustering densas Os métodos hierárquicos de clustering oferecem uma abordagem intuitiva e poderosa para explorar a estrutura de dados sem a necessidade de especificar o número de clusters a priori Com uma compreensão sólida de seus conceitos algoritmos e aplicações os praticantes podem utilizar efetivamente essa técnica em uma variedade de domínios para revelar insights valiosos nos dados PRINCIPAIS DIFERENÇAS DO CLUSTERING HIERÁRQUICO E DO CLUSTERING NÃO HIERÁRQUICO Clustering não hierárquico é uma técnica de agrupamento de dados onde os pontos de dados são particionados em clusters distintos sem estabelecer uma hierarquia entre eles e serão vistos no tema 9 O quadro a seguir destaca as principais diferenças entre clustering hierárqui co e não hierárquico ajudando a entender quando cada técnica pode ser mais apropriada dependendo das necessidades e características específicas dos dados e das aplicações UNIASSELVI 1 1 9 TEMA DE APRENDIZAGEM 8 Aspecto Clustering Hierárquico Clustering Não Hierár quico Estrutura de Clusters Cria uma árvore hierár quica de clusters den drograma Forma clusters distintos sem hierarquia Número de Clusters Não precisa ser definido antecipadamente Precisa ser especificado antecipadamente por exemplo Kmeans Métodos Comuns Aglomerativo Divisivo Ward Ligação Simples Completa Kmeans Kmedoids DBSCAN Complexidade Compu tacional Geralmente mais alto especialmente para grandes conjuntos de dados Geralmente mais baixo e escalável Sensibilidade a Outliers Pode ser sensível a outliers impactando a estrutura do dendrogra ma Varia conforme o algo ritmo mas Kmeans é sensível Visualização Produz dendrogramas que mostram a relação entre clusters Não oferece uma visuali zação hierárquica natural Flexibilidade Flexível em termos de formas de clusters pode identificar subestruturas Menos flexível geral mente assume clusters esféricos Interpretação de Resul tados Pode ser subjetiva escolha do número de clusters pode ser desa fiadora Mais direta a interpreta ção depende do número fixo de clusters 1 8 1 Aplicações Típicas Genômica taxonomia análise de imagens bibliotecas digitais Segmentação de merca do reconhecimento de padrões compressão de dados Atualização Dinâmica Segmentação de merca do reconhecimento de padrões compressão de dados Mais fácil de atualizar pode adicionar novos dados incrementalmente Quadro 1 Principais diferenças entre os métodos hierárquicos e não hierárquicos de clustering Fonte o autor Os métodos hierárquicos de clustering fornecem uma abordagem poderosa e fle xível para a análise de dados destacando a estrutura hierárquica subjacente nos dados sem a necessidade de especificar o número de clusters antecipadamente Sua capacidade de visualização hierárquica e interpretação intuitiva dos resultados fazem deles uma escolha popular em uma variedade de domínios des de biologia e bioinformática até análise de mercado e ciência de dados em geral DENDROGRAMAS INTERPRETANDO A ESTRUTURA HIERÁRQUICA DOS DADOS Um dendrograma é uma representação gráfica da estrutura hierárquica resultante de um método hierárquico de clustering Ele consiste em uma árvore bifurcada na qual os nós representam clusters de dados e os ramos indicam a dissimila ridade entre os clusters Os dendrogramas são frequentemente utilizados para visualizar a estrutura de agrupamento em diferentes níveis de granularidade per mitindo uma interpretação detalhada da relação entre os clusters e seus membros UNIASSELVI 1 8 1 TEMA DE APRENDIZAGEM 8 Dendograma Ligação completa distância Euclidiana Observações 4452 2968 1484 000 Distância Figura 2 Exemplo de um dendrograma Fonte PennState 2019 online Descrição da Imagem dendograma que exibe o agrupamento de ligações dois a dois com 6 grandes regiões distintas identificadas por cores diferentes Fim da descrição A interpretação de um dendrograma na análise de clusters pode ser desafiadora devido a várias dificuldades Primeiro a complexidade visual aumenta signifi cativamente à medida que o número de pontos de dados cresce tornando difícil discernir as relações entre clusters Além disso determinar o corte adequado no dendrograma para definir o número ideal de clusters exige julgamento subjeti vo e pode variar dependendo do contexto da análise A sensibilidade a outliers e a escolha da métrica de distância também podem distorcer a estrutura do dendro grama complicando ainda mais a interpretação precisa e confiável dos resultados As principais diretrizes na interpretação dos dendrogramas podem ser resu midas na lista seguinte 1 8 1 EIXO HORIZONTAL o eixo horizontal de um dendrograma representa os pontos de dados ou os clusters Cada ponto no eixo horizontal representa um cluster individual ou um ponto de dados EIXO VERTICAL o eixo vertical indica a medida de dissimilaridade entre os clusters Quanto mais alto o ponto no eixo vertical maior é a dissimilaridade entre os clusters que estão sendo unidos naquele ponto CLUSTERS E FUSÕES os dendrogramas mostram a fusão progressiva dos clusters à medida que nos mo vemos para cima no eixo vertical Cada fusão representa a união de dois clusters e a altura da fusão indica a dissimilaridade entre eles CORTES NO DENDROGRAMA para interpretar o dendrograma podese escolher um ponto no eixo vertical onde cortar a árvore para obter um determinado número de clusters Cortes em diferentes alturas resultam em diferentes números de clusters e podem revelar diferentes níveis de granularidade na estrutura dos dados IDENTIFICAÇÃO DE CLUSTERS os clusters podem ser identificados observandose os grupos de pontos que são uni dos em diferentes alturas do dendrograma Clusters que são unidos em alturas mais baixas são mais semelhantes entre si enquanto clusters unidos em alturas mais altas podem conter grupos mais heterogêneos de pontos Interpretar um dendrograma é essencial para extrair insights significativos da estrutura de clustering Uma interpretação cuidadosa pode revelar padrões interessantes nos dados identificar grupos de pontos semelhantes e ajudar na compreensão da relação entre os diferentes clusters Além disso a interpretação dos dendrogramas pode orientar a seleção de cortes apropriados para obter um número adequado de clusters com base nos requisitos específicos da análise UNIASSELVI 1 8 1 TEMA DE APRENDIZAGEM 8 Ao compreender os elementoschave de um dendrograma e como interpre tálo os praticantes podem extrair insights valiosos sobre a organização e relação dos dados facilitando uma análise mais profunda e informada ALGORITMOS DE CLUSTERING HIERÁRQUICO UMA VISÃO GERAL Os algoritmos de clustering hierárquico são divididos em duas categorias prin cipais aglomerativos e divisivos Ambos os tipos de algoritmos compartilham o objetivo comum de construir uma estrutura hierárquica de clusters mas diferem na abordagem usada para alcançar esse objetivo Vamos explorar os algoritmos mais comuns em cada categoria Cluster Aglomerativo Cluster Divisivo A B BC C D E F EF DEF BCDEF ABCDEF A B C D E F BC EF DEF BCDEF ABCDEF Figura 3 Cluster Aglomerativo x Cluster Divisivo Fonte adaptada de Calvo 2018 Descrição da Imagem figura com Cluster Aglomerativo e Cluster Divisivo No cluster aglomerativo temos os nós ABCDE e F onde os nós B e C são agrupados no nós BC os nós E e F são agrupados no nó EF em seguida o nó D é agrupado com o nó EF formando o nó DEF em seguida esse nó é agrupado ao nó BC formando o nó BCDEF e finalmente agrupado com o nó A formando o nó ABCDEF No cluster divisivo temos inicialmente o nó ABCEDF que se divide nos nós A BC e DEF por sua vez o nó BCDEF se divide nos nós BC e DEF O nó BD se divide nos nós B e C e o nó DEF se divide no nó D e EF e finalmente o nó EF se divide nos nós E e F Fim da descrição 1 8 4 Clustering Hierárquico Aglomerativo Nesse tipo de algoritmo cada ponto de dados começa como um cluster individual e em seguida os clusters são mesclados progressivamente com base na medida de similaridade entre eles O processo continua até que todos os pontos de dados es tejam em um único cluster Os passos típicos de um algoritmo aglomerativo são Inicialização cada ponto de dados é considerado como um cluster in dividual Cálculo da Similaridade a similaridade entre os clusters é calculada usando uma métrica de distância como a distância euclidiana Mesclagem de Clusters os dois clusters mais similares são mesclados para formar um novo cluster Atualização da Matriz de Similaridade a matriz de similaridade é atualizada para refletir a dissimilaridade entre o novo cluster e os clusters restantes Repetição Os passos de cálculo de similaridade mesclagem de clusters e atualização são repetidos até que todos os pontos de dados estejam em um único cluster Os algoritmos aglomerativos comuns incluem Single Linkage Complete Linkage Average Linkage e Wards Method Clustering Hierárquico Divisivo Ao contrário dos algoritmos aglomerativos os algoritmos divisivos começam com todos os pontos de dados em um único cluster e em seguida dividem re cursivamente o cluster em clusters menores até que cada ponto de dados esteja em seu próprio cluster Os passos típicos de um algoritmo divisivo são Inicialização todos os pontos de dados são considerados como perten centes a um único cluster Cálculo da Dissimilaridade a dissimilaridade entre os pontos de dados dentro do cluster é calculada Divisão do Cluster o cluster é dividido em dois clusters menores com base na dissimilaridade entre os pontos de dados UNIASSELVI 1 8 5 TEMA DE APRENDIZAGEM 8 Atualização da Dissimilaridade a dissimilaridade entre os novos clus ters e os pontos de dados restantes é atualizada Repetição os passos de cálculo de dissimilaridade divisão do cluster e atualização são repetidos até que cada ponto de dados esteja em seu próprio cluster Os algoritmos divisivos são menos comuns do que os aglomerativos devido à complexidade de dividir eficientemente um grande cluster em clusters menores Na escolha entre métodos de clustering hierárquico divisivo ou aglomerati vo é crucial considerar a natureza e o tamanho dos dados O método aglome rativo que começa com cada ponto como um cluster individual e os aglomera progressivamente é geralmente mais simples e menos intensivo computacio nalmente tornandose adequado para conjuntos de dados menores ou mo derados Em contraste o método divisivo que inicia com um único cluster contendo todos os pontos e os divide iterativamente pode oferecer uma visão mais detalhada da estrutura dos dados mas é mais computacionalmente caro e complexo sendo mais apropriado para conjuntos de dados maiores onde a gra nularidade inicial é importante Outros fatores incluem a presença de outliers a forma esperada dos clusters e a necessidade de interpretar a hierarquia dos clusters no contexto da aplicação específica Métodos de Ligação em Clustering Hierárquico Os métodos de ligação também conhecidos como critérios de fusão são uti lizados em algoritmos de clustering hierárquico para determinar como a simi laridade entre clusters é calculada durante o processo de agrupamento Cada método de ligação tem suas próprias características e impacta diretamente na estrutura final dos clusters 1 8 1 SingleLinkage distância ao vizinho mais próximo CompleteLinkage distância ao vizinho mais afastado AverageLinkage distância média aos elementos CentróideLinkage distância ao centro médio dos elementos Método Ward minimiza a soma das diferenças ao quadrado entre os pontos dentro de cada cluster B A D E C D E C D E C D E C D E C B A B A B A B A Figura 4 Principais métodos de ligação entre clusters Fonte o autor Descrição da Imagem a figura mostra 5 tipos de métodos de ligação No método SingleLinkage o elemento A do primeiro grupo é ligado ao elemento D do segundo grupo pelo critério do vizinho mais próximo No método CompleteLinkage o elemento B do primeiro grupo é ligado ao elemento E do segundo grupo pelo critério do vizinho mais distante No método AverageLinkage os elementos A e B do primeiro grupo são ligados a todos os elementos do segundo grupo CD e E segundo o critério de distância média dos elementos No método CentróideLinkage é feita a ligação do ponto médio do primeiro grupo com o ponto médio do segundo grupo através do método de ligação dos centróides dos grupos Finalmente no método Ward buscase minimizar a soma das diferenças ao quadrado entre os pontos dentro de cada cluster visando formar clusters que maximizem a homogeneidade interna Esse método é particularmente eficaz em criar clusters de tamanho semelhante e é amplamente utilizado para análises detalhadas de dados Fim da descrição LIGAÇÃO SIMPLES SINGLE LINKAGE nesse método a similaridade entre dois clusters é definida como a menor distância entre qualquer par de pontos um de cada cluster Em outras palavras a medida de dissimilaridade entre dois clusters é determinada pela distância entre os pontos mais próximos de cada cluster A ligação simples tende a formar clusters alongados e sensí veis a outliers pois é sensível a pequenas distâncias UNIASSELVI 1 8 1 TEMA DE APRENDIZAGEM 8 LIGAÇÃO COMPLETA COMPLETE LINKAGE ao contrário da ligação simples a ligação completa considera a maior distância entre quaisquer dois pontos um de cada cluster para calcular a similaridade entre os clus ters Isso significa que a dissimilaridade entre dois clusters é determinada pela distân cia entre os pontos mais distantes de cada cluster A ligação completa tende a formar clusters compactos e é menos sensível a outliers do que a ligação simples LIGAÇÃO MÉDIA AVERAGE LINKAGE nesse método a similaridade entre dois clusters é calculada como a média das distâncias entre todos os pares de pontos um de cada cluster Isso significa que a dis similaridade entre dois clusters é determinada pela média das distâncias entre todos os pontos dos clusters A ligação média é menos sensível a outliers do que a ligação simples e tende a produzir clusters mais balanceados e compactos LIGAÇÃO AO CENTRO MÉDIO CENTRÓIDE LINKAGE esse método determina a distância entre dois clusters com base nas médias ou centróides dos pontos de dados em cada cluster Ao calcular a distância entre os centróides dos clusters este método leva em consideração a posição média dos pontos dentro dos clusters proporcionando uma fusão que reflete a centralidade dos dados O centróide de um cluster é recalculado a cada etapa de fusão garantindo que as novas distâncias sejam baseadas nos centróides atualizados Esse método é especialmente útil para identificar clusters compactos e bem separados mas pode ser influenciado por outliers e a distribuição dos dados MÉTODO DE WARD WARDS METHOD o método de Ward é um método de ligação que minimiza a variação dentro dos clusters ao mesclar os clusters Ele calcula a dissimilaridade entre dois clusters com base na soma dos quadrados das diferenças dentro de todos os clusters afetados pela fusão O método de Ward tende a produzir clusters de tamanhos semelhantes e é robusto em relação à presença de outliers A escolha do método de ligação depende das características dos dados e dos objetivos da análise Por exemplo se os dados contiverem outliers o método de ligação completo ou o método de Ward podem ser mais adequados devido à sua 1 8 8 robustez em relação a outliers Se a interpretação dos clusters for uma prioridade o método de ligação média pode ser preferível devido à sua tendência a produzir clusters mais balanceados Os métodos de ligação desempenham um papel crucial na determinação da estrutura final dos clusters em algoritmos de clustering hierárquico Cada méto do de ligação tem suas próprias características e impacta diretamente na forma e na interpretação dos clusters resultantes Portanto é importante entender as diferenças entre os métodos de ligação e escolher aquele mais adequado para os dados e os objetivos da análise APLICAÇÕES E CASOS DE USO DO CLUSTERING HIERÁRQUICO O clustering hierárquico é uma técnica versátil e amplamente aplicada em uma variedade de campos fornecendo insights valiosos sobre a estrutura e os padrões presentes nos dados Vamos explorar algumas das aplicações mais comuns em diferentes áreas 12 12 12 10 10 10 8 8 8 6 6 6 4 4 4 2 2 2 0 0 0 Gene 1 Condição 1 Condição 2 Condição 3 Figura 5 Aplicação de clustering para análise genômica Fonte GFBioinfo c2024 online Descrição da Imagem gráfico tridimensional exibindo 4 grupos de genes representado por pontos no gráfico formados a partir das condições representadas por cada uma das três dimensões Fim da descrição UNIASSELVI 1 8 9 TEMA DE APRENDIZAGEM 8 ANÁLISE GENÔMICA o clustering hierárquico é amplamente utilizado na análise genômica para agrupar genes ou amostras com perfis de expressão gênica semelhantes Isso ajuda os pesquisadores a identificar padrões de expressão gênica associados a diferentes con dições biológicas como doenças ou resposta a tratamentos Por exemplo o clustering hierárquico pode ser usado para identificar subgrupos de pacientes com câncer com base em padrões de expressão gênica o que pode levar a uma melhor compreensão da heterogeneidade tumoral e orientar o desenvolvimento de terapias personalizadas SEGMENTAÇÃO DE MERCADO no marketing o clustering hierárquico é utilizado para segmentar clientes com base em características demográficas comportamentais ou de preferência Ao agrupar clientes em segmentos homogêneos as empresas podem personalizar suas estraté gias de marketing e comunicação para atender às necessidades específicas de cada grupo Por exemplo um supermercado pode usar clustering hierárquico para identifi car diferentes perfis de compradores e adaptar seu mix de produtos e promoções para atender a cada segmento de forma mais eficaz ORGANIZAÇÃO DE BIBLIOTECAS DIGITAIS em biblioteconomia e ciência da informação o clustering hierárquico é aplicado na organização e recuperação de informações em bibliotecas digitais Ao agrupar docu mentos ou recursos digitais semelhantes os sistemas de recuperação de informações podem facilitar a navegação e a busca eficiente por conteúdo relevante Por exemplo um sistema de gerenciamento de conteúdo pode usar clustering hierárquico para organizar artigos de notícias ou documentos acadêmicos em categorias temáticas facilitando a descoberta de informações pelos usuários ANÁLISE DE IMAGEM E VISÃO COMPUTACIONAL na análise de imagem e visão computacional o clustering hierárquico é utilizado para segmentar imagens em regiões ou objetos semelhantes com base em características visuais como cor textura ou forma Isso é útil em aplicações como reconhecimento de padrões classificação de imagens e detecção de objetos em imagens médicas ou de satélite Por exemplo o clustering hierárquico pode ser usado para segmentar uma imagem de satélite em diferentes tipos de cobertura terrestre como florestas corpos dágua e áreas urbanas 1 9 1 DESAFIOS E LIMITAÇÕES DO CLUSTERING HIERÁRQUICO Embora o clustering hierárquico seja uma técnica poderosa e amplamente utili zada existem desafios e limitações importantes que devem ser considerados ao aplicálo em diferentes contextos Vamos discutir alguns dos principais desafios Escalabilidade Um dos principais desafios do clustering hierárquico é sua escalabilidade em grandes conjuntos de dados Como o algoritmo avalia todas as combinações pos síveis de clusters sua complexidade computacional aumenta significativamente com o tamanho do conjunto de dados Isso pode resultar em tempos de execu ção longos e exigir recursos computacionais substanciais tornando o clustering hierárquico impraticável para conjuntos de dados muito grandes Dificuldade em Determinar o Número de Clusters Ao contrário de métodos de clustering particionais como o Kmeans onde é necessário especificar o número de clusters desejados antecipadamente o cluste ring hierárquico não requer essa informação No entanto determinar o número ideal de clusters pode ser um desafio especialmente em conjuntos de dados com plexos ou com estruturas não tão claras A interpretação do dendrograma gerado pelo clustering hierárquico pode ser subjetiva e não existe uma regra definitiva para escolher o número de clusters Sensibilidade à Métrica de Similaridade A escolha da métrica de distância ou similaridade pode afetar significativa mente os resultados do clustering hierárquico Diferentes métricas podem levar a agrupamentos diferentes e nem sempre há uma métrica universalmente ideal para todos os tipos de dados ou domínios de aplicação Além disso a sensibili dade à escala dos dados pode impactar a qualidade dos clusters especialmente em conjuntos de dados com atributos de diferentes escalas Interpretabilidade dos Resultados Embora os dendrogramas gerados pelo clustering hierárquico forneçam uma representação visual da estrutura de clustering a interpretação dos resultados pode ser desafiadora especialmente em dendrogramas densos com muitos clus ters Identificar e interpretar clusters significativos pode exigir conhecimento es pecializado do domínio e uma análise detalhada dos padrões presentes nos dados UNIASSELVI 1 9 1 TEMA DE APRENDIZAGEM 8 Sensibilidade a Outliers Assim como outros métodos de clustering o clustering hierárquico pode ser sensível a outliers pontos de dados que são significativamente diferentes do restante dos dados Outliers podem influenciar a formação dos clusters levando a resultados distorcidos ou não representativos Portanto é importante conside rar a presença de outliers e aplicar técnicas adequadas de préprocessamento de dados como remoção ou tratamento de outliers para mitigar seu impacto nos resultados do clustering Ao aplicar o clustering hierárquico é crucial considerar esses fatores e esco lher abordagens e técnicas adequadas para lidar com eles de forma eficaz Para enfrentar esses desafios várias soluções foram propostas e implementadas 1 Escalabilidade técnicas como amostragem de dados e uso de algorit mos distribuídos por exemplo em plataformas como Hadoop e Spark ajudam a lidar com grandes volumes de dados tornando os métodos hierárquicos mais escaláveis e eficientes 2 Sensibilidade a Outliers métodos robustos como o DBSCAN podem ser combinados com técnicas hierárquicas para melhorar a robustez contra outliers e ruídos assegurando que a análise de clusters seja mais precisa 3 Escolha de Métricas Adequadas a seleção criteriosa de métricas de distância e a normalização dos dados são essenciais para melhorar a performance dos métodos hierárquicos especialmente em datasets com diferentes escalas e distribuições Finalmente vimos que os métodos de clustering hierárquico não requerem a definição prévia do número de clusters oferecem uma visualização clara das relações entre os dados através de dendrogramas e são flexíveis em identificar subestruturas e padrões complexos nos dados Além disso eles são capazes de lidar com dados de diferentes formas e tamanhos de clusters A escolha do melhor método vai depender muito do fenômeno a ser modelado O método de ligação simples é útil para detectar formas alongadas ou cadeias de clusters mas pode ser sensível a ruídos A ligação completa é adequada para clusters compactos e separados mas pode exagerar a influência dos outliers A ligação mé dia equilibra a influência de todos os pontos sendo útil para dados moderadamente ruidosos O método de Ward é ideal para obter clusters homogêneos de tamanho similar sendo amplamente utilizado em análises detalhadas de dados estruturados 1 9 1 NOVOS DESAFIOS No mundo dinâmico da ciência de dados a teoria dos métodos hierárquicos de clustering se conecta diretamente com a prática em várias indústrias e setores oferecendo insights valiosos e resolvendo problemas complexos À medida que a demanda por análise de dados cresce no mercado de trabalho os profissionais que dominam essas técnicas encontram inúmeras oportunidades para aplicar seu conhecimento de forma prática e impactante Os métodos hierárquicos de clustering são particularmente valorizados em áreas como bioinformática marketing finanças ecommerce e ciências sociais Por exemplo em bioinformática esses métodos são usados para anali sar sequências genéticas e agrupar genes com funções semelhantes facilitando avanços na medicina personalizada e na descoberta de novos medicamentos No marketing ajudam na segmentação de clientes permitindo que as empresas criem campanhas mais direcionadas e eficazes Em finanças esses métodos são aplicados para detectar fraudes identificando padrões anômalos em grandes volumes de transações Apesar de sua eficácia a aplicação dos métodos hierárquicos de clustering enfrenta desafios como a escalabilidade e a sensibilidade a outliers Em experiências de aplicação de clustering em empresas de diversos segmen tos é muito comum a teoria dos métodos hierárquicos de clustering transformar se em soluções práticas de alto impacto A interseção entre teoria e prática nos métodos hierárquicos de clustering abre um leque de possibilidades para profissionais em diversas áreas Ao com preender os desafios e aplicar soluções práticas os estudantes podem prepararse melhor para as demandas do mercado de trabalho alavancando suas carreiras com habilidades de análise de dados robustas e versáteis UNIASSELVI 1 9 1 1 Os métodos aglomerativos também conhecidos como ascendentes iniciam a análise com tantos grupos como também indivíduos A partir dessas unidades iniciais formamse grupos então crescente até que ao final do processo todos os casos tratados sejam incluídos no mesmo conglomerado Qual dos seguintes critérios de fusão em métodos aglomerativos de clustering define a distância entre dois clusters como a menor distância entre qualquer par de pontos um de cada cluster a Complete Linkage Farthest Neighbor b Average Linkage c Single Linkage Nearest Neighbor d Centróide Linkage e Wards Method 2 Os métodos dissociativos também chamados descendentes constituem o processo inver so dos métodos aglomerativos Começam com um conglomerado que engloba todos os casos atendidos e a partir desse grupo inicial através de divisões sucessivas formamse grupos cada vez menores No final do processo existem tantos grupos quantos os casos que foram tratados De acordo com o textobase analise as sentenças a seguir I Os métodos aglomerativos começam com todos os pontos de dados em um único cluster e os dividem gradualmente em clusters menores II Os métodos aglomerativos requerem a definição do número de clusters antes de iniciar o processo de clustering III Os métodos aglomerativos começam com cada ponto de dados como um cluster indi vidual e os fundem gradualmente em clusters maiores É correto o que se afirma em a I apenas b III apenas c I e II apenas d II e III apenas e I II e III AUTOATIVIDADE 1 9 4 3 Método da Ligação Média nesse método a proximidade entre dois grupos de observações é dada pela média das medidas de proximidade entre todas as combinações de observa ções desses grupos ou seja pela média de todas as nG1 nG2 medidas existentes entre todos os pares de elementos pertencentes aos grupos G1 e G2 Qual das seguintes afir mações descreve corretamente a principal diferença no uso entre os métodos de ligação simples composto média e centróide em clustering hierárquico a O método de ligação simples calcula a distância média entre todos os pares de pontos em dois clusters b O método de ligação composto é adequado para evitar a formação de clusters alonga dos e dispersos c O método de ligação média sempre considera a menor distância entre dois pontos em clusters diferentes d O método de ligação por centróide é o único que pode resultar em inversões onde um cluster se junta a outro cluster com um menor nível de similaridade e O método de ligação simples minimiza a soma das distâncias ao quadrado dentro dos clusters AUTOATIVIDADE 1 9 5 REFERÊNCIAS CALVO D Clusters Hierárquicos e Não Hierárquicos Diego Calvo Blog 2018 Disponível em ht tpswwwdiegocalvoesclusterjerarquicosynojerarquicosgooglevignette Acesso em 18 mai 2024 Elearning Agrupamento GFBioinfo c2024 Disponível em httpswebtecnicoulisboaptana freitasbioinformaticsathcxbioinformaticsathcxindex0985htmlid146 Acesso em 17 mai 2024 PennState Applied Multivariate Statistical Analysis Lesson14 Cluster Analysis Eberly College of Sciense 2019 Disponível em httpsonlinestatpsuedustat505bookexporthtml742 Acesso em 17 mai 2024 ZAIANE O R et al On data clustering analysis scalability constraints and validation Edmonton Alberta University of Alberta 2003 1 9 1 1 Alternativa C A Errado O Complete Linkage define a distância entre dois clusters como a maior distância entre qualquer par de pontos um de cada cluster B Errado O Average Linkage define a distância entre dois clusters como a média das dis tâncias entre todos os pares de pontos um de cada cluster C Correto O Single Linkage define a distância entre dois clusters como a menor distância entre qualquer par de pontos um de cada cluster Este critério é conhecido por formar clusters alongados e pode ser sensível a outliers D Errado O Centróide Linkage define a distância entre dois clusters como a distância entre os centróides dos clusters O centróide é o ponto médio das posições dos pontos em cada cluster E Errado O Wards Method define a distância entre dois clusters como o aumento total da soma dos quadrados dentro do cluster que ocorre quando dois clusters são combinados Esse método tende a criar clusters de tamanho aproximadamente igual 2 Alternativa B 1 Errado Essa descrição corresponde aos métodos divisivos que começam com todos os pontos de dados em um único cluster e os dividem gradualmente em clusters menores 2Errado Os métodos aglomerativos não requerem a definição prévia do número de clusters Em vez disso eles criam uma hierarquia de clusters que pode ser cortada a qualquer nível para obter o número desejado de clusters 3 Correto Esta é a característica definidora dos métodos aglomerativos de clustering Eles começam com cada ponto de dados como um cluster individual e em cada etapa fundem os clusters mais próximos até formar um único cluster que contém todos os pontos de dados ou até atingir o número desejado de clusters 3 Alternativa B A Errado O método de ligação simples calcula a menor distância entre qualquer par de pontos um de cada cluster não a distância média B Correto O método de ligação composto complete linkage considera a maior distância entre qualquer par de pontos o que tende a criar clusters mais compactos e evitar a formação de clusters longos e dispersos C Errado O método de ligação média average linkage calcula a distância média entre todos os pares de pontos um de cada cluster não a menor distância D Correto O método de ligação por centróide calcula a distância entre os centróides dos clus ters Esse método pode levar a inversões onde a união de dois clusters resulta em um novo cluster que pode ter uma menor similaridade com outros clusters do que os clusters originais E Errado A soma das distâncias ao quadrado dentro dos clusters é minimizada pelo método de Ward não pelo método de ligação simples GABARITO 1 9 1 MINHAS METAS CLUSTERING BASEADOS EM DENSIDADE Compreender os princípios fundamentais dos métodos de clustering baseados em den sidade Familiarizarse com os principais algoritmos de clustering baseados em densidade Ser capaz de diferenciar entre métodos de clustering baseados em densidade e outras técnicas de clustering Dominar a escolha e ajuste adequado dos parâmetros dos algoritmos de clustering baseados em densidade Aplicar métodos de clustering baseados em densidade a conjuntos de dados reais Analisar criticamente os resultados do clustering baseado em densidade Refletir sobre as experiências de aplicação dos métodos de clustering baseados em densidade T E M A D E A P R E N D I Z A G E M 9 1 9 8 INICIE SUA JORNADA Muitas vezes no mundo dos dados encontrar padrões significativos pode ser como procurar uma agulha no palheiro Os métodos de clustering tra dicionais têm suas limitações especialmente quando se trata de conjun tos de dados complexos e não lineares Como então podemos identificar agrupamentos em dados com densidades variáveis e formas arbitrárias Como podemos lidar com a presença de outliers que podem distorcer os resultados do clustering Estas são questões que desafiam os profissionais de dados em diversos campos Os métodos de clustering baseados em densidade emergem como uma res posta para esses desafios Eles oferecem uma abordagem flexível e robusta para identificar agrupamentos em conjuntos de dados complexos adaptandose na turalmente à densidade variável dos dados e sendo robustos a outliers Esses métodos têm significado real no mundo do trabalho onde a capacidade de extrair insights valiosos dos dados é cada vez mais valorizada em uma variedade de indústrias desde finanças até saúde e marketing Na prática a experimentação com métodos de clustering baseados em densi dade envolve a aplicação de algoritmos como DBSCAN OPTICS e DENCLUE a conjuntos de dados do mundo real Os profissionais de dados coletam e pré processam os dados selecionam os parâmetros adequados para os algoritmos e interpretam os resultados do clustering Eles exploram como esses métodos podem revelar padrões ocultos nos dados identificar grupos de interesse e for necer insights acionáveis para apoiar a tomada de decisões Ao experimentar com métodos de clustering baseados em densidade os pro fissionais de dados são levados à reflexão sobre a natureza dos dados e os desafios envolvidos na análise de padrões Eles consideram questões como a escolha de parâmetros adequados a sensibilidade a variações de densidade e a interpretação dos resultados do clustering Essa reflexão os leva a aprimorar suas habilidades analíticas a entender melhor a complexidade dos dados do mundo real e a buscar continuamente maneiras de melhorar seus métodos e abordagens Em resumo os métodos de clustering baseados em densidade ofere cem uma abordagem poderosa para identificar padrões em conjuntos de dados complexos Ao enfrentar os desafios do mundo real os profissionais de dados exploram o significado desses métodos experimentam com sua aplicação prá UNIASSELVI 1 9 9 TEMA DE APRENDIZAGEM 9 tica refletem sobre suas experiências e buscam continuamente aprimorar suas habilidades e abordagens analíticas Neste podcast você irá rever os conceitos de distribuições de probabilidade mé dia mediana variância e desvio padrão testes estatísticos e intervalos de con fiança e muitos outros conceitos necessários ao bom entendimento de Clusters baseados em densidade Dê o play Recursos de mídia disponíveis no conteúdo digital do ambiente virtual de aprendizagem PLAY NO CONHECIMENTO VAMOS RECORDAR Para iniciar os estudos de clusters baseados em densidade precisamos recordar a busca em grafos pois este é uma dos embasamentos para o método de clustering baseado em densidade Neste vídeo vamos recordar dois dos principais algoritmos de busca em grafos busca em profundidade e busca em largura httpswwwyoutubecomwatchvjYwonGls6RQ DESENVOLVA SEU POTENCIAL Os métodos de clustering baseados em densidade são uma abordagem pode rosa para identificar agrupamentos em conjuntos de dados complexos e não lineares Ao contrário dos métodos de clustering baseados em particionamento ou hierárquicos que assumem formas específicas de agrupamentos os métodos baseados em densidade são capazes de encontrar agrupamentos de qualquer forma e tamanho adaptandose naturalmente à densidade variável dos dados 1 1 1 X Y 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 Colunas X Y 8 8 Grupo 1 Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5 Grupo 6 Grupo 7 Grupo 8 a X Y 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 Colunas X Y 8 8 b Figura 1 Exemplo de dois agrupamentos em um plano com duas dimensões XY Fonte Esling and Agon 2012 Descrição da Imagem gráfico da direita indicando três agrupamentos de pontos identificados como grupo 1 grupo 2 grupo 3 e Gráfico da esquerda indicando uma outra forma de agrupar os mesmos pontos formando desta vez 8 grupos identificados como grupo 1 até o grupo 8 Fim da descrição Em métodos de clustering baseados em densidade um agrupamento é definido como uma região densa de pontos em meio a regiões menos densas separadas por regiões de baixa densidade O princípio subjacente é que os pontos de dados dentro de um cluster estão mais próximos uns dos outros do que dos pontos fora do cluster Han et al 2006 Em vez de assumir uma estrutura específica para os clusters como formas geométricas ou distâncias fixas esse método se concentra na densidade dos pon tos de dados no espaço Clusters são definidos como regiões densas de pontos separadas por regiões de baixa densidade Em comparação com métodos de clustering particionais como KMeans e hierárquicos como o Agrupamento Hierárquico Aglomerativo os métodos baseados em densidade têm a vantagem de não exigir a especificação do número de clusters a priori Além disso eles podem lidar com clusters de formas e ta manhos variados de maneira mais eficaz do que essas abordagens tradicionais Vejamos alguns dos aspectos fundamentais dos clusters baseados em densidade UNIASSELVI 1 1 1 TEMA DE APRENDIZAGEM 9 1 Não Requer Especificação Prévia do Número de Clusters Enquanto métodos como KMeans exigem que o número de clusters seja es pecificado a priori o clustering baseado em densidade não requer essa in formação Ele identifica automaticamente o número de clusters com base na densidade dos dados 2 Flexibilidade na Forma dos Clusters Ao contrário do KMeans que assume clusters de forma esférica e do hierár quico que cria uma estrutura de árvore o clustering baseado em densidade pode identificar clusters de qualquer forma e tamanho adaptandose à distri buição dos dados 3 Robustez a Ruídos e Outliers Devido à sua natureza baseada em densidade esse método é menos sensível a ruídos e outliers do que outras abordagens Pontos de dados isolados ou que estão em regiões de baixa densidade tendem a ser ignorados durante o processo de clustering O conceito fundamental do clustering baseado em densidade é identificar regiões onde a densidade de pontos é significativamente maior do que em suas vizinhanças Essas regiões de alta densidade são interpretadas como clusters enquanto as regiões de baixa densidade atuam como fronteiras na turais entre os clusters Imagine um conjunto de dados espalhado em um espaço multidimensional À medida que exploramos esse espaço observamos áreas onde os pontos estão densamente agrupados Essas áreas representam regiões de alta densidade que podem ser interpretadas como clusters Entre essas regiões densas há áreas onde os pontos estão mais esparsamente distribuídos indicando regiões de baixa den sidade que separam os clusters 1 1 1 10 8 6 4 2 0 2 4 4 2 0 2 4 6 8 10 12 10 8 6 4 2 0 2 4 4 2 0 2 4 6 8 10 12 Imput Output Cluster2 Cluster1 Cluster5 Cluster3 Cluster4 Cluster0 Figura 2 Regiões de alta densidade Fonte IchiPro c2024 online Descrição da Imagem gráfico da esquerda indicando 6 regiões de alta densidade de pontos todos com a mesma cor azul e Gráfico da esquerda indicando as mesmas regiões com cada uma delas destacada em cores diferentes e a indicando o centróide de cada uma delas Fim da descrição Essa ideia de regiões de alta densidade separadas por regiões de baixa densidade é fundamental para a compreensão do clustering baseado em densidade Algorit mos como o DBSCAN exploram essa estrutura para identificar clusters de forma eficaz adaptandose à densidade variável dos dados e encontrando agrupamentos de qualquer forma e tamanho A seguir apresentamos uma taxonomia dos diversos métodos de clustering e seus principais algorítmos onde alguns dos algorítmos de clustering baseados por densidade serão vistos com mais detalhes no presente tópico UNIASSELVI 1 1 1 TEMA DE APRENDIZAGEM 9 Algoritmos de Agrupamento Agrupamento Hierárquico Agrupamento por particionamento Divisivo Aglomerativo Baseado em centro Baseado em densidade Baseado em espectro Singlelinkage Completelinkage Averagelinkage Centroidlinkage Wardlinkage KMeans KMedoids KCenters APM Neighborbased DBSCAN Desitypeaks RobustD8 PCCA PCCA Figura 3 Tipos de algoritmos de cluster Fonte httpsaiplanetcomlearnunsupervisedlearninges analisisytecnicasdeclustering1621clusteringagrupamiento Acesso em 6 ago 2024 Descrição da Imagem taxonomia dos algoritmos de agrupamento Inicialmente temos um retângulo indicando todos os Algoritmos de Agrupamento que se divide em 2 grandes grupos Agrupamento Hierárquico e Agru pamento por particionamento O Agrupamento Hierárquico por sua vez se divide em Divisivo e Aglomerativo O Agrupamento por Particionamento se divide em baseado em centro baseado em densidade e baseado em espectro A seguir são listados os nomes dos principais algoritmos de cada um desses grupos Fim da descrição Principais aplicações do clustering baseado em densidade O clustering baseado em densidade é uma técnica poderosa e versátil ampla mente utilizada em diversas áreas devido à sua capacidade de identificar clusters de formas arbitrárias e lidar eficazmente com ruídos e outliers Sua aplicação se estende a campos como biologia marketing tecnologia da informação e análise de dados onde é crucial para descobrir padrões complexos e obter insights sig nificativos a partir de grandes volumes de dados Na sequência detalharemos as principais aplicações dessa técnica ressaltando sua importância e pontos fortes Dentre as principais aplicações temos 1 Análise de Dados Geoespaciais clustering baseado em densidade é amplamente utilizado em análise de dados geoespaciais para identificar regiões de interesse como áreas urbanas densamente povoadas ou regiões com atividades anômalas 2 Segmentação de Clientes é aplicado em segmentação de clientes para identificar grupos de consumidores com comportamentos de compra semelhantes 1 1 4 3 Detecção de Anomalias algoritmos de clustering baseados em densida de também são usados para detecção de anomalias identificando pontos que não se encaixam em nenhum cluster denso Porque segmentar clientes Estratégias de marketing e vendas mais direcionadas Melhor experiência do cliente Retenção de clientes Otimização da solução Figura 4 Clustering aplicado à segmentação de clientes Descrição da Imagem desenho indicando uma figura feminina apontando para um alvo tendo ao lado direito a indicação dos objetivos da segmentação de clientes estratégias de marketing e vendas mais direcionadas melhor experiência do cliente retenção do cliente e otimização da solução Fim da descrição DEFINIÇÃO DE CLUSTERING BASEADO EM DENSIDADE O clustering baseado em densidade é uma técnica de agrupamento de dados que identifica regiões de alta densidade em um espaço multidimensional Em vez de assumir uma estrutura específica para os clusters como formas geométricas ou distâncias fixas esse método se concentra na densidade dos pontos de dados no espaço Clusters são definidos como regiões densas de pontos separadas por regiões de baixa densidade O clustering baseado em densidade difere de outros métodos de clustering como o particionamento por exemplo KMeans e o hierárquico em vários aspectos fundamentais UNIASSELVI 1 1 5 TEMA DE APRENDIZAGEM 9 1 Não Requer Especificação Prévia do Número de Clusters Enquanto métodos como KMeans exigem que o número de clusters seja especi ficado a priori o clustering baseado em densidade não requer essa informação Ele identifica automaticamente o número de clusters com base na densidade dos dados 2 Flexibilidade na Forma dos Clusters Ao contrário do KMeans que assume clusters de forma esférica e do hierárquico que cria uma estrutura de árvore o clustering baseado em densidade pode identi ficar clusters de qualquer forma e tamanho adaptandose à distribuição dos dados 3 Robustez a Ruídos e Outliers Devido à sua natureza baseada em densidade esse método é menos sensível a ruí dos e outliers do que outras abordagens Pontos de dados isolados ou que estão em regiões de baixa densidade tendem a ser ignorados durante o processo de clustering O conceito fundamental do clustering baseado em densidade é identificar re giões onde a densidade de pontos é significativamente maior do que em suas vizi nhanças Essas regiões de alta densidade são interpretadas como clusters enquanto as regiões de baixa densidade atuam como fronteiras naturais entre os clusters Imagine um conjunto de dados espalhado em um espaço multidimensio nal À medida que exploramos esse espaço observamos áreas onde os pontos estão densamente agrupados Essas áreas representam regiões de alta densidade que podem ser interpretadas como clusters Entre essas regiões densas há áreas onde os pontos estão mais esparsamente distribuídos indicando regiões de baixa densidade que separam os clusters Essa ideia de regiões de alta densidade separadas por regiões de baixa den sidade é fundamental para a compreensão do clustering baseado em densidade Algoritmos como o DBSCAN exploram essa estrutura para identificar clusters de forma eficaz adaptandose à densidade variável dos dados e encontrando agrupamentos de qualquer forma e tamanho Algoritmos Principais em Clustering Baseado em Densidade Existem vários algoritmos populares em clustering baseado em densidade cada um com suas próprias abordagens para identificar clusters com base na 1 1 1 densidade dos pontos de dados Entre os mais notáveis estão o DBSCAN o OPTICS e o DENCLUE DBSCAN DensityBased Spatial Clustering of Applications with Noise O DBSCAN é um dos algoritmos mais amplamente utilizados em clustering baseado em densidade Ele define clusters como regiões densas de pontos se paradas por regiões de baixa densidade A ideia principal por trás do DBSCAN é que para cada ponto em um conjunto de dados se houver pontos suficientes em sua vizinhança dentro de uma determinada distância ε epsilon ele será considerado parte de um cluster Além disso o DBSCAN pode lidar com pon tos de dados que estão em regiões de baixa densidade classificandoos como ruído ou pontos de borda Um objeto p é conectado por densidade a um objeto q com respeito aos parâmetros Eps MinPts se existir um objeto O tal que p e q são alcançáveis por densidade a partir de O p o q Figura 5 Método DBSCAN Fonte Amo c2024 online Descrição da Imagem figura indicando 5 círculos que contém um certo número de pontos no seu interior com destaque para os pontos p e q que ficam nas extremidades da figura e o ponto O localizado no ponto central Os pontos p q e O estão ligados por setas Fim da descrição A formulação matemática do DBSCAN envolve os seguintes conceitos UNIASSELVI 1 1 1 TEMA DE APRENDIZAGEM 9 1 Epsilon ε distância máxima entre dois pontos para que um seja con siderado vizinho do outro 2 MinPts número mínimo de pontos que um ponto deve ter em seu raio ε para ser considerado um ponto central core point 3 Ponto Central Core Point um ponto é um ponto central se possui pelo menos MinPts vizinhos dentro do raio ε 4 Ponto Fronteira Border Point um ponto que não é um ponto central mas está dentro do raio ε de um ponto central 5 Ponto Ruído Noise Point um ponto que não é um ponto central nem um ponto fronteira A partir dessas definições os agrupamentos são formados conforme a seguinte lógica Inicie com um ponto central e todos os pontos dentro do seu raio ε Continue expandindo o cluster incluindo os pontos dentro do raio ε dos novos pontos centrais encontrados Repita o processo até que não haja mais pontos centrais conectados Qualquer ponto não incluído em um cluster é considerado ruído Matematicamente para cada ponto p N p q D dist p q ε Onde Np é o conjunto de pontos no εvizinhança de p e a distância distpqé geralmente a distância Euclidiana Um ponto p é um ponto central se N p MinPts A partir dessa formulação DBSCAN constrói clusters de pontos centrais e seus vizinhos formando agrupamentos de alta densidade e identifica pontos de baixa densidade como ruído Vamos ver uma implementação em Python da utilização do método DBSCAN import numpy as np import matplotlibpyplot as plt from sklearndatasets import makeblobs from sklearncluster import DBSCAN 1 1 8 Vamos utilizar a função makeblobs para criar um conjunto de dados com três centros definidos e uma dispersão especificada Gerar dados de exemplo centers 1 1 1 1 1 1 X makeblobsnsamples750 centerscenters clusterstd04 randomstate0 Na aplicação do DBSCAN vamos configurar o algoritmo com eps03 e minsamples10 fit ajusta o modelo aos dados X e gera os rótulos de cluster Aplicar o algoritmo DBSCAN db DBSCANeps03 minsamples10fitX labels dblabels Vamos obter o número de clusters e pontos de ruído e plotar o resultado Número de clusters no rótulo ignorando o ruído se houver nclusters lensetlabels 1 if 1 in la bels else 0 nnoise listlabelscount1 printfNúmero de clusters nclusters printfNúmero de pontos de ruído nnoise Número de clusters 3 Número de pontos de ruído 22 Plotar os resultados uniquelabels setlabels colors pltcmSpectraleach for each in nplinspace0 1 lenuniquelabels for k col in zipuniquelabels colors if k 1 Cor para ruído col 0 0 0 1 classmembermask labels k xy Xclassmembermask labels 1 pltplotxy 0 xy 1 o markerfa UNIASSELVI 1 1 9 TEMA DE APRENDIZAGEM 9 cecolortuplecol markeredgecolork markersize14 xy Xclassmembermask labels 1 pltplotxy 0 xy 1 o markerfa cecolortuplecol markeredgecolork markersize6 plttitlefNúmero estimado de clusters nclus ters pltshow 2 1 1 1 1 2 2 2 0 0 Número estimado de clusters 3 Figura 6 Conjunto de dados com três centros definidos Fonte o autor Descrição da Imagem gráfico indicando 3 regiões de alta densidade de pontos indicando conjunto de dados com três centros definidos nas cores amarelo e verde na parte basal do gráfico e vermelho no canto superior direito Fim da descrição OPTICS Ordering Points To Identify the Clustering Structure O OPTICS é uma extensão do DBSCAN que produz uma ordenação dos pontos de dados com base na densidade Em vez de simplesmente identificar clusters o OPTICS fornece uma representação hierárquica da estrutura de clus 1 1 1 tering mostrando como a densidade dos pontos varia no espaço Ele identifica clusters de diferentes densidades e formas permitindo uma compreensão mais completa da distribuição dos dados DENCLUE DENsitybased CLUstEring O DENCLUE é outro algoritmo de clustering baseado em densidade que modela a densidade dos dados como funções de densidade de núcleo kernel density functions Ele identifica picos na função de densidade para encontrar regiões de alta densidade que são interpretadas como clusters O DENCLUE é capaz de detectar clusters de forma arbitrariamente complexa e pode lidar com conjuntos de dados com densidade variável Hinneburg Keim 2003 A formulação matemática que embasa o DENCLUE envolve o uso de funções de influência e gradientes de densidade para encontrar essas regiões densas e se utiliza dos seguintes conceitos 1 Função de Densidade A densidade em um ponto x é definida como a soma das funções de influência f dos pontos de dados ix próximos a x i i x D f x x x φ onde D é o conjunto de dados φ é uma função de influência que mede a contribuição de um ponto de dados ix na densidade em x Normalmente usase uma função Gaus siana 2 2 exp 2 i i x x x x φ σ onde σ é o parâmetro de largura da Gaussiana 2 Gradiente da Função de Densidade O gradiente da função de densidade f x é usado para determinar a di reção de aumento máximo da densidade 2 i i i x D x x f x x x φ σ UNIASSELVI 1 1 1 TEMA DE APRENDIZAGEM 9 3 Caminho de Ascensão de Densidade Cada ponto de dados x é movido iterativamente na direção do gradiente da den sidade até atingir um ponto de densidade máxima modo que representa o centro do cluster 1 t t t x x f x δ onde δ é a taxa de aprendizagem ou passo 4 Aglomeração de Modos Os pontos de dados que convergem para o mesmo modo são agrupados no mes mo cluster Dois modos m1 e m2 são considerados pertencentes ao mesmo cluster se a densidade ao longo do caminho de ascensão entre eles não cair abaixo de um certo limiar ε 1 2 min x path m m f x ε O DENCLUE identifica clusters ao encontrar regiões densas no espaço de dados usando funções de influência gradientes de densidade e caminhos de ascensão de densidade A convergência para modos de densidade máxima permite a formação de clusters com base na densidade local dos dados Vamos ver uma implementação em Python da utilização do método DEN CLUE O DENCLUE é um algoritmo de clustering baseado em densidade que não é tão comum quanto DBSCAN ou KMeans Portanto não está incluído direta mente nas bibliotecas padrão como scikitlearn import numpy as np import matplotlibpyplot as plt from sklearndatasets import makeblobs Vamos construir uma Função Gaussiana de Influência que calcula a influência de um ponto xi na densidade em x Função Gaussiana de influência def gaussianinfluencex xi sigma return npexpnplinalgnormx xi 2 2 sigma 2 1 1 1 Vamos construir uma função Gradiente da Função de Densidade que calcula o gradiente da densidade para determinar a direção de aumento máximo da densidade Gradiente da função de densidade def densitygradientx X sigma grad npzeroslikex for xi in X influence gaussianinfluencex xi sigma grad xi x influence return grad A função a seguir é chamada de Caminho de Ascensão de Densidade move o ponto x na direção do gradiente da densidade até atingir um ponto de densidade máxima modo Caminho de ascensão de densidade def ascenddensityx X sigma delta max iter100 for in rangemaxiter grad densitygradientx X sigma x x delta grad return x Finalmente a função de clusterização usando DENCLUE vai agrupar os pontos que convergem para o mesmo modo em um cluster Clusterizar os dados usando DENCLUE def denclueX sigma delta maxiter100 modes clusters for x in X mode ascenddensityx X sigma delta maxiter found False for m in modes if nplinalgnormmode m delta clusterstuplemappendx UNIASSELVI 1 1 1 TEMA DE APRENDIZAGEM 9 found True break if not found modesappendmode clusterstuplemode x return modes clusters Gerar dados de exemplo X y makeblobsnsamples300 centers3 ran domstate42 Parâmetros do DENCLUE sigma 10 delta 01 Executar DENCLUE modes clusters denclueX sigma delta Visualizar os clusters colors r g b pltfigurefigsize8 6 for i mode in enumeratemodes clusterpoints nparrayclusterstuplemo de pltscatterclusterpoints 0 clus terpoints 1 ccolorsi lencolors la belfCluster i1 pltscattermode0 mode1 ck mar kerx s200 linewidths3 pltxlabelFeature 1 pltylabelFeature 2 plttitleDENCLUE Clustering pltlegend pltshow 1 1 4 Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 10 5 0 5 10 8 6 4 2 0 2 4 6 DENCLUE Clustering Feature 2 Feature 1 Figura 7 Clusterização usando DENCLUE Fonte o autor Descrição da Imagem gráfico indicando 3 regiões de alta densidade de pontos indicando conjunto de dados com três centros definidos nas cores vermelha na parte no canto inferior esquerdo e verde e azul na parte superior e lateral direita do gráfico Fim da descrição Todos esses algoritmos identificam clusters com base na densidade dos pon tos de dados mas suas abordagens podem variar O DBSCAN identifica clusters definindo uma vizinhança ε para cada ponto de dados e contando quantos pontos estão dentro dessa vizinhança Se o número de pontos dentro da vizinhança exceder um limite mínimo definido pelo usuário o ponto é considerado um núcleo de um cluster Pontos que estão dentro da vizinhança de um núcleo mas não são núcleos eles próprios são considerados parte do mesmo cluster Pontos que não estão dentro da vizinhança de nenhum núcleo são considerados ruído ou pontos de borda UNIASSELVI 1 1 5 TEMA DE APRENDIZAGEM 9 Já o OPTICS calcula a densidade dos pontos de dados em relação à sua distância uns dos outros criando uma representação hierárquica da estrutura de clustering Ele identifica clusters como regiões onde a densidade excede um determinado limite permitindo a detecção de clusters de diferentes densidades e formas Por fim o DENCLUE modela a densidade dos dados como funções de densidade de núcleo e identifica picos nessa função como clusters Ele usa técnicas de análise de densidade para encontrar regiões de alta densidade no espaço de características que são interpretadas como clusters Em resumo esses algoritmos identificam clusters com base na densidade dos pontos de dados adaptandose à distribuição dos dados e encontrando agrupa mentos de qualquer forma e tamanho Cada algoritmo tem suas próprias van tagens e limitações e a escolha do algoritmo certo depende das características específicas do conjunto de dados e dos objetivos da análise Vantagens e Aplicações dos Métodos de Clustering Baseados em Densidade Os métodos de clustering baseados em densidade oferecem diversas vantagens signi ficativas em comparação com outras técnicas de clustering especialmente em cená rios onde os clusters têm formas arbitrárias e os dados contêm outliers A seguir estão algumas das vantagens desses métodos juntamente com exemplos de suas aplicações 1 Capacidade de Encontrar Clusters de Formas Arbitrárias Uma das principais vantagens dos métodos de clustering baseados em densidade é sua capacidade de identificar clusters de qualquer forma e tamanho Ao contrá rio de métodos como o KMeans que pressupõem formas de cluster específicas esses algoritmos podem se adaptar naturalmente à estrutura dos dados identifi cando agrupamentos complexos e não convencionais Em imagens médicas como imagens de ressonância magnética MRI ou tomografias computadorizadas CT os métodos de clustering baseados em den sidade podem ser usados para identificar regiões de interesse como tumores independentemente de sua forma ou tamanho 1 1 1 2 Robustez a Outliers e Ruídos Métodos de clustering baseados em densidade são menos sensíveis a outliers e ruídos do que algumas outras abordagens Eles conseguem distinguir entre regiões de alta densidade que formam os clusters e regiões de baixa densidade onde os outliers tendem a estar localizados Portanto esses métodos têm a capa cidade de ignorar ou classificar corretamente os outliers em vez de incorporálos erroneamente em clusters Em sistemas de detecção de fraudes como detecção de fraudes em tran sações financeiras é crucial identificar padrões anômalos que possam indicar atividades fraudulentas Os métodos de clustering baseados em densidade podem ser aplicados para identificar agrupamentos suspeitos de transações mesmo em presença de outliers ajudando a detectar atividades fraudulentas 3 Flexibilidade na Densidade dos Clusters Esses métodos são capazes de lidar com conjuntos de dados onde a densidade dos clusters varia significativamente Eles não pressupõem uma densidade uniforme dos dados e podem identificar clusters em regiões de alta densidade separadas por regiões de baixa densidade Em análise de marketing a segmentação de clientes é essencial para enten der o comportamento dos consumidores e direcionar estratégias de marketing personalizadas Os métodos de clustering baseados em densidade podem iden tificar grupos de clientes com diferentes níveis de atividade e comportamento de compra mesmo em regiões de densidade variável Outras áreas de grande aplicação desses métodos são análise de tráfego e estudos ambientais No campo da análise de tráfego esses métodos podem ser usados para identificar padrões de tráfego complexos em redes de transporte ajudando a otimizar o planejamento urbano e a gestão de tráfego Os métodos de clustering baseados em densidade podem ser aplicados também para identificar padrões de tráfego em áreas urbanas como congestionamentos recorrentes em determinadas rotas ou horários permitindo uma melhor alocação de recursos e planejamento de infraestrutura de transporte Na área de estudos ambientais esses métodos podem ser usados para iden tificar padrões espaciais e temporais em conjuntos de dados ambientais auxi liando na compreensão de fenômenos naturais e na tomada de decisões para a UNIASSELVI 1 1 1 TEMA DE APRENDIZAGEM 9 conservação ambiental Os métodos de clustering baseados em densidade podem ser aplicados para identificar áreas de alta biodiversidade em um ecossistema ajudando na definição de áreas prioritárias para conservação e na implementação de políticas de gestão sustentável Em resumo os métodos de clustering baseados em densidade oferecem van tagens distintas incluindo a capacidade de lidar com a complexidade dos dados do mundo real encontrar clusters de formas arbitrárias e robustez a outliers Essas características tornam esses métodos valiosos em uma variedade de aplicações desde análise de dados médicos até detecção de fraudes e segmentação de clientes DESAFIOS E CONSIDERAÇÕES Embora os métodos de clustering baseados em densidade ofereçam vantagens significativas como a capacidade de lidar com clusters de formas arbitrárias e a robustez a outliers eles também apresentam desafios que precisam ser conside rados ao aplicálos em diferentes cenários A seguir estão alguns dos principais desafios e considerações associados a esses métodos 1 1 8 ESCOLHA DE PARÂMETROS ADEQUADOS Muitos algoritmos de clustering baseados em densidade como o DBSCAN requerem a definição de parâmetros como o raio de vizinhança ε e o número mínimo de pontos em uma vizinhança para definir um cluster A escolha desses parâmetros pode ser crítica e pode afetar significativamente os resultados do clustering A escolha dos parâmetros adequados depende da natureza dos dados e dos padrões que se deseja identificar É importante realizar experimentos e avaliar os resultados do clustering com diferentes valores de parâmetros para encontrar a configuração ótima SENSIBILIDADE A VARIAÇÕES DE DENSIDADE Alguns algoritmos de clustering baseados em densidade podem ser sensíveis a varia ções na densidade dos dados o que pode afetar a capacidade de identificar clusters de forma consistente especialmente em conjuntos de dados com densidade variável É importante entender a distribuição de densidade dos dados e escolher algoritmos de clustering baseados em densidade que sejam capazes de lidar com variações na densi dade como o OPTICS que é capaz de detectar clusters de diferentes densidades INTERPRETAÇÃO E AVALIAÇÃO DE RESULTADOS A interpretação dos resultados do clustering baseado em densidade pode ser desafia dora devido à natureza complexa dos clusters identificados e à falta de uma definição clara de fronteiras entre os clusters Além de métricas de avaliação tradicionais como índices de validação de clusters é importante realizar uma análise visual dos resulta dos do clustering e avaliar sua interpretabilidade e consistência com o conhecimento do domínio ESCALABILIDADE Alguns algoritmos de clustering baseados em densidade podem enfrentar desafios de escalabilidade com conjuntos de dados muito grandes devido à necessidade de calcular distâncias entre todos os pontos ou à complexidade computacional de algoritmos mais sofisticados É importante escolher algoritmos de clustering baseados em densidade eficientes em termos de tempo de execução e considerar técnicas de paralelização para lidar com conjuntos de dados grandes UNIASSELVI 1 1 9 TEMA DE APRENDIZAGEM 9 3 2 1 0 1 2 2 1 0 1 2 3 4 5 6 3 y x Figura 8 Pontos com densidades diferentes Fonte Alvares 2004 online Descrição da Imagem gráfico cartesiano indicando 3 agrupamentos de pontos sendo o primeiro mais à esquerda contendo pontos com uma taxa menor de densidade e os 2 outros menores à direita contendo pontos com uma taxa maior de densidade Fim da descrição Em resumo embora os métodos de clustering baseados em densidade ofereçam vantagens significativas em relação a outras abordagens de clustering como fle xibilidade na forma dos clusters e robustez a outliers é importante considerar os desafios associados como a escolha de parâmetros adequados e a sensibili dade a variações de densidade Uma abordagem cuidadosa e uma compreensão profunda dos dados e algoritmos podem ajudar a mitigar esses desafios e obter resultados de clustering mais robustos e significativos Silva et al 2013 1 1 1 EXEMPLO PRÁTICO EM PYTHON No código a seguir geramos dados bidimensionais sintéticos utilizando a fun ção makeblobs da biblioteca scikitlearn do Python criando três clusters com densidades distintas Além disso definimos os parâmetros necessários eps ε minsamples minPoints e a métrica de distância Em seguida aplicamos os algoritmos de clustering DBSCAN e OPTICS com os métodos apropriados da biblioteca scikitlearn e visualizamos os resultados usando a função plotclusters definida pelo usuário Esta função permite a criação de gráficos personalizados dos agrupamentos Por fim geramos o gráfico de alcançabilidade utilizando a função reachabilityplot criada UNIASSELVI 1 1 1 def reachabilityplotdf model 1 0 1 1 0 1 2 2 Cluster 1 19 Cluster 2 30 Noise 11 DBSCAN eps05 minsamples5 1 0 1 1 0 1 2 2 Cluster 1 20 Cluster 2 30 Noise 10 OPTICS minsamples5 Figura 9 Gráficos indicando o resultado da aplicação dos métodos de agrupamento DBSCAN e OPTICS Fonte o autor Descrição da Imagem gráfico do DBSCAN indicando 2 agrupamentos sendo o primeiro com 19 pontos e o segundo com 30 pontos e indicando 11 pontos que não foram possíveis serem agrupados Gráfico do OPTICS indicando 3 agrupamentos sendo o primeiro com 20 pontos o segundo com 30 pontos e o terceiro com 10 pontos Fim da descrição Em resumo o clustering baseado em densidade se destaca como uma ferramen ta essencial para a análise de dados complexos permitindo a identificação de clusters de formas variadas e a gestão eficaz de outliers Com suas inúmeras apli cações práticas essa técnica se mostra valiosa em várias disciplinas O exemplo apresentado em Python que utiliza os algoritmos DBSCAN e OPTICS demonstra como essas abordagens podem ser implementadas para resolver problemas reais de clustering e descobrir insights significativos a partir de dados Estudante para expandir seus conhecimentos sobre o assunto abordado gosta ríamos de lhe indicar a aula que preparamos especialmente para você Acredita mos que essa aula irá complementar e aprofundar ainda mais o seu entendimento sobre o tema Recursos de mídia disponíveis no conteúdo digital do ambiente virtual de aprendizagem EM FOCO UNIASSELVI 1 1 1 TEMA DE APRENDIZAGEM 9 NOVOS DESAFIOS Vamos explorar como os conceitos de clustering baseados em densidade se rela cionam com o ambiente profissional e suas perspectivas Os métodos de clustering baseados em densidade têm uma ampla gama de apli cações em diferentes setores incluindo finanças saúde varejo marketing e muitos outros Por exemplo em instituições financeiras esses métodos podem ser utilizados para detecção de fraudes em transações enquanto na área da saúde podem ajudar na identificação de padrões em dados médicos para diagnóstico e tratamento No ambiente profissional os profissionais enfrentam desafios complexos que exigem a análise e interpretação de grandes volumes de dados Os métodos de clustering baseados em densidade oferecem uma abordagem poderosa para identificar padrões e estruturas em conjuntos de dados complexos permitindo a tomada de decisões informadas e a resolução de problemas de forma eficaz A flexibilidade destes métodos permite que eles se adaptem a uma ampla variedade de cenários e desafios Isso é crucial em um ambiente profissional dinâ mico onde os requisitos e as demandas podem mudar rapidamente Profissionais que dominam esses métodos são capazes de aplicálos de forma criativa e eficaz em diferentes contextos agregando valor às suas organizações Ao trabalhar com métodos tais os profissionais desenvolvem habilidades analíticas sólidas para explorar e interpretar padrões em dados Eles aprendem a identificar insights significativos extrair informações úteis e tomar decisões fundamentadas com base em evidências habilidades essenciais para o sucesso em muitos campos profissionais Profissionais com experiência em métodos de clustering baseados em den sidade são altamente valorizados no mercado de trabalho devido à sua capa cidade de transformar dados em insights acionáveis Empresas em diversos setores buscam talentos com habilidades em análise de dados e aprendizado de máquina para impulsionar a inovação melhorar a eficiência operacional e ganhar vantagem competitiva Em suma a conexão entre a teoria e a prática no mercado de trabalho é funda mental para o sucesso profissional dos estudantes Ao entender como os conceitos teóricos como clustering baseado em densidade se aplicam no mundo real os estudantes podem se preparar para enfrentar os desafios do ambiente profissional e aproveitar as oportunidades de carreira em diversos setores e organizações 1 1 4 1 Nos métodos de clusterização baseados em densidade os clusters são definidos como re giões densamente povoadas separadas por áreas menos densas que representam ruídos Essas regiões densas podem ter formas variadas e os pontos dentro de uma região podem estar distribuídos de maneira arbitrária Portanto os métodos baseados em densidade são ideais para identificar clusters de formas diversas como elípticas cilíndricas espirais etc incluindo aqueles totalmente cercados por outro cluster Além disso esses métodos são eficazes na identificação e filtragem de ruídos Qual das seguintes afirmações é uma característica distintiva dos métodos de clustering baseados em densidade a Eles assumem que os clusters têm formas esféricas e tamanhos semelhantes b Eles necessitam da definição do número de clusters antes da execução c Eles são incapazes de lidar com outliers e pontos de dados ruidosos d Eles podem identificar clusters de formas arbitrárias e manejar outliers efetivamente e Eles são geralmente aplicáveis apenas a dados em duas dimensões 2 A análise de agrupamentos é uma ferramenta valiosa para a análise de dados em diversas situações Por exemplo um pesquisador que coletou dados por meio de um questionário pode encontrar um grande número de respostas que são difíceis de interpretar até que sejam organizadas em grupos manejáveis A análise de agrupamento pode objetivamente reduzir a complexidade dos dados condensando a informação de uma população inteira ou de uma amostra em subgrupos menores e específicos Em negócios o agrupamento pode ajudar profissionais de marketing a identificar grupos distintos de clientes em suas bases de dados e caracterizar esses grupos com base em padrões de compra Na biologia pode ser utilizada para criar taxonomias de plantas e animais categorizando genes com funções similares Na tecnologia da informação serve para classificar documentos da web com o objetivo de descobrir informações Outras aplicações incluem reconhecimento de padrões análise de dados e processamento de imagens I Clustering baseado em densidade é amplamente utilizado na detecção de anomalias em sistemas de segurança da informação onde é essencial identificar padrões de com portamento suspeitos ou intrusões II Clustering baseado em densidade é utilizado em estudos ambientais para identificar regiões com alta concentração de poluentes ou áreas de biodiversidade facilitando a tomada de decisões em políticas ambientais III Clustering baseado em densidade é frequentemente usado na segmentação de clientes em marketing onde é importante agrupar clientes com comportamentos de compra semelhantes AUTOATIVIDADE 1 1 5 É correto o que se afirma em a I apenas b III apenas c I e II apenas d II e III apenas e I II e III 3 O algoritmo DBSCAN é baseado em densidade e tem a capacidade de identificar clusters de formatos arbitrários além de detectar ruídos nos dados sem a necessidade de prédefinir o número de clusters Suas vantagens incluem a identificação de outliers e a flexibilidade quanto ao número de clusters No entanto ajustar adequadamente os parâmetros eps e minPoints pode ser desafiador Qual das seguintes afirmações é verdadeira sobre o método de clustering baseado em densidade DBSCAN a DBSCAN requer que o número de clusters seja definido antes da execução b DBSCAN não pode lidar com outliers e os inclui sempre nos clusters c DBSCAN pode identificar clusters de formas arbitrárias e de tamanhos variados d DBSCAN é sensível à inicialização dos centroides e DBSCAN não é adequado para dados com diferentes densidades AUTOATIVIDADE 1 1 1 REFERÊNCIAS ESLING P CARLOS A TimeSeries Data Mining ACM Computing Surveys CSUR ACM New York v 45 n 1 p 134 2012 HAN J et al Cluster Analysis In MORGAN K P eds Data Mining Concepts and Techniques 2 ed New York USA Academic Press chapter 8 2006 HINNEBURG A KEIM D A A General Approach to Clustering in Large Databases with Noise Knowledge and Information Systems v 5 n 4 p 387415 2003 SILVA J A et al Data stream clustering A survey ACM Comput Surv ACM New York NY USA v 46 n 1 p 1311331 jul 2013 1 1 1 1 Alternativa D A Falso Esta característica é típica de métodos como KMeans não de métodos baseados em densidade que podem identificar clusters de qualquer forma B Falso Métodos de clustering baseados em densidade como DBSCAN não requerem que o número de clusters seja especificado previamente C Falso Um dos pontos fortes dos métodos baseados em densidade é justamente a capa cidade de lidar com outliers identificandoos e excluindoos dos clusters D Verdadeiro Essa é uma das principais características dos métodos de clustering baseados em densidade como DBSCAN e OPTICS que são eficazes em detectar clusters de formas não esféricas e em tratar outliers E Falso Embora a visualização de clusters em duas dimensões seja comum os métodos de clustering baseados em densidade podem ser aplicados a dados de alta dimensionalidade embora isso possa aumentar a complexidade computacional 2 Alternativa C 1 Verdadeiro A detecção de anomalias é uma aplicação crucial do clustering baseado em densidade Algoritmos como DBSCAN são eficazes na identificação de padrões incomuns ou outliers que podem indicar tentativas de intrusão ou comportamento fraudulento em sistemas de segurança 2 Verdadeiro Estudos ambientais beneficiamse significativamente dos métodos de cluste ring baseados em densidade pois esses métodos podem identificar clusters de alta densi dade como áreas com concentração de poluentes ou regiões ecologicamente importantes ajudando na gestão e preservação ambiental 3 Falso Embora a segmentação de clientes seja uma aplicação comum de técnicas de clus tering métodos baseados em densidade são menos usados para este fim em comparação com métodos particionais como KMeans que são mais eficientes em identificar grupos homogêneos em grandes bases de dados de clientes GABARITO 1 1 8 3 Alternativa C A Falso DBSCAN não requer a definição do número de clusters antes da execução Ele determina os clusters com base na densidade local dos pontos de dados B Falso Uma das principais características do DBSCAN é sua capacidade de identificar e tratar outliers marcandoos como ruído e não os incluindo nos clusters C Verdadeiro DBSCAN é conhecido por sua habilidade de identificar clusters de qualquer forma e tamanho contanto que eles estejam em regiões de alta densidade separadas por regiões de baixa densidade D Falso DBSCAN não utiliza centroides diferentemente de métodos como KMeans e portanto não é sensível à inicialização dos centroides E Falso Embora DBSCAN possa ter dificuldades com dados que possuem regiões com densidades muito variadas ele ainda pode ser usado especialmente se os parâmetros forem ajustados adequadamente No entanto algoritmos como OPTICS são melhores para lidar com densidades variadas GABARITO 1 1 9 MINHAS ANOTAÇÕES MINHAS ANOTAÇÕES MINHAS ANOTAÇÕES