·
Engenharia de Gestão ·
Banco de Dados
Send your question to AI and receive an answer instantly
Recommended for you
Preview text
Análise de agrupamentos Profa Patrícia Belfiore Fávero UFABC Análise Multivariada de Dados Referência Bibliográfica LUIZ PAULO FÁVERO PATRÍCIA BELFIORE MANUAL DE ANÁLISE DE DADOS Estatística e Modelagem Multivariada com Excel SPSS e Stata ELSEVIER Definição A análise de agrupamentos também conhecida como análise de conglomerados e análise de clusters é uma técnica multivariada exploratória que tem como objetivo verificar a existência de comportamentos semelhantes entre observações indivíduos empresas municípios países etc em relação a determinadas variáveis de modo que são formados grupos com características homogêneas homogêneos internamente e heterogêneos entre si Técnica exploratória ou de interdependência É uma técnica exploratória ou de interdependência uma vez que suas aplicações não apresentam caráter preditivo para outras observações não presentes inicialmente na amostra A inclusão de novas observações ou variáveis no banco de dados torna necessária a reaplicação da modelagem pois novos agrupamentos podem ser gerados Exemplos de aplicações Economia segmentação de países por semelhança de índices de desemprego distribuição de renda taxa de juros cargas tributárias etc Engenharia divisão de empresas ou membros da cadeia de suprimentos em grupos em função de indicadores logísticos e de produção segmentação de produtos por características de processos Administração segmentação de clientes por características de consumo agregar escolas por semelhança de indicadores educacionais taxas de evasão etc Elaboração da análise de agrupamentos Medida de distância ou dissimilaridade Esquema de aglomeração Método hierárquico Método não hierárquico Medidas de distância ou dissimilaridade Distância quadrática euclidiana Distância euclidiana Distância de Manhattan Distância de Chebychev Distância de Canberra Correlação de Pearson Modelo geral de um banco de dados em análise de agrupamentos Variável j Observação i X1i X2i Xki 1 X11 X21 Xk1 2 X12 X22 Xk2 P X1p X2 p Xkp Q X1q X2q Xkq n X1n X2n Xkn Distância Quadrática Euclidiana Soma dos quadrados das diferenças entre os valores de cada variável 2 2 2 2 1 1 2 2 1 k pq p q p q kp kq jp jq j d X X X X X X X X Distância Euclidiana 2 2 2 2 1 1 2 2 1 k pq p q p q kp kq jp jq j d X X X X X X X X Raiz quadrada da soma dos quadrados das diferenças entre os valores de cada variável Distância de Manhattan Soma das diferenças absolutas entre os valores de cada variável 1 k pq jp jq j d X X Distância de Chebychev Diferença máxima absoluta entre os valores de cada variável máx pq jp jq d X X Distância de Canberra Utilizada para os casos em que as variáveis apresentam apenas valores positivos assume valores entre 0 e k 1 k jp jq pq jp jq j X X d X X Correlação de Pearson 1 2 2 1 1 k jp p jq q j pq k k jp p jq q j j X X X X X X X X ρ Exemplo para o cálculo das medidas de distância para variáveis métricas Observação i 1 37 27 91 2 78 80 15 X2i X3i X1i Padronização de variáveis Procedimento Zscores ji j ji j X X ZX s Esquemas de aglomeração em análise de agrupamentos Esquema de Aglomeração Não Hierárquico kmeans Único Single Linkage Hierárquico Divisivo Completo Complete Linkage Médio Average Linkage Método de Encadeamento Aglomerativo Esquema hierárquico aglomerativo métodos de encadeamento Único nearest neighbor ou single linkage Completo furthest neighbor ou complete linkage Médio between groups ou average linkage Método de encadeamento único nearest neighnor ou single linkage Priorizar a menor distância entre os pontos mais próximos Este método identifica os 2 elementos ou conglomerados separados pela menor distância entre os pontos mais próximos e os coloca no mesmo conglomerado Decisão juntar A com B B A C Priorizar a menor distância entre os pontos mais afastados Este método identifica os 2 elementos ou conglomerados separados pela menor distância entre os pontos mais afastados e os coloca no mesmo conglomerado Decisão juntar A com C C A B Encadeamento completo furthest neighnor ou complete linkage DE A BC Priorizar a menor média das distâncias entre todos pares Este método identifica os 2 elementos ou conglomerados separados pela menor distância média entre todos os pares e os coloca no mesmo conglomerado dA BC dAB dAC 2 56 742 65 dA DE dAD dAE 2 28 322 30 dBC DE dBD dBE dCD dCE 4 72 54 88 684 71 Decisão juntar A com DE Encadeamento médio betweengroups ou average linkage Exemplo prático de análise de agrupamentos com esquemas de aglomeração hierárquicos Estudante Observação Nota de Matemática X1i Nota de Física X2i Nota de Química X3i Gabriela 37 27 91 Luiz Felipe 78 80 15 Patrícia 89 10 27 Ovídio 70 10 90 Leonor 34 20 50 2 2 2 1 1 2 2 3 3 pq p q p q q q d X X X X X X Medida de dissimilaridade distância euclidiana Estudante Observação Nota de Matemática X1i Nota de Física X2i Nota de Química X3i Gabriela 37 27 91 Luiz Felipe 78 80 15 Patrícia 89 10 27 Ovídio 70 10 90 Leonor 34 20 50 Gabriela Luiz Felipe Patrícia Ovídio Leonor Gabriela 0000 Luiz Felipe 10132 0000 D0 Patrícia 8420 7187 0000 Ovídio 3713 10290 6580 0000 Leonor 4170 8223 6045 5474 0000 2 2 2 1 1 2 2 3 3 pq p q p q q q d X X X X X X Esquema de aglomeração Método de encadeamento único Estágio 0 1 Gabriela 2 Luiz Felipe 3 Patrícia 4 Ovídio 5 Leonor 1 Gabriela 0000 2 Luiz Felipe 10132 0000 3 Patrícia 8420 7187 0000 4 Ovídeo 3713 10290 6580 0000 5 Leonor 4170 8223 6045 5474 0000 Estágio 0 5 clusters Decisão para o Estágio 1 Juntar Gabriela 1 com Ovídeo 4 3713 Esquema de aglomeração Método de encadeamento único Gabriela Luiz Felipe Patrícia Ovídio Leonor Gabriela 0000 Luiz Felipe 10132 0000 D0 Patrícia 8420 7187 0000 Ovídio 3713 10290 6580 0000 Leonor 4170 8223 6045 5474 0000 Estágio 1 1 Gabriela Ovídeo 2 Luiz Felipe 3 Patrícia 5 Leonor 1 Gabriela Ovídeo 0000 2 Luiz Felipe 0000 3 Patrícia 0000 5 Leonor 0000 Estágio 1 4 clusters Decisão para o Estágio 2 Juntar Gabriela e Ovídeo 1 com Leonor 5 10132 6580 4170 4170 7187 8223 6045 mín 1013210290 10132 d GabrielaOvídio Luiz Felipe mín 84206580 6580 d GabrielaOvídio Patrícia mín 41705474 4170 d GabrielaOvídio Leonor Esquema de aglomeração Método de encadeamento único Gabriela Luiz Felipe Patrícia Ovídio Leonor Gabriela 0000 Luiz Felipe 10132 0000 D0 Patrícia 8420 7187 0000 Ovídio 3713 10290 6580 0000 Leonor 4170 8223 6045 5474 0000 Estágio 2 1 Gabriela Ovídeo Leonor 2 Luiz Felipe 3 Patrícia 1 Gabriela Ovídeo Leonor 0000 2 Luiz Felipe 0000 3 Patrícia 0000 Estágio 2 3 clusters Decisão para o Estágio 3 Juntar Gabriela Ovídeo e Leonor 1 com Patrícia 3 8223 6045 7187 6045 mín 101328223 8223 d GabrielaOvídioLeonor Luiz Felipe mín 65806045 6045 d GabrielaOvídioLeonor Patrícia Esquema de aglomeração Método de encadeamento único Gabriela Luiz Felipe Patrícia Ovídio Leonor Gabriela 0000 Luiz Felipe 10132 0000 D0 Patrícia 8420 7187 0000 Ovídio 3713 10290 6580 0000 Leonor 4170 8223 6045 5474 0000 Estágio 2 1 Gabriela Ovídeo Leonor Patrícia 2 Luiz Felipe 1 Gabriela Ovídeo Leonor Patrícia 0000 2 Luiz Felipe 0000 Estágio 3 2 clusters Decisão para o Estágio 4 Juntar Cluster 1 com Cluster 2 Estágio 4 1 cluster Gabriela Ovídeo Leonor Patrícia e Luiz Felipe 7187 mín 82237187 7187 d GabrielaOvídioLeonorPatrícia Luiz Felipe Dendograma Método de Encadeamento Único 0 1 2 3 4 5 6 7 8 Distância euclidiana Gabriela Ovídio Leonor Patrícia Luiz Felipe Estágio Agrupamento Observação Agrupada Menor Distância Euclidiana 1 Gabriela Ovídio 3713 2 Gabriela Ovídio Leonor 4170 3 Gabriela Ovídio Leonor Patrícia 6045 4 Gabriela Ovídio Leonor Patrícia Luiz Felipe 7187 3 4 5 6 7 8 Distância euclidiana Gabriela Ovídio Leonor Patrícia Luiz Felipe I II III Método de Encadeamento Único Sugestão de Agrupamento Esquema de aglomeração Método de encadeamento completo Estágio 0 1 Gabriela 2 Luiz Felipe 3 Patrícia 4 Ovídio 5 Leonor 1 Gabriela 0000 2 Luiz Felipe 10132 0000 3 Patrícia 8420 7187 0000 4 Ovídeo 3713 10290 6580 0000 5 Leonor 4170 8223 6045 5474 0000 Estágio 0 5 clusters Decisão para o Estágio 1 Juntar Gabriela 1 com Ovídeo 4 3713 Esquema de aglomeração Método de encadeamento completo Gabriela Luiz Felipe Patrícia Ovídio Leonor Gabriela 0000 Luiz Felipe 10132 0000 D0 Patrícia 8420 7187 0000 Ovídio 3713 10290 6580 0000 Leonor 4170 8223 6045 5474 0000 Estágio 1 1 Gabriela Ovídeo 2 Luiz Felipe 3 Patrícia 5 Leonor 1 Gabriela Ovídeo 0000 2 Luiz Felipe 0000 3 Patrícia 0000 5 Leonor 0000 Estágio 1 4 clusters Decisão para o Estágio 2 Juntar Gabriela e Ovídeo 1 com Leonor 5 10290 8420 5474 5474 7187 8223 6045 máx 1013210290 10290 d GabrielaOvídio Luiz Felipe máx 84206580 8420 d GabrielaOvídio Patrícia máx 41705474 5474 d GabrielaOvídio Leonor Esquema de aglomeração Método de encadeamento completo Gabriela Luiz Felipe Patrícia Ovídio Leonor Gabriela 0000 Luiz Felipe 10132 0000 D0 Patrícia 8420 7187 0000 Ovídio 3713 10290 6580 0000 Leonor 4170 8223 6045 5474 0000 Estágio 2 1 Gabriela Ovídeo Leonor 2 Luiz Felipe 3 Patrícia 1 Gabriela Ovídeo Leonor 0000 2 Luiz Felipe 0000 3 Patrícia 0000 Estágio 2 3 clusters Decisão para o Estágio 3 Juntar Luiz Felipe 2 com Patrícia 3 10290 8420 7187 7187 máx 102908223 10290 d GabrielaOvídioLeonor Luiz Felipe máx 84206045 8420 d GabrielaOvídioLeonor Patrícia Esquema de aglomeração Método de encadeamento completo Gabriela Luiz Felipe Patrícia Ovídio Leonor Gabriela 0000 Luiz Felipe 10132 0000 D0 Patrícia 8420 7187 0000 Ovídio 3713 10290 6580 0000 Leonor 4170 8223 6045 5474 0000 Estágio 2 1 Gabriela Ovídeo Leonor 2 Luiz Felipe Patrícia 1 Gabriela Ovídeo Leonor 0000 2 Luiz Felipe Patrícia 0000 Estágio 3 2 clusters Decisão para o Estágio 4 Juntar Cluster 1 com Cluster 2 Estágio 4 1 cluster Cluster 1 Gabriela Ovídeo Leonor Luiz Felipe e Patrícia 10290 máx 102908420 10290 GabrielaOvídioLeonor Luiz FelipePatrícia d Dendograma Método de Encadeamento Completo 0 1 2 3 4 5 6 7 8 Distância euclidiana Gabriela Ovídio Leonor Patrícia Luiz Felipe 9 10 11 3 4 5 6 7 8 Distância euclidiana Gabriela Ovídio Leonor Patrícia Luiz Felipe 9 10 11 I II Estágio Agrupamento Observação Agrupada Menor Distância Euclidiana 1 Gabriela Ovídio 3713 2 Gabriela Ovídio Leonor 5474 3 Luiz Felipe Patrícia 7187 4 Gabriela Ovídio Leonor Luiz Felipe Patrícia 10290 Método de Encadeamento Completo Sugestão de Agrupamento Esquema de aglomeração Método de encadeamento médio Estágio 0 1 Gabriela 2 Luiz Felipe 3 Patrícia 4 Ovídio 5 Leonor 1 Gabriela 0000 2 Luiz Felipe 10132 0000 3 Patrícia 8420 7187 0000 4 Ovídeo 3713 10290 6580 0000 5 Leonor 4170 8223 6045 5474 0000 Estágio 0 5 clusters Decisão para o Estágio 1 Juntar Gabriela 1 com Ovídeo 4 3713 Esquema de aglomeração Método de encadeamento médio Gabriela Luiz Felipe Patrícia Ovídio Leonor Gabriela 0000 Luiz Felipe 10132 0000 D0 Patrícia 8420 7187 0000 Ovídio 3713 10290 6580 0000 Leonor 4170 8223 6045 5474 0000 Estágio 1 1 Gabriela Ovídeo 2 Luiz Felipe 3 Patrícia 5 Leonor 1 Gabriela Ovídeo 0000 2 Luiz Felipe 0000 3 Patrícia 0000 5 Leonor 0000 Estágio 1 4 clusters Decisão para o Estágio 2 Juntar Gabriela e Ovídeo 1 com Leonor 5 10211 7500 4822 4822 7187 8223 6045 10132 10290 10211 2 d GabrielaOvídio Luiz Felipe 8420 6580 7500 2 d GabrielaOvídio Patrícia 4170 5474 4822 2 d GabrielaOvídio Leonor Esquema de aglomeração Método de encadeamento médio Gabriela Luiz Felipe Patrícia Ovídio Leonor Gabriela 0000 Luiz Felipe 10132 0000 D0 Patrícia 8420 7187 0000 Ovídio 3713 10290 6580 0000 Leonor 4170 8223 6045 5474 0000 Estágio 2 1 Gabriela Ovídeo Leonor 2 Luiz Felipe 3 Patrícia 1 Gabriela Ovídeo Leonor 0000 2 Luiz Felipe 0000 3 Patrícia 0000 Estágio 2 3 clusters Decisão para o Estágio 3 Juntar Gabriela Ovídeo e Leonor 1 com Patrícia 3 9548 7015 7187 7015 10132 10290 8223 9548 3 d GabrielaOvídioLeonor Luiz Felipe 8420 6580 6045 7015 3 d GabrielaOvídioLeonor Patrícia Esquema de aglomeração Método de encadeamento médio Gabriela Luiz Felipe Patrícia Ovídio Leonor Gabriela 0000 Luiz Felipe 10132 0000 D0 Patrícia 8420 7187 0000 Ovídio 3713 10290 6580 0000 Leonor 4170 8223 6045 5474 0000 Estágio 2 1 Gabriela Ovídeo Leonor Patrícia 2 Luiz Felipe 1 Gabriela Ovídeo Leonor Patrícia 0000 2 Luiz Felipe 0000 Estágio 3 2 clusters Decisão para o Estágio 4 Juntar Cluster 1 com Cluster 2 Estágio 4 1 cluster Gabriela Ovídio Leonor Patrícia e Luiz Felipe 8958 10132 10290 8223 7187 8958 4 d GabrielaOvídioLeonorPatrícia Luiz Felipe Dendograma Método de Encadeamento Médio 0 1 2 3 4 5 6 7 8 Distância euclidiana Gabriela Ovídio Leonor Patrícia Luiz Felipe Estágio Agrupamento Observação Agrupada Menor Distância Euclidiana 1 Gabriela Ovídio 3713 2 Gabriela Ovídio Leonor 4822 3 Gabriela Ovídio Leonor Patrícia 7015 4 Gabriela Ovídio Leonor Patrícia Luiz Felipe 8958 Esquema de aglomeração nãohierárquico Kmeans 1 Definese a quantidade inicial de clusters K e de forma arbitrária quais observações devem ser alocadas nos K clusters Os centroides de cada cluster são calculados 2 Selecionase uma determinada observação de um cluster e calculase sua distância para os centroides de outros clusters Se houver maior proximidade efetuase a realocação e os centroides são recalculados 3 Repetir o passo 2 até que não seja mais possível realocar nenhuma observação com maior proximidade Procedimento nãohierárquico Kmeans teste F H0 a variável em análise apresenta a mesma média em todos os grupos formados H1 a variável em análise apresenta média diferente em pelo menos um dos grupos em relação aos demais 2 1 2 1 K k k k ki k ki N X X variabilidade entre os grupos K F variabilidade dentro dos grupos X X n K Estudante Observação Nota de Matemática X1i Nota de Física X2i Nota de Química X3i Gabriela 37 27 91 Luiz Felipe 78 80 15 Patrícia 89 10 27 Ovídio 70 10 90 Leonor 34 20 50 2 2 2 1 1 2 2 3 3 pq p q p q q q d X X X X X X Exemplo prático de análise de agrupamentos com esquemas de aglomeração não hierárquico kmeans Exemplo prático de análise de agrupamentos com esquemas de aglomeração não hierárquico kmeans Antes Depois 2 2 2 370 780 270 800 910 150 10132 d GabrielaLuiz Felipe 2 2 2 370 795 270 100 910 585 5614 d Gabriela PatríciaOvídio 2 2 2 370 340 270 200 910 500 4170 d GabrielaLeonor 37 78 575 2 27 80 535 2 91 15 530 2 89 70 795 2 10 10 100 2 27 90 585 2 340 200 500 Exemplo prático de análise de agrupamentos com esquemas de aglomeração não hierárquico kmeans Antes Depois 2 2 2 890 780 100 800 270 150 7187 d PatríciaLuiz Felipe 2 2 2 890 700 100 100 270 900 6580 d PatríciaOvídio 2 2 2 890 355 100 235 270 705 7026 d Patrícia GabrielaLeonor Exemplo prático de análise de agrupamentos com esquemas de aglomeração não hierárquico kmeans Antes Depois 2 2 2 700 890 100 100 900 270 6580 d OvídioPatrícia 2 2 2 700 780 100 800 900 150 10290 d OvídioLuiz Felipe 2 2 2 700 355 100 235 900 705 4187 d Ovídio GabrielaLeonor Exemplo prático de análise de agrupamentos com esquemas de aglomeração não hierárquico kmeans Antes Depois 2 2 2 340 780 200 800 500 150 8223 dLeonorLuiz Felipe 2 2 2 340 535 200 185 500 905 4498 dLeonorGabrielaOvídeo 2 2 2 340 890 200 100 500 270 6045 dLeonorPatrícia Exemplo prático de análise de agrupamentos com esquemas de aglomeração não hierárquico kmeans Teste F da ANOVA de um fator Variável matemática Teste F da ANOVA de um fator Variável física Teste F da ANOVA de um fator Variável química Resumo da Análise de Variância de um Fator ANOVA F2210 90 F225 190 F22 25 390 F22 1 990 Sig F 10 Sig F 5 Sig F 25 Sig F 1 Análise de agrupamentos hierárquico no Stata comandos matrix dissimilarity D variáveis distância matrix dissimilarity D matemática física química L2 matrix list D matrix list D cluster método variáveis measuredistância cluster singlelinkage matemática física química measureL2 gen dist clus1hgtn1 replace dist0 if dist sort dist list estudante dist cluster dendrogram labelsestudante horizontal ou cluster tree labelsestudante horizontal cluster generate cluster groups3 nameclus1 sort clus1id list estudante cluster oneway variável cluster tabulate oneway matemática cluster tabulate oneway física cluster tabulate oneway química cluster tabulate Termos do Stata distância L2 L2squared corr método singlelinkage completelinkage averagelinkage Análise de agrupamentos kmeans no Stata comandos cluster kmeans variáveis k3 name kmeans measure distância startfirstk table kmeans list estudante kmeans oneway variável kmeans tabulate oneway matemática kmeans tabulate oneway física kmeans tabulate oneway química kmeans tabulate Lista de Exercícios Análise de Conglomerados 1 O departamento de concessão de bolsas de estudo de uma faculdade deseja investigar a relação de interdependência entre os estudantes ingressantes em determinado ano letivo com base apenas em duas variáveis métricas idade em anos e renda média familiar em R O objetivo é propor uma quantidade ainda desconhecida de novos programas de concessão de bolsas voltados a grupos homogêneos de alunos Para tanto foram coletados os dados dos 100 novos estudantes e elaborada uma base que se encontra nos arquivos Bolsa de Estudosav e Bolsa de Estudodta com as seguintes variáveis Variável Descrição estudante Variável string que identifica o estudante ingressante na faculdade Idade Idade do estudante anos Renda Renda média familiar R Pedese a Elabore uma análise de agrupamentos por meio de um esquema de aglomeração hierárquico com método de encadeamento completo furthest neighbor e distância quadrática euclidiana Apresente apenas a parte final da tabela do esquema de aglomeração e discuta os resultados Lembrete Como as variáveis possuem unidades distintas de medida é necessária a aplicação do procedimento de padronização Zscores para a correta elaboração da análise de agrupamentos b Com base na tabela do item anterior e no dendrograma perguntase Há indícios de serem formados quantos agrupamentos de estudantes c É possível identificar um ou mais estudantes muito discrepantes dos demais em relação às duas variáveis em análise d Se a resposta do item anterior for positiva elabore novamente a análise de agrupamentos hierárquicos com os mesmos critérios porém agora sem os estudantes considerados discrepantes A partir da análise dos novos resultados podem ser identificados novos agrupamentos e Discuta como a presença de outliers pode prejudicar a interpretação dos resultados em análise de agrupamentos 2 A diretoria de marketing de um grupo varejista deseja estudar eventuais discrepâncias existentes em suas 18 lojas espalhadas em três regionais distribuídas pelo território nacional A direção da companhia a fim de manter e preservar a imagem e a identidade da marca deseja saber se as lojas são homogêneas em relação à percepção dos consumidores sobre atributos como atendimento sortimento e organização Desta forma foi inicialmente elaborada uma pesquisa com amostras de clientes em cada loja a fim de que fossem coletados dados referentes a estes atributos definidos com base na nota média obtida 0 a 100 em cada estabelecimento comercial Na sequência foi elaborado o banco de dados de interesse que contém as seguintes variáveis Variável Descrição Loja Variável string que varia de 01 a 18 e que identifica o estabelecimento comercial loja regional Variável string que identifica cada regional Regional 1 a Regional 3 atendimento Avaliação média dos consumidores sobre o atendimento nota de 0 a 100 sortimento Avaliação média dos consumidores sobre o sortimento nota de 0 a 100 organização Avaliação média dos consumidores sobre a organização da loja nota de 0 a 100 Os dados encontramse nos arquivos Regional Varejistasav e Regional Varejistadta Pedese a Elabore uma análise de agrupamentos por meio de um esquema de aglomeração hierárquico com método de encadeamento único e distância euclidiana Apresente a matriz de distâncias entre cada par de observações Lembrete Como as variáveis possuem a mesma unidade de medida não é necessária a aplicação do procedimento de padronização Zscores b Apresente e discuta a tabela do esquema de aglomeração c Com base na tabela do item anterior e no dendrograma perguntase Há indícios de serem formados quantos agrupamentos de lojas 3 O proprietário de uma empresa hortifrúti decide monitorar as vendas de seus produtos ao longo de 16 semanas 4 meses O objetivo principal é verificar se existe recorrência do comportamento de vendas de três principais produtos banana laranja e maçã após certo período em função das oscilações semanais de preços dos produtores repassados aos consumidores e que podem afetar as vendas Os dados encontramse nos arquivos Hortifrútisav e Hortifrútidta que apresentam as seguintes variáveis Variável Descrição semana Variável string que varia de 1 a 16 e identifica a semana em que as vendas foram monitoradas semanamês Variável string que varia de 1 a 4 e identifica a semana de cada um dos meses banana Quantidade de bananas vendidas na semana un laranja Quantidade de laranjas vendidas na semana un maçã Quantidade de maçãs vendidas na semana un Pedese a Elabore uma análise de agrupamentos por meio de um esquema de aglomeração hierárquico com método de encadeamento único nearest neighbor e medida de correlação de Pearson Apresente a matriz de medidas de similaridade correlação de Pearson entre cada linha do banco de dados períodos semanais Lembrete Como as variáveis possuem a mesma unidade de medida não é necessária a aplicação do procedimento de padronização Zscores b Apresente e discuta a tabela do esquema de aglomeração c Com base na tabela do item anterior e no dendrograma perguntase Há indícios de recorrência do comportamento conjunto de vendas de banana laranja e maçã em determinadas semanas
Send your question to AI and receive an answer instantly
Recommended for you
Preview text
Análise de agrupamentos Profa Patrícia Belfiore Fávero UFABC Análise Multivariada de Dados Referência Bibliográfica LUIZ PAULO FÁVERO PATRÍCIA BELFIORE MANUAL DE ANÁLISE DE DADOS Estatística e Modelagem Multivariada com Excel SPSS e Stata ELSEVIER Definição A análise de agrupamentos também conhecida como análise de conglomerados e análise de clusters é uma técnica multivariada exploratória que tem como objetivo verificar a existência de comportamentos semelhantes entre observações indivíduos empresas municípios países etc em relação a determinadas variáveis de modo que são formados grupos com características homogêneas homogêneos internamente e heterogêneos entre si Técnica exploratória ou de interdependência É uma técnica exploratória ou de interdependência uma vez que suas aplicações não apresentam caráter preditivo para outras observações não presentes inicialmente na amostra A inclusão de novas observações ou variáveis no banco de dados torna necessária a reaplicação da modelagem pois novos agrupamentos podem ser gerados Exemplos de aplicações Economia segmentação de países por semelhança de índices de desemprego distribuição de renda taxa de juros cargas tributárias etc Engenharia divisão de empresas ou membros da cadeia de suprimentos em grupos em função de indicadores logísticos e de produção segmentação de produtos por características de processos Administração segmentação de clientes por características de consumo agregar escolas por semelhança de indicadores educacionais taxas de evasão etc Elaboração da análise de agrupamentos Medida de distância ou dissimilaridade Esquema de aglomeração Método hierárquico Método não hierárquico Medidas de distância ou dissimilaridade Distância quadrática euclidiana Distância euclidiana Distância de Manhattan Distância de Chebychev Distância de Canberra Correlação de Pearson Modelo geral de um banco de dados em análise de agrupamentos Variável j Observação i X1i X2i Xki 1 X11 X21 Xk1 2 X12 X22 Xk2 P X1p X2 p Xkp Q X1q X2q Xkq n X1n X2n Xkn Distância Quadrática Euclidiana Soma dos quadrados das diferenças entre os valores de cada variável 2 2 2 2 1 1 2 2 1 k pq p q p q kp kq jp jq j d X X X X X X X X Distância Euclidiana 2 2 2 2 1 1 2 2 1 k pq p q p q kp kq jp jq j d X X X X X X X X Raiz quadrada da soma dos quadrados das diferenças entre os valores de cada variável Distância de Manhattan Soma das diferenças absolutas entre os valores de cada variável 1 k pq jp jq j d X X Distância de Chebychev Diferença máxima absoluta entre os valores de cada variável máx pq jp jq d X X Distância de Canberra Utilizada para os casos em que as variáveis apresentam apenas valores positivos assume valores entre 0 e k 1 k jp jq pq jp jq j X X d X X Correlação de Pearson 1 2 2 1 1 k jp p jq q j pq k k jp p jq q j j X X X X X X X X ρ Exemplo para o cálculo das medidas de distância para variáveis métricas Observação i 1 37 27 91 2 78 80 15 X2i X3i X1i Padronização de variáveis Procedimento Zscores ji j ji j X X ZX s Esquemas de aglomeração em análise de agrupamentos Esquema de Aglomeração Não Hierárquico kmeans Único Single Linkage Hierárquico Divisivo Completo Complete Linkage Médio Average Linkage Método de Encadeamento Aglomerativo Esquema hierárquico aglomerativo métodos de encadeamento Único nearest neighbor ou single linkage Completo furthest neighbor ou complete linkage Médio between groups ou average linkage Método de encadeamento único nearest neighnor ou single linkage Priorizar a menor distância entre os pontos mais próximos Este método identifica os 2 elementos ou conglomerados separados pela menor distância entre os pontos mais próximos e os coloca no mesmo conglomerado Decisão juntar A com B B A C Priorizar a menor distância entre os pontos mais afastados Este método identifica os 2 elementos ou conglomerados separados pela menor distância entre os pontos mais afastados e os coloca no mesmo conglomerado Decisão juntar A com C C A B Encadeamento completo furthest neighnor ou complete linkage DE A BC Priorizar a menor média das distâncias entre todos pares Este método identifica os 2 elementos ou conglomerados separados pela menor distância média entre todos os pares e os coloca no mesmo conglomerado dA BC dAB dAC 2 56 742 65 dA DE dAD dAE 2 28 322 30 dBC DE dBD dBE dCD dCE 4 72 54 88 684 71 Decisão juntar A com DE Encadeamento médio betweengroups ou average linkage Exemplo prático de análise de agrupamentos com esquemas de aglomeração hierárquicos Estudante Observação Nota de Matemática X1i Nota de Física X2i Nota de Química X3i Gabriela 37 27 91 Luiz Felipe 78 80 15 Patrícia 89 10 27 Ovídio 70 10 90 Leonor 34 20 50 2 2 2 1 1 2 2 3 3 pq p q p q q q d X X X X X X Medida de dissimilaridade distância euclidiana Estudante Observação Nota de Matemática X1i Nota de Física X2i Nota de Química X3i Gabriela 37 27 91 Luiz Felipe 78 80 15 Patrícia 89 10 27 Ovídio 70 10 90 Leonor 34 20 50 Gabriela Luiz Felipe Patrícia Ovídio Leonor Gabriela 0000 Luiz Felipe 10132 0000 D0 Patrícia 8420 7187 0000 Ovídio 3713 10290 6580 0000 Leonor 4170 8223 6045 5474 0000 2 2 2 1 1 2 2 3 3 pq p q p q q q d X X X X X X Esquema de aglomeração Método de encadeamento único Estágio 0 1 Gabriela 2 Luiz Felipe 3 Patrícia 4 Ovídio 5 Leonor 1 Gabriela 0000 2 Luiz Felipe 10132 0000 3 Patrícia 8420 7187 0000 4 Ovídeo 3713 10290 6580 0000 5 Leonor 4170 8223 6045 5474 0000 Estágio 0 5 clusters Decisão para o Estágio 1 Juntar Gabriela 1 com Ovídeo 4 3713 Esquema de aglomeração Método de encadeamento único Gabriela Luiz Felipe Patrícia Ovídio Leonor Gabriela 0000 Luiz Felipe 10132 0000 D0 Patrícia 8420 7187 0000 Ovídio 3713 10290 6580 0000 Leonor 4170 8223 6045 5474 0000 Estágio 1 1 Gabriela Ovídeo 2 Luiz Felipe 3 Patrícia 5 Leonor 1 Gabriela Ovídeo 0000 2 Luiz Felipe 0000 3 Patrícia 0000 5 Leonor 0000 Estágio 1 4 clusters Decisão para o Estágio 2 Juntar Gabriela e Ovídeo 1 com Leonor 5 10132 6580 4170 4170 7187 8223 6045 mín 1013210290 10132 d GabrielaOvídio Luiz Felipe mín 84206580 6580 d GabrielaOvídio Patrícia mín 41705474 4170 d GabrielaOvídio Leonor Esquema de aglomeração Método de encadeamento único Gabriela Luiz Felipe Patrícia Ovídio Leonor Gabriela 0000 Luiz Felipe 10132 0000 D0 Patrícia 8420 7187 0000 Ovídio 3713 10290 6580 0000 Leonor 4170 8223 6045 5474 0000 Estágio 2 1 Gabriela Ovídeo Leonor 2 Luiz Felipe 3 Patrícia 1 Gabriela Ovídeo Leonor 0000 2 Luiz Felipe 0000 3 Patrícia 0000 Estágio 2 3 clusters Decisão para o Estágio 3 Juntar Gabriela Ovídeo e Leonor 1 com Patrícia 3 8223 6045 7187 6045 mín 101328223 8223 d GabrielaOvídioLeonor Luiz Felipe mín 65806045 6045 d GabrielaOvídioLeonor Patrícia Esquema de aglomeração Método de encadeamento único Gabriela Luiz Felipe Patrícia Ovídio Leonor Gabriela 0000 Luiz Felipe 10132 0000 D0 Patrícia 8420 7187 0000 Ovídio 3713 10290 6580 0000 Leonor 4170 8223 6045 5474 0000 Estágio 2 1 Gabriela Ovídeo Leonor Patrícia 2 Luiz Felipe 1 Gabriela Ovídeo Leonor Patrícia 0000 2 Luiz Felipe 0000 Estágio 3 2 clusters Decisão para o Estágio 4 Juntar Cluster 1 com Cluster 2 Estágio 4 1 cluster Gabriela Ovídeo Leonor Patrícia e Luiz Felipe 7187 mín 82237187 7187 d GabrielaOvídioLeonorPatrícia Luiz Felipe Dendograma Método de Encadeamento Único 0 1 2 3 4 5 6 7 8 Distância euclidiana Gabriela Ovídio Leonor Patrícia Luiz Felipe Estágio Agrupamento Observação Agrupada Menor Distância Euclidiana 1 Gabriela Ovídio 3713 2 Gabriela Ovídio Leonor 4170 3 Gabriela Ovídio Leonor Patrícia 6045 4 Gabriela Ovídio Leonor Patrícia Luiz Felipe 7187 3 4 5 6 7 8 Distância euclidiana Gabriela Ovídio Leonor Patrícia Luiz Felipe I II III Método de Encadeamento Único Sugestão de Agrupamento Esquema de aglomeração Método de encadeamento completo Estágio 0 1 Gabriela 2 Luiz Felipe 3 Patrícia 4 Ovídio 5 Leonor 1 Gabriela 0000 2 Luiz Felipe 10132 0000 3 Patrícia 8420 7187 0000 4 Ovídeo 3713 10290 6580 0000 5 Leonor 4170 8223 6045 5474 0000 Estágio 0 5 clusters Decisão para o Estágio 1 Juntar Gabriela 1 com Ovídeo 4 3713 Esquema de aglomeração Método de encadeamento completo Gabriela Luiz Felipe Patrícia Ovídio Leonor Gabriela 0000 Luiz Felipe 10132 0000 D0 Patrícia 8420 7187 0000 Ovídio 3713 10290 6580 0000 Leonor 4170 8223 6045 5474 0000 Estágio 1 1 Gabriela Ovídeo 2 Luiz Felipe 3 Patrícia 5 Leonor 1 Gabriela Ovídeo 0000 2 Luiz Felipe 0000 3 Patrícia 0000 5 Leonor 0000 Estágio 1 4 clusters Decisão para o Estágio 2 Juntar Gabriela e Ovídeo 1 com Leonor 5 10290 8420 5474 5474 7187 8223 6045 máx 1013210290 10290 d GabrielaOvídio Luiz Felipe máx 84206580 8420 d GabrielaOvídio Patrícia máx 41705474 5474 d GabrielaOvídio Leonor Esquema de aglomeração Método de encadeamento completo Gabriela Luiz Felipe Patrícia Ovídio Leonor Gabriela 0000 Luiz Felipe 10132 0000 D0 Patrícia 8420 7187 0000 Ovídio 3713 10290 6580 0000 Leonor 4170 8223 6045 5474 0000 Estágio 2 1 Gabriela Ovídeo Leonor 2 Luiz Felipe 3 Patrícia 1 Gabriela Ovídeo Leonor 0000 2 Luiz Felipe 0000 3 Patrícia 0000 Estágio 2 3 clusters Decisão para o Estágio 3 Juntar Luiz Felipe 2 com Patrícia 3 10290 8420 7187 7187 máx 102908223 10290 d GabrielaOvídioLeonor Luiz Felipe máx 84206045 8420 d GabrielaOvídioLeonor Patrícia Esquema de aglomeração Método de encadeamento completo Gabriela Luiz Felipe Patrícia Ovídio Leonor Gabriela 0000 Luiz Felipe 10132 0000 D0 Patrícia 8420 7187 0000 Ovídio 3713 10290 6580 0000 Leonor 4170 8223 6045 5474 0000 Estágio 2 1 Gabriela Ovídeo Leonor 2 Luiz Felipe Patrícia 1 Gabriela Ovídeo Leonor 0000 2 Luiz Felipe Patrícia 0000 Estágio 3 2 clusters Decisão para o Estágio 4 Juntar Cluster 1 com Cluster 2 Estágio 4 1 cluster Cluster 1 Gabriela Ovídeo Leonor Luiz Felipe e Patrícia 10290 máx 102908420 10290 GabrielaOvídioLeonor Luiz FelipePatrícia d Dendograma Método de Encadeamento Completo 0 1 2 3 4 5 6 7 8 Distância euclidiana Gabriela Ovídio Leonor Patrícia Luiz Felipe 9 10 11 3 4 5 6 7 8 Distância euclidiana Gabriela Ovídio Leonor Patrícia Luiz Felipe 9 10 11 I II Estágio Agrupamento Observação Agrupada Menor Distância Euclidiana 1 Gabriela Ovídio 3713 2 Gabriela Ovídio Leonor 5474 3 Luiz Felipe Patrícia 7187 4 Gabriela Ovídio Leonor Luiz Felipe Patrícia 10290 Método de Encadeamento Completo Sugestão de Agrupamento Esquema de aglomeração Método de encadeamento médio Estágio 0 1 Gabriela 2 Luiz Felipe 3 Patrícia 4 Ovídio 5 Leonor 1 Gabriela 0000 2 Luiz Felipe 10132 0000 3 Patrícia 8420 7187 0000 4 Ovídeo 3713 10290 6580 0000 5 Leonor 4170 8223 6045 5474 0000 Estágio 0 5 clusters Decisão para o Estágio 1 Juntar Gabriela 1 com Ovídeo 4 3713 Esquema de aglomeração Método de encadeamento médio Gabriela Luiz Felipe Patrícia Ovídio Leonor Gabriela 0000 Luiz Felipe 10132 0000 D0 Patrícia 8420 7187 0000 Ovídio 3713 10290 6580 0000 Leonor 4170 8223 6045 5474 0000 Estágio 1 1 Gabriela Ovídeo 2 Luiz Felipe 3 Patrícia 5 Leonor 1 Gabriela Ovídeo 0000 2 Luiz Felipe 0000 3 Patrícia 0000 5 Leonor 0000 Estágio 1 4 clusters Decisão para o Estágio 2 Juntar Gabriela e Ovídeo 1 com Leonor 5 10211 7500 4822 4822 7187 8223 6045 10132 10290 10211 2 d GabrielaOvídio Luiz Felipe 8420 6580 7500 2 d GabrielaOvídio Patrícia 4170 5474 4822 2 d GabrielaOvídio Leonor Esquema de aglomeração Método de encadeamento médio Gabriela Luiz Felipe Patrícia Ovídio Leonor Gabriela 0000 Luiz Felipe 10132 0000 D0 Patrícia 8420 7187 0000 Ovídio 3713 10290 6580 0000 Leonor 4170 8223 6045 5474 0000 Estágio 2 1 Gabriela Ovídeo Leonor 2 Luiz Felipe 3 Patrícia 1 Gabriela Ovídeo Leonor 0000 2 Luiz Felipe 0000 3 Patrícia 0000 Estágio 2 3 clusters Decisão para o Estágio 3 Juntar Gabriela Ovídeo e Leonor 1 com Patrícia 3 9548 7015 7187 7015 10132 10290 8223 9548 3 d GabrielaOvídioLeonor Luiz Felipe 8420 6580 6045 7015 3 d GabrielaOvídioLeonor Patrícia Esquema de aglomeração Método de encadeamento médio Gabriela Luiz Felipe Patrícia Ovídio Leonor Gabriela 0000 Luiz Felipe 10132 0000 D0 Patrícia 8420 7187 0000 Ovídio 3713 10290 6580 0000 Leonor 4170 8223 6045 5474 0000 Estágio 2 1 Gabriela Ovídeo Leonor Patrícia 2 Luiz Felipe 1 Gabriela Ovídeo Leonor Patrícia 0000 2 Luiz Felipe 0000 Estágio 3 2 clusters Decisão para o Estágio 4 Juntar Cluster 1 com Cluster 2 Estágio 4 1 cluster Gabriela Ovídio Leonor Patrícia e Luiz Felipe 8958 10132 10290 8223 7187 8958 4 d GabrielaOvídioLeonorPatrícia Luiz Felipe Dendograma Método de Encadeamento Médio 0 1 2 3 4 5 6 7 8 Distância euclidiana Gabriela Ovídio Leonor Patrícia Luiz Felipe Estágio Agrupamento Observação Agrupada Menor Distância Euclidiana 1 Gabriela Ovídio 3713 2 Gabriela Ovídio Leonor 4822 3 Gabriela Ovídio Leonor Patrícia 7015 4 Gabriela Ovídio Leonor Patrícia Luiz Felipe 8958 Esquema de aglomeração nãohierárquico Kmeans 1 Definese a quantidade inicial de clusters K e de forma arbitrária quais observações devem ser alocadas nos K clusters Os centroides de cada cluster são calculados 2 Selecionase uma determinada observação de um cluster e calculase sua distância para os centroides de outros clusters Se houver maior proximidade efetuase a realocação e os centroides são recalculados 3 Repetir o passo 2 até que não seja mais possível realocar nenhuma observação com maior proximidade Procedimento nãohierárquico Kmeans teste F H0 a variável em análise apresenta a mesma média em todos os grupos formados H1 a variável em análise apresenta média diferente em pelo menos um dos grupos em relação aos demais 2 1 2 1 K k k k ki k ki N X X variabilidade entre os grupos K F variabilidade dentro dos grupos X X n K Estudante Observação Nota de Matemática X1i Nota de Física X2i Nota de Química X3i Gabriela 37 27 91 Luiz Felipe 78 80 15 Patrícia 89 10 27 Ovídio 70 10 90 Leonor 34 20 50 2 2 2 1 1 2 2 3 3 pq p q p q q q d X X X X X X Exemplo prático de análise de agrupamentos com esquemas de aglomeração não hierárquico kmeans Exemplo prático de análise de agrupamentos com esquemas de aglomeração não hierárquico kmeans Antes Depois 2 2 2 370 780 270 800 910 150 10132 d GabrielaLuiz Felipe 2 2 2 370 795 270 100 910 585 5614 d Gabriela PatríciaOvídio 2 2 2 370 340 270 200 910 500 4170 d GabrielaLeonor 37 78 575 2 27 80 535 2 91 15 530 2 89 70 795 2 10 10 100 2 27 90 585 2 340 200 500 Exemplo prático de análise de agrupamentos com esquemas de aglomeração não hierárquico kmeans Antes Depois 2 2 2 890 780 100 800 270 150 7187 d PatríciaLuiz Felipe 2 2 2 890 700 100 100 270 900 6580 d PatríciaOvídio 2 2 2 890 355 100 235 270 705 7026 d Patrícia GabrielaLeonor Exemplo prático de análise de agrupamentos com esquemas de aglomeração não hierárquico kmeans Antes Depois 2 2 2 700 890 100 100 900 270 6580 d OvídioPatrícia 2 2 2 700 780 100 800 900 150 10290 d OvídioLuiz Felipe 2 2 2 700 355 100 235 900 705 4187 d Ovídio GabrielaLeonor Exemplo prático de análise de agrupamentos com esquemas de aglomeração não hierárquico kmeans Antes Depois 2 2 2 340 780 200 800 500 150 8223 dLeonorLuiz Felipe 2 2 2 340 535 200 185 500 905 4498 dLeonorGabrielaOvídeo 2 2 2 340 890 200 100 500 270 6045 dLeonorPatrícia Exemplo prático de análise de agrupamentos com esquemas de aglomeração não hierárquico kmeans Teste F da ANOVA de um fator Variável matemática Teste F da ANOVA de um fator Variável física Teste F da ANOVA de um fator Variável química Resumo da Análise de Variância de um Fator ANOVA F2210 90 F225 190 F22 25 390 F22 1 990 Sig F 10 Sig F 5 Sig F 25 Sig F 1 Análise de agrupamentos hierárquico no Stata comandos matrix dissimilarity D variáveis distância matrix dissimilarity D matemática física química L2 matrix list D matrix list D cluster método variáveis measuredistância cluster singlelinkage matemática física química measureL2 gen dist clus1hgtn1 replace dist0 if dist sort dist list estudante dist cluster dendrogram labelsestudante horizontal ou cluster tree labelsestudante horizontal cluster generate cluster groups3 nameclus1 sort clus1id list estudante cluster oneway variável cluster tabulate oneway matemática cluster tabulate oneway física cluster tabulate oneway química cluster tabulate Termos do Stata distância L2 L2squared corr método singlelinkage completelinkage averagelinkage Análise de agrupamentos kmeans no Stata comandos cluster kmeans variáveis k3 name kmeans measure distância startfirstk table kmeans list estudante kmeans oneway variável kmeans tabulate oneway matemática kmeans tabulate oneway física kmeans tabulate oneway química kmeans tabulate Lista de Exercícios Análise de Conglomerados 1 O departamento de concessão de bolsas de estudo de uma faculdade deseja investigar a relação de interdependência entre os estudantes ingressantes em determinado ano letivo com base apenas em duas variáveis métricas idade em anos e renda média familiar em R O objetivo é propor uma quantidade ainda desconhecida de novos programas de concessão de bolsas voltados a grupos homogêneos de alunos Para tanto foram coletados os dados dos 100 novos estudantes e elaborada uma base que se encontra nos arquivos Bolsa de Estudosav e Bolsa de Estudodta com as seguintes variáveis Variável Descrição estudante Variável string que identifica o estudante ingressante na faculdade Idade Idade do estudante anos Renda Renda média familiar R Pedese a Elabore uma análise de agrupamentos por meio de um esquema de aglomeração hierárquico com método de encadeamento completo furthest neighbor e distância quadrática euclidiana Apresente apenas a parte final da tabela do esquema de aglomeração e discuta os resultados Lembrete Como as variáveis possuem unidades distintas de medida é necessária a aplicação do procedimento de padronização Zscores para a correta elaboração da análise de agrupamentos b Com base na tabela do item anterior e no dendrograma perguntase Há indícios de serem formados quantos agrupamentos de estudantes c É possível identificar um ou mais estudantes muito discrepantes dos demais em relação às duas variáveis em análise d Se a resposta do item anterior for positiva elabore novamente a análise de agrupamentos hierárquicos com os mesmos critérios porém agora sem os estudantes considerados discrepantes A partir da análise dos novos resultados podem ser identificados novos agrupamentos e Discuta como a presença de outliers pode prejudicar a interpretação dos resultados em análise de agrupamentos 2 A diretoria de marketing de um grupo varejista deseja estudar eventuais discrepâncias existentes em suas 18 lojas espalhadas em três regionais distribuídas pelo território nacional A direção da companhia a fim de manter e preservar a imagem e a identidade da marca deseja saber se as lojas são homogêneas em relação à percepção dos consumidores sobre atributos como atendimento sortimento e organização Desta forma foi inicialmente elaborada uma pesquisa com amostras de clientes em cada loja a fim de que fossem coletados dados referentes a estes atributos definidos com base na nota média obtida 0 a 100 em cada estabelecimento comercial Na sequência foi elaborado o banco de dados de interesse que contém as seguintes variáveis Variável Descrição Loja Variável string que varia de 01 a 18 e que identifica o estabelecimento comercial loja regional Variável string que identifica cada regional Regional 1 a Regional 3 atendimento Avaliação média dos consumidores sobre o atendimento nota de 0 a 100 sortimento Avaliação média dos consumidores sobre o sortimento nota de 0 a 100 organização Avaliação média dos consumidores sobre a organização da loja nota de 0 a 100 Os dados encontramse nos arquivos Regional Varejistasav e Regional Varejistadta Pedese a Elabore uma análise de agrupamentos por meio de um esquema de aglomeração hierárquico com método de encadeamento único e distância euclidiana Apresente a matriz de distâncias entre cada par de observações Lembrete Como as variáveis possuem a mesma unidade de medida não é necessária a aplicação do procedimento de padronização Zscores b Apresente e discuta a tabela do esquema de aglomeração c Com base na tabela do item anterior e no dendrograma perguntase Há indícios de serem formados quantos agrupamentos de lojas 3 O proprietário de uma empresa hortifrúti decide monitorar as vendas de seus produtos ao longo de 16 semanas 4 meses O objetivo principal é verificar se existe recorrência do comportamento de vendas de três principais produtos banana laranja e maçã após certo período em função das oscilações semanais de preços dos produtores repassados aos consumidores e que podem afetar as vendas Os dados encontramse nos arquivos Hortifrútisav e Hortifrútidta que apresentam as seguintes variáveis Variável Descrição semana Variável string que varia de 1 a 16 e identifica a semana em que as vendas foram monitoradas semanamês Variável string que varia de 1 a 4 e identifica a semana de cada um dos meses banana Quantidade de bananas vendidas na semana un laranja Quantidade de laranjas vendidas na semana un maçã Quantidade de maçãs vendidas na semana un Pedese a Elabore uma análise de agrupamentos por meio de um esquema de aglomeração hierárquico com método de encadeamento único nearest neighbor e medida de correlação de Pearson Apresente a matriz de medidas de similaridade correlação de Pearson entre cada linha do banco de dados períodos semanais Lembrete Como as variáveis possuem a mesma unidade de medida não é necessária a aplicação do procedimento de padronização Zscores b Apresente e discuta a tabela do esquema de aglomeração c Com base na tabela do item anterior e no dendrograma perguntase Há indícios de recorrência do comportamento conjunto de vendas de banana laranja e maçã em determinadas semanas