·

Engenharia de Gestão ·

Banco de Dados

Send your question to AI and receive an answer instantly

Ask Question

Recommended for you

Preview text

Análise de correspondência simples e múltipla Profa Patrícia Belfiore Fávero UFABC Análise Multivariada de Dados Referência Bibliográfica LUIZ PAULO FÁVERO PATRÍCIA BELFIORE MANUAL DE ANÁLISE DE DADOS Estatística e Modelagem Multivariada com Excel SPSS e Stata ELSEVIER Análise de correspondência simples e múltipla É uma técnica exploratória ou de interdependência utilizada para variáveis qualitativas quando se deseja analisar a associação entre as categorias dessas variáveis Análise de correspondência simples associação entre duas variáveis categóricas Análise de correspondência múltipla associação entre mais de duas variáveis categóricas Definição de análise de correspondência As técnicas de análise de correspondência são representações gráficas das relações entre linhas e colunas de uma tabela de contingência tabela cruzada em um mapa com duas ou mais dimensões chamado mapa perceptual Exemplos de aplicações Associação entre diferentes sistemas de produção qualidade de serviço e indicadores estratégicos de desempenho Associação entre estratégias competitivas nível tecnológico e qualidade dos produtos Associação entre porte das empresas e ferramentas tecnológicas Associação entre estratégias de marketing e perfil do consumidor 1 2 J 1 n11 n12 n1J 2 n21 n22 n2J I nI1 nI2 nIJ Representação gráfica de uma tabela de contingência 1 1 I J ij i j N n 11 12 1 21 22 2 1 2 J J I I IJ n n n n n n n n n o X L L M M O M L 1 2 J Total 1 n11 n12 n1J ΣΣΣΣl1 2 n21 n22 n2J ΣΣΣΣl2 I nI1 nI2 nIJ ΣΣΣΣl1 Total ΣΣΣΣc1 ΣΣΣΣc2 ΣΣΣΣcJ N Tabela de contingência com valores totais por linha e coluna 1 2 1 2 J I c c c l l l N Tabela de frequências relativas observadas em cada célula 1 11 12 2 21 22 1 2 1 J J IJ I I n n n N N N n n n N N N N n n n N N N o P X L L M M O M L Tabela de frequências relativas observadas por linha massas row profiles Tabela de frequências relativas observadas por coluna massas columns profiles Tabela de frequências esperadas por linha Tabela de frequências esperadas por coluna Estatística quiquadrado 2 2 1 1 1 1 I J ij ij i j ij I O E E J χ Oij valores observados na iésima linha e na jésima coluna da tabela de contingência Eij valores esperados na iésima linha e na jésima coluna da tabela de contingência I número de linhas da tabela de contingência J número de colunas da tabela de contingência 0 1 não existem associações entre as categorias das duas variáveis há associação entre pelo menos um par de categorias das variáveis H H ij n j i c l N Inércia principal total e decomposição da inércia por meio de autovalores 2 TI N χ mín 1 1 1 λ m I J k k 0 1 1 0 λ λ λ m em que m mínI 1 J 1 1 λ k k m 2 λ k σ k Definição das coordenadas scores das categorias no mapa perceptual a partir dos autovalores e autovetores da matriz W 11 12 1 21 22 2 1 2 W L L M M O M L J J I I IJ w w w w w w w w w 1 2 I l l l N N N 1 2 J c c c N N N 1 11 12 2 21 22 1 2 1 J J IJ I I n n n N N N n n n N N N N n n n N N N o P X L L M M O M L 1 1 1 2 1 2 1 2 2 2 1 2 L L M M O M L J J I I I J l c l c l c N N N N N N l c l c l c lc N N N N N N l c l c l c N N N N N N 1 2 0 0 0 0 0 0 Dl I l N l N l N L L M M O M L 1 2 0 0 0 0 0 0 Dc J c N c N c N L L M M O M L Definição das coordenadas scores das categorias no mapa perceptual matriz W 11 12 1 21 22 2 1 2 W L L M M O M L J J I I IJ w w w w w w w w w 12 12 A D P D l c lc W A A 1 1 1 2 1 1 11 12 2 1 2 2 2 2 21 22 1 2 1 2 J J J J I I I IJ I I l c l c l c n n n N N N N N N N N N l c l c l c n n n lc N N N N N N N N N l c l c l c n n n N N N N N N N N P L L M M O M L J N Definição das coordenadas das categorias no mapa perceptual cálculo dos autovalores da matriz W det I 0 λ W 11 12 1 21 22 2 1 2 0 λ λ λ L L M M O M L J J I I IJ w w w w w w w w w 1 2 0 0 0 0 0 0 Λ λ λ λ L L M M O M L m Definição das coordenadas das categorias no mapa perceptual cálculo dos autovetores da matriz W I v 0 W λ k k 11 12 1 1 21 22 2 2 1 2 0 0 0 λ λ λ L L M M O M M M L k J k k J k I I k IJ kJ w w w v w w w v w w w v 11 1 12 2 1 21 1 22 2 2 1 1 2 2 0 0 0 λ λ λ M k k k J kJ k k k J kJ I k I k k IJ kJ w v w v w v w v w v w v w v w v w v 1v V v M J 1 u U u M I 1 v M k k kJ v v 1 u M k k kJ u u 1 2 1 2 1 1 u D P D v Av lc σ σ k l c k k k k Definição das coordenadas das categorias no mapa perceptual cálculo dos autovetores da matriz W σ λ k k Definição das coordenadas scores das categorias no mapa perceptual 1 1 12 12 z Z D D U Λ D u z σ M l l l l k l k lI 1 1 12 12 z Z D D V Λ D v z σ M c c c c k c k cJ Variável em linha na tabela de contingência Variável em coluna na tabela de contingência 1 1 12 12 1 1 x X D D U Λ D u x σ M l l l l l l I 1 1 12 12 2 2 y Y D D U Λ D u y σ M l l l l l lI 1 1 12 12 1 1 x X D D V Λ D v x σ M c c c c c cJ 1 1 12 12 2 2 y Y D D V Λ D v y σ M c c c c c cJ Primeira dimensão abcissas Segunda dimensão ordenadas késima dimensão Primeira dimensão abcissas Segunda dimensão ordenadas késima dimensão Exemplo prático de análise de correspondência Estudante Perfil do Investidor Tipo de Aplicação Financeira Gabriela Conservador Poupança Luiz Felipe Conservador Poupança Renata Conservador CDB Guilherme Conservador Ações Kamal Moderado Poupança Rodolfo Moderado CDB Raquel Moderado CDB Anna Luiza Moderado Ações Nuno Agressivo Poupança Bráulio Agressivo CDB Estela Agressivo Ações Tabela de frequências absolutas observadas 8 4 5 5 16 4 2 20 36 o X Tabela de frequências relativas observadas em relação ao total geral 0080 0040 0050 1 0050 0160 0040 100 0020 0200 0360 o P X Tabela de frequências relativas observadas por linha massas row profiles Tabela de frequências relativas observadas por coluna massas columns profiles Tabela de frequências absolutas esperadas por linha Tabela de frequências esperadas por coluna Estatística quiquadrado 2 3 3 2 4 1 1 1165 115 044 376 3176 χ L ij g l i j ij resíduos frequências esperadas I 1 x J 1 3 1 x 3 1 4 2 χ 9488 c Cálculo das coordenadas das categorias no mapa perceptual definição de P Dl e Dc 0080 0040 0050 1 0050 0160 0040 100 0020 0200 0360 o P X 0170 0 0 0 0250 0 0 0 0580 l D 0150 0 0 0 0400 0 0 0 0450 c D Cálculo das coordenadas das categorias no mapa perceptual cálculo da matriz W WAA 12 12 A D P D l c lc 0080 0170 0150 0040 0170 0400 0050 0170 0450 0050 0250 0150 0160 0250 0400 0040 0250 0450 0020 0580 0150 0200 0580 0400 0360 0580 0450 x x x lc x x x x x x P 0055 0028 0027 0013 0060 0073 0067 0032 0099 P lc 1 1 2 2 1 1 2 2 1 1 2 2 0170 0 0 0150 0 0 0055 0028 0027 0 0250 0 0013 0060 0073 0 0400 0 0067 0032 0099 0 0 0580 0 0 0450 A 0341 0107 0096 0065 0190 0216 0227 0066 0194 A 0341 0065 0227 0341 0107 0096 0107 0190 0066 0065 0190 0216 0096 0216 0194 0227 0066 0194 W A A 0172 0009 0091 0009 0052 0044 0091 0044 0093 W Cálculo das coordenadas das categorias no mapa perceptual cálculo dos autovalores de W 0172 0009 0091 0009 0052 0044 0 0091 0044 0093 λ λ λ 1 2 0233 0084 λ λ 0233 0 0 0084 Λ 1 2 0318 λ λ TI 2 3176 0318 100 TI N χ 1 2 0233 0483 0084 0291 σ σ Dimensão Valor Singular σσσσ Inércia Principal Parcial λλλλ Percentual da Inércia Principal Total 1 0483 0233 7342 2 0291 0084 2658 Total 0318 10000 Cálculo das coordenadas das categorias no mapa perceptual cálculo dos autovetores de W 11 1 12 2 1 21 1 22 2 2 1 1 2 2 0 0 0 λ λ λ M k k k J kJ k k k J kJ I k I k k IJ kJ w v w v w v w v w v w v w v w v w v 11 12 13 11 12 13 11 12 13 0061 0009 0091 0 0009 0181 0044 0 0091 0044 0140 0 v v v v v v v v v 0822 0093 0562 1 v 11 12 13 0822 0093 0562 ν ν ν 1 0233 λ 0172 0009 0091 0009 0052 0044 0091 0044 0093 W Cálculo das coordenadas das categorias no mapa perceptual cálculo dos autovetores de W 0341 0822 0107 0093 0096 0562 0483 0065 0822 0190 0093 0216 0562 0483 0227 0822 0066 0093 0194 0562 0483 x x x x x x x x x 1 u 1 u k Av σ k k 0341 0107 0096 0065 0190 0216 0227 0066 0194 A 0822 0093 0562 1 v 1 0483 σ 0672 0398 0625 u1 Cálculo das coordenadas das categorias no mapa perceptual cálculo dos autovetores de W 11 1 12 2 1 21 1 22 2 2 1 1 2 2 0 0 0 λ λ λ M k k k J kJ k k k J kJ I k I k k IJ kJ w v w v w v w v w v w v w v w v w v 21 22 23 0418 0769 0484 ν ν ν 2 0084 λ 0172 0009 0091 0009 0052 0044 0091 0044 0093 W 21 22 23 21 22 23 21 22 23 0088 0009 0091 0 0009 0032 0044 0 0091 0044 0009 0 v v v v v v v v v 0418 0769 0484 v2 Cálculo das coordenadas das categorias no mapa perceptual cálculo dos autovetores de W 0341 0107 0096 0065 0190 0216 0227 0066 0194 A 2 0291 σ 0418 0769 0484 2 v 0341 0418 0107 0769 0096 0484 0291 0065 0418 0190 0769 0216 0484 0291 0227 0418 0066 0769 0194 0484 0291 x x x x x x x x x 2 u 2 0616 0769 0172 u Cálculo das coordenadas das abcissas e ordenadas da variável em linha perfil do investidor 1 2 1 2 1 2 0170 0 0 0672 0483 0 0250 0 0398 0625 0 0 0580 l X 1132 0553 0570 l X 1 2 1 2 1 2 0170 0 0 0616 0291 0 0250 0 0769 0172 0 0 0580 l Y 0805 0829 0122 l Y Coordenadas das abcissas Coordenadas das ordenadas Conservador Moderado Agressivo Conservador Moderado Agressivo Cálculo das coordenadas das abcissas e ordenadas da variável em coluna tipo de aplicação financeira Coordenadas das abcissas Coordenadas das ordenadas Poupança CDB Ações Poupança CDB Ações 1 2 1 2 1 2 0150 0 0 0822 0483 0 0400 0 0093 0562 0 0 0450 X c 1475 0102 0582 c X 1 2 1 2 1 2 0150 0 0 0418 0291 0 0400 0 0769 0484 0 0 0450 c Y 0582 0655 0389 c Y Cálculo das coordenadas scores das categorias das variáveis Mapa Perceptual para Perfil do Investidor e Tipo de Aplicação Financeira 10 05 00 05 10 10 05 00 05 10 15 20 Ações Agressivo CDB Moderado Poupança Conservador Análise de correspondência múltipla A análise de correspondência múltipla também conhecida como ACM é uma extensão da Anacor Permite analisar a associação entre mais de duas variáveis categóricas Recomendase que seja elaborado um teste quiquadrado para cada par de variáveis antes da elaboração da ACM Notação Observação Variável q 1 2 Q 1 categoria 1 categoria 4 categoria 2 2 categoria 2 categoria 1 categoria 1 3 categoria 1 categoria 3 categoria 1 4 categoria 3 categoria 2 categoria 2 N categoria 2 categoria 4 categoria 2 Número de categorias Jq 3 4 2 J q1Q Jq Codificação binária das categorias das variáveis originais 1 1 Q q q T J J Q I Q Q Z Z1 Z2 ZQ Exemplo prático de análise de correspondência múltipla Tabela de contingência para perfil do investidor e tipo de aplicação financeira Tabela de contingência para perfil do investidor e estado civil Tabela de contingência para tipo de aplicação financeira e estado civil Codificação binária das categorias das variáveis Matriz binária Z Inércia principal total e inércias principais parciais da matriz binária Z 8 3 1666 3 T J Q I Q 1 2 3 4 5 0602 0436 0276 0180 0172 λ λ λ λ λ 1 2 3 4 5 1666 λ λ λ λ λ TI Coordenadaspadrão das categorias das variáveis Método da matriz binária Z Mapa perceptual da análise de correspondência múltipla a partir das coordenadaspadrão 20 10 00 10 20 30 15 10 05 00 05 10 15 20 Ações Agressivo CDB Moderado Poupança Conservador Solteiro Casado Lista de Exercícios Análise de correspondência 1 Com o intuito de estudar a associação entre a percepção dos clientes sobre a qualidade do atendimento prestado e a percepção sobre o nível de preços praticados em relação à concorrência um estabelecimento supermercadista realizou uma pesquisa com 3000 consumidores dentro da loja coletando dados de variáveis com as seguintes características Variável Descrição id Variável string de 0001 a 3000 que identifica o consumidor e que não será utilizada na modelagem atendimento Variável qualitativa ordinal com cinco categorias correspondente à percepção sobre a qualidade do atendimento prestado pelo estabelecimento péssimo 1 ruim 2 regular 3 bom 4 ótimo 5 preço Variável qualitativa ordinal com cinco categorias correspondente à percepção sobre o nível de preços praticados em relação à concorrência péssimo 1 ruim 2 regular 3 bom 4 ótimo 5 Por meio da análise do banco de dados presente nos arquivos Atendimento x Preçosav e Atendimento x Preçodta pedese a Elabore uma tabela de contingência com os valores das frequências absolutas observadas em cada célula a partir do cruzamento das categorias das variáveis atendimento e preço b Apresente a tabela de frequências absolutas esperadas a partir do mesmo cruzamento c Com base na estatística ² é possível afirmar que existe associação estatisticamente significante ao nível de significância de 5 entre as variáveis atendimento e preço d Apresente a tabela de resíduos padronizados ajustados Com base nela discuta a relação de dependência entre cada par de categorias e A partir da elaboração da análise de correspondência simples entre atendimento e preço perguntase Quais os valores das inércias principais parciais de cada dimensão Quais os percentuais da inércia principal total explicados por dimensão f Com base nas coordenadas das categorias das variáveis atendimento e preço obtidas a partir da elaboração da análise de correspondência simples elabore o mapa perceptual bidimensional e faça uma breve discussão sobre o comportamento dos pontos correspondentes às categorias de cada variável 2 O Ministério da Saúde de determinado país deseja implementar uma campanha para alertar a população sobre a importância de se praticar exercícios físicos para a redução do índice de colesterol LDL mgdL Para tanto realizou uma pesquisa com 2304 indivíduos em que foram levantadas as seguintes variáveis Variável Descrição colestclass Classificação do índice de colesterol LDL mgdL a saber Muito elevado superior a 189 mgdL Elevado de 160 a 189 mgdL Limítrofe de 130 a 159 mgdL Subótimo de 100 a 129 mgdL Ótimo inferior a 100 mgdL esporte Número de vezes em que pratica atividades físicas semanalmente Ao divulgar os resultados da pesquisa o Ministério da Saúde apresentou a seguinte tabela de contingência com as frequências absolutas observadas para cada cruzamento de categorias das duas variáveis Classificação do índice de colesterol LDL mgdL Atividades físicas semanais número de vezes 0 1 2 3 4 Muito elevado 32 158 264 140 40 Elevado 22 108 178 108 58 Limítrofe 0 26 98 190 86 Subótimo 0 16 114 166 104 Ótimo 0 0 82 118 76 Note que enquanto a variável colestclass é qualitativa ordinal a variável esporte é quantitativa porém discreta e com poucas possibilidades de resposta e portanto pode ser considerada categórica para efeitos de análise de correspondência Nesse sentido pedese a Apresente a tabela com frequências absolutas esperadas b Elabore a tabela de resíduos c Apresente a tabela de valores de ² por célula e calcule o valor total da estatística ² d Com base no valor calculado da estatística ² e nos graus de liberdade da tabela de contingência é possível afirmar que o índice de colesterol LDL e a quantidade semanal de atividades esportivas não se associam de forma aleatória ao nível de significância de 5 e Construa o banco de dados a partir da tabela de contingência apresentada e por meio dele elabore uma análise de correspondência simples entre colestclass e esporte Quais os valores das inércias principais parciais de cada dimensão Quais os percentuais da inércia principal total explicados por dimensão f Com base nas coordenadas das categorias das variáveis colestclass e esporte obtidas a partir da elaboração da análise de correspondência simples elabore o mapa perceptual bidimensional e faça uma breve discussão sobre o comportamento dos pontos correspondentes às categorias de cada variável 3 O prefeito de determinado município com a intenção de avaliar a evolução anual de sua popularidade encomendou a um instituto em cada um dos três últimos anos 20X1 20X2 20X3 a realização de uma pesquisa aplicada a 3000 cidadãos escolhidos aleatoriamente Nas três pesquisas realizadas foi coletada apenas uma variável no formato Likert a partir da seguinte afirmativa Estou satisfeito com a gestão do atual prefeito A variável coletada apresenta as seguintes categorias de resposta Variável Descrição avaliação Discordo totalmente Discordo parcialmente Nem concordo nem discordo Concordo parcialmente Concordo totalmente A partir dos resultados das pesquisas foi elaborada a seguinte tabela de contingência porém os dados também podem ser acessados nos arquivos Gestão do Prefeitosav e Gestão do Prefeitodta Estou satisfeito com a gestão do atual prefeito Ano 20X1 20X2 20X3 Discordo totalmente 0 1 997 Discordo parcialmente 1 998 1005 Nem concordo nem discordo 967 1005 998 Concordo parcialmente 1066 996 0 Concordo totalmente 966 0 0 TOTAL 3000 3000 3000 Pedese a É possível afirmar que a evolução anual da popularidade do prefeito não se dá de forma aleatória ao nível de significância de 5 b Apresente a tabela de resíduos padronizados ajustados Com base nela discuta a relação de dependência entre as categorias da variável Likert e cada um dos anos em que foi aplicada a pesquisa c Com base nas coordenadas das categorias das variáveis avaliação e ano obtidas a partir da elaboração da análise de correspondência simples elabore o mapa perceptual bidimensional É possível afirmar que a popularidade do prefeito vem piorando com o decorrer dos anos