1
Métodos Quantitativos Aplicados
MACKENZIE
39
Métodos Quantitativos Aplicados
MACKENZIE
45
Métodos Quantitativos Aplicados
MACKENZIE
1
Métodos Quantitativos Aplicados
MACKENZIE
1
Métodos Quantitativos Aplicados
MACKENZIE
4
Métodos Quantitativos Aplicados
MACKENZIE
1
Métodos Quantitativos Aplicados
MACKENZIE
2
Métodos Quantitativos Aplicados
MACKENZIE
13
Métodos Quantitativos Aplicados
MACKENZIE
23
Métodos Quantitativos Aplicados
MACKENZIE
Texto de pré-visualização
ESTATÍSTICA MULTIVARIADA Prof Dr André Wakamatsu UNIVERSIDADE PRESBITERIANA MACKENZIE CCSA Centro de Ciências Sociais e Aplicadas Objetivos da Análise Fatorial O que é Exemplos de uso Tipos Exemplo na prática aplicação no SPSS Suposições Procedimento identificar situações favoráveis para o seu uso conceito de rotação como determinar o número de fatores como nomear fatores como utilizar as cargas fatoriais Análise Fatorial Técnica de análise multivariada que identifica um número relativamente pequeno de fatores que podem ser usados para representar relações entre muitas variáveis que estão interrelacionadas É uma técnica de interdependência na qual todas as variáveis são consideradas simultaneamente com o objetivo de maximizar a explicação do conjunto inteiro de variáveis e não para predizer uma variável dependente HAIR Jr et al 2005 O que é Encontrar um modo de condensar a informação contida nas variáveis originais em um pequeno conjunto de fatores com um pequena perda de informação HAIR Jr et al 2005 Se uma substancial quantidade da variância total dos dados está contida em poucos fatores o pesquisador pode usar estes fatores com objetivos de interpretação ou para análises futuras dos dados ao invés de usar muitas variáveis originais SHARMA p 6 1996 Objetivo A análise fatorial tem dois usos primários Sumarização derivar dimensões subjacentes que quando interpretadas e entendidas descrevem os dados em um número menor de conceitos que as variáveis individuais originais e a Redução de dados quando substituímos as variáveis originais pelos fatores HAIR Jr et al 2005 Objetivo A técnica permite identificar os fatores que não são diretamente observáveis a partir das variáveis conhecidas As correlações entre as variáveis são devido aos fatores que elas compartilham As variáveis dentro de cada fator são mais altamente correlacionadas com variáveis naquele fator do que com variáveis em outros fatores Estudar a correlação entre um grande número de variáveis quantitativas interrelacionadas agrupando as variáveis em poucos fatores Interpretar cada fator de acordo com o significado das variáveis Objetivo Uma pesquisa considerou a avaliação feita por consumidores da importância de 14 variáveis na escolha de um automóvel Ao invés de trabalharmos com 14 variáveis separadas a análise fatorial permitiu uma simplificação identificando 4 fatores dimensões subjacentes que foram considerados no entendimento da estrutura dos dados DILLON GOLDSTEIN p 54 55 1984 Exemplo de uso 14 Variáveis originais Análise Fatorial 4 Fatores VARIÁVEIS FATORES RI Espaço interior I Conforto C Confortável LTS Portamalas espaçoso LCR Manutenção barata II Eficiência de custo C Confortável LTS Portamalas espaçoso GGM Baixo consumo alto kml VC Variedade de cores III Estilo ML Aparência moderna SA Aparência aerodinâmica EC Chamativo GH Fácil de manejar IV Fácil uso EP Fácil para estacionar ED Fácil para dirigir Outras variáveis HRV Alto valor de revenda LE Motor grande A análise fatorial ajuda a revelar e entender a estrutura da matriz de correlação ou covariância Hair et al p93 2005 apresentam uma matriz de correlação e observam que há alguns valores altos para as correlações mas o agrupamento das variáveis não está claro Mais um exemplo de uso Já fizemos quando estudamos correlação e regressão É uma matriz com a correlação entre todas as variáveis Matriz de correlação original V1 V2 V3 V4 V5 V6 V7 V8 V9 V1 Nivel de preço 100 V2 Pessoal 042 100 V3 Política de devolução 030 074 100 V4 Disponibilidade de produto 047 049 042 100 V5 Qualidade do produto 076 040 030 047 100 V6 Diversidade de itens para cada produto 028 044 042 071 032 100 V7 Diversidade de produtos 035 049 047 071 037 072 100 V8 Serviço interno 024 071 073 042 024 031 043 100 V9 Atmosfera da loja 037 078 077 047 032 042 046 071 100 Fonte HAIR Jr et al p93 2005 Variáveis com correlações altas são agrupadas na Análise Fatorial Após agrupar as variáveis V3 V8 V9 V2 V6 V7 V4 V1 V5 V3 Política de devolução 100 V8 Serviço interno 073 100 V9 Atmosfera da loja 077 071 100 V2 Pessoal 074 071 078 100 V6 Diversidade de itens para cada produto 042 031 042 044 100 V7 Diversidade de produtos 047 043 046 049 072 100 V4 Disponibilidade de produtos 042 042 047 049 071 071 100 V1 Nível de preço 030 024 037 042 028 035 047 100 V5 Qualidade do produto 030 024 032 040 032 037 047 076 100 Fonte HAIR Jr et al p 93 2005 Experiência que os compradores têm na loja Variedade e disponibilidade dos produtos P Q CONFIRMATÓRIA utilizase quando o pesquisador deseja testar a hipótese de quanto um conjunto de dados satisfaz a uma determinada estrutura a partir de uma ideia previamente concebida e embasada teoricamente EXPLORATÓRIA é usada quando o pesquisador está interessado em entender a estrutura não diretamente observável dos dados do modelo Tipos Obs O pesquisador agrupa os indicadores em fatores com base na teoria antes de coletar dados e usa a Análise Fatorial Confirmatória para verificar se os dados observados confirmam ou não a teoria Para se aplicar a Análise Fatorial os dados devem atender diversas suposições Normalidade dos dados Adequação da amostra KMO Bartlett e MSA Métodos de extração dos fatores Método Scree plot Eigenvalue 1 Número de fatores Rotação Scores salvar ou não Options ponto de corte Exemplo na prática A teoria é importante para que se justifique a inclusão das variáveis no estudo evitando as correlações espúrias garbage in garbage out Na interpretação dos fatores novamente necessitamos recorrer à teoria Matriz de correlação com razoável número de correlações superiores a 030 Variáveis Devem ser métricas mas é possível se incluir algumas dummies codificadas como 0 e 1 Amostra mínimo 50 observações ou 5 observações por variável a ser analisada Mais aceitável seria 100 observações ou 10 por variável Quanto mais observaçãovariável melhor Suposições Arquivo fatorialOLYMP88TRADUZsav Descreve os resultados de 34 atletas numa prova de Decathlon Em primeiro lugar vamos avaliar se os dados são adequados para se fazer a análise fatorial Normalidade AnalyzeDescriptiveExplorePlotsNormality Incluímos todas as variáveis com exceção da Pontuação porque é calculada a partir das outras Exemplo na prática Tests of Normality 090 34 200 956 34 186 173 34 012 871 34 001 091 34 200 958 34 214 165 34 020 949 34 114 096 34 200 968 34 399 103 34 200 939 34 057 106 34 200 950 34 121 184 34 005 811 34 000 072 34 200 966 34 358 152 34 045 934 34 040 100m sec Salto em distância m Arremesso de peso m Salto em altura m 400 m sec 110 m com obstáculos sec Arremesso de disco m Salto com vara m Lançamento de dardo m 1500 m sec Statistic df Sig Statistic df Sig KolmogorovSmirnova ShapiroWilk This is a lower bound of the true significance Lilliefors Significance Correction a Desvios da normalidade diminuem as correlações observadas e a normalidade é necessária se formos aplicar um teste estatístico à significância dos fatores o que normalmente não é feito HAIR et al p 98 2005 Além disso pode prejudicar a solução devido à redução das correlações Correlações AnalyzeCorrelateBivariatePearson Exemplo na prática Correlations 1 691 420 364 698 751 353 627 344 254 000 013 034 000 000 041 000 046 148 34 34 34 34 34 34 34 34 34 34 691 1 391 471 636 654 375 632 446 356 000 022 005 000 000 029 000 008 039 34 34 34 34 34 34 34 34 34 34 420 391 1 321 142 489 856 643 703 202 013 022 065 422 003 000 000 000 252 34 34 34 34 34 34 34 34 34 34 364 471 321 1 275 487 376 472 338 132 034 005 065 115 004 028 005 051 458 34 34 34 34 34 34 34 34 34 34 698 636 142 275 1 655 154 521 150 554 000 000 422 115 000 383 002 398 001 34 34 34 34 34 34 34 34 34 34 751 654 489 487 655 1 403 709 350 155 000 000 003 004 000 018 000 042 380 34 34 34 34 34 34 34 34 34 34 353 375 856 376 154 403 1 620 618 288 041 029 000 028 383 018 000 000 098 34 34 34 34 34 34 34 34 34 34 627 632 643 472 521 709 620 1 557 070 000 000 000 005 002 000 000 001 693 34 34 34 34 34 34 34 34 34 34 344 446 703 338 150 350 618 557 1 045 046 008 000 051 398 042 000 001 801 34 34 34 34 34 34 34 34 34 34 254 356 202 132 554 155 288 070 045 1 148 039 252 458 001 380 098 693 801 34 34 34 34 34 34 34 34 34 34 Pearson Correlation Sig 2tailed N Pearson Correlation Sig 2tailed N Pearson Correlation Sig 2tailed N Pearson Correlation Sig 2tailed N Pearson Correlation Sig 2tailed N Pearson Correlation Sig 2tailed N Pearson Correlation Sig 2tailed N Pearson Correlation Sig 2tailed N Pearson Correlation Sig 2tailed N Pearson Correlation Sig 2tailed N 100m sec Salto em distância m Arremesso de peso m Salto em altura m 400 m sec 110 m com obstáculos sec Arremesso de disco m Salto com vara m Lançamento de dardo m 1500 m sec 100m sec Salto em distância m Arremesso de peso m Salto em altura m 400 m sec 110 m com obstáculos sec Arremesso de disco m Salto com vara m Lançamento de dardo m 1500 m sec Correlation is significant at the 001 level 2tailed Correlation is significant at the 005 level 2tailed Se a inspeção visual não revela um número substancial de correlações maiores que 03 então a análise fatorial provavelmente é inapropriada Mais dois testes para avaliar a adequação dos dados KaiserMeyerOlkin proporção de variância comum na variância das variáveis e que pode ser causada por fatores não observáveis Os dados são inaceitáveis para a análise fatorial se KMO 05 Quadro 71 da página 242 do livro do Fávero tem uma classificação dos valores de KMO Teste de esfericidade de Bartlett Testa se a matriz de correlações é uma matriz identidade correlações 0 variáveis não relacionadas Os dados são adequados à análise fatorial se este teste for significante 005 Exemplo na prática 1 0 0 0 1 0 0 0 1 Matriz Identidade Fazendo no SPSS AnalyzeDimension ReductionFactor Exemplo na prática KMO and Bartletts Test 788 211586 45 000 KaiserMeyerOlkin Measure of Sampling Adequacy Approx ChiSquare df Sig Bartletts Test of Sphericity KMO 05 ok Rejeitada Ho matriz de correlações não é uma matriz identidade Ok Quadro 71 da página 242 do livro do Fávero tem uma classificação dos valores de KMO O aumento do número de variáveis torna os testes anteriores mais sensíveis na detecção de correlações significantes entre as variáveis por isso há um teste para avaliar a adequação de cada variável MSA Medida de adequação da amostra aceitável 05 O pesquisador deve avaliar primeiramente os valores de MAS para cada variável individualmente e excluir as que se encontram no domínio inaceitável segundo Hair Anderson Tatham e Black 2005 Exemplo na prática No SPSS AnalyzeDimension ReductionFactor Exemplo na prática Antiimage Matrices 314 089 035 013 092 077 024 009 005 035 089 355 028 066 026 038 030 041 090 090 035 028 168 075 069 069 130 025 104 054 013 066 075 619 094 125 096 043 044 113 092 026 069 094 251 094 067 047 021 187 077 038 069 125 094 255 064 069 054 094 024 030 130 096 067 064 195 035 007 125 009 041 025 043 047 069 035 309 058 020 005 090 104 044 021 054 007 058 438 018 035 090 054 113 187 094 125 020 018 446 896a 265 154 030 329 271 098 028 012 094 265 908a 116 142 086 125 114 123 228 225 154 116 697a 234 337 332 717 108 385 198 030 142 234 774a 238 315 276 098 084 214 329 086 337 238 704a 370 301 170 065 559 271 125 332 315 370 798 a 289 246 161 280 098 114 717 276 301 289 688a 144 025 423 028 123 108 098 170 246 144 943a 157 055 012 228 385 084 065 161 025 157 870 a 042 094 225 198 214 559 280 423 055 042 483a 100m sec Salto em distância m Arremesso de peso m Salto em altura m 400 m sec 110 m com obstáculos sec Arremesso de disco m Salto com vara m Lançamento de dardo m 1500 m sec 100m sec Salto em distância m Arremesso de peso m Salto em altura m 400 m sec 110 m com obstáculos sec Arremesso de disco m Salto com vara m Lançamento de dardo m 1500 m sec Antiimage Covariance Antiimage Correlation 100m sec Salto em distância m Arremesso de peso m Salto em altura m 400 m sec 110 m com obstáculos sec Arremesso de disco m Salto com vara m Lançamento de dardo m 1500 m sec Measures of Sampling AdequacyMSA a Apenas uma variável apresentou MSA abaixo de 05 e será excluída da análise MSA na diagonal Excluindo a variável 1500m e refazendo a análise obtemos MSA 05 para todas as variáveis e o KMO aumentou Exemplo na prática KMO and Bartletts Test 842 190512 36 000 KaiserMeyerOlkin Measure of Sampling Adequacy Approx ChiSquare df Sig Bartletts Test of Sphericity Antes era 0788 Há vários métodos para extração os mais usados são Análise das Componentes Principais ACP Principal components é um modelo baseado na variância total entre as variáveis Os componentes principais CP são expressos em função das variáveis observadas X Recomendase quando a preocupação maior é determinar o número mínimo de fatores que respondem pela máxima variância nos dados para utilização em análises multivariadas subsequentes Extração dos fatores CPm wm1 X1 wm2 X2 wmp Xp Cargas fatoriais correlações entre os fatores e as variáveis Mede a importância das variáveis na composição de cada fator Análise Fatorial Comum AFC Principal axis factoring modelo baseado na variância comum entre as variáveis As variáveis observadas X após a padronização para a obtenção de médias zero e desvios padrão iguais a 1 são expressas em termos dos fatores comuns FC não observados É adequada quando a preocupação maior é identificar as dimensões subjacentes e a variância comum é um elemento de interesse Extração dos fatores Xm vm1 FC1 vm2 FC2 vmp FCm em ej representa o efeito dos fatores únicos Pesos fatoriais importância dos fatores na composição de cada variável são os coeficientes de regressão na equação Extração dos fatores As comunalidades são apresentadas antes e depois da extração do número desejado de fatores As comunalidades iniciais são iguais a 1 existindo tantas componentes principais quantas as variáveis Após a extração as comunalidades variam entre 0 e 1 sendo 0 quando os fatores comuns não explicam nenhuma variância da variável e 1 quando explicam toda a sua variância A comunalidade que é a soma dos quadrados das cargas fatoriais representa uma estimativa da variância de Xm que é explicada pelos fatores comuns Quando o valor das comunalidades é menor que 06 devese pensar em 1 aumentar a amostra 2 Eliminar as variáveis Há várias regras que podem ser usadas para a extração dos fatores e que podem resultar em um número de fatores extraídos maior ou menor que o necessário por isso não se deve adotar cegamente apenas uma regra Poucos fatores podem não revelar a estrutura correta Muitos fatores podem dificultar a interpretação É recomendado que se utilize mais de um critério porque a seleção do número de fatores a serem extraídos está relacionada com a fase de interpretação avaliação da estrutura Quantos fatores extrair Eigenvalue 1 significa que o fator explica pelo menos a mesma quantidade de variância que uma variável isolada Durante a análise modelagem podese relaxar essa exigência para avaliar os resultados AnalyzeDimension reductionFactorExtraction Quantos fatores extrair Quantidade de variância associada ao fator Gráfico de declive scree plot Os eigenvalues de cada fator são desenhados na ordem sucessiva de sua extração Então identificamos o cotovelo da curva e traçamos uma linha reta na parte de baixo Os fatores a serem extraídos são aqueles que se encontram na curva acima da linha reta Quantos fatores extrair Esta opção é usada quanto definimos o número de fatores a serem extraídos com base no scree plot na porcentagem acumulada da variância extraída ou mesmo com base em pesquisas anteriores Quantos fatores extrair 1 2 3 4 5 6 7 8 9 10 Component Number 0 1 2 3 4 5 6 Eigenvalue Scree Plot Pelo critério de Eigenvalue 1 foram extraídos dois fatores Às vezes o scree plot indica um fator a mais Página 244 do Fávero tem mais informações Critério de Eigenvalue Critério do Gráfico Scree Critério da porcentagem acumulada da variância extraída poderíamos decidir que iríamos extrair fatores até que se atinja 95 da variância total ideal O mínimo deve ser 60 Quanto maior na teoria deveria ser melhor Entretanto é necessário verificar se o aumento da variância explicada não implica em aumento de complexidade Quantos fatores extrair Acima de 60 Ok Não melhorou muito e complicou a interpretação Aumentando para 3 fatores A matriz de fatores contém os coeficientes utilizados para expressar as variáveis padronizadas em termos dos fatores Esses coeficientes as cargas fatoriais representam as correlações entre os fatores e as variáveis que são usadas para interpretar os fatores Rotação da matriz de fatores Matriz de fatores nãorotacionada Os fatores são correlacionados com muitas variáveis o que dificulta ou impossibilita a interpretação dos fatores A rotação da matriz de fatores é feita para tornála mais simples facilitando a interpretação Ela minimiza o número de variáveis com altas cargas sobre um fator reforçando assim a interpretação dos fatores Página 244 do Fávero tem uma boa explicação da Rotação de fatores A rotação ortogonal varimax é a mais usada tem como resultado fatores não correlacionados O que é desejável se pretendermos aplicar uma regressão posteriormente eliminamos o problema da multicolinearidade A rotação oblíqua é usada quando há um explicação teórica para que os fatores sejam correlacionados Rotação da matriz de fatores Sem rotação Fator 1 com carga alta em 9 variáveis Com rotação Fator 1 com carga alta em 4 variáveis A carga fatorial é o meio de interpretar o papel que cada variável tem na definição de cada fator As cargas fatoriais são a correlação de cada variável com o fator Cargas maiores fazem a variável ser representativa no fator Na verdade a significância da carga fatorial é fortemente dependente do tamanho da amostra utilizada então devemos levar isso em conta no momento da interpretação Interpretação dos fatores Carga fatorial Tamanho da amostra para carga fatorial significante 030 350 035 250 040 200 045 150 050 120 055 100 060 85 065 70 070 60 075 50 Hair Anderson Tatham e Black 2005 Para nomear os fatores devemos avaliar a matriz de fatores e observar o que há de comum nas variáveis que apresentaram alta carga fatorial em cada fator significante Para ficar mais fácil essa visualização podemos ocultar na matriz as cargas mais baixas não significantes Como regra geral considerase que as cargas fatoriais maiores que 030 atingem o nível mínimo cargas de 040 são consideradas mais importantes se forem maiores do que 050 serão consideradas estatisticamente significativas HAIR ANDERSON TATHAM e BLACK 2005 Interpretação dos fatores Por exemplo podemos usar 04 deveria ser o mínimo significante Na prática esta análise está prejudicada pelo tamanho da amostra 34 No SPSS AnalyzeDimension ReductionFactor Quais variáveis estão com carga alta no mesmo fator e o sinal F1 F2 Uma variável com diversas cargas altas é uma candidata à eliminação O gráfico de cargas dos fatores também pode ser útil no momento da interpretação nomear No menu Rotation há uma opção Loading Plots Só é interessante quando o número de fatores for igual a dois Com 3 fatores é um gráfico tridimensional Acima de 3 não tem representação Interpretação dos fatores Uma suposição básica da AF é que a correlação observada entre as variáveis pode ser atribuída a fatores comuns Logo as correlações entre as variáveis pode ser deduzida reproduzida a partir das correlações entre as variáveis e os fatores Resíduos devem ser pequenos 005 Ajuste do modelo No SPSS AnalyzeDimension ReductionFactor Ajuste do modelo Ajuste do modelo O método mais direto para validar os resultados é avaliar a repetitividade dos resultados com uma nova amostra HAIR ANDERSON TATHAM e BLACK p 109 2005 Os fatores obtidos na análise fatorial neste exemplo CP podem ser usados como variáveis independentes na análise de regressão CP1 W11 X1 W12 X2 Escores fatoriais valores obtidos nessa expressão substituíndose os coeficientes pelas pesos fatoriais e as variáveis pelos seus valores observados Usos dos escores fatoriais Os escores fatoriais podem ser utilizados como variáveis substitutas em análises subsequentes Os escores podem ser salvos na matriz de dados através do menu scores e a opção save as variables Usos dos escores fatoriais Component Score Coefficient Matrix 123 360 116 364 100 322 247 032 274 075 350 212 098 070 240 034 116 133 Arremesso de disco m Arremesso de peso m Lançamento de dardo m 110 m com obstáculos sec 100m sec 400 m sec Salto em altura m Salto em distância m Salto com vara m 1 2 Component Extraction Method Principal Component Analysis Rotation Method Varimax with Kaiser Normalization Component Scores Usos dos escores fatoriais Descriptive Statistics 34 2710 5066 419053 450071 34 971 1660 138509 150193 34 3910 7260 588406 643874 34 142 171 15108 6057 34 1062 1212 112235 28723 34 4744 5232 493662 117555 34 170 227 19744 10448 34 583 772 70950 37387 34 260 570 46765 49302 34 Arremesso de disco m Arremesso de peso m Lançamento de dardo m 110 m com obstáculos sec 100m sec 400 m sec Salto em altura m Salto em distância m Salto com vara m Valid N listwise N Minimum Maximum Mean Std Deviation Cálculo do valor da variável padronizada por exemplo suponha que para a variável 100 m sec o atleta tenha conseguido uma marca de 1125 segundos O valor padronizado será 0 092261 28723 0 1125 112235 Z 100m Valores Atleta 21 1 2 Padronizados 1 2 Arremesso de disco m 0123 0360 0686 0084 0247 Arremesso de peso m 0116 0364 0053 0006 0019 Lançamento de dardo m 0100 0322 1273 0128 0409 110 m com obstáculos sec 0247 0032 0879 0217 0028 100m sec 0274 0075 1032 0283 0077 400 m sec 0350 0212 0531 0186 0112 Salto em altura m 0098 0070 0329 0032 0023 Salto em distância m 0240 0034 0709 0170 0024 Salto com vara m 0116 0133 0155 0018 0021 0616 0331 Componente Componente Valores Atleta 1 1 2 Padronizados 1 2 Arremesso de disco m 0123 0360 1639 0201 0590 Arremesso de peso m 0116 0364 1085 0126 0395 Lançamento de dardo m 0100 0322 0385 0039 0124 110 m com obstáculos sec 0247 0032 0037 0009 0001 100m sec 0274 0075 0092 0025 0007 400 m sec 0350 0212 0397 0139 0084 Salto em altura m 0098 0070 2829 0276 0198 Salto em distância m 0240 0034 0896 0215 0030 Salto com vara m 0116 0133 0048 0006 0006 0235 1207 Componente Componente Usos dos escores fatoriais O atleta 1 apresenta maior valor no componente 2 por isso ele se sobressai em eventos que use mais a parte superior do corpo O atleta 21 apresenta maior valor no componente 1 por isso ele se sobressai em eventos que use mais a parte inferior do corpo Os programas disponíveis hoje em dia permitem executarmos análises que seriam inviáveis de outra forma Porém a falta de conhecimento sobre os conceitos e restrições pode nos levar a aceitar resultados errados GIGO Dica use o Results coach e o Tutorial para melhorar seu entendimento do que está sendo feito Uso e Estudo MALHOTRA Naresh K Pesquisa de Marketing uma orientação aplicada 3a Ed Porto Alegre Bookman 2001 p 503521 HAIR Joseph F ANDERSON Rolph E BLACK William C TATHAM Ronald L Análise multivariada de dados 5a Ed Porto Alegre Bookman 2005 p 89125 Fávero Luiz Paulo Et al Análise de Dados Modelagem multivariada para tomada de decisões Rio de Janeiro Elsevier 2009 Cap 7 Referências
1
Métodos Quantitativos Aplicados
MACKENZIE
39
Métodos Quantitativos Aplicados
MACKENZIE
45
Métodos Quantitativos Aplicados
MACKENZIE
1
Métodos Quantitativos Aplicados
MACKENZIE
1
Métodos Quantitativos Aplicados
MACKENZIE
4
Métodos Quantitativos Aplicados
MACKENZIE
1
Métodos Quantitativos Aplicados
MACKENZIE
2
Métodos Quantitativos Aplicados
MACKENZIE
13
Métodos Quantitativos Aplicados
MACKENZIE
23
Métodos Quantitativos Aplicados
MACKENZIE
Texto de pré-visualização
ESTATÍSTICA MULTIVARIADA Prof Dr André Wakamatsu UNIVERSIDADE PRESBITERIANA MACKENZIE CCSA Centro de Ciências Sociais e Aplicadas Objetivos da Análise Fatorial O que é Exemplos de uso Tipos Exemplo na prática aplicação no SPSS Suposições Procedimento identificar situações favoráveis para o seu uso conceito de rotação como determinar o número de fatores como nomear fatores como utilizar as cargas fatoriais Análise Fatorial Técnica de análise multivariada que identifica um número relativamente pequeno de fatores que podem ser usados para representar relações entre muitas variáveis que estão interrelacionadas É uma técnica de interdependência na qual todas as variáveis são consideradas simultaneamente com o objetivo de maximizar a explicação do conjunto inteiro de variáveis e não para predizer uma variável dependente HAIR Jr et al 2005 O que é Encontrar um modo de condensar a informação contida nas variáveis originais em um pequeno conjunto de fatores com um pequena perda de informação HAIR Jr et al 2005 Se uma substancial quantidade da variância total dos dados está contida em poucos fatores o pesquisador pode usar estes fatores com objetivos de interpretação ou para análises futuras dos dados ao invés de usar muitas variáveis originais SHARMA p 6 1996 Objetivo A análise fatorial tem dois usos primários Sumarização derivar dimensões subjacentes que quando interpretadas e entendidas descrevem os dados em um número menor de conceitos que as variáveis individuais originais e a Redução de dados quando substituímos as variáveis originais pelos fatores HAIR Jr et al 2005 Objetivo A técnica permite identificar os fatores que não são diretamente observáveis a partir das variáveis conhecidas As correlações entre as variáveis são devido aos fatores que elas compartilham As variáveis dentro de cada fator são mais altamente correlacionadas com variáveis naquele fator do que com variáveis em outros fatores Estudar a correlação entre um grande número de variáveis quantitativas interrelacionadas agrupando as variáveis em poucos fatores Interpretar cada fator de acordo com o significado das variáveis Objetivo Uma pesquisa considerou a avaliação feita por consumidores da importância de 14 variáveis na escolha de um automóvel Ao invés de trabalharmos com 14 variáveis separadas a análise fatorial permitiu uma simplificação identificando 4 fatores dimensões subjacentes que foram considerados no entendimento da estrutura dos dados DILLON GOLDSTEIN p 54 55 1984 Exemplo de uso 14 Variáveis originais Análise Fatorial 4 Fatores VARIÁVEIS FATORES RI Espaço interior I Conforto C Confortável LTS Portamalas espaçoso LCR Manutenção barata II Eficiência de custo C Confortável LTS Portamalas espaçoso GGM Baixo consumo alto kml VC Variedade de cores III Estilo ML Aparência moderna SA Aparência aerodinâmica EC Chamativo GH Fácil de manejar IV Fácil uso EP Fácil para estacionar ED Fácil para dirigir Outras variáveis HRV Alto valor de revenda LE Motor grande A análise fatorial ajuda a revelar e entender a estrutura da matriz de correlação ou covariância Hair et al p93 2005 apresentam uma matriz de correlação e observam que há alguns valores altos para as correlações mas o agrupamento das variáveis não está claro Mais um exemplo de uso Já fizemos quando estudamos correlação e regressão É uma matriz com a correlação entre todas as variáveis Matriz de correlação original V1 V2 V3 V4 V5 V6 V7 V8 V9 V1 Nivel de preço 100 V2 Pessoal 042 100 V3 Política de devolução 030 074 100 V4 Disponibilidade de produto 047 049 042 100 V5 Qualidade do produto 076 040 030 047 100 V6 Diversidade de itens para cada produto 028 044 042 071 032 100 V7 Diversidade de produtos 035 049 047 071 037 072 100 V8 Serviço interno 024 071 073 042 024 031 043 100 V9 Atmosfera da loja 037 078 077 047 032 042 046 071 100 Fonte HAIR Jr et al p93 2005 Variáveis com correlações altas são agrupadas na Análise Fatorial Após agrupar as variáveis V3 V8 V9 V2 V6 V7 V4 V1 V5 V3 Política de devolução 100 V8 Serviço interno 073 100 V9 Atmosfera da loja 077 071 100 V2 Pessoal 074 071 078 100 V6 Diversidade de itens para cada produto 042 031 042 044 100 V7 Diversidade de produtos 047 043 046 049 072 100 V4 Disponibilidade de produtos 042 042 047 049 071 071 100 V1 Nível de preço 030 024 037 042 028 035 047 100 V5 Qualidade do produto 030 024 032 040 032 037 047 076 100 Fonte HAIR Jr et al p 93 2005 Experiência que os compradores têm na loja Variedade e disponibilidade dos produtos P Q CONFIRMATÓRIA utilizase quando o pesquisador deseja testar a hipótese de quanto um conjunto de dados satisfaz a uma determinada estrutura a partir de uma ideia previamente concebida e embasada teoricamente EXPLORATÓRIA é usada quando o pesquisador está interessado em entender a estrutura não diretamente observável dos dados do modelo Tipos Obs O pesquisador agrupa os indicadores em fatores com base na teoria antes de coletar dados e usa a Análise Fatorial Confirmatória para verificar se os dados observados confirmam ou não a teoria Para se aplicar a Análise Fatorial os dados devem atender diversas suposições Normalidade dos dados Adequação da amostra KMO Bartlett e MSA Métodos de extração dos fatores Método Scree plot Eigenvalue 1 Número de fatores Rotação Scores salvar ou não Options ponto de corte Exemplo na prática A teoria é importante para que se justifique a inclusão das variáveis no estudo evitando as correlações espúrias garbage in garbage out Na interpretação dos fatores novamente necessitamos recorrer à teoria Matriz de correlação com razoável número de correlações superiores a 030 Variáveis Devem ser métricas mas é possível se incluir algumas dummies codificadas como 0 e 1 Amostra mínimo 50 observações ou 5 observações por variável a ser analisada Mais aceitável seria 100 observações ou 10 por variável Quanto mais observaçãovariável melhor Suposições Arquivo fatorialOLYMP88TRADUZsav Descreve os resultados de 34 atletas numa prova de Decathlon Em primeiro lugar vamos avaliar se os dados são adequados para se fazer a análise fatorial Normalidade AnalyzeDescriptiveExplorePlotsNormality Incluímos todas as variáveis com exceção da Pontuação porque é calculada a partir das outras Exemplo na prática Tests of Normality 090 34 200 956 34 186 173 34 012 871 34 001 091 34 200 958 34 214 165 34 020 949 34 114 096 34 200 968 34 399 103 34 200 939 34 057 106 34 200 950 34 121 184 34 005 811 34 000 072 34 200 966 34 358 152 34 045 934 34 040 100m sec Salto em distância m Arremesso de peso m Salto em altura m 400 m sec 110 m com obstáculos sec Arremesso de disco m Salto com vara m Lançamento de dardo m 1500 m sec Statistic df Sig Statistic df Sig KolmogorovSmirnova ShapiroWilk This is a lower bound of the true significance Lilliefors Significance Correction a Desvios da normalidade diminuem as correlações observadas e a normalidade é necessária se formos aplicar um teste estatístico à significância dos fatores o que normalmente não é feito HAIR et al p 98 2005 Além disso pode prejudicar a solução devido à redução das correlações Correlações AnalyzeCorrelateBivariatePearson Exemplo na prática Correlations 1 691 420 364 698 751 353 627 344 254 000 013 034 000 000 041 000 046 148 34 34 34 34 34 34 34 34 34 34 691 1 391 471 636 654 375 632 446 356 000 022 005 000 000 029 000 008 039 34 34 34 34 34 34 34 34 34 34 420 391 1 321 142 489 856 643 703 202 013 022 065 422 003 000 000 000 252 34 34 34 34 34 34 34 34 34 34 364 471 321 1 275 487 376 472 338 132 034 005 065 115 004 028 005 051 458 34 34 34 34 34 34 34 34 34 34 698 636 142 275 1 655 154 521 150 554 000 000 422 115 000 383 002 398 001 34 34 34 34 34 34 34 34 34 34 751 654 489 487 655 1 403 709 350 155 000 000 003 004 000 018 000 042 380 34 34 34 34 34 34 34 34 34 34 353 375 856 376 154 403 1 620 618 288 041 029 000 028 383 018 000 000 098 34 34 34 34 34 34 34 34 34 34 627 632 643 472 521 709 620 1 557 070 000 000 000 005 002 000 000 001 693 34 34 34 34 34 34 34 34 34 34 344 446 703 338 150 350 618 557 1 045 046 008 000 051 398 042 000 001 801 34 34 34 34 34 34 34 34 34 34 254 356 202 132 554 155 288 070 045 1 148 039 252 458 001 380 098 693 801 34 34 34 34 34 34 34 34 34 34 Pearson Correlation Sig 2tailed N Pearson Correlation Sig 2tailed N Pearson Correlation Sig 2tailed N Pearson Correlation Sig 2tailed N Pearson Correlation Sig 2tailed N Pearson Correlation Sig 2tailed N Pearson Correlation Sig 2tailed N Pearson Correlation Sig 2tailed N Pearson Correlation Sig 2tailed N Pearson Correlation Sig 2tailed N 100m sec Salto em distância m Arremesso de peso m Salto em altura m 400 m sec 110 m com obstáculos sec Arremesso de disco m Salto com vara m Lançamento de dardo m 1500 m sec 100m sec Salto em distância m Arremesso de peso m Salto em altura m 400 m sec 110 m com obstáculos sec Arremesso de disco m Salto com vara m Lançamento de dardo m 1500 m sec Correlation is significant at the 001 level 2tailed Correlation is significant at the 005 level 2tailed Se a inspeção visual não revela um número substancial de correlações maiores que 03 então a análise fatorial provavelmente é inapropriada Mais dois testes para avaliar a adequação dos dados KaiserMeyerOlkin proporção de variância comum na variância das variáveis e que pode ser causada por fatores não observáveis Os dados são inaceitáveis para a análise fatorial se KMO 05 Quadro 71 da página 242 do livro do Fávero tem uma classificação dos valores de KMO Teste de esfericidade de Bartlett Testa se a matriz de correlações é uma matriz identidade correlações 0 variáveis não relacionadas Os dados são adequados à análise fatorial se este teste for significante 005 Exemplo na prática 1 0 0 0 1 0 0 0 1 Matriz Identidade Fazendo no SPSS AnalyzeDimension ReductionFactor Exemplo na prática KMO and Bartletts Test 788 211586 45 000 KaiserMeyerOlkin Measure of Sampling Adequacy Approx ChiSquare df Sig Bartletts Test of Sphericity KMO 05 ok Rejeitada Ho matriz de correlações não é uma matriz identidade Ok Quadro 71 da página 242 do livro do Fávero tem uma classificação dos valores de KMO O aumento do número de variáveis torna os testes anteriores mais sensíveis na detecção de correlações significantes entre as variáveis por isso há um teste para avaliar a adequação de cada variável MSA Medida de adequação da amostra aceitável 05 O pesquisador deve avaliar primeiramente os valores de MAS para cada variável individualmente e excluir as que se encontram no domínio inaceitável segundo Hair Anderson Tatham e Black 2005 Exemplo na prática No SPSS AnalyzeDimension ReductionFactor Exemplo na prática Antiimage Matrices 314 089 035 013 092 077 024 009 005 035 089 355 028 066 026 038 030 041 090 090 035 028 168 075 069 069 130 025 104 054 013 066 075 619 094 125 096 043 044 113 092 026 069 094 251 094 067 047 021 187 077 038 069 125 094 255 064 069 054 094 024 030 130 096 067 064 195 035 007 125 009 041 025 043 047 069 035 309 058 020 005 090 104 044 021 054 007 058 438 018 035 090 054 113 187 094 125 020 018 446 896a 265 154 030 329 271 098 028 012 094 265 908a 116 142 086 125 114 123 228 225 154 116 697a 234 337 332 717 108 385 198 030 142 234 774a 238 315 276 098 084 214 329 086 337 238 704a 370 301 170 065 559 271 125 332 315 370 798 a 289 246 161 280 098 114 717 276 301 289 688a 144 025 423 028 123 108 098 170 246 144 943a 157 055 012 228 385 084 065 161 025 157 870 a 042 094 225 198 214 559 280 423 055 042 483a 100m sec Salto em distância m Arremesso de peso m Salto em altura m 400 m sec 110 m com obstáculos sec Arremesso de disco m Salto com vara m Lançamento de dardo m 1500 m sec 100m sec Salto em distância m Arremesso de peso m Salto em altura m 400 m sec 110 m com obstáculos sec Arremesso de disco m Salto com vara m Lançamento de dardo m 1500 m sec Antiimage Covariance Antiimage Correlation 100m sec Salto em distância m Arremesso de peso m Salto em altura m 400 m sec 110 m com obstáculos sec Arremesso de disco m Salto com vara m Lançamento de dardo m 1500 m sec Measures of Sampling AdequacyMSA a Apenas uma variável apresentou MSA abaixo de 05 e será excluída da análise MSA na diagonal Excluindo a variável 1500m e refazendo a análise obtemos MSA 05 para todas as variáveis e o KMO aumentou Exemplo na prática KMO and Bartletts Test 842 190512 36 000 KaiserMeyerOlkin Measure of Sampling Adequacy Approx ChiSquare df Sig Bartletts Test of Sphericity Antes era 0788 Há vários métodos para extração os mais usados são Análise das Componentes Principais ACP Principal components é um modelo baseado na variância total entre as variáveis Os componentes principais CP são expressos em função das variáveis observadas X Recomendase quando a preocupação maior é determinar o número mínimo de fatores que respondem pela máxima variância nos dados para utilização em análises multivariadas subsequentes Extração dos fatores CPm wm1 X1 wm2 X2 wmp Xp Cargas fatoriais correlações entre os fatores e as variáveis Mede a importância das variáveis na composição de cada fator Análise Fatorial Comum AFC Principal axis factoring modelo baseado na variância comum entre as variáveis As variáveis observadas X após a padronização para a obtenção de médias zero e desvios padrão iguais a 1 são expressas em termos dos fatores comuns FC não observados É adequada quando a preocupação maior é identificar as dimensões subjacentes e a variância comum é um elemento de interesse Extração dos fatores Xm vm1 FC1 vm2 FC2 vmp FCm em ej representa o efeito dos fatores únicos Pesos fatoriais importância dos fatores na composição de cada variável são os coeficientes de regressão na equação Extração dos fatores As comunalidades são apresentadas antes e depois da extração do número desejado de fatores As comunalidades iniciais são iguais a 1 existindo tantas componentes principais quantas as variáveis Após a extração as comunalidades variam entre 0 e 1 sendo 0 quando os fatores comuns não explicam nenhuma variância da variável e 1 quando explicam toda a sua variância A comunalidade que é a soma dos quadrados das cargas fatoriais representa uma estimativa da variância de Xm que é explicada pelos fatores comuns Quando o valor das comunalidades é menor que 06 devese pensar em 1 aumentar a amostra 2 Eliminar as variáveis Há várias regras que podem ser usadas para a extração dos fatores e que podem resultar em um número de fatores extraídos maior ou menor que o necessário por isso não se deve adotar cegamente apenas uma regra Poucos fatores podem não revelar a estrutura correta Muitos fatores podem dificultar a interpretação É recomendado que se utilize mais de um critério porque a seleção do número de fatores a serem extraídos está relacionada com a fase de interpretação avaliação da estrutura Quantos fatores extrair Eigenvalue 1 significa que o fator explica pelo menos a mesma quantidade de variância que uma variável isolada Durante a análise modelagem podese relaxar essa exigência para avaliar os resultados AnalyzeDimension reductionFactorExtraction Quantos fatores extrair Quantidade de variância associada ao fator Gráfico de declive scree plot Os eigenvalues de cada fator são desenhados na ordem sucessiva de sua extração Então identificamos o cotovelo da curva e traçamos uma linha reta na parte de baixo Os fatores a serem extraídos são aqueles que se encontram na curva acima da linha reta Quantos fatores extrair Esta opção é usada quanto definimos o número de fatores a serem extraídos com base no scree plot na porcentagem acumulada da variância extraída ou mesmo com base em pesquisas anteriores Quantos fatores extrair 1 2 3 4 5 6 7 8 9 10 Component Number 0 1 2 3 4 5 6 Eigenvalue Scree Plot Pelo critério de Eigenvalue 1 foram extraídos dois fatores Às vezes o scree plot indica um fator a mais Página 244 do Fávero tem mais informações Critério de Eigenvalue Critério do Gráfico Scree Critério da porcentagem acumulada da variância extraída poderíamos decidir que iríamos extrair fatores até que se atinja 95 da variância total ideal O mínimo deve ser 60 Quanto maior na teoria deveria ser melhor Entretanto é necessário verificar se o aumento da variância explicada não implica em aumento de complexidade Quantos fatores extrair Acima de 60 Ok Não melhorou muito e complicou a interpretação Aumentando para 3 fatores A matriz de fatores contém os coeficientes utilizados para expressar as variáveis padronizadas em termos dos fatores Esses coeficientes as cargas fatoriais representam as correlações entre os fatores e as variáveis que são usadas para interpretar os fatores Rotação da matriz de fatores Matriz de fatores nãorotacionada Os fatores são correlacionados com muitas variáveis o que dificulta ou impossibilita a interpretação dos fatores A rotação da matriz de fatores é feita para tornála mais simples facilitando a interpretação Ela minimiza o número de variáveis com altas cargas sobre um fator reforçando assim a interpretação dos fatores Página 244 do Fávero tem uma boa explicação da Rotação de fatores A rotação ortogonal varimax é a mais usada tem como resultado fatores não correlacionados O que é desejável se pretendermos aplicar uma regressão posteriormente eliminamos o problema da multicolinearidade A rotação oblíqua é usada quando há um explicação teórica para que os fatores sejam correlacionados Rotação da matriz de fatores Sem rotação Fator 1 com carga alta em 9 variáveis Com rotação Fator 1 com carga alta em 4 variáveis A carga fatorial é o meio de interpretar o papel que cada variável tem na definição de cada fator As cargas fatoriais são a correlação de cada variável com o fator Cargas maiores fazem a variável ser representativa no fator Na verdade a significância da carga fatorial é fortemente dependente do tamanho da amostra utilizada então devemos levar isso em conta no momento da interpretação Interpretação dos fatores Carga fatorial Tamanho da amostra para carga fatorial significante 030 350 035 250 040 200 045 150 050 120 055 100 060 85 065 70 070 60 075 50 Hair Anderson Tatham e Black 2005 Para nomear os fatores devemos avaliar a matriz de fatores e observar o que há de comum nas variáveis que apresentaram alta carga fatorial em cada fator significante Para ficar mais fácil essa visualização podemos ocultar na matriz as cargas mais baixas não significantes Como regra geral considerase que as cargas fatoriais maiores que 030 atingem o nível mínimo cargas de 040 são consideradas mais importantes se forem maiores do que 050 serão consideradas estatisticamente significativas HAIR ANDERSON TATHAM e BLACK 2005 Interpretação dos fatores Por exemplo podemos usar 04 deveria ser o mínimo significante Na prática esta análise está prejudicada pelo tamanho da amostra 34 No SPSS AnalyzeDimension ReductionFactor Quais variáveis estão com carga alta no mesmo fator e o sinal F1 F2 Uma variável com diversas cargas altas é uma candidata à eliminação O gráfico de cargas dos fatores também pode ser útil no momento da interpretação nomear No menu Rotation há uma opção Loading Plots Só é interessante quando o número de fatores for igual a dois Com 3 fatores é um gráfico tridimensional Acima de 3 não tem representação Interpretação dos fatores Uma suposição básica da AF é que a correlação observada entre as variáveis pode ser atribuída a fatores comuns Logo as correlações entre as variáveis pode ser deduzida reproduzida a partir das correlações entre as variáveis e os fatores Resíduos devem ser pequenos 005 Ajuste do modelo No SPSS AnalyzeDimension ReductionFactor Ajuste do modelo Ajuste do modelo O método mais direto para validar os resultados é avaliar a repetitividade dos resultados com uma nova amostra HAIR ANDERSON TATHAM e BLACK p 109 2005 Os fatores obtidos na análise fatorial neste exemplo CP podem ser usados como variáveis independentes na análise de regressão CP1 W11 X1 W12 X2 Escores fatoriais valores obtidos nessa expressão substituíndose os coeficientes pelas pesos fatoriais e as variáveis pelos seus valores observados Usos dos escores fatoriais Os escores fatoriais podem ser utilizados como variáveis substitutas em análises subsequentes Os escores podem ser salvos na matriz de dados através do menu scores e a opção save as variables Usos dos escores fatoriais Component Score Coefficient Matrix 123 360 116 364 100 322 247 032 274 075 350 212 098 070 240 034 116 133 Arremesso de disco m Arremesso de peso m Lançamento de dardo m 110 m com obstáculos sec 100m sec 400 m sec Salto em altura m Salto em distância m Salto com vara m 1 2 Component Extraction Method Principal Component Analysis Rotation Method Varimax with Kaiser Normalization Component Scores Usos dos escores fatoriais Descriptive Statistics 34 2710 5066 419053 450071 34 971 1660 138509 150193 34 3910 7260 588406 643874 34 142 171 15108 6057 34 1062 1212 112235 28723 34 4744 5232 493662 117555 34 170 227 19744 10448 34 583 772 70950 37387 34 260 570 46765 49302 34 Arremesso de disco m Arremesso de peso m Lançamento de dardo m 110 m com obstáculos sec 100m sec 400 m sec Salto em altura m Salto em distância m Salto com vara m Valid N listwise N Minimum Maximum Mean Std Deviation Cálculo do valor da variável padronizada por exemplo suponha que para a variável 100 m sec o atleta tenha conseguido uma marca de 1125 segundos O valor padronizado será 0 092261 28723 0 1125 112235 Z 100m Valores Atleta 21 1 2 Padronizados 1 2 Arremesso de disco m 0123 0360 0686 0084 0247 Arremesso de peso m 0116 0364 0053 0006 0019 Lançamento de dardo m 0100 0322 1273 0128 0409 110 m com obstáculos sec 0247 0032 0879 0217 0028 100m sec 0274 0075 1032 0283 0077 400 m sec 0350 0212 0531 0186 0112 Salto em altura m 0098 0070 0329 0032 0023 Salto em distância m 0240 0034 0709 0170 0024 Salto com vara m 0116 0133 0155 0018 0021 0616 0331 Componente Componente Valores Atleta 1 1 2 Padronizados 1 2 Arremesso de disco m 0123 0360 1639 0201 0590 Arremesso de peso m 0116 0364 1085 0126 0395 Lançamento de dardo m 0100 0322 0385 0039 0124 110 m com obstáculos sec 0247 0032 0037 0009 0001 100m sec 0274 0075 0092 0025 0007 400 m sec 0350 0212 0397 0139 0084 Salto em altura m 0098 0070 2829 0276 0198 Salto em distância m 0240 0034 0896 0215 0030 Salto com vara m 0116 0133 0048 0006 0006 0235 1207 Componente Componente Usos dos escores fatoriais O atleta 1 apresenta maior valor no componente 2 por isso ele se sobressai em eventos que use mais a parte superior do corpo O atleta 21 apresenta maior valor no componente 1 por isso ele se sobressai em eventos que use mais a parte inferior do corpo Os programas disponíveis hoje em dia permitem executarmos análises que seriam inviáveis de outra forma Porém a falta de conhecimento sobre os conceitos e restrições pode nos levar a aceitar resultados errados GIGO Dica use o Results coach e o Tutorial para melhorar seu entendimento do que está sendo feito Uso e Estudo MALHOTRA Naresh K Pesquisa de Marketing uma orientação aplicada 3a Ed Porto Alegre Bookman 2001 p 503521 HAIR Joseph F ANDERSON Rolph E BLACK William C TATHAM Ronald L Análise multivariada de dados 5a Ed Porto Alegre Bookman 2005 p 89125 Fávero Luiz Paulo Et al Análise de Dados Modelagem multivariada para tomada de decisões Rio de Janeiro Elsevier 2009 Cap 7 Referências