1
Análise de Regressão
UMG
1
Análise de Regressão
UMG
1
Análise de Regressão
UMG
1
Análise de Regressão
UMG
1
Análise de Regressão
UMG
2
Análise de Regressão
UMG
3
Análise de Regressão
UMG
1
Análise de Regressão
UMG
1
Análise de Regressão
UMG
1
Análise de Regressão
UMG
Texto de pré-visualização
1 PROF EMERSON GOMES DOS SANTOS Material base para a Unidade Curricular Análise Multivariada EPEEN Osasco 2022 2 SUMÁRIO INTRODUÇÃO GERAL 3 1 INTRODUÇÃO À ANÁLISE MULTIVARIADA 3 11 Conceitos iniciais 4 12 Diretrizes para uso de modelos para análise multivariada 5 13 Exemplos de técnicas para análise multivariada 7 2 ANÁLISE DE REGRESSÃO SIMPLES 10 21 Conceitos básicos e exemplos 10 22 Formulação e interpretação do modelo 13 23 Estimação do modelo 14 3 ANÁLISE DE REGRESSÃO MÚLTIPLA 19 31 Formulação e intepretação do modelo 19 32 Estratégia de escolha do melhor modelo 21 33 A multicolinearidade 27 4 ANÁLISE DISCRIMINANTE 32 41 Conceitos básicos e exemplos 32 42 Formulação e estimação O método de Fisher 39 43 Interpretação e outras considerações na Análise Discriminante 44 5 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FATORIAL 49 51 Formulação do modelo de Componentes Principais 49 52 Interpretação e exemplo do modelo de componentes principais 56 53 Introdução ao modelo de Análise Fatorial 59 6 ANÁLISE DE AGRUPAMENTO 65 61 Conceitos básicos 66 62 Etapas para aplicação da Análise de Agrupamentos 71 Referências Bibliográficas 85 3 INTRODUÇÃO GERAL Este material servirá como guia básico para introduzir técnicas de análise multivariada de dados fornecendo ao aluno conhecimentos acerca das técnicas para solução e interpretação de problemas em especial ligados à administração de empresas As técnicas estão estruturadas considerando planejamento estimação interpretação e validação orientadas para aplicação com foco nos conceitos fundamentais princípios estatísticos que afetam o uso prático 1 INTRODUÇÃO À ANÁLISE MULTIVARIADA Objetivo Apresentar os conceitos iniciais e as diretrizes para uso de modelos para análise multivariada Objetivos específicos Discutir e conhecer as técnicas para análise multivariada Motivação Com o surgimento da computação moderna houve uma maior disponibilidade de dados e métodos estatísticos além de um maior poder computacional Neste contexto aumentase a necessidade de uma maior capacitação para analisar e interpretar os resultados obtidos por essas técnicas Além disso a teoria de métodos estatísticos multivariados utilizase de álgebra matricial assim tornase importante algum conhecimento pelo menos nenhum receio nesta área da matemática Estrutura da aula 1 Conceitos iniciais 2 Diretrizes para uso de modelo para análise multivariada 3 Exemplos de técnicas para análise multivariada 4 11 Conceitos iniciais Variável aleatória É cada característica associada a uma unidade de análise indivíduo domicílio empresa escola etc As variáveis podem ser classificadas como dependentes ou independentes Uma variável dependente é tida como a variável resposta do estudo e pretendese avaliar como ela pode ser explicada por outras variáveis definidas como independentes As variáveis aleatórias buscam representar com precisão a característica de interesse para tanto utilizase escalas de medida As escalas de medida podem ser classificadas como quantitativa escalas contínua ou discreta ou qualitativa escala nominal ou ordinal Erros envolvidos nas análises erro de medida e erro estatístico O erro de medida está relacionado com o grau em que os valores observados não são representativos dos valores verdadeiros Para tanto avaliase duas características de uma medida a validade tida como o quanto a medida representa o que se pretende medir e a confiabilidade relacionada com o quanto a medida acerta o valor verdadeiro A presença de erro de medida distorce as relações observadas e torna a técnica menos poderosa O erro estatístico é o erro aleatório inerente aos métodos empregados A maioria das técnicas multivariadas envolvem uma etapa de estimação parte da estatística chamada de inferência Análise multivariada envolve o uso de técnicas para analisar simultaneamente múltiplas medidas chamadas variáveis Algumas técnicas são extensões de técnicas univariadas e outras foram exclusivamente desenvolvidas para lidar com os aspectos multivariados intrínsecos da dependência inerente aos dados Para ser considerada multivariada além de haver duas ou mais variáveis no estudo as variáveis devem ser aleatórias e interrelacionadas de tal maneira que seus diferentes efeitos não possam ser interpretados em separado 5 Classificação das técnicas de dependência e de interdependência Técnica de dependência Análise na qual uma ou mais variáveis são definidas como dependente de modo a serem explicadas por outras variáveis definidas como independentes São exemplos de técnicas de dependência Análise de Regressão Análise Discriminante Análise Conjunta Equações Estruturais Correlação Canônica e Análise Multivariada de Variância MANOVA Técnica de interdependência Análise simultânea de todas as variáveis Esforço para encontrar a estrutura subjacente de todo o conjunto de variáveis ou indivíduos São exemplos de técnicas de interdependência Análise Fatorial para estudar a estrutura das variáveis e Análise de Agrupamento para a estrutura dos indivíduos Análise de Correspondência e Escalonamento Multidimensional A escolha de cada técnica a ser aplicada na análise depende do objetivo da classificação das variáveis envolvidas no estudo e do tipo de escala de medida 12 Diretrizes para uso de modelos para análise multivariada A diversidade de técnicas multivariadas fornece uma poderosa capacidade analítica porém requer cuidado com a base conceitual envolvida no seu uso o que pode ser auxiliado por diretrizes básicas a Reconhecer a importância do planejamento da análise por exemplo o tamanho da amostra afeta os resultados além dos dados que serão utilizados como pontos atípicos dados faltantes e outras violações de suposições b Entender a etapa de estimação dos resultados Todas as técnicas possuem meios matemáticos ou estatísticos para alcançar seus objetivos envolvidos na análise c Estabelecer significância prática e estatística para além da significância estatística os resultados devem ter um efeito demonstrável que justifica a aplicação prática para a tomada de decisão 6 d Optar por modelos parcimoniosos buscar balancear a quantidade de variáveis no estudo A falta de variáveis importantes gera o erro de especificação quando há omissão de variáveis já a inclusão indiscriminada de variáveis muitas variáveis pode mascarar o que é relevante na análise e Validar os resultados como o erro estatístico é inerente às técnicas multivariadas eles podem ser utilizados como forma de diagnosticar a validade dos resultados obtidos f Conhecer que o uso de modelos para análise multivariada envolve várias etapas As etapas são orientações para planejar desenvolver a forma de estimação interpretar e validar qualquer análise multivariada Apesar de não ser um conjunto rígido de procedimentos servem para apoiar a documentação de todos os passos realizados no processo de análise I Definição do problema da pesquisa dos objetivos e da técnica multivariada a ser utilizada Ver o problema em termos conceituais identificando as relações a serem investigadas e os objetivos para então definir as medidas especificas variáveis e por fim a técnica a ser utilizada II Desenvolvimento do plano de análise envolve o levantamento de considerações gerais como tamanho da amostra tipos de variáveis métodos de estimação e aspectos específicos de cada técnica Estas questões especificam a formulação do modelo e exigências para a coleta de dados A estimação é a forma de obter o ajuste para os valores dos parâmetros de cada modelo III Avaliação das suposições inerentes à técnica multivariada antes da estimação do modelo devese conhecer as suposições estatísticas e conceituais de cada técnica Por exemplo normalidade linearidade independência do erro e igualdade de variâncias IV Estimação do modelo e avaliação do ajuste geral do modelo A estimação para obter os resultados esperados atende alguma característica dos dados ou maximização do ajuste O ajuste gerado é avaliado para verificar se atinge níveis aceitáveis dos critérios estatísticos nível de significância As variáveis podem ser 7 reespecificadas até a obtenção de um modelo adequado os esforços envolvem por exemplo tratar observações atípicas ou influentes V Interpretação dos resultados Identificar evidência empírica de relações multivariadas nos dados da amostra que possam ser generalizadas para a população total A interpretação também pode conduzir a reespecificações das variáveis eou formulação do modelo assim o modelo é estimado e interpretado novamente VI Validação do modelo multivariado Análises para avaliar o quanto os resultados são generalizáveis 13 Exemplos de técnicas para análise multivariada Análise de Regressão Objetivo Explicar as mudanças na variável dependente como resposta às mudanças nas variáveis independentes Isto é feito a partir do ajuste de uma equação de regressão Exemplo Explicar as vendas de uma empresa a partir de informações sobre suas despesas em publicidade número de vendedores e número de lojas que vendem seus produtos Análise Discriminante Objetivo Entender diferenças entre grupos e realizar classificações de elementos a esses grupos com base em diversas variáveis independentes Exemplo Discriminar bons e maus pagadores com base em informações cadastrais e socioeconômicas Análise conjunta Objetivo Avaliar a percepção ou a importância de atributos e de seus níveis dada por consumidores a produtos serviços ou ideias 8 Exemplo Considere preço qualidade e cor como atributos de um produto cada um com três níveis possíveis respectivamente 10 20 e 30 ruim regular e ótimo vermelho amarelo e azul Avaliase apenas um subconjunto por exemplo 9 ao invés de todas as combinações possíveis 27 o pesquisador saberá a importância de cada atributo e de cada nível E por fim é possível simular um produto ótimo dada aceitação do consumidor Modelagem de Equações Estruturais Objetivo Permite estudar relações para cada conjunto de variáveis dependentes em uma série de regressões múltiplas ajustadas simultaneamente É caracterizada por dois componentes Modelo estrutural e modelo de medida É uma generalização de várias outras técnicas como a análise de regressão e análise fatorial Exemplo Para avaliar a satisfação de funcionários de uma empresa identificase fatores que a afetam por exemplo o apoio do supervisor ambiente de trabalho e desempenho no emprego Além disso identificase as relações entre esses fatores o apoio do supervisor e o ambiente de trabalho como explicativas do desempenho no emprego Logo existem duas relações separadas mas interrelacionadas Para avaliar estas relações levantase escalas de múltiplos itens para cada um dos quatro constructos A modelagem de equações estruturais fornece um meio de avaliar cada uma das relações simultaneamente no lugar de analises separadas e incorpora as escalas de múltiplos itens na análise para explicar o erro de medida associado com cada escala Analise Fatorial e Análise de Componentes Principais Objetivo Encontrar um meio de condensar reduzir a informação contida em diversas variáveis em um conjunto menor de variáveis com uma perda mínima de informação Exemplo Avaliar a opinião de clientes de um determinado restaurante a partir de diversas itens esses vários itens podem ser reduzidos em um número menor de fatores ou componentes por exemplo sabor temperatura e frescor da comida como qualidade da comida tempo de espera limpeza e atendimento como qualidade do serviço 9 Análise de Agrupamentos Objetivo Identificar grupos ou classificar elementos em um número menor de grupos mutuamente excludentes com base na similaridade entre os elementos Em geral envolve escolher essa medida de similaridade agrupar e caracterizar os grupos formados Exemplo A partir de dados sobre diversas dimensões da percepção de clientes preço qualidade etc uma empresa pode determinar subgrupos para campanhas promocionais 10 2 ANÁLISE DE REGRESSÃO SIMPLES Objetivo Apresentar a regressão linear simples um modelo linear para quantificar a relação entre duas variáveis Objetivo específicos Entender como os parâmetros da regressão linear simples são estimados e avaliar a associação entre variáveis Motivação Conhecer a regressão linear simples como um método de modelagem para avaliar a relação entre duas variáveis isto feito a partir da explicação de mudanças na variável dependente quantitativa a partir das mudanças das variáveis independentes quantitativas ou qualitativas Estrutura da aula 1 Conceitos básicos e exemplos 2 Formulação e interpretação do modelo 3 Estimação do modelo 21 Conceitos básicos e exemplos Em alguns problemas é de grande interesse verificar se duas ou mais variáveis estão relacionadas de alguma forma Podese expressar esta relação estabelecendo um modelo chamado de análise de regressão ele ajuda a entender como determinadas variáveis influenciam outra variável ou seja verifica como o comportamento de uma variável X pode explicar o comportamento de outra Y Se estamos interessados na relação de apenas uma variável independente com a variável resposta temos uma Regressão Linear Simples Mas se queremos avaliar a relação de uma variável com duas ou mais variáveis explicativas a análise será denominada Regressão Linear Múltipla 11 Os objetivos de uma análise de regressão podem ser resumidos em a Predição Utilizar os valores de uma variável X que estão dentro do intervalo de variação estudado para obter valores correspondentes de outra variável Y A utilização de valores fora desse intervalo recebe o nome de extrapolação e deve ser usada com muito cuidado pois o modelo adotado pode não ser correto fora do intervalo estudado b Seleção de variáveis A análise de regressão pode auxiliar no processo de seleção de variáveis utilizando procedimentos que eliminam aquelas variáveis cuja contribuição não seja importante e mostrando quais são as variáveis que afetam significativamente a variação de Y c Estimação de parâmetros Estimar parâmetros ou ajustar um modelo aos dados significa obter valores ou estimativas para os parâmetros e possibilita a interpretação do fenômeno estudado na busca por um significado prático d Inferência Realizar inferências sobre os parâmetros tais como testes de hipóteses e intervalos de confiança Considere um resumo das etapas para uso como I Planejamento Identificação de quantas e quais características variáveis explicativas ou independentes atuais e passadas mais explicam a característica ou evento de interesse variável resposta ou dependente II Estimação de uma equação que relaciona estas características observáveis III Interpretação Existem modelos de regressão específicos para cada tipo de variável resposta Se a variável resposta for quantitativa contínua o modelo de regressão mais indicado é o modelo de regressão linear IV Validação Feita observando as suposições para o modelo As suposições refletem que o modelo seja linear que não tenha pontos atípicos que os erros sejam independentes e com distribuição Normal e que a variância seja constante A suposição de normalidade é necessária para a elaboração dos testes de hipóteses e obtenção de intervalos de confiança Uma seção sobre a análise de resíduos dará mais detalhes sobre os erros 12 Observe os dois exemplos a seguir Exemplo 1 Considere uma amostra aleatória de 10 vendedores de uma empresa e as variáveis Teste Pontos obtidos em um teste de aptidão e Vendas Vendas médias mensais nos últimos 12 meses R mil Exemplo 2 Considere uma amostra aleatória de 10 famílias e as variáveis Renda Renda Bruta anual R mil e Gasto Percentual da renda gasto com assistência médica R mil 13 22 Formulação e interpretação do modelo Considere duas variáveis X e Y se Y é função linear de X podese estabelecer uma regressão linear simples cujo modelo estatístico é Onde Yi é uma variável aleatória e representa o valor da variável dependente na observação i xi representa o valor da variável independente na observação i εi é uma variável aleatória que representa o erro resíduos ou desvios e são os parâmetros do modelo que serão estimados e que definem a reta de regressão n é o tamanho da amostra Interpretação do modelo O parâmetro é chamado intercepto ou coeficiente linear e representa o ponto em que a reta corta o eixo Y dos ys quando x0 Já o parâmetro representa a inclinação da reta e é dito coeficiente de regressão Além disso temos que para um aumento de uma unidade na variável x o valor esperado de Y dado x aumenta unidades A interpretação geométrica dos parâmetros e pode ser vista nas figuras a seguir 14 O modelo deve ser condizente com o aspecto da distribuição dos dados para representar o fenômeno em estudo o que pode ser visto com um gráfico de dispersão dos dados 23 Estimação do modelo O primeiro passo na análise de regressão é obter as estimativas e dos parâmetros do modelo O objetivo é estimar os parâmetros e de modo que os desvios entre os valores observados e estimados sejam mínimos O Método de Mínimos Quadrados consiste em minimizar a soma dos quadrados dos desvios L como na expressão 15 Derivase em relação aos parâmetros e simplificase as equações e resolve se o sistema de equações para obter ou seja em que são as médias de x e da variável Y respectivamente Após outras manipulações nas equações concluise que Os valores de e assim determinados são chamados Estimadores de Mínimos Quadrados EMQ Para facilitar o cálculo podemos considerar n pares de valores observados x1y1xnyn 16 As quantidades e são as médias amostrais de x e y Já as quantidades e são as somas dos quadrados dos desvios das médias e é a soma dos produtos cruzados dos desvios de x e y Desta forma as estimativas de mínimos quadrados de e em termos desta notação são Relação linear entre variáveis Correlação Uma forma de verificar a associação linear para descrever a relação entre as variáveis é feita pela correlação O coeficiente de correlação linear de Pearson mede o grau de associação linear entre as duas variáveis Denominamos o coeficiente de correlação linear pela letra r O valor pode ser obtido pelas equações a seguir Ele varia entre os valores 1 e 1 e mede o quanto a relação é negativa ou positiva conforme aplicação nos exemplos a seguir O quadrado do coeficiente de correlação linear r é chamado de coeficiente de determinação o qual é denominado pela letra R Assim temos que R r2 17 Exemplo 1 Considere uma amostra aleatória de 10 vendedores de uma empresa e as variáveis Teste Pontos obtidos em um teste de aptidão e Vendas Vendas médias mensais nos últimos 12 meses R mil Vendedor Teste X Vendas Y X2 Y2 XY 1 70 108 4900 11664 7560 2 62 100 3844 10000 6200 3 25 14 625 196 350 4 42 21 1764 441 882 5 40 55 1600 3025 2200 6 84 97 7056 9409 8148 7 56 60 3136 3600 3360 8 90 138 8100 19044 12420 9 28 39 784 1521 1092 10 45 22 2025 484 990 Soma 542 654 33834 59384 43202 Exercício Calcule 18 Exemplo 2 Considere uma amostra aleatória de 10 famílias e as variáveis Renda Renda Bruta anual R mil e Gasto Percentual da renda gasto com assistência médica R mil Família Renda X Gasto Y X2 Y2 XY A 12 72 144 52 86 B 16 74 256 55 118 C 18 70 324 49 126 D 20 65 400 42 130 E 28 66 784 44 185 F 30 67 900 45 201 G 40 60 1600 36 240 H 48 56 2304 31 269 I 50 60 2500 36 300 J 54 55 2916 30 297 Soma 316 65 12128 420 1952 Exercício Calcule rrenda gasto 19 3 ANÁLISE DE REGRESSÃO MÚLTIPLA Objetivo Apresentar a regressão linear múltipla como extensão da regressão linear simples e como um modelo linear para quantificar a relação entre duas ou mais variáveis independentes e uma variável dependente Objetivos específicos Entender as técnicas para selecionar o melhor modelo e como a multicolinearidade entre variáveis independentes afetam o modelo Motivação Conhecer a regressão linear múltipla como um método de modelagem para relacionar duas ou mais variáveis isto feito a partir da explicação de mudanças na variável dependente quantitativa como resposta das mudanças das variáveis independentes quantitativas ou não Estrutura da aula 1 Formulação e interpretação do modelo 2 Estratégia de escolha do melhor modelo 3 A multicolinearidade 31 Formulação e intepretação do modelo No capítulo anterior descrevemos a relação de apenas uma variável independente com outra variável denominada dependente em um modelo de Regressão Linear Simples Mas se queremos avaliar a relação dessa variável dependente com duas ou mais variáveis explicativas a análise será denominada Regressão Linear Múltipla Os objetivos na regressão múltipla podem ser resumidos como sendo os mesmos já apresentados para a regressão linear simples Predição seleção de variáveis estimação de parâmetros e inferência Porém o modelo e a interpretação sofrem uma pequena alteração como será visto a seguir 20 Considere as variáveis x1 x2xp e Y se Y é função linear das variáveis X podese estabelecer uma regressão linear múltipla cujo modelo estatístico é onde são os parâmetros ou coeficientes do modelo Sem perder a generalização considere o modelo com apenas duas variáveis x1 e x2 assim corresponde ao intercepto do plano com o eixo z Se o parâmetro fornece a resposta média nesse ponto Caso contrário não é possível interpretar o parâmetro indica uma mudança na resposta média a cada unidade de mudança em quando as demais variáveis são mantidas fixas indica uma mudança na resposta média a cada unidade de mudança em quando as demais são mantidas constantes e assim por diante Representação gráfica A representação gráfica considerando por exemplo y como sendo as vendas médias x1 a renda média e x2 o tamanho da população em uma dada região poderia ser representado por 21 32 Estratégia de escolha do melhor modelo Seguindo as etapas definidas no capítulo 1 inicialmente definese o problema de pesquisa para desenvolver o plano de análise Neste ponto a escolha das variáveis a serem utilizadas no modelo pode ser feita com base em teoria sustentação teórica e a definição do tamanho da amostra de acordo com a capacidade que se queira detectar diferenças significativas e segundo a generalização dos resultados As demais etapas estão relacionadas à avaliação das suposições inerentes à técnica multivariada para garantir que as suposições estatísticas estejam satisfeitas e que o modelo seja valido Isso é feito pela análise de resíduos Os resíduos refletem as suposições que devem ser validadas para que os resultados sejam confiáveis combinando técnicas informais gráficos e formais testes Testar as suposições para cada variável independente e para a equação como um todo e usar análises gráficas para verificar e tratar falhas nas suposições A análise de resíduos ou análise de diagnóstico é um conjunto de técnicas utilizadas para investigar a adequabilidade de um modelo com base nos resíduos Os resíduos são dados pela diferença entre a variável resposta observada Yi e a variável resposta estimada definidos como Há 5 suposições que precisam ser verificadas i Independência ii Linearidade iii Normalidade iv Homocedasticidade v Não existência de pontos atípicos 22 i A independência pode ser avaliada com um gráfico de dispersão dos resíduos e a ordem dos dados de cada variável Há indícios de independência quando não há nenhum padrão aparente no gráfico Há também testes de hipóteses com o propósito de avaliar a independência dos resíduos como o teste de DurbinWatson que avalia a autocorrelação Correções possíveis para atender essa suposição seria considerar a inclusão de outros fatores omitidos até então ii e iv A homocedasticidade em especifico se refere à variável dependente Y exibir níveis parecidos de variabilidade ao longo do domínio das variáveis independentes x Tanto a linearidade quanto a homocedasticidade de qualquer relação bivariada são examinadas por meio do gráfico de dispersão dos resíduos e dos valores ajustados Dados distribuídos aleatoriamente em torno do zero indicam uma variância constante e linearidade Neste caso alguns testes para verificar esta hipótese seriam o teste de Levene M de Box BreuschPagan e GoldfeldQuandt Possíveis correções incluem a transformação dos dados a inclusão de relações não lineares entre as variáveis ou uso de regressão não linear 23 iii Quanto à normalidade o diagnóstico mais simples seria feito pelo histograma dos resíduos porém o gráfico mais utilizado denominase gráfico de probabilidade normal Um gráfico de probabilidade normal compara o comportamento dos resíduos com os quantis da distribuição normal acumulada Assim se a distribuição dos resíduos é próxima de uma distribuição normal o gráfico mostrará os dados próximo de uma reta pois os valores dos resíduos ordenados se distribuem como os quantis da distribuição normal acumulada Teste para verificação de normalidade mais conhecidos testes de ShapiroWilk AndersonDarling e KolmogorovSmirnov As possíveis correções na falta dessa suposição seria utilizar transformações nos dados ou uso de outros modelos de regressão que considerem a distribuição da variável diferente da normal 24 v Diagnóstico de pontos atípicos Pontos atípicos são observações com características notavelmente diferentes das outras observações Os pontos atípicos podem ter efeito na estimação do modelo e consequentemente na interpretação dos resultados até os invalidando Graficamente a detecção de pontos atípicos pode ser feita observando os pontos que se destacam no gráfico de dispersão dos resíduos e dos valores ajustados Porém existem medidas desenvolvidas para avaliar diferentes formas de influência de pontos e respectivos testes de hipóteses 25 Seleção de uma técnica de estimação para encontrar o melhor modelo Dentre todas as variáveis explicativas disponíveis devemos encontrar um subconjunto de variáveis importantes para explicar a variável resposta do modelo Para tanto temos dois objetivos conflitantes Não perder informação Obter o máximo de informação por meio de um modelo com tantas variáveis independentes possíveis Não utilizar informações irrelevantes Diminuir a variância da estimativa e o custo da coleta por meio de um modelo com menor número possível de variáveis Estratégias no processo de seleção de variáveis a Especificação confirmatória considera procurar justificativa teórica para escolha das variáveis que ficarão no modelo o que evita ser guiado por informação empírica b Abordagem combinatória considera todos os subconjuntos possíveis de variáveis explicativas a partir de todos os modelos possíveis e critérios de avaliação para selecionar o melhor deles Criticado e pouco aplicado devido a sua natureza não teórica pode tornarse trabalhoso devido a quantidade de modelos possíveis c Busca sequencial considera a busca do melhor subconjunto de variáveis explicativas sem considerar todos os possíveis subconjuntos Define uma forma de seleção automática acrescentando ou eliminando variáveis até que alguma medida de critério seja alcançada Métodos Stepwise inclusão e eliminação Forward inclusão e Backward eliminação Na prática assumimos que a correta especificação funcional das variáveis explicativas é conhecida e que não há pontos atípicos ou influentes Entretanto o ideal seria inicialmente identificar esses pontos atípicos e eventuais colinearidade e heteroscedasticidade realizar quaisquer transformações que sejam necessárias e só então aplicar seleção de variáveis 26 O critério para a adição ou remoção de covariáveis é geralmente baseado em estatísticas e outros critérios comparando modelos com e sem as variáveis em questão Procedimento Forward Ajustase o modelo com a variável com maior correlação amostral com a variável resposta digamos que seja calculase a estatística para testar se ela realmente é significativa para o modelo A variável entra no modelo se a estatística mostrar sua importância O próximo passo é encontrar uma variável com maior correlação com a resposta considerando a presença da primeira variável no modelo Esta correlação é chamada de correlação parcial que é a correlação dos resíduos do modelo com os resíduos do modelo j23p Supondo que a maior correlação parcial com y seja ela é selecionado para o modelo O processo é repetido ou seja variável com maior correlação parcial com y é adicionada no modelo até que não seja incluída mais nenhuma variável explicativa no modelo Procedimento Backward Iniciase com todas as variáveis e depois por etapas verifica se cada uma pode ser ou não eliminada A decisão de retirada da variável é tomada baseandose também em testes que são calculados para cada variável como se ela fosse a última a entrar no modelo Para cada variável explicativa calculase uma estatística e o menor valor entre elas mostra a qual das variáveis deve ser eliminada Ajustase novamente o modelo agora com uma variável a menos a eliminada e o processo para quando não for mais possível eliminar variáveis Procedimento Stepwise Combina os dois métodos Forward e Backward assim uma variável adicionada no modelo no passo anterior pode ser redundante para o modelo por causa do seu 27 relacionamento com as outras variáveis e se for o caso ela pode ser removida do modelo Iniciase com uma variável aquela que tiver maior correlação com a variável resposta A cada passo do forward depois de incluir uma variável aplicase o backward para ver se será descartada alguma variável Continuamos o processo até não incluir ou excluir nenhuma variável Assim a regressão Stepwise requer dois valores de corte de entrada e de saída Alguns autores preferem escolher o mesmo valor mas isso não é necessário Se o de entrada for menor será mais difícil remover variáveis do que adicionar variáveis e caso contrário será mais difícil adicionar que remover 33 A multicolinearidade Um fator crucial ao considerar mais do que uma variável independente ou explicativa é levar em conta o papel desempenhado por cada variável independente sobre a variável dependente A multicolinearidade é uma medida relacionada com o quanto há de interrelacionamento entre as variáveis independentes A primeira indicação de colinearidade pode ser vista na matriz de correlações para os valores acima de 09 Medidas para multicolinearidade Tolerancia e VIF Tolerância é a quantidade de variabilidade da variável independente selecionada não explicada pelas outras variáveis independentes Pode ser definida estimar um modelo considerando cada variável independente como dependente explicada pelas demais independentes e a tolerância será 1 R2 valores altos significa pequeno grau de multicolinearidade VIF Fator de inflação de variância é o inverso da tolerância a raiz do VIF é o grau em que o erro padrão aumentou devido a multicolinearidade tolerância de 25 teríamos VIF igual a 4 e assim o erro padrão dobra por conta da multicolinearidade 28 Possíveis efeitos nas estimativas da regressão com dados multicolineares Efeitos na estimação com o aumento do erro padrão dificultasse a capacidade de captar diferenças significativas dos coeficientes Pode inverter sinais de alguns coeficientes Variabilidade Compartilhada Correlação parcial correlação de uma variável independente X com a dependente Y removendo os efeitos das outras independentes sobre X e Y Representa o efeito preditivo incremental desta independente a partir do efeito coletivo de todas as independentes Serve para identificar variáveis independentes com maior poder preditivo e portanto a ser acrescentada em um modelo que já possui outras variáveis independentes 29 Correlação semiparcial correlação de uma variável independente X com a dependente Y removendo os efeitos das outras independentes sobre X Representa a única relação prevista por uma variável independentes depois que as previsões compartilhadas com todas as independentes são desconsideradas usada na distribuição de variância entre as variáveis independentes Essa correlação ao quadrado fornece a variância única explicada pela variável independente Exemplo para os cálculos das correlações e variância compartilhada Y X1 X2 Y 1 X1 06 1 X2 05 07 1 Apesar de X1 e X2 estarem bem relacionadas com Y elas possuem correlação alta entre si portanto precisamos verificar a variância compartilhada A correlação semiparcial entre Y e X1 enquanto se controla X2 é calculada por CorrY X1X2 CorrYX1 CorrYX2CorrX1X2 raiz 1 CorrX1X22 06 0507 raiz1072 035 e portanto variância única explicada por X101225 sendo a variância compartilhada 0620122502375 CorrY X2X1 CorrYX2 CorrYX1CorrX2X1 raiz 1 CorrX2X12 05 0607 raiz1072 011 e portanto variância única explicada por X200125 sendo a variância compartilhada 0520012502375 Sendo a variância total explicada por X2052 025 Resumo dos cálculos a Variância única explicada por X1 01225 e por b X2 00125 c Variância compartilhada por X1X2 02375 e Variância total explicada por X1X2abc 03725 d Variância não explicada por X1X2 1 abc 06275 30 Graficamente Exercício Considere a matriz de correlações a seguir W V1 V2 W 1 V1 0293 1 V2 0631 0642 1 Calcule a Variância única explicada por V1 e por b V2 c Variância compartilhada por V1V2 e Variância total explicada por V1 e V2 d Variância não explicada por V1V2 X1 a c d b Y X2 31 Ações corretivas para multicolinearidade Usar modelo apenas para previsão não interpretar coeficientes Eliminar ou substituir variáveis tomando cuidado com o erro de especificação ou usar métodos mais sofisticados como regressão bayesiana por exemplo regressão ridge ou usar componentes principais Se colinearidade nula o gráfico abaixo mostra R261 e X1X2 preveem 36 e 25 da variabilidade da variável independente Porém conforme a colinearidade aumenta observase Interação entre variáveis Podese considerar a criação de variável que representa a interação existente entre as variáveis e Se a interação está presente e é significativa o efeito de na resposta média depende do nível de e analogamente o efeito de na resposta média depende do nível de Neste caso quando a interação é significante o efeito de cada uma das variáveis e devem ser combinados ou seja dependem do nível das demais variáveis independentes por exemplo podemos avaliar o efeito total de precisa olhar para um valor específico de Assim teríamos o modelo 32 4 ANÁLISE DISCRIMINANTE Objetivo Apresentar os fundamentos da técnica Análise Discriminante Objetivos específicos Introduzir as condições para o uso da Análise Discriminante e outras técnicas utilizadas quando a variável dependente é qualitativa categorizada Motivação Conhecer técnicas para discriminar diferenciar elementos a partir da estimação de funções que separam os grupos formados pela variável dependente Também podese utilizar a técnica para classificar elementos em grupos pré definidos Estrutura da aula 1 Conceitos básicos e exemplos 2 Formulação e estimação O método de Fisher 3 Interpretação e outras considerações na Análise Discriminante 41 Conceitos básicos e exemplos Exemplo 1 Uma empresa irá lançar um novo produto e precisa determinar se ele será bem sucedido comercialmente para tanto será verificado se seus prováveis consumidores comprariam ou não o produto A empresa planejou um estudo elaborando um questionário com 4 perguntas as três primeiras para avaliar o produto em três itens em uma escala de 1 a 10 de péssimo até excelente a Durabilidade b Desempenho c Estilo Por fim uma quarta questão sobre a compra ou não do produto 33 Tabela de dados coletados Intenção de Compra Durabilidade X1 Desempenho X2 Estilo X3 Compraria Individuo 1 8 9 6 Individuo 2 6 7 5 Individuo 3 10 6 3 Individuo 4 9 4 4 Individuo 5 4 8 2 Mediana 8 7 4 Não Compraria Individuo 6 5 4 7 Individuo 7 3 7 2 Individuo 8 4 5 5 Individuo 9 2 4 3 Individuo 10 2 2 2 Mediana 3 4 3 Diferençamediana 5 3 1 Qual das três variáveis melhor discrimina Analisando as medianas consigo verificar quais das três poderiam melhor discriminar os indivíduos de acordo com a intenção de compra Assim posso construir uma função que melhor discrimine e com a definição de um ponto de corte classificar os indivíduos A partir de X1 poderia por exemplo utilizar o corte no escore 6 assim indivíduos com valores iguais ou maior do que 6 seriam classificados como Compraria Deste modo um deles seria mal classificado indivíduo 5 Combinada com a variável X1 a variável X2 poderia ajudar na classificação do indivíduo 5 conforme gráfico a seguir Observase também que X3 é a pior variável para separar os indivíduos 34 Graficamente Qual função poderíamos considerar Conclusão X1 e X2 poderiam ser utilizadas em conjunto para classificar os elementos por exemplo de acordo com a função Z X1X2 Qual ponto de corte para maximizar a classificação correta das unidades Podemos usar estas funções e calcular valores para cada observação na tabela a seguir foi calculado X1X2 que classifica corretamente 100 das observações em seus respectivos grupos 35 Intenção de Compra Durabilidade X1 Desempenho X2 X1X2 Compraria Individuo 1 8 9 17 Individuo 2 6 7 13 Individuo 3 10 6 16 Individuo 4 9 4 13 Individuo 5 4 8 12 Mediana 8 7 Não Compraria Individuo 6 5 4 9 Individuo 7 3 7 10 Individuo 8 4 5 9 Individuo 9 2 4 6 Individuo 10 2 2 4 Mediana 3 4 Diferençamediana 5 3 36 Exemplo 2 Possibilidade de clientes de uma concorrente trocarem de fornecedor Entrevistas com 15 clientes identificaram uma classificação entre uma das 3 possibilidades Definitivamente trocaria indeciso e definitivamente não trocaria Além de uma avaliação do atual fornecedor em duas características Competitividade de preço X1 e Nível de serviço X2 considerando uma escala de 1 a 10 de péssimo até excelente As avaliações podem prever a possibilidade de troca Seguem os dados coletados Avaliação do fornecedor Grupo 1 Definitivamente trocaria Competitividade preço X1 Nível de serviço X2 Individuo 1 2 2 Individuo 2 1 2 Individuo 3 3 2 Individuo 4 2 1 Individuo 5 2 3 Mediana 2 2 Grupo 2 Indeciso Individuo 6 4 2 Individuo 7 4 3 Individuo 8 5 1 Individuo 9 5 2 Individuo 10 5 3 Mediana 5 2 Grupo 3 Definitivamente não trocaria Individuo 11 2 6 Individuo 12 3 6 Individuo 13 4 6 Individuo 14 5 6 Individuo 15 5 7 Mediana 4 6 37 Qual das variáveis melhor discrimina Observando e analisando as medianas para as variáveis X1 e X2 consigo um ponto de corte A variável X1 diferencia bem os grupos 1 dos grupos 2 e 3 A variável X2 diferencia bem o grupo 3 dos grupos 1 e 2 Graficamente Qual função poderíamos criar Nenhuma das variáveis utilizada individualmente classificaria bem os grupos Para mais grupos podemos utilizar mais funções discriminantes cada função define um escore Como temos três grupos podemos construir duas funções discriminantes Podemos pensar em duas funções que combinam X1 e X2 e cujo valor resultante do cálculo possibilita a separação entre os grupos Considere os pesos mais simples 0 ou 1 teríamos as duas funções abaixo e dois escores para cada respondente Z1 10 X1 0 X2 Z2 0 X1 10 X2 38 As duas funções podem ser eixos neste exemplo coincidem com as variáveis X1 e X2 e pode ser facilmente mostrado no gráfico a seguir E assim podemos definir os cortes por exemplo X135 e x2 45 39 42 Formulação e estimação O método de Fisher Os objetivos na Análise Discriminante podem ser resumidos como sendo similares aos já apresentados para a regressão linear porém com variável de interesse qualitativa variável que define os grupos Assim com a análise é possível fazer Predição no caso de classificar novas observações e seleção de variáveis quando da escolha das características mais relevantes para diferenciar os grupos em estudo Por fim estimação e inferência é feita com a formulação do modelo como será visto a seguir A análise envolve determinar funções discriminantes como combinação linear das variáveis independentes Sem perda de generalidade considere a discriminação e classificação quando o número de populações grupos envolvidas é igual a dois A e B Considere que foram selecionadas uma amostra de cada população nA e nB respectivamente Na figura acima temos o comportamento de Y uma variável independente para as duas populações duas curvas em 3 situações hipotéticas 3 quadros As áreas comuns intersecção entre as curvas indicam regiões em que é difícil diferenciar as duas populações 40 Note que essa região de intersecção diminui quando as médias de Y para as duas populações são mais distantes entre si ver quadros de acordo com seta horizontal ou quando a variância de Y é menor ver quadros de acordo com seta vertical Com isso em mente o método de Fisher busca encontrar a melhor definição de Y no sentido de maximizar a distância entre as duas médias grupo A e grupo B e minimizar sua variabilidade e requer que as matrizes de covariância do vetor X para as populações sejam iguais A ideia é obter a combinação linear das variáveis que melhor discrimine as duas populações ou melhor obter a combinação linear que maximiza a razão entre a diferença das médias entre os grupos e sua variabilidade A essa razão dáse o nome de a função discriminante linear de Fisher Graficamente teríamos a seguinte representação do método de Fisher para duas variáveis X1 e X2 Na prática utilizase os valores amostrais e realizase o cálculo matricial 𝑦 𝑥𝐴 𝑥𝐵𝑇 𝑆𝑝 1 𝑥 Que representa o produto multiplicação entre os componentes Diferença das médias das variáveis entre os grupos 𝑥𝐴 𝑥𝐵 Matriz inversa de variânciascovariâncias 𝑆𝑝 1 vetor x que representa as variáveis consideradas na análise 41 Os símbolos T e 1 representam a transposta e a inversa de uma matriz Sp é uma matriz que combina as matrizes de variânciascovariâncias SA e SB 𝑆𝐴 1 𝑛𝐴 1 𝑛𝐴 𝑥𝐴𝑗 𝑥𝐴 𝑗1 𝑥𝐴𝑗 𝑥𝐴 𝑇e 𝑆𝐵 1 𝑛𝐵 1 𝑛𝐵 𝑥𝐵𝑗 𝑥𝐵 𝑗1 𝑥𝐵𝑗 𝑥𝐵 𝑇 De modo que 𝑆𝑝 𝑛𝐴 1 𝑛𝐴 1 𝑛𝐵 1 𝑆𝐴 𝑛𝐵 1 𝑛𝐴 1 𝑛𝐵 1 𝑆𝐵 𝑛𝐴 1 𝑆𝐴 𝑛𝐵 1 𝑆𝐵 𝑛𝐴 𝑛𝐵 2 Para obter a matriz inversa A1 de uma matriz A para caso 2 por 2 podese utilizar Exemplo de aplicação do Método de Fisher para o exemplo inicial Intenção de Compra Durabilidade X1 Desempenho X2 Compraria A Individuo 1 8 9 Individuo 2 6 7 Individuo 3 10 6 Individuo 4 9 4 Individuo 5 4 8 Não Compraria B Individuo 6 5 4 Individuo 7 3 7 Individuo 8 4 5 Individuo 9 2 4 Individuo 10 2 2 42 Dados resumo Grupos Médias Matriz SA Matriz SB A 74 58 192 17 052 68 192 37 052 33 Matriz Sp Matriz Inversa Sp1 B 32 375 07 028 006 44 07 35 006 030 Função discriminante calculada 𝑦 42 24 028 006 006 030 𝑥1 𝑥2 129 𝑥1 094 𝑥2 Exercício Mostre quais seriam as alterações na função discriminante caso a opinião dos indivíduos 1 e 2 fossem Individuo 1 9 10 Individuo 2 7 8 Complete os dados resumidos a seguir Grupos Médias Matriz SA Matriz SB A 57 136 17 052 136 52 052 33 Matriz Sp Matriz Inversa Sp1 B Calcule a função discriminante 43 Classificação de novas observações Predição Para utilizar a função para classificar uma nova observação x devese considerar um ponto de corte m que discrimina as duas populações e uma regra de alocação que consiste em alocar x em uma população se y for maior ou igual a m y m e alocar em outra população no caso contrário O ponto de corte para classificação é dado por 𝑚 1 2 𝑦𝐴 𝑦𝐵 Por fim generalizando o problema de classificação no caso de mais do que duas populações a ideia é a mesma obter combinações lineares que melhor discriminem as populações no sentido de maximizar a razão entre as médias e a variância Neste caso obtémse mais do que uma função discriminante Sendo o escore discriminante um valor obtido pela função discriminante teremos mais de uma função discriminante caso a variável dependente tenha mais do que duas categorias Para n categorias grupos teremos o número de grupos menos um n1 funções discriminantes Cada função representa uma dimensão discriminante e pode ser vista graficamente sendo a média dos escores das unidades de um grupo chamada centroide A comparação entre os centroides mostra o quão afastado estão os grupos em termos da função discriminante e pode ser utilizado um teste para avaliar a significância das funções discriminantes como uma medida generalizada da distância entre os centroides de grupos 44 43 Interpretação e outras considerações na Análise Discriminante A análise discriminante é apropriada quando temos uma variável dependente categórica dois ou mais grupos e diversas variáveis independentes métricas É útil quando se quer compreender diferenças entre grupos ou classificar corretamente elementos em grupos ou seja a Determinar se existem diferenças estatisticamente significantes entre os perfis de escores médio em um conjunto de variáveis para os grupos definidos a priori b Determinar qual das variáveis independentes explicam o máximo de diferenças nos perfis de escore médio dos grupos c Estabelecer as dimensões de discriminação entre os grupos formados a partir das variáveis independentes d Estabelecer procedimentos para classificar unidades em grupos com base em seus escores No planejamento os grupos formados devem ser mutuamente excludentes e exaustivos Com mais grupos implicase em mais funções discriminantes a tendência é que os grupos fiquem mais parecidos dificultando a discriminação e aumentando a complexidade Outras questões relevantes são a escolha das variáveis independentes e o tamanho da amostra Variações no tamanho dos grupos afetam a estimação da função de discriminante e a classificação de observações além da validação da técnica As suposições para os procedimentos de estimação e classificação podem ser resumidos em Normalidade multivariada das variáveis independentes e Estruturas matrizes desconhecidas mais iguais de dispersão e covariância para os grupos como definidos pela variável dependente Sendo importante a igualdade das matrizes de covariâncias que afeta tanto estimação quanto classificação Há testes para avaliar a similaridade das matrizes de dispersão das variáveis independentes Se essas suposições são violadas um 45 método alternativo é a regressão logística Outros fatores a serem avaliados nos dados são a multicolineridade a linearidade e as observações atípicas Para a estimação e avaliação de ajuste geral do modelo há diferentes abordagens computacionais em resumo métodos de estimação simultâneo direto e método stepwise O primeiro considera todas as variáveis independentes ao mesmo tempo independentemente do poder discriminatório de cada variável E como já discutido o método stepwise que envolve a entrada de uma variável por vez em um processo sequencial de adição ou eliminação é útil quando se tem muitas variáveis independentes no estudo Após a estimação da função discriminante a significância ou ajuste geral do modelo pode ser avaliado por meio de testes os mais conhecidos são Lambda de Wilks o Traço de Hotelling e Critério de Pillai para o método direto Para o stepwise há D2 de Mahalanobis e a medida V de Rao ambas são medidas de distância generalizada Se o modelo geral for significante devese avaliar a significância de cada função discriminante em separado o que identifica aquelas que devem ser mantidas e interpretadas Para avaliar a capacidade preditiva da função discriminante utilizase matrizes de classificação relativo ao R2 da regressão ela fornece uma perspectiva prática pois podemos ter diferença estatisticamente significante nos testes e classificar apenas 50 corretamente Para validar as funções discriminantes pelo uso da matriz de classificação utilizase a classificação a partir dos escores calculados de parte da amostra dividida aleatoriamente não utilizada para estimar as funções Definese um escore de corte divisão para classificar as observações em cada grupo que leva em conta os centroides média dos escores e o tamanho dos grupos e assim calculase a quantidade de observações classificadas corretamente razão de sucesso 46 Se os custos da má classificação forem iguais para todos os grupos o escore de corte ótimo será aquele que classificar mal o menor número de observações ao longo dos grupos senão custos desiguais será o que minimizar os custos de má classificação Regra de decisão para classificação dos elementos nos grupos Grupos de mesmo tamanho Grupos de tamanhos diferentes centróide grupo B Z centróide grupo A Z onde Z Z Z B A B A CE 2 tamanho grupo B N tamanho grupo A N centróide grupo B Z centróide grupo A Z onde N N N Z N Z Z B A B A B A B A A B CE Montar matriz e calcular percentual de classificados corretamente chamada razão de sucesso Para avaliar a razão de sucessos devese olhar para uma classificação por chances aleatória sem utilizar as funções discriminantes que se baseia no inverso do número de grupos se os grupos têm tamanhos iguais por exemplo teríamos 50 para dois grupos e 33 para três grupos No caso de os grupos não terem tamanhos iguais a classificação pode ser feita por chance máxima para maximizar o percentual classificado corretamente o que conseguiria classificando todos no maior grupo e chance proporcional mais apropriado pois identifica corretamente os membros de todos os grupos definida como Cp2 1p2 sendo p a proporção de indivíduos no grupo 1 e 1p no grupo 2 Critério sugerido para comparação da razão de sucesso com o padrão a precisão da classificação deve ser pelo menos um quarto maior do que a obtida por chances 47 Também devese calcular as razões de sucesso para cada grupo e avaliar se a analise discriminante fornece níveis adequados de precisão preditiva para cada grupo Quanto a interpretação dos resultados há pelo menos três métodos para determinação da importância relativa de cada variável independente na discriminação entre os grupos 1 Pesos discriminantes padronizados 2 Cargas discriminantes correlações estruturais e 3 Valores F parciais A abordagem tradicional para interpretar funções discriminantes é examinar o sinal e magnitude do peso discriminante padronizado de cada variável na computação das funções discriminantes assim variáveis independentes com pesos maiores contribuem mais para o poder discriminatório da função e o sinal se a contribuição é negativa ou positiva A interpretação de pesos é análoga aos pesos beta coeficientes padronizados em análise de regressão Porém por conta de deficiências nos pesos as cargas são cada vez mais utilizadas Elas medem a correlação linear simples entre cada variável independente e a função discriminante e refletem a variância que as variáveis independentes compartilham com a função Podem ser interpretadas como cargas fatorais na avaliação da contribuição relativa de cada variável independente à função discriminante Cargas acima de 04 ou 04 são consideradas substantivas Quando se utiliza stepwise podese utilizar também F parciais Valores grandes indicam maior poder discriminatório Quando temos duas ou mais funções discriminantes adicionase a interpretação dada pela rotação das funções discriminantes A rotação redistribui a variância preserva a estrutura original e a confiabilidade da solução discriminante e torna as funções mais fáceis de interpretar VARIMAX é a mais utilizada 48 Representações gráficas Há uma forma denominada Mapa Territorial que mostra a posição relativa de observações individuais com base nos escores da função discriminante Com a perspectivas de análise de colocar diferentes símbolos para os diferentes grupos é permitida a visualização do posicionamento dos elementos além da posição dos centroides e de retas nos escores de corte Por fim a validade externa e interna pode ser feita com uma amostra separada ou com um procedimento denominado de validação cruzada Na validação cruzada utilizase múltiplos subconjuntos da amostra com uma observação de fora e as vezes é a única possibilidade de validação quando o estudo possui tamanho pequeno de amostra Há vantagens e desvantagens do uso de uma regressão logística comparada com o uso da análise discriminante e no caso em que a variável dependente tenha dois grupos a regressão logística pode ser indicada por dois motivos 1 Robustez A regressão logística sofre menos com a falta das suposições de normalidade multivariada e igualdade entre as matrizes de variânciacovariância nos grupos Além de ser possível utilizar a matriz de classificação 2 A regressão logística é uma técnica similar a regressão múltipla o que possibilita uma facilidade na interpretação dos seus resultados a partir de coeficientes que indicam como as variações na variável dependente associase com as mudanças nas independentes o quanto que a probabilidade mudará dada uma unidade de variação na variável independente Dado isto critérios similares como um R2 adaptado para o caso da regressão logística foi criado e pode ser analisado denominado pseudo R2 49 5 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FATORIAL Objetivo Apresentar as técnicas para redução de dados e criação de variáveis compostas Análise de Componentes Principais e Análise Fatorial que são as técnicas de interdependência mais amplamente utilizadas Objetivos específicos Redução da dimensionalidade dos dados Obtenção de combinações interpretáveis das variáveis Descrição e entendimento da estrutura de correlação das variáveis Motivação Conhecer técnicas para identificar dimensões interpretáveis e reduzir os dados por meio da composição de variáveis fatores a partir de variáveis especificas Estrutura da aula 1 Formulação do modelo de Componentes Principais 2 Interpretação e exemplo do modelo de Componentes Principais 3 Introdução ao modelo de Análise Fatorial 51 Formulação do modelo de Componentes Principais A análise de componentes principais é uma técnica estatística que transforma linearmente um conjunto de p variáveis em um conjunto menor de k variáveis não correlacionadas que explica uma parcela substancial das informações do conjunto original As p variáveis originais X1 X2 Xp são transformadas em p variáveis Y1 Y2 Yp denominadas componentes principais de modo que Y1 é aquela que explica a maior parcela da variabilidade total dos dados Y2 explica a segunda maior parcela e assim por diante 50 Duas formas de entender a técnica intuitivamente Algebricamente os componentes principais são combinações lineares das variáveis originais E geometricamente os componentes são as coordenadas dos pontos amostrais em um sistema de eixos obtidos pela rotação do sistema de eixos original na direção de variabilidade máxima dos dados A redução da dimensão dos dados de modo a obter combinações interpretáveis é o principal apelo da técnica e é útil por exemplo quando se tem variáveis explicativas correlacionadas multicolinearidade No gráfico a seguir estão representados os dados originais correlacionados e duas componentes sendo que a primeira aponta na direção da maior variância A transformação nos dados originais os projeta nos novos eixos Abaixo temos um caso no qual dados de três variáveis três dimensões podem ser reduzidos para representação por duas componentes 51 Suposições A análise de componentes principais depende somente da matriz de covariância ou da matriz de correlação de X1 X2 Xp e não requer qualquer suposição sobre a forma da distribuição multivariada dos dados porém se a normalidade existe a análise é engrandecida Formulação de componentes principais considere o conjunto de dados a seguir Variáveis Indivíduos X1 X2 Xp 1 x11 x12 x1p 2 x21 x22 x2p N xn1 xn2 xnp O qual pode ser representado pela matriz X com as p características de n indivíduos 52 O entendimento dessa estrutura através das variáveis X1 X2 X3 Xp pode ser complicado na prática Assim o objetivo da análise de componentes principais é transformar essa estrutura complicada em uma outra estrutura representada pelas variáveis Y1 Y2 Y3 Yp de forma a serem não correlacionadas e com variâncias ordenadas para que seja possível comparar os indivíduos usando apenas as variáveis Y que apresentam maior variância A estrutura de interdependência entre as variáveis da matriz de dados é representada pela matriz de covariância S ou pela matriz de correlação R É comum utilizar a matriz R que pode ser vista como uma matriz padronizada dado que geralmente as variáveis em X possuem diferentes unidades de medidas Para utilizar matriz de covariâncias antes devese padronizar as variáveis Os dados originais podem ser padronizados matriz Z 53 Para encontrar os componentes principais utilizase a teoria sobre Autovalores e Autovetores Definese autovalor escalar e autovetor v se v 0 a partir de uma transformação linear T Tv v que pode ser escrita pela multiplicação de uma matriz A por um vetor Tv Av igualando Av v ou Av v 0 que resulta no sistema homogêneo A I v 0 ou detA I 0 determinante igual a 0 O que resulta em um polinômio de grau n em conhecido como polinômio característico As raízes do polinômio característico são os autovalores da matriz A Para encontrar os autovetores basta substituir o valor do autovalor na equação original O autovalor será então associado ao autovetor encontrado O autovetor forma uma base para o espaço de solução da equação A I v 0 dado o respectivo autovalor Logo qualquer múltiplo do autovetor também é um autovetor Portanto sendo A a matriz canônica que representa um operador linear T temos Autovalores de T ou de A as raízes da equação detA I 0 Autovetores v de T ou de A as soluções da equação Av v ou A Iv 0 para cada Interpretação geométrica u é autovetor de T pois R Tu u v não é autovetor de T pois não R Tv v 54 Determinação dos componentes principais Os componentes principais são determinados resolvendose a equação característica da matriz S ou R pensando na matriz R temos ou Se a matriz R for de posto completo ou seja não possuir colunas que sejam combinação linear de outra a equação terá soluções chamadas de autovalores da matriz R denominadas por com Assim também teremos como os autovetor correspondente a cada autovalor Portanto o iésimo componente principal é dado por onde Os autovetores são ortogonais entre si e normalizados ou seja e Assim os componentes principais apresentam as seguintes propriedades para chegarmos em uma interpretação 1 A variância de Yi é igual ao autovalor 2 O primeiro componente é o que apresenta maior variância e assim por diante 3 O total da variância das variáveis originais é igual ao somatório dos autovalores que é igual ao total de variância dos componentes principais 4 Os componentes principais não são correlacionados entre si 55 Observe o exemplo das componentes y1 e y2 na figura a seguir Na primeira parte gráfico da esquerda temos autovalores diferentes formando uma elipse e na segunda parte gráfico da direita o círculo advém de autovalores iguais Note que as componentes foram obtidas a partir dos eixos x1 e x2 O C a seguir denominado contribuição representa a proporção de variância total explicada por cada componente principal A importância de um componente principal é avaliada por meio de sua contribuição Assim a soma dos primeiros k autovalores representa a proporção de informação retida na redução de p para k dimensões Com isso podemos decidir quantos componente vamos usar na análise isto é quantos componentes serão utilizados para diferenciar os indivíduos É comum para aplicações em diversas áreas do conhecimento utilizar o número de componentes utilizados que acumula 70 ou mais de proporção da variância total 56 52 Interpretação e exemplo do modelo de componentes principais Considere os dados a seguir como exemplo para aplicação Variáveis Indivíduos X1 X2 1 102 96 2 104 87 3 101 62 4 93 68 5 100 77 Média 100 78 Variância 175 1905 Posso optar por realizar a análise a partir da matriz de correlações ou de covariâncias com os dados padronizados Considerando a matriz de correlação R Após a redução de p para k dimensões a análise é realizada sobre os escores dos k componentes principais Calculando os valores para cada Y no nosso exemplo teremos Y1 Y2 e a contribuição C como segue 57 Assim para calcular os escores bastaria considerar os componentes No exemplo teríamos 58 Exercício Encontre os autovalores e autovetores para a matriz 2 1 1 2 Definição do número de componentes a serem utilizadas A redução dependerá das correlações e das variâncias das variáveis originais Alguns critérios que são utilizados Critério de Kaiser Manter na análise as componentes principais correspondentes aos autovalores maiores do que a média se usar a matriz de covariâncias dos autovalores ou maiores do que 1 se usar a matriz de correlações Porem podese descartar componentes com contribuições importantes Reter o número de componentes principais que acumulem pelo menos um percentual da variabilidade total dos dados por exemplo 70 Reter o número de componentes principais que acumulem pelo menos uma certa percentagem da variabilidade de cada uma das variáveis originais por exemplo 50 Utilizando o Scree Plot gráfico com os autovalores representados o qual apoia a escolha do corte quando a variação passa a ser pequena Exemplo 59 53 Introdução ao modelo de Análise Fatorial Análise Fatorial é uma das principais e mais antigas técnicas multivariadas sua origem está ligada a estudos da área de psicologia quando da criação de índice de inteligência desenvolvido por Spearman em 1904 A técnica é bastante útil em situações em que se observa para cada observação um grande número de variáveis e em diferentes escalas de avaliação Nestes casos além do problema de grande quantidade de informação existe a interdependência subjacente a elas Assim ela possui como objetivo descrever a estrutura de dependência de um conjunto de variáveis através da criação de fatores interpretáveis constructos para medir aspectos comuns Isto feito a partir da estrutura de dependência existente entre as variáveis de interesse que permite a criação de um conjunto menor de variáveis sem uma perda muito grande de informações dos dados originais Os fatores podem ser não correlacionados fatores ortogonais ou correlacionados fatores oblíquos As variáveis são agrupadas por meio de suas correlações ou seja aquelas pertencentes a um mesmo grupo serão fortemente correlacionadas entre si mas pouco correlacionadas com as variáveis de outro grupo Cada grupo de variáveis representará um fator Análise Fatorial Confirmatória AFC e Análise Fatorial Exploratória AFE A técnica pode ser utilizada de duas formas em algumas situações o interesse é verificar se os itens de uma escala se comportam segundo uma estrutura pré definida nessa situação requer a aplicação de uma AFC para confirmar tal estrutura hipótese Em outras situações não é exigida a formulação de hipóteses à priori a respeito da estrutura de dependência dos dados assim se esta estrutura existir será obtida a partir dos resultados de uma AFE A análise fatorial pode ser estudada em um tópico mais abrangente A Modelagem de Equações Estruturais SEM do Inglês Structural Equation Modeling Ela é uma 60 metodologia que pode examinar uma série de relações de dependência simultaneamente Ela é particularmente útil para testar teorias que contém múltiplas equações envolvendo relações de dependência Em outras palavras é útil para modelos teóricos no qual há uma série de relações definidas por modelos Além de permitir que uma variável dependente se torne independente em uma relação subsequente também possibilita relações entre variáveis que não conseguimos medir diretamente denominadas de constructos mas que podemos estimar através de indicadores variáveis observadas Formulação da técnica a partir dos dados Considerando um conjunto de p variáveis com n observações para cada variável e com correlações significantes Variáveis Indivíduos X1 X2 Xp 1 x11 x12 x1p 2 x21 x22 x2p N xn1 xn2 xnp Exemplo de interpretação gráfica com três variáveis e dois fatores 61 Projeções duas a duas Representação de dois Fatores 62 Dados e matriz de correlações Estatística de KMO e Teste de Bartlett Para avaliar se a magnitude da correlação existente entre as variáveis é adequada para aplicação da técnica 63 Estimação dos fatores Autovalores e autovetores 64 Interpretação dos resultados Cargas fatoriais São as correlações de Pearson entre as variáveis e os fatores representam a importância dos fatores na composição das variáveis Comunalidades Representam a variância total compartilhada de cada variável em todos os fatores considerados na análise final Um critério comum é considerar os autovalores maiores do que 1 Os principais resultados da análise são obtidos com questões relativas a quais e quantos são os fatores extraídos e qual a importância de cada fator isto feito pela interpretação das cargas e da informação sobre o total da variância explicada mostram o grau de importância de cada fator na explicação do problema proposto Há procedimentos para rotação da matriz que facilitam a interpretação dos resultados como a denominada VARIMAX 65 6 ANÁLISE DE AGRUPAMENTO Objetivo Fornecer ao aluno conceitos sobre técnicas estatísticas de agrupamento e em especial mostrar aplicações à Administração Objetivos específicos Compreender métodos e algoritmos clássicos para formar grupos homogêneos Entender as etapas necessárias para aplicar a técnica de agrupamentos Conhecer o desenvolvimento da técnica a partir de exemplos aplicados Motivação Conhecer técnicas para formar grupos de elementos a partir de variáveis especificas Estrutura da aula 1 Conceitos básicos 2 Etapas para aplicação da técnica 66 61 Conceitos básicos Uma reflexão inicial A partir da figura a seguir pense sobre as questões Como identificar padrões de comportamento Como formar grupos homogêneos de unidades amostrais Cada indivíduo teria uma ideia de como formar grupos Pela Cor ou pelo Naipe ou pelo Valor dos itens porém o ponto é Qual critério utilizar para formar os grupos homogêneos Para ilustrar a intuição inicial vamos considerar o exemplo 1 países onde se deseja formar grupos com as variáveis apresentadas a seguir percentuais de domicílios com Telefone Computador e Internet além de quantidade de celulares por 100 habitantes Considerando apenas duas das variáveis digamos as duas primeiras Telefone e Celular Podemos visualizar os dados através de um gráfico de dispersão 67 Parece razoável considerar a proximidade entre os pontos como critério Claro que pontos próximos representam países semelhantes no que se refere a estas variáveis do gráfico No entanto percebemos que as distâncias em um sentido são maiores do que no outro Ocorre que a variabilidade da taxa de celular é maior isso faz com que a taxa de telefone contribua pouco para a definição dos grupos 68 Uma forma de lidar com isso é padronizar as variáveis de modo que ambas tenham mesma importância ordem de grandeza Vejam que agora não fica tão evidente a proximidade entre aqueles elementos 69 Após considerar a padronização dos dados para comparação adequada outro ponto relevante se relaciona ao conceito de distância ou proximidade Há dois tipos de medida de semelhança para comparar as unidades do estudo Medidas de similaridade quanto maior o valor maior a semelhança entre os objetos Medidas de dissimilaridade quanto maior o valor mais diferentes são os objetos Observação Porque não utilizar medida de correlação entre os casos Pois a correlação mede o padrão das respostas e não a magnitude Veja no exemplo Caso X1 X2 X3 X4 X5 1 7 10 9 7 10 2 9 9 8 9 9 3 5 5 6 7 7 4 6 6 3 3 4 5 1 2 2 1 2 6 4 3 2 3 3 7 2 4 5 2 5 Dado sete casos observações com cinco variáveis medidas temos a seguinte matriz com as correlações entre os casos Correlações entre os casos 1 2 3 4 5 6 7 1 1 2 01 1 3 0 0 1 4 008 051 082 1 5 096 041 0 006 1 6 046 079 035 069 064 1 7 089 051 016 023 096 069 1 70 E a matriz com as distâncias Distâncias entre os casos 1 2 3 4 5 6 7 1 0 2 33 0 3 68 66 0 4 102 102 6 0 5 158 162 101 71 0 6 131 13 73 39 39 0 7 113 122 63 51 49 44 0 Pela matriz de correlação poderíamos formar um grupo com os casos 1 5 e 7 e outro grupo com os casos 2 4 e 6 e outro grupo Porém considerando a matriz com as distâncias os grupos que poderiam ser formados seriam um grupo com os casos 1 2 outro grupo com os casos com os casos 4 5 6 e 7 O que significa essa diferença nos grupos formados 71 Observe essa diferença graficamente considere que as linhas tracejadas representam os grupos formados a partir das correlações entre os casos e as cores os grupos formados a partir das distâncias Reflita sobre as diferenças mostradas no gráfico a seguir A seguir veremos as etapas para uso da técnica em exemplos 62 Etapas para aplicação da Análise de Agrupamentos Análise de Agrupamentos é um grupo de técnicas multivariadas cuja finalidade principal é agregar objetos com base nas características que eles possuem Vamos considerar que a fase inicial de formular o problema e selecionar as variáveis já foi feita assim podemos estruturar à aplicação desta técnica nas seguintes etapas 1 Escolha do critério de semelhança 2 Formação dos grupos 3 Validação do agrupamento 4 Interpretação dos grupos 0 2 4 6 8 10 1 2 3 4 5 1 2 3 4 5 6 7 72 1 Escolha do critério de semelhança Nesta etapa precisamos conhecer o nosso banco de dados para enfim escolher o critério que será utilizado para determinação dos grupos Além de responder à questão sobre qual medida de semelhança utilizar pode ser necessário a padronização das variáveis como foi visto Para essa primeira etapa observase o tipo de variável quantitativa ou qualitativa e o tipo de medida de semelhança será utilizada para comparar as unidades do estudo medidas de similaridade ou medidas de dissimilaridade Considere o exemplo 2 Clientes Vamos elaborar esta etapa a partir de um problema no qual precisamos agrupar determinados clientes de acordo com algumas variáveis Conforme mostrado intuitivamente no início precisamos padronizar as variáveis de modo que a contribuição de cada uma delas na formação dos grupos seja semelhante No caso de variáveis Quantitativas a padronização foi realizada pela amplitude ou seja a partir do mínimo e do máximo alternativamente poderíamos padronizar pela média e pela variância 73 Após padronização das variáveis e neste caso de variáveis quantitativas a medida para distâncias mais utilizada é a distância euclidiana que pode ser transformada em uma medida de similaridade calculando 1 distância euclideana média O cálculo das distâncias é feito para cada par por exemplo para os clientes 1 e 2 temos 74 O que irá resultar em uma matriz de distâncias entre todos os elementos essa matriz foi denominada de matriz Sq e é mostrada a seguir Clientes 1 2 3 4 5 1 0000 2 0855 0000 3 0358 0552 0000 4 0392 0471 0113 0000 5 0791 0420 0651 0537 0000 6 0622 0721 0574 0364 0364 Note que existem outras medidas de distância que podem ser utlizadas por exemplo a distância de Mahalanobis quando as variáveis são correlacionadas Quando as correlações entre as variáveis forem nulas considerase as variáveis padronizadas e a distância de Mahalanobis é equivalente à distância euclidiana No caso das variáveis ordinais e nominais o tratamento é similar inicialmente é necessário a padronização e na sequência escolhese o critério de semelhança Para tanto note que as variáveis qualitativas ordinais ou nominais são dicotomizadas ou seja são criadas variáveis extras dependendo do número de categorias de respostas da variável 75 Assim temos para as variáveis ordinais Porte e Velocidade temos A seguir a padronização para as variaveis nominais Usa Internet e Área Por fim considerando coeficiente de concordância simples como medida de similaridade temos 76 O que também irá resultar em uma matriz de distâncias entre todos os elementos Para as variáveis qualitativas pode ser considerada uma matriz única ou duas matrizes uma para as variáveis nominais Sn e outra para as variáveis ordinais So Exercício Complete a matriz com as distâncias considerando as variáveis qualitativas Clientes 1 2 3 4 5 1 2 3 4 5 6 77 Por fim para combinar as duas matrizes quantitativas e qualitativas ou três matrizes caso se considere as variáveis qualitativas separadamente uma com as nominais e outra com as ordinais precisamos considerar uma forma de consolidar as matrizes O que pode ser feito somando as matrizes e ponderando os valores pela quantidade de variáveis como segue S Nn Sn No So Nq Sq Onde Nn número de variáveis nominais No número de variáveis ordinais Nq número de variáveis quantitativas Sn matriz de similaridades das variáveis nominais So matriz de similaridades das variáveis ordinais Sq matriz de similaridades das variáveis quantitativas Exercício Obtenha a matriz com as distâncias considerando as variáveis quantitativas e as qualitativas Clientes 1 2 3 4 5 1 2 3 4 5 6 78 2 Formação dos grupos Após a etapa 1 podemos formar os grupos escolhendo o algoritmo que será utilizado ou seja nesta etapa devese definir o algoritmo que será utilizado na identificação dos grupos os mais conhecidos são Métodos hierárquicos aglomerativos As unidades são particionadas sucessivamente Método do vizinho mais próximo Método do vizinho mais distance Método das médias das distâncias Método da centróide Método de Ward Métodos de Partição Particionar as unidades amostrais formando grupos com alta coesão interna e isolados Método das Kmédias Os métodos hierárquicos consideram no início cada objeto como um grupo n grupos na primeira etapa agrupamse os dois objetos mais parecidos n1 grupos Depois agrupamse os dois grupos mais parecidos n2 grupos até que se tenha todos os objetos juntos em um único grupo Sendo que o método Ward a partição é feita pela soma dos quadrados total Para ilustrar uma aplicação de uso de um dos métodos considere uma matriz de distância euclideanas entre duas variáveis quantitativas para os países exemplo 1 apresentado inicialmente porém com as siglas iniciais denominando os países BRICS Considerando como exemplo o algoritmo pelo método do vizinho mais longe Em um primeiro passo juntaríamos B e S por terem a menor distância entre todos os elementos 137 79 Neste ponto recalculase as distâncias em uma nova matriz para repetir novamente a etapa de identificar os elementos que estão mais próximos Sendo que a distância para o novo grupo deve considerar a distância máxima para cada elemento do grupo B e S de acordo com o método é vizinho mais longe Assim a distância por exemplo entre o elemento R e o grupo B e S seria dada por dBS R maxdB R e dS R max629 697 697 Portanto a nova matriz de distâncias fica Nesta segunda etapa juntaríamos os elementos I e C formando um novo grupo Novamente recalculase a matriz de distâncias 80 Em uma terceira etapa juntaríamos os dois grupos B S e o grupo I C formando um novo grupo Por fim teríamos a matriz a seguir com a qual todos os elementos são agrupados na distância 1087 As quatro etapas podem ser resumidas na tabela a seguir Graficamente podemos representar as etapas em um gráfico denominado dendograma o gráfico mostra as etapas e as distâncias nas quais os elementos foram agrupados As linhas horizontais tracejadas representam possíveis cortes que representariam quantos grupos o pesquisador está interessado com a análise 81 Exercício Obtenha o dendograma a partir da matriz com as distâncias final do exemplo 2 clientes Utilize um dos métodos por exemplo o método do vizinho mais próximo ou do vizinho mais longe Comparação entre os métodos Vizinho mais longe tende a formar grupos mais homogêneos do que o método do vizinho mais perto Ward é atraente por basearse em uma medida com forte apelo estatístico e gerar grupos com alta homogeneidade Tende a criar grupos de tamanhos parecidos Métodos de Partição Particionar as unidades amostrais formando grupos com alta coesão interna e isolados Os métodos de Partição apresentam maior esforço computacional e para minimizar o trabalho computacional inicialmente devese escolher o número de grupos que será formado Isto feito Definido o número de grupos a priori 3 categorias de produtos ou por conveniência de análise por exemplo 2 grupos em uma segmentação de mercado ou ainda definido a posteriori com base nos resultados da análise 82 O método das kmédias tentará formar grupos visando obter uma soma de quadrados residual da partição pequena Para ilustrar a dinâmica deste método considere o exemplo 1 países fixase o número de grupos g a serem formados Escolher casos para serem as sementes geradoras dos grupos iniciais B 2162 10410 S 843 10048 Grupo1 Grupo 2 Sementes Cada ponto será incorporado ao grupo que contém a semente mais próxima A avaliação da qualidade da partição dos grupos dada a soma dos quadrados residual da participação SQDpart SQDTel SQDCel País Telefone Celular País Telefone Celular B 2162 10410 S 843 10048 R 3145 16626 I 287 6142 C 2195 6404 n 2 2 3 3 Média 265 1352 111 753 Variância 483 19319 963 4767 Grupo1 Grupo 2 83 Por fim é verificado se cada ponto está no melhor grupo possível No caso o país B Brasil seria alterado de grupo pois esta mais próximo do centro do grupo 2 dado o centroide do que do centro de seu grupo atual Os passos são repetidos até que nenhuma troca seja necessária Comparação dos métodos Kmédias Apresenta vantagem de realocar os objetos porém é mais sensível a dados aberrantes depende da semente Hierárquicos Não necessita definir número de grupos a priori porém não é adequado quando há muitos dados no estudo cálculo da matriz de similaridade Há uma proposta comum de combinar os métodos Utilizar Kmédias com a semente definida a partir do centroide dos grupos formados no método hierárquico 84 3 Validação do agrupamento Para a validação dos grupos pode ser considerado como regra a taxa de variação em uma medida de similaridade ou uma medida de heterogeneidade de cada solução Verificase se as variáveis têm comportamento diferenciado nos diversos grupos aplicando técnicas inferenciais como testes de hipóteses Análise Discriminante ou Correlação Cofenética e Gráfico da Silhueta medida da qualidade dos agrupamentos que observa se um ponto está mais próximo dos elementos de seu grupo ou de um grupo vizinho 4 Interpretação dos grupos ao final do processo de formação de grupos é importante caracterizar os grupos formados analisando observações atípicas e as unidades em cada grupo O uso de estatísticas descritivas e representações gráficas para caracterização dos grupos é comum para ressaltar diferenças e semelhanças 85 Referências Bibliográficas HAIR Jr J F ANDERSON R E TATHAM R C BLACK W C 2009 Análise Multivariada de Dados 6ª edição Porto Alegre Bookman MAGALHÃES M N LIMA A C P 2001 Noções de Probabilidade e Estatística Editora USP São Paulo MONTEGOMERY D C PECK E A 1992 Introduction to Linear Regression Analysis 2nd ed John Wiley and Sons Inc New York NETER J WASSERMAN W KUTNER M H 1985 Applied linear statistical models regression analysis of variance and experimental designs 2nd ed Homewood Ill RD Irwin JOHNSON R A WICHERN D W 2002 Applied Multivariate Statistical Analysis 5th edition UpperSaddle River Prentice Hall CORRAR L J FILHO J M D Edilson P 2014 Análise Multivariada para os Cursos de Administração Ciências Contábeis e Economia 1ª edição São Paulo Atlas FÁVERO L P BELFIORE P Análise de dados técnicas multivariadas exploratórias com SPSS e Stata Rio de Janeiro Elsevier 2015 BARROSO L P ARTES R Análise Multivariada 10º SEAGRO e 48ª RBRAS Lavras UFLA 2003 VARELLA C A A Análise de Componentes Principais UFRRJ
1
Análise de Regressão
UMG
1
Análise de Regressão
UMG
1
Análise de Regressão
UMG
1
Análise de Regressão
UMG
1
Análise de Regressão
UMG
2
Análise de Regressão
UMG
3
Análise de Regressão
UMG
1
Análise de Regressão
UMG
1
Análise de Regressão
UMG
1
Análise de Regressão
UMG
Texto de pré-visualização
1 PROF EMERSON GOMES DOS SANTOS Material base para a Unidade Curricular Análise Multivariada EPEEN Osasco 2022 2 SUMÁRIO INTRODUÇÃO GERAL 3 1 INTRODUÇÃO À ANÁLISE MULTIVARIADA 3 11 Conceitos iniciais 4 12 Diretrizes para uso de modelos para análise multivariada 5 13 Exemplos de técnicas para análise multivariada 7 2 ANÁLISE DE REGRESSÃO SIMPLES 10 21 Conceitos básicos e exemplos 10 22 Formulação e interpretação do modelo 13 23 Estimação do modelo 14 3 ANÁLISE DE REGRESSÃO MÚLTIPLA 19 31 Formulação e intepretação do modelo 19 32 Estratégia de escolha do melhor modelo 21 33 A multicolinearidade 27 4 ANÁLISE DISCRIMINANTE 32 41 Conceitos básicos e exemplos 32 42 Formulação e estimação O método de Fisher 39 43 Interpretação e outras considerações na Análise Discriminante 44 5 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FATORIAL 49 51 Formulação do modelo de Componentes Principais 49 52 Interpretação e exemplo do modelo de componentes principais 56 53 Introdução ao modelo de Análise Fatorial 59 6 ANÁLISE DE AGRUPAMENTO 65 61 Conceitos básicos 66 62 Etapas para aplicação da Análise de Agrupamentos 71 Referências Bibliográficas 85 3 INTRODUÇÃO GERAL Este material servirá como guia básico para introduzir técnicas de análise multivariada de dados fornecendo ao aluno conhecimentos acerca das técnicas para solução e interpretação de problemas em especial ligados à administração de empresas As técnicas estão estruturadas considerando planejamento estimação interpretação e validação orientadas para aplicação com foco nos conceitos fundamentais princípios estatísticos que afetam o uso prático 1 INTRODUÇÃO À ANÁLISE MULTIVARIADA Objetivo Apresentar os conceitos iniciais e as diretrizes para uso de modelos para análise multivariada Objetivos específicos Discutir e conhecer as técnicas para análise multivariada Motivação Com o surgimento da computação moderna houve uma maior disponibilidade de dados e métodos estatísticos além de um maior poder computacional Neste contexto aumentase a necessidade de uma maior capacitação para analisar e interpretar os resultados obtidos por essas técnicas Além disso a teoria de métodos estatísticos multivariados utilizase de álgebra matricial assim tornase importante algum conhecimento pelo menos nenhum receio nesta área da matemática Estrutura da aula 1 Conceitos iniciais 2 Diretrizes para uso de modelo para análise multivariada 3 Exemplos de técnicas para análise multivariada 4 11 Conceitos iniciais Variável aleatória É cada característica associada a uma unidade de análise indivíduo domicílio empresa escola etc As variáveis podem ser classificadas como dependentes ou independentes Uma variável dependente é tida como a variável resposta do estudo e pretendese avaliar como ela pode ser explicada por outras variáveis definidas como independentes As variáveis aleatórias buscam representar com precisão a característica de interesse para tanto utilizase escalas de medida As escalas de medida podem ser classificadas como quantitativa escalas contínua ou discreta ou qualitativa escala nominal ou ordinal Erros envolvidos nas análises erro de medida e erro estatístico O erro de medida está relacionado com o grau em que os valores observados não são representativos dos valores verdadeiros Para tanto avaliase duas características de uma medida a validade tida como o quanto a medida representa o que se pretende medir e a confiabilidade relacionada com o quanto a medida acerta o valor verdadeiro A presença de erro de medida distorce as relações observadas e torna a técnica menos poderosa O erro estatístico é o erro aleatório inerente aos métodos empregados A maioria das técnicas multivariadas envolvem uma etapa de estimação parte da estatística chamada de inferência Análise multivariada envolve o uso de técnicas para analisar simultaneamente múltiplas medidas chamadas variáveis Algumas técnicas são extensões de técnicas univariadas e outras foram exclusivamente desenvolvidas para lidar com os aspectos multivariados intrínsecos da dependência inerente aos dados Para ser considerada multivariada além de haver duas ou mais variáveis no estudo as variáveis devem ser aleatórias e interrelacionadas de tal maneira que seus diferentes efeitos não possam ser interpretados em separado 5 Classificação das técnicas de dependência e de interdependência Técnica de dependência Análise na qual uma ou mais variáveis são definidas como dependente de modo a serem explicadas por outras variáveis definidas como independentes São exemplos de técnicas de dependência Análise de Regressão Análise Discriminante Análise Conjunta Equações Estruturais Correlação Canônica e Análise Multivariada de Variância MANOVA Técnica de interdependência Análise simultânea de todas as variáveis Esforço para encontrar a estrutura subjacente de todo o conjunto de variáveis ou indivíduos São exemplos de técnicas de interdependência Análise Fatorial para estudar a estrutura das variáveis e Análise de Agrupamento para a estrutura dos indivíduos Análise de Correspondência e Escalonamento Multidimensional A escolha de cada técnica a ser aplicada na análise depende do objetivo da classificação das variáveis envolvidas no estudo e do tipo de escala de medida 12 Diretrizes para uso de modelos para análise multivariada A diversidade de técnicas multivariadas fornece uma poderosa capacidade analítica porém requer cuidado com a base conceitual envolvida no seu uso o que pode ser auxiliado por diretrizes básicas a Reconhecer a importância do planejamento da análise por exemplo o tamanho da amostra afeta os resultados além dos dados que serão utilizados como pontos atípicos dados faltantes e outras violações de suposições b Entender a etapa de estimação dos resultados Todas as técnicas possuem meios matemáticos ou estatísticos para alcançar seus objetivos envolvidos na análise c Estabelecer significância prática e estatística para além da significância estatística os resultados devem ter um efeito demonstrável que justifica a aplicação prática para a tomada de decisão 6 d Optar por modelos parcimoniosos buscar balancear a quantidade de variáveis no estudo A falta de variáveis importantes gera o erro de especificação quando há omissão de variáveis já a inclusão indiscriminada de variáveis muitas variáveis pode mascarar o que é relevante na análise e Validar os resultados como o erro estatístico é inerente às técnicas multivariadas eles podem ser utilizados como forma de diagnosticar a validade dos resultados obtidos f Conhecer que o uso de modelos para análise multivariada envolve várias etapas As etapas são orientações para planejar desenvolver a forma de estimação interpretar e validar qualquer análise multivariada Apesar de não ser um conjunto rígido de procedimentos servem para apoiar a documentação de todos os passos realizados no processo de análise I Definição do problema da pesquisa dos objetivos e da técnica multivariada a ser utilizada Ver o problema em termos conceituais identificando as relações a serem investigadas e os objetivos para então definir as medidas especificas variáveis e por fim a técnica a ser utilizada II Desenvolvimento do plano de análise envolve o levantamento de considerações gerais como tamanho da amostra tipos de variáveis métodos de estimação e aspectos específicos de cada técnica Estas questões especificam a formulação do modelo e exigências para a coleta de dados A estimação é a forma de obter o ajuste para os valores dos parâmetros de cada modelo III Avaliação das suposições inerentes à técnica multivariada antes da estimação do modelo devese conhecer as suposições estatísticas e conceituais de cada técnica Por exemplo normalidade linearidade independência do erro e igualdade de variâncias IV Estimação do modelo e avaliação do ajuste geral do modelo A estimação para obter os resultados esperados atende alguma característica dos dados ou maximização do ajuste O ajuste gerado é avaliado para verificar se atinge níveis aceitáveis dos critérios estatísticos nível de significância As variáveis podem ser 7 reespecificadas até a obtenção de um modelo adequado os esforços envolvem por exemplo tratar observações atípicas ou influentes V Interpretação dos resultados Identificar evidência empírica de relações multivariadas nos dados da amostra que possam ser generalizadas para a população total A interpretação também pode conduzir a reespecificações das variáveis eou formulação do modelo assim o modelo é estimado e interpretado novamente VI Validação do modelo multivariado Análises para avaliar o quanto os resultados são generalizáveis 13 Exemplos de técnicas para análise multivariada Análise de Regressão Objetivo Explicar as mudanças na variável dependente como resposta às mudanças nas variáveis independentes Isto é feito a partir do ajuste de uma equação de regressão Exemplo Explicar as vendas de uma empresa a partir de informações sobre suas despesas em publicidade número de vendedores e número de lojas que vendem seus produtos Análise Discriminante Objetivo Entender diferenças entre grupos e realizar classificações de elementos a esses grupos com base em diversas variáveis independentes Exemplo Discriminar bons e maus pagadores com base em informações cadastrais e socioeconômicas Análise conjunta Objetivo Avaliar a percepção ou a importância de atributos e de seus níveis dada por consumidores a produtos serviços ou ideias 8 Exemplo Considere preço qualidade e cor como atributos de um produto cada um com três níveis possíveis respectivamente 10 20 e 30 ruim regular e ótimo vermelho amarelo e azul Avaliase apenas um subconjunto por exemplo 9 ao invés de todas as combinações possíveis 27 o pesquisador saberá a importância de cada atributo e de cada nível E por fim é possível simular um produto ótimo dada aceitação do consumidor Modelagem de Equações Estruturais Objetivo Permite estudar relações para cada conjunto de variáveis dependentes em uma série de regressões múltiplas ajustadas simultaneamente É caracterizada por dois componentes Modelo estrutural e modelo de medida É uma generalização de várias outras técnicas como a análise de regressão e análise fatorial Exemplo Para avaliar a satisfação de funcionários de uma empresa identificase fatores que a afetam por exemplo o apoio do supervisor ambiente de trabalho e desempenho no emprego Além disso identificase as relações entre esses fatores o apoio do supervisor e o ambiente de trabalho como explicativas do desempenho no emprego Logo existem duas relações separadas mas interrelacionadas Para avaliar estas relações levantase escalas de múltiplos itens para cada um dos quatro constructos A modelagem de equações estruturais fornece um meio de avaliar cada uma das relações simultaneamente no lugar de analises separadas e incorpora as escalas de múltiplos itens na análise para explicar o erro de medida associado com cada escala Analise Fatorial e Análise de Componentes Principais Objetivo Encontrar um meio de condensar reduzir a informação contida em diversas variáveis em um conjunto menor de variáveis com uma perda mínima de informação Exemplo Avaliar a opinião de clientes de um determinado restaurante a partir de diversas itens esses vários itens podem ser reduzidos em um número menor de fatores ou componentes por exemplo sabor temperatura e frescor da comida como qualidade da comida tempo de espera limpeza e atendimento como qualidade do serviço 9 Análise de Agrupamentos Objetivo Identificar grupos ou classificar elementos em um número menor de grupos mutuamente excludentes com base na similaridade entre os elementos Em geral envolve escolher essa medida de similaridade agrupar e caracterizar os grupos formados Exemplo A partir de dados sobre diversas dimensões da percepção de clientes preço qualidade etc uma empresa pode determinar subgrupos para campanhas promocionais 10 2 ANÁLISE DE REGRESSÃO SIMPLES Objetivo Apresentar a regressão linear simples um modelo linear para quantificar a relação entre duas variáveis Objetivo específicos Entender como os parâmetros da regressão linear simples são estimados e avaliar a associação entre variáveis Motivação Conhecer a regressão linear simples como um método de modelagem para avaliar a relação entre duas variáveis isto feito a partir da explicação de mudanças na variável dependente quantitativa a partir das mudanças das variáveis independentes quantitativas ou qualitativas Estrutura da aula 1 Conceitos básicos e exemplos 2 Formulação e interpretação do modelo 3 Estimação do modelo 21 Conceitos básicos e exemplos Em alguns problemas é de grande interesse verificar se duas ou mais variáveis estão relacionadas de alguma forma Podese expressar esta relação estabelecendo um modelo chamado de análise de regressão ele ajuda a entender como determinadas variáveis influenciam outra variável ou seja verifica como o comportamento de uma variável X pode explicar o comportamento de outra Y Se estamos interessados na relação de apenas uma variável independente com a variável resposta temos uma Regressão Linear Simples Mas se queremos avaliar a relação de uma variável com duas ou mais variáveis explicativas a análise será denominada Regressão Linear Múltipla 11 Os objetivos de uma análise de regressão podem ser resumidos em a Predição Utilizar os valores de uma variável X que estão dentro do intervalo de variação estudado para obter valores correspondentes de outra variável Y A utilização de valores fora desse intervalo recebe o nome de extrapolação e deve ser usada com muito cuidado pois o modelo adotado pode não ser correto fora do intervalo estudado b Seleção de variáveis A análise de regressão pode auxiliar no processo de seleção de variáveis utilizando procedimentos que eliminam aquelas variáveis cuja contribuição não seja importante e mostrando quais são as variáveis que afetam significativamente a variação de Y c Estimação de parâmetros Estimar parâmetros ou ajustar um modelo aos dados significa obter valores ou estimativas para os parâmetros e possibilita a interpretação do fenômeno estudado na busca por um significado prático d Inferência Realizar inferências sobre os parâmetros tais como testes de hipóteses e intervalos de confiança Considere um resumo das etapas para uso como I Planejamento Identificação de quantas e quais características variáveis explicativas ou independentes atuais e passadas mais explicam a característica ou evento de interesse variável resposta ou dependente II Estimação de uma equação que relaciona estas características observáveis III Interpretação Existem modelos de regressão específicos para cada tipo de variável resposta Se a variável resposta for quantitativa contínua o modelo de regressão mais indicado é o modelo de regressão linear IV Validação Feita observando as suposições para o modelo As suposições refletem que o modelo seja linear que não tenha pontos atípicos que os erros sejam independentes e com distribuição Normal e que a variância seja constante A suposição de normalidade é necessária para a elaboração dos testes de hipóteses e obtenção de intervalos de confiança Uma seção sobre a análise de resíduos dará mais detalhes sobre os erros 12 Observe os dois exemplos a seguir Exemplo 1 Considere uma amostra aleatória de 10 vendedores de uma empresa e as variáveis Teste Pontos obtidos em um teste de aptidão e Vendas Vendas médias mensais nos últimos 12 meses R mil Exemplo 2 Considere uma amostra aleatória de 10 famílias e as variáveis Renda Renda Bruta anual R mil e Gasto Percentual da renda gasto com assistência médica R mil 13 22 Formulação e interpretação do modelo Considere duas variáveis X e Y se Y é função linear de X podese estabelecer uma regressão linear simples cujo modelo estatístico é Onde Yi é uma variável aleatória e representa o valor da variável dependente na observação i xi representa o valor da variável independente na observação i εi é uma variável aleatória que representa o erro resíduos ou desvios e são os parâmetros do modelo que serão estimados e que definem a reta de regressão n é o tamanho da amostra Interpretação do modelo O parâmetro é chamado intercepto ou coeficiente linear e representa o ponto em que a reta corta o eixo Y dos ys quando x0 Já o parâmetro representa a inclinação da reta e é dito coeficiente de regressão Além disso temos que para um aumento de uma unidade na variável x o valor esperado de Y dado x aumenta unidades A interpretação geométrica dos parâmetros e pode ser vista nas figuras a seguir 14 O modelo deve ser condizente com o aspecto da distribuição dos dados para representar o fenômeno em estudo o que pode ser visto com um gráfico de dispersão dos dados 23 Estimação do modelo O primeiro passo na análise de regressão é obter as estimativas e dos parâmetros do modelo O objetivo é estimar os parâmetros e de modo que os desvios entre os valores observados e estimados sejam mínimos O Método de Mínimos Quadrados consiste em minimizar a soma dos quadrados dos desvios L como na expressão 15 Derivase em relação aos parâmetros e simplificase as equações e resolve se o sistema de equações para obter ou seja em que são as médias de x e da variável Y respectivamente Após outras manipulações nas equações concluise que Os valores de e assim determinados são chamados Estimadores de Mínimos Quadrados EMQ Para facilitar o cálculo podemos considerar n pares de valores observados x1y1xnyn 16 As quantidades e são as médias amostrais de x e y Já as quantidades e são as somas dos quadrados dos desvios das médias e é a soma dos produtos cruzados dos desvios de x e y Desta forma as estimativas de mínimos quadrados de e em termos desta notação são Relação linear entre variáveis Correlação Uma forma de verificar a associação linear para descrever a relação entre as variáveis é feita pela correlação O coeficiente de correlação linear de Pearson mede o grau de associação linear entre as duas variáveis Denominamos o coeficiente de correlação linear pela letra r O valor pode ser obtido pelas equações a seguir Ele varia entre os valores 1 e 1 e mede o quanto a relação é negativa ou positiva conforme aplicação nos exemplos a seguir O quadrado do coeficiente de correlação linear r é chamado de coeficiente de determinação o qual é denominado pela letra R Assim temos que R r2 17 Exemplo 1 Considere uma amostra aleatória de 10 vendedores de uma empresa e as variáveis Teste Pontos obtidos em um teste de aptidão e Vendas Vendas médias mensais nos últimos 12 meses R mil Vendedor Teste X Vendas Y X2 Y2 XY 1 70 108 4900 11664 7560 2 62 100 3844 10000 6200 3 25 14 625 196 350 4 42 21 1764 441 882 5 40 55 1600 3025 2200 6 84 97 7056 9409 8148 7 56 60 3136 3600 3360 8 90 138 8100 19044 12420 9 28 39 784 1521 1092 10 45 22 2025 484 990 Soma 542 654 33834 59384 43202 Exercício Calcule 18 Exemplo 2 Considere uma amostra aleatória de 10 famílias e as variáveis Renda Renda Bruta anual R mil e Gasto Percentual da renda gasto com assistência médica R mil Família Renda X Gasto Y X2 Y2 XY A 12 72 144 52 86 B 16 74 256 55 118 C 18 70 324 49 126 D 20 65 400 42 130 E 28 66 784 44 185 F 30 67 900 45 201 G 40 60 1600 36 240 H 48 56 2304 31 269 I 50 60 2500 36 300 J 54 55 2916 30 297 Soma 316 65 12128 420 1952 Exercício Calcule rrenda gasto 19 3 ANÁLISE DE REGRESSÃO MÚLTIPLA Objetivo Apresentar a regressão linear múltipla como extensão da regressão linear simples e como um modelo linear para quantificar a relação entre duas ou mais variáveis independentes e uma variável dependente Objetivos específicos Entender as técnicas para selecionar o melhor modelo e como a multicolinearidade entre variáveis independentes afetam o modelo Motivação Conhecer a regressão linear múltipla como um método de modelagem para relacionar duas ou mais variáveis isto feito a partir da explicação de mudanças na variável dependente quantitativa como resposta das mudanças das variáveis independentes quantitativas ou não Estrutura da aula 1 Formulação e interpretação do modelo 2 Estratégia de escolha do melhor modelo 3 A multicolinearidade 31 Formulação e intepretação do modelo No capítulo anterior descrevemos a relação de apenas uma variável independente com outra variável denominada dependente em um modelo de Regressão Linear Simples Mas se queremos avaliar a relação dessa variável dependente com duas ou mais variáveis explicativas a análise será denominada Regressão Linear Múltipla Os objetivos na regressão múltipla podem ser resumidos como sendo os mesmos já apresentados para a regressão linear simples Predição seleção de variáveis estimação de parâmetros e inferência Porém o modelo e a interpretação sofrem uma pequena alteração como será visto a seguir 20 Considere as variáveis x1 x2xp e Y se Y é função linear das variáveis X podese estabelecer uma regressão linear múltipla cujo modelo estatístico é onde são os parâmetros ou coeficientes do modelo Sem perder a generalização considere o modelo com apenas duas variáveis x1 e x2 assim corresponde ao intercepto do plano com o eixo z Se o parâmetro fornece a resposta média nesse ponto Caso contrário não é possível interpretar o parâmetro indica uma mudança na resposta média a cada unidade de mudança em quando as demais variáveis são mantidas fixas indica uma mudança na resposta média a cada unidade de mudança em quando as demais são mantidas constantes e assim por diante Representação gráfica A representação gráfica considerando por exemplo y como sendo as vendas médias x1 a renda média e x2 o tamanho da população em uma dada região poderia ser representado por 21 32 Estratégia de escolha do melhor modelo Seguindo as etapas definidas no capítulo 1 inicialmente definese o problema de pesquisa para desenvolver o plano de análise Neste ponto a escolha das variáveis a serem utilizadas no modelo pode ser feita com base em teoria sustentação teórica e a definição do tamanho da amostra de acordo com a capacidade que se queira detectar diferenças significativas e segundo a generalização dos resultados As demais etapas estão relacionadas à avaliação das suposições inerentes à técnica multivariada para garantir que as suposições estatísticas estejam satisfeitas e que o modelo seja valido Isso é feito pela análise de resíduos Os resíduos refletem as suposições que devem ser validadas para que os resultados sejam confiáveis combinando técnicas informais gráficos e formais testes Testar as suposições para cada variável independente e para a equação como um todo e usar análises gráficas para verificar e tratar falhas nas suposições A análise de resíduos ou análise de diagnóstico é um conjunto de técnicas utilizadas para investigar a adequabilidade de um modelo com base nos resíduos Os resíduos são dados pela diferença entre a variável resposta observada Yi e a variável resposta estimada definidos como Há 5 suposições que precisam ser verificadas i Independência ii Linearidade iii Normalidade iv Homocedasticidade v Não existência de pontos atípicos 22 i A independência pode ser avaliada com um gráfico de dispersão dos resíduos e a ordem dos dados de cada variável Há indícios de independência quando não há nenhum padrão aparente no gráfico Há também testes de hipóteses com o propósito de avaliar a independência dos resíduos como o teste de DurbinWatson que avalia a autocorrelação Correções possíveis para atender essa suposição seria considerar a inclusão de outros fatores omitidos até então ii e iv A homocedasticidade em especifico se refere à variável dependente Y exibir níveis parecidos de variabilidade ao longo do domínio das variáveis independentes x Tanto a linearidade quanto a homocedasticidade de qualquer relação bivariada são examinadas por meio do gráfico de dispersão dos resíduos e dos valores ajustados Dados distribuídos aleatoriamente em torno do zero indicam uma variância constante e linearidade Neste caso alguns testes para verificar esta hipótese seriam o teste de Levene M de Box BreuschPagan e GoldfeldQuandt Possíveis correções incluem a transformação dos dados a inclusão de relações não lineares entre as variáveis ou uso de regressão não linear 23 iii Quanto à normalidade o diagnóstico mais simples seria feito pelo histograma dos resíduos porém o gráfico mais utilizado denominase gráfico de probabilidade normal Um gráfico de probabilidade normal compara o comportamento dos resíduos com os quantis da distribuição normal acumulada Assim se a distribuição dos resíduos é próxima de uma distribuição normal o gráfico mostrará os dados próximo de uma reta pois os valores dos resíduos ordenados se distribuem como os quantis da distribuição normal acumulada Teste para verificação de normalidade mais conhecidos testes de ShapiroWilk AndersonDarling e KolmogorovSmirnov As possíveis correções na falta dessa suposição seria utilizar transformações nos dados ou uso de outros modelos de regressão que considerem a distribuição da variável diferente da normal 24 v Diagnóstico de pontos atípicos Pontos atípicos são observações com características notavelmente diferentes das outras observações Os pontos atípicos podem ter efeito na estimação do modelo e consequentemente na interpretação dos resultados até os invalidando Graficamente a detecção de pontos atípicos pode ser feita observando os pontos que se destacam no gráfico de dispersão dos resíduos e dos valores ajustados Porém existem medidas desenvolvidas para avaliar diferentes formas de influência de pontos e respectivos testes de hipóteses 25 Seleção de uma técnica de estimação para encontrar o melhor modelo Dentre todas as variáveis explicativas disponíveis devemos encontrar um subconjunto de variáveis importantes para explicar a variável resposta do modelo Para tanto temos dois objetivos conflitantes Não perder informação Obter o máximo de informação por meio de um modelo com tantas variáveis independentes possíveis Não utilizar informações irrelevantes Diminuir a variância da estimativa e o custo da coleta por meio de um modelo com menor número possível de variáveis Estratégias no processo de seleção de variáveis a Especificação confirmatória considera procurar justificativa teórica para escolha das variáveis que ficarão no modelo o que evita ser guiado por informação empírica b Abordagem combinatória considera todos os subconjuntos possíveis de variáveis explicativas a partir de todos os modelos possíveis e critérios de avaliação para selecionar o melhor deles Criticado e pouco aplicado devido a sua natureza não teórica pode tornarse trabalhoso devido a quantidade de modelos possíveis c Busca sequencial considera a busca do melhor subconjunto de variáveis explicativas sem considerar todos os possíveis subconjuntos Define uma forma de seleção automática acrescentando ou eliminando variáveis até que alguma medida de critério seja alcançada Métodos Stepwise inclusão e eliminação Forward inclusão e Backward eliminação Na prática assumimos que a correta especificação funcional das variáveis explicativas é conhecida e que não há pontos atípicos ou influentes Entretanto o ideal seria inicialmente identificar esses pontos atípicos e eventuais colinearidade e heteroscedasticidade realizar quaisquer transformações que sejam necessárias e só então aplicar seleção de variáveis 26 O critério para a adição ou remoção de covariáveis é geralmente baseado em estatísticas e outros critérios comparando modelos com e sem as variáveis em questão Procedimento Forward Ajustase o modelo com a variável com maior correlação amostral com a variável resposta digamos que seja calculase a estatística para testar se ela realmente é significativa para o modelo A variável entra no modelo se a estatística mostrar sua importância O próximo passo é encontrar uma variável com maior correlação com a resposta considerando a presença da primeira variável no modelo Esta correlação é chamada de correlação parcial que é a correlação dos resíduos do modelo com os resíduos do modelo j23p Supondo que a maior correlação parcial com y seja ela é selecionado para o modelo O processo é repetido ou seja variável com maior correlação parcial com y é adicionada no modelo até que não seja incluída mais nenhuma variável explicativa no modelo Procedimento Backward Iniciase com todas as variáveis e depois por etapas verifica se cada uma pode ser ou não eliminada A decisão de retirada da variável é tomada baseandose também em testes que são calculados para cada variável como se ela fosse a última a entrar no modelo Para cada variável explicativa calculase uma estatística e o menor valor entre elas mostra a qual das variáveis deve ser eliminada Ajustase novamente o modelo agora com uma variável a menos a eliminada e o processo para quando não for mais possível eliminar variáveis Procedimento Stepwise Combina os dois métodos Forward e Backward assim uma variável adicionada no modelo no passo anterior pode ser redundante para o modelo por causa do seu 27 relacionamento com as outras variáveis e se for o caso ela pode ser removida do modelo Iniciase com uma variável aquela que tiver maior correlação com a variável resposta A cada passo do forward depois de incluir uma variável aplicase o backward para ver se será descartada alguma variável Continuamos o processo até não incluir ou excluir nenhuma variável Assim a regressão Stepwise requer dois valores de corte de entrada e de saída Alguns autores preferem escolher o mesmo valor mas isso não é necessário Se o de entrada for menor será mais difícil remover variáveis do que adicionar variáveis e caso contrário será mais difícil adicionar que remover 33 A multicolinearidade Um fator crucial ao considerar mais do que uma variável independente ou explicativa é levar em conta o papel desempenhado por cada variável independente sobre a variável dependente A multicolinearidade é uma medida relacionada com o quanto há de interrelacionamento entre as variáveis independentes A primeira indicação de colinearidade pode ser vista na matriz de correlações para os valores acima de 09 Medidas para multicolinearidade Tolerancia e VIF Tolerância é a quantidade de variabilidade da variável independente selecionada não explicada pelas outras variáveis independentes Pode ser definida estimar um modelo considerando cada variável independente como dependente explicada pelas demais independentes e a tolerância será 1 R2 valores altos significa pequeno grau de multicolinearidade VIF Fator de inflação de variância é o inverso da tolerância a raiz do VIF é o grau em que o erro padrão aumentou devido a multicolinearidade tolerância de 25 teríamos VIF igual a 4 e assim o erro padrão dobra por conta da multicolinearidade 28 Possíveis efeitos nas estimativas da regressão com dados multicolineares Efeitos na estimação com o aumento do erro padrão dificultasse a capacidade de captar diferenças significativas dos coeficientes Pode inverter sinais de alguns coeficientes Variabilidade Compartilhada Correlação parcial correlação de uma variável independente X com a dependente Y removendo os efeitos das outras independentes sobre X e Y Representa o efeito preditivo incremental desta independente a partir do efeito coletivo de todas as independentes Serve para identificar variáveis independentes com maior poder preditivo e portanto a ser acrescentada em um modelo que já possui outras variáveis independentes 29 Correlação semiparcial correlação de uma variável independente X com a dependente Y removendo os efeitos das outras independentes sobre X Representa a única relação prevista por uma variável independentes depois que as previsões compartilhadas com todas as independentes são desconsideradas usada na distribuição de variância entre as variáveis independentes Essa correlação ao quadrado fornece a variância única explicada pela variável independente Exemplo para os cálculos das correlações e variância compartilhada Y X1 X2 Y 1 X1 06 1 X2 05 07 1 Apesar de X1 e X2 estarem bem relacionadas com Y elas possuem correlação alta entre si portanto precisamos verificar a variância compartilhada A correlação semiparcial entre Y e X1 enquanto se controla X2 é calculada por CorrY X1X2 CorrYX1 CorrYX2CorrX1X2 raiz 1 CorrX1X22 06 0507 raiz1072 035 e portanto variância única explicada por X101225 sendo a variância compartilhada 0620122502375 CorrY X2X1 CorrYX2 CorrYX1CorrX2X1 raiz 1 CorrX2X12 05 0607 raiz1072 011 e portanto variância única explicada por X200125 sendo a variância compartilhada 0520012502375 Sendo a variância total explicada por X2052 025 Resumo dos cálculos a Variância única explicada por X1 01225 e por b X2 00125 c Variância compartilhada por X1X2 02375 e Variância total explicada por X1X2abc 03725 d Variância não explicada por X1X2 1 abc 06275 30 Graficamente Exercício Considere a matriz de correlações a seguir W V1 V2 W 1 V1 0293 1 V2 0631 0642 1 Calcule a Variância única explicada por V1 e por b V2 c Variância compartilhada por V1V2 e Variância total explicada por V1 e V2 d Variância não explicada por V1V2 X1 a c d b Y X2 31 Ações corretivas para multicolinearidade Usar modelo apenas para previsão não interpretar coeficientes Eliminar ou substituir variáveis tomando cuidado com o erro de especificação ou usar métodos mais sofisticados como regressão bayesiana por exemplo regressão ridge ou usar componentes principais Se colinearidade nula o gráfico abaixo mostra R261 e X1X2 preveem 36 e 25 da variabilidade da variável independente Porém conforme a colinearidade aumenta observase Interação entre variáveis Podese considerar a criação de variável que representa a interação existente entre as variáveis e Se a interação está presente e é significativa o efeito de na resposta média depende do nível de e analogamente o efeito de na resposta média depende do nível de Neste caso quando a interação é significante o efeito de cada uma das variáveis e devem ser combinados ou seja dependem do nível das demais variáveis independentes por exemplo podemos avaliar o efeito total de precisa olhar para um valor específico de Assim teríamos o modelo 32 4 ANÁLISE DISCRIMINANTE Objetivo Apresentar os fundamentos da técnica Análise Discriminante Objetivos específicos Introduzir as condições para o uso da Análise Discriminante e outras técnicas utilizadas quando a variável dependente é qualitativa categorizada Motivação Conhecer técnicas para discriminar diferenciar elementos a partir da estimação de funções que separam os grupos formados pela variável dependente Também podese utilizar a técnica para classificar elementos em grupos pré definidos Estrutura da aula 1 Conceitos básicos e exemplos 2 Formulação e estimação O método de Fisher 3 Interpretação e outras considerações na Análise Discriminante 41 Conceitos básicos e exemplos Exemplo 1 Uma empresa irá lançar um novo produto e precisa determinar se ele será bem sucedido comercialmente para tanto será verificado se seus prováveis consumidores comprariam ou não o produto A empresa planejou um estudo elaborando um questionário com 4 perguntas as três primeiras para avaliar o produto em três itens em uma escala de 1 a 10 de péssimo até excelente a Durabilidade b Desempenho c Estilo Por fim uma quarta questão sobre a compra ou não do produto 33 Tabela de dados coletados Intenção de Compra Durabilidade X1 Desempenho X2 Estilo X3 Compraria Individuo 1 8 9 6 Individuo 2 6 7 5 Individuo 3 10 6 3 Individuo 4 9 4 4 Individuo 5 4 8 2 Mediana 8 7 4 Não Compraria Individuo 6 5 4 7 Individuo 7 3 7 2 Individuo 8 4 5 5 Individuo 9 2 4 3 Individuo 10 2 2 2 Mediana 3 4 3 Diferençamediana 5 3 1 Qual das três variáveis melhor discrimina Analisando as medianas consigo verificar quais das três poderiam melhor discriminar os indivíduos de acordo com a intenção de compra Assim posso construir uma função que melhor discrimine e com a definição de um ponto de corte classificar os indivíduos A partir de X1 poderia por exemplo utilizar o corte no escore 6 assim indivíduos com valores iguais ou maior do que 6 seriam classificados como Compraria Deste modo um deles seria mal classificado indivíduo 5 Combinada com a variável X1 a variável X2 poderia ajudar na classificação do indivíduo 5 conforme gráfico a seguir Observase também que X3 é a pior variável para separar os indivíduos 34 Graficamente Qual função poderíamos considerar Conclusão X1 e X2 poderiam ser utilizadas em conjunto para classificar os elementos por exemplo de acordo com a função Z X1X2 Qual ponto de corte para maximizar a classificação correta das unidades Podemos usar estas funções e calcular valores para cada observação na tabela a seguir foi calculado X1X2 que classifica corretamente 100 das observações em seus respectivos grupos 35 Intenção de Compra Durabilidade X1 Desempenho X2 X1X2 Compraria Individuo 1 8 9 17 Individuo 2 6 7 13 Individuo 3 10 6 16 Individuo 4 9 4 13 Individuo 5 4 8 12 Mediana 8 7 Não Compraria Individuo 6 5 4 9 Individuo 7 3 7 10 Individuo 8 4 5 9 Individuo 9 2 4 6 Individuo 10 2 2 4 Mediana 3 4 Diferençamediana 5 3 36 Exemplo 2 Possibilidade de clientes de uma concorrente trocarem de fornecedor Entrevistas com 15 clientes identificaram uma classificação entre uma das 3 possibilidades Definitivamente trocaria indeciso e definitivamente não trocaria Além de uma avaliação do atual fornecedor em duas características Competitividade de preço X1 e Nível de serviço X2 considerando uma escala de 1 a 10 de péssimo até excelente As avaliações podem prever a possibilidade de troca Seguem os dados coletados Avaliação do fornecedor Grupo 1 Definitivamente trocaria Competitividade preço X1 Nível de serviço X2 Individuo 1 2 2 Individuo 2 1 2 Individuo 3 3 2 Individuo 4 2 1 Individuo 5 2 3 Mediana 2 2 Grupo 2 Indeciso Individuo 6 4 2 Individuo 7 4 3 Individuo 8 5 1 Individuo 9 5 2 Individuo 10 5 3 Mediana 5 2 Grupo 3 Definitivamente não trocaria Individuo 11 2 6 Individuo 12 3 6 Individuo 13 4 6 Individuo 14 5 6 Individuo 15 5 7 Mediana 4 6 37 Qual das variáveis melhor discrimina Observando e analisando as medianas para as variáveis X1 e X2 consigo um ponto de corte A variável X1 diferencia bem os grupos 1 dos grupos 2 e 3 A variável X2 diferencia bem o grupo 3 dos grupos 1 e 2 Graficamente Qual função poderíamos criar Nenhuma das variáveis utilizada individualmente classificaria bem os grupos Para mais grupos podemos utilizar mais funções discriminantes cada função define um escore Como temos três grupos podemos construir duas funções discriminantes Podemos pensar em duas funções que combinam X1 e X2 e cujo valor resultante do cálculo possibilita a separação entre os grupos Considere os pesos mais simples 0 ou 1 teríamos as duas funções abaixo e dois escores para cada respondente Z1 10 X1 0 X2 Z2 0 X1 10 X2 38 As duas funções podem ser eixos neste exemplo coincidem com as variáveis X1 e X2 e pode ser facilmente mostrado no gráfico a seguir E assim podemos definir os cortes por exemplo X135 e x2 45 39 42 Formulação e estimação O método de Fisher Os objetivos na Análise Discriminante podem ser resumidos como sendo similares aos já apresentados para a regressão linear porém com variável de interesse qualitativa variável que define os grupos Assim com a análise é possível fazer Predição no caso de classificar novas observações e seleção de variáveis quando da escolha das características mais relevantes para diferenciar os grupos em estudo Por fim estimação e inferência é feita com a formulação do modelo como será visto a seguir A análise envolve determinar funções discriminantes como combinação linear das variáveis independentes Sem perda de generalidade considere a discriminação e classificação quando o número de populações grupos envolvidas é igual a dois A e B Considere que foram selecionadas uma amostra de cada população nA e nB respectivamente Na figura acima temos o comportamento de Y uma variável independente para as duas populações duas curvas em 3 situações hipotéticas 3 quadros As áreas comuns intersecção entre as curvas indicam regiões em que é difícil diferenciar as duas populações 40 Note que essa região de intersecção diminui quando as médias de Y para as duas populações são mais distantes entre si ver quadros de acordo com seta horizontal ou quando a variância de Y é menor ver quadros de acordo com seta vertical Com isso em mente o método de Fisher busca encontrar a melhor definição de Y no sentido de maximizar a distância entre as duas médias grupo A e grupo B e minimizar sua variabilidade e requer que as matrizes de covariância do vetor X para as populações sejam iguais A ideia é obter a combinação linear das variáveis que melhor discrimine as duas populações ou melhor obter a combinação linear que maximiza a razão entre a diferença das médias entre os grupos e sua variabilidade A essa razão dáse o nome de a função discriminante linear de Fisher Graficamente teríamos a seguinte representação do método de Fisher para duas variáveis X1 e X2 Na prática utilizase os valores amostrais e realizase o cálculo matricial 𝑦 𝑥𝐴 𝑥𝐵𝑇 𝑆𝑝 1 𝑥 Que representa o produto multiplicação entre os componentes Diferença das médias das variáveis entre os grupos 𝑥𝐴 𝑥𝐵 Matriz inversa de variânciascovariâncias 𝑆𝑝 1 vetor x que representa as variáveis consideradas na análise 41 Os símbolos T e 1 representam a transposta e a inversa de uma matriz Sp é uma matriz que combina as matrizes de variânciascovariâncias SA e SB 𝑆𝐴 1 𝑛𝐴 1 𝑛𝐴 𝑥𝐴𝑗 𝑥𝐴 𝑗1 𝑥𝐴𝑗 𝑥𝐴 𝑇e 𝑆𝐵 1 𝑛𝐵 1 𝑛𝐵 𝑥𝐵𝑗 𝑥𝐵 𝑗1 𝑥𝐵𝑗 𝑥𝐵 𝑇 De modo que 𝑆𝑝 𝑛𝐴 1 𝑛𝐴 1 𝑛𝐵 1 𝑆𝐴 𝑛𝐵 1 𝑛𝐴 1 𝑛𝐵 1 𝑆𝐵 𝑛𝐴 1 𝑆𝐴 𝑛𝐵 1 𝑆𝐵 𝑛𝐴 𝑛𝐵 2 Para obter a matriz inversa A1 de uma matriz A para caso 2 por 2 podese utilizar Exemplo de aplicação do Método de Fisher para o exemplo inicial Intenção de Compra Durabilidade X1 Desempenho X2 Compraria A Individuo 1 8 9 Individuo 2 6 7 Individuo 3 10 6 Individuo 4 9 4 Individuo 5 4 8 Não Compraria B Individuo 6 5 4 Individuo 7 3 7 Individuo 8 4 5 Individuo 9 2 4 Individuo 10 2 2 42 Dados resumo Grupos Médias Matriz SA Matriz SB A 74 58 192 17 052 68 192 37 052 33 Matriz Sp Matriz Inversa Sp1 B 32 375 07 028 006 44 07 35 006 030 Função discriminante calculada 𝑦 42 24 028 006 006 030 𝑥1 𝑥2 129 𝑥1 094 𝑥2 Exercício Mostre quais seriam as alterações na função discriminante caso a opinião dos indivíduos 1 e 2 fossem Individuo 1 9 10 Individuo 2 7 8 Complete os dados resumidos a seguir Grupos Médias Matriz SA Matriz SB A 57 136 17 052 136 52 052 33 Matriz Sp Matriz Inversa Sp1 B Calcule a função discriminante 43 Classificação de novas observações Predição Para utilizar a função para classificar uma nova observação x devese considerar um ponto de corte m que discrimina as duas populações e uma regra de alocação que consiste em alocar x em uma população se y for maior ou igual a m y m e alocar em outra população no caso contrário O ponto de corte para classificação é dado por 𝑚 1 2 𝑦𝐴 𝑦𝐵 Por fim generalizando o problema de classificação no caso de mais do que duas populações a ideia é a mesma obter combinações lineares que melhor discriminem as populações no sentido de maximizar a razão entre as médias e a variância Neste caso obtémse mais do que uma função discriminante Sendo o escore discriminante um valor obtido pela função discriminante teremos mais de uma função discriminante caso a variável dependente tenha mais do que duas categorias Para n categorias grupos teremos o número de grupos menos um n1 funções discriminantes Cada função representa uma dimensão discriminante e pode ser vista graficamente sendo a média dos escores das unidades de um grupo chamada centroide A comparação entre os centroides mostra o quão afastado estão os grupos em termos da função discriminante e pode ser utilizado um teste para avaliar a significância das funções discriminantes como uma medida generalizada da distância entre os centroides de grupos 44 43 Interpretação e outras considerações na Análise Discriminante A análise discriminante é apropriada quando temos uma variável dependente categórica dois ou mais grupos e diversas variáveis independentes métricas É útil quando se quer compreender diferenças entre grupos ou classificar corretamente elementos em grupos ou seja a Determinar se existem diferenças estatisticamente significantes entre os perfis de escores médio em um conjunto de variáveis para os grupos definidos a priori b Determinar qual das variáveis independentes explicam o máximo de diferenças nos perfis de escore médio dos grupos c Estabelecer as dimensões de discriminação entre os grupos formados a partir das variáveis independentes d Estabelecer procedimentos para classificar unidades em grupos com base em seus escores No planejamento os grupos formados devem ser mutuamente excludentes e exaustivos Com mais grupos implicase em mais funções discriminantes a tendência é que os grupos fiquem mais parecidos dificultando a discriminação e aumentando a complexidade Outras questões relevantes são a escolha das variáveis independentes e o tamanho da amostra Variações no tamanho dos grupos afetam a estimação da função de discriminante e a classificação de observações além da validação da técnica As suposições para os procedimentos de estimação e classificação podem ser resumidos em Normalidade multivariada das variáveis independentes e Estruturas matrizes desconhecidas mais iguais de dispersão e covariância para os grupos como definidos pela variável dependente Sendo importante a igualdade das matrizes de covariâncias que afeta tanto estimação quanto classificação Há testes para avaliar a similaridade das matrizes de dispersão das variáveis independentes Se essas suposições são violadas um 45 método alternativo é a regressão logística Outros fatores a serem avaliados nos dados são a multicolineridade a linearidade e as observações atípicas Para a estimação e avaliação de ajuste geral do modelo há diferentes abordagens computacionais em resumo métodos de estimação simultâneo direto e método stepwise O primeiro considera todas as variáveis independentes ao mesmo tempo independentemente do poder discriminatório de cada variável E como já discutido o método stepwise que envolve a entrada de uma variável por vez em um processo sequencial de adição ou eliminação é útil quando se tem muitas variáveis independentes no estudo Após a estimação da função discriminante a significância ou ajuste geral do modelo pode ser avaliado por meio de testes os mais conhecidos são Lambda de Wilks o Traço de Hotelling e Critério de Pillai para o método direto Para o stepwise há D2 de Mahalanobis e a medida V de Rao ambas são medidas de distância generalizada Se o modelo geral for significante devese avaliar a significância de cada função discriminante em separado o que identifica aquelas que devem ser mantidas e interpretadas Para avaliar a capacidade preditiva da função discriminante utilizase matrizes de classificação relativo ao R2 da regressão ela fornece uma perspectiva prática pois podemos ter diferença estatisticamente significante nos testes e classificar apenas 50 corretamente Para validar as funções discriminantes pelo uso da matriz de classificação utilizase a classificação a partir dos escores calculados de parte da amostra dividida aleatoriamente não utilizada para estimar as funções Definese um escore de corte divisão para classificar as observações em cada grupo que leva em conta os centroides média dos escores e o tamanho dos grupos e assim calculase a quantidade de observações classificadas corretamente razão de sucesso 46 Se os custos da má classificação forem iguais para todos os grupos o escore de corte ótimo será aquele que classificar mal o menor número de observações ao longo dos grupos senão custos desiguais será o que minimizar os custos de má classificação Regra de decisão para classificação dos elementos nos grupos Grupos de mesmo tamanho Grupos de tamanhos diferentes centróide grupo B Z centróide grupo A Z onde Z Z Z B A B A CE 2 tamanho grupo B N tamanho grupo A N centróide grupo B Z centróide grupo A Z onde N N N Z N Z Z B A B A B A B A A B CE Montar matriz e calcular percentual de classificados corretamente chamada razão de sucesso Para avaliar a razão de sucessos devese olhar para uma classificação por chances aleatória sem utilizar as funções discriminantes que se baseia no inverso do número de grupos se os grupos têm tamanhos iguais por exemplo teríamos 50 para dois grupos e 33 para três grupos No caso de os grupos não terem tamanhos iguais a classificação pode ser feita por chance máxima para maximizar o percentual classificado corretamente o que conseguiria classificando todos no maior grupo e chance proporcional mais apropriado pois identifica corretamente os membros de todos os grupos definida como Cp2 1p2 sendo p a proporção de indivíduos no grupo 1 e 1p no grupo 2 Critério sugerido para comparação da razão de sucesso com o padrão a precisão da classificação deve ser pelo menos um quarto maior do que a obtida por chances 47 Também devese calcular as razões de sucesso para cada grupo e avaliar se a analise discriminante fornece níveis adequados de precisão preditiva para cada grupo Quanto a interpretação dos resultados há pelo menos três métodos para determinação da importância relativa de cada variável independente na discriminação entre os grupos 1 Pesos discriminantes padronizados 2 Cargas discriminantes correlações estruturais e 3 Valores F parciais A abordagem tradicional para interpretar funções discriminantes é examinar o sinal e magnitude do peso discriminante padronizado de cada variável na computação das funções discriminantes assim variáveis independentes com pesos maiores contribuem mais para o poder discriminatório da função e o sinal se a contribuição é negativa ou positiva A interpretação de pesos é análoga aos pesos beta coeficientes padronizados em análise de regressão Porém por conta de deficiências nos pesos as cargas são cada vez mais utilizadas Elas medem a correlação linear simples entre cada variável independente e a função discriminante e refletem a variância que as variáveis independentes compartilham com a função Podem ser interpretadas como cargas fatorais na avaliação da contribuição relativa de cada variável independente à função discriminante Cargas acima de 04 ou 04 são consideradas substantivas Quando se utiliza stepwise podese utilizar também F parciais Valores grandes indicam maior poder discriminatório Quando temos duas ou mais funções discriminantes adicionase a interpretação dada pela rotação das funções discriminantes A rotação redistribui a variância preserva a estrutura original e a confiabilidade da solução discriminante e torna as funções mais fáceis de interpretar VARIMAX é a mais utilizada 48 Representações gráficas Há uma forma denominada Mapa Territorial que mostra a posição relativa de observações individuais com base nos escores da função discriminante Com a perspectivas de análise de colocar diferentes símbolos para os diferentes grupos é permitida a visualização do posicionamento dos elementos além da posição dos centroides e de retas nos escores de corte Por fim a validade externa e interna pode ser feita com uma amostra separada ou com um procedimento denominado de validação cruzada Na validação cruzada utilizase múltiplos subconjuntos da amostra com uma observação de fora e as vezes é a única possibilidade de validação quando o estudo possui tamanho pequeno de amostra Há vantagens e desvantagens do uso de uma regressão logística comparada com o uso da análise discriminante e no caso em que a variável dependente tenha dois grupos a regressão logística pode ser indicada por dois motivos 1 Robustez A regressão logística sofre menos com a falta das suposições de normalidade multivariada e igualdade entre as matrizes de variânciacovariância nos grupos Além de ser possível utilizar a matriz de classificação 2 A regressão logística é uma técnica similar a regressão múltipla o que possibilita uma facilidade na interpretação dos seus resultados a partir de coeficientes que indicam como as variações na variável dependente associase com as mudanças nas independentes o quanto que a probabilidade mudará dada uma unidade de variação na variável independente Dado isto critérios similares como um R2 adaptado para o caso da regressão logística foi criado e pode ser analisado denominado pseudo R2 49 5 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FATORIAL Objetivo Apresentar as técnicas para redução de dados e criação de variáveis compostas Análise de Componentes Principais e Análise Fatorial que são as técnicas de interdependência mais amplamente utilizadas Objetivos específicos Redução da dimensionalidade dos dados Obtenção de combinações interpretáveis das variáveis Descrição e entendimento da estrutura de correlação das variáveis Motivação Conhecer técnicas para identificar dimensões interpretáveis e reduzir os dados por meio da composição de variáveis fatores a partir de variáveis especificas Estrutura da aula 1 Formulação do modelo de Componentes Principais 2 Interpretação e exemplo do modelo de Componentes Principais 3 Introdução ao modelo de Análise Fatorial 51 Formulação do modelo de Componentes Principais A análise de componentes principais é uma técnica estatística que transforma linearmente um conjunto de p variáveis em um conjunto menor de k variáveis não correlacionadas que explica uma parcela substancial das informações do conjunto original As p variáveis originais X1 X2 Xp são transformadas em p variáveis Y1 Y2 Yp denominadas componentes principais de modo que Y1 é aquela que explica a maior parcela da variabilidade total dos dados Y2 explica a segunda maior parcela e assim por diante 50 Duas formas de entender a técnica intuitivamente Algebricamente os componentes principais são combinações lineares das variáveis originais E geometricamente os componentes são as coordenadas dos pontos amostrais em um sistema de eixos obtidos pela rotação do sistema de eixos original na direção de variabilidade máxima dos dados A redução da dimensão dos dados de modo a obter combinações interpretáveis é o principal apelo da técnica e é útil por exemplo quando se tem variáveis explicativas correlacionadas multicolinearidade No gráfico a seguir estão representados os dados originais correlacionados e duas componentes sendo que a primeira aponta na direção da maior variância A transformação nos dados originais os projeta nos novos eixos Abaixo temos um caso no qual dados de três variáveis três dimensões podem ser reduzidos para representação por duas componentes 51 Suposições A análise de componentes principais depende somente da matriz de covariância ou da matriz de correlação de X1 X2 Xp e não requer qualquer suposição sobre a forma da distribuição multivariada dos dados porém se a normalidade existe a análise é engrandecida Formulação de componentes principais considere o conjunto de dados a seguir Variáveis Indivíduos X1 X2 Xp 1 x11 x12 x1p 2 x21 x22 x2p N xn1 xn2 xnp O qual pode ser representado pela matriz X com as p características de n indivíduos 52 O entendimento dessa estrutura através das variáveis X1 X2 X3 Xp pode ser complicado na prática Assim o objetivo da análise de componentes principais é transformar essa estrutura complicada em uma outra estrutura representada pelas variáveis Y1 Y2 Y3 Yp de forma a serem não correlacionadas e com variâncias ordenadas para que seja possível comparar os indivíduos usando apenas as variáveis Y que apresentam maior variância A estrutura de interdependência entre as variáveis da matriz de dados é representada pela matriz de covariância S ou pela matriz de correlação R É comum utilizar a matriz R que pode ser vista como uma matriz padronizada dado que geralmente as variáveis em X possuem diferentes unidades de medidas Para utilizar matriz de covariâncias antes devese padronizar as variáveis Os dados originais podem ser padronizados matriz Z 53 Para encontrar os componentes principais utilizase a teoria sobre Autovalores e Autovetores Definese autovalor escalar e autovetor v se v 0 a partir de uma transformação linear T Tv v que pode ser escrita pela multiplicação de uma matriz A por um vetor Tv Av igualando Av v ou Av v 0 que resulta no sistema homogêneo A I v 0 ou detA I 0 determinante igual a 0 O que resulta em um polinômio de grau n em conhecido como polinômio característico As raízes do polinômio característico são os autovalores da matriz A Para encontrar os autovetores basta substituir o valor do autovalor na equação original O autovalor será então associado ao autovetor encontrado O autovetor forma uma base para o espaço de solução da equação A I v 0 dado o respectivo autovalor Logo qualquer múltiplo do autovetor também é um autovetor Portanto sendo A a matriz canônica que representa um operador linear T temos Autovalores de T ou de A as raízes da equação detA I 0 Autovetores v de T ou de A as soluções da equação Av v ou A Iv 0 para cada Interpretação geométrica u é autovetor de T pois R Tu u v não é autovetor de T pois não R Tv v 54 Determinação dos componentes principais Os componentes principais são determinados resolvendose a equação característica da matriz S ou R pensando na matriz R temos ou Se a matriz R for de posto completo ou seja não possuir colunas que sejam combinação linear de outra a equação terá soluções chamadas de autovalores da matriz R denominadas por com Assim também teremos como os autovetor correspondente a cada autovalor Portanto o iésimo componente principal é dado por onde Os autovetores são ortogonais entre si e normalizados ou seja e Assim os componentes principais apresentam as seguintes propriedades para chegarmos em uma interpretação 1 A variância de Yi é igual ao autovalor 2 O primeiro componente é o que apresenta maior variância e assim por diante 3 O total da variância das variáveis originais é igual ao somatório dos autovalores que é igual ao total de variância dos componentes principais 4 Os componentes principais não são correlacionados entre si 55 Observe o exemplo das componentes y1 e y2 na figura a seguir Na primeira parte gráfico da esquerda temos autovalores diferentes formando uma elipse e na segunda parte gráfico da direita o círculo advém de autovalores iguais Note que as componentes foram obtidas a partir dos eixos x1 e x2 O C a seguir denominado contribuição representa a proporção de variância total explicada por cada componente principal A importância de um componente principal é avaliada por meio de sua contribuição Assim a soma dos primeiros k autovalores representa a proporção de informação retida na redução de p para k dimensões Com isso podemos decidir quantos componente vamos usar na análise isto é quantos componentes serão utilizados para diferenciar os indivíduos É comum para aplicações em diversas áreas do conhecimento utilizar o número de componentes utilizados que acumula 70 ou mais de proporção da variância total 56 52 Interpretação e exemplo do modelo de componentes principais Considere os dados a seguir como exemplo para aplicação Variáveis Indivíduos X1 X2 1 102 96 2 104 87 3 101 62 4 93 68 5 100 77 Média 100 78 Variância 175 1905 Posso optar por realizar a análise a partir da matriz de correlações ou de covariâncias com os dados padronizados Considerando a matriz de correlação R Após a redução de p para k dimensões a análise é realizada sobre os escores dos k componentes principais Calculando os valores para cada Y no nosso exemplo teremos Y1 Y2 e a contribuição C como segue 57 Assim para calcular os escores bastaria considerar os componentes No exemplo teríamos 58 Exercício Encontre os autovalores e autovetores para a matriz 2 1 1 2 Definição do número de componentes a serem utilizadas A redução dependerá das correlações e das variâncias das variáveis originais Alguns critérios que são utilizados Critério de Kaiser Manter na análise as componentes principais correspondentes aos autovalores maiores do que a média se usar a matriz de covariâncias dos autovalores ou maiores do que 1 se usar a matriz de correlações Porem podese descartar componentes com contribuições importantes Reter o número de componentes principais que acumulem pelo menos um percentual da variabilidade total dos dados por exemplo 70 Reter o número de componentes principais que acumulem pelo menos uma certa percentagem da variabilidade de cada uma das variáveis originais por exemplo 50 Utilizando o Scree Plot gráfico com os autovalores representados o qual apoia a escolha do corte quando a variação passa a ser pequena Exemplo 59 53 Introdução ao modelo de Análise Fatorial Análise Fatorial é uma das principais e mais antigas técnicas multivariadas sua origem está ligada a estudos da área de psicologia quando da criação de índice de inteligência desenvolvido por Spearman em 1904 A técnica é bastante útil em situações em que se observa para cada observação um grande número de variáveis e em diferentes escalas de avaliação Nestes casos além do problema de grande quantidade de informação existe a interdependência subjacente a elas Assim ela possui como objetivo descrever a estrutura de dependência de um conjunto de variáveis através da criação de fatores interpretáveis constructos para medir aspectos comuns Isto feito a partir da estrutura de dependência existente entre as variáveis de interesse que permite a criação de um conjunto menor de variáveis sem uma perda muito grande de informações dos dados originais Os fatores podem ser não correlacionados fatores ortogonais ou correlacionados fatores oblíquos As variáveis são agrupadas por meio de suas correlações ou seja aquelas pertencentes a um mesmo grupo serão fortemente correlacionadas entre si mas pouco correlacionadas com as variáveis de outro grupo Cada grupo de variáveis representará um fator Análise Fatorial Confirmatória AFC e Análise Fatorial Exploratória AFE A técnica pode ser utilizada de duas formas em algumas situações o interesse é verificar se os itens de uma escala se comportam segundo uma estrutura pré definida nessa situação requer a aplicação de uma AFC para confirmar tal estrutura hipótese Em outras situações não é exigida a formulação de hipóteses à priori a respeito da estrutura de dependência dos dados assim se esta estrutura existir será obtida a partir dos resultados de uma AFE A análise fatorial pode ser estudada em um tópico mais abrangente A Modelagem de Equações Estruturais SEM do Inglês Structural Equation Modeling Ela é uma 60 metodologia que pode examinar uma série de relações de dependência simultaneamente Ela é particularmente útil para testar teorias que contém múltiplas equações envolvendo relações de dependência Em outras palavras é útil para modelos teóricos no qual há uma série de relações definidas por modelos Além de permitir que uma variável dependente se torne independente em uma relação subsequente também possibilita relações entre variáveis que não conseguimos medir diretamente denominadas de constructos mas que podemos estimar através de indicadores variáveis observadas Formulação da técnica a partir dos dados Considerando um conjunto de p variáveis com n observações para cada variável e com correlações significantes Variáveis Indivíduos X1 X2 Xp 1 x11 x12 x1p 2 x21 x22 x2p N xn1 xn2 xnp Exemplo de interpretação gráfica com três variáveis e dois fatores 61 Projeções duas a duas Representação de dois Fatores 62 Dados e matriz de correlações Estatística de KMO e Teste de Bartlett Para avaliar se a magnitude da correlação existente entre as variáveis é adequada para aplicação da técnica 63 Estimação dos fatores Autovalores e autovetores 64 Interpretação dos resultados Cargas fatoriais São as correlações de Pearson entre as variáveis e os fatores representam a importância dos fatores na composição das variáveis Comunalidades Representam a variância total compartilhada de cada variável em todos os fatores considerados na análise final Um critério comum é considerar os autovalores maiores do que 1 Os principais resultados da análise são obtidos com questões relativas a quais e quantos são os fatores extraídos e qual a importância de cada fator isto feito pela interpretação das cargas e da informação sobre o total da variância explicada mostram o grau de importância de cada fator na explicação do problema proposto Há procedimentos para rotação da matriz que facilitam a interpretação dos resultados como a denominada VARIMAX 65 6 ANÁLISE DE AGRUPAMENTO Objetivo Fornecer ao aluno conceitos sobre técnicas estatísticas de agrupamento e em especial mostrar aplicações à Administração Objetivos específicos Compreender métodos e algoritmos clássicos para formar grupos homogêneos Entender as etapas necessárias para aplicar a técnica de agrupamentos Conhecer o desenvolvimento da técnica a partir de exemplos aplicados Motivação Conhecer técnicas para formar grupos de elementos a partir de variáveis especificas Estrutura da aula 1 Conceitos básicos 2 Etapas para aplicação da técnica 66 61 Conceitos básicos Uma reflexão inicial A partir da figura a seguir pense sobre as questões Como identificar padrões de comportamento Como formar grupos homogêneos de unidades amostrais Cada indivíduo teria uma ideia de como formar grupos Pela Cor ou pelo Naipe ou pelo Valor dos itens porém o ponto é Qual critério utilizar para formar os grupos homogêneos Para ilustrar a intuição inicial vamos considerar o exemplo 1 países onde se deseja formar grupos com as variáveis apresentadas a seguir percentuais de domicílios com Telefone Computador e Internet além de quantidade de celulares por 100 habitantes Considerando apenas duas das variáveis digamos as duas primeiras Telefone e Celular Podemos visualizar os dados através de um gráfico de dispersão 67 Parece razoável considerar a proximidade entre os pontos como critério Claro que pontos próximos representam países semelhantes no que se refere a estas variáveis do gráfico No entanto percebemos que as distâncias em um sentido são maiores do que no outro Ocorre que a variabilidade da taxa de celular é maior isso faz com que a taxa de telefone contribua pouco para a definição dos grupos 68 Uma forma de lidar com isso é padronizar as variáveis de modo que ambas tenham mesma importância ordem de grandeza Vejam que agora não fica tão evidente a proximidade entre aqueles elementos 69 Após considerar a padronização dos dados para comparação adequada outro ponto relevante se relaciona ao conceito de distância ou proximidade Há dois tipos de medida de semelhança para comparar as unidades do estudo Medidas de similaridade quanto maior o valor maior a semelhança entre os objetos Medidas de dissimilaridade quanto maior o valor mais diferentes são os objetos Observação Porque não utilizar medida de correlação entre os casos Pois a correlação mede o padrão das respostas e não a magnitude Veja no exemplo Caso X1 X2 X3 X4 X5 1 7 10 9 7 10 2 9 9 8 9 9 3 5 5 6 7 7 4 6 6 3 3 4 5 1 2 2 1 2 6 4 3 2 3 3 7 2 4 5 2 5 Dado sete casos observações com cinco variáveis medidas temos a seguinte matriz com as correlações entre os casos Correlações entre os casos 1 2 3 4 5 6 7 1 1 2 01 1 3 0 0 1 4 008 051 082 1 5 096 041 0 006 1 6 046 079 035 069 064 1 7 089 051 016 023 096 069 1 70 E a matriz com as distâncias Distâncias entre os casos 1 2 3 4 5 6 7 1 0 2 33 0 3 68 66 0 4 102 102 6 0 5 158 162 101 71 0 6 131 13 73 39 39 0 7 113 122 63 51 49 44 0 Pela matriz de correlação poderíamos formar um grupo com os casos 1 5 e 7 e outro grupo com os casos 2 4 e 6 e outro grupo Porém considerando a matriz com as distâncias os grupos que poderiam ser formados seriam um grupo com os casos 1 2 outro grupo com os casos com os casos 4 5 6 e 7 O que significa essa diferença nos grupos formados 71 Observe essa diferença graficamente considere que as linhas tracejadas representam os grupos formados a partir das correlações entre os casos e as cores os grupos formados a partir das distâncias Reflita sobre as diferenças mostradas no gráfico a seguir A seguir veremos as etapas para uso da técnica em exemplos 62 Etapas para aplicação da Análise de Agrupamentos Análise de Agrupamentos é um grupo de técnicas multivariadas cuja finalidade principal é agregar objetos com base nas características que eles possuem Vamos considerar que a fase inicial de formular o problema e selecionar as variáveis já foi feita assim podemos estruturar à aplicação desta técnica nas seguintes etapas 1 Escolha do critério de semelhança 2 Formação dos grupos 3 Validação do agrupamento 4 Interpretação dos grupos 0 2 4 6 8 10 1 2 3 4 5 1 2 3 4 5 6 7 72 1 Escolha do critério de semelhança Nesta etapa precisamos conhecer o nosso banco de dados para enfim escolher o critério que será utilizado para determinação dos grupos Além de responder à questão sobre qual medida de semelhança utilizar pode ser necessário a padronização das variáveis como foi visto Para essa primeira etapa observase o tipo de variável quantitativa ou qualitativa e o tipo de medida de semelhança será utilizada para comparar as unidades do estudo medidas de similaridade ou medidas de dissimilaridade Considere o exemplo 2 Clientes Vamos elaborar esta etapa a partir de um problema no qual precisamos agrupar determinados clientes de acordo com algumas variáveis Conforme mostrado intuitivamente no início precisamos padronizar as variáveis de modo que a contribuição de cada uma delas na formação dos grupos seja semelhante No caso de variáveis Quantitativas a padronização foi realizada pela amplitude ou seja a partir do mínimo e do máximo alternativamente poderíamos padronizar pela média e pela variância 73 Após padronização das variáveis e neste caso de variáveis quantitativas a medida para distâncias mais utilizada é a distância euclidiana que pode ser transformada em uma medida de similaridade calculando 1 distância euclideana média O cálculo das distâncias é feito para cada par por exemplo para os clientes 1 e 2 temos 74 O que irá resultar em uma matriz de distâncias entre todos os elementos essa matriz foi denominada de matriz Sq e é mostrada a seguir Clientes 1 2 3 4 5 1 0000 2 0855 0000 3 0358 0552 0000 4 0392 0471 0113 0000 5 0791 0420 0651 0537 0000 6 0622 0721 0574 0364 0364 Note que existem outras medidas de distância que podem ser utlizadas por exemplo a distância de Mahalanobis quando as variáveis são correlacionadas Quando as correlações entre as variáveis forem nulas considerase as variáveis padronizadas e a distância de Mahalanobis é equivalente à distância euclidiana No caso das variáveis ordinais e nominais o tratamento é similar inicialmente é necessário a padronização e na sequência escolhese o critério de semelhança Para tanto note que as variáveis qualitativas ordinais ou nominais são dicotomizadas ou seja são criadas variáveis extras dependendo do número de categorias de respostas da variável 75 Assim temos para as variáveis ordinais Porte e Velocidade temos A seguir a padronização para as variaveis nominais Usa Internet e Área Por fim considerando coeficiente de concordância simples como medida de similaridade temos 76 O que também irá resultar em uma matriz de distâncias entre todos os elementos Para as variáveis qualitativas pode ser considerada uma matriz única ou duas matrizes uma para as variáveis nominais Sn e outra para as variáveis ordinais So Exercício Complete a matriz com as distâncias considerando as variáveis qualitativas Clientes 1 2 3 4 5 1 2 3 4 5 6 77 Por fim para combinar as duas matrizes quantitativas e qualitativas ou três matrizes caso se considere as variáveis qualitativas separadamente uma com as nominais e outra com as ordinais precisamos considerar uma forma de consolidar as matrizes O que pode ser feito somando as matrizes e ponderando os valores pela quantidade de variáveis como segue S Nn Sn No So Nq Sq Onde Nn número de variáveis nominais No número de variáveis ordinais Nq número de variáveis quantitativas Sn matriz de similaridades das variáveis nominais So matriz de similaridades das variáveis ordinais Sq matriz de similaridades das variáveis quantitativas Exercício Obtenha a matriz com as distâncias considerando as variáveis quantitativas e as qualitativas Clientes 1 2 3 4 5 1 2 3 4 5 6 78 2 Formação dos grupos Após a etapa 1 podemos formar os grupos escolhendo o algoritmo que será utilizado ou seja nesta etapa devese definir o algoritmo que será utilizado na identificação dos grupos os mais conhecidos são Métodos hierárquicos aglomerativos As unidades são particionadas sucessivamente Método do vizinho mais próximo Método do vizinho mais distance Método das médias das distâncias Método da centróide Método de Ward Métodos de Partição Particionar as unidades amostrais formando grupos com alta coesão interna e isolados Método das Kmédias Os métodos hierárquicos consideram no início cada objeto como um grupo n grupos na primeira etapa agrupamse os dois objetos mais parecidos n1 grupos Depois agrupamse os dois grupos mais parecidos n2 grupos até que se tenha todos os objetos juntos em um único grupo Sendo que o método Ward a partição é feita pela soma dos quadrados total Para ilustrar uma aplicação de uso de um dos métodos considere uma matriz de distância euclideanas entre duas variáveis quantitativas para os países exemplo 1 apresentado inicialmente porém com as siglas iniciais denominando os países BRICS Considerando como exemplo o algoritmo pelo método do vizinho mais longe Em um primeiro passo juntaríamos B e S por terem a menor distância entre todos os elementos 137 79 Neste ponto recalculase as distâncias em uma nova matriz para repetir novamente a etapa de identificar os elementos que estão mais próximos Sendo que a distância para o novo grupo deve considerar a distância máxima para cada elemento do grupo B e S de acordo com o método é vizinho mais longe Assim a distância por exemplo entre o elemento R e o grupo B e S seria dada por dBS R maxdB R e dS R max629 697 697 Portanto a nova matriz de distâncias fica Nesta segunda etapa juntaríamos os elementos I e C formando um novo grupo Novamente recalculase a matriz de distâncias 80 Em uma terceira etapa juntaríamos os dois grupos B S e o grupo I C formando um novo grupo Por fim teríamos a matriz a seguir com a qual todos os elementos são agrupados na distância 1087 As quatro etapas podem ser resumidas na tabela a seguir Graficamente podemos representar as etapas em um gráfico denominado dendograma o gráfico mostra as etapas e as distâncias nas quais os elementos foram agrupados As linhas horizontais tracejadas representam possíveis cortes que representariam quantos grupos o pesquisador está interessado com a análise 81 Exercício Obtenha o dendograma a partir da matriz com as distâncias final do exemplo 2 clientes Utilize um dos métodos por exemplo o método do vizinho mais próximo ou do vizinho mais longe Comparação entre os métodos Vizinho mais longe tende a formar grupos mais homogêneos do que o método do vizinho mais perto Ward é atraente por basearse em uma medida com forte apelo estatístico e gerar grupos com alta homogeneidade Tende a criar grupos de tamanhos parecidos Métodos de Partição Particionar as unidades amostrais formando grupos com alta coesão interna e isolados Os métodos de Partição apresentam maior esforço computacional e para minimizar o trabalho computacional inicialmente devese escolher o número de grupos que será formado Isto feito Definido o número de grupos a priori 3 categorias de produtos ou por conveniência de análise por exemplo 2 grupos em uma segmentação de mercado ou ainda definido a posteriori com base nos resultados da análise 82 O método das kmédias tentará formar grupos visando obter uma soma de quadrados residual da partição pequena Para ilustrar a dinâmica deste método considere o exemplo 1 países fixase o número de grupos g a serem formados Escolher casos para serem as sementes geradoras dos grupos iniciais B 2162 10410 S 843 10048 Grupo1 Grupo 2 Sementes Cada ponto será incorporado ao grupo que contém a semente mais próxima A avaliação da qualidade da partição dos grupos dada a soma dos quadrados residual da participação SQDpart SQDTel SQDCel País Telefone Celular País Telefone Celular B 2162 10410 S 843 10048 R 3145 16626 I 287 6142 C 2195 6404 n 2 2 3 3 Média 265 1352 111 753 Variância 483 19319 963 4767 Grupo1 Grupo 2 83 Por fim é verificado se cada ponto está no melhor grupo possível No caso o país B Brasil seria alterado de grupo pois esta mais próximo do centro do grupo 2 dado o centroide do que do centro de seu grupo atual Os passos são repetidos até que nenhuma troca seja necessária Comparação dos métodos Kmédias Apresenta vantagem de realocar os objetos porém é mais sensível a dados aberrantes depende da semente Hierárquicos Não necessita definir número de grupos a priori porém não é adequado quando há muitos dados no estudo cálculo da matriz de similaridade Há uma proposta comum de combinar os métodos Utilizar Kmédias com a semente definida a partir do centroide dos grupos formados no método hierárquico 84 3 Validação do agrupamento Para a validação dos grupos pode ser considerado como regra a taxa de variação em uma medida de similaridade ou uma medida de heterogeneidade de cada solução Verificase se as variáveis têm comportamento diferenciado nos diversos grupos aplicando técnicas inferenciais como testes de hipóteses Análise Discriminante ou Correlação Cofenética e Gráfico da Silhueta medida da qualidade dos agrupamentos que observa se um ponto está mais próximo dos elementos de seu grupo ou de um grupo vizinho 4 Interpretação dos grupos ao final do processo de formação de grupos é importante caracterizar os grupos formados analisando observações atípicas e as unidades em cada grupo O uso de estatísticas descritivas e representações gráficas para caracterização dos grupos é comum para ressaltar diferenças e semelhanças 85 Referências Bibliográficas HAIR Jr J F ANDERSON R E TATHAM R C BLACK W C 2009 Análise Multivariada de Dados 6ª edição Porto Alegre Bookman MAGALHÃES M N LIMA A C P 2001 Noções de Probabilidade e Estatística Editora USP São Paulo MONTEGOMERY D C PECK E A 1992 Introduction to Linear Regression Analysis 2nd ed John Wiley and Sons Inc New York NETER J WASSERMAN W KUTNER M H 1985 Applied linear statistical models regression analysis of variance and experimental designs 2nd ed Homewood Ill RD Irwin JOHNSON R A WICHERN D W 2002 Applied Multivariate Statistical Analysis 5th edition UpperSaddle River Prentice Hall CORRAR L J FILHO J M D Edilson P 2014 Análise Multivariada para os Cursos de Administração Ciências Contábeis e Economia 1ª edição São Paulo Atlas FÁVERO L P BELFIORE P Análise de dados técnicas multivariadas exploratórias com SPSS e Stata Rio de Janeiro Elsevier 2015 BARROSO L P ARTES R Análise Multivariada 10º SEAGRO e 48ª RBRAS Lavras UFLA 2003 VARELLA C A A Análise de Componentes Principais UFRRJ