·
Ciências Econômicas ·
Estatística Econômica e Introdução à Econometria
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
33
Slide - Aula 8 - Extensões do Modelo de Regressão Linear Simples - Estatística Econômica e Introdução à Econometria - 2023-2
Estatística Econômica e Introdução à Econometria
UERJ
36
Slide - Aula 13 - Heterocedasticidade - Estatística Econômica e Introdução à Econometria - 2023-2
Estatística Econômica e Introdução à Econometria
UERJ
24
Slide - Aula 9 - Regressão Múltipla - Estimação - Estatística Econômica e Introdução à Econometria - 2023-2
Estatística Econômica e Introdução à Econometria
UERJ
10
Lista - Estat Econômica 2022 1
Estatística Econômica e Introdução à Econometria
UERJ
41
Slide - Aula 10 - Regressão Múltipla - Inferência - Estatística Econômica e Introdução à Econometria - 2023-2
Estatística Econômica e Introdução à Econometria
UERJ
17
Slide - Aula 7 - Outras Inferências No Modelo de Regressão Simples - Estatística Econômica e Introdução à Econometria - 2023-2
Estatística Econômica e Introdução à Econometria
UERJ
1
Trabalho Estatística 2 2022 2
Estatística Econômica e Introdução à Econometria
UFRJ
3
P2 - Estatística Econômica e Introdução à Econometria 2023-2
Estatística Econômica e Introdução à Econometria
UFRJ
15
Apresentação sobre a Lei dos Grandes Números e a Desigualdade de Chebyshev
Estatística Econômica e Introdução à Econometria
FEEVALE
6
Prova Final - Estatística Econômica e Introdução à Econometria 2021-2
Estatística Econômica e Introdução à Econometria
UFRJ
Texto de pré-visualização
Métodos Econométricos Prof. Paulo Sérgio Coelho Aula 11: Multicolinearidade Multicolinearidade Estamos examinando o que acontece quando a hipótese 8 não é verificada E também as hipóteses 6 e 7 Prof. Paulo Sérgio Coelho 2 slide 9 da aula 09 Multicolinearidade Resultado da correlação entre os regressores Qual a natureza da multicolinearidade? A multicolinearidade é realmente um problema? Quais são suas consequências práticas? Como é detectada? Que medidas podem ser tomadas para atenuar o problema da multicolinearidade? Prof. Paulo Sérgio Coelho 3 A natureza da multicolinearidade Prof. Paulo Sérgio Coelho 4 O modelo Pode ser visto como Onde 𝑋1 = 1 para todas as observações Multicolinearidade perfeita: em que 𝜆1, 𝜆2, … , 𝜆𝑘 são constantes tais que nem todas são simultaneamente zero Multicolinearidade menos que perfeita: em que 𝜆1, 𝜆2, … , 𝜆𝑘 são constantes tais que nem todas são simultaneamente zero e 𝑣𝑖 é um termo de erro estocástico 𝑌 = 𝛽1 + 𝛽2𝑋2 + ⋯ + 𝛽𝑘𝑋𝑘 𝑌 = 𝛽1𝑋1 + 𝛽2𝑋2 + ⋯ + 𝛽𝑘𝑋𝑘 𝜆1𝑋1 + 𝜆2𝑋2 + ⋯ + 𝜆𝑘𝑋𝑘 = 0 𝜆1𝑋1 + 𝜆2𝑋2 + ⋯ + 𝜆𝑘𝑋𝑘 + 𝑣𝑖 = 0 O que acontece na presença da multicolinearidade? Multicolinearidade perfeita: Os coeficientes de regressão serão indeterminados e seus erros padrão, infinitos Multicolinearidade menos que perfeita: Os coeficiente de regresssão, embora determinados, possuirão grandes erros padrão (em relação aos próprios coeficientes), o que significa que os coeficientes não podem ser estimados com grande precisão ou exatidão Prof. Paulo Sérgio Coelho 5 Motivos Método de coleta dos dados: amostragem limitada Restrições ao modelo ou à população que está sendo amostrada: por exemplo, numa regressão de consumo de eletricidade (Y) contra renda (X2) e o tamanho da casa (X3), há uma restrição física na população, no sentido de que famílias com rendas mais altas em geral têm casas maiores que as com rendas mais baixas. Tendência comum: regressores que aumentam ou diminuem na mesma direção (tempo) Especificação do modelo: termos polinomiais, principalmente quando a amplitude de X é pequena Um modelo sobredeterminado: o modelo tem mais variáveis explanatórias que o número de observações Prof. Paulo Sérgio Coelho 6 Consequências Teóricas A multicolinearidade (menos que perfeita) não viola nenhuma das hipóteses de regressão Serão obtidos parâmetros não viesados com erros padrão estimados corretamente Os erros padrão serão grandes Como resultado os testes de hipótese terão mais dificuldade de rejeitar hipóteses nula Um pequeno número de observações (micronumerosidade de Goldberger) e variáveis independentes com pequenas variâncias também geram este problema (hipóteses 6 e 7) Prof. Paulo Sérgio Coelho 7 Consequências Práticas 1. MQO ainda apresenta os melhores estimadores lineares não viesados, mas têm grandes variâncias e covariâncias Por isso 2. Os intervalos de confiança tendem a ser mais amplos, provavelmente incluindo o 0 3. A razão t de um ou mais coeficientes tende a ser estatisticamente insignificante E mais: 4. Embora haja insignificância dos parâmetros individuais, o modelo pode ser significante e o R2 pode ser muito alto 5. Os estimadores de MQO e seus erros padrão podem ser sensíveis a pequenas alterações nos dados Prof. Paulo Sérgio Coelho 8 O efeito da correlação entre os regressores Prof. Paulo Sérgio Coelho 9 1 2 2 3 3 Y X X No modelo Seja r23 a correlação amostral entre X2 e X3 Valores de r23 próximos a 1 ou próximos a –1 oferecem risco de multicolinearidade no modelo É possível mostrar que 2 2 2 2 2 23 ˆ var x i 1 r 2 3 2 2 3 23 ˆ var x i 1 r 2 23 2 3 2 2 2 23 2 3 ˆ ˆ cov , 1 i i r r x x 2 23 1 1 FIV r Define-se o Fator de Inflação da Variância: O FIV Prof. Paulo Sérgio Coelho 10 Valores de r23 próximos a 1 ou próximos a –1 tornam o FIV muito alto (infinito, no limite) As variâncias e covariâncias são diretamente proporcionais ao FIV: 2 2 2 2 ˆ var i FIV x 2 3 2 3 ˆ var i FIV x 2 23 2 3 2 2 2 3 ˆ ˆ cov , i i r FIV x x 2 23 1 1 FIV r O efeito do crescimento da correlação (e do FIV) Prof. Paulo Sérgio Coelho 11 VIF = FIV (termo em inglês) 2 2 2 2 3 i i B x x O efeito do crescimento da correlação (e do FIV) Visão Gráfica Prof. Paulo Sérgio Coelho 12 Impactos na estimação Prof. Paulo Sérgio Coelho 13 2 /2 2 ˆ t ep ˆ 2 2 /2 2 2 ˆ i t FIV x 2 /2 2 ˆ ˆ var t 2 2 /2 2 2 ˆ i t FIV x A amplitude do intervalo é ampliada pela raiz do FIV 2 2 ˆ 2 ˆ ˆ ep t 2 2 ˆ ˆ var 2 2 2 2 ˆ i FIV x 2 2 ˆ 2 2 2 ˆ 1 i t FIV x A razão t do parâmetro é dividida pela raiz do FIV Alto valor de R2 mas poucas razões t significativas Na presença de multicolinearidade: Um modelo pode ter significância global e um bom poder explicativo (tem a ver com 2 pequeno) Mas pode apresentar coeficientes angulares parciais não significativos individualmente Exemplo: Um modelo pode ter R2 > 0,90 e nenhum parâmetro significativo (examinando individualmente, pelas razões t ou intervalos de confiança) Prof. Paulo Sérgio Coelho 14 Sensibilidade dos estimadores Prof. Paulo Sérgio Coelho 15 2 R 0,8101 2 0,8143 R Aula 11 pequena variação X3.gretl Exemplo Dados Hipotéticos Y: gastos de consumo X2: renda X3: riqueza Prof. Paulo Sérgio Coelho 16 Aula 10 consumo hipotetico.gretl Menu Ver-> matriz de correlação Exemplo - modelo Prof. Paulo Sérgio Coelho 17 1 2 2 3 3 ˆY X X Exemplo - modelo Prof. Paulo Sérgio Coelho 18 1 2 2 ˆY X Exemplo - modelo Prof. Paulo Sérgio Coelho 19 1 3 3 ˆY X Intervalos de confiança simultâneos Elipse de confiança Prof. Paulo Sérgio Coelho 20 -0,3 -0,25 -0,2 -0,15 -0,1 -0,05 0 0,05 0,1 0,15 0,2 0,25 -2 -1 0 1 2 3 4 X3 X2 elipse a 95% de confiança e 95% de intervalos marginais 0,942, -0,0424 Um FIV para cada regressor Prof. Paulo Sérgio Coelho 21 pode ser visto como o coeficiente de determinação do modelo em que X2 é explicado por X3 No caso do modelo com k – 1 regressores: 2 j R 2 1 1 FIV r é o coeficiente de determinação do modelo em que Xj é explicado por todos os outros k – 2 regressores 2 1 1 j j FIV R Haverá k – 1 e portanto k – 1 2 j R Define-se ainda 2 1 1 j j j TOL R FIV pode ser visto como o coeficiente de determinação do modelo em que X3 é explicado por X2 𝑟32 2 𝑟23 2 Exemplo – dados reais Série temporal anual, de 1947 até 2000 (T=54), sendo: C: gastos reais de consumo Yd: renda pessoal real disponível W: riqueza real I: taxa de juros real Análise: 2 e 3 são as elasticidades de renda e riqueza e devem ser positivos 4 é a semielasticidade da taxa de juros e deve ser negativa Prof. Paulo Sérgio Coelho 22 1 2 3 4 ln ln ln t t t t t C Yd W I u Aula 11 Consumo.gretl Exemplo – modelo estimado O modelo não sugere multicolinearidade Prof. Paulo Sérgio Coelho 23 Sobre a Multicolinearidade É uma questão de grau e não de tipo Não se investiga a presença ou ausência, apenas a intensidade, ou o grau Refere-se à condição das variáveis explanatórias – que se supõe serem estocásticas É uma característica da amostra, não da população Não se faz teste de multicolinearidade Mede-se o grau na amostra sob estudo Prof. Paulo Sérgio Coelho 24 Detecção da multicolinearidade Regra 1: R2 alto mas poucas razões t significativas Sintoma clássico R2 alto deve (maior que 0,8) estar associado a um teste F de significância global do modelo significativo Contraposição aos testes t indicando não significância dos parâmetros individuais Prof. Paulo Sérgio Coelho 25 Detecção da multicolinearidade Regra 2: fortes correlações entre pares de regressores Se o coeficiente de correlação entre dois regressores for alto (maior que 0,8 ou menor que −0,8), a multicolinearidade será um problema sério Esta é uma condição suficiente, mas não necessária, ou seja, há casos de multicolinearidade em que os regressores em pares não apresentam altas correlações Exemplo: Prof. Paulo Sérgio Coelho 26 1 2 2 3 3 4 4 i i i i i Y X X X u Sendo 4 2 2 3 3 i i i X X X 2 , 3 0 2 4,23 1 R Sabe-se que 2 2 2 42 43 42 43 23 4,23 2 23 2 1 r r r r r R r Pode ser satisfeita por 2 4,23 42 43 23 1 0,5; 0,5 e 0,5 R r r r Detecção da multicolinearidade Regra 3: exame de determinações parciais Seja o modelo Se comparam r2 1,234, o coeficiente de determinação completo com os valores de r2 12,34, r2 13,24, r2 14,23, os coeficientes de determinação parcial, que medem o poder de explicação das variáveis com índice antes da vírgula em comparação ao modelo que só tem as variáveis com índice depois da vírgula Quando o coeficiente de determinação completo for alto e os parciais forem comparativamente baixos pode sugerir que as variáveis X2, X3 e X4 são fortemente correlacionadas e que pelo menos uma delas é supérflua Também não é uma condição necessária, sendo bem discutida na literatura Prof. Paulo Sérgio Coelho 27 1 2 2 3 3 4 4 i i i i i Y X X X u Detecção da multicolinearidade Regra 4: regressões auxiliares São estimadas k – 1 regressões auxiliares, onde cada Xi é explicado pelas k – 2 variáveis explicativas restantes Se for maior do que o F crítico, considera-se que o Xi é colinear com os outros regressores Esta regra pode falhar se houver as associações forem complexas Regra prática: a multicolinearidade será um problema complicado se o R2 obtido de uma regressão auxiliar for maior que o R2 geral Prof. Paulo Sérgio Coelho 28 2 ,23... 1, 1,..., 2 ,23... 1, 1,..., / 2 (1 ) / 1 i i i k i i i i k R k F R n k Detecção da multicolinearidade Regra 5: Autovalores e Índice Condicional Calculados pelo Eviews e Stata: Se k > 1000 (ou IC > 30) então a multicolinaridade é grave Se k > 100 (ou IC > 10) então a multicolinearidade é forte Esta é considerado uma das melhores regras para diagnóstico da multicolinearidade Prof. Paulo Sérgio Coelho 29 Máximo autovalor Mínimo autovalor k Máximo autovalor Mínimo autovalor IC k Detecção da multicolinearidade Regra 6: TOL e FIV Regra prática Se FIVj > 10 (equivale a R2 j > 0,9 e TOLj < 0,1) então Xj é colinear Esta a regra mais utilizada para diagnóstico da multicolinearidade Entretanto um FIV alto não é, a rigor, condição necessária nem suficiente para a multicolinearidade Prof. Paulo Sérgio Coelho 30 Detecção da multicolinearidade Regra 7: Diagramas de dispersão (para examinar a relação entre os regressores) Prof. Paulo Sérgio Coelho 31 O que fazer diante da multicolinearidade? Não fazer nada Sendo a multicolinearidade uma deficiência da amostra, é possível conviver com ela, sabendo que há um impacto nos procedimentos de inferência individual (intervalos de confiança e testes t) Procedimentos corretivos: 7 possibilidades, descritas as seguir O sucesso dependerá das características e da gravidade da colinearidade Prof. Paulo Sérgio Coelho 32 1 – Informações a priori – modelos restritos Estas informações a priori costumam vir de base teórica ou trabalhos empíricos anteriores Entretanto é importante validar esta restrição usando os testes F de comparação de modelos Prof. Paulo Sérgio Coelho 33 Se no modelo 1 2 2 3 3 i i i i Y X X u For sabido que 3 0,10 2 É possível estimar o modelo 1 2 2 2 3 0,10 i i i i Y X X u Que equivale a 1 2 i i i Y X u Onde 2 3 0,10 i i i X X X 2 – Combinando dados de corte transversal e séries temporais Seja o modelo ln 𝑌𝑡 = 𝛽1 + 𝛽2 ln 𝑃𝑡 + 𝛽3 ln 𝑅𝑡 + 𝑢𝑡 Onde os dados em série temporal representam Y = número de carros vendidos, P = preço médio, R = renda e t = tempo Deseja-se estimar a elasticidade preço (2) e renda (3) É esperada uma colinearidade entre preço e renda (evolução temporal) É possível estimar a elasticidade da renda usando uma amostra de dados de corte transversal, onde o preço não varie (muito): Prof. Paulo Sérgio Coelho 34 3 ln ln i i i Y R v Define-se 3 * ln ln t t t Y Y R E então é estimado o modelo 1 2 t * t t Y P u O uso desta técnica requer a comprovação de que 3 não muda muito de um corte transversal para outro Remoção do efeito renda 3 – Exclusão de variáveis (viés de especificação?) Pode ser uma solução simples Entretanto, a exclusão de uma variável pode gerar viés de especificação: Como os estimadores de MQO são MELNT apesar da quase colinearidade, a exclusão de uma variável relevante pode não ser uma saída razoável Prof. Paulo Sérgio Coelho 35 Se o modelo correto é 1 2 2 3 3 i i i i Y X X u Mas for estimado 1 12 2 ˆ i i i Y b b X u É possível mostrar que 12 2 3 32 ( E b ) b sendo 3 32 2 i i i X a b X v 4 – Transformação de Variáveis Primeira Diferença Quando X2 e X3 são altamente correlacionados não há, a priori, razão para acreditar que suas diferenças também estarão altamente correlacionadas O modelo em primeira diferença frequentemente reduz a gravidade da multicolinearidade Prof. Paulo Sérgio Coelho 36 Se vale o modelo 1 2 2 3 3 t t t t Y X X u Então vale também 1 1 2 2, 1 3 3, 1 1 t t t t Y X X u E então 1 2 2 2, 1 3 3 3, 1 t t t t t t t Y Y X X X X v 4 – Transformação de Variáveis Transformação Proporcional Prof. Paulo Sérgio Coelho 37 Seja o modelo 1 2 2 3 3 t t t t Y X X u Y: consumo X2: PIB X3: população X2 e X3 devem estar correlacionados, então pode-se expressar o modelo em base per capita: 2 1 2 3 3 3 3 3 1 t t t t t t t Y X u X X X X Esta transformação pode reduzir a colinearidade nas variáveis originais 4 – Transformação de Variáveis Possíveis problemas: O termo de erro do modelo de diferenças pode não satisfazer a hipótese de não haver correlação serial O modelo de diferenças também implica na perda de um grau de liberdade, que pode ser crítico quando a amostra for pequena O modelo de diferenças geralmente não se aplica a dados de corte transversal, onde não há ordenamento lógico nos dados O termo de erro do modelo da transformação proporcional vai apresentar heterocedasticidade se o termo de erro do modelo original não apresentar Prof. Paulo Sérgio Coelho 38 5 – Dados adicionais ou novos Aumentar o tamanho da amostra reduz os indicadores de variância geral do modelo e variância dos parâmetros estimados Reduzirá os indicadores de multicolinearidade Entretanto a obtenção de novos dados pode não ser possível ou simples, ou já teriam sido considerados Prof. Paulo Sérgio Coelho 39 6 – Multicolinearidade em Regressões Polinomiais Uma regressão polinomial da forma Tende a apresentar multicolinearidade pois os regressores tem uma origem comum Em geral é possível corrigir a multicolinearidade fazendo Ou usando polinômios ortogonais Prof. Paulo Sérgio Coelho 40 2 3 1 2 2 3 2 4 2 i i i i i Y X X X u 2 3 1 2 2 3 2 4 2 i i i i i Y Z Z Z u 2 2 2 i i Z X X 7 – Técnicas Estatísticas Existem técnicas estatísticas possíveis de serem implementadas nos dados antes da regressão de forma a reduzir a possibilidade de multicolinearidade: Análise Fatorial Componentes Principais Ou então usar métodos econométricos mais sofisticados: Regressão Ridge Prof. Paulo Sérgio Coelho 41 Exemplo – dados de Longley levantados em 67 para teste de softwares Série temporal anual, de 1942 a 1967 (16 observações) Y: número de pessoas empregadas, em milhares X1: deflator implícito dos preços no PNB X2: PNB, em milhões de $ X3: número de pessoas desempregadas, em milhares X4: número de pessoas nas forças armadas X5: população não institucionalizada com mais de 14 anos de idade X6: ano, igual a 1 em 1947, 2 em 1948, e assim até 16 em 1962 Prof. Paulo Sérgio Coelho 42 Aula 11 dados de longley.gdt Modelo estimado Prof. Paulo Sérgio Coelho 43 Indícios de Multicolinearidade? Passo a passo 1. Matriz de correlação dos regressores 2. Regressões auxiliares (R2, teste, VIF, TOL) 3. Correção ao modelo: 1. PNB (X2) real (nominal dividido pelo deflator – X1), remover o deflator 2. X5 e X6 são altamente correlacionadas – retirar X6 3. Excluiremos X3: a taxa de desemprego informaria condições de mercado de trabalho, a quantidade de pessoas desempregadas não é uma informação relevante Prof. Paulo Sérgio Coelho 44 1. Matriz de correlação dos regressores Prof. Paulo Sérgio Coelho 45 2. Regressões auxiliares (R2, teste, VIF, TOL) Para X1: Prof. Paulo Sérgio Coelho 46 Modelo significativo até mesmo a 𝛼 = 0,01 𝑅2 2 = 0,9926 é considerado alto ቐ 𝑇𝑂𝐿2 = 1 − 0,9926 = 0,0074 𝑉𝐼𝐹2 = 1 𝑇𝑂𝐿2 = 135,14 TOL < 0,1 e VIF > 9 2. Regressões auxiliares (R2, teste, VIF, TOL) Para X4: Prof. Paulo Sérgio Coelho 47 Modelo é significativo a 𝛼 = 0,05, mas não é a a 𝛼 = 0,01 𝑅2 2 = 0,7214 não é tão alto para efeitos de colinearidade ቐ 𝑇𝑂𝐿2 = 1 − 0,7214 = 0,2786 𝑉𝐼𝐹2 = 1 𝑇𝑂𝐿2 = 3,5893 TOL > 0,1 e VIF < 9 3. Correção ao modelo Prof. Paulo Sérgio Coelho 48 Aula 11 dados de longley.gretl
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
33
Slide - Aula 8 - Extensões do Modelo de Regressão Linear Simples - Estatística Econômica e Introdução à Econometria - 2023-2
Estatística Econômica e Introdução à Econometria
UERJ
36
Slide - Aula 13 - Heterocedasticidade - Estatística Econômica e Introdução à Econometria - 2023-2
Estatística Econômica e Introdução à Econometria
UERJ
24
Slide - Aula 9 - Regressão Múltipla - Estimação - Estatística Econômica e Introdução à Econometria - 2023-2
Estatística Econômica e Introdução à Econometria
UERJ
10
Lista - Estat Econômica 2022 1
Estatística Econômica e Introdução à Econometria
UERJ
41
Slide - Aula 10 - Regressão Múltipla - Inferência - Estatística Econômica e Introdução à Econometria - 2023-2
Estatística Econômica e Introdução à Econometria
UERJ
17
Slide - Aula 7 - Outras Inferências No Modelo de Regressão Simples - Estatística Econômica e Introdução à Econometria - 2023-2
Estatística Econômica e Introdução à Econometria
UERJ
1
Trabalho Estatística 2 2022 2
Estatística Econômica e Introdução à Econometria
UFRJ
3
P2 - Estatística Econômica e Introdução à Econometria 2023-2
Estatística Econômica e Introdução à Econometria
UFRJ
15
Apresentação sobre a Lei dos Grandes Números e a Desigualdade de Chebyshev
Estatística Econômica e Introdução à Econometria
FEEVALE
6
Prova Final - Estatística Econômica e Introdução à Econometria 2021-2
Estatística Econômica e Introdução à Econometria
UFRJ
Texto de pré-visualização
Métodos Econométricos Prof. Paulo Sérgio Coelho Aula 11: Multicolinearidade Multicolinearidade Estamos examinando o que acontece quando a hipótese 8 não é verificada E também as hipóteses 6 e 7 Prof. Paulo Sérgio Coelho 2 slide 9 da aula 09 Multicolinearidade Resultado da correlação entre os regressores Qual a natureza da multicolinearidade? A multicolinearidade é realmente um problema? Quais são suas consequências práticas? Como é detectada? Que medidas podem ser tomadas para atenuar o problema da multicolinearidade? Prof. Paulo Sérgio Coelho 3 A natureza da multicolinearidade Prof. Paulo Sérgio Coelho 4 O modelo Pode ser visto como Onde 𝑋1 = 1 para todas as observações Multicolinearidade perfeita: em que 𝜆1, 𝜆2, … , 𝜆𝑘 são constantes tais que nem todas são simultaneamente zero Multicolinearidade menos que perfeita: em que 𝜆1, 𝜆2, … , 𝜆𝑘 são constantes tais que nem todas são simultaneamente zero e 𝑣𝑖 é um termo de erro estocástico 𝑌 = 𝛽1 + 𝛽2𝑋2 + ⋯ + 𝛽𝑘𝑋𝑘 𝑌 = 𝛽1𝑋1 + 𝛽2𝑋2 + ⋯ + 𝛽𝑘𝑋𝑘 𝜆1𝑋1 + 𝜆2𝑋2 + ⋯ + 𝜆𝑘𝑋𝑘 = 0 𝜆1𝑋1 + 𝜆2𝑋2 + ⋯ + 𝜆𝑘𝑋𝑘 + 𝑣𝑖 = 0 O que acontece na presença da multicolinearidade? Multicolinearidade perfeita: Os coeficientes de regressão serão indeterminados e seus erros padrão, infinitos Multicolinearidade menos que perfeita: Os coeficiente de regresssão, embora determinados, possuirão grandes erros padrão (em relação aos próprios coeficientes), o que significa que os coeficientes não podem ser estimados com grande precisão ou exatidão Prof. Paulo Sérgio Coelho 5 Motivos Método de coleta dos dados: amostragem limitada Restrições ao modelo ou à população que está sendo amostrada: por exemplo, numa regressão de consumo de eletricidade (Y) contra renda (X2) e o tamanho da casa (X3), há uma restrição física na população, no sentido de que famílias com rendas mais altas em geral têm casas maiores que as com rendas mais baixas. Tendência comum: regressores que aumentam ou diminuem na mesma direção (tempo) Especificação do modelo: termos polinomiais, principalmente quando a amplitude de X é pequena Um modelo sobredeterminado: o modelo tem mais variáveis explanatórias que o número de observações Prof. Paulo Sérgio Coelho 6 Consequências Teóricas A multicolinearidade (menos que perfeita) não viola nenhuma das hipóteses de regressão Serão obtidos parâmetros não viesados com erros padrão estimados corretamente Os erros padrão serão grandes Como resultado os testes de hipótese terão mais dificuldade de rejeitar hipóteses nula Um pequeno número de observações (micronumerosidade de Goldberger) e variáveis independentes com pequenas variâncias também geram este problema (hipóteses 6 e 7) Prof. Paulo Sérgio Coelho 7 Consequências Práticas 1. MQO ainda apresenta os melhores estimadores lineares não viesados, mas têm grandes variâncias e covariâncias Por isso 2. Os intervalos de confiança tendem a ser mais amplos, provavelmente incluindo o 0 3. A razão t de um ou mais coeficientes tende a ser estatisticamente insignificante E mais: 4. Embora haja insignificância dos parâmetros individuais, o modelo pode ser significante e o R2 pode ser muito alto 5. Os estimadores de MQO e seus erros padrão podem ser sensíveis a pequenas alterações nos dados Prof. Paulo Sérgio Coelho 8 O efeito da correlação entre os regressores Prof. Paulo Sérgio Coelho 9 1 2 2 3 3 Y X X No modelo Seja r23 a correlação amostral entre X2 e X3 Valores de r23 próximos a 1 ou próximos a –1 oferecem risco de multicolinearidade no modelo É possível mostrar que 2 2 2 2 2 23 ˆ var x i 1 r 2 3 2 2 3 23 ˆ var x i 1 r 2 23 2 3 2 2 2 23 2 3 ˆ ˆ cov , 1 i i r r x x 2 23 1 1 FIV r Define-se o Fator de Inflação da Variância: O FIV Prof. Paulo Sérgio Coelho 10 Valores de r23 próximos a 1 ou próximos a –1 tornam o FIV muito alto (infinito, no limite) As variâncias e covariâncias são diretamente proporcionais ao FIV: 2 2 2 2 ˆ var i FIV x 2 3 2 3 ˆ var i FIV x 2 23 2 3 2 2 2 3 ˆ ˆ cov , i i r FIV x x 2 23 1 1 FIV r O efeito do crescimento da correlação (e do FIV) Prof. Paulo Sérgio Coelho 11 VIF = FIV (termo em inglês) 2 2 2 2 3 i i B x x O efeito do crescimento da correlação (e do FIV) Visão Gráfica Prof. Paulo Sérgio Coelho 12 Impactos na estimação Prof. Paulo Sérgio Coelho 13 2 /2 2 ˆ t ep ˆ 2 2 /2 2 2 ˆ i t FIV x 2 /2 2 ˆ ˆ var t 2 2 /2 2 2 ˆ i t FIV x A amplitude do intervalo é ampliada pela raiz do FIV 2 2 ˆ 2 ˆ ˆ ep t 2 2 ˆ ˆ var 2 2 2 2 ˆ i FIV x 2 2 ˆ 2 2 2 ˆ 1 i t FIV x A razão t do parâmetro é dividida pela raiz do FIV Alto valor de R2 mas poucas razões t significativas Na presença de multicolinearidade: Um modelo pode ter significância global e um bom poder explicativo (tem a ver com 2 pequeno) Mas pode apresentar coeficientes angulares parciais não significativos individualmente Exemplo: Um modelo pode ter R2 > 0,90 e nenhum parâmetro significativo (examinando individualmente, pelas razões t ou intervalos de confiança) Prof. Paulo Sérgio Coelho 14 Sensibilidade dos estimadores Prof. Paulo Sérgio Coelho 15 2 R 0,8101 2 0,8143 R Aula 11 pequena variação X3.gretl Exemplo Dados Hipotéticos Y: gastos de consumo X2: renda X3: riqueza Prof. Paulo Sérgio Coelho 16 Aula 10 consumo hipotetico.gretl Menu Ver-> matriz de correlação Exemplo - modelo Prof. Paulo Sérgio Coelho 17 1 2 2 3 3 ˆY X X Exemplo - modelo Prof. Paulo Sérgio Coelho 18 1 2 2 ˆY X Exemplo - modelo Prof. Paulo Sérgio Coelho 19 1 3 3 ˆY X Intervalos de confiança simultâneos Elipse de confiança Prof. Paulo Sérgio Coelho 20 -0,3 -0,25 -0,2 -0,15 -0,1 -0,05 0 0,05 0,1 0,15 0,2 0,25 -2 -1 0 1 2 3 4 X3 X2 elipse a 95% de confiança e 95% de intervalos marginais 0,942, -0,0424 Um FIV para cada regressor Prof. Paulo Sérgio Coelho 21 pode ser visto como o coeficiente de determinação do modelo em que X2 é explicado por X3 No caso do modelo com k – 1 regressores: 2 j R 2 1 1 FIV r é o coeficiente de determinação do modelo em que Xj é explicado por todos os outros k – 2 regressores 2 1 1 j j FIV R Haverá k – 1 e portanto k – 1 2 j R Define-se ainda 2 1 1 j j j TOL R FIV pode ser visto como o coeficiente de determinação do modelo em que X3 é explicado por X2 𝑟32 2 𝑟23 2 Exemplo – dados reais Série temporal anual, de 1947 até 2000 (T=54), sendo: C: gastos reais de consumo Yd: renda pessoal real disponível W: riqueza real I: taxa de juros real Análise: 2 e 3 são as elasticidades de renda e riqueza e devem ser positivos 4 é a semielasticidade da taxa de juros e deve ser negativa Prof. Paulo Sérgio Coelho 22 1 2 3 4 ln ln ln t t t t t C Yd W I u Aula 11 Consumo.gretl Exemplo – modelo estimado O modelo não sugere multicolinearidade Prof. Paulo Sérgio Coelho 23 Sobre a Multicolinearidade É uma questão de grau e não de tipo Não se investiga a presença ou ausência, apenas a intensidade, ou o grau Refere-se à condição das variáveis explanatórias – que se supõe serem estocásticas É uma característica da amostra, não da população Não se faz teste de multicolinearidade Mede-se o grau na amostra sob estudo Prof. Paulo Sérgio Coelho 24 Detecção da multicolinearidade Regra 1: R2 alto mas poucas razões t significativas Sintoma clássico R2 alto deve (maior que 0,8) estar associado a um teste F de significância global do modelo significativo Contraposição aos testes t indicando não significância dos parâmetros individuais Prof. Paulo Sérgio Coelho 25 Detecção da multicolinearidade Regra 2: fortes correlações entre pares de regressores Se o coeficiente de correlação entre dois regressores for alto (maior que 0,8 ou menor que −0,8), a multicolinearidade será um problema sério Esta é uma condição suficiente, mas não necessária, ou seja, há casos de multicolinearidade em que os regressores em pares não apresentam altas correlações Exemplo: Prof. Paulo Sérgio Coelho 26 1 2 2 3 3 4 4 i i i i i Y X X X u Sendo 4 2 2 3 3 i i i X X X 2 , 3 0 2 4,23 1 R Sabe-se que 2 2 2 42 43 42 43 23 4,23 2 23 2 1 r r r r r R r Pode ser satisfeita por 2 4,23 42 43 23 1 0,5; 0,5 e 0,5 R r r r Detecção da multicolinearidade Regra 3: exame de determinações parciais Seja o modelo Se comparam r2 1,234, o coeficiente de determinação completo com os valores de r2 12,34, r2 13,24, r2 14,23, os coeficientes de determinação parcial, que medem o poder de explicação das variáveis com índice antes da vírgula em comparação ao modelo que só tem as variáveis com índice depois da vírgula Quando o coeficiente de determinação completo for alto e os parciais forem comparativamente baixos pode sugerir que as variáveis X2, X3 e X4 são fortemente correlacionadas e que pelo menos uma delas é supérflua Também não é uma condição necessária, sendo bem discutida na literatura Prof. Paulo Sérgio Coelho 27 1 2 2 3 3 4 4 i i i i i Y X X X u Detecção da multicolinearidade Regra 4: regressões auxiliares São estimadas k – 1 regressões auxiliares, onde cada Xi é explicado pelas k – 2 variáveis explicativas restantes Se for maior do que o F crítico, considera-se que o Xi é colinear com os outros regressores Esta regra pode falhar se houver as associações forem complexas Regra prática: a multicolinearidade será um problema complicado se o R2 obtido de uma regressão auxiliar for maior que o R2 geral Prof. Paulo Sérgio Coelho 28 2 ,23... 1, 1,..., 2 ,23... 1, 1,..., / 2 (1 ) / 1 i i i k i i i i k R k F R n k Detecção da multicolinearidade Regra 5: Autovalores e Índice Condicional Calculados pelo Eviews e Stata: Se k > 1000 (ou IC > 30) então a multicolinaridade é grave Se k > 100 (ou IC > 10) então a multicolinearidade é forte Esta é considerado uma das melhores regras para diagnóstico da multicolinearidade Prof. Paulo Sérgio Coelho 29 Máximo autovalor Mínimo autovalor k Máximo autovalor Mínimo autovalor IC k Detecção da multicolinearidade Regra 6: TOL e FIV Regra prática Se FIVj > 10 (equivale a R2 j > 0,9 e TOLj < 0,1) então Xj é colinear Esta a regra mais utilizada para diagnóstico da multicolinearidade Entretanto um FIV alto não é, a rigor, condição necessária nem suficiente para a multicolinearidade Prof. Paulo Sérgio Coelho 30 Detecção da multicolinearidade Regra 7: Diagramas de dispersão (para examinar a relação entre os regressores) Prof. Paulo Sérgio Coelho 31 O que fazer diante da multicolinearidade? Não fazer nada Sendo a multicolinearidade uma deficiência da amostra, é possível conviver com ela, sabendo que há um impacto nos procedimentos de inferência individual (intervalos de confiança e testes t) Procedimentos corretivos: 7 possibilidades, descritas as seguir O sucesso dependerá das características e da gravidade da colinearidade Prof. Paulo Sérgio Coelho 32 1 – Informações a priori – modelos restritos Estas informações a priori costumam vir de base teórica ou trabalhos empíricos anteriores Entretanto é importante validar esta restrição usando os testes F de comparação de modelos Prof. Paulo Sérgio Coelho 33 Se no modelo 1 2 2 3 3 i i i i Y X X u For sabido que 3 0,10 2 É possível estimar o modelo 1 2 2 2 3 0,10 i i i i Y X X u Que equivale a 1 2 i i i Y X u Onde 2 3 0,10 i i i X X X 2 – Combinando dados de corte transversal e séries temporais Seja o modelo ln 𝑌𝑡 = 𝛽1 + 𝛽2 ln 𝑃𝑡 + 𝛽3 ln 𝑅𝑡 + 𝑢𝑡 Onde os dados em série temporal representam Y = número de carros vendidos, P = preço médio, R = renda e t = tempo Deseja-se estimar a elasticidade preço (2) e renda (3) É esperada uma colinearidade entre preço e renda (evolução temporal) É possível estimar a elasticidade da renda usando uma amostra de dados de corte transversal, onde o preço não varie (muito): Prof. Paulo Sérgio Coelho 34 3 ln ln i i i Y R v Define-se 3 * ln ln t t t Y Y R E então é estimado o modelo 1 2 t * t t Y P u O uso desta técnica requer a comprovação de que 3 não muda muito de um corte transversal para outro Remoção do efeito renda 3 – Exclusão de variáveis (viés de especificação?) Pode ser uma solução simples Entretanto, a exclusão de uma variável pode gerar viés de especificação: Como os estimadores de MQO são MELNT apesar da quase colinearidade, a exclusão de uma variável relevante pode não ser uma saída razoável Prof. Paulo Sérgio Coelho 35 Se o modelo correto é 1 2 2 3 3 i i i i Y X X u Mas for estimado 1 12 2 ˆ i i i Y b b X u É possível mostrar que 12 2 3 32 ( E b ) b sendo 3 32 2 i i i X a b X v 4 – Transformação de Variáveis Primeira Diferença Quando X2 e X3 são altamente correlacionados não há, a priori, razão para acreditar que suas diferenças também estarão altamente correlacionadas O modelo em primeira diferença frequentemente reduz a gravidade da multicolinearidade Prof. Paulo Sérgio Coelho 36 Se vale o modelo 1 2 2 3 3 t t t t Y X X u Então vale também 1 1 2 2, 1 3 3, 1 1 t t t t Y X X u E então 1 2 2 2, 1 3 3 3, 1 t t t t t t t Y Y X X X X v 4 – Transformação de Variáveis Transformação Proporcional Prof. Paulo Sérgio Coelho 37 Seja o modelo 1 2 2 3 3 t t t t Y X X u Y: consumo X2: PIB X3: população X2 e X3 devem estar correlacionados, então pode-se expressar o modelo em base per capita: 2 1 2 3 3 3 3 3 1 t t t t t t t Y X u X X X X Esta transformação pode reduzir a colinearidade nas variáveis originais 4 – Transformação de Variáveis Possíveis problemas: O termo de erro do modelo de diferenças pode não satisfazer a hipótese de não haver correlação serial O modelo de diferenças também implica na perda de um grau de liberdade, que pode ser crítico quando a amostra for pequena O modelo de diferenças geralmente não se aplica a dados de corte transversal, onde não há ordenamento lógico nos dados O termo de erro do modelo da transformação proporcional vai apresentar heterocedasticidade se o termo de erro do modelo original não apresentar Prof. Paulo Sérgio Coelho 38 5 – Dados adicionais ou novos Aumentar o tamanho da amostra reduz os indicadores de variância geral do modelo e variância dos parâmetros estimados Reduzirá os indicadores de multicolinearidade Entretanto a obtenção de novos dados pode não ser possível ou simples, ou já teriam sido considerados Prof. Paulo Sérgio Coelho 39 6 – Multicolinearidade em Regressões Polinomiais Uma regressão polinomial da forma Tende a apresentar multicolinearidade pois os regressores tem uma origem comum Em geral é possível corrigir a multicolinearidade fazendo Ou usando polinômios ortogonais Prof. Paulo Sérgio Coelho 40 2 3 1 2 2 3 2 4 2 i i i i i Y X X X u 2 3 1 2 2 3 2 4 2 i i i i i Y Z Z Z u 2 2 2 i i Z X X 7 – Técnicas Estatísticas Existem técnicas estatísticas possíveis de serem implementadas nos dados antes da regressão de forma a reduzir a possibilidade de multicolinearidade: Análise Fatorial Componentes Principais Ou então usar métodos econométricos mais sofisticados: Regressão Ridge Prof. Paulo Sérgio Coelho 41 Exemplo – dados de Longley levantados em 67 para teste de softwares Série temporal anual, de 1942 a 1967 (16 observações) Y: número de pessoas empregadas, em milhares X1: deflator implícito dos preços no PNB X2: PNB, em milhões de $ X3: número de pessoas desempregadas, em milhares X4: número de pessoas nas forças armadas X5: população não institucionalizada com mais de 14 anos de idade X6: ano, igual a 1 em 1947, 2 em 1948, e assim até 16 em 1962 Prof. Paulo Sérgio Coelho 42 Aula 11 dados de longley.gdt Modelo estimado Prof. Paulo Sérgio Coelho 43 Indícios de Multicolinearidade? Passo a passo 1. Matriz de correlação dos regressores 2. Regressões auxiliares (R2, teste, VIF, TOL) 3. Correção ao modelo: 1. PNB (X2) real (nominal dividido pelo deflator – X1), remover o deflator 2. X5 e X6 são altamente correlacionadas – retirar X6 3. Excluiremos X3: a taxa de desemprego informaria condições de mercado de trabalho, a quantidade de pessoas desempregadas não é uma informação relevante Prof. Paulo Sérgio Coelho 44 1. Matriz de correlação dos regressores Prof. Paulo Sérgio Coelho 45 2. Regressões auxiliares (R2, teste, VIF, TOL) Para X1: Prof. Paulo Sérgio Coelho 46 Modelo significativo até mesmo a 𝛼 = 0,01 𝑅2 2 = 0,9926 é considerado alto ቐ 𝑇𝑂𝐿2 = 1 − 0,9926 = 0,0074 𝑉𝐼𝐹2 = 1 𝑇𝑂𝐿2 = 135,14 TOL < 0,1 e VIF > 9 2. Regressões auxiliares (R2, teste, VIF, TOL) Para X4: Prof. Paulo Sérgio Coelho 47 Modelo é significativo a 𝛼 = 0,05, mas não é a a 𝛼 = 0,01 𝑅2 2 = 0,7214 não é tão alto para efeitos de colinearidade ቐ 𝑇𝑂𝐿2 = 1 − 0,7214 = 0,2786 𝑉𝐼𝐹2 = 1 𝑇𝑂𝐿2 = 3,5893 TOL > 0,1 e VIF < 9 3. Correção ao modelo Prof. Paulo Sérgio Coelho 48 Aula 11 dados de longley.gretl