·
Ciências Econômicas ·
Econometria
Send your question to AI and receive an answer instantly
Recommended for you
18
Projeto de Econometria - Análise de Regressão M1, Selic, IPCA e PIB
Econometria
UFRRJ
1
Roteiro Avaliacao Econometria 3 - Autocorrelacao e Heterocedasticidade
Econometria
UFRRJ
1
P1 - Econometria
Econometria
UFRRJ
2
Econometria
Econometria
UFRRJ
1
Analise Graficos Distribuicao Probabilidade Estimadores Lineares - Escolha Estimador Ideal
Econometria
PUC
1
Distribuição Amostral das Médias e Cálculo de Probabilidades
Econometria
UNITAU
3
Lista de Exercícios e Provas Econometria Wooldridge e Gujarati
Econometria
UFRJ
101
Multicolinearidade na Regressão Linear Múltipla
Econometria
PUC
1
Projeto Econometria II - Análise de Retornos de Carteira com Metodologia Box-Jenkins
Econometria
FECAP
1
Análise de Vendas de Atum e Determinantes dos Rendimentos do Trabalho
Econometria
PUC
Preview text
ROTEIRO AVALIAÇÃO 2 ECONOMETRIA Avaliação variáveis Dummy Analisar os dados de variáveis dummy estimando o retorno para educação de mulheres na amostra conforme mencionado em exemplo dos slides de aula Avaliação Multicolinearidade Utilizar os dados e modelagem já feita pelo grupo no relatório 1 e verificar se existem o problema da multicolinearidade nos modelos propostos Fazer a matriz de correlação via seaborn Não é necessário reescrever todo relatório somente começar a partir dos modelos já feitos e analisar a presença ou não de multicolinearidade UNIVERSIDADE FEDERAL RURAL DO RIO DE JANEIRO MATHEUS LOURENÇO PEREIRA DOS SANTOS LÊNYM DE ALMEIDA AMORIM PIRES ÉRICA MARTINS BORGES AVALIAÇÃO I ECONOMETRIA RIO DE JANEIRO 2024 Introdução O relatório traz uma análise que explora relações entre variáveis macroeconômicas avaliando sua significância e potencial para explicar a variação em uma variável dependente IC Os modelos foram construídos via Python para manipulação de dados plotagem de gráficos e tabelas etc Dentre as variáveis utilizadas temos IC Índice de Commodities Selic Taxa básica de juros mensal Renda de Reservas mensal IPCA Importação e conversão da base de dados do BACEN Definição dos códigos para consulta Criação e manipulação do DataFrame com valores relativos ao ano escolhido como inicial 2010 Variáveis da Regressão Regressão simples I Resultado O resultado de R² indica que cerca de 288 da variância na variável dependente pode ser explicada pela variável independente Os resultados de pvalue e da estatística F no modelo de regressão indicam que tanto o modelo como um todo quanto a variável Renda de reservas são estatisticamente significativos na explicação da variância da variável dependente IC O modelo sugere uma relação estatisticamente significativa entre a variável independente Renda de reservas e a variável dependente ic No entanto o valor relativamente baixo do R² indica que pode haver outros fatores não incluídos no modelo que poderiam explicar mais da variância na variável dependente Regressão simples II Resultado Com um R² de apenas 26 o modelo explica uma parcela muito pequena da variância na Renda de reservas A estatística F e o pvalue sugerem que o modelo como um todo é estatísticamente significativo ao nível de 5 apesar do baixo R² A taxa selic tem um efeito estatisticamente significativo sobre a renda de reservas com um coeficiente negativo No entanto o modelo explica apenas uma pequena fração da variância na Renda de reservas 26 indicando que outras variáveis relevantes não estão sendo consideradas Regressão simples III Resultado O modelo de regressão OLS apresentado indica que a variável ic tem um efeito estatisticamente significativo e positivo sobre o pib com um coeficiente de 05702 O alto valor de R² 900 sugere que o modelo explica a maior parte da variância no pib indicando um excelente ajuste O baixo pvalue indica que há evidências suficientes para afirmar que o coeficiente associado é significativamente diferente de zero Desse modo tanto a constante quanto a variável ic são altamente significativas Regressão Múltipla Comum Resultado O R² indica que 90 da variação da variável dependente ic é explicada pelas variáveis independentes x1 x2 x3 Isso sugere que o modelo tem um bom ajuste já que uma grande parte da variação no ic é explicada pelos fatores incluídos Sobre a Estatística F o valor de 5166 é bastante elevado o que indica que as variáveis independentes no conjunto explicam significativamente a variação na variável dependente ic O valorp associado à estatística F indica a probabilidade de os coeficientes das variáveis independentes serem zero ou seja que elas não têm efeito sobre a variável dependente O valorp extremamente baixo 005 sugere que o modelo é altamente significativo ou seja é muito improvável que os resultados ocorram por acaso Regressão em SemiLog X1 Resultado O modelo apresenta um R² muito baixo 03 indicando que a variável selic explica uma fração mínima da variação na variável ic A estatística F baixa e o valorp elevado sugerem que a variável selic não é um preditor significativo da variável IC neste contexto X2 Resultado O modelo apresenta um R² de 283 indicando que a variável Renda de reservas explica uma parte significativa da variação em IC A estatística F elevada e o valorp extremamente baixo corroboram a ideia de que a Renda de reservas é um preditor importante e significativo para IC neste contexto X3 Resultado O modelo apresenta um R² de 93 o que demonstra um excelente ajuste A estatística F é excepcionalmente alta e o valorp é extremamente baixo reforçando a conclusão de que o PIB é um preditor significativo para ic neste contexto Essa relação sugere que alterações no PIB têm um impacto considerável sobre a variável dependente ic Regressão Múltipla em SemiLog O modelo apresenta um R² de 936 indicando um ajuste excelente A estatística F é alta e o valorp é extremamente baixo reforçando a conclusão de que as variáveis independentes têm um impacto significativo na variável dependente IC A análise dos coeficientes revela que enquanto x1 e x2 têm efeitos negativos sobre IC x3 tem um efeito positivo muito forte Modelo Log Log X1 Resultado O modelo apresenta um R² muito baixo de 2 indicando que a variável selic explica apenas uma pequena fração da variação em IC A estatística F é modesta e o valorp está próximo do limite de significância sugerindo que há uma possível relação entre selic e IC mas que não é estatisticamente robusta Assim embora a selic possa ter um impacto negativo a evidência não é forte o suficiente para tirar conclusões definitivas X2 Resultado O modelo apresenta um R² de 281 indicando um ajuste razoável A estatística F é alta e o valorp é extremamente baixo reforçando a conclusão de que Renda de reservas tem um impacto significativo na variável dependente IC O coeficiente positivo de Renda de reservas sugere que à medida que a Renda de reservas aumenta o IC também tende a aumentar X3 Resultado O modelo apresenta um R² de 922 indicando um ajuste excelente A estatística F é extremamente alta e o valorp é praticamente zero reforçando a conclusão de que PIB tem um impacto altamente significativo na variável dependente IC O coeficiente positivo de PIB sugere que à medida que o PIB aumenta o IC também tende a aumentar de forma substancial Regressão Múltipla Log Log Resultado O modelo apresenta um R² de 924 indicando um ajuste excelente A estatística F é muito alta e o valorp é praticamente zero sugerindo que as variáveis independentes têm um impacto significativo sobre IC O coeficiente de x3 é particularmente relevante indicando que à medida que x3 aumenta IC também tende a aumentar de forma substancial Em contrapartida x1 não parece ter um efeito significativo enquanto x2 tem um pvalor próximo do limiar de significância indicando uma possível relação a ser investigada mais a fundo ECONOMETRIA VARIÁVEIS BINÁRIAS DEPENDENTES E INDEPENDENTES ECONOMETRIA Referência Introdução a econometria Uma abordagem Moderna Jeffrey M Wooldridge 3ª ed 2010 ECONOMETRIA VARIÁVEIS BINÁRIAS INDEPENDENTES DUMMY Fatores qualitativos frequentemente aparecem na forma de informação binária A informação relevante pode ser capturada pela definição de uma variável binária ou zeroum Em econometria variáveis binárias são chamadas de dummy Ex gênero Dummy Sua aplicação genérica pode ser colocada na forma do modelo linear clássico em que u x x x y k k 2 2 1 1 0 se for mulher 1 0 se for homem D ECONOMETRIA Para um estimação com n observações podemos dispor da seguinte configuração Essas n equações podem ser dispostas na forma matricial n k n k n n n k k k k u X X X Y u X X X Y u X X X Y 3 3 2 2 1 2 2 32 3 22 2 1 2 1 1 31 3 21 2 1 1 1 2 1 1 2 1 3 2 2 32 22 1 31 21 1 2 1 1 1 1 n n k k n k kn n n k k n n u u u X X X X X X X X X Y Y Y ECONOMETRIA 1 Variáveis Dummy Presença de atributo qualitativo ou influência característica Ex O sexo influência no salário Usamos w como variável dependente e incluímos outras variáveis que explicam w alem da Dummy D Logo D representa coeficiente o quanto as mulheres ganham a mais ou a menos Ex D 100 significa que as mulheres ganham 100 a menos que os homens se for mulher 1 0 se for homem D ECONOMETRIA Se a variável for qualitativa possuindo 3 estados diferentes temos Ex padrão de um imóvel Popular médio ou luxo Ou Luxo 1 Popular ou Médio 0 Médio 1 Luxo ou Popular 0 2 1 D D Luxo 1 Médio ou Popular 0 Médio ou Luxo 1 Popular 0 2 1 D D ECONOMETRIA Ex4 Reeditaremos o exemplo 2 só que adicionaremos uma variável qualitativa que representará a existência ou não de determinado atributo Y X2 X3 Atributo 800 2 08 sim 1160 4 07 sim 1580 6 05 sim 2010 8 04 sim 1890 7 02 sim 2600 12 02 sim 2070 11 08 não 1890 10 07 não 1830 9 06 não 1740 8 01 não 1380 6 05 não 1060 4 04 não ECONOMETRIA Vamos estimar a regressão de Y em função das 3 variáveis e façamos as análises pertinentes Para incluir essa variável qualitativa no modelo criamos a variável dummy D definida por se existir atributo 1 0 se não existir atributo D ECONOMETRIA Com isso as variáveis seriam Y X2 X3 D 800 2 08 1 1160 4 07 1 1580 6 05 1 2010 8 04 1 1890 7 02 1 2600 12 02 1 2070 11 08 0 1890 10 07 0 1830 9 06 0 1740 8 01 0 1380 6 05 0 1060 4 04 0 ECONOMETRIA Devemos estimar o modelo Cujos os resultados são Com os dp em parênteses Todos os coeficientes são significantes a 1 O resultado encontrado indica que a presença de atributo aumenta o valor de Y em 23808 em média D X X X Y 26 30 3 48 65 2 5 34 35 64 1 23808 32778 16187 53609 D X X Y 4 3 3 2 2 1 ECONOMETRIA ANOVA A regressão é válida pois FTAB 407 a 5 de significância e o R² 09928 Soma dos quadrados GL Quadrados Médios Teste F SQE 272917029 3 90972359 36659 SQR 1985422 8 248178 SQT 2749025 11 24991136 ECONOMETRIA Ex 5 Suponha que numa regressão para o preço de um imóvel medido em 1000 reais levamos em conta a área de tal imóvel X2 um índice que mede a qualidade dos serviços disponíveis no bairro X3 e das dummy que representam o padrão de construção do imóvel assim definidas se for Alto 1 se for Baixo ou Médio 0 se for Médio ou Alto 1 se for Baixo 0 2 1 D D ECONOMETRIA Os resultados obtidos para este exemplo foram Qual a diferença em média entre o preço de um imóvel de padrão baixo e de padrão médio E entre um imóvel de padrão médio e de padrão alto Para um imóvel de baixo padrão temos D1 D2 0 enquanto para padrão médio D1 1 e D2 0 Portanto o coeficiente da variável D1 representa a diferença média no preço de imóveis de padrão baixo e médio que é portantoR1204000 reais 2 77 4 1 16 5 3 0 23 34 5 2 88 27 1 1821 1204 0 78 1 27 1634 D D X X X Y ECONOMETRIA Se o padrão for alto então D1 D2 1 Portanto a diferença entre imóveis de padrão alto e médio é representada pelo coeficiente da variável D2 que é R1821000 reais ECONOMETRIA Voltemos ao problema sobre gêneros Ex gênero Dummy Sua aplicação genérica pode ser colocada na forma do modelo linear clássico em que se for mulher 1 0 se for homem D u x x x y k k 2 2 1 1 0 ECONOMETRIA Podemos incluir essa variável de informação binária da mesma forma que um regressor comum Voltando então ao exemplo Vamos supor um modelo de determinação de salários 1 Onde parâmetro da dummy è a diferença no saláriohora entre mulheres e homens dado o mesmo grau de educação Também determina se existe discriminação contra mulheres Se logo para o mesmo nível de outros fatores as mulheres ganham menos que os homens na média u D X X Y 4 3 3 2 2 1 u edu fem salh 1 0 0 0 0 0 ECONOMETRIA Se assumirmos a hipótese que de MLC Como fem 1 e masc 0 reescrevemos 2 O importante é que o nível de educação é o mesmo em ambas as expectativas a diferença devese somente ao gênero A figura 1 a seguir pode ser descrita como um deslocamento de intercepto entre as linhas que representam homens e mulheres 0 u fem edu E edu E salh fem edu E salh fem 0 1 0 E salh masc edu E salh fem edu 0 0 Figura 1 O caso mostra de modo que os homens ganham um montante fixohora a mais que as mulheres A diferença não depende do nível de educação e isso explica a razão de os perfis salárioeducação das mulheres e homens serem paralelos 0 0 ECONOMETRIA Poderíamos indagar por que não incluímos também uma dummy para masculino que seria masc 1 e fem 0 Não incluímos pois isso seria redundante Na equação 1 o intercepto para masc enquanto o intercepto para fem Como existem apenas dois grupos precisamos apenas de dois interceptos diferentes Isso significa que além de precisamos usar somente uma dummy decidimos incluir a variavel dummy para mulheres O uso de duas variáveis dummy introduziria colinearidade perfeita porque femmasc1 o que significa que masc é uma função linear perfeita de fem A inclusão de variáveis dummy para ambos os sexos é um exemplo mais simples da chamada armadilha da variável dummy que surge quando um grande número de dummy descreve determinado número grupos 0 0 0 0 ECONOMETRIA Por isso em 1 escolhemos masc para ser o grupo base ou grupo de referência isto é o grupo contra o qual as comparações são feitas Essa é a razão pela qual é o intercepto para os homens e é a diferença entre dos interceptos entre mulheres e homens Poderíamos ter escolhido as mulheres como grupo base escrevendo o modelo como Uma outra maneira se dá pela eliminação do intercepto global e colocando dummy para fem e masc na equação Onde intercepto para masc e intercepto para fem 0 0 u edu masc salh 1 0 0 u edu fem masc salh 1 0 0 0 0 ECONOMETRIA No caso acima não existe armadilha da dummy pois retirase o intercepto global Criticas difícil de verificar diferenças nos interceptos não existe consenso em calculo pois retirase o intercepto global ECONOMETRIA Modelo com mais k regressores adicionais 3 Hipótese nula de não discriminação entre homens e mulheres Dado que edu exper e perm forem todas características relevantes da produtividade Como podemos efetivamente testar a discriminação salarial A resposta é simples simplesmente estimamos o modelo por MQO exatamente como antes e usamos a estatística t habitual A única diferença em relação ao que vínhamos fazendo até agora é relativo a interpretação do coeficiente da dummy fem salh 0 0 salário menor 0 salários iguais 0 0 0 0 0 H H u perm er edu fem salh 3 2 1 0 0 exp salário menor 0 salários iguais 0 0 0 0 0 H H ECONOMETRIA Interpretação do da dummy quando se tem Logy Modelo 5 é interpretado quando multiplicado por 100 como a diferença percentual em y mantendo fixo todos os outros fatores Quando sugere uma grande mudança proporcional em y a diferença exata pode ser obtida no cálculo da semielasticidade i 0 u x x x x y 4 0 3 3 2 2 1 1 0 ˆ ˆ ˆ log 0 ECONOMETRIA Ex1 arquivo Wooldridge Dummy colonial col O preçop de um imóvel colonial é 54 mais caro que um comum 0 649 88 R 0093 0029 0045 0 65 0038 0 054 0 027 0 70log 0 168log 5 56 log 2 n col dorm arq tt p ECONOMETRIA Ex2 exata Aproximação fem ganham 100 0297 297 a menos que masc exata Fazendo exp e subtraindo Com isso podemos ver que mulheres ganham 257 a menos que os homens edu fem salh 0 08 0 297 0 417 log 0 297 log log log M M F salh salh salh 0 257 1 0 297 exp ECONOMETRIA De forma geral se for o coeficiente da dummy quando y é logy a diferença percentual exata em quando e 6 pode ser positivo ou negativo e é importante preservar o seu sinal ao computar 6 1 exp ˆ 100 1 1ˆ 1x yˆ 0 versus 1 1 1 x x 1ˆ ECONOMETRIA Incorporação de Informações Ordinais com dummy Vamos supor a estimação do efeito de risco de crédito dos estados sobre as taxas de juros dos títulos público estaduais TT Títulos Públicos Classificação CR risco de crédito variável ordinal 0 pior risco 4 melhor risco Como podemos incorporar CR Onde é a mudança em pontos percentuais em TT quando CR aumenta em unidade 4 0 CR u CR TT 1 0 1 ECONOMETRIA Problema difícil interpretação o aumento de uma unidade em CR Pois sabemos que um CR 4 é melhor que CR 3 mas não sabemos se essa diferença entre 4 e 3 é a mesma diferença quando CR1 e CR0 Uma melhor forma de abordagem dummy para cada CR 0 caso contrário 4 e se 1 0 caso contrário 3 e se 1 0 caso contrário 2 e se 1 0 caso contrário 1 e se 1 4 4 3 3 2 2 1 1 CR CR CR CR CR CR CR CR CR CR CR CR ECONOMETRIA Assim o gerase modelo 7 Seguindo a regra sobre dummy incluímos 4 dummy já que temos 5 categorias Sendo que é omitida e portanto ela é o grupo base u CR CR CR CR TT 4 4 3 3 2 2 1 1 0 4 32 10 CRi i CR0 ECONOMETRIA Logo podemos definir é a diferença em TTceteris paribus entre um estado c CR1 e outra com CR 0 a diferença em TTceteris paribus entre um estado c CR2 e outra com CR 0 é a diferença em TTceteris paribus entre um estado c CR3 e outra com CR 0 é a diferença em TTceteris paribus entre um estado c CR4 e outra com CR 0 1 2 3 4 ECONOMETRIA 7 contém um modelo c efeito parcial constante que podemos reescrevelo como sendo uma maneira de escrever 3 restrições que implicam em efeito parcial incorporado a 7 1 4 1 3 1 2 4 3 2 ECONOMETRIA Interações Envolvendo Dummy Assim como as variáveis com significados quantitativos podem interagir em modelos de regressão as dummy também podem O termo de interação entre duas dummy é adicionado ao modelo onde essas variáveis possam aparecer separadamente Exemplo Num modelo de gênero e estado civil podemos testar H0 de que o diferencial de gênero não depende do estado civil em qualquer combinação que reflita encontrar diferenças salariais ECONOMETRIA Consideração de Inclinações diferentes O conceito de diferença nas inclinações permite o caso de interação de variáveis dummy com variáveis explicativas não dummy Ex Retorno da educação entre homens e mulheres Considerando o diferencial de logsalh constante o modelo 8 Se Logo diferença nos interceptos entre fem e masc diferença no retorno da educação entre fem e masc u fem edu fem Log salh 1 1 0 0 inclinação edu e intercepto 1 inclinação edu e intercepto 0 1 1 0 0 1 0 fem fem fem masc masc fem 0 1 Figura 2A A Mostra o caso em que o intercepto de mulheres está abaixo do intercepto dos homens assim como inclinação da linha Isso significa que as mulheres ganham menos que os homens em todos os níveis de edu e a diferença se torna maior quando edu aumenta Figura 2B B O intercepto de mul está abaixo do de hom Mas a inclinação de edu é maior para mulheres Significando que o salh de mulher salh do homem para baixos níveis de edu a diferença diminui conforme a edu aumenta Em algum ponto para a mesma edu salhmul salhhom ECONOMETRIA Estimação Para estimarmos 8 via MQO devemos escrever o modelo com uma interação entre fem e edu 9 Os parâmetros agora podem ser estimados a partir da regressão de logsalh contra fem edu e fem x edu fem x edu é igual a 0 para qualquer hom da amostra fem x edu nível de edu de qualquer mulher da amostra Uma hipótese importante é que o retorno de edu é o mesmo para mulheres e para homens Em 9 A inclinação de logsalh em relação a edu é a mesma phomens e mulheres não faz distinção da diferença entre os interceptos u fem edu edu fem Log salh 1 1 0 0 0 1 0 H 0 0 ECONOMETRIA O diferencial de salh entre homens e mulheres é admitido em H0 mas deve ser o mesmo em todos os níveis de edu Na hipótese que salhhom salhmul para o mesmo nível de edu Isso significa que sob H0 Em 9 usase o teste F para Já no modelo com apenas uma diferença nos intervalos rejeitase H0 pois é rejeitada com 0 e 1 0 0 e 0 1 0 0 H 0 0 0 H 0 0 1 H ECONOMETRIA Diferenças nas Funções de Regressão entre Grupos As vezes devese testar H0 de que dois grupos seguem a mesma função de regressão contra H1 de que as inclinações diferem Suponha um modelo RLM Y nota média no curso superior nmed X1 nota do exame de ingresso sat X2 percentil da classificação perc X3 total de horas do curso tot u x x x y 3 3 2 2 1 1 0 ECONOMETRIA Para considerar a diferença nos interceptos podemos incluir dummy para masc ou fem fazendo então a interação da dummy fem com os regressores 10 é a diferença no intercepto entre homens e mulheres na inclinação em sat entre homens e mulheres na inclinação em perc entre homens e mulheres na inclinação em tot entre homens e mulheres d u fem tot tot perc fem perc fem sat sat fem y 3 3 2 2 1 1 0 0 0 1 2 3 Resultados da estimação de 10 0 394 0 406 366 000316 00009 000163 0 00012 0 0023 000055 021 0411 00002 000039 00014 0 085 0 00075 0 0011 0 353 48 1 2 2 R R n u fem tot tot perc fem perc fem sat sat fem y ECONOMETRIA A hipótese nula de y segue o mesmo modelo para homens e mulheres é 11 Se qualquer então o modelo entre homens e mulheres é diferente Na hora de interpretarmos o modelo devemos ter atenção de não confiar em demasia na estatística t individual para se testar uma hipótese conjunta como em 11 Para computar a estatística F devemos estimar o modelo restrito que resulta da eliminação de fem e de todas as interações produzindo um R² restrito e que pode levar ou não a rejeição de H0 0 0 0 0 3 2 1 0 0 H d i 0 ECONOMETRIA No caso de maior número de regressores podese computar a estatística de maneira diferente O SQR da estatística F pode ser computado facilmente mesmo com muitos regressores envolvidos Num modelo de k variáveis de controle e um intercepto suponha 2 grupos G1 1 e G2 2 gostaríamos de verificar se o intercepto e as inclinações são iguais em G1 e G2 12 Para G1 1 e G2 2 A hipótese de que cada é o mesmo em G1 e G2 envolve k1 restrições no ex k 1 4 u x x x y k g k g g g 2 2 1 1 0 ECONOMETRIA O modelo sem restrições que pode ser entendido como tendo uma variável dummy de grupo e k termos de interação além do intercepto e das próprias variáveis tem n 2 k1 GL no ex 366 24358 A percepção básica é que a SQR do modelo sem restrições pode ser obtida de duas regressões separadas uma para cada grupo Seja SQR1 para G1 n1 observações SQR2 para G2 n2 observações Se G1 fem G2 masc n1 90 n2 276 A SQR do modelo sem restrições é SQRir SQR1 SQR2 ECONOMETRIA A SQR restrita é somente a SQR do agrupamento de G1 e G2 e da estimativa de uma única equação SQRp Assim computase a estatística F 13 Essa estatística F é usualmente chamada de estatística de Chow Chow é um teste F e só é valido sob homocedasticidade Sob H0 as variâncias dos erros dos dois grupos são iguais A normalidade não é necessária para a análise assimptótica 1 1 2 2 1 2 1 k k n SQR SQR SQR SQR SQR F p ECONOMETRIA Uma limitação importante do teste de Chow independente do método é a H0 não permitir nenhuma diferença entre os grupos Em muitos casos é mais interessante considerar uma diferença nos interceptos entre os grupos e depois verificar a diferença nas inclinações Neste sentido há duas maneiras i uma delas é incluir a dummy do grupo e todos os termos de interação como no resultado da estimação de 10 mas apenas testar a significância conjunta dos termos de interação ii A segunda é calcular uma F porem onde a SQRp é obtida pela regressão que permite só um deslocamento no intercepto ou seja calculase uma regressão agrupada e apenas incluímos as variáveis dummy que distinguem os dois grupos ECONOMETRIA Variável Dependente Binária O Modelo de Probabilidade LinearMPL Utilizamos ao adotar a variável de resposta como uma variável binária isso é y assume só um dos dois valores Y 0 ou Y 1 Ex Indicar se uma empresa foi absorvida por outra durante um determinado ano Podemos definir y 1 como um resultado e y 0 caso contrário ECONOMETRIA Descrevendo o Modelo 14 Como y pode ser 0 ou 1 não pode ser interpretado como a mudança em y devido ao aumento de uma unidade em mantendo fixo todos os outros fatores y somente muda de 0 para 1 ou de 1 para 0 No entanto os ainda mantém interpretações úteis u x x x y k k 2 2 1 1 0 j jx j ECONOMETRIA Se assumirmos que a hipótese de média condicional zero é válida isto é então teremos 15 O ponto principal é que quando y é uma variável binária assumindo 0 ou 1 é sempre verdade que a probabilidade de sucesso isto é a probabilidade de que y1 é a mesma do valor esperado de y 0 1 kx u x E E y x x P y 1 k k k x x x x x y x E 1 1 1 0 ECONOMETRIA Logo temos a equação 16 Que mostra a probabilidade de sucesso digamos uma função linear de 16 é um exemplo de modelo de resposta binária e e também é chamado de probabilidade de resposta Como a soma das respostas das probabilidades deve ser 1 também é uma função linear de xj kxk x x P y 1 1 1 0 x P y P x 1 jx x P y 1 x P y x P y 1 1 0 ECONOMETRIA O modelo de RLM com uma variável dependente binária é chamado de Modelo de Probabilidade Linear MPL porque a probabilidade de resposta é linear nos parâmetros No MPL mede a mudança na probabilidade de sucesso quando xj muda mantendo fixos outros fatores 17 Isto posto o modelo RLM pode permitir estimar o efeito de diversos regressores sobre eventos qualitativos j j xj x P y 1 j xj x P y 1 ECONOMETRIA Se escrevermos a equação estimada como Onde probabilidade de sucesso prevista probabilidade de sucesso prevista quando cada é definido como 0 mede a mudança prevista na probabilidade de sucesso quando x1 aumenta em uma unidade Para interpretarmos corretamente o MPL precisamos saber o que constitui um sucesso para descrever y 1 kxk x y ˆ ˆ ˆ ˆ 1 1 0 yˆ 0ˆ jx 1ˆ ECONOMETRIA Exemplo y participação da mulher na força de trabalho y 1 quando mulher informa ter trabalhado com remuneração fora de casa em algum período do ano y 0 caso contrário x 1 anos de estudo x2 experiência Dados de MROZ 1987 MPL n 753 428 trabalharam fora em 1975 Na sequência mostrase o gráfico 4 da relação estimada da força de trabalho e anos de educação ECONOMETRIA Resultado da estimação 18 Para interpretar as estimativas lembremos que um muda a probabilidade de y 1 edu significa ceteris paribus um ano a mais de educação aumenta a probabilidade de participação na força de trabalho em 0038 Com 003810 038 aumento significativo em termos de probabilidade 0 264 753 R 0154 0007 0006 0 039exp 0 038 586 0 2 n er edu y jx x1 10 ECONOMETRIA Figura 4 Relação estimada entre a probabilidade de estar na força de trabalho e anos de educação com outras variáveis explicativas fixas Probabilidade de Participação na Força de Trabalho 05 0 0146 inclinação 0038 384 educ ECONOMETRIA O exemplo mostra que é relativamente fácil interpretar o MPL mas também destaca deficiências 1 É fácil verificar que se agregarmos certas combinações de valores dos regressores em 18 podemos obter previsões menores que 0 ou maiores que 1 Como estamos falando de probabilidade previstae devendo a probabilidade estar e isso pode ser um pouco complicado Dado que probabilidades previstas fora do intervalo da unidade são pouco problemáticas quando queremos fazer previsões 1 0 P y ECONOMETRIA 2 Devido a natureza binária de y o MPL infringe a hipótese de variância homocedastica em GaussMarkov Quando y é binária a 19 Onde probabilidade de sucesso y x var P x P x y x 1 var kxk x P x 1 1 0 ECONOMETRIA Isso significa que com exceção do caso em que a probabilidade não depende de qualquer dos regressores deve haver heterocedasticidade no modelo MPL sabemos que isso não causa viés no estimadores MQO de Entretanto cabemos também que a homocedasticidade é crucial para justificar as estatísticas t e F habituais mesmo em grandes amostras Mesmo com esses problemas o MPL é útil e frequentemente aplicado em economia Normalmente ele funciona bem com valores das variáveis independentes que estejam próximas das médias da amostra j UNIVERSIDADE FEDERAL RURAL DO RIO DE JANEIRO MATHEUS LOURENÇO PEREIRA DOS SANTOS LÊNYM DE ALMEIDA AMORIM PIRES ÉRICA MARTINS BORGES AVALIAÇÃO II ECONOMETRIA RIO DE JANEIRO 2024 Sumário 1 Introdução3 2 Parte 1 Variáveis Dummy3 21 Variáveis do Modelo4 211 Variável Dependente4 212 Variáveis Independentes4 22 Roteiro de Aplicação no Python5 221 Modelo Proposto6 222 Análise Residual7 3 Parte 2 Análise de Multicolineariedade9 31 Matriz de Correlação10 Referencias12 1 Introdução Este relatório se divide em duas partes que exploram diferentes aspectos de um modelo de regressão múltipla aplicado ao estudo dos salários anos de educação e gênero e à análise da multicolinearidade entre variáveis macroeconômicas como PIB Selic e Renda de Reservas Na primeira parte examinamos como a variável dummy representando o gênero interage com anos de educação para explicar as variações salariais Através de testes estatísticos e gráficos discutimos a significância das variáveis no modelo e os pressupostos de normalidade e independência dos resíduos Na segunda parte focamos na análise da multicolinearidade utilizando o VIF Variance Inflation Factor para identificar a presença de correlações entre as variáveis independentes do modelo do relatório 1 bem como as correlações observadas entre PIB Selic e Renda de Reservas Os resultados e saídas foram todos encontrados através do software Python e os pacotes utilizados foram 2 Parte 1 Variáveis Dummy Uma variável dummy ou variável indicadora é uma variável binária utilizada em modelos estatísticos para representar categorias qualitativas ou informações de natureza categórica Em essência ela assume valores de 0 e 1 para indicar a presença ou ausência de uma característica específica Essa técnica permite que informações qualitativas sejam incorporadas em modelos de regressão e outras análises quantitativas facilitando a interpretação do impacto de características não numéricas Segundo Gujarati e Porter 2011 uma variável dummy é usada para distinguir qualitativamente entre diferentes grupos ou categorias dentro do conjunto de dados sendo uma ferramenta essencial para a análise de dados qualitativos Ela permite ao pesquisador captar variações sistemáticas associadas a fatores categóricos e medir o efeito médio dessas variáveis sobre a variável dependente No estudo usaremos como variável dummy o efeito de gênero nos salários uma variável dummy será usada para representar o gênero com 0 indicando homens e 1 indicando mulheres Esse tipo de variável é especialmente útil em econometria e outras áreas de pesquisa empírica pois permite a inclusão de atributos categóricos nos modelos o que melhora a precisão e a capacidade preditiva do modelo 21 Variáveis do Modelo Como estamos analisando o impacto dos anos de estudo e do gênero nos salários dos indivíduos O modelo de regressão proposto considera 211 Variável Dependente W wage que representa o salário do indivíduo do banco de dados 212 Variáveis Independentes A Representa o número de anos de estudo de cada indivíduo Essa variável quantifica o nível de escolaridade e captura seu efeito direto sobre o salário Dummy Uma variável dummy que indica o gênero do indivíduo onde Dummy0 para homens e Dummy1 para mulheres Interação A Dummy Uma variável de interação entre os anos de estudo A e a variável Dummy de gênero Essa interação permite que o modelo capture como o impacto dos anos de estudo sobre o salário pode diferir entre homens e mulheres 22 Roteiro de Aplicação no Python Importação dos dados Estatísticas descritivas das variáveis A análise descritiva mostra que para as 40 observações do conjunto de dados o salário médio W é de 791029 unidades monetárias com um desvio padrão alto 753863 um indicando grande variabilidade entre os salários O saláriomínimo é de 83722 um e o máximo 3046000 um sugerindo uma ampla faixa salarial Em relação aos anos de estudo A a média é de 1033 anos variando entre 1 e 17 anos com metade das observações entre 675 e 1425 anos de estudo A variável dummy de gênero tem média de 05 refletindo uma divisão equilibrada entre homens e mulheres no conjunto de dados Rodando o modelo através do Python 221 Modelo Proposto O modelo proposto ficou Saláriosi5461181293 42 Anosde Estudo si119830gênero117 03 Anosde estudosgêner oiϵ i De acordo com os coeficientes estimados no modelo temse que para cada aumento em um ano de estudo estimase um aumento médio de 129342 um no salário do indivíduo e temse também que os salários médios de mulheres são 119830 um maiores que dos homens E o coeficiente da interação ADummy de 11703 sugere que o efeito dos anos de estudo no salário é levemente menor para as mulheres em relação aos homens Como o pvalor da estatística F foi inferior a 005 ao nível de significância de 5 rejeitamos a hipótese nula de que o modelo não é significativo Isso indica que os anos de estudo e o gênero são fatores relevantes para explicar as variações nos salários Além disso o coeficiente de determinação R 2 de 0652 indica que 652 da variação dos salários é explicada pelo modelo proposto sugerindo um bom ajuste do modelo aos dados Ao analisar individualmente cada variável independente por meio do teste t que avalia a significância estatística de cada variável observamos que apenas os anos de estudo se mostraram estatisticamente significativos a um nível de 5 pvalor menor que 005 Em contrapartida a variável dummy que representa o gênero apresentou um pvalor superior a 005 indicando que não há evidências suficientes para afirmar que o gênero impacta significativamente o salário mesmo após controlar pelos anos de estudo 222 Análise Residual O gráfico de Resíduos versus Valores Ajustados revela que a maioria dos resíduos está próxima de zero embora haja uma observação que apresenta uma dispersão significativamente maior em comparação às demais Essa análise gráfica sugere que o modelo não atende ao pressuposto de independência com variância constante indicando a necessidade de reconsiderar a adequação do modelo para os dados O histograma dos resíduos indica que não se satisfaz o pressuposto de normalidade uma vez que os resíduos não seguem uma distribuição normal Essa observação sugere que o modelo pode não estar adequadamente especificado o que pode impactar a validade das inferências realizadas com base nos resultados da análise A análise do gráfico QQ plot revela que os pontos apresentam uma variação significativa em torno da linha reta indicando que os dados não seguem uma distribuição normal Essa dispersão sugere que as características da distribuição podem diferir das expectativas de normalidade possivelmente apresentando caudas mais pesadas ou mais leves Além disso a presença de desvios notáveis nos extremos do gráfico pode indicar a existência de outliers que podem impactar a validade das inferências estatísticas 3 Parte 2 Análise de Multicolineariedade Relembrando o modelo do relatório 1 A multicolinearidade referese à situação em que duas ou mais variáveis independentes em um modelo de regressão são altamente correlacionadas tornando difícil discernir o efeito individual de cada variável sobre a variável dependente Quando a multicolinearidade está presente os coeficientes estimados podem se tornar instáveis e imprecisos levando a uma maior variabilidade nas estimativas e dificultando a interpretação dos resultados Isso ocorre porque a alta correlação entre as variáveis independentes pode resultar em pvalores elevados mesmo para variáveis que individualmente poderiam ser significativas A detecção da multicolinearidade é importante pois a sua presença pode comprometer a validade dos testes estatísticos realizados e a confiabilidade das previsões do modelo Uma das formas comuns de detectar a multicolinearidade é através do cálculo do VIF Variance Inflation Factor que quantifica quanto a variância de um coeficiente de regressão é inflacionada devido à colinearidade com outras variáveis independentes De acordo com OBrien 2007 valores de VIF superiores a 10 são frequentemente considerados indicativos de multicolinearidade severa exigindo a consideração de ajustes no modelo Calculando o VIF Para as variáveis independentes o VIF da variável PIB é de 155 o da Selic é de 104 e o da Renda de reservas é de 159 Todos esses valores estão bem abaixo do limite comumente aceito de 10 o que indica que não há evidências de multicolinearidade severa entre essas variáveis Essa constatação sugere que cada uma das variáveis independentes pode estar contribuindo de maneira independente para a explicação da variação da variável dependente Assim podemos inferir que o modelo possui uma estrutura adequada permitindo interpretações confiáveis dos coeficientes estimados e evitando problemas associados à multicolinearidade como a instabilidade dos coeficientes e a dificuldade em identificar a importância relativa das variáveis explicativas 31 Matriz de Correlação A análise das correlações entre as variáveis PIB Selic e Renda de Reservas revela padrões interessantes nas interações econômicas A correlação entre PIB e Selic é praticamente nula com um coeficiente de 001 sugerindo que as variações na taxa de juros não têm um impacto significativo no crescimento econômico medido pelo PIB Em contraste a relação entre PIB e Renda de Reservas apresenta um coeficiente de 059 indicando uma correlação positiva moderada isso sugere que o aumento do PIB pode estar associado ao crescimento das Rendas de Reservas refletindo um ciclo de crescimento econômico que favorece a acumulação de recursos financeiros Por fim a correlação entre Selic e Renda de Reservas é ligeiramente negativa com um coeficiente de 016 o que indica uma interação fraca sugerindo que as mudanças na taxa de juros não impactam significativamente a Renda de Reservas Esses achados fornecem uma base para compreender a dinâmica entre esses indicadores e suas implicações para a formulação de políticas econômicas Referencias Gujarati D N Porter D C 2011 Econometria Básica 5ª ed AMGH Editora OBrien R M 2007 A Caution Regarding Rules of Thumb for Variance Inflation Factors Quality Quantity 415 673690
Send your question to AI and receive an answer instantly
Recommended for you
18
Projeto de Econometria - Análise de Regressão M1, Selic, IPCA e PIB
Econometria
UFRRJ
1
Roteiro Avaliacao Econometria 3 - Autocorrelacao e Heterocedasticidade
Econometria
UFRRJ
1
P1 - Econometria
Econometria
UFRRJ
2
Econometria
Econometria
UFRRJ
1
Analise Graficos Distribuicao Probabilidade Estimadores Lineares - Escolha Estimador Ideal
Econometria
PUC
1
Distribuição Amostral das Médias e Cálculo de Probabilidades
Econometria
UNITAU
3
Lista de Exercícios e Provas Econometria Wooldridge e Gujarati
Econometria
UFRJ
101
Multicolinearidade na Regressão Linear Múltipla
Econometria
PUC
1
Projeto Econometria II - Análise de Retornos de Carteira com Metodologia Box-Jenkins
Econometria
FECAP
1
Análise de Vendas de Atum e Determinantes dos Rendimentos do Trabalho
Econometria
PUC
Preview text
ROTEIRO AVALIAÇÃO 2 ECONOMETRIA Avaliação variáveis Dummy Analisar os dados de variáveis dummy estimando o retorno para educação de mulheres na amostra conforme mencionado em exemplo dos slides de aula Avaliação Multicolinearidade Utilizar os dados e modelagem já feita pelo grupo no relatório 1 e verificar se existem o problema da multicolinearidade nos modelos propostos Fazer a matriz de correlação via seaborn Não é necessário reescrever todo relatório somente começar a partir dos modelos já feitos e analisar a presença ou não de multicolinearidade UNIVERSIDADE FEDERAL RURAL DO RIO DE JANEIRO MATHEUS LOURENÇO PEREIRA DOS SANTOS LÊNYM DE ALMEIDA AMORIM PIRES ÉRICA MARTINS BORGES AVALIAÇÃO I ECONOMETRIA RIO DE JANEIRO 2024 Introdução O relatório traz uma análise que explora relações entre variáveis macroeconômicas avaliando sua significância e potencial para explicar a variação em uma variável dependente IC Os modelos foram construídos via Python para manipulação de dados plotagem de gráficos e tabelas etc Dentre as variáveis utilizadas temos IC Índice de Commodities Selic Taxa básica de juros mensal Renda de Reservas mensal IPCA Importação e conversão da base de dados do BACEN Definição dos códigos para consulta Criação e manipulação do DataFrame com valores relativos ao ano escolhido como inicial 2010 Variáveis da Regressão Regressão simples I Resultado O resultado de R² indica que cerca de 288 da variância na variável dependente pode ser explicada pela variável independente Os resultados de pvalue e da estatística F no modelo de regressão indicam que tanto o modelo como um todo quanto a variável Renda de reservas são estatisticamente significativos na explicação da variância da variável dependente IC O modelo sugere uma relação estatisticamente significativa entre a variável independente Renda de reservas e a variável dependente ic No entanto o valor relativamente baixo do R² indica que pode haver outros fatores não incluídos no modelo que poderiam explicar mais da variância na variável dependente Regressão simples II Resultado Com um R² de apenas 26 o modelo explica uma parcela muito pequena da variância na Renda de reservas A estatística F e o pvalue sugerem que o modelo como um todo é estatísticamente significativo ao nível de 5 apesar do baixo R² A taxa selic tem um efeito estatisticamente significativo sobre a renda de reservas com um coeficiente negativo No entanto o modelo explica apenas uma pequena fração da variância na Renda de reservas 26 indicando que outras variáveis relevantes não estão sendo consideradas Regressão simples III Resultado O modelo de regressão OLS apresentado indica que a variável ic tem um efeito estatisticamente significativo e positivo sobre o pib com um coeficiente de 05702 O alto valor de R² 900 sugere que o modelo explica a maior parte da variância no pib indicando um excelente ajuste O baixo pvalue indica que há evidências suficientes para afirmar que o coeficiente associado é significativamente diferente de zero Desse modo tanto a constante quanto a variável ic são altamente significativas Regressão Múltipla Comum Resultado O R² indica que 90 da variação da variável dependente ic é explicada pelas variáveis independentes x1 x2 x3 Isso sugere que o modelo tem um bom ajuste já que uma grande parte da variação no ic é explicada pelos fatores incluídos Sobre a Estatística F o valor de 5166 é bastante elevado o que indica que as variáveis independentes no conjunto explicam significativamente a variação na variável dependente ic O valorp associado à estatística F indica a probabilidade de os coeficientes das variáveis independentes serem zero ou seja que elas não têm efeito sobre a variável dependente O valorp extremamente baixo 005 sugere que o modelo é altamente significativo ou seja é muito improvável que os resultados ocorram por acaso Regressão em SemiLog X1 Resultado O modelo apresenta um R² muito baixo 03 indicando que a variável selic explica uma fração mínima da variação na variável ic A estatística F baixa e o valorp elevado sugerem que a variável selic não é um preditor significativo da variável IC neste contexto X2 Resultado O modelo apresenta um R² de 283 indicando que a variável Renda de reservas explica uma parte significativa da variação em IC A estatística F elevada e o valorp extremamente baixo corroboram a ideia de que a Renda de reservas é um preditor importante e significativo para IC neste contexto X3 Resultado O modelo apresenta um R² de 93 o que demonstra um excelente ajuste A estatística F é excepcionalmente alta e o valorp é extremamente baixo reforçando a conclusão de que o PIB é um preditor significativo para ic neste contexto Essa relação sugere que alterações no PIB têm um impacto considerável sobre a variável dependente ic Regressão Múltipla em SemiLog O modelo apresenta um R² de 936 indicando um ajuste excelente A estatística F é alta e o valorp é extremamente baixo reforçando a conclusão de que as variáveis independentes têm um impacto significativo na variável dependente IC A análise dos coeficientes revela que enquanto x1 e x2 têm efeitos negativos sobre IC x3 tem um efeito positivo muito forte Modelo Log Log X1 Resultado O modelo apresenta um R² muito baixo de 2 indicando que a variável selic explica apenas uma pequena fração da variação em IC A estatística F é modesta e o valorp está próximo do limite de significância sugerindo que há uma possível relação entre selic e IC mas que não é estatisticamente robusta Assim embora a selic possa ter um impacto negativo a evidência não é forte o suficiente para tirar conclusões definitivas X2 Resultado O modelo apresenta um R² de 281 indicando um ajuste razoável A estatística F é alta e o valorp é extremamente baixo reforçando a conclusão de que Renda de reservas tem um impacto significativo na variável dependente IC O coeficiente positivo de Renda de reservas sugere que à medida que a Renda de reservas aumenta o IC também tende a aumentar X3 Resultado O modelo apresenta um R² de 922 indicando um ajuste excelente A estatística F é extremamente alta e o valorp é praticamente zero reforçando a conclusão de que PIB tem um impacto altamente significativo na variável dependente IC O coeficiente positivo de PIB sugere que à medida que o PIB aumenta o IC também tende a aumentar de forma substancial Regressão Múltipla Log Log Resultado O modelo apresenta um R² de 924 indicando um ajuste excelente A estatística F é muito alta e o valorp é praticamente zero sugerindo que as variáveis independentes têm um impacto significativo sobre IC O coeficiente de x3 é particularmente relevante indicando que à medida que x3 aumenta IC também tende a aumentar de forma substancial Em contrapartida x1 não parece ter um efeito significativo enquanto x2 tem um pvalor próximo do limiar de significância indicando uma possível relação a ser investigada mais a fundo ECONOMETRIA VARIÁVEIS BINÁRIAS DEPENDENTES E INDEPENDENTES ECONOMETRIA Referência Introdução a econometria Uma abordagem Moderna Jeffrey M Wooldridge 3ª ed 2010 ECONOMETRIA VARIÁVEIS BINÁRIAS INDEPENDENTES DUMMY Fatores qualitativos frequentemente aparecem na forma de informação binária A informação relevante pode ser capturada pela definição de uma variável binária ou zeroum Em econometria variáveis binárias são chamadas de dummy Ex gênero Dummy Sua aplicação genérica pode ser colocada na forma do modelo linear clássico em que u x x x y k k 2 2 1 1 0 se for mulher 1 0 se for homem D ECONOMETRIA Para um estimação com n observações podemos dispor da seguinte configuração Essas n equações podem ser dispostas na forma matricial n k n k n n n k k k k u X X X Y u X X X Y u X X X Y 3 3 2 2 1 2 2 32 3 22 2 1 2 1 1 31 3 21 2 1 1 1 2 1 1 2 1 3 2 2 32 22 1 31 21 1 2 1 1 1 1 n n k k n k kn n n k k n n u u u X X X X X X X X X Y Y Y ECONOMETRIA 1 Variáveis Dummy Presença de atributo qualitativo ou influência característica Ex O sexo influência no salário Usamos w como variável dependente e incluímos outras variáveis que explicam w alem da Dummy D Logo D representa coeficiente o quanto as mulheres ganham a mais ou a menos Ex D 100 significa que as mulheres ganham 100 a menos que os homens se for mulher 1 0 se for homem D ECONOMETRIA Se a variável for qualitativa possuindo 3 estados diferentes temos Ex padrão de um imóvel Popular médio ou luxo Ou Luxo 1 Popular ou Médio 0 Médio 1 Luxo ou Popular 0 2 1 D D Luxo 1 Médio ou Popular 0 Médio ou Luxo 1 Popular 0 2 1 D D ECONOMETRIA Ex4 Reeditaremos o exemplo 2 só que adicionaremos uma variável qualitativa que representará a existência ou não de determinado atributo Y X2 X3 Atributo 800 2 08 sim 1160 4 07 sim 1580 6 05 sim 2010 8 04 sim 1890 7 02 sim 2600 12 02 sim 2070 11 08 não 1890 10 07 não 1830 9 06 não 1740 8 01 não 1380 6 05 não 1060 4 04 não ECONOMETRIA Vamos estimar a regressão de Y em função das 3 variáveis e façamos as análises pertinentes Para incluir essa variável qualitativa no modelo criamos a variável dummy D definida por se existir atributo 1 0 se não existir atributo D ECONOMETRIA Com isso as variáveis seriam Y X2 X3 D 800 2 08 1 1160 4 07 1 1580 6 05 1 2010 8 04 1 1890 7 02 1 2600 12 02 1 2070 11 08 0 1890 10 07 0 1830 9 06 0 1740 8 01 0 1380 6 05 0 1060 4 04 0 ECONOMETRIA Devemos estimar o modelo Cujos os resultados são Com os dp em parênteses Todos os coeficientes são significantes a 1 O resultado encontrado indica que a presença de atributo aumenta o valor de Y em 23808 em média D X X X Y 26 30 3 48 65 2 5 34 35 64 1 23808 32778 16187 53609 D X X Y 4 3 3 2 2 1 ECONOMETRIA ANOVA A regressão é válida pois FTAB 407 a 5 de significância e o R² 09928 Soma dos quadrados GL Quadrados Médios Teste F SQE 272917029 3 90972359 36659 SQR 1985422 8 248178 SQT 2749025 11 24991136 ECONOMETRIA Ex 5 Suponha que numa regressão para o preço de um imóvel medido em 1000 reais levamos em conta a área de tal imóvel X2 um índice que mede a qualidade dos serviços disponíveis no bairro X3 e das dummy que representam o padrão de construção do imóvel assim definidas se for Alto 1 se for Baixo ou Médio 0 se for Médio ou Alto 1 se for Baixo 0 2 1 D D ECONOMETRIA Os resultados obtidos para este exemplo foram Qual a diferença em média entre o preço de um imóvel de padrão baixo e de padrão médio E entre um imóvel de padrão médio e de padrão alto Para um imóvel de baixo padrão temos D1 D2 0 enquanto para padrão médio D1 1 e D2 0 Portanto o coeficiente da variável D1 representa a diferença média no preço de imóveis de padrão baixo e médio que é portantoR1204000 reais 2 77 4 1 16 5 3 0 23 34 5 2 88 27 1 1821 1204 0 78 1 27 1634 D D X X X Y ECONOMETRIA Se o padrão for alto então D1 D2 1 Portanto a diferença entre imóveis de padrão alto e médio é representada pelo coeficiente da variável D2 que é R1821000 reais ECONOMETRIA Voltemos ao problema sobre gêneros Ex gênero Dummy Sua aplicação genérica pode ser colocada na forma do modelo linear clássico em que se for mulher 1 0 se for homem D u x x x y k k 2 2 1 1 0 ECONOMETRIA Podemos incluir essa variável de informação binária da mesma forma que um regressor comum Voltando então ao exemplo Vamos supor um modelo de determinação de salários 1 Onde parâmetro da dummy è a diferença no saláriohora entre mulheres e homens dado o mesmo grau de educação Também determina se existe discriminação contra mulheres Se logo para o mesmo nível de outros fatores as mulheres ganham menos que os homens na média u D X X Y 4 3 3 2 2 1 u edu fem salh 1 0 0 0 0 0 ECONOMETRIA Se assumirmos a hipótese que de MLC Como fem 1 e masc 0 reescrevemos 2 O importante é que o nível de educação é o mesmo em ambas as expectativas a diferença devese somente ao gênero A figura 1 a seguir pode ser descrita como um deslocamento de intercepto entre as linhas que representam homens e mulheres 0 u fem edu E edu E salh fem edu E salh fem 0 1 0 E salh masc edu E salh fem edu 0 0 Figura 1 O caso mostra de modo que os homens ganham um montante fixohora a mais que as mulheres A diferença não depende do nível de educação e isso explica a razão de os perfis salárioeducação das mulheres e homens serem paralelos 0 0 ECONOMETRIA Poderíamos indagar por que não incluímos também uma dummy para masculino que seria masc 1 e fem 0 Não incluímos pois isso seria redundante Na equação 1 o intercepto para masc enquanto o intercepto para fem Como existem apenas dois grupos precisamos apenas de dois interceptos diferentes Isso significa que além de precisamos usar somente uma dummy decidimos incluir a variavel dummy para mulheres O uso de duas variáveis dummy introduziria colinearidade perfeita porque femmasc1 o que significa que masc é uma função linear perfeita de fem A inclusão de variáveis dummy para ambos os sexos é um exemplo mais simples da chamada armadilha da variável dummy que surge quando um grande número de dummy descreve determinado número grupos 0 0 0 0 ECONOMETRIA Por isso em 1 escolhemos masc para ser o grupo base ou grupo de referência isto é o grupo contra o qual as comparações são feitas Essa é a razão pela qual é o intercepto para os homens e é a diferença entre dos interceptos entre mulheres e homens Poderíamos ter escolhido as mulheres como grupo base escrevendo o modelo como Uma outra maneira se dá pela eliminação do intercepto global e colocando dummy para fem e masc na equação Onde intercepto para masc e intercepto para fem 0 0 u edu masc salh 1 0 0 u edu fem masc salh 1 0 0 0 0 ECONOMETRIA No caso acima não existe armadilha da dummy pois retirase o intercepto global Criticas difícil de verificar diferenças nos interceptos não existe consenso em calculo pois retirase o intercepto global ECONOMETRIA Modelo com mais k regressores adicionais 3 Hipótese nula de não discriminação entre homens e mulheres Dado que edu exper e perm forem todas características relevantes da produtividade Como podemos efetivamente testar a discriminação salarial A resposta é simples simplesmente estimamos o modelo por MQO exatamente como antes e usamos a estatística t habitual A única diferença em relação ao que vínhamos fazendo até agora é relativo a interpretação do coeficiente da dummy fem salh 0 0 salário menor 0 salários iguais 0 0 0 0 0 H H u perm er edu fem salh 3 2 1 0 0 exp salário menor 0 salários iguais 0 0 0 0 0 H H ECONOMETRIA Interpretação do da dummy quando se tem Logy Modelo 5 é interpretado quando multiplicado por 100 como a diferença percentual em y mantendo fixo todos os outros fatores Quando sugere uma grande mudança proporcional em y a diferença exata pode ser obtida no cálculo da semielasticidade i 0 u x x x x y 4 0 3 3 2 2 1 1 0 ˆ ˆ ˆ log 0 ECONOMETRIA Ex1 arquivo Wooldridge Dummy colonial col O preçop de um imóvel colonial é 54 mais caro que um comum 0 649 88 R 0093 0029 0045 0 65 0038 0 054 0 027 0 70log 0 168log 5 56 log 2 n col dorm arq tt p ECONOMETRIA Ex2 exata Aproximação fem ganham 100 0297 297 a menos que masc exata Fazendo exp e subtraindo Com isso podemos ver que mulheres ganham 257 a menos que os homens edu fem salh 0 08 0 297 0 417 log 0 297 log log log M M F salh salh salh 0 257 1 0 297 exp ECONOMETRIA De forma geral se for o coeficiente da dummy quando y é logy a diferença percentual exata em quando e 6 pode ser positivo ou negativo e é importante preservar o seu sinal ao computar 6 1 exp ˆ 100 1 1ˆ 1x yˆ 0 versus 1 1 1 x x 1ˆ ECONOMETRIA Incorporação de Informações Ordinais com dummy Vamos supor a estimação do efeito de risco de crédito dos estados sobre as taxas de juros dos títulos público estaduais TT Títulos Públicos Classificação CR risco de crédito variável ordinal 0 pior risco 4 melhor risco Como podemos incorporar CR Onde é a mudança em pontos percentuais em TT quando CR aumenta em unidade 4 0 CR u CR TT 1 0 1 ECONOMETRIA Problema difícil interpretação o aumento de uma unidade em CR Pois sabemos que um CR 4 é melhor que CR 3 mas não sabemos se essa diferença entre 4 e 3 é a mesma diferença quando CR1 e CR0 Uma melhor forma de abordagem dummy para cada CR 0 caso contrário 4 e se 1 0 caso contrário 3 e se 1 0 caso contrário 2 e se 1 0 caso contrário 1 e se 1 4 4 3 3 2 2 1 1 CR CR CR CR CR CR CR CR CR CR CR CR ECONOMETRIA Assim o gerase modelo 7 Seguindo a regra sobre dummy incluímos 4 dummy já que temos 5 categorias Sendo que é omitida e portanto ela é o grupo base u CR CR CR CR TT 4 4 3 3 2 2 1 1 0 4 32 10 CRi i CR0 ECONOMETRIA Logo podemos definir é a diferença em TTceteris paribus entre um estado c CR1 e outra com CR 0 a diferença em TTceteris paribus entre um estado c CR2 e outra com CR 0 é a diferença em TTceteris paribus entre um estado c CR3 e outra com CR 0 é a diferença em TTceteris paribus entre um estado c CR4 e outra com CR 0 1 2 3 4 ECONOMETRIA 7 contém um modelo c efeito parcial constante que podemos reescrevelo como sendo uma maneira de escrever 3 restrições que implicam em efeito parcial incorporado a 7 1 4 1 3 1 2 4 3 2 ECONOMETRIA Interações Envolvendo Dummy Assim como as variáveis com significados quantitativos podem interagir em modelos de regressão as dummy também podem O termo de interação entre duas dummy é adicionado ao modelo onde essas variáveis possam aparecer separadamente Exemplo Num modelo de gênero e estado civil podemos testar H0 de que o diferencial de gênero não depende do estado civil em qualquer combinação que reflita encontrar diferenças salariais ECONOMETRIA Consideração de Inclinações diferentes O conceito de diferença nas inclinações permite o caso de interação de variáveis dummy com variáveis explicativas não dummy Ex Retorno da educação entre homens e mulheres Considerando o diferencial de logsalh constante o modelo 8 Se Logo diferença nos interceptos entre fem e masc diferença no retorno da educação entre fem e masc u fem edu fem Log salh 1 1 0 0 inclinação edu e intercepto 1 inclinação edu e intercepto 0 1 1 0 0 1 0 fem fem fem masc masc fem 0 1 Figura 2A A Mostra o caso em que o intercepto de mulheres está abaixo do intercepto dos homens assim como inclinação da linha Isso significa que as mulheres ganham menos que os homens em todos os níveis de edu e a diferença se torna maior quando edu aumenta Figura 2B B O intercepto de mul está abaixo do de hom Mas a inclinação de edu é maior para mulheres Significando que o salh de mulher salh do homem para baixos níveis de edu a diferença diminui conforme a edu aumenta Em algum ponto para a mesma edu salhmul salhhom ECONOMETRIA Estimação Para estimarmos 8 via MQO devemos escrever o modelo com uma interação entre fem e edu 9 Os parâmetros agora podem ser estimados a partir da regressão de logsalh contra fem edu e fem x edu fem x edu é igual a 0 para qualquer hom da amostra fem x edu nível de edu de qualquer mulher da amostra Uma hipótese importante é que o retorno de edu é o mesmo para mulheres e para homens Em 9 A inclinação de logsalh em relação a edu é a mesma phomens e mulheres não faz distinção da diferença entre os interceptos u fem edu edu fem Log salh 1 1 0 0 0 1 0 H 0 0 ECONOMETRIA O diferencial de salh entre homens e mulheres é admitido em H0 mas deve ser o mesmo em todos os níveis de edu Na hipótese que salhhom salhmul para o mesmo nível de edu Isso significa que sob H0 Em 9 usase o teste F para Já no modelo com apenas uma diferença nos intervalos rejeitase H0 pois é rejeitada com 0 e 1 0 0 e 0 1 0 0 H 0 0 0 H 0 0 1 H ECONOMETRIA Diferenças nas Funções de Regressão entre Grupos As vezes devese testar H0 de que dois grupos seguem a mesma função de regressão contra H1 de que as inclinações diferem Suponha um modelo RLM Y nota média no curso superior nmed X1 nota do exame de ingresso sat X2 percentil da classificação perc X3 total de horas do curso tot u x x x y 3 3 2 2 1 1 0 ECONOMETRIA Para considerar a diferença nos interceptos podemos incluir dummy para masc ou fem fazendo então a interação da dummy fem com os regressores 10 é a diferença no intercepto entre homens e mulheres na inclinação em sat entre homens e mulheres na inclinação em perc entre homens e mulheres na inclinação em tot entre homens e mulheres d u fem tot tot perc fem perc fem sat sat fem y 3 3 2 2 1 1 0 0 0 1 2 3 Resultados da estimação de 10 0 394 0 406 366 000316 00009 000163 0 00012 0 0023 000055 021 0411 00002 000039 00014 0 085 0 00075 0 0011 0 353 48 1 2 2 R R n u fem tot tot perc fem perc fem sat sat fem y ECONOMETRIA A hipótese nula de y segue o mesmo modelo para homens e mulheres é 11 Se qualquer então o modelo entre homens e mulheres é diferente Na hora de interpretarmos o modelo devemos ter atenção de não confiar em demasia na estatística t individual para se testar uma hipótese conjunta como em 11 Para computar a estatística F devemos estimar o modelo restrito que resulta da eliminação de fem e de todas as interações produzindo um R² restrito e que pode levar ou não a rejeição de H0 0 0 0 0 3 2 1 0 0 H d i 0 ECONOMETRIA No caso de maior número de regressores podese computar a estatística de maneira diferente O SQR da estatística F pode ser computado facilmente mesmo com muitos regressores envolvidos Num modelo de k variáveis de controle e um intercepto suponha 2 grupos G1 1 e G2 2 gostaríamos de verificar se o intercepto e as inclinações são iguais em G1 e G2 12 Para G1 1 e G2 2 A hipótese de que cada é o mesmo em G1 e G2 envolve k1 restrições no ex k 1 4 u x x x y k g k g g g 2 2 1 1 0 ECONOMETRIA O modelo sem restrições que pode ser entendido como tendo uma variável dummy de grupo e k termos de interação além do intercepto e das próprias variáveis tem n 2 k1 GL no ex 366 24358 A percepção básica é que a SQR do modelo sem restrições pode ser obtida de duas regressões separadas uma para cada grupo Seja SQR1 para G1 n1 observações SQR2 para G2 n2 observações Se G1 fem G2 masc n1 90 n2 276 A SQR do modelo sem restrições é SQRir SQR1 SQR2 ECONOMETRIA A SQR restrita é somente a SQR do agrupamento de G1 e G2 e da estimativa de uma única equação SQRp Assim computase a estatística F 13 Essa estatística F é usualmente chamada de estatística de Chow Chow é um teste F e só é valido sob homocedasticidade Sob H0 as variâncias dos erros dos dois grupos são iguais A normalidade não é necessária para a análise assimptótica 1 1 2 2 1 2 1 k k n SQR SQR SQR SQR SQR F p ECONOMETRIA Uma limitação importante do teste de Chow independente do método é a H0 não permitir nenhuma diferença entre os grupos Em muitos casos é mais interessante considerar uma diferença nos interceptos entre os grupos e depois verificar a diferença nas inclinações Neste sentido há duas maneiras i uma delas é incluir a dummy do grupo e todos os termos de interação como no resultado da estimação de 10 mas apenas testar a significância conjunta dos termos de interação ii A segunda é calcular uma F porem onde a SQRp é obtida pela regressão que permite só um deslocamento no intercepto ou seja calculase uma regressão agrupada e apenas incluímos as variáveis dummy que distinguem os dois grupos ECONOMETRIA Variável Dependente Binária O Modelo de Probabilidade LinearMPL Utilizamos ao adotar a variável de resposta como uma variável binária isso é y assume só um dos dois valores Y 0 ou Y 1 Ex Indicar se uma empresa foi absorvida por outra durante um determinado ano Podemos definir y 1 como um resultado e y 0 caso contrário ECONOMETRIA Descrevendo o Modelo 14 Como y pode ser 0 ou 1 não pode ser interpretado como a mudança em y devido ao aumento de uma unidade em mantendo fixo todos os outros fatores y somente muda de 0 para 1 ou de 1 para 0 No entanto os ainda mantém interpretações úteis u x x x y k k 2 2 1 1 0 j jx j ECONOMETRIA Se assumirmos que a hipótese de média condicional zero é válida isto é então teremos 15 O ponto principal é que quando y é uma variável binária assumindo 0 ou 1 é sempre verdade que a probabilidade de sucesso isto é a probabilidade de que y1 é a mesma do valor esperado de y 0 1 kx u x E E y x x P y 1 k k k x x x x x y x E 1 1 1 0 ECONOMETRIA Logo temos a equação 16 Que mostra a probabilidade de sucesso digamos uma função linear de 16 é um exemplo de modelo de resposta binária e e também é chamado de probabilidade de resposta Como a soma das respostas das probabilidades deve ser 1 também é uma função linear de xj kxk x x P y 1 1 1 0 x P y P x 1 jx x P y 1 x P y x P y 1 1 0 ECONOMETRIA O modelo de RLM com uma variável dependente binária é chamado de Modelo de Probabilidade Linear MPL porque a probabilidade de resposta é linear nos parâmetros No MPL mede a mudança na probabilidade de sucesso quando xj muda mantendo fixos outros fatores 17 Isto posto o modelo RLM pode permitir estimar o efeito de diversos regressores sobre eventos qualitativos j j xj x P y 1 j xj x P y 1 ECONOMETRIA Se escrevermos a equação estimada como Onde probabilidade de sucesso prevista probabilidade de sucesso prevista quando cada é definido como 0 mede a mudança prevista na probabilidade de sucesso quando x1 aumenta em uma unidade Para interpretarmos corretamente o MPL precisamos saber o que constitui um sucesso para descrever y 1 kxk x y ˆ ˆ ˆ ˆ 1 1 0 yˆ 0ˆ jx 1ˆ ECONOMETRIA Exemplo y participação da mulher na força de trabalho y 1 quando mulher informa ter trabalhado com remuneração fora de casa em algum período do ano y 0 caso contrário x 1 anos de estudo x2 experiência Dados de MROZ 1987 MPL n 753 428 trabalharam fora em 1975 Na sequência mostrase o gráfico 4 da relação estimada da força de trabalho e anos de educação ECONOMETRIA Resultado da estimação 18 Para interpretar as estimativas lembremos que um muda a probabilidade de y 1 edu significa ceteris paribus um ano a mais de educação aumenta a probabilidade de participação na força de trabalho em 0038 Com 003810 038 aumento significativo em termos de probabilidade 0 264 753 R 0154 0007 0006 0 039exp 0 038 586 0 2 n er edu y jx x1 10 ECONOMETRIA Figura 4 Relação estimada entre a probabilidade de estar na força de trabalho e anos de educação com outras variáveis explicativas fixas Probabilidade de Participação na Força de Trabalho 05 0 0146 inclinação 0038 384 educ ECONOMETRIA O exemplo mostra que é relativamente fácil interpretar o MPL mas também destaca deficiências 1 É fácil verificar que se agregarmos certas combinações de valores dos regressores em 18 podemos obter previsões menores que 0 ou maiores que 1 Como estamos falando de probabilidade previstae devendo a probabilidade estar e isso pode ser um pouco complicado Dado que probabilidades previstas fora do intervalo da unidade são pouco problemáticas quando queremos fazer previsões 1 0 P y ECONOMETRIA 2 Devido a natureza binária de y o MPL infringe a hipótese de variância homocedastica em GaussMarkov Quando y é binária a 19 Onde probabilidade de sucesso y x var P x P x y x 1 var kxk x P x 1 1 0 ECONOMETRIA Isso significa que com exceção do caso em que a probabilidade não depende de qualquer dos regressores deve haver heterocedasticidade no modelo MPL sabemos que isso não causa viés no estimadores MQO de Entretanto cabemos também que a homocedasticidade é crucial para justificar as estatísticas t e F habituais mesmo em grandes amostras Mesmo com esses problemas o MPL é útil e frequentemente aplicado em economia Normalmente ele funciona bem com valores das variáveis independentes que estejam próximas das médias da amostra j UNIVERSIDADE FEDERAL RURAL DO RIO DE JANEIRO MATHEUS LOURENÇO PEREIRA DOS SANTOS LÊNYM DE ALMEIDA AMORIM PIRES ÉRICA MARTINS BORGES AVALIAÇÃO II ECONOMETRIA RIO DE JANEIRO 2024 Sumário 1 Introdução3 2 Parte 1 Variáveis Dummy3 21 Variáveis do Modelo4 211 Variável Dependente4 212 Variáveis Independentes4 22 Roteiro de Aplicação no Python5 221 Modelo Proposto6 222 Análise Residual7 3 Parte 2 Análise de Multicolineariedade9 31 Matriz de Correlação10 Referencias12 1 Introdução Este relatório se divide em duas partes que exploram diferentes aspectos de um modelo de regressão múltipla aplicado ao estudo dos salários anos de educação e gênero e à análise da multicolinearidade entre variáveis macroeconômicas como PIB Selic e Renda de Reservas Na primeira parte examinamos como a variável dummy representando o gênero interage com anos de educação para explicar as variações salariais Através de testes estatísticos e gráficos discutimos a significância das variáveis no modelo e os pressupostos de normalidade e independência dos resíduos Na segunda parte focamos na análise da multicolinearidade utilizando o VIF Variance Inflation Factor para identificar a presença de correlações entre as variáveis independentes do modelo do relatório 1 bem como as correlações observadas entre PIB Selic e Renda de Reservas Os resultados e saídas foram todos encontrados através do software Python e os pacotes utilizados foram 2 Parte 1 Variáveis Dummy Uma variável dummy ou variável indicadora é uma variável binária utilizada em modelos estatísticos para representar categorias qualitativas ou informações de natureza categórica Em essência ela assume valores de 0 e 1 para indicar a presença ou ausência de uma característica específica Essa técnica permite que informações qualitativas sejam incorporadas em modelos de regressão e outras análises quantitativas facilitando a interpretação do impacto de características não numéricas Segundo Gujarati e Porter 2011 uma variável dummy é usada para distinguir qualitativamente entre diferentes grupos ou categorias dentro do conjunto de dados sendo uma ferramenta essencial para a análise de dados qualitativos Ela permite ao pesquisador captar variações sistemáticas associadas a fatores categóricos e medir o efeito médio dessas variáveis sobre a variável dependente No estudo usaremos como variável dummy o efeito de gênero nos salários uma variável dummy será usada para representar o gênero com 0 indicando homens e 1 indicando mulheres Esse tipo de variável é especialmente útil em econometria e outras áreas de pesquisa empírica pois permite a inclusão de atributos categóricos nos modelos o que melhora a precisão e a capacidade preditiva do modelo 21 Variáveis do Modelo Como estamos analisando o impacto dos anos de estudo e do gênero nos salários dos indivíduos O modelo de regressão proposto considera 211 Variável Dependente W wage que representa o salário do indivíduo do banco de dados 212 Variáveis Independentes A Representa o número de anos de estudo de cada indivíduo Essa variável quantifica o nível de escolaridade e captura seu efeito direto sobre o salário Dummy Uma variável dummy que indica o gênero do indivíduo onde Dummy0 para homens e Dummy1 para mulheres Interação A Dummy Uma variável de interação entre os anos de estudo A e a variável Dummy de gênero Essa interação permite que o modelo capture como o impacto dos anos de estudo sobre o salário pode diferir entre homens e mulheres 22 Roteiro de Aplicação no Python Importação dos dados Estatísticas descritivas das variáveis A análise descritiva mostra que para as 40 observações do conjunto de dados o salário médio W é de 791029 unidades monetárias com um desvio padrão alto 753863 um indicando grande variabilidade entre os salários O saláriomínimo é de 83722 um e o máximo 3046000 um sugerindo uma ampla faixa salarial Em relação aos anos de estudo A a média é de 1033 anos variando entre 1 e 17 anos com metade das observações entre 675 e 1425 anos de estudo A variável dummy de gênero tem média de 05 refletindo uma divisão equilibrada entre homens e mulheres no conjunto de dados Rodando o modelo através do Python 221 Modelo Proposto O modelo proposto ficou Saláriosi5461181293 42 Anosde Estudo si119830gênero117 03 Anosde estudosgêner oiϵ i De acordo com os coeficientes estimados no modelo temse que para cada aumento em um ano de estudo estimase um aumento médio de 129342 um no salário do indivíduo e temse também que os salários médios de mulheres são 119830 um maiores que dos homens E o coeficiente da interação ADummy de 11703 sugere que o efeito dos anos de estudo no salário é levemente menor para as mulheres em relação aos homens Como o pvalor da estatística F foi inferior a 005 ao nível de significância de 5 rejeitamos a hipótese nula de que o modelo não é significativo Isso indica que os anos de estudo e o gênero são fatores relevantes para explicar as variações nos salários Além disso o coeficiente de determinação R 2 de 0652 indica que 652 da variação dos salários é explicada pelo modelo proposto sugerindo um bom ajuste do modelo aos dados Ao analisar individualmente cada variável independente por meio do teste t que avalia a significância estatística de cada variável observamos que apenas os anos de estudo se mostraram estatisticamente significativos a um nível de 5 pvalor menor que 005 Em contrapartida a variável dummy que representa o gênero apresentou um pvalor superior a 005 indicando que não há evidências suficientes para afirmar que o gênero impacta significativamente o salário mesmo após controlar pelos anos de estudo 222 Análise Residual O gráfico de Resíduos versus Valores Ajustados revela que a maioria dos resíduos está próxima de zero embora haja uma observação que apresenta uma dispersão significativamente maior em comparação às demais Essa análise gráfica sugere que o modelo não atende ao pressuposto de independência com variância constante indicando a necessidade de reconsiderar a adequação do modelo para os dados O histograma dos resíduos indica que não se satisfaz o pressuposto de normalidade uma vez que os resíduos não seguem uma distribuição normal Essa observação sugere que o modelo pode não estar adequadamente especificado o que pode impactar a validade das inferências realizadas com base nos resultados da análise A análise do gráfico QQ plot revela que os pontos apresentam uma variação significativa em torno da linha reta indicando que os dados não seguem uma distribuição normal Essa dispersão sugere que as características da distribuição podem diferir das expectativas de normalidade possivelmente apresentando caudas mais pesadas ou mais leves Além disso a presença de desvios notáveis nos extremos do gráfico pode indicar a existência de outliers que podem impactar a validade das inferências estatísticas 3 Parte 2 Análise de Multicolineariedade Relembrando o modelo do relatório 1 A multicolinearidade referese à situação em que duas ou mais variáveis independentes em um modelo de regressão são altamente correlacionadas tornando difícil discernir o efeito individual de cada variável sobre a variável dependente Quando a multicolinearidade está presente os coeficientes estimados podem se tornar instáveis e imprecisos levando a uma maior variabilidade nas estimativas e dificultando a interpretação dos resultados Isso ocorre porque a alta correlação entre as variáveis independentes pode resultar em pvalores elevados mesmo para variáveis que individualmente poderiam ser significativas A detecção da multicolinearidade é importante pois a sua presença pode comprometer a validade dos testes estatísticos realizados e a confiabilidade das previsões do modelo Uma das formas comuns de detectar a multicolinearidade é através do cálculo do VIF Variance Inflation Factor que quantifica quanto a variância de um coeficiente de regressão é inflacionada devido à colinearidade com outras variáveis independentes De acordo com OBrien 2007 valores de VIF superiores a 10 são frequentemente considerados indicativos de multicolinearidade severa exigindo a consideração de ajustes no modelo Calculando o VIF Para as variáveis independentes o VIF da variável PIB é de 155 o da Selic é de 104 e o da Renda de reservas é de 159 Todos esses valores estão bem abaixo do limite comumente aceito de 10 o que indica que não há evidências de multicolinearidade severa entre essas variáveis Essa constatação sugere que cada uma das variáveis independentes pode estar contribuindo de maneira independente para a explicação da variação da variável dependente Assim podemos inferir que o modelo possui uma estrutura adequada permitindo interpretações confiáveis dos coeficientes estimados e evitando problemas associados à multicolinearidade como a instabilidade dos coeficientes e a dificuldade em identificar a importância relativa das variáveis explicativas 31 Matriz de Correlação A análise das correlações entre as variáveis PIB Selic e Renda de Reservas revela padrões interessantes nas interações econômicas A correlação entre PIB e Selic é praticamente nula com um coeficiente de 001 sugerindo que as variações na taxa de juros não têm um impacto significativo no crescimento econômico medido pelo PIB Em contraste a relação entre PIB e Renda de Reservas apresenta um coeficiente de 059 indicando uma correlação positiva moderada isso sugere que o aumento do PIB pode estar associado ao crescimento das Rendas de Reservas refletindo um ciclo de crescimento econômico que favorece a acumulação de recursos financeiros Por fim a correlação entre Selic e Renda de Reservas é ligeiramente negativa com um coeficiente de 016 o que indica uma interação fraca sugerindo que as mudanças na taxa de juros não impactam significativamente a Renda de Reservas Esses achados fornecem uma base para compreender a dinâmica entre esses indicadores e suas implicações para a formulação de políticas econômicas Referencias Gujarati D N Porter D C 2011 Econometria Básica 5ª ed AMGH Editora OBrien R M 2007 A Caution Regarding Rules of Thumb for Variance Inflation Factors Quality Quantity 415 673690