·

Ciências Econômicas ·

Econometria

Envie sua pergunta para a IA e receba a resposta na hora

Fazer Pergunta

Texto de pré-visualização

Viés Leitura Wooldridge 2018 Seção 33 93 Hill Griffiths Judge HGJ 2006 Seção 86 Gujarati 2006 133 Sartoris 2013 841 In a nutshell É mirar consistentemente para longe do alvo O que ocorre quando os erros não são aleatórios Mais do que isso quando os erros não são aleatórios e de alguma forma correlacionados com as variáveis exógenas incluídas no modelo estimado o que chamamos de endogeneidade Se os erros são aleatórios eles são independentes de quaisquer fenômenos conhecidos É uma questão muito central para a estimação de um bom modelo pois podemos incorrer em viés na estimação que fundamentalmente implica em errar o resultado que esperamos obter Às vezes podemos saber pelo menos a direção desse erro de forma que possamos ter um resultado que ainda seja útil A investigação desta violação é fundamentalmente empírica teórica ou ainda experimental Não existe teste formal para isso Valor esperado dos estimadores de MQO Sob as hipóteses RLM1 a RLM4 Para qualquer valor do parâmetro populacional 𝛽𝑗 Em outras palavras os estimadores de MQO são estimadores não viesados dos parâmetros da população Reforçando estamos dizendo que o procedimento pelo qual as estimativas de MQO foram obtidas é não viesado Esperamos que tenhamos obtido uma amostra que nos dê uma estimativa próxima do valor da população mas infelizmente isso não pode ser garantido 𝐸 መ𝛽𝑗 𝛽𝑗 𝑗 0 1 𝑘 PORTANTO A violação das hipóteses RLM1 à RLM3 na aplicação amostral nos traz estimadores viesados Fundamentalmente qual é o problema O uso descuidado de um MQO pode nos levar a conclusões bastante equivocadas Não entendeu ainda a gravidade Vejamos imaginese na situação de ter que fazer um estudo para uma tomada de decisão e acontecem as seguintes situações Você fez um estudo que estimou que um aumento de 10 no preço do produto levaria a um decréscimo de 5 na demanda mas ceteris paribus o que se verificou foi um decréscimo de 20 na demanda O modelo do Banco Central previa que uma redução de 025 p na taxa básica de juros poderia aumentar em 05 pp a inflação acumulada no ano mas ceteris paribus o aumento verificado foi de 15 pp Um modelo de prevenção ao crime dizia que aumentar em 20 o efetivo policial diminuiria 50 os roubos Um prefeito seguiu o modelo aumentou a despesa pública e ceteris paribus não houve redução nenhuma dos índices de roubos Fundamentalmente qual é o problema Podemos concordar que seriam situações com implicações graves certo Ninguém vai querer ser o economista que cometeu tais equívocos Ok que os exemplos são um pouco exagerados estamos supondo ceteris paribus o que nem sempre se verifica mas a questão é que a sempre podemos incorrer em erro ao nos propormos a estimar alguma coisa Lembrando que estimar no contexto econométrico significa fazer uma afirmação a partir de alguma hipótese Não queremos estar errados em nossas afirmações nem na magnitude e muito menos no sentido da afirmação falar que vai acontecer uma coisa e na realidade acontecer o contrário 𝐸 𝑢 𝑋 0 Endogeneidade Ou seja se 𝐸 𝑢 𝑋 0 dizemos que temos variáveis explicativas exógenas Os termos exógena e endógena originaramse da análise de equações simultâneas mas o significado do termo variável explicativa endógena evoluiu para incluir qualquer caso em que uma variável explicativa pode estar correlacionada com o termo de erro Como aparece no contexto amostral Dizer que o erro é independente das variáveis exógenas significa que eles não têm nenhuma relação entre si Note que isso é mais forte do que dizer que eles não têm uma relação linear entre si A relação pode ser quadrática exponencial etc Mas trabalhando no contexto do modelo de regressão linear é razoavelmente suficiente saber que eles não possuem uma relação linear ou seja que a 𝑐𝑜𝑣 𝑥 𝑒 𝑐𝑜𝑟𝑟 𝑥 𝑒 0 𝑐𝑜𝑣 𝑒 𝑥 𝑖1 𝑛 𝑒𝑥 0 𝑐𝑜𝑚 𝑥 𝑋𝑖 ത𝑋 Diferentes tipos de viés Em cada fonte de possível viés na sua estimação esse viés se expressa de uma forma diferente Nessa aula vamos ver em profundidade a expressão do viés no caso da omissão de uma variável relevante Apresentarei também alguns exemplos e questões que envolvem outras fontes possíveis de viés O caso de problemas na especificação do modelo será tratado em profundidade na aula que vem Tipos de viés Omissão de variável relevante Uso de variável proxy Erro de medida Viés de autoseleção amostra não aleatória Erro de especificação Causalidade reversa Viés de variável omitida Problema de má especificação do modelo Em que circunstância não incluiríamos uma varável relevante no modelo No caso dela não estar disponível ou ser uma variável não observável pelo pesquisador Exemplo de variável não observável aquelas relacionadas ao comportamento de um indivíduo como otimismo persistência habilidades resiliência etc Tudo de relevante que não for incluído no modelo vai parar no resíduo Nossos estimadores podem estar sendo enganosos e estarem captando para uma variável uma relação com Y que não é exatamente dela Exemplo DEMONSTRAÇÃO Demonstração Primeiro precisamos mostrar que válidos os pressupostos do Teorema de Gauss Markov o estimador de MQO é não viesado Depois vamos mostrar que no caso da violação da hipótese de inclusão de todas as variáveis relevantes o estimador passa a ser viesado Nosso desafio mostrar que Eβ β na prumos das hipótens do Teorema de Gauss Markov Sabemos que β xy x² com x xi x y yi y Propriedade xi x yi y xi x yi xi yi y Propiedad Σ XiXYiYΣXiXYi Σ Xi YiY confir a ver mismo simu lando números no Excel Propiedad Σ XiXYiYΣXiXYi Σ Xi YiY confir a ver mismo simu lando números no Excel Logo Σ XiXXiXΣXiXXiΣXiX²ΣX² Sabemos que ˆβΣ XY com xXiX yYiY Logo utilizando a propiedad ˆβΣ XYΣX² Sabemos que β Σxy Σx² com x x y y Logo utilizando a propriedade β Σy Σx² vamos substituir pela definição do MRL y α βx Ε β Σxy Σx² Σxα βx ε Σx² Fazendo a distributiva e aplicando as propriedades do somatório temos β αΣx βΣxX ΣxE Σx² extVeamos hatbeta alpha Sigma x beta Sigma x X Sigma x epsilon div Sigma x2 extVeamos hatbeta alpha Sigma x beta Sigma x X Sigma x epsilon div Sigma x2 ext O 0 ext por definir extVeamos hatbeta alpha Sigma x beta Sigma x X Sigma x epsilon div Sigma x2 ext O 0 ext por definir ext x2 ext pela propriedade Vejamos Logo β ΣxεΣx² note portanto que o β estimado por MQO corresponde aos verdadei ro β do MRL teórico um outro componente Mas reja que xɛ xi xɛi ɛ β β xɛ x² β β Σxε Σx² Logo Σxε covxε Que pelo Teorema de gaussMarkov deve ser O Portanto β β Σxε Σx² Eβ Eβ Σxε Σx² Eβ Eβ EΣxε Σx² Portanto β β Σxε Σx² Eβ Eβ Σxε Σx² Eβ Eβ EΣxε Σx² Portanto E β β Agora suponha que o verdadeiro modelo seja dado por Y β0 β1X1 β2X2 u Agora Suponha que o verdadeiro modelo seja dado por Y β₀ β₁X₁ β₂X₂ u mas não temos dados p X₂ de forma que estimamos ŷ β₀ β₁X₁ v Y β₀ β₁X₁ β₂X₂ u ŷ β₀ β₁X₁ v Portanto v β₂X₂ u y β₀ β₁X₁ β₂X₂ u X₂ 𝓓₀ 𝓭₁X₁ e X₂ 𝓓₀ 𝓭₁X₁ e covX₁ X₂ varX₁ 𝑋₂ 𝑈₀ 𝑈₁𝑋₁ 𝑒 Agora se o modelo verdadeiro era dado por Y β₀ β₁X₁ β₂X₂ u logo 𝑋₂ 𝛿₀ 𝛿₁𝑋₁ 𝑒 Ora se o modelo verdadeiro era dado por 𝑌 𝛽₀ 𝛽₁𝑋₁ 𝛽₂𝑋₂ 𝑢 logo 𝑌 𝛽₀ 𝛽₁𝑋₁ 𝛽₂𝛿₀ 𝛿₁𝑋₁ 𝑒 𝑢 Y β₀ β₁X₁ β₂𝑈₀ 𝑈₁X₁ 𝑒 u Vamos comparar 𝑌 𝛽₀ 𝛽₁𝑋₁ 𝛽₂𝛿₀ 𝛿₁𝑋₁ 𝑒 𝑢 Vamos comparar 𝑌 𝛽₀ 𝛽₁𝑋₁ 𝛽₂𝛿₀ 𝛿₁𝑋₁ 𝑒 𝑢 módulo verdadeiro γ β₀ β₁X₁ β₂δ₀ δ₁X₁ e u γ β₀ β₁X₁ υ Vamos comparar y β₀ β₁X₁ β₂δ₀ γ₁X₁ e u ȳ β₀ β₁X₁ υ Vamos comparar Vamos comparar Y β₀ β₁X₁ β₂δ₀ J₁X₁ e u Y β₀ β₁X₁ υ Vamos comparar Y β0 β1X1 β2 δ0 J1X1 e u Y β0 β1X1 β2δ0 β2J1X1 β2e u Y β0 β2δ0 β1 β2J1X1 β2e u Vamos comparar Ŷ β0 β1X1 u Y β₀ β₁X₁ β₂δ₀ J₁X₁ e u Logo Y β₀ β₁X₁ β₂δ₀ β₂J₁X₁ β₂e u β₁ β₁ β₂δ₁ Portanto Logo β₁ β₁ β₂δ₁ Por tanto Eβ₁ Eβ₁ Eβ₂δ₁ β₁ β₂δ₁ Viés de variárel omitida Eβ₁ β₁ β₂J₁ mas vejamos Eβ₁ β₁ β₂J₁ mas vejamos se β₂ 0 ou seja se X₂ não explica y β₁ não é viesado variável N relevante Eβ₁ β₁ β₂J₁ Eβ₁β₁β₂J₁ mas vejamos Eβ₁β₁β₂J₁ mas vejamos se β₂0 ou seja se X₂ não explica y β₁ não é viesado variável NÃO relevante se J₁0 ou seja X₁ e X₂ forem não relacionados na amostra β₁ é NÃO viesado não vida EμX0 Direção do viés A direção do viés em ෨𝛽1 depende do sinal de 𝛽2 ou seja da relação de 𝑋2 com Y e do 𝛿1 ou seja da relação do 𝑋2 com 𝑋1 Resumo do viés em ෩𝜷𝟏 quando 𝑿𝟐 é omitido na equação verdadeira 𝜹𝟏 𝟎 𝜹𝟏 𝟎 𝜷𝟐 𝟎 𝜷𝟐 𝟎 𝐸 ෨𝛽1 𝛽1 𝛽2𝛿1 Direção do viés A direção do viés em ෨𝛽1 depende do sinal de 𝛽2 ou seja da relação de 𝑋2 com Y e do 𝛿1 ou seja da relação do 𝑋2 com 𝑋1 Resumo do viés em ෩𝜷𝟏 quando 𝑿𝟐 é omitido na equação verdadeira 𝜹𝟏 𝟎 𝜹𝟏 𝟎 𝜷𝟐 𝟎 positivo Negativo 𝜷𝟐 𝟎 𝐸 ෨𝛽1 𝛽1 𝛽2𝛿1 Direção do viés A direção do viés em ෨𝛽1 depende do sinal de 𝛽2 ou seja da relação de 𝑋2 com Y e do 𝛿1 ou seja da relação do 𝑋2 com 𝑋1 Resumo do viés em ෩𝜷𝟏 quando 𝑿𝟐 é omitido na equação verdadeira 𝜹𝟏 𝟎 𝜹𝟏 𝟎 𝜷𝟐 𝟎 positivo Negativo 𝜷𝟐 𝟎 negativo positivo 𝐸 ෨𝛽1 𝛽1 𝛽2𝛿1 Exemplo Var Dependente Renda Mensal em R Sinais Esperados β₂ 0 σ₁ 0 Direção viés 0 Logo β₁ β₁ β₂σ₁ β₁ β₁ Var Dependente Renda Mensal em R 1 X1 Não Branco 43563 6871 X2 Anos de Escolaridade 9486 0754 X3 Dia do mês de nascimento 1 a 31 Coeficiente de Intercepto 98372 4965 Tamanho da amostra 165650 RQuadrado 0024 Var Dependente Renda Mensal em R 1 X1 Não Branco 43563 6871 X2 Anos de Escolaridade 9486 0754 Coeficiente de Intercepto 98372 4965 Tamanho da amostra 165650 RQuadrado 0024 247 435 β₂ 0 Exemplo Var Dependente Renda Mensal em R Exemplo Então o que fazer Devemos estar sempre cientes que podemos estar incorrendo em um viés de variável omitida por pura ignorância de nossa parte em relação a estarmos lidando com coisas ainda desconhecidas pelos estudiosos e pela humanidade de forma geral Acrescentar toda e qualquer variável não é o jeito certo de lidar Variáveis que sejam potencialmente redundantes dentro de uma regressão não precisam ser incluídas sobretudo se o papel delas for de controle Procuramos sempre o modelo mais parcimonioso possível Existem metodologias mais avançadas para lidar com situações de endogeneidade de forma geral modelos em painel variáveis instrumentais entre outros Tipos de viés Omissão de variável relevante Uso de variável proxy Erro de medida Viés de autoseleção amostra não aleatória Erro de especificação Causalidade reversa Exemplo retirado de Angrist Pischke 2008 Objetivo investigar a efetividade do sistema hospitalar Contexto população pobre e idosa que utiliza o pronto socorro para cuidados que deveriam ser primários Hipótese de que muitos pacientes são atendidos e liberados sem receber o devido cuidado Logo somente parte dos pacientes que procuram o sistema de saúde receberiam atendimento adequado many valuable services com exames complementares internação etc Exemplo Pessoa doente Vai ao hospital Atendida e liberada Admitida para exames observação internação Não vai ao hospital Considerando nossa hipótese qual dos dois grupos você diria que se considera com a melhor saúde Exemplo O NHIS UK pergunta a todas as pessoas que vão ao hospital i você foi admitido no hospital no mínimo por uma noite nos últimos 12 meses ii você diria que sua saúde é péssima ruim boa muito boa ou excelente de 1 a 5 Diferença estatisticamente significante Exemplo O que você acha que explica esses resultados a Ser hospitalizada faz as pessoas ficarem mais doentes convivência com outros doentes local potencialmente contagioso b As pessoas que foram hospitalizadas já possuem uma saúde pior ainda que possam ter melhorado no decorrer da hospitalização Viés de seleção Nesse caso comparar as médias entre hospitalizados e não hospitalizados não resolve a questão original Estado de saúde pior para hospitalizados é viés de seleção Como conseguiríamos responder efetivamente essa questão Amostra aleatória Experimentos aleatórios intencionais ou naturais EXERCÍCIOS Wooldridge 38 A equação seguinte descreve o preço price médio das residências de uma comunidade em termos da quantidade de poluição nox de óxido nitroso e do número médio de cômodos nas residências da comunidade rooms logprice β0 β1lognox β2rooms u i Quais são os prováveis sinais de β1 e β2 Qual é a interpretação de β1 Explique ii Por que nox ou mais precisamente lognox e rooms deveriam ser negativamente correlacionados Se esse é o caso a regressão simples de logprice sobre lognox produz um estimador viesado para cima ou para baixo de β1 iii Utilizando os dados do arquivo HPRICE2 foram estimadas as seguintes equações logprice 1171 1043 lognox n 506 R² 0264 logprice 923 0718 lognox 0306 rooms n 506 R² 0514 A relação entre as estimativas da elasticidade de price das regressões simples e múltipla em relação a nox é a que você previu tomando como base sua resposta no item ii Podese dizer que 0718 está claramente mais próximo da elasticidade verdadeira que 1043 Use os dados do arquivo DISCRIM para responder a essa questão São dados sobre preços de vários itens em restaurantes de fast food e características da população dividida por CEP em Nova Jersey e Pensilvânia A ideia é ver se os restaurantes cobram preços mais altos em áreas com uma maior concentração de negros i Encontre os valores médios da proporção de negros prpblck e renda income na amostra além de seus desvios padrão Quais são as unidades de medida de prpblck e income ii Considere um modelo para explicar o preço do refrigerante psoda em termos de proporção da população que é negra e renda mediana psoda β0 β1prpblck β2income u Estime o modelo por MQO e registre os resultados em forma de equação incluindo o tamanho da amostra e o Rquadrado Não use notação científica ao relatar as estimativas Interprete o coeficiente sobre prpblck Você acha que ele é economicamente grande iii Compare a estimativa do item ii com a estimativa de regressão simples de psoda sobre prpblck O efeito de discriminação é maior ou menor quando se controla a renda