·
Ciências Econômicas ·
Econometria
Send your question to AI and receive an answer instantly
Recommended for you
23
Econometria - Teoria da Correlacao e Regressao Linear Simples
Econometria
FMU
28
Econometria - Estimacao de Parametros e Analise de Variancia
Econometria
FMU
23
Econometria-Unidade-1-Modelo-Econometrico-Conceitos-e-Analise
Econometria
FMU
1
Prova Econometria - Análise de Regressão e Influência dos Investimentos no PIB
Econometria
ITE
7
Resolução de Prova já Realizada para Revisao
Econometria
UFPR
1
Construção de Intervalos de Confiança para Médias Populacionais
Econometria
UNITAU
12
Relatório de Análise e Modelagem de Variável: Exportações do Brasil
Econometria
PUC
4
Propriedades dos Estimadores de Mínimos Quadrados 2022-1
Econometria
UFF
1
Questões - Econometria - 2023-1
Econometria
UFF
1
Gauss-Markov - Identificacao de Violacao das Hipoteses de Variancia Constante e Nao Correlacao
Econometria
PUC
Preview text
1 ECONOMETRIA UNIDADE 4 COEFICIENTES DE DETERMINAÇÃO E TESTE DE SIGNIFICÂNCIA Autoria José Tadeu de Almeida Revisão técnica Jorge Lisandro Maia Ussan 2 Introdução Prezadoa estudante nesta unidade você terá a oportunidade de consolidar conceitos importantes relativos à regressão linear Como se sabe há uma série de procedimentos que articulam a criação de modelos econométricos destinados a avaliar a associação existente entre variáveis dependentes e independentes No entanto é possível aprofundar essa análise A construção de retas de regressão e linhas de tendência é importante para observar a evolução de um modelo econométrico mas podemos fazer ainda outros questionamentos de modo a conhecer mais sobre o tema Assim será que é possível observar se o modelo é realmente eficiente para explicar as relações de variação entre os dados colhidos em um conjunto amostral Como medir essa eficiência Há modelos que são mais ou menos eficientes e adequados que outros Para responder a esses questionamentos e entender essas relações você conheceu algumas ferramentas relevantes como os testes de significância e a tabela ANOVA construída a partir de métodos de análise de variância Agora iremos reforçar o estudo dessas associações de determinação de variabilidade por meio de um coeficiente que associa somatórios de elementos reais e estimados no modelo de regressão Para atender aos nossos objetivos nesta unidade utilizaremos principalmente o coeficiente de determinação também conhecido como Rquadrado e o coeficiente Rquadrado ajustado Desse modo além de relembrarmos outros conceitos relativos à econometria introduziremos uma temática cuja aplicação é essencialmente prática podendo ser utilizada inclusive para a construção de modelos econométricos explicativos e eficientes em sua vida profissional Bons estudos 41 Coeficiente de determinação Para medir uma associação entre variáveis é possível recorrer a medidas de regressão que permitem verificar a influência entre elas em um modelo Sabendo disso ao longo desta seção analisaremos o coeficiente de determinação igualmente denominado como e o coeficiente de determinação ajustado Como veremos o demonstra o grau de determinação isto é a proporção na qual a coeficiente de determinação variabilidade da variável independente é capaz de determinar a variabilidade da variável dependente Em outros termos o coeficiente demonstra se a variabilidade entre variáveis é forte o suficiente para mostrar que a variável dependente é realmente determinada e influenciada pelo conjunto de dados ligados às variáveis independentes HOFFMANN 2016 411 Resíduos e erros amostrais A elaboração do coeficiente de determinação demanda retomarmos o conceito de associado a uma resíduo variável que é um desvio ou erro em relação a um valor esperado MAIA 2017 Assim o valor real de pode ser entendido como a soma entre o resíduo e o valor esperadoestimado Y Consequentemente ao subtrair a média nos dois lados da equação e transformar por observase o seguinte Logo se e temse que Ao elevar essa equação ao quadrado lembrandose do conceito do quadrado da soma de dois termos temse o seguinte 3 quadrado lembrandose do conceito do quadrado da soma de dois termos temse o seguinte Se a soma dos resíduos é igual a zero logo a somatória do produto também é igual a zero Portanto Por meio dessa equação é possível perceber uma associação ou relação entre os valores reais e previstos bem como os resíduos gerados pela diferença entre essas variáveis HOFFMANN 2016 A variabilidade dos elementos ao redor da média cuja somatória é expressa por pode ser compreendida por duas razões A primeira delas é atribuída à própria regressão que fornece apenas os valores estimados de expressos por A segunda razão é dada pelos resíduos cuja origem é alheia à existência do modelo ou seja na existência de uma diferença entre os valores reais e um valor estimado há uma parte que não é captada pelo modelo e que pode ser atribuída a fatores externos Desse modo o coeficiente de determinação apresenta a proporção da variabilidade do conjunto de valores estimados que é efetivamente explicada determinada pela regressão Esse coeficiente é apresentado da seguinte forma MAIA 2017 Nesse caso SQReg corresponde à soma dos quadrados da regressão isto é dos valores estimados e SQTotal corresponde à soma dos quadrados dos valores de O coeficiente tem valores determinados pelo intervalo 01 de modo que à medida que o coeficiente aumenta e se torna próximo de 1 mais efetiva é a regressão para explicar a variabilidade da variável dependente tornando os valores reais bastante próximos dos valores estimados MAIA 2017 Você quer ver O vídeo Econometria conceitos e aplicações Capítulo 7 Análise de variância produzido pelo professor Alexandre Gori Maia da Universidade Estadual de Campinas Unicamp apresenta de forma bastante completa os conceitos de análise de variância e a discussão relacionada ao coeficiente de determinação Acesse Caso Utilizando um modelo que gerou a regressão com média podese obter o seu coeficiente de determinação de acordo com o quadro a seguir 4 No exemplo apresentado você pôde observar graficamente a intensa associação entre valores reais e esperados Há no entanto situações em que essa associação é mais fraca demandando a elaboração do coeficiente de determinação para ter uma estimação mais precisa da eficiência do modelo de regressão MAIA 2017 Efetivamente se o coeficiente estiver próximo de zero maior será a independência linear entre as variáveis como se observa na figura a seguir Figura 1 Escala para o coeficiente de determinação Fonte Elaborado pelo autor 2021 PraCegoVer o quadro apresenta os dados relativos às variáveis e relacionadas a um modelo de X Y regressão e os valores estimados juntamente com os erros amostrais e os quadrados da regressão Logo temse o seguinte coeficiente de determinação Ou seja o modelo de regressão é capaz de explicar em 976 a variação da variável dependente Y 5 Figura 1 Escala para o coeficiente de determinação Fonte Elaborada pelo autor baseada em MAIA 2017 PraCegoVer a figura apresenta uma barra com tons progressivos de branco a preto destacando que à medida que a barra se torna mais escura mais forte é o coeficiente de determinação Assim à esquerda associado à cor branca está o número 0 abaixo do qual aparece a expressão Independência linear À direita no outro extremo da figura está o número 1 associado à cor preta Abaixo desse número está a expressão Relação linear exata Tal situação se observa na série de dados a seguir gerada a partir do modelo cuja média é igual a 5 Quadro 1 Elaboração do coeficiente Fonte Elaborado pelo autor 2021 PraCegoVer o quadro composto por cinco colunas apresenta uma série de dados relacionada aos valores reais e estimados da variável independente e da variável dependente na primeira e na segunda colunas bem X Y como os valores estimados de na terceira coluna e as duas somas de quadrados da regressão e total na quarta Y e na quinta colunas O coeficiente de determinação nesse caso é igual a Ou seja esse modelo explica em 736 a partir do conjunto de dados da regressão a variabilidade da variável dependente de acordo com o que se observa no gráfico a seguir Y 6 Figura 2 Valores reais e estimados em uma regressão Fonte Elaborada pelo autor 2021 PraCegoVer o gráfico apresenta o conjunto de dados relativos ao quadro anterior demonstrando que os valores reais de estão dispersos enquanto os valores estimados de estão em uma reta de regressão Y Y Por fim é importante enfatizar que um coeficiente baixo embora indique menor dependência linear entre variáveis não implica necessariamente que o modelo seja ruim isto é que o ajuste criado pela regressão seja insatisfatório Na verdade algumas variáveis podem ser mais difíceis de serem compreendidas em todas as suas características o que dificulta a criação de um modelo fortemente explicativo MAIA 2017 Por exemplo os preços dos aluguéis em uma cidade não dependem somente do valor do metro quadrado em um bairro mas também do nível de renda da população local das condições econômicas do entorno da localização das condições dos imóveis da limpeza urbana entre outros fatores Assim mesmo que um modelo tenha uma contribuição baixa em relação a uma regressão ele poderá oferecer informações interessantes e importantes ao pesquisador 412 Coeficiente de determinação ajustado Ao criar um modelo de regressão nem sempre uma única variável independente é uma condição suficiente para explicar plenamente uma variação da variável dependente Assim é necessário incluir outros fatores Y explicativos nesse modelo na forma de variáveis que acabam por transformar a relação linear simples em um modelo de regressão múltipla 7 Desse modo à medida que novas variáveis são agregadas ao modelo de regressão esperase que a capacidade explicativa do modelo se torne maior elevando consequentemente o valor absoluto do coeficiente de determinação No limite mesmo que a inclusão da variável não auxilie em nada para a explicação da variabilidade do modelo também não irá atrapalhar de modo que o coeficiente manteria o mesmo valor se a variável fosse inócua para o modelo WOOLDRIDGE 2017 Sabendo disso observe a figura a seguir Figura 3 Relação de independência entre duas variáveis Fonte Elaborada pelo autor baseada em MAIA 2017 PraCegoVer a figura apresenta três círculos que têm pontos de interseção entre si Essas áreas de interseção representam os valores de que são explicados pela variação das variáveis independentes e Y Na figura analisase um modelo econométrico baseado em duas variáveis independentes e uma variável dependente da seguinte forma GUJARATI 2011 Nesse caso o coeficiente de determinação é estruturado a partir dos valores das variáveis e como uma razão entre a soma dos quadrados da regressão e a soma dos quadrados totais É possível ainda incluir mais uma variável explicativa nesse modelo gerando uma regressão com três variáveis independentes Nesse caso a variável pode ser explicativa sendo que parte dos quadrados da regressão é explicada por essa variável ou a variável pode ser inócua de modo que o efeito em é igual a zero Observe Você sabia Na vida real os processos de regressão linear simples são quase inexistentes Isso porque em geral um fenômeno estatístico é dependente de uma série de variáveis o desemprego por exemplo depende da inflação da queda nos salários da violência urbana etc de modo que essas relações devem ser sempre que possível observadas por meio de uma regressão múltipla Nesta disciplina focamos a regressão simples para facilitar a compreensão dos temas apresentados 8 explicada por essa variável ou a variável pode ser inócua de modo que o efeito em é igual a zero Observe então a figura a seguir Figura 4 Relações de regressão com três variáveis independentes Fonte Elaborada pelo autor baseada em MAIA 2017 PraCegoVer a figura apresenta dois conjuntos de círculos No conjunto da esquerda há três variáveis de que X explicam a variável dependente No conjunto da direita a variável está isolada demonstrando que ela não Y explica a variação de Y No conjunto à esquerda a variável apresenta alguma contribuição explicativa ao modelo Desse modo o valor de incorporando as três variáveis será maior do que o valor de Algebricamente temse nesse caso que MAIA 2017 No conjunto da direita a variável é completamente inócua isto é não contribui em nada para explicar a variação de Nessas circunstâncias temse a seguinte igualdade Y É possível portanto verificar que o coeficiente não diminui mesmo ao serem incorporadas variáveis independentes extras no modelo Se elas forem inócuas o efeito em será nulo e se forem explicativas a variação de será sempre positiva para a determinação do modelo Desse modo é importante realizar uma correção do coeficiente de determinação de modo a ponderálo pelo número de variáveis efetivamente explicativas que geram assim o número de graus de liberdade da k regressão e pelo número de observações do conjunto amostral Assim é criado o coeficiente de n determinação ajustado cuja notação é dada por da seguinte forma MAIA 2017 Você sabia É importante delimitar o significado das expressões A variável não contribui para a explicação do modelo no entanto ela não é exógena As variáveis exógenas explicam a variação dos dados mas não estão incluídas no modelo de regressão Não é o que ocorre com a variável 9 A partir do cálculo do coeficiente ajustado é possível depreender três propriedades destacadas a seguir Primeira propriedade Se não há outras variáveis explicativas influenciando o modelo desse modo k 1 Segunda propriedade Para todo k 1 sendo um número natural haverá uma tendência de diluição do coeficiente ajustado k de modo que Terceira propriedade Como efeito da segunda propriedade o valor de pode ser negativo O coeficiente de determinação ajustado deve portanto ser manipulado de modo que a inclusão de novas variáveis explicativas somente ocorra se a estatística de Student relacionada a essas variáveis apresentar um t valor absoluto superior a 1 Consequentemente na hipótese de incluir um conjunto de variáveis com o j j 1 valor de irá aumentar somente se a estatística associada a esse conjunto tiver um valor absoluto maior que 1 F MAIA 2017 A partir de agora veremos um exemplo para facilitar a discussão e a compreensão sobre os conceitos aqui trabalhados Considere assim o conjunto de dados apresentado no quadro a seguir Você quer ler O artigo de Maria Luiza de Lima 2005 denominado Análise espacial dos et al determinantes socioeconômicos dos homicídios no estado de Pernambuco apresenta uma aplicação objetiva dos conceitos destacados nesta unidade Os autores explicam por meio de uma análise de variância a relação existente entre as variáveis analfabetismo e pobreza como fatores explicativos da variável taxa de homicídios destacando que o coeficiente de determinação ajustado para essa regressão é igual a 0246 Acesse 10 Quadro 2 Conjunto de dados amostrais Fonte Elaborado pelo autor 2021 PraCegoVer o quadro apresenta em quatro colunas um conjunto com dez pares ordenados relativos a uma variável independente e a uma variável dependente X Y De acordo com os dados apresentados a média de X é igual a 9 e a média de é igual a 10 A partir desses dados Y podemos calcular os coeficientes angular e linear com base nas informações dispostas a seguir Quadro 3 Dados amostrais para um modelo econométrico Fonte Elaborado pelo autor 2021 PraCegoVer o quadro composto por seis colunas complementa o conteúdo do quadro anterior apresentando os valores centrados das variáveis e os elementos necessários para a criação do coeficiente angular Assim na primeira e na segunda colunas respectivamente são destacados os pares ordenados relativos à variável 11 primeira e na segunda colunas respectivamente são destacados os pares ordenados relativos à variável independente e à variável dependente Na terceira na quarta na quinta e na sexta colunas são apresentados X Y os valores relativos a a a e a respectivamente Com base no conteúdo apresentado o coeficiente angular será expresso por Logo o coeficiente linear será dado por de modo que o modelo de regressão será apresentado da seguinte forma Podese assim estimar os valores esperados de e os Y elementos necessários para o cálculo do coeficiente de determinação O quadro a seguir apresenta esses valores Quadro 4 Elementos de cálculo do coeficiente de determinação Fonte Elaborado pelo autor 2021 PraCegoVer quadro composto por cinco colunas complementando os dois quadros anteriores e apresentando as somas dos quadrados necessárias para a elaboração do coeficiente de determinação Assim da primeira à última coluna são apresentados os valores relativos a a a a e a X Yest respectivamente Assim o coeficiente será expresso da seguinte forma O valor de permite observar que a relação de determinação é muito forte entre a variável dependente e a variável independente Dessa forma caso o pesquisador decida tentar aprimorar o modelo por meio da introdução de mais duas variáveis explicativas o coeficiente ajustado será igual a 12 Como se pode observar a inclusão de novas variáveis não é suficientemente efetiva para auxiliar na explicação da variabilidade de podendo até mesmo reduzir na verdade a eficiência explicativa do modelo Y Teste seus conhecimentos Atividade não pontuada A econometria é um ramo do conhecimento da área das ciências econômicas que enfoca a criação de estudos de caso de modo a avaliar as associações entre conjuntos de variáveis dependentes e independentes Sabendo disso considere a existência de um conjunto de dados formado a partir dos seguintes pares ordenados 68 X Y 87 99 911 1010 79 812 1115 1010 129 Tendo como base essas informações e seus estudos sobre o coeficiente de determinação analise as afirmativas a seguir e assinale V para as verdadeiras e F para as falsas I O coeficiente linear dessa reta de regressão é igual a 053 enquanto o coeficiente angular é igual a 523 II No momento em que a variável independente for igual a 15 o valor esperado de será igual a 1318 X Y III A variabilidade da variável independente é capaz de explicar a variação da variável dependente em 183 IV O valor do coeficiente de determinação relativo à reta de regressão criada pelos pares ordenados é igual a 0319 Agora assinale a alternativa que apresenta a sequência correta a F V V F b V F V F c V F F F d V F F V e F V F V Respostas corretas a F V V F O modelo de regressão formado por uma série de coeficientes angulares dependendo do perfil do modelo e por um coeficiente linear também deve ser avaliado sob outra premissa Assim embora até o momento tenhamos entendido a relação de determinação pelo coeficiente precisaremos avaliar agora se esses coeficientes que são essencialmente amostrais relativos a um conjunto finito de dados são representativos da população estatística Essa avaliação será realizada por meio dos testes de significância e do erropadrão no tópico a seguir 13 42 Erropadrão e testes de significância No momento em que se obtém a distribuição amostral de um estimador qualquer é possível calcular também a variância desse estimador Se a distribuição amostral exata não puder ser obtida utilizase uma aproximação de modo que a variância do estimador será correspondente à variância dessa aproximação Em outras palavras podese definir o como uma medida da variação de um estimador em relação erropadrão ao parâmetro Se esses indicadores remetem à média temse que o erropadrão da média por exemplo irá analisar a variação da média amostral tomada com base na média populacional BUSSAB MORETTIN 2017 Diante disso nesta seção veremos com mais atenção quais as chances de um pesquisador incorrer em erro ao afirmar que um estimador é eficiente e preciso para mensurar os valores esperados de um conjunto amostral Sempre que necessário iremos apresentar apenas as equações geradoras dos indicadores a fim de evitar uma demonstração algébrica mais prolongada e o uso de elementos de cálculo que transcendem a dinâmica desta disciplina 421 Erropadrão de um estimador Quando uma reta de regressão é traçada é demonstrada uma série de dados estimados de acordo com o modelo econométrico Assim a diferença entre dados reais e estimados incorre na existência de erros amostrais que têm entre si uma variância Essa variância de acordo com o seu conceito em estatística descritiva representa a ao quadrado do conjunto de erros ao redor da reta de regressão MAIA 2017 dispersão média Em geral a variância populacional é desconhecida de modo que é necessário obter o valor de um estimador dessa variância dos resíduos da amostra de acordo com a seguinte fórmula Vamos Praticar Há aproximadamente 7700 quilocalorias kcal em um quilo kg de gordura corporal Assim considere um modelo que relacione o volume de gordura em kg em função das variáveis consumo calórico diário e gasto calórico diário de um grupo com 31 pessoas Esse modelo deverá ter um valor alto igual a 095 por exemplo Ao incluir uma terceira variável como distúrbios metabólicos qual seria o valor do ajustado Conforme você verá após efetuar os cálculos a inserção de uma terceira variável em um modelo com 31 observações será dada por Desse modo observase que a inclusão de uma terceira variável às duas primeiras reduz marginalmente a eficácia explicativa do modelo 14 Nessa fórmula o denominador n 2 diz respeito ao número de graus de liberdade dos resíduos de modo que a raiz quadrada da variância da regressão expressa por é denominada permitindo erropadrão da regressão mensurar a dispersão média desses resíduos Para obter o valor do somatório é possível utilizar a seguinte fórmula As variâncias individuais relacionadas aos estimadores e do modelo de regressão e expressas respectivamente por e por representam as dispersões quadráticas médias dos estimadores em função do perfil aleatório da amostra Lembrando que a variância diz respeito aos valores esperados dos coeficientes ou seja à distância entre o valor real do coeficiente e seu valor estimado podese calcular a variância estimada do coeficiente linear O coeficiente angular estimado tem a variância disposta do seguinte modo Ao substituir a variância pelo seu valor esperado podese obter os estimadores da variância de cada coeficiente Os errospadrão dos estimadores são obtidos por meio da raiz quadrada das variâncias obtidas pelos estimadores mencionados Assim podese obter algumas propriedades relativas aos errospadrão A primeira propriedade considera que à medida que o erropadrão da regressão aumenta a estimativa dos parâmetros tornase menos precisa Assim se os valores observados ao redor da reta de regressão estiverem muito dispersos as estimativas de mínimos quadrados dos parâmetros também tenderão a se dispersar MAIA 2017 De acordo com a segunda propriedade por sua vez conforme a variabilidade observada dos valores de X aumenta a estimativa dos parâmetros tornase mais precisa Portanto uma dispersão baixa da variável independente demonstra que a amostra não tem uma grande amplitude tornando a estimação mais eficiente MAIA 2017 Finalmente uma última propriedade destaca que quanto maior o tamanho da amostra mais a variável independente apresentará variabilidade permitindo que as estimativas dos parâmetros tenham maior precisão MAIA 2017 422 Teste de significância para os parâmetros O teste de hipóteses relacionado aos coeficientes do modelo de regressão é usado para avaliar as evidências de que os coeficientes são diferentes de zero ou seja de que apresentam uma capacidade explicativa à variabilidade do modelo Desse modo as hipóteses são estruturadas como se segue MAIA 2017 Em relação ao coeficiente angular temos 15 Supondo que a hipótese nula é verdadeira as distribuições de probabilidade para os parâmetros devem seguir uma distribuição normal com média zero e variância igual à variância dos coeficientes estimados da seguinte forma e Para criar o teste basta seguir o protocolo comum à elaboração de um teste de hipótese 1 verificar a estimativa para a estatística de teste na amostra e 2 calcular o valorp ou seja a probabilidade de erro ao rejeitar a hipótese nula usando as estimativas amostrais de acordo com a distribuição de Student com n 2 graus de t liberdade Assim ao rejeitar a hipótese nula estamos afirmando que a estimativa do coeficiente é significativa Para o coeficiente linear demonstrase que a variável independente é significativa do ponto de vista estatístico apresentando relação linear importante com a variável dependente Y Vejamos um exemplo para facilitar a compreensão Para isso observe o quadro a seguir Quadro 5 Conjunto de dados amostrais X Y Fonte Elaborado pelo autor 2021 PraCegoVer quadro composto por quatro colunas destacando um conjunto de dez pares ordenados para X Y a criação de um modelo econométrico Resumidamente o modelo de regressão associado a esse conjunto de dados para uma média de igual a 5 e de X Y Você o conhece A distribuição de Student foi criada pelo pesquisador William Sealy Gosset 1876 t 1937 Esse estatístico trabalhava na cervejaria inglesa Guiness e criou essa distribuição para avaliar as proporções de cereais para a fabricação de cervejas Tanto por modéstia intelectual quanto para evitar o comprometimento da empresa em seus estudos Gosset usava o pseudônimo Student MOORE NOTZ FLIGNER 2017 16 Resumidamente o modelo de regressão associado a esse conjunto de dados para uma média de igual a 5 e de X Y igual a 5 é dado por Consequentemente teremos os valores estimados do modelo de regressão destacados no quadro a seguir Quadro 6 Cálculo dos erros amostrais Fonte Elaborado pelo autor 2021 PraCegoVer quadro composto por cinco colunas apresentando os dados amostrais para a criação do erro amostral e do quadrado dos resíduos Assim da primeira à quinta coluna constam os dados relativos a a a X Y a e a respectivamente Yest Erro Podese observar que o modelo tem boa aderência para explicar a variação dos dados de de acordo com o Y gráfico que se segue 17 Figura 5 Disposição de um modelo econométrico Fonte Elaborada pelo autor 2021 PraCegoVer o gráfico destaca os valores reais relacionados ao quadro anterior bem como os valores estimados em uma reta de regressão ligada ao modelo econométrico As estimativas da variância da regressão e de seu erropadrão são expressas da seguinte forma Consequentemente o erropadrão é igual a Esse resultado consiste na verdade em uma estimativa do erro médio para a previsão do modelo com valor igual a 1095 Na sequência é preciso estimar as variâncias dos coeficientes do modelo com o objetivo de verificar se há significância nos coeficientes linear e angular ou seja se esses coeficientes são diferentes de zero Assim esses valores serão obtidos especialmente a partir do somatório dos valores centrados ao quadrado de do seguinte X modo Obtidas as estimativas podese observar se elas são significativas por meio de um teste de hipóteses apropriado para os coeficientes relativos ao modelo Desse modo teremos A estatística de Student é dada por t Comparativamente à distribuição normal com 8 graus de liberdade o valorp associado ao coeficiente linear é 18 Comparativamente à distribuição normal com 8 graus de liberdade o valorp associado ao coeficiente linear é igual a aproximadamente 45 Isso significa que a probabilidade de erro ao afirmar que o ponto de intercepto da reta de regressão é diferente de zero é igual a 45 Dessa forma é possível afirmar com uma chance de erro baixa que o coeficiente linear é significativo Para o coeficiente angular temse o seguinte teste Elaborase desse modo a seguinte estatística de Student t O valorp associado a esse coeficiente é praticamente igual a zero de modo que ao afirmar que o coeficiente angular é diferente de zero ou seja que o valor de tem relação linear com o valor de a chance de erro é X Y praticamente nula 423 Intervalo de confiança para os coeficientes A elaboração de um intervalo de confiança permite apurar a um nível de confiança dado por um conjunto finito no qual em repetidas amostras de dimensão igual a esteja contido o parâmetro populacional real em n situações possíveis Sabendo que os estimadores de mínimos quadrados seguem uma distribuição normal seus intervalos de confiança relacionados aos parâmetros linear e angular serão expressos conforme apresentado na figura a seguir MAIA 2017 Figura 6 Intervalos de confiança de estimadores de coeficientes Fonte Elaborada pelo autor baseada em MAIA 2017 PraCegoVer na figura há dois conjuntos de dados relacionados a uma distribuição estatística normal Os gráficos mostram linhas que convergem a um ponto máximo e que depois declinam 19 Observe que os valores reais e não são conhecidos Nesse caso o uso dos estimadores amostrais e demanda a utilização da estatística de Student com n 2 graus de liberdade para os parâmetros t Nesses casos de acordo com o valor da distribuição t de Student com n2 graus de liberdade haverá uma probabilidade igual a de que os parâmetros estejam entre os pontos extremos desse intervalo Recuperemos o exemplo do subtópico anterior para entendermos o conceito aplicado ao intervalo de confiança Para fazer uma estimação de intervalos de confiança a um nível de 95 para os parâmetros da relação linear dada por observaremos as seguintes equações A um nível de confiança de 95 os intervalos são expressos como se segue O intervalo gerado pelos valores 0022 2112 apresenta uma estimativa de um intervalo no qual em sucessivas amostras de tamanho n 10 esteja contido o valor real do parâmetro linear em 95 dos casos A mesma estimação a 95 de confiança para o parâmetro angular está compreendida pelo intervalo Teste seus conhecimentos Atividade não pontuada Considere a existência de um modelo de regressão linear expresso da seguinte forma Esse modelo é construído sobre um conjunto com dez pares ordenados com a média de sendo igual a 14 e o X Y X somatório dos valores centrados ao quadrado de sendo iguais a 286 O somatório do quadrado dos erros X amostrais é igual a 581 A partir dessas informações e de seus estudos sobre o tema analise as afirmativas a seguir I O teste de hipótese para o coeficiente angular gera uma estatística de Student igual a 1062 t II O valor crítico da distribuição de Student para o teste de hipótese desse modelo a 95 é igual a 2228 t III O intervalo de confiança para o coeficiente angular a um nível de 90 é dado por 123 216 IV O intervalo de confiança para o coeficiente linear a um nível de 95 é dado por 647 1033 Está correto apenas o que se afirma em a IV b II e III c I e IV 20 c I e IV d I II e III e I II III e IV Respostas corretas a IV Por fim é necessário ter em conta que a estatística de Student para esse teste é operada com n 2 graus de t liberdade Consequentemente ao consultar a tabela relativa a essa distribuição você deverá observar o nível de significância concernente a um teste unilateral ou bilateral MAIA 2017 Conclusão A econometria é uma ciência com aplicações que vão além das ciências econômicas de modo que os métodos de regressão são utilizados em diversas áreas do saber para avaliar tendências de variação de dados amostrais bem como para a construção de estimadores populacionais No entanto é preciso observar que esses protocolos de elaboração de modelos econométricos devem obedecer a um critério de eficiência de forma que uma variável dependente seja explicada em sua variação por um conjunto suficientemente limitado de variáveis independentes Com a construção do coeficiente e dos testes de hipótese tal relação de eficiência e determinação se torna possível Nesta unidade você teve a oportunidade de definir os procedimentos de cálculo do coeficiente de determinação aplicar a relação entre variáveis por meio do coeficiente ajustado Vamos Praticar O nível de significância escolhido pelo pesquisador interfere ativamente na amplitude do intervalo de confiança No caso anterior você pôde fazer uma pesquisa a partir da tabela de distribuição de Student calculando os intervalos de confiança para 8 graus de liberdade e outros níveis de significância Qual seria o resultado do intervalo de confiança para um nível de 90 Conforme você verá a um nível de significância de 90 a estatística de teste é igual a 1860 Logo criamse os seguintes intervalos Observase assim que o intervalo de confiança para o coeficiente linear apresentou uma variação mais significativa quando comparado ao intervalo do coeficiente angular De fato o baixo valor de seu desviopadrão implica em uma baixa dispersão dos valores gerando um intervalo de confiança mais limitado 21 aplicar a relação entre variáveis por meio do coeficiente ajustado contrastar as diferenças entre variáveis explicativas e variáveis inócuas a um modelo econométrico avaliar os elementos de criação de um teste de hipótese e do intervalo de confiança para os coeficientes de um modelo de regressão Referências BUSSAB W O MORETTIN P 7 ed São Paulo Estatística básica Saraiva 2017 ECONOMETRIA conceitos e aplicações Capítulo 7 Análise de variância 2020 1 vídeo 17 min Publicado pelo canal S l s n Econometria conceitos e aplicações Disponível em httpswww Acesso em 20 fev 2021 youtubecomwatchvxRSvdUUN1E GUJARATI D N 5 ed Porto Alegre Bookman Econometria básica 2011 HOFFMANN R uma introdução à Análise de regressão econometria Piracicaba Edição do Autor 2016 LIMA M L C Análise espacial dos determinantes socioeconômicos dos homicídios no estado de et al Pernambuco Revista de Saúde Pública São Paulo v 39 n 2 p 176182 2005 Disponível em httpswww Acesso em 20 fev 2021 scielosporgpdfrsp2005v39n2176182pt MAIA A G conceitos e aplicações aprenda os fundamentos da análise econométrica e resolva Econometria problemas econômicos concretos São Paulo Saint Paul 2017 MOORE D NOTZ W FLIGNER M 7 ed Rio de Janeiro LTC 2017 A estatística básica e sua prática WOOLDRIDGE J M uma abordagem moderna 6 ed São Paulo Cengage Learning Introdução à econometria 2017
Send your question to AI and receive an answer instantly
Recommended for you
23
Econometria - Teoria da Correlacao e Regressao Linear Simples
Econometria
FMU
28
Econometria - Estimacao de Parametros e Analise de Variancia
Econometria
FMU
23
Econometria-Unidade-1-Modelo-Econometrico-Conceitos-e-Analise
Econometria
FMU
1
Prova Econometria - Análise de Regressão e Influência dos Investimentos no PIB
Econometria
ITE
7
Resolução de Prova já Realizada para Revisao
Econometria
UFPR
1
Construção de Intervalos de Confiança para Médias Populacionais
Econometria
UNITAU
12
Relatório de Análise e Modelagem de Variável: Exportações do Brasil
Econometria
PUC
4
Propriedades dos Estimadores de Mínimos Quadrados 2022-1
Econometria
UFF
1
Questões - Econometria - 2023-1
Econometria
UFF
1
Gauss-Markov - Identificacao de Violacao das Hipoteses de Variancia Constante e Nao Correlacao
Econometria
PUC
Preview text
1 ECONOMETRIA UNIDADE 4 COEFICIENTES DE DETERMINAÇÃO E TESTE DE SIGNIFICÂNCIA Autoria José Tadeu de Almeida Revisão técnica Jorge Lisandro Maia Ussan 2 Introdução Prezadoa estudante nesta unidade você terá a oportunidade de consolidar conceitos importantes relativos à regressão linear Como se sabe há uma série de procedimentos que articulam a criação de modelos econométricos destinados a avaliar a associação existente entre variáveis dependentes e independentes No entanto é possível aprofundar essa análise A construção de retas de regressão e linhas de tendência é importante para observar a evolução de um modelo econométrico mas podemos fazer ainda outros questionamentos de modo a conhecer mais sobre o tema Assim será que é possível observar se o modelo é realmente eficiente para explicar as relações de variação entre os dados colhidos em um conjunto amostral Como medir essa eficiência Há modelos que são mais ou menos eficientes e adequados que outros Para responder a esses questionamentos e entender essas relações você conheceu algumas ferramentas relevantes como os testes de significância e a tabela ANOVA construída a partir de métodos de análise de variância Agora iremos reforçar o estudo dessas associações de determinação de variabilidade por meio de um coeficiente que associa somatórios de elementos reais e estimados no modelo de regressão Para atender aos nossos objetivos nesta unidade utilizaremos principalmente o coeficiente de determinação também conhecido como Rquadrado e o coeficiente Rquadrado ajustado Desse modo além de relembrarmos outros conceitos relativos à econometria introduziremos uma temática cuja aplicação é essencialmente prática podendo ser utilizada inclusive para a construção de modelos econométricos explicativos e eficientes em sua vida profissional Bons estudos 41 Coeficiente de determinação Para medir uma associação entre variáveis é possível recorrer a medidas de regressão que permitem verificar a influência entre elas em um modelo Sabendo disso ao longo desta seção analisaremos o coeficiente de determinação igualmente denominado como e o coeficiente de determinação ajustado Como veremos o demonstra o grau de determinação isto é a proporção na qual a coeficiente de determinação variabilidade da variável independente é capaz de determinar a variabilidade da variável dependente Em outros termos o coeficiente demonstra se a variabilidade entre variáveis é forte o suficiente para mostrar que a variável dependente é realmente determinada e influenciada pelo conjunto de dados ligados às variáveis independentes HOFFMANN 2016 411 Resíduos e erros amostrais A elaboração do coeficiente de determinação demanda retomarmos o conceito de associado a uma resíduo variável que é um desvio ou erro em relação a um valor esperado MAIA 2017 Assim o valor real de pode ser entendido como a soma entre o resíduo e o valor esperadoestimado Y Consequentemente ao subtrair a média nos dois lados da equação e transformar por observase o seguinte Logo se e temse que Ao elevar essa equação ao quadrado lembrandose do conceito do quadrado da soma de dois termos temse o seguinte 3 quadrado lembrandose do conceito do quadrado da soma de dois termos temse o seguinte Se a soma dos resíduos é igual a zero logo a somatória do produto também é igual a zero Portanto Por meio dessa equação é possível perceber uma associação ou relação entre os valores reais e previstos bem como os resíduos gerados pela diferença entre essas variáveis HOFFMANN 2016 A variabilidade dos elementos ao redor da média cuja somatória é expressa por pode ser compreendida por duas razões A primeira delas é atribuída à própria regressão que fornece apenas os valores estimados de expressos por A segunda razão é dada pelos resíduos cuja origem é alheia à existência do modelo ou seja na existência de uma diferença entre os valores reais e um valor estimado há uma parte que não é captada pelo modelo e que pode ser atribuída a fatores externos Desse modo o coeficiente de determinação apresenta a proporção da variabilidade do conjunto de valores estimados que é efetivamente explicada determinada pela regressão Esse coeficiente é apresentado da seguinte forma MAIA 2017 Nesse caso SQReg corresponde à soma dos quadrados da regressão isto é dos valores estimados e SQTotal corresponde à soma dos quadrados dos valores de O coeficiente tem valores determinados pelo intervalo 01 de modo que à medida que o coeficiente aumenta e se torna próximo de 1 mais efetiva é a regressão para explicar a variabilidade da variável dependente tornando os valores reais bastante próximos dos valores estimados MAIA 2017 Você quer ver O vídeo Econometria conceitos e aplicações Capítulo 7 Análise de variância produzido pelo professor Alexandre Gori Maia da Universidade Estadual de Campinas Unicamp apresenta de forma bastante completa os conceitos de análise de variância e a discussão relacionada ao coeficiente de determinação Acesse Caso Utilizando um modelo que gerou a regressão com média podese obter o seu coeficiente de determinação de acordo com o quadro a seguir 4 No exemplo apresentado você pôde observar graficamente a intensa associação entre valores reais e esperados Há no entanto situações em que essa associação é mais fraca demandando a elaboração do coeficiente de determinação para ter uma estimação mais precisa da eficiência do modelo de regressão MAIA 2017 Efetivamente se o coeficiente estiver próximo de zero maior será a independência linear entre as variáveis como se observa na figura a seguir Figura 1 Escala para o coeficiente de determinação Fonte Elaborado pelo autor 2021 PraCegoVer o quadro apresenta os dados relativos às variáveis e relacionadas a um modelo de X Y regressão e os valores estimados juntamente com os erros amostrais e os quadrados da regressão Logo temse o seguinte coeficiente de determinação Ou seja o modelo de regressão é capaz de explicar em 976 a variação da variável dependente Y 5 Figura 1 Escala para o coeficiente de determinação Fonte Elaborada pelo autor baseada em MAIA 2017 PraCegoVer a figura apresenta uma barra com tons progressivos de branco a preto destacando que à medida que a barra se torna mais escura mais forte é o coeficiente de determinação Assim à esquerda associado à cor branca está o número 0 abaixo do qual aparece a expressão Independência linear À direita no outro extremo da figura está o número 1 associado à cor preta Abaixo desse número está a expressão Relação linear exata Tal situação se observa na série de dados a seguir gerada a partir do modelo cuja média é igual a 5 Quadro 1 Elaboração do coeficiente Fonte Elaborado pelo autor 2021 PraCegoVer o quadro composto por cinco colunas apresenta uma série de dados relacionada aos valores reais e estimados da variável independente e da variável dependente na primeira e na segunda colunas bem X Y como os valores estimados de na terceira coluna e as duas somas de quadrados da regressão e total na quarta Y e na quinta colunas O coeficiente de determinação nesse caso é igual a Ou seja esse modelo explica em 736 a partir do conjunto de dados da regressão a variabilidade da variável dependente de acordo com o que se observa no gráfico a seguir Y 6 Figura 2 Valores reais e estimados em uma regressão Fonte Elaborada pelo autor 2021 PraCegoVer o gráfico apresenta o conjunto de dados relativos ao quadro anterior demonstrando que os valores reais de estão dispersos enquanto os valores estimados de estão em uma reta de regressão Y Y Por fim é importante enfatizar que um coeficiente baixo embora indique menor dependência linear entre variáveis não implica necessariamente que o modelo seja ruim isto é que o ajuste criado pela regressão seja insatisfatório Na verdade algumas variáveis podem ser mais difíceis de serem compreendidas em todas as suas características o que dificulta a criação de um modelo fortemente explicativo MAIA 2017 Por exemplo os preços dos aluguéis em uma cidade não dependem somente do valor do metro quadrado em um bairro mas também do nível de renda da população local das condições econômicas do entorno da localização das condições dos imóveis da limpeza urbana entre outros fatores Assim mesmo que um modelo tenha uma contribuição baixa em relação a uma regressão ele poderá oferecer informações interessantes e importantes ao pesquisador 412 Coeficiente de determinação ajustado Ao criar um modelo de regressão nem sempre uma única variável independente é uma condição suficiente para explicar plenamente uma variação da variável dependente Assim é necessário incluir outros fatores Y explicativos nesse modelo na forma de variáveis que acabam por transformar a relação linear simples em um modelo de regressão múltipla 7 Desse modo à medida que novas variáveis são agregadas ao modelo de regressão esperase que a capacidade explicativa do modelo se torne maior elevando consequentemente o valor absoluto do coeficiente de determinação No limite mesmo que a inclusão da variável não auxilie em nada para a explicação da variabilidade do modelo também não irá atrapalhar de modo que o coeficiente manteria o mesmo valor se a variável fosse inócua para o modelo WOOLDRIDGE 2017 Sabendo disso observe a figura a seguir Figura 3 Relação de independência entre duas variáveis Fonte Elaborada pelo autor baseada em MAIA 2017 PraCegoVer a figura apresenta três círculos que têm pontos de interseção entre si Essas áreas de interseção representam os valores de que são explicados pela variação das variáveis independentes e Y Na figura analisase um modelo econométrico baseado em duas variáveis independentes e uma variável dependente da seguinte forma GUJARATI 2011 Nesse caso o coeficiente de determinação é estruturado a partir dos valores das variáveis e como uma razão entre a soma dos quadrados da regressão e a soma dos quadrados totais É possível ainda incluir mais uma variável explicativa nesse modelo gerando uma regressão com três variáveis independentes Nesse caso a variável pode ser explicativa sendo que parte dos quadrados da regressão é explicada por essa variável ou a variável pode ser inócua de modo que o efeito em é igual a zero Observe Você sabia Na vida real os processos de regressão linear simples são quase inexistentes Isso porque em geral um fenômeno estatístico é dependente de uma série de variáveis o desemprego por exemplo depende da inflação da queda nos salários da violência urbana etc de modo que essas relações devem ser sempre que possível observadas por meio de uma regressão múltipla Nesta disciplina focamos a regressão simples para facilitar a compreensão dos temas apresentados 8 explicada por essa variável ou a variável pode ser inócua de modo que o efeito em é igual a zero Observe então a figura a seguir Figura 4 Relações de regressão com três variáveis independentes Fonte Elaborada pelo autor baseada em MAIA 2017 PraCegoVer a figura apresenta dois conjuntos de círculos No conjunto da esquerda há três variáveis de que X explicam a variável dependente No conjunto da direita a variável está isolada demonstrando que ela não Y explica a variação de Y No conjunto à esquerda a variável apresenta alguma contribuição explicativa ao modelo Desse modo o valor de incorporando as três variáveis será maior do que o valor de Algebricamente temse nesse caso que MAIA 2017 No conjunto da direita a variável é completamente inócua isto é não contribui em nada para explicar a variação de Nessas circunstâncias temse a seguinte igualdade Y É possível portanto verificar que o coeficiente não diminui mesmo ao serem incorporadas variáveis independentes extras no modelo Se elas forem inócuas o efeito em será nulo e se forem explicativas a variação de será sempre positiva para a determinação do modelo Desse modo é importante realizar uma correção do coeficiente de determinação de modo a ponderálo pelo número de variáveis efetivamente explicativas que geram assim o número de graus de liberdade da k regressão e pelo número de observações do conjunto amostral Assim é criado o coeficiente de n determinação ajustado cuja notação é dada por da seguinte forma MAIA 2017 Você sabia É importante delimitar o significado das expressões A variável não contribui para a explicação do modelo no entanto ela não é exógena As variáveis exógenas explicam a variação dos dados mas não estão incluídas no modelo de regressão Não é o que ocorre com a variável 9 A partir do cálculo do coeficiente ajustado é possível depreender três propriedades destacadas a seguir Primeira propriedade Se não há outras variáveis explicativas influenciando o modelo desse modo k 1 Segunda propriedade Para todo k 1 sendo um número natural haverá uma tendência de diluição do coeficiente ajustado k de modo que Terceira propriedade Como efeito da segunda propriedade o valor de pode ser negativo O coeficiente de determinação ajustado deve portanto ser manipulado de modo que a inclusão de novas variáveis explicativas somente ocorra se a estatística de Student relacionada a essas variáveis apresentar um t valor absoluto superior a 1 Consequentemente na hipótese de incluir um conjunto de variáveis com o j j 1 valor de irá aumentar somente se a estatística associada a esse conjunto tiver um valor absoluto maior que 1 F MAIA 2017 A partir de agora veremos um exemplo para facilitar a discussão e a compreensão sobre os conceitos aqui trabalhados Considere assim o conjunto de dados apresentado no quadro a seguir Você quer ler O artigo de Maria Luiza de Lima 2005 denominado Análise espacial dos et al determinantes socioeconômicos dos homicídios no estado de Pernambuco apresenta uma aplicação objetiva dos conceitos destacados nesta unidade Os autores explicam por meio de uma análise de variância a relação existente entre as variáveis analfabetismo e pobreza como fatores explicativos da variável taxa de homicídios destacando que o coeficiente de determinação ajustado para essa regressão é igual a 0246 Acesse 10 Quadro 2 Conjunto de dados amostrais Fonte Elaborado pelo autor 2021 PraCegoVer o quadro apresenta em quatro colunas um conjunto com dez pares ordenados relativos a uma variável independente e a uma variável dependente X Y De acordo com os dados apresentados a média de X é igual a 9 e a média de é igual a 10 A partir desses dados Y podemos calcular os coeficientes angular e linear com base nas informações dispostas a seguir Quadro 3 Dados amostrais para um modelo econométrico Fonte Elaborado pelo autor 2021 PraCegoVer o quadro composto por seis colunas complementa o conteúdo do quadro anterior apresentando os valores centrados das variáveis e os elementos necessários para a criação do coeficiente angular Assim na primeira e na segunda colunas respectivamente são destacados os pares ordenados relativos à variável 11 primeira e na segunda colunas respectivamente são destacados os pares ordenados relativos à variável independente e à variável dependente Na terceira na quarta na quinta e na sexta colunas são apresentados X Y os valores relativos a a a e a respectivamente Com base no conteúdo apresentado o coeficiente angular será expresso por Logo o coeficiente linear será dado por de modo que o modelo de regressão será apresentado da seguinte forma Podese assim estimar os valores esperados de e os Y elementos necessários para o cálculo do coeficiente de determinação O quadro a seguir apresenta esses valores Quadro 4 Elementos de cálculo do coeficiente de determinação Fonte Elaborado pelo autor 2021 PraCegoVer quadro composto por cinco colunas complementando os dois quadros anteriores e apresentando as somas dos quadrados necessárias para a elaboração do coeficiente de determinação Assim da primeira à última coluna são apresentados os valores relativos a a a a e a X Yest respectivamente Assim o coeficiente será expresso da seguinte forma O valor de permite observar que a relação de determinação é muito forte entre a variável dependente e a variável independente Dessa forma caso o pesquisador decida tentar aprimorar o modelo por meio da introdução de mais duas variáveis explicativas o coeficiente ajustado será igual a 12 Como se pode observar a inclusão de novas variáveis não é suficientemente efetiva para auxiliar na explicação da variabilidade de podendo até mesmo reduzir na verdade a eficiência explicativa do modelo Y Teste seus conhecimentos Atividade não pontuada A econometria é um ramo do conhecimento da área das ciências econômicas que enfoca a criação de estudos de caso de modo a avaliar as associações entre conjuntos de variáveis dependentes e independentes Sabendo disso considere a existência de um conjunto de dados formado a partir dos seguintes pares ordenados 68 X Y 87 99 911 1010 79 812 1115 1010 129 Tendo como base essas informações e seus estudos sobre o coeficiente de determinação analise as afirmativas a seguir e assinale V para as verdadeiras e F para as falsas I O coeficiente linear dessa reta de regressão é igual a 053 enquanto o coeficiente angular é igual a 523 II No momento em que a variável independente for igual a 15 o valor esperado de será igual a 1318 X Y III A variabilidade da variável independente é capaz de explicar a variação da variável dependente em 183 IV O valor do coeficiente de determinação relativo à reta de regressão criada pelos pares ordenados é igual a 0319 Agora assinale a alternativa que apresenta a sequência correta a F V V F b V F V F c V F F F d V F F V e F V F V Respostas corretas a F V V F O modelo de regressão formado por uma série de coeficientes angulares dependendo do perfil do modelo e por um coeficiente linear também deve ser avaliado sob outra premissa Assim embora até o momento tenhamos entendido a relação de determinação pelo coeficiente precisaremos avaliar agora se esses coeficientes que são essencialmente amostrais relativos a um conjunto finito de dados são representativos da população estatística Essa avaliação será realizada por meio dos testes de significância e do erropadrão no tópico a seguir 13 42 Erropadrão e testes de significância No momento em que se obtém a distribuição amostral de um estimador qualquer é possível calcular também a variância desse estimador Se a distribuição amostral exata não puder ser obtida utilizase uma aproximação de modo que a variância do estimador será correspondente à variância dessa aproximação Em outras palavras podese definir o como uma medida da variação de um estimador em relação erropadrão ao parâmetro Se esses indicadores remetem à média temse que o erropadrão da média por exemplo irá analisar a variação da média amostral tomada com base na média populacional BUSSAB MORETTIN 2017 Diante disso nesta seção veremos com mais atenção quais as chances de um pesquisador incorrer em erro ao afirmar que um estimador é eficiente e preciso para mensurar os valores esperados de um conjunto amostral Sempre que necessário iremos apresentar apenas as equações geradoras dos indicadores a fim de evitar uma demonstração algébrica mais prolongada e o uso de elementos de cálculo que transcendem a dinâmica desta disciplina 421 Erropadrão de um estimador Quando uma reta de regressão é traçada é demonstrada uma série de dados estimados de acordo com o modelo econométrico Assim a diferença entre dados reais e estimados incorre na existência de erros amostrais que têm entre si uma variância Essa variância de acordo com o seu conceito em estatística descritiva representa a ao quadrado do conjunto de erros ao redor da reta de regressão MAIA 2017 dispersão média Em geral a variância populacional é desconhecida de modo que é necessário obter o valor de um estimador dessa variância dos resíduos da amostra de acordo com a seguinte fórmula Vamos Praticar Há aproximadamente 7700 quilocalorias kcal em um quilo kg de gordura corporal Assim considere um modelo que relacione o volume de gordura em kg em função das variáveis consumo calórico diário e gasto calórico diário de um grupo com 31 pessoas Esse modelo deverá ter um valor alto igual a 095 por exemplo Ao incluir uma terceira variável como distúrbios metabólicos qual seria o valor do ajustado Conforme você verá após efetuar os cálculos a inserção de uma terceira variável em um modelo com 31 observações será dada por Desse modo observase que a inclusão de uma terceira variável às duas primeiras reduz marginalmente a eficácia explicativa do modelo 14 Nessa fórmula o denominador n 2 diz respeito ao número de graus de liberdade dos resíduos de modo que a raiz quadrada da variância da regressão expressa por é denominada permitindo erropadrão da regressão mensurar a dispersão média desses resíduos Para obter o valor do somatório é possível utilizar a seguinte fórmula As variâncias individuais relacionadas aos estimadores e do modelo de regressão e expressas respectivamente por e por representam as dispersões quadráticas médias dos estimadores em função do perfil aleatório da amostra Lembrando que a variância diz respeito aos valores esperados dos coeficientes ou seja à distância entre o valor real do coeficiente e seu valor estimado podese calcular a variância estimada do coeficiente linear O coeficiente angular estimado tem a variância disposta do seguinte modo Ao substituir a variância pelo seu valor esperado podese obter os estimadores da variância de cada coeficiente Os errospadrão dos estimadores são obtidos por meio da raiz quadrada das variâncias obtidas pelos estimadores mencionados Assim podese obter algumas propriedades relativas aos errospadrão A primeira propriedade considera que à medida que o erropadrão da regressão aumenta a estimativa dos parâmetros tornase menos precisa Assim se os valores observados ao redor da reta de regressão estiverem muito dispersos as estimativas de mínimos quadrados dos parâmetros também tenderão a se dispersar MAIA 2017 De acordo com a segunda propriedade por sua vez conforme a variabilidade observada dos valores de X aumenta a estimativa dos parâmetros tornase mais precisa Portanto uma dispersão baixa da variável independente demonstra que a amostra não tem uma grande amplitude tornando a estimação mais eficiente MAIA 2017 Finalmente uma última propriedade destaca que quanto maior o tamanho da amostra mais a variável independente apresentará variabilidade permitindo que as estimativas dos parâmetros tenham maior precisão MAIA 2017 422 Teste de significância para os parâmetros O teste de hipóteses relacionado aos coeficientes do modelo de regressão é usado para avaliar as evidências de que os coeficientes são diferentes de zero ou seja de que apresentam uma capacidade explicativa à variabilidade do modelo Desse modo as hipóteses são estruturadas como se segue MAIA 2017 Em relação ao coeficiente angular temos 15 Supondo que a hipótese nula é verdadeira as distribuições de probabilidade para os parâmetros devem seguir uma distribuição normal com média zero e variância igual à variância dos coeficientes estimados da seguinte forma e Para criar o teste basta seguir o protocolo comum à elaboração de um teste de hipótese 1 verificar a estimativa para a estatística de teste na amostra e 2 calcular o valorp ou seja a probabilidade de erro ao rejeitar a hipótese nula usando as estimativas amostrais de acordo com a distribuição de Student com n 2 graus de t liberdade Assim ao rejeitar a hipótese nula estamos afirmando que a estimativa do coeficiente é significativa Para o coeficiente linear demonstrase que a variável independente é significativa do ponto de vista estatístico apresentando relação linear importante com a variável dependente Y Vejamos um exemplo para facilitar a compreensão Para isso observe o quadro a seguir Quadro 5 Conjunto de dados amostrais X Y Fonte Elaborado pelo autor 2021 PraCegoVer quadro composto por quatro colunas destacando um conjunto de dez pares ordenados para X Y a criação de um modelo econométrico Resumidamente o modelo de regressão associado a esse conjunto de dados para uma média de igual a 5 e de X Y Você o conhece A distribuição de Student foi criada pelo pesquisador William Sealy Gosset 1876 t 1937 Esse estatístico trabalhava na cervejaria inglesa Guiness e criou essa distribuição para avaliar as proporções de cereais para a fabricação de cervejas Tanto por modéstia intelectual quanto para evitar o comprometimento da empresa em seus estudos Gosset usava o pseudônimo Student MOORE NOTZ FLIGNER 2017 16 Resumidamente o modelo de regressão associado a esse conjunto de dados para uma média de igual a 5 e de X Y igual a 5 é dado por Consequentemente teremos os valores estimados do modelo de regressão destacados no quadro a seguir Quadro 6 Cálculo dos erros amostrais Fonte Elaborado pelo autor 2021 PraCegoVer quadro composto por cinco colunas apresentando os dados amostrais para a criação do erro amostral e do quadrado dos resíduos Assim da primeira à quinta coluna constam os dados relativos a a a X Y a e a respectivamente Yest Erro Podese observar que o modelo tem boa aderência para explicar a variação dos dados de de acordo com o Y gráfico que se segue 17 Figura 5 Disposição de um modelo econométrico Fonte Elaborada pelo autor 2021 PraCegoVer o gráfico destaca os valores reais relacionados ao quadro anterior bem como os valores estimados em uma reta de regressão ligada ao modelo econométrico As estimativas da variância da regressão e de seu erropadrão são expressas da seguinte forma Consequentemente o erropadrão é igual a Esse resultado consiste na verdade em uma estimativa do erro médio para a previsão do modelo com valor igual a 1095 Na sequência é preciso estimar as variâncias dos coeficientes do modelo com o objetivo de verificar se há significância nos coeficientes linear e angular ou seja se esses coeficientes são diferentes de zero Assim esses valores serão obtidos especialmente a partir do somatório dos valores centrados ao quadrado de do seguinte X modo Obtidas as estimativas podese observar se elas são significativas por meio de um teste de hipóteses apropriado para os coeficientes relativos ao modelo Desse modo teremos A estatística de Student é dada por t Comparativamente à distribuição normal com 8 graus de liberdade o valorp associado ao coeficiente linear é 18 Comparativamente à distribuição normal com 8 graus de liberdade o valorp associado ao coeficiente linear é igual a aproximadamente 45 Isso significa que a probabilidade de erro ao afirmar que o ponto de intercepto da reta de regressão é diferente de zero é igual a 45 Dessa forma é possível afirmar com uma chance de erro baixa que o coeficiente linear é significativo Para o coeficiente angular temse o seguinte teste Elaborase desse modo a seguinte estatística de Student t O valorp associado a esse coeficiente é praticamente igual a zero de modo que ao afirmar que o coeficiente angular é diferente de zero ou seja que o valor de tem relação linear com o valor de a chance de erro é X Y praticamente nula 423 Intervalo de confiança para os coeficientes A elaboração de um intervalo de confiança permite apurar a um nível de confiança dado por um conjunto finito no qual em repetidas amostras de dimensão igual a esteja contido o parâmetro populacional real em n situações possíveis Sabendo que os estimadores de mínimos quadrados seguem uma distribuição normal seus intervalos de confiança relacionados aos parâmetros linear e angular serão expressos conforme apresentado na figura a seguir MAIA 2017 Figura 6 Intervalos de confiança de estimadores de coeficientes Fonte Elaborada pelo autor baseada em MAIA 2017 PraCegoVer na figura há dois conjuntos de dados relacionados a uma distribuição estatística normal Os gráficos mostram linhas que convergem a um ponto máximo e que depois declinam 19 Observe que os valores reais e não são conhecidos Nesse caso o uso dos estimadores amostrais e demanda a utilização da estatística de Student com n 2 graus de liberdade para os parâmetros t Nesses casos de acordo com o valor da distribuição t de Student com n2 graus de liberdade haverá uma probabilidade igual a de que os parâmetros estejam entre os pontos extremos desse intervalo Recuperemos o exemplo do subtópico anterior para entendermos o conceito aplicado ao intervalo de confiança Para fazer uma estimação de intervalos de confiança a um nível de 95 para os parâmetros da relação linear dada por observaremos as seguintes equações A um nível de confiança de 95 os intervalos são expressos como se segue O intervalo gerado pelos valores 0022 2112 apresenta uma estimativa de um intervalo no qual em sucessivas amostras de tamanho n 10 esteja contido o valor real do parâmetro linear em 95 dos casos A mesma estimação a 95 de confiança para o parâmetro angular está compreendida pelo intervalo Teste seus conhecimentos Atividade não pontuada Considere a existência de um modelo de regressão linear expresso da seguinte forma Esse modelo é construído sobre um conjunto com dez pares ordenados com a média de sendo igual a 14 e o X Y X somatório dos valores centrados ao quadrado de sendo iguais a 286 O somatório do quadrado dos erros X amostrais é igual a 581 A partir dessas informações e de seus estudos sobre o tema analise as afirmativas a seguir I O teste de hipótese para o coeficiente angular gera uma estatística de Student igual a 1062 t II O valor crítico da distribuição de Student para o teste de hipótese desse modelo a 95 é igual a 2228 t III O intervalo de confiança para o coeficiente angular a um nível de 90 é dado por 123 216 IV O intervalo de confiança para o coeficiente linear a um nível de 95 é dado por 647 1033 Está correto apenas o que se afirma em a IV b II e III c I e IV 20 c I e IV d I II e III e I II III e IV Respostas corretas a IV Por fim é necessário ter em conta que a estatística de Student para esse teste é operada com n 2 graus de t liberdade Consequentemente ao consultar a tabela relativa a essa distribuição você deverá observar o nível de significância concernente a um teste unilateral ou bilateral MAIA 2017 Conclusão A econometria é uma ciência com aplicações que vão além das ciências econômicas de modo que os métodos de regressão são utilizados em diversas áreas do saber para avaliar tendências de variação de dados amostrais bem como para a construção de estimadores populacionais No entanto é preciso observar que esses protocolos de elaboração de modelos econométricos devem obedecer a um critério de eficiência de forma que uma variável dependente seja explicada em sua variação por um conjunto suficientemente limitado de variáveis independentes Com a construção do coeficiente e dos testes de hipótese tal relação de eficiência e determinação se torna possível Nesta unidade você teve a oportunidade de definir os procedimentos de cálculo do coeficiente de determinação aplicar a relação entre variáveis por meio do coeficiente ajustado Vamos Praticar O nível de significância escolhido pelo pesquisador interfere ativamente na amplitude do intervalo de confiança No caso anterior você pôde fazer uma pesquisa a partir da tabela de distribuição de Student calculando os intervalos de confiança para 8 graus de liberdade e outros níveis de significância Qual seria o resultado do intervalo de confiança para um nível de 90 Conforme você verá a um nível de significância de 90 a estatística de teste é igual a 1860 Logo criamse os seguintes intervalos Observase assim que o intervalo de confiança para o coeficiente linear apresentou uma variação mais significativa quando comparado ao intervalo do coeficiente angular De fato o baixo valor de seu desviopadrão implica em uma baixa dispersão dos valores gerando um intervalo de confiança mais limitado 21 aplicar a relação entre variáveis por meio do coeficiente ajustado contrastar as diferenças entre variáveis explicativas e variáveis inócuas a um modelo econométrico avaliar os elementos de criação de um teste de hipótese e do intervalo de confiança para os coeficientes de um modelo de regressão Referências BUSSAB W O MORETTIN P 7 ed São Paulo Estatística básica Saraiva 2017 ECONOMETRIA conceitos e aplicações Capítulo 7 Análise de variância 2020 1 vídeo 17 min Publicado pelo canal S l s n Econometria conceitos e aplicações Disponível em httpswww Acesso em 20 fev 2021 youtubecomwatchvxRSvdUUN1E GUJARATI D N 5 ed Porto Alegre Bookman Econometria básica 2011 HOFFMANN R uma introdução à Análise de regressão econometria Piracicaba Edição do Autor 2016 LIMA M L C Análise espacial dos determinantes socioeconômicos dos homicídios no estado de et al Pernambuco Revista de Saúde Pública São Paulo v 39 n 2 p 176182 2005 Disponível em httpswww Acesso em 20 fev 2021 scielosporgpdfrsp2005v39n2176182pt MAIA A G conceitos e aplicações aprenda os fundamentos da análise econométrica e resolva Econometria problemas econômicos concretos São Paulo Saint Paul 2017 MOORE D NOTZ W FLIGNER M 7 ed Rio de Janeiro LTC 2017 A estatística básica e sua prática WOOLDRIDGE J M uma abordagem moderna 6 ed São Paulo Cengage Learning Introdução à econometria 2017