·
Ciências Econômicas ·
Econometria
Send your question to AI and receive an answer instantly
Recommended for you
23
P1 - Econometria 1 2022-1
Econometria
UFF
22
Gretl-Guia-Pratico-Econometria-Analise-Dados
Econometria
UFF
2
Exercícios Laboratório 5 - Econometria 2022-2
Econometria
UFF
51
Apostila Econometria 2020
Econometria
UFF
21
Apostila 2 - Econometria 2020
Econometria
UFF
3
Lista 2 - Econometria 1 2022-1
Econometria
UFF
5
Lista 4 - Econometria 1 2022-1
Econometria
UFF
7
Exercícios - Econometria - 2023-2
Econometria
UFF
3
Lista 3 - Econometria 1 2022-1
Econometria
UFF
1
Anotacoes Teorema de Gauss Markov e Modelo Classico de Regressao Linear Normal
Econometria
UFF
Preview text
Propriedades do Estimadores de Mínimos Quadrados Antonio Matheus Sá Pressupostos do Modelo de Regressão Linear Simples 1. 𝒚𝒕 = 𝜷𝟏 + 𝜷𝟐 𝒙𝒕 + 𝒆𝒕 2. 𝑬(𝒆𝒕) = 𝟎 ↔ 𝑬(𝒚𝒕) = 𝜷𝟏 + 𝜷𝟐 𝒙𝒕 3. 𝒗𝒂𝒓(𝒆𝒕) = 𝝈𝟐 = 𝒗𝒂𝒓(𝒚) 4. 𝒄𝒐𝒗(𝒆𝒊, 𝒆𝒋) = 𝒄𝒐𝒗(𝒚𝒊, 𝒚𝒋) = 𝟎 5. 𝒙𝒕, não é aleatória e deve assumir, pelo menos, dois valores distintos. 6. 𝒆𝒕~𝑵(𝟎, 𝝈𝟐) ↔ 𝒚𝒕~𝑵[(𝜷𝟏 + 𝜷𝟐 𝒙𝒕), 𝝈𝟐] (opcional) Os Estimadores de Mínimos Quadrados como Variáveis Aleatórias Com base nos pressupostos acima, investigaremos as propriedades estatísticas dos estimadores de mínimos quadrados, que são procedimentos para obter estimativas dos parâmetros desconhecidos 𝜷𝟏 e 𝜷𝟐 no modelo de regressão linear simples. Nesse contexto, 𝒃𝟏 e 𝒃𝟐 são variáveis aleatórias. Uma vez coletados os dados, as estimativas de mínimos quadrados são números calculados. Na análise pós-dados, as quantidades não aleatórias como essa não têm quaisquer propriedades estatísticas. Sua confiabilidade e utilidade são avaliadas em termos das propriedades dos processos pelos quais tais quantidades foram obtidas. Podemos agora estudar as propriedades dos estimadores aleatórios 𝒃𝟏 e 𝒃𝟐 e abordar as seguintes importantes questões: 1. Se os estimadores de mínimos quadrados 𝒃𝟏 e 𝒃𝟐 são variáveis aleatórias, quais serão suas médias, variâncias, covariâncias e distribuições de probabilidade? 2. O princípio dos mínimos quadrados é apenas uma forma de utilizar os dados para obter estimativas de 𝜷𝟏 e 𝜷𝟐. Como se comparam os estimadores de mínimos quadrados com outras regras que poderiam ser usadas, e como podemos comparar estimadores alternativos? Por exemplo, haverá outro estimador que tenha maior probabilidade de produzir uma estimativa próxima a 𝜷𝟐? Propriedades Amostrais dos Estimadores de Mínimos Quadrados Os estimadores de mínimos quadrados 𝒃𝟏 e 𝒃𝟐 são variáveis aleatória e têm distribuições de probabilidade que podemos estudar antes da coleta de quaisquer dados. As características de suas funções densidade de probabilidade são de grande interesse para nós. Se essas funções são conhecidas, podem ser usadas para fazer afirmações probabilísticas sobre 𝒃𝟏 e 𝒃𝟐. As médias (valores esperados) e as variâncias das variáveis aleatórias caracterizam a localização e a dispersão de suas distribuições de probabilidade. As médias e variâncias de 𝒃𝟏 e 𝒃𝟐 informam sobre os intervalos de valores que 𝒃𝟏 e 𝒃𝟐 provavelmente tomarão. O conhecimento desses intervalos é importante porque nosso objetivo é obter estimativas próximas dos verdadeiros valores dos parâmetros. Veremos a seguir como determinar as médias e as variâncias dos estimadores de mínimos quadrados 𝒃𝟏 e 𝒃𝟐. Como 𝒃𝟏 e 𝒃𝟐 são variáveis aleatórias, podem ter uma covariância que também será determinada. Valores Esperados de 𝒃𝟏 e 𝒃𝟐 O estimador 𝒃𝟐 de mínimos quadrados do parâmetro 𝜷𝟐 (coeficiente angular), baseado em uma amostra de 𝑻 observações é 𝒃𝟐 = 𝑻 ∑ 𝒙𝒕𝒚𝒕−∑𝒙𝒕 ∑ 𝒚𝒕 𝑻 ∑ 𝒙𝒕𝟐−(∑𝒙𝒕)𝟐 . O estimador de mínimos quadrados 𝒃𝟏 do parâmetro 𝜷𝟏 é 𝒃𝟏 = 𝒚̅ − 𝒃𝟐𝒙̅ em que 𝒚̅ = ∑ 𝒚𝒕 𝑻 e 𝒙̅ = ∑ 𝒙𝒕 𝑻 são as médias amostrais das observações sobre 𝒚 e 𝒙, respectivamente. Para determinar o valor esperado de 𝒃𝟐 começamos reescrevendo a fórmula 𝒃𝟐 = 𝑻 ∑ 𝒙𝒕𝒚𝒕−∑𝒙𝒕 ∑ 𝒚𝒕 𝑻 ∑ 𝒙𝒕𝟐−(∑𝒙𝒕)𝟐 na seguinte forma: 𝒃𝟐 − 𝜷𝟐 + ∑ 𝒘𝒕 𝒆𝒕 em que 𝒘𝒕 é uma constante (não aleatória) dado por 𝒘𝒕 = 𝒙𝒕−𝒙̅ ∑(𝒙𝒕−𝒙̅)𝟐. Como 𝒘𝒕 é uma constante, que depende apenas dos valores de 𝒙𝒕, podemos achar o valor esperado de 𝒃𝟐, com base no fato de que o valor esperado de uma soma é a soma dos valores esperados das parcelas e 𝑬(𝒆𝒕) = 𝟎, nós temos: 𝑬(𝒃𝟐) = 𝑬 (𝜷𝟐 + ∑ 𝒘𝒕 𝒆𝒕) = 𝑬(𝜷𝟐 + 𝒘𝟏 𝒆𝟏 + 𝒘𝟐 𝒆𝟐 + ⋯ + 𝒘𝒕 𝒆𝒕) = 𝑬(𝜷𝟐) + 𝑬(𝒘𝟏 𝒆𝟏) + 𝑬(𝒘𝟐 𝒆𝟐) + ⋯ + 𝑬(𝒘𝒕 𝒆𝒕) = 𝑬(𝜷𝟐) + ∑ 𝑬(𝒘𝒕 𝒆𝒕) = 𝜷𝟐 + ∑ 𝒘𝒕 𝑬(𝒆𝒕) = 𝜷𝟐 Quando o valor esperado de qualquer estimador de um parâmetro é igual ao verdadeiro valor do parâmetro, o estimador se diz não tendencioso (ou não viesado). Como 𝑬(𝒃𝟐) = 𝜷𝟐, o estimador de mínimos quadrados 𝒃𝟐 é um estimador não tendencioso de 𝜷𝟐. O significado intuitivo da não-tendenciosidade decorre da interpretação da esperança matemática de um processo de amostragem repetida. Se coletarmos muitas amostras de tamanho 𝑻 e aplicarmos a fórmula 𝒃𝟐 = 𝑻 ∑ 𝒙𝒕𝒚𝒕−∑𝒙𝒕 ∑ 𝒚𝒕 𝑻 ∑ 𝒙𝒕𝟐−(∑𝒙𝒕)𝟐 para estimar 𝜷𝟐, então o valor médio das estimativas 𝒃𝟐 obtidas de todas essas amostras será 𝜷𝟐. A propriedade de não-tendenciosidade depende de termos muitas amostras de dados da mesma população. Uma estimativa individual 𝒃𝟐 pode estar muito próxima ou muito afastada de 𝜷𝟐. Como 𝜷𝟐 nunca é conhecido, jamais saberemos. Variância e Covariância de 𝒃𝟏 e 𝒃𝟐 Dados os valores esperados, ou médias, de 𝒃𝟏 e 𝒃𝟐, nossa atenção se volta, agora, para a precisão desses estimadores. A variância da variável aleatória 𝒃𝟐 é a média dos quadrados das distâncias entre os valores da variável aleatória e sua média, que agora sabemos que é 𝑬(𝒃𝟐) = 𝜷𝟐. Define-se a variância de 𝒃𝟐 como 𝒗𝒂𝒓(𝒃𝟐) = 𝑬[𝒃𝟐 − 𝑬(𝒃𝟐)]𝟐. A variância de 𝒃𝟐 mede a dispersão da distribuição de probabilidade 𝒃𝟐. Na figura abaixo vemos os gráficos de duas distribuições de probabilidade possíveis de 𝒃𝟐, 𝒇𝟏(𝒃𝟐) e 𝒇𝟐(𝒃𝟐), que têm a mesma média, mas variâncias diferentes. A função densidade de probabilidade 𝒇𝟐(𝒃𝟐) tem menor variância do que a função densidade de probabilidade 𝒇𝟏(𝒃𝟐). Ante a possibilidade de uma escolha, estamos interessados na precisão do estimador, e assim preferiríamos que 𝒃𝟐 tivesse a distribuição de probabilidade 𝒇𝟐(𝒃𝟐), em lugar de 𝒇𝟏(𝒃𝟐). Com a distribuição de 𝒇𝟐(𝒃𝟐), a probabilidade está mais concentrada em torno do verdadeiro valor do parâmetro 𝜷𝟐, dando, em relação a 𝒇𝟏(𝒃𝟐), uma probabilidade mais elevada de obtermos uma estimativa próxima de 𝜷𝟐. A variância de um estimador mede a sua precisão, na medida em que nos diz quanto as estimativas produzidas por aquele estimador podem variar de uma amostra para outra. Quanto menor a variância de um estimador, maior sua precisão amostral. Um estimador é mais preciso do que outro se sua variância amostral é menor do que a do outro estimador. Passemos agora ao estudo das variâncias e covariâncias de 𝒃𝟏 e 𝒃𝟐: 𝒗𝒂𝒓(𝒃𝟏) = 𝝈𝟐 [ ∑ 𝒙𝒕 𝟐 𝑻 ∑(𝒙𝒕 − 𝒙̅)𝟐] 𝒗𝒂𝒓(𝒃𝟐) = 𝝈𝟐 ∑(𝒙𝒕 − 𝒙̅)𝟐 𝒄𝒐𝒗(𝒃𝟏, 𝒃𝟐) = 𝝈𝟐 [− 𝒙̅ ∑(𝒙𝒕 − 𝒙̅)𝟐] Os fatores que afetam as variâncias e covariâncias são: 1. A variância do erro aleatório, 𝝈𝟐, aparece em cada uma das expressões. Reflete a dispersão dos valores 𝒚 em torno de sua média 𝑬(𝒚). Quanto maior a variância 𝝈𝟐, maior será a dispersão, e maior também será a incerteza sobre onde os valores de 𝒚 cairão em relação a sua média 𝑬(𝒚). Quanto maior for 𝝈𝟐, menos precisa será nossa informação sobre 𝜷𝟏 e 𝜷𝟐. Essa variância se reflete na dispersão das distribuições de probabilidade 𝒇(𝒚|𝒙). Quanto maior for a variância 𝝈𝟐, maior será a incerteza inerente ao modelo estatístico, e maiores serão as variâncias e a covariância dos estimadores de mínimos quadrados. 2. A soma dos quadrados dos desvios de 𝒙 em relação a sua média amostral, ∑(𝒙𝒕 − 𝒙̅)𝟐, aparece em cada uma das variâncias e na covariância. Essa expressão mede quão dispersos em relação a sua média estão os valores amostrais da variável independente ou explanatória 𝒙. Quanto maior a dispersão, maior a soma de quadrados. E quanto menor a dispersão, menor a soma de quadrados. Quanto maior for a soma de quadrados ∑(𝒙𝒕 − 𝒙̅)𝟐, menores serão as variâncias dos estimadores de mínimos quadrados, e mais precisamente poderemos estimar os parâmetros desconhecidos. 3. Quanto maior for o tamanho 𝑻 da amostra, menores serão as variâncias e a covariância dos estimadores de mínimos quadrados, ou seja, quanto mais dados amostrais estiverem a nossa disposição, melhor será. O tamanho 𝑻 da amostra aparece em todas as variâncias e covariância, porque cada soma é formada por 𝑻 termos. O termo da soma de quadrados ∑(𝒙𝒕 − 𝒙̅)𝟐 torna-se cada vez maior à medida que 𝑻 aumento, tanto 𝒗𝒂𝒓(𝒃𝟐) como 𝒄𝒐𝒗(𝒃𝟏, 𝒃𝟐) se tornam menores, pois a soma de quadrados aparece em seu denominador. As somas no numerador e no denominador de 𝒗𝒂𝒓(𝒃𝟏) se tornam ambas maiores conforme 𝑻 aumenta e se compensam mutuamente, deixando 𝑻 no denominador como termo dominante, o que assegura que 𝒗𝒂𝒓(𝒃𝟏) também diminua quando 𝑻 aumentar. 4. O termo ∑ 𝒙𝟐 aparece em 𝒗𝒂𝒓(𝒃𝟏). Quanto maior esse termo, maior a variância no estimador de mínimos quadrados 𝒃𝟏. Isso ocorre porque o parâmetro de intercepto 𝜷𝟏 é o valor esperado de 𝒚 para 𝒙 = 0. E quanto mais afastados de 𝒙 = 𝟎 estão os dados, mais difíceis se tornam não só a interpretação de 𝜷𝟏, como a estimação precisa de 𝜷𝟏. O termo ∑ 𝒙𝟐 mede a distância dos dados à origem 𝒙 = 𝟎. Se os valores de 𝒙 estão próximos de zero, então ∑ 𝒙𝟐 é pequeno, o que reduz 𝒗𝒂𝒓(𝒃𝟏). Mas, se os valores de 𝒙 são grandes em módulo, o termo ∑ 𝒙𝟐 será também grande e 𝒗𝒂𝒓(𝒃𝟏) será maior. 5. A média amostral dos valores de 𝒙 aparece em 𝒄𝒐𝒗(𝒃𝟏, 𝒃𝟐). A covariância aumenta quanto maior for, em módulo, a média da amostra 𝒙̅, e a covariância tem sinal oposto ao de 𝒙̅. Quando a média da amostra é positiva há uma covariância negativa entre os estimadores de mínimos quadrados do coeficiente angular e do intercepto. Estimadores Lineares O estimador de mínimos quadrados 𝒃𝟐 é uma soma ponderada das observações 𝒚𝒕, 𝒃𝟐 = ∑ 𝒘𝒕 𝒚𝒕. Podemos descrever 𝒃𝟐 como um estimador linear, não tendencioso de 𝜷𝟐, com variância dada por 𝒗𝒂𝒓(𝒃𝟐) = 𝝈𝟐 ∑(𝒙𝒕−𝒙̅)𝟐. O Teorema de Gauss-Markov Sob os pressupostos (1) 𝒚𝒕 = 𝜷𝟏 + 𝜷𝟐 𝒙𝒕 + 𝒆𝒕, (2) 𝑬(𝒆𝒕) = 𝟎 ↔ 𝑬(𝒚𝒕) = 𝜷𝟏 + 𝜷𝟐 𝒙𝒕, (3) 𝒗𝒂𝒓(𝒆𝒕) = 𝝈𝟐 = 𝒗𝒂𝒓(𝒚), (4) 𝒄𝒐𝒗(𝒆𝒊, 𝒆𝒋) = 𝒄𝒐𝒗(𝒚𝒊, 𝒚𝒋) = 𝟎 e (5) 𝒙𝒕 não é aleatória e deve assumir pelo menos dois valores distintos, do modelo de regressão linear, os estimadores 𝒃𝟏 e 𝒃𝟐 têm a menor variância dentre todos os estimadores lineares não tendenciosos de 𝜷𝟏 e 𝜷𝟐, ou seja, são os melhores. O teorema assegura que os estimadores 𝒃𝟏 e 𝒃𝟐 são os melhores quando comparados a estimadores análogos, isto é, lineares e não tendenciosos. Não afirma que 𝒃𝟏 e 𝒃𝟐 sejam os melhores dentre todos os estimadores possíveis. Os estimadores 𝒃𝟏 e 𝒃𝟐 são os melhores dentro de sua classe porque têm variância mínima. Para que o teorema de Gauss-Markov se verifique, os pressupostos (1) 𝒚𝒕 = 𝜷𝟏 + 𝜷𝟐 𝒙𝒕 + 𝒆𝒕, (2) 𝑬(𝒆𝒕) = 𝟎 ↔ 𝑬(𝒚𝒕) = 𝜷𝟏 + 𝜷𝟐 𝒙𝒕, (3) 𝒗𝒂𝒓(𝒆𝒕) = 𝝈𝟐 = 𝒗𝒂𝒓(𝒚), (4) 𝒄𝒐𝒗(𝒆𝒊, 𝒆𝒋) = 𝒄𝒐𝒗(𝒚𝒊, 𝒚𝒋) = 𝟎 e (5) 𝒙𝒕 não é aleatória e deve assumir pelo menos dois valores distintos, devem ser validados. Se qualquer um desses pressupostos não se verifica, então 𝒃𝟏 e 𝒃𝟐 não são os melhores estimadores lineares não tendenciosos de 𝜷𝟏 e 𝜷𝟐. O teorema de Gauss-Markov não depende do pressuposto de normalidade: 𝒆𝒕~𝑵(𝟎, 𝝈𝟐) ↔ 𝒚𝒕~𝑵[(𝜷𝟏 + 𝜷𝟐 𝒙𝒕), 𝝈𝟐]. O teorema de Gauss-Markov aplica-se aos estimadores de mínimos quadrados. Não se aplica às estimativas de mínimos quadrados feitas com base em uma única amostra. As Distribuições de Probabilidade dos Estimadores de Mínimos Quadrados As propriedades dos estimadores de mínimos quadrados estabelecidas até agora não dependem de modo algum do pressuposto de normalidade (𝒆𝒕~𝑵(𝟎, 𝝈𝟐) ↔ 𝒚𝒕~𝑵[(𝜷𝟏 + 𝜷𝟐 𝒙𝒕), 𝝈𝟐]). Se acrescentarmos esse pressuposto, de que os erros aleatórios 𝒆𝒕 são distribuídos normalmente com média 0 e variância 𝝈𝟐, então as distribuições de probabilidade dos estimadores de mínimos quadrados serão também normais. A essa conclusão podemos chegar em duas etapas. Primeiro, com base no pressuposto 𝒚𝒕 = 𝜷𝟏 + 𝜷𝟐 𝒙𝒕 + 𝒆𝒕, se 𝒆𝒕 é normal, também o é 𝒚𝒕. Segundo, os estimadores de mínimos quadrados são estimadores lineares, da forma 𝒃𝟐 = ∑ 𝒘𝒕 𝒚𝒕 e as somas ponderadas de variáveis aleatórias normais, utilizando 𝒁 = 𝒄𝟏𝑿𝟏 + 𝒄𝟐𝑿𝟐 + 𝒄𝟑𝑿𝟑 ~ 𝑵[𝑬(𝒁), 𝒗𝒂𝒓(𝒁)], têm elas também distribuições normais. Consequentemente, se admitirmos a normalidade (pressuposto 𝒆𝒕~𝑵(𝟎, 𝝈𝟐) ↔ 𝒚𝒕~𝑵[(𝜷𝟏 + 𝜷𝟐 𝒙𝒕), 𝝈𝟐] do termo de erro) então os estimadores de mínimos quadrados são distribuídos normalmente. 𝒃𝟏~𝑵 (𝜷𝟏 , 𝝈𝟐 ∑ 𝒙𝒕 𝟐 𝑻 ∑(𝒙𝒕 − 𝒙̅)𝟐) 𝒃𝟐~𝑵 (𝜷𝟐 , 𝝈𝟐 ∑(𝒙𝒕 − 𝒙̅)𝟐) Mas e se os erros não forem distribuídos normalmente? Poderemos dizer algo sobre a distribuição de probabilidade dos estimadores de mínimos quadrados? A resposta é: às vezes, sim. Se os pressupostos (1) 𝒚𝒕 = 𝜷𝟏 + 𝜷𝟐 𝒙𝒕 + 𝒆𝒕, (2) 𝑬(𝒆𝒕) = 𝟎 ↔ 𝑬(𝒚𝒕) = 𝜷𝟏 + 𝜷𝟐 𝒙𝒕, (3) 𝒗𝒂𝒓(𝒆𝒕) = 𝝈𝟐 = 𝒗𝒂𝒓(𝒚), (4) 𝒄𝒐𝒗(𝒆𝒊, 𝒆𝒋) = 𝒄𝒐𝒗(𝒚𝒊, 𝒚𝒋) = 𝟎 e (5) 𝒙𝒕 não é aleatória e deve assumir pelo menos dois valores distintos valem, e se o tamanho 𝑻 da amostra é suficientemente grande, então os estimadores de mínimos quadrados têm uma distribuições que se aproxima das distribuições normais dadas acima. A questão fundamental é “quão grande é suficientemente grande?”. A resposta é: não há um número específico. A razão para essa resposta vaga e insatisfatória é que o quão grande depende de muitos fatores, como a forma das distribuições dos erros aleatórios (são suaves? são simétricos?) Estimação da Variância do Termo de Erro A variância do erro aleatório, 𝝈𝟐, é o único parâmetro desconhecido do modelo de regressão linear simples que ainda deve ser estimado. A variância da variável aleatória 𝒆𝒕 é 𝒗𝒂𝒓(𝒆𝒕) = 𝝈𝟐 = 𝑬[𝒆𝒕 − 𝑬(𝒆𝒕)]𝟐 = 𝑬(𝒆𝒕 𝟐) se a suposição 𝑬(𝒆𝒕) = 𝟎 é correta. Como esperança é um valor médio, poderíamos cogitar estimar 𝝈𝟐 como a média dos quadrados dos erros 𝝈𝟐 ̂ = ∑ 𝒆𝒕𝟐 𝑻 . Infelizmente, a fórmula 𝝈𝟐 ̂ = ∑ 𝒆𝒕𝟐 𝑻 não tem qualquer utilidade, porque os erros aleatórios 𝒆𝒕 não são observáveis. Entretanto, embora os erros sejam desconhecidos, temos uma versão análoga, a saber, os resíduos de mínimos quadrados. Sendo os erros aleatórios 𝒆𝒕 = 𝒚𝒕 − 𝜷𝟏 − 𝜷𝟐 𝒙𝒕 e os resíduos de mínimos quadrados são obtidos substituindo-se os parâmetros desconhecidos por seus estimadores de mínimos quadrados, 𝒆̂𝒕 = 𝒚𝒕 − 𝒃𝟏 − 𝒃𝟐 𝒙𝒕. Parece razoável substituir os erros aleatórios 𝒆𝒕 em 𝝈𝟐 ̂ = ∑ 𝒆𝒕𝟐 𝑻 por seus análogos, os resíduos de mínimos quadrados, para obter 𝝈𝟐 ̂ = ∑ 𝒆̂𝒕𝟐 𝑻 . Infelizmente, o estimador em 𝝈𝟐 ̂ = ∑ 𝒆̂𝒕𝟐 𝑻 é um estimador tendencioso de 𝝈𝟐. Entretanto, há uma modificação simples que produz um estimador não tendencioso 𝝈𝟐 ̂ = ∑ 𝒆̂𝒕𝟐 𝑻−𝟐. O “𝟐” que é subtraído do denominador é o número de parâmetros de regressão (𝜷𝟏, 𝜷𝟐) no modelo, e essa subtração torna o estimador 𝝈𝟐 ̂ não tendencioso, de forma que 𝑬(𝝈𝟐 ̂) = 𝝈𝟐. Consequentemente, antes de obtidos os dados, temos a nossa disposição um processo de estimação não tendenciosa para a variância do erro aleatório 𝝈𝟐. Estimação das Variâncias e Covariâncias dos Estimadores de Mínimos Quadrados Dispondo de um estimador não tendencioso da variância do erro, podemos estimar as variâncias dos estimadores de mínimos quadrados 𝒃𝟏 e 𝒃𝟐 e a covariância entre eles. Substituindo a variância do erro desconhecida 𝝈𝟐 nas variâncias e covariâncias por seu estimador, obtemos: 𝒗𝒂̂𝒓(𝒃𝟏) = 𝝈̂𝟐 [ ∑ 𝒙𝒕 𝟐 𝑻 ∑(𝒙𝒕 − 𝒙̅)𝟐] , 𝒆𝒑(𝒃𝟏) = √𝒗𝒂̂𝒓(𝒃𝟏) 𝒗𝒂̂𝒓(𝒃𝟐) = 𝝈̂𝟐 ∑(𝒙𝒕 − 𝒙̅)𝟐 , 𝒆𝒑(𝒃𝟐) = √𝒗𝒂̂𝒓(𝒃𝟐) 𝒄𝒐̂𝒗(𝒃𝟏, 𝒃𝟐) = 𝝈̂𝟐 [− 𝒙̅ ∑(𝒙𝒕 − 𝒙̅)𝟐] As raízes quadradas das variâncias estimadas 𝒆𝒑(𝒃𝟏) e 𝒆𝒑(𝒃𝟐) são os erros-padrão de 𝒃𝟏 e 𝒃𝟐.
Send your question to AI and receive an answer instantly
Recommended for you
23
P1 - Econometria 1 2022-1
Econometria
UFF
22
Gretl-Guia-Pratico-Econometria-Analise-Dados
Econometria
UFF
2
Exercícios Laboratório 5 - Econometria 2022-2
Econometria
UFF
51
Apostila Econometria 2020
Econometria
UFF
21
Apostila 2 - Econometria 2020
Econometria
UFF
3
Lista 2 - Econometria 1 2022-1
Econometria
UFF
5
Lista 4 - Econometria 1 2022-1
Econometria
UFF
7
Exercícios - Econometria - 2023-2
Econometria
UFF
3
Lista 3 - Econometria 1 2022-1
Econometria
UFF
1
Anotacoes Teorema de Gauss Markov e Modelo Classico de Regressao Linear Normal
Econometria
UFF
Preview text
Propriedades do Estimadores de Mínimos Quadrados Antonio Matheus Sá Pressupostos do Modelo de Regressão Linear Simples 1. 𝒚𝒕 = 𝜷𝟏 + 𝜷𝟐 𝒙𝒕 + 𝒆𝒕 2. 𝑬(𝒆𝒕) = 𝟎 ↔ 𝑬(𝒚𝒕) = 𝜷𝟏 + 𝜷𝟐 𝒙𝒕 3. 𝒗𝒂𝒓(𝒆𝒕) = 𝝈𝟐 = 𝒗𝒂𝒓(𝒚) 4. 𝒄𝒐𝒗(𝒆𝒊, 𝒆𝒋) = 𝒄𝒐𝒗(𝒚𝒊, 𝒚𝒋) = 𝟎 5. 𝒙𝒕, não é aleatória e deve assumir, pelo menos, dois valores distintos. 6. 𝒆𝒕~𝑵(𝟎, 𝝈𝟐) ↔ 𝒚𝒕~𝑵[(𝜷𝟏 + 𝜷𝟐 𝒙𝒕), 𝝈𝟐] (opcional) Os Estimadores de Mínimos Quadrados como Variáveis Aleatórias Com base nos pressupostos acima, investigaremos as propriedades estatísticas dos estimadores de mínimos quadrados, que são procedimentos para obter estimativas dos parâmetros desconhecidos 𝜷𝟏 e 𝜷𝟐 no modelo de regressão linear simples. Nesse contexto, 𝒃𝟏 e 𝒃𝟐 são variáveis aleatórias. Uma vez coletados os dados, as estimativas de mínimos quadrados são números calculados. Na análise pós-dados, as quantidades não aleatórias como essa não têm quaisquer propriedades estatísticas. Sua confiabilidade e utilidade são avaliadas em termos das propriedades dos processos pelos quais tais quantidades foram obtidas. Podemos agora estudar as propriedades dos estimadores aleatórios 𝒃𝟏 e 𝒃𝟐 e abordar as seguintes importantes questões: 1. Se os estimadores de mínimos quadrados 𝒃𝟏 e 𝒃𝟐 são variáveis aleatórias, quais serão suas médias, variâncias, covariâncias e distribuições de probabilidade? 2. O princípio dos mínimos quadrados é apenas uma forma de utilizar os dados para obter estimativas de 𝜷𝟏 e 𝜷𝟐. Como se comparam os estimadores de mínimos quadrados com outras regras que poderiam ser usadas, e como podemos comparar estimadores alternativos? Por exemplo, haverá outro estimador que tenha maior probabilidade de produzir uma estimativa próxima a 𝜷𝟐? Propriedades Amostrais dos Estimadores de Mínimos Quadrados Os estimadores de mínimos quadrados 𝒃𝟏 e 𝒃𝟐 são variáveis aleatória e têm distribuições de probabilidade que podemos estudar antes da coleta de quaisquer dados. As características de suas funções densidade de probabilidade são de grande interesse para nós. Se essas funções são conhecidas, podem ser usadas para fazer afirmações probabilísticas sobre 𝒃𝟏 e 𝒃𝟐. As médias (valores esperados) e as variâncias das variáveis aleatórias caracterizam a localização e a dispersão de suas distribuições de probabilidade. As médias e variâncias de 𝒃𝟏 e 𝒃𝟐 informam sobre os intervalos de valores que 𝒃𝟏 e 𝒃𝟐 provavelmente tomarão. O conhecimento desses intervalos é importante porque nosso objetivo é obter estimativas próximas dos verdadeiros valores dos parâmetros. Veremos a seguir como determinar as médias e as variâncias dos estimadores de mínimos quadrados 𝒃𝟏 e 𝒃𝟐. Como 𝒃𝟏 e 𝒃𝟐 são variáveis aleatórias, podem ter uma covariância que também será determinada. Valores Esperados de 𝒃𝟏 e 𝒃𝟐 O estimador 𝒃𝟐 de mínimos quadrados do parâmetro 𝜷𝟐 (coeficiente angular), baseado em uma amostra de 𝑻 observações é 𝒃𝟐 = 𝑻 ∑ 𝒙𝒕𝒚𝒕−∑𝒙𝒕 ∑ 𝒚𝒕 𝑻 ∑ 𝒙𝒕𝟐−(∑𝒙𝒕)𝟐 . O estimador de mínimos quadrados 𝒃𝟏 do parâmetro 𝜷𝟏 é 𝒃𝟏 = 𝒚̅ − 𝒃𝟐𝒙̅ em que 𝒚̅ = ∑ 𝒚𝒕 𝑻 e 𝒙̅ = ∑ 𝒙𝒕 𝑻 são as médias amostrais das observações sobre 𝒚 e 𝒙, respectivamente. Para determinar o valor esperado de 𝒃𝟐 começamos reescrevendo a fórmula 𝒃𝟐 = 𝑻 ∑ 𝒙𝒕𝒚𝒕−∑𝒙𝒕 ∑ 𝒚𝒕 𝑻 ∑ 𝒙𝒕𝟐−(∑𝒙𝒕)𝟐 na seguinte forma: 𝒃𝟐 − 𝜷𝟐 + ∑ 𝒘𝒕 𝒆𝒕 em que 𝒘𝒕 é uma constante (não aleatória) dado por 𝒘𝒕 = 𝒙𝒕−𝒙̅ ∑(𝒙𝒕−𝒙̅)𝟐. Como 𝒘𝒕 é uma constante, que depende apenas dos valores de 𝒙𝒕, podemos achar o valor esperado de 𝒃𝟐, com base no fato de que o valor esperado de uma soma é a soma dos valores esperados das parcelas e 𝑬(𝒆𝒕) = 𝟎, nós temos: 𝑬(𝒃𝟐) = 𝑬 (𝜷𝟐 + ∑ 𝒘𝒕 𝒆𝒕) = 𝑬(𝜷𝟐 + 𝒘𝟏 𝒆𝟏 + 𝒘𝟐 𝒆𝟐 + ⋯ + 𝒘𝒕 𝒆𝒕) = 𝑬(𝜷𝟐) + 𝑬(𝒘𝟏 𝒆𝟏) + 𝑬(𝒘𝟐 𝒆𝟐) + ⋯ + 𝑬(𝒘𝒕 𝒆𝒕) = 𝑬(𝜷𝟐) + ∑ 𝑬(𝒘𝒕 𝒆𝒕) = 𝜷𝟐 + ∑ 𝒘𝒕 𝑬(𝒆𝒕) = 𝜷𝟐 Quando o valor esperado de qualquer estimador de um parâmetro é igual ao verdadeiro valor do parâmetro, o estimador se diz não tendencioso (ou não viesado). Como 𝑬(𝒃𝟐) = 𝜷𝟐, o estimador de mínimos quadrados 𝒃𝟐 é um estimador não tendencioso de 𝜷𝟐. O significado intuitivo da não-tendenciosidade decorre da interpretação da esperança matemática de um processo de amostragem repetida. Se coletarmos muitas amostras de tamanho 𝑻 e aplicarmos a fórmula 𝒃𝟐 = 𝑻 ∑ 𝒙𝒕𝒚𝒕−∑𝒙𝒕 ∑ 𝒚𝒕 𝑻 ∑ 𝒙𝒕𝟐−(∑𝒙𝒕)𝟐 para estimar 𝜷𝟐, então o valor médio das estimativas 𝒃𝟐 obtidas de todas essas amostras será 𝜷𝟐. A propriedade de não-tendenciosidade depende de termos muitas amostras de dados da mesma população. Uma estimativa individual 𝒃𝟐 pode estar muito próxima ou muito afastada de 𝜷𝟐. Como 𝜷𝟐 nunca é conhecido, jamais saberemos. Variância e Covariância de 𝒃𝟏 e 𝒃𝟐 Dados os valores esperados, ou médias, de 𝒃𝟏 e 𝒃𝟐, nossa atenção se volta, agora, para a precisão desses estimadores. A variância da variável aleatória 𝒃𝟐 é a média dos quadrados das distâncias entre os valores da variável aleatória e sua média, que agora sabemos que é 𝑬(𝒃𝟐) = 𝜷𝟐. Define-se a variância de 𝒃𝟐 como 𝒗𝒂𝒓(𝒃𝟐) = 𝑬[𝒃𝟐 − 𝑬(𝒃𝟐)]𝟐. A variância de 𝒃𝟐 mede a dispersão da distribuição de probabilidade 𝒃𝟐. Na figura abaixo vemos os gráficos de duas distribuições de probabilidade possíveis de 𝒃𝟐, 𝒇𝟏(𝒃𝟐) e 𝒇𝟐(𝒃𝟐), que têm a mesma média, mas variâncias diferentes. A função densidade de probabilidade 𝒇𝟐(𝒃𝟐) tem menor variância do que a função densidade de probabilidade 𝒇𝟏(𝒃𝟐). Ante a possibilidade de uma escolha, estamos interessados na precisão do estimador, e assim preferiríamos que 𝒃𝟐 tivesse a distribuição de probabilidade 𝒇𝟐(𝒃𝟐), em lugar de 𝒇𝟏(𝒃𝟐). Com a distribuição de 𝒇𝟐(𝒃𝟐), a probabilidade está mais concentrada em torno do verdadeiro valor do parâmetro 𝜷𝟐, dando, em relação a 𝒇𝟏(𝒃𝟐), uma probabilidade mais elevada de obtermos uma estimativa próxima de 𝜷𝟐. A variância de um estimador mede a sua precisão, na medida em que nos diz quanto as estimativas produzidas por aquele estimador podem variar de uma amostra para outra. Quanto menor a variância de um estimador, maior sua precisão amostral. Um estimador é mais preciso do que outro se sua variância amostral é menor do que a do outro estimador. Passemos agora ao estudo das variâncias e covariâncias de 𝒃𝟏 e 𝒃𝟐: 𝒗𝒂𝒓(𝒃𝟏) = 𝝈𝟐 [ ∑ 𝒙𝒕 𝟐 𝑻 ∑(𝒙𝒕 − 𝒙̅)𝟐] 𝒗𝒂𝒓(𝒃𝟐) = 𝝈𝟐 ∑(𝒙𝒕 − 𝒙̅)𝟐 𝒄𝒐𝒗(𝒃𝟏, 𝒃𝟐) = 𝝈𝟐 [− 𝒙̅ ∑(𝒙𝒕 − 𝒙̅)𝟐] Os fatores que afetam as variâncias e covariâncias são: 1. A variância do erro aleatório, 𝝈𝟐, aparece em cada uma das expressões. Reflete a dispersão dos valores 𝒚 em torno de sua média 𝑬(𝒚). Quanto maior a variância 𝝈𝟐, maior será a dispersão, e maior também será a incerteza sobre onde os valores de 𝒚 cairão em relação a sua média 𝑬(𝒚). Quanto maior for 𝝈𝟐, menos precisa será nossa informação sobre 𝜷𝟏 e 𝜷𝟐. Essa variância se reflete na dispersão das distribuições de probabilidade 𝒇(𝒚|𝒙). Quanto maior for a variância 𝝈𝟐, maior será a incerteza inerente ao modelo estatístico, e maiores serão as variâncias e a covariância dos estimadores de mínimos quadrados. 2. A soma dos quadrados dos desvios de 𝒙 em relação a sua média amostral, ∑(𝒙𝒕 − 𝒙̅)𝟐, aparece em cada uma das variâncias e na covariância. Essa expressão mede quão dispersos em relação a sua média estão os valores amostrais da variável independente ou explanatória 𝒙. Quanto maior a dispersão, maior a soma de quadrados. E quanto menor a dispersão, menor a soma de quadrados. Quanto maior for a soma de quadrados ∑(𝒙𝒕 − 𝒙̅)𝟐, menores serão as variâncias dos estimadores de mínimos quadrados, e mais precisamente poderemos estimar os parâmetros desconhecidos. 3. Quanto maior for o tamanho 𝑻 da amostra, menores serão as variâncias e a covariância dos estimadores de mínimos quadrados, ou seja, quanto mais dados amostrais estiverem a nossa disposição, melhor será. O tamanho 𝑻 da amostra aparece em todas as variâncias e covariância, porque cada soma é formada por 𝑻 termos. O termo da soma de quadrados ∑(𝒙𝒕 − 𝒙̅)𝟐 torna-se cada vez maior à medida que 𝑻 aumento, tanto 𝒗𝒂𝒓(𝒃𝟐) como 𝒄𝒐𝒗(𝒃𝟏, 𝒃𝟐) se tornam menores, pois a soma de quadrados aparece em seu denominador. As somas no numerador e no denominador de 𝒗𝒂𝒓(𝒃𝟏) se tornam ambas maiores conforme 𝑻 aumenta e se compensam mutuamente, deixando 𝑻 no denominador como termo dominante, o que assegura que 𝒗𝒂𝒓(𝒃𝟏) também diminua quando 𝑻 aumentar. 4. O termo ∑ 𝒙𝟐 aparece em 𝒗𝒂𝒓(𝒃𝟏). Quanto maior esse termo, maior a variância no estimador de mínimos quadrados 𝒃𝟏. Isso ocorre porque o parâmetro de intercepto 𝜷𝟏 é o valor esperado de 𝒚 para 𝒙 = 0. E quanto mais afastados de 𝒙 = 𝟎 estão os dados, mais difíceis se tornam não só a interpretação de 𝜷𝟏, como a estimação precisa de 𝜷𝟏. O termo ∑ 𝒙𝟐 mede a distância dos dados à origem 𝒙 = 𝟎. Se os valores de 𝒙 estão próximos de zero, então ∑ 𝒙𝟐 é pequeno, o que reduz 𝒗𝒂𝒓(𝒃𝟏). Mas, se os valores de 𝒙 são grandes em módulo, o termo ∑ 𝒙𝟐 será também grande e 𝒗𝒂𝒓(𝒃𝟏) será maior. 5. A média amostral dos valores de 𝒙 aparece em 𝒄𝒐𝒗(𝒃𝟏, 𝒃𝟐). A covariância aumenta quanto maior for, em módulo, a média da amostra 𝒙̅, e a covariância tem sinal oposto ao de 𝒙̅. Quando a média da amostra é positiva há uma covariância negativa entre os estimadores de mínimos quadrados do coeficiente angular e do intercepto. Estimadores Lineares O estimador de mínimos quadrados 𝒃𝟐 é uma soma ponderada das observações 𝒚𝒕, 𝒃𝟐 = ∑ 𝒘𝒕 𝒚𝒕. Podemos descrever 𝒃𝟐 como um estimador linear, não tendencioso de 𝜷𝟐, com variância dada por 𝒗𝒂𝒓(𝒃𝟐) = 𝝈𝟐 ∑(𝒙𝒕−𝒙̅)𝟐. O Teorema de Gauss-Markov Sob os pressupostos (1) 𝒚𝒕 = 𝜷𝟏 + 𝜷𝟐 𝒙𝒕 + 𝒆𝒕, (2) 𝑬(𝒆𝒕) = 𝟎 ↔ 𝑬(𝒚𝒕) = 𝜷𝟏 + 𝜷𝟐 𝒙𝒕, (3) 𝒗𝒂𝒓(𝒆𝒕) = 𝝈𝟐 = 𝒗𝒂𝒓(𝒚), (4) 𝒄𝒐𝒗(𝒆𝒊, 𝒆𝒋) = 𝒄𝒐𝒗(𝒚𝒊, 𝒚𝒋) = 𝟎 e (5) 𝒙𝒕 não é aleatória e deve assumir pelo menos dois valores distintos, do modelo de regressão linear, os estimadores 𝒃𝟏 e 𝒃𝟐 têm a menor variância dentre todos os estimadores lineares não tendenciosos de 𝜷𝟏 e 𝜷𝟐, ou seja, são os melhores. O teorema assegura que os estimadores 𝒃𝟏 e 𝒃𝟐 são os melhores quando comparados a estimadores análogos, isto é, lineares e não tendenciosos. Não afirma que 𝒃𝟏 e 𝒃𝟐 sejam os melhores dentre todos os estimadores possíveis. Os estimadores 𝒃𝟏 e 𝒃𝟐 são os melhores dentro de sua classe porque têm variância mínima. Para que o teorema de Gauss-Markov se verifique, os pressupostos (1) 𝒚𝒕 = 𝜷𝟏 + 𝜷𝟐 𝒙𝒕 + 𝒆𝒕, (2) 𝑬(𝒆𝒕) = 𝟎 ↔ 𝑬(𝒚𝒕) = 𝜷𝟏 + 𝜷𝟐 𝒙𝒕, (3) 𝒗𝒂𝒓(𝒆𝒕) = 𝝈𝟐 = 𝒗𝒂𝒓(𝒚), (4) 𝒄𝒐𝒗(𝒆𝒊, 𝒆𝒋) = 𝒄𝒐𝒗(𝒚𝒊, 𝒚𝒋) = 𝟎 e (5) 𝒙𝒕 não é aleatória e deve assumir pelo menos dois valores distintos, devem ser validados. Se qualquer um desses pressupostos não se verifica, então 𝒃𝟏 e 𝒃𝟐 não são os melhores estimadores lineares não tendenciosos de 𝜷𝟏 e 𝜷𝟐. O teorema de Gauss-Markov não depende do pressuposto de normalidade: 𝒆𝒕~𝑵(𝟎, 𝝈𝟐) ↔ 𝒚𝒕~𝑵[(𝜷𝟏 + 𝜷𝟐 𝒙𝒕), 𝝈𝟐]. O teorema de Gauss-Markov aplica-se aos estimadores de mínimos quadrados. Não se aplica às estimativas de mínimos quadrados feitas com base em uma única amostra. As Distribuições de Probabilidade dos Estimadores de Mínimos Quadrados As propriedades dos estimadores de mínimos quadrados estabelecidas até agora não dependem de modo algum do pressuposto de normalidade (𝒆𝒕~𝑵(𝟎, 𝝈𝟐) ↔ 𝒚𝒕~𝑵[(𝜷𝟏 + 𝜷𝟐 𝒙𝒕), 𝝈𝟐]). Se acrescentarmos esse pressuposto, de que os erros aleatórios 𝒆𝒕 são distribuídos normalmente com média 0 e variância 𝝈𝟐, então as distribuições de probabilidade dos estimadores de mínimos quadrados serão também normais. A essa conclusão podemos chegar em duas etapas. Primeiro, com base no pressuposto 𝒚𝒕 = 𝜷𝟏 + 𝜷𝟐 𝒙𝒕 + 𝒆𝒕, se 𝒆𝒕 é normal, também o é 𝒚𝒕. Segundo, os estimadores de mínimos quadrados são estimadores lineares, da forma 𝒃𝟐 = ∑ 𝒘𝒕 𝒚𝒕 e as somas ponderadas de variáveis aleatórias normais, utilizando 𝒁 = 𝒄𝟏𝑿𝟏 + 𝒄𝟐𝑿𝟐 + 𝒄𝟑𝑿𝟑 ~ 𝑵[𝑬(𝒁), 𝒗𝒂𝒓(𝒁)], têm elas também distribuições normais. Consequentemente, se admitirmos a normalidade (pressuposto 𝒆𝒕~𝑵(𝟎, 𝝈𝟐) ↔ 𝒚𝒕~𝑵[(𝜷𝟏 + 𝜷𝟐 𝒙𝒕), 𝝈𝟐] do termo de erro) então os estimadores de mínimos quadrados são distribuídos normalmente. 𝒃𝟏~𝑵 (𝜷𝟏 , 𝝈𝟐 ∑ 𝒙𝒕 𝟐 𝑻 ∑(𝒙𝒕 − 𝒙̅)𝟐) 𝒃𝟐~𝑵 (𝜷𝟐 , 𝝈𝟐 ∑(𝒙𝒕 − 𝒙̅)𝟐) Mas e se os erros não forem distribuídos normalmente? Poderemos dizer algo sobre a distribuição de probabilidade dos estimadores de mínimos quadrados? A resposta é: às vezes, sim. Se os pressupostos (1) 𝒚𝒕 = 𝜷𝟏 + 𝜷𝟐 𝒙𝒕 + 𝒆𝒕, (2) 𝑬(𝒆𝒕) = 𝟎 ↔ 𝑬(𝒚𝒕) = 𝜷𝟏 + 𝜷𝟐 𝒙𝒕, (3) 𝒗𝒂𝒓(𝒆𝒕) = 𝝈𝟐 = 𝒗𝒂𝒓(𝒚), (4) 𝒄𝒐𝒗(𝒆𝒊, 𝒆𝒋) = 𝒄𝒐𝒗(𝒚𝒊, 𝒚𝒋) = 𝟎 e (5) 𝒙𝒕 não é aleatória e deve assumir pelo menos dois valores distintos valem, e se o tamanho 𝑻 da amostra é suficientemente grande, então os estimadores de mínimos quadrados têm uma distribuições que se aproxima das distribuições normais dadas acima. A questão fundamental é “quão grande é suficientemente grande?”. A resposta é: não há um número específico. A razão para essa resposta vaga e insatisfatória é que o quão grande depende de muitos fatores, como a forma das distribuições dos erros aleatórios (são suaves? são simétricos?) Estimação da Variância do Termo de Erro A variância do erro aleatório, 𝝈𝟐, é o único parâmetro desconhecido do modelo de regressão linear simples que ainda deve ser estimado. A variância da variável aleatória 𝒆𝒕 é 𝒗𝒂𝒓(𝒆𝒕) = 𝝈𝟐 = 𝑬[𝒆𝒕 − 𝑬(𝒆𝒕)]𝟐 = 𝑬(𝒆𝒕 𝟐) se a suposição 𝑬(𝒆𝒕) = 𝟎 é correta. Como esperança é um valor médio, poderíamos cogitar estimar 𝝈𝟐 como a média dos quadrados dos erros 𝝈𝟐 ̂ = ∑ 𝒆𝒕𝟐 𝑻 . Infelizmente, a fórmula 𝝈𝟐 ̂ = ∑ 𝒆𝒕𝟐 𝑻 não tem qualquer utilidade, porque os erros aleatórios 𝒆𝒕 não são observáveis. Entretanto, embora os erros sejam desconhecidos, temos uma versão análoga, a saber, os resíduos de mínimos quadrados. Sendo os erros aleatórios 𝒆𝒕 = 𝒚𝒕 − 𝜷𝟏 − 𝜷𝟐 𝒙𝒕 e os resíduos de mínimos quadrados são obtidos substituindo-se os parâmetros desconhecidos por seus estimadores de mínimos quadrados, 𝒆̂𝒕 = 𝒚𝒕 − 𝒃𝟏 − 𝒃𝟐 𝒙𝒕. Parece razoável substituir os erros aleatórios 𝒆𝒕 em 𝝈𝟐 ̂ = ∑ 𝒆𝒕𝟐 𝑻 por seus análogos, os resíduos de mínimos quadrados, para obter 𝝈𝟐 ̂ = ∑ 𝒆̂𝒕𝟐 𝑻 . Infelizmente, o estimador em 𝝈𝟐 ̂ = ∑ 𝒆̂𝒕𝟐 𝑻 é um estimador tendencioso de 𝝈𝟐. Entretanto, há uma modificação simples que produz um estimador não tendencioso 𝝈𝟐 ̂ = ∑ 𝒆̂𝒕𝟐 𝑻−𝟐. O “𝟐” que é subtraído do denominador é o número de parâmetros de regressão (𝜷𝟏, 𝜷𝟐) no modelo, e essa subtração torna o estimador 𝝈𝟐 ̂ não tendencioso, de forma que 𝑬(𝝈𝟐 ̂) = 𝝈𝟐. Consequentemente, antes de obtidos os dados, temos a nossa disposição um processo de estimação não tendenciosa para a variância do erro aleatório 𝝈𝟐. Estimação das Variâncias e Covariâncias dos Estimadores de Mínimos Quadrados Dispondo de um estimador não tendencioso da variância do erro, podemos estimar as variâncias dos estimadores de mínimos quadrados 𝒃𝟏 e 𝒃𝟐 e a covariância entre eles. Substituindo a variância do erro desconhecida 𝝈𝟐 nas variâncias e covariâncias por seu estimador, obtemos: 𝒗𝒂̂𝒓(𝒃𝟏) = 𝝈̂𝟐 [ ∑ 𝒙𝒕 𝟐 𝑻 ∑(𝒙𝒕 − 𝒙̅)𝟐] , 𝒆𝒑(𝒃𝟏) = √𝒗𝒂̂𝒓(𝒃𝟏) 𝒗𝒂̂𝒓(𝒃𝟐) = 𝝈̂𝟐 ∑(𝒙𝒕 − 𝒙̅)𝟐 , 𝒆𝒑(𝒃𝟐) = √𝒗𝒂̂𝒓(𝒃𝟐) 𝒄𝒐̂𝒗(𝒃𝟏, 𝒃𝟐) = 𝝈̂𝟐 [− 𝒙̅ ∑(𝒙𝒕 − 𝒙̅)𝟐] As raízes quadradas das variâncias estimadas 𝒆𝒑(𝒃𝟏) e 𝒆𝒑(𝒃𝟐) são os erros-padrão de 𝒃𝟏 e 𝒃𝟐.