26
Análise de Regressão
FMU
48
Análise de Regressão
FMU
1
Análise de Regressão
UMG
20
Análise de Regressão
ESPM
1
Análise de Regressão
PUC
2
Análise de Regressão
UMG
3
Análise de Regressão
UMG
25
Análise de Regressão
ESPM
1
Análise de Regressão
UMG
5
Análise de Regressão
UNINASSAU
Texto de pré-visualização
REGRESSÃO LINEAR NO R Organização da aula Modelo de regressão linear revisão de conceitos R Organização de dados e arquivos Regressão linear Exercícios Modelo de regressão linear especificação Dada a equação y β1 β2 x e Segue a seguinte notação y variável explicada ou dependente x variável explicativa ou independente e termo erro aleatório β1 β2 parâmetros Esta equação mais os pressupostos em relação ao termo aleatório e especificam um modelo de regressão linear modelo de regressão linear simples uma variável explicativa modelo de regressão linear múltipla mais de uma variável explicativa Modelo de regressão linear especificação Pressupostos em relação a e a o valor de y para cada valor de x é dado por y β1 β2 x e Ex o valor das despesas com alimentação das famílias é decomposto em um componente que varia sistematicamente em função da renda das famílias β1 β2 x e de outro componente que varia aleatoriamente e Modelo de regressão linear especificação Pressupostos em relação a e b e tem distribuição de probabilidades com média zero Ee 0 os erros aleatórios têm média zero Ex as diferenças entre as despesas com alimentação das famílias com mesma renda em relação à média se anulam algumas famílias despendem mais do que a média outras famílias despendem menos do que a média Modelo de regressão linear especificação Pressupostos em relação a e c e tem distribuição de probabilidades com variância constante para qualquer x Ve σ2 os erros aleatórios têm variância constante Ex as diferenças entre as despesas com alimentação das famílias com mesma renda em relação à média são semelhantes independentemente do nível da renda para x 1000 para x 2000 Modelo de regressão linear especificação Pressupostos em relação a e d e tem covariância nula covei ej 0 i j ou correi ej 0 i j os erros aleatórios não são correlacionados entre si Ex as diferenças entre as despesas com alimentação das famílias com mesma renda em relação à média não têm relação entre si as despesas com alimentação das famílias não têm relação entre si Modelo de regressão linear especificação Pressupostos em relação a e e x é não aleatório ou não estocástico fixo no processo de amostragem f e N0σ2 os erros aleatórios têm distribuição normal com média zero e variância constante O termo erro aleatório e representa a parte não sistemática de y ou seja representa o efeito de todos os fatores que não x sobre y Modelo de regressão linear estimação O objetivo da construção de um modelo de regressão linear é estimar os valores dos parâmetros populacionais β1 e β2 da equação y β1 β2 x e a partir de dados amostrais Ou de forma equivalente estimar a reta de regressão populacional Ey β1 β2 x Modelo de regressão linear estimação Minimização da soma dos quadrados dos resíduos min S σ𝑖1 𝑛 ê𝑖 2 sendo êi yi β1 β2 xi Substituindo min S σ𝑖1 𝑛 yi β1 β2 xi2 Resolvendo 𝑆 β1 0 𝑆 β2 0 Modelo de regressão linear estimação Minimização da soma dos quadrados dos resíduos min S σ𝑖1 𝑛 yi β1 β2 xi2 Resolvendo 𝑆 β1 2 σ𝑖1 𝑛 yi β1 β2 xi 1 0 𝑆 β2 2 σ𝑖1 𝑛 yi β1 β2 xi xi 0 β β Modelo de regressão linear estimação Minimização da soma dos quadrados dos resíduos min S σ𝑖1 𝑛 yi β1 β2 xi2 Resolvendo β1 തy β2 തx n σ𝑖1 𝑛 yi xi σ𝑖1 𝑛 xi σ𝑖1 𝑛 yi β2 n σ𝑖1 𝑛 xi2 σ𝑖1 𝑛 xi 2 ou σi1 n xi തx yi തy β2 σi1 n xi തx2 Modelo de regressão linear estimação Minimização da soma dos quadrados dos resíduos As fórmulas encontradas para β1 e β2 são chamadas de estimadores de mínimos quadrados Valores específicos para β1 e β2 obtidos a partir destas fórmulas são chamados de estimativas de mínimos quadrados Um estimador é uma variável aleatória valores não são conhecidos a priori e ocorrem com determinadas probabilidades Modelo de regressão linear estimação Propriedades desejáveis dos estimadores de mínimos quadrados O fato de se trabalhar com amostras faz com que as estimativas dependam delas amostras diferentes geram estimativas diferentes O princípio básico está em encontrar estimativas as mais próximas possíveis do verdadeiro valor do parâmetro populacional Para isso desejase que os estimadores satisfaçam determinadas propriedades amostrais ou mais especificamente que as distribuições de probabilidades dos estimadores satisfaçam determinadas propriedades Modelo de regressão linear estimação Propriedades desejáveis dos estimadores de mínimos quadrados 1ª propriedade Não tendenciosidade Na média o estimador deve fornecer o verdadeiro valor do parâmetro populacional Neste caso dizse que o estimador é não tendencioso ou não viesado Mostrase que o estimador de mínimos quadrados é não tendencioso E መ𝛽β መ𝛽 p መ𝛽 Modelo de regressão linear estimação Propriedades desejáveis dos estimadores de mínimos quadrados 2ª propriedade Eficiência precisão Dentre todos os estimadores não tendenciosos estimador eficiente é aquele que apresentar a menor variância No gráfico a variância de b2 é menor do que a variância de b1 Mostrase que o estimador de mínimos quadrados é eficiente teorema de GaussMarkov Modelo de regressão linear estimação Propriedades desejáveis dos estimadores de mínimos quadrados Teorema de GaussMarkov Mostrase que sob as hipóteses a a e do modelo de regressão linear os estimadores β1 e β2 apresentam a menor variância dentre todos os estimadores lineares e não tendenciosos dos parâmetros β1 e β2 Eles são os melhores estimadores não tendenciosos BLUE best linear unbiased estimators Modelo de regressão linear estimação Propriedades desejáveis dos estimadores de mínimos quadrados 3ª propriedade Consistência Á medida que se aumenta o tamanho da amostra N a distribuição de probabilidades do estimador converge em torno do verdadeiro valor do parâmetro populacional Modelo de regressão linear estimação Mostrase que Se os erros aleatórios têm distribuição normal então os estimadores também têm distribuição normal Teorema do limite central Mesmo que os erros aleatórios não tenham distribuição normal se as hipóteses básicas do modelo de regressão linear são satisfeitas para um tamanho de amostra suficientemente grande então os estimadores de mínimos quadrados têm distribuição aproximadamente normal O que é suficientemente grande Depende do formato da distribuição de probabilidades do erro aleatório grau de assimetria curtose proximidade de uma distribuição normal regra de bolso no mínimo 30 elementos ou mais garantido 50 elementos Modelo de regressão linear estimação Exemplo A partir dos dados sobre investimentos em publicidade invpub e retenção de imagem de marca retencao estimar uma regressão entre retenção variável dependente e investimentos em publicidade variável explicativa Modelo yi β1 β2 xi ei sendo yi retenção pontos xi investimentos em publicidade ei erro aleatório Arquivo mq 220829 introduçãotxt e mq 220829 introduçãoR Fonte Wooldridge Modelo de regressão linear estimação Exemplo Call lmformula retencao invpub Coefficients Estimate Std Error t value Prt Intercept 2216269 708948 3126 000556 invpub 036317 009712 3739 000139 Signif codes 0 0001 001 005 01 1 Residual standard error 235 on 19 degrees of freedom Multiple Rsquared 0424 Adjusted Rsquared 03936 Fstatistic 1398 on 1 and 19 DF pvalue 0001389 Modelo de regressão linear estimação Exemplo 1 Interpretação do R2 R2 0424 significa que 424 das variações na retenção são explicadas por variações nos investimentos em publicidade 2 Teste de significância do modelo teste F Ho modelo não é significativo H1 modelo é significativo O valor da estatística F de 1398 com 1 grau de liberdade no numerador e 19 graus de liberdade no denominador leva à rejeição da hipótese nula Ho ao nível de 5 de significância pois o pvalor 0001 é inferior a 005 Modelo de regressão linear estimação Exemplo 3 Teste de significância da variável explicativa teste t Ho β2 0 variável não é significativa H1 β2 0 variável é significativa O valor da estatística t de 3739 leva à rejeição da hipótese nula Ho ao nível de 5 de significância pois o pvalor 0001 é inferior a 005 Isso significa que a variável explicativa investimentos em publicidade é estatisticamente significativa influenciando positivamente a retenção Já o teste de significância para o intercepto indica que o intercepto é estatisticamente diferente de zero 4 Erropadrão amostral ou residual s O erropadrão amostral é igual a 235 Este valor é uma estimativa do desviopadrão dos erros σ Modelo de regressão linear estimação Exercício Estimar a regressão linear entre rendimentos rendimento e anos de estudo anos a partir dos dados disponíveis no arquivo mq 220829 exerciciotxt
26
Análise de Regressão
FMU
48
Análise de Regressão
FMU
1
Análise de Regressão
UMG
20
Análise de Regressão
ESPM
1
Análise de Regressão
PUC
2
Análise de Regressão
UMG
3
Análise de Regressão
UMG
25
Análise de Regressão
ESPM
1
Análise de Regressão
UMG
5
Análise de Regressão
UNINASSAU
Texto de pré-visualização
REGRESSÃO LINEAR NO R Organização da aula Modelo de regressão linear revisão de conceitos R Organização de dados e arquivos Regressão linear Exercícios Modelo de regressão linear especificação Dada a equação y β1 β2 x e Segue a seguinte notação y variável explicada ou dependente x variável explicativa ou independente e termo erro aleatório β1 β2 parâmetros Esta equação mais os pressupostos em relação ao termo aleatório e especificam um modelo de regressão linear modelo de regressão linear simples uma variável explicativa modelo de regressão linear múltipla mais de uma variável explicativa Modelo de regressão linear especificação Pressupostos em relação a e a o valor de y para cada valor de x é dado por y β1 β2 x e Ex o valor das despesas com alimentação das famílias é decomposto em um componente que varia sistematicamente em função da renda das famílias β1 β2 x e de outro componente que varia aleatoriamente e Modelo de regressão linear especificação Pressupostos em relação a e b e tem distribuição de probabilidades com média zero Ee 0 os erros aleatórios têm média zero Ex as diferenças entre as despesas com alimentação das famílias com mesma renda em relação à média se anulam algumas famílias despendem mais do que a média outras famílias despendem menos do que a média Modelo de regressão linear especificação Pressupostos em relação a e c e tem distribuição de probabilidades com variância constante para qualquer x Ve σ2 os erros aleatórios têm variância constante Ex as diferenças entre as despesas com alimentação das famílias com mesma renda em relação à média são semelhantes independentemente do nível da renda para x 1000 para x 2000 Modelo de regressão linear especificação Pressupostos em relação a e d e tem covariância nula covei ej 0 i j ou correi ej 0 i j os erros aleatórios não são correlacionados entre si Ex as diferenças entre as despesas com alimentação das famílias com mesma renda em relação à média não têm relação entre si as despesas com alimentação das famílias não têm relação entre si Modelo de regressão linear especificação Pressupostos em relação a e e x é não aleatório ou não estocástico fixo no processo de amostragem f e N0σ2 os erros aleatórios têm distribuição normal com média zero e variância constante O termo erro aleatório e representa a parte não sistemática de y ou seja representa o efeito de todos os fatores que não x sobre y Modelo de regressão linear estimação O objetivo da construção de um modelo de regressão linear é estimar os valores dos parâmetros populacionais β1 e β2 da equação y β1 β2 x e a partir de dados amostrais Ou de forma equivalente estimar a reta de regressão populacional Ey β1 β2 x Modelo de regressão linear estimação Minimização da soma dos quadrados dos resíduos min S σ𝑖1 𝑛 ê𝑖 2 sendo êi yi β1 β2 xi Substituindo min S σ𝑖1 𝑛 yi β1 β2 xi2 Resolvendo 𝑆 β1 0 𝑆 β2 0 Modelo de regressão linear estimação Minimização da soma dos quadrados dos resíduos min S σ𝑖1 𝑛 yi β1 β2 xi2 Resolvendo 𝑆 β1 2 σ𝑖1 𝑛 yi β1 β2 xi 1 0 𝑆 β2 2 σ𝑖1 𝑛 yi β1 β2 xi xi 0 β β Modelo de regressão linear estimação Minimização da soma dos quadrados dos resíduos min S σ𝑖1 𝑛 yi β1 β2 xi2 Resolvendo β1 തy β2 തx n σ𝑖1 𝑛 yi xi σ𝑖1 𝑛 xi σ𝑖1 𝑛 yi β2 n σ𝑖1 𝑛 xi2 σ𝑖1 𝑛 xi 2 ou σi1 n xi തx yi തy β2 σi1 n xi തx2 Modelo de regressão linear estimação Minimização da soma dos quadrados dos resíduos As fórmulas encontradas para β1 e β2 são chamadas de estimadores de mínimos quadrados Valores específicos para β1 e β2 obtidos a partir destas fórmulas são chamados de estimativas de mínimos quadrados Um estimador é uma variável aleatória valores não são conhecidos a priori e ocorrem com determinadas probabilidades Modelo de regressão linear estimação Propriedades desejáveis dos estimadores de mínimos quadrados O fato de se trabalhar com amostras faz com que as estimativas dependam delas amostras diferentes geram estimativas diferentes O princípio básico está em encontrar estimativas as mais próximas possíveis do verdadeiro valor do parâmetro populacional Para isso desejase que os estimadores satisfaçam determinadas propriedades amostrais ou mais especificamente que as distribuições de probabilidades dos estimadores satisfaçam determinadas propriedades Modelo de regressão linear estimação Propriedades desejáveis dos estimadores de mínimos quadrados 1ª propriedade Não tendenciosidade Na média o estimador deve fornecer o verdadeiro valor do parâmetro populacional Neste caso dizse que o estimador é não tendencioso ou não viesado Mostrase que o estimador de mínimos quadrados é não tendencioso E መ𝛽β መ𝛽 p መ𝛽 Modelo de regressão linear estimação Propriedades desejáveis dos estimadores de mínimos quadrados 2ª propriedade Eficiência precisão Dentre todos os estimadores não tendenciosos estimador eficiente é aquele que apresentar a menor variância No gráfico a variância de b2 é menor do que a variância de b1 Mostrase que o estimador de mínimos quadrados é eficiente teorema de GaussMarkov Modelo de regressão linear estimação Propriedades desejáveis dos estimadores de mínimos quadrados Teorema de GaussMarkov Mostrase que sob as hipóteses a a e do modelo de regressão linear os estimadores β1 e β2 apresentam a menor variância dentre todos os estimadores lineares e não tendenciosos dos parâmetros β1 e β2 Eles são os melhores estimadores não tendenciosos BLUE best linear unbiased estimators Modelo de regressão linear estimação Propriedades desejáveis dos estimadores de mínimos quadrados 3ª propriedade Consistência Á medida que se aumenta o tamanho da amostra N a distribuição de probabilidades do estimador converge em torno do verdadeiro valor do parâmetro populacional Modelo de regressão linear estimação Mostrase que Se os erros aleatórios têm distribuição normal então os estimadores também têm distribuição normal Teorema do limite central Mesmo que os erros aleatórios não tenham distribuição normal se as hipóteses básicas do modelo de regressão linear são satisfeitas para um tamanho de amostra suficientemente grande então os estimadores de mínimos quadrados têm distribuição aproximadamente normal O que é suficientemente grande Depende do formato da distribuição de probabilidades do erro aleatório grau de assimetria curtose proximidade de uma distribuição normal regra de bolso no mínimo 30 elementos ou mais garantido 50 elementos Modelo de regressão linear estimação Exemplo A partir dos dados sobre investimentos em publicidade invpub e retenção de imagem de marca retencao estimar uma regressão entre retenção variável dependente e investimentos em publicidade variável explicativa Modelo yi β1 β2 xi ei sendo yi retenção pontos xi investimentos em publicidade ei erro aleatório Arquivo mq 220829 introduçãotxt e mq 220829 introduçãoR Fonte Wooldridge Modelo de regressão linear estimação Exemplo Call lmformula retencao invpub Coefficients Estimate Std Error t value Prt Intercept 2216269 708948 3126 000556 invpub 036317 009712 3739 000139 Signif codes 0 0001 001 005 01 1 Residual standard error 235 on 19 degrees of freedom Multiple Rsquared 0424 Adjusted Rsquared 03936 Fstatistic 1398 on 1 and 19 DF pvalue 0001389 Modelo de regressão linear estimação Exemplo 1 Interpretação do R2 R2 0424 significa que 424 das variações na retenção são explicadas por variações nos investimentos em publicidade 2 Teste de significância do modelo teste F Ho modelo não é significativo H1 modelo é significativo O valor da estatística F de 1398 com 1 grau de liberdade no numerador e 19 graus de liberdade no denominador leva à rejeição da hipótese nula Ho ao nível de 5 de significância pois o pvalor 0001 é inferior a 005 Modelo de regressão linear estimação Exemplo 3 Teste de significância da variável explicativa teste t Ho β2 0 variável não é significativa H1 β2 0 variável é significativa O valor da estatística t de 3739 leva à rejeição da hipótese nula Ho ao nível de 5 de significância pois o pvalor 0001 é inferior a 005 Isso significa que a variável explicativa investimentos em publicidade é estatisticamente significativa influenciando positivamente a retenção Já o teste de significância para o intercepto indica que o intercepto é estatisticamente diferente de zero 4 Erropadrão amostral ou residual s O erropadrão amostral é igual a 235 Este valor é uma estimativa do desviopadrão dos erros σ Modelo de regressão linear estimação Exercício Estimar a regressão linear entre rendimentos rendimento e anos de estudo anos a partir dos dados disponíveis no arquivo mq 220829 exerciciotxt