22
Macroeconomia 2
UNIOESTE
22
Macroeconomia 2
UNIOESTE
46
Macroeconomia 2
UNIOESTE
46
Macroeconomia 2
UNIOESTE
1
Macroeconomia 2
UNIGRANRIO
2
Macroeconomia 2
UMG
87
Macroeconomia 2
PUC
3
Macroeconomia 2
UFABC
2
Macroeconomia 2
USP
71
Macroeconomia 2
EEP/FUMEP
Texto de pré-visualização
Métodos Quantitativos Docente Flávio Rocha Email flaviorochaunioestebr Análise de Regressão Simples Análise de Regressão Múltipla INTRODUÇÃO Das técnicas estudadas sem dúvida nenhuma aquelas conhecidas por modelos de regressão simples e múltipla são as mais utilizadas em diversos campos do conhecimento REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 2 Imagine que um grupo de pesquisadores tenha o interesse em estudar como as taxas de retorno de um ativo financeiro comportamse em relação ao mercado como o custo de uma empresa varia quando o parque fabril aumenta a sua capacidade produtiva ou incrementa o número de horas trabalhadas como o número de dormitórios e a área útil de uma amostra de imóveis residenciais podem influenciar a formação dos preços de venda INTRODUÇÃO Note em todos estes exemplos que os fenômenos principais sobre os quais há o interesse de estudo são representados em cada caso por REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 3 uma variável métrica ou quantitativa podem ser estudados por meio da estimação de modelos de regressão finalidade principal analisar como se comportam as relações entre um conjunto de variáveis explicativas e uma variável dependente métricas ou dummies métrica INTRODUÇÃO ESTRUTURA REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 4 Temos os seguintes objetivos em relação a esse conteúdo Introduzir os conceitos sobre regressão simples e múltipla Interpretar os resultados obtidos e elaborar previsões Discutir os pressupostos da técnica Apresentar a aplicação da técnica no Gretl MODELOS LINEARES DE REGRESSÃO A técnica de regressão linear oferece a possibilidade de que seja estudada a relação entre uma ou mais variáveis explicativas que se apresentam na forma linear e uma variável dependente quantitativa REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 5 modelo geral de regressão linear pode ser definido da seguinte maneira 𝑌𝑖 𝑎 𝑏1𝑋1𝑖 𝑏2 𝑋2𝑖 𝑏𝑘 𝑋𝑘𝑖 𝑢𝑖 𝑌 variável dependente quantitativa 𝑎 coeficiente linear 𝑏𝑗 coeficientes de cada variável 𝑋𝑗 variáveis explicativas métricas ou dummies u termo erro diferença entre valor real e o previsto Essa equação representa regressão múltipla por ter diversas variáveis explicativas MODELOS LINEARES DE REGRESSÃO modelo de regressão linear simples a ser estimado apresenta a seguinte expressão REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 6 Ŷ𝒊 𝒂 ß 𝑿𝒊 intercepto Parâmetros Estimados Valor Previsto Inclinação da reta Podemos portanto verificar que enquanto o parâmetro estimado α mostra o ponto da reta de regressão em que XO o parâmetro estimado ß representa a inclinação da reta ou seja o incremento ou decréscimo de Y para cada unidade adicional de X em média REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 7 Ŷ𝒊 𝒂 ß 𝑿𝒊 intercepto Parâmetros Estimados Valor Previsto Inclinação da reta MODELOS LINEARES DE REGRESSÃO a inclusão do termo de erro resíduo qualquer relação que seja proposta dificilmente se apresentará de maneira perfeita O fenômeno que se deseja estudar representado pela variável Y apresentará relação com alguma outra variável X não incluída no modelo proposto e que portanto precisará ser representada pelo termo de erro 𝑢 REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 8 Os termos de erro ocorrem em função de algumas razões que precisam ser conhecidas e consideradas pelos pesquisadores como Existência de variáveis agregadas eou não aleatórias Incidência de falhas quando da especificação do modelo formas funcionais não lineares e omissão de variáveis explicativas relevantes Ocorrência de erros quando do levantamento dos dados Estimação do modelo de regressão linear por mínimos quadrados ordinários MQO Frequentemente vislumbramos de forma racional ou intuitiva a relação entre comportamentos de variáveis que se apresentam de forma direta ou indireta REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 9 Estas questões oferecem nitidamente relações entre determinada variável dependente que representa o fenômeno que se deseja estudar e no caso uma única variável explicativa Será que se eu mudar de emprego terei mais tempo para ficar com meus filhos Será que se eu poupar maior parcela de meu salário poderei me aposentar mais jovem Estimação do modelo de regressão linear por mínimos quadrados ordinários MQO O objetivo principal da análise de regressão é portanto propiciar ao pesquisador condições de avaliar como se comporta uma variável Y com base no comportamento de uma ou mais variáveis X sem que necessariamente ocorra uma relação de causa e efeito REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 10 Imagine que em determinado dia de aula um professor tenha o interesse em saber para uma turma de 1O estudantes de uma mesma classe qual a relação entre a distância percorrida para se chegar à escola e o tempo de percurso Regressão Linear Simples 𝑌𝑖𝒕𝒆𝒎𝒑𝒐 𝒑𝒂𝒓𝒂 𝒄𝒉𝒆𝒈𝒂𝒓 à 𝒆𝒔𝒄𝒐𝒍𝒂 𝑎 𝑏1𝑋1𝑖 distância percorrida até a escolakm Estimação do modelo de regressão linear por mínimos quadrados ordinários MQO REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 11 𝑌𝑖𝒕𝒆𝒎𝒑𝒐 𝒑𝒂𝒓𝒂 𝒄𝒉𝒆𝒈𝒂𝒓 à 𝒆𝒔𝒄𝒐𝒍𝒂 𝑎 𝑏1𝑋1𝑖 distância percorrida até a escolakm Estimação do modelo de regressão linear por mínimos quadrados ordinários MQO REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 12 Equação de regressão é Podese modelar o problema da seguinte forma Não é somente a distância percorrida que afeta o tempo para se chegar à escola uma vez que este pode também ser afetado por outras variáveis relacionadas ao tráfego ao meio de transporte ou ao próprio indivíduo e desta maneira o termo de erro u deverá capturar o efeito das demais variáveis não incluídas no modelo Estimação do modelo de regressão linear por mínimos quadrados ordinários MQO REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 13 A somatória dos resíduos deve ser zero Para que estimemos a equação que melhor se ajusta a esta nuvem de pontos devemos estabelecer duas condições fundamentais relacionadas aos resíduos 1 Em que n é o tamanho da amostra Para o mesmo banco de dados diversas retas podem respeitar a condição de que a somatória dos resíduos seja igual a zero Figura 122 Tempo de percurso x distância percorrida para cada aluno Exemplos de retas de regressão em que a somatória dos resíduos é zero Exemplos de retas de regressão em que a somatória dos resíduos é zero Exemplos de retas de regressão em que a somatória dos resíduos é zero Estimação do modelo de regressão linear por mínimos quadrados ordinários MQO REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 18 A somatória dos resíduos deve ser zero 1 Com apenas esta primeira condição podem ser encontradas diversas retas de regressão em que a somatória dos resíduos seja zero Para o mesmo banco de dados diversas retas podem respeitar a condição de que a somatória dos resíduos seja igual a zero Portanto fazse necessário o estabelecimento de uma segunda condição Estimação do modelo de regressão linear por mínimos quadrados ordinários MQO REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 19 A somatória dos resíduos ao quadrado é a mínima possível 2 Com esta condição escolhese a reta que apresenta o melhor ajuste possível à nuvem de pontos partindose portanto da definição de mínimos quadrados ou seja devese determinar a e B de modo que a somatória dos quadrados dos resíduos seja a menor possível Estimação do modelo de regressão linear por mínimos quadrados ordinários MQO REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 20 A equação para estimar B é Tabela 122 Planilha de cálculo para a determinação de α e β Observação i Tempo Yi Distância Xi Yi Y Xi X Xi XYi Y Xi X² 1 15 8 15 9 135 81 2 20 6 10 11 110 121 3 20 15 10 2 20 4 4 40 20 10 3 30 9 5 50 25 20 8 160 64 6 25 11 5 6 30 36 7 10 5 20 12 240 144 8 55 32 25 15 375 225 9 35 28 5 11 55 121 10 30 20 0 3 0 9 Soma 300 170 1155 814 Média 30 17 Média de Y Média de X Estimação do modelo de regressão linear por mínimos quadrados ordinários MQO REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 22 Jogando os dados na equação Tamanho das amostra Equação final Ŷi 58784 14189 Xi Tempo até a Escola minutos Distância Percorrida quilômetros Poder Explicativo do Modelo de regressão R² REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 24 Enquanto a soma total dos quadrados SQT mostra a variação em Y em torno da própria média a soma dos quadrados da regressão SQR oferece a variação de Y considerando as variáveis X utilizadas no modelo Para mensurarmos o poder explicativo de determinado modelo de regressão precisamos entender alguns conceitos importantes percentual de variabilidade da variável Y que é explicado pelo comportamento de variação das variáveis explicativas Além disso a soma dos quadrados dos resíduos SQU apresenta a variação de Y que não é explicada pelo modelo elaborado Poder Explicativo do Modelo de regressão R² REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 25 𝑌𝑖 equivale ao valor de Y de cada observação 𝑖 da amostra Ȳ é a média de Y Ŷ𝑖 representa o valor ajustado da resta de regressão para cada observação 𝑖 desvio total dos valores de cada observação em relação à média desvio dos valores da reta de regressão para cada observação em relação à média desvio dos valores de cada observação em relação à reta de regressão Poder Explicativo do Modelo de regressão R² REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 26 desvio dos valores de cada observação em relação à reta de regressão Figura 1213 Desvios de Y para duas observações Poder Explicativo do Modelo de regressão R² REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 28 O R² é uma fração da variância da amostra de 𝑌𝑖 explicada ou prevista pelas variáveis explicativas O R² também é conhecido como Coeficiente de ajuste ou Coeficiente de explicação O R²é uma proporção da variação amostral da variável dependente explicada pelo conjunto de variáveis explicativas Para um modelo de regressão simples esta medida mostra quanto do comportamento da variável Y é explicado pelo comportamento de variação da variável X não existe necessariamente uma relação de causa e efeito Poder Explicativo do Modelo de regressão R² REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 29 Para um modelo de regressão múltipla esta medida mostra quanto do comportamento da variável Y é explicado pela variação conjunta das variáveis X consideradas no modelo O R²é obtido da seguinte forma O R² pode variar entre O e 1 0 a 100 porém é praticamente impossível a obtenção de um R 2 igual a 1 uma vez que dificilmente todos os pontos situarseão em cima de uma reta Se o R² for 1 não haverá resíduos para cada uma das observações da amostra em estudo e a variabilidade da variável Y estará sendo totalmente explicada pelo vetor de variáveis X consideradas no modelo de regressão Figura 1214 Comportamento do R2 para diferentes regressões lineares simples REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 32 Calculando R² Poder Explicativo do Modelo de regressão R² Podemos agora afirmar que para a mostra estudada 8194 da variabilidade do tempo para se chegar à escola é devido à variável referente à distância percorrida durante o percurso elaborado por cada um dos alunos Portanto pouco mais de 18 desta variabilidade é devido a outras variáveis não incluídas no modelo e que portanto foram decorrentes da variação dos resíduos Tabela 123 Planilha para o cálculo do coeficiente de ajuste do modelo de regressão R2 Observação i Tempo Yi Distância Xi Yhati ui Yi Yhati Yhati Ybar2 ui2 1 15 8 1723 223 16308 497 2 20 6 1439 561 24361 3145 3 20 15 2716 716 805 5130 4 40 20 3426 574 1812 3298 5 50 25 4135 865 12885 7480 6 25 11 2149 351 7248 1234 7 10 5 1297 297 28992 884 8 55 32 5128 372 45300 1381 9 35 28 4561 1061 24361 11253 10 30 20 3426 426 1812 1812 Soma 300 170 163885 36115 Média 30 17 Obs Em que Yhati tempoi 58784 14189disti REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 33 O coeficiente de ajuste R² não diz aos pesquisadores se determinada variável explicativa é estatisticamente significante e se esta variável é a causa verdadeira da alteração de comportamento da variável dependente Poder Explicativo do Modelo de regressão R² Mais do que isso o R² também não oferece condições de se avaliar a existência de um eventual viés de omissão de variáveis explicativas e se a escolha daquelas que foram inseridas no modelo proposto adequada É fundamental não dar importância considerável ao valor do R² na avaliação de modelos de regressão Testes Estatísticos A Significância geral do modelo e de cada um dos parâmetros REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 34 Teste F Para estudarmos a significância estatística geral do modelo estimado Para modelo de regressão simples Verificar se o modelo que está sendo estimado de fato existe Se todos os ß 0 estatisticamente igual a zero o comportamento das variáveis explicativas não influenciará em nada o comportamento da variação da variável dependente A Significância geral do modelo e de cada um dos parâmetros REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 35 Estatística F k representa o número de parâmetros do modelo estimado inclusive o intercepto e n o tamanho da amostra A Significância geral do modelo e de cada um dos parâmetros REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 36 Usando os mesmo dados Desta forma como o F calculado 𝐹𝑐𝑎𝑙 3630 𝐹𝑐𝑟í𝑡𝑖𝑐𝑜 532 podemos rejeitar a hipótese nula de que todos os parâmetros ß sejam estatisticamente iguais a zero Com 1 grau de liberdade da regressão k 1 1 e 8 graus de liberdade para os resíduos n k 1O 2 8 temos por meio da Tabela A do apêndice do livro que o 𝐹𝑐 532 F crítico ao nível de significância de 5 Verifica nº de variáveis explicativas usado no modelo Verifica tamanho da amostra Logo pelo menos uma variável X é estatisticamente significante para explicar a variabilidade de Y e teremos um modelo de regressão estatisticamente significante para fins de previsão A Significância geral do modelo e de cada um dos parâmetros REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 37 Teste t Para estudarmos a significância estatística geral do modelo estimado Para modelo de regressão simples se corresponde ao erropadrão de cada parâmetro regressão simples temos apenas dois a e b REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 38 Calculando Teste t A Significância geral do modelo e de cada um dos parâmetros Para 8 graus de liberdade para os resíduos n k 1O 2 8 temos por meio da Tabela B do apêndice do livro que o 𝑡𝑐 2306 para o nível de significância de 5 Desta forma como o calculado t𝑐𝑎𝑙 12969 t𝑐𝑟í𝑡𝑖𝑐𝑜 2306 não podemos rejeitar a hipótese nula de que todos o parâmetros ɑ sejam estatisticamente iguais a zero a este nível de significância para a amostra em questão O mesmo todavia não ocorre para o parâmetro ß já que t𝑐𝑎𝑙 602 t𝑐 2306 Podemos portanto rejeitar a hipótese nula neste caso ou seja ao nível de significância de 5 não podemos afirmar que este parâmetro seja estatisticamente igual a zero REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 39 Elaboração de Previsão com a Equação encontrada Qual a previsão do tempo médio de percurso Y de um aluno que percorre 17 quilômetros para chegar à escola Basta substituir valor de 𝑋i 17 REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 40 a regressão linear múltipla apresenta a mesma lógica apresentada para a regressão linear simples porém agora com a inclusão de mais de uma variável explicativa X no modelo Regressão Linear Múltipla A utilização de muitas variáveis explicativas dependerá da teoria subjacente e de estudos predecessores bem como da experiência e do bom senso do pesquisador a fim de que seja possível fundamentar a decisão Utilizaremos o mesmo exemplo Imaginemos que o professor tenha tomado a decisão de coletar mais uma variável de cada um dos alunos Esta variável será referente ao número de semáforos pelos quais cada aluno é obrigado a passar e a chamaremos de variável sem Tabela 125 Exemplo tempo de percurso x distância percorrida e quantidade de semáforos Estudante Tempo para chegar à escola minutos Yi Distância percorrida até a escola quilômetros X1i Quantidade de semáforos X2i Gabriela 15 8 0 Dalila 20 6 1 Gustavo 20 15 0 Letícia 40 20 1 Luiz Ovídio 50 25 2 Leonor 25 11 1 Ana 10 5 0 Antônio 55 32 3 Júlia 35 28 1 Mariana 30 20 1 42 Equação final R² 09374 R² ajustado 09195 ajusta o modelo segundo os graus de liberdade REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 43 Teste F Regressão Linear Múltipla Todos 005 Todos estatisticamente significativos valorP 005 logo o intervalo de confiança não contém o zero REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 44 Análise Final Podese concluir que o aumento de um semáforo ao longo do trajeto até a escola incrementa o tempo médio de percurso em 82963 minutos Regressão Linear Múltipla Coeficiente da variável semáforo Equação final Por outro lado um incremento de um quilômetro na distância a ser percorrida aumenta agora apenas O7972 minutos no tempo médio de percurso Coeficiente da variável distância A redução no valor estimado do coeficiente da variável distância ocorreu porque parte do comportamento desta variável está contemplada na própria variável semáforo Em outras palavras distâncias maiores são mais suscetíveis a uma quantidade maior de semáforos e portanto há uma correlação alta entre elas Na regressão simples 14189 Na regressão múltipla 07972 REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 45 O procedimento para determinar o número de variáveis explicativas cujos dados estejam em escalas qualitativas é diferente Regressão Linear Múltipla utilizando variáveis DUMMY Como analisar o desempenho de empresas lucro de setores diferentes Como analisar o valores gastos em um supermercado diferenciando as pessoas por idades e sexo Será que há diferença como se comportam as taxas de crescimento do PIB de diferentes países considerados emergentes e desenvolvidos REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 46 Regressão Linear Múltipla utilizando variáveis DUMMY Em todas estas hipotéticas situações as variáveis dependentes são quantitativas lucro das empresas valores gastos ou taxa de crescimento do PIB Porém desejamos saber como estas se comportam em função de variáveis explicativas qualitativas setor sexo faixa de idade classificação do país que serão incluídas do lado direito dos respectivos modelos de regressão a serem estimados As variáveis dummy devem portanto ser utilizadas quando desejarmos estudar a relação entre o comportamento de determinada variável explicativa qualitativa e o fenômeno em questão representado pela variável dependente REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 47 Regressão Linear Múltipla utilizando variáveis DUMMY Devemos recorrer ao artificio das variáveis dummy ou binárias que assumem valores iguais a O ou 1 de forma a estratificar a amostra da maneira que for definido determinado critério evento ou atributo para aí assim serem incluídas no modelo em análise Até mesmo um determinado período dia mês ou ano em que ocorre um importante evento pode ser objeto de análise Exemplo Em que período do dia vieram à escola ou seja se cada um deles veio de manhã a fim de ficar estudando na biblioteca ou se veio apenas no final da tarde para a aula noturna Queremos saber se o tempo de percurso até a escola sofre variação em função da distância percorrida da quantidade de semáforos e também do período do dia em que os estudantes se deslocam para chegar até a escola Tabela 128 Exemplo tempo de percurso x distância percorrida quantidade de semáforos e período do dia para o trajeto até a escola Estudante Tempo para chegar à escola minutos Yi Distância percorrida até a escola quilômetros X1i Quantidade de semáforos X2i Período do dia X3i Gabriela 15 8 0 Manhã Dalila 20 6 1 Manhã Gustavo 20 15 0 Manhã Letícia 40 20 1 Tarde Luiz Ovídio 50 25 2 Tarde Leonor 25 11 1 Manhã Ana 10 5 0 Manhã Antônio 55 32 3 Tarde Júlia 35 28 1 Manhã Mariana 30 20 1 Manhã REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 49 Regressão Linear Múltipla utilizando variáveis DUMMY Devemos portanto definir qual das categorias da variável qualitativa será a referência dummy O Como neste caso temos somente duas categorias manhã ou tarde apenas uma única variável dummy deverá ser criada em que a categoria de referência assumirá valor O e a outra categoria valor 1 Este procedimento permitirá estudar as diferenças que acontecem na variável Y ao se alterar a categoria da variável qualitativa uma vez que o ß desta dummy representará exatamente a diferença que ocorre no comportamento da variável Y quando se passa da categoria de referência da variável qualitativa para a outra categoria estando o comportamento da categoria de referência representado pelo intercepto α A decisão de escolha sobre qual será a categoria de referência é do próprio pesquisador e os parâmetros do modelo serão obtidos com base no critério adotado REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 50 Regressão Linear Múltipla utilizando variáveis DUMMY A decisão de escolha sobre qual será a categoria de referência é do próprio pesquisador e os parâmetros do modelo serão obtidos com base no critério adotado A categoria de referência será o período da tarde ou seja as células do banco de dados com esta categoria assumirão valores iguais a O Logo as células com a categoria manhã assumirão valores iguais a 1 Isso porque o professor deseja avaliar se a ida à escola no período da manhã traz algum benefício ou prejuízo de tempo em relação ao período da tarde que é imediatamente anterior à aula Equação tempoi a b1disti b2semi b3peri ui Tabela 129 Substituição das categorias da variável qualitativa pela dummy Estudante Tempo para chegar à escola minutos Yi Distância percorrida até a escola quilômetros X1i Quantidade de semáforos X2i Período do dia dummy per X3i Gabriela 15 8 0 1 Dalila 20 6 1 1 Gustavo 20 15 0 1 Letícia 40 20 1 0 Luiz Ovídio 50 25 2 0 Leonor 25 11 1 1 Ana 10 5 0 1 Antônio 55 32 3 0 Júlia 35 28 1 1 Mariana 30 20 1 1 REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 52 Regressão Linear Múltipla utilizando variáveis DUMMY Analisando os resultados do modelo R² subiu para 09839 o que nos permite dizer que mais de 98 do comportamento de variação do tempo para se chegar à escola é explicado pela variação conjunta das três variáveis X dist sem e per Além disso este modelo é preferível em relação aos anteriormente estudados uma vez que apresenta maior R² ajustado REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 53 Regressão Linear Múltipla utilizando variáveis DUMMY Analisando os resultados do modelo O teste F nos permite afirmar que pelo menos um parâmetro estimado ß é estatisticamente diferente de zero ao nível de significância de 5 F 005 estatisticamente significativo REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 54 Regressão Linear Múltipla utilizando variáveis DUMMY Analisando os resultados do modelo F 005 estatisticamente significativo Os testes t de cada parâmetro mostram que todos eles ß1ß2 ß3 e o próprio α são estatisticamente diferentes de zero a este nível de significância Assim nenhuma variável X precisa ser excluída da modelagem REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 55 Regressão Linear Múltipla utilizando variáveis DUMMY Analisando os resultados do modelo Equação Final Podemos afirmar para o nosso exemplo que o tempo médio previsto para se chegar à escola é de 99088 minutos a menos para os alunos que optarem por ir no período da manhã em relação àqueles que optarem por ir à tarde ceteris paríbus Isso provavelmente deve ter acontecido por motivos associados ao trânsito porém estudos mais aprofundados poderiam ser elaborados neste momento REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 56 Elaboração de Previsão com a Equação encontrada qual o tempo estimado para se chegar à escola por parte de um aluno que se desloca 17 quilômetros passa por dois semáforos e vem à escola pouco antes do início da aula noturna ou seja no período da tarde Basta substituir valor de 𝑋1 17 𝑋2 2 𝑋3 0 E qual seria o tempo estimado para outro aluno que também se desloca 17 quilômetros passa também por dois semáforos porém decide ir à escola de manhã REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 57 Regressão Linear Múltipla utilizando variáveis DUMMY como cada um se considera em termos de perfil ao volante calmo moderado ou agressivo Ao obter as respostas montou o último banco de dados Para elaborar a regressão precisase transformar a variável petfil ao volante em dummíes Para a situação em que houver um número de categorias maior do que 2 para determinada variável qualitativa por exemplo estado civil time de futebol religião setor de atuação entre outros exemplos é necessário que o pesquisador utilize um número maior de variáveis dummy Para uma variável qualitativa com n categorias serão necessárias n 1 dummíes uma vez que determinada categoria deverá ser escolhida como referência e seu comportamento será capturado pelo parâmetro estimado a Tabela 1210 Exemplo tempo de percurso x distância percorrida quantidade de semáforos período do dia para o trajeto até a escola e perfil ao volante Estudante Tempo para chegar à escola minutos Yi Distância percorrida até a escola quilômetros X1i Quantidade de semáforos X2i Período do dia X3i Perfil ao volante X4i Gabriela 15 8 0 manhã calmo Dalila 20 6 1 manhã moderado Gustavo 20 15 0 manhã moderado Letícia 40 20 1 tarde agressivo Luiz Ovídio 50 25 2 tarde agressivo Leonor 25 11 1 manhã moderado Ana 10 5 0 manhã calmo Antônio 55 32 3 tarde calmo Júlia 35 28 1 manhã moderado Mariana 30 20 1 manhã moderado REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 59 Regressão Linear Múltipla utilizando variáveis DUMMY Infelizmente é bastante comum que encontremos na prática procedimentos que substituam arbitrariamente as categorias de variáveis qualitativas por valores como 1 e 2 quando houver duas categorias 1 2 e 3 quando houver três categorias e assim sucessivamente Isso é um erro grave uma vez que desta forma partiríamos do pressuposto de que as diferenças que ocorrem no comportamento da variável Y ao alterarmos a categoria da variável qualitativa seriam sempre de mesma magnitude o que não necessariamente é verdade Em outras palavras não podemos presumir que a diferença média no tempo de percurso entre os indivíduos calmos e moderados será a mesma que entre os moderados e os agressivos REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 60 Regressão Linear Múltipla utilizando variáveis DUMMY No nosso exemplo portanto a variável perfil ao volante deverá ser transformada em duas dummies variáveis perfil2 e perfil3 já que definiremos a categoria calmo como sendo a referência comportamento presente no intercepto REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 61 Regressão Linear Múltipla utilizando variáveis DUMMY Temos a equação diferença média no tempo de percurso entre um indivíduo considerado moderado e um indivíduo considerado calmo diferença média no tempo de percurso entre um indivíduo considerado agressivo e um indivíduo considerado calmo diferença média no tempo de percurso entre um indivíduo considerado agressivo e um indivíduo considerado moderado Tabela 1212 Substituição das categorias das variáveis qualitativas pelas respectivas variáveis dummy Estudante Tempo para chegar à escola minutos Yi Distância percorrida até a escola quilômetros X1i Quantidade de semáforos X2i Período do dia Dummy per X3i Perfil ao Volante Dummy perfil2 X4i Perfil ao Volante Dummy perfil3 X5i Gabriela 15 8 0 1 0 0 Dalila 20 6 1 1 1 0 Gustavo 20 15 0 1 1 0 Letícia 40 20 1 0 0 1 Luiz Ovídio 50 25 2 0 0 1 Leonor 25 11 1 1 1 0 Ana 10 5 0 1 0 0 Antônio 55 32 3 0 0 0 Júlia 35 28 1 1 1 0 Mariana 30 20 1 1 1 0 REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 63 Regressão Linear Múltipla utilizando variáveis DUMMY Analisando os resultados do modelo O coeficiente de ajuste do modelo R² foi muito elevado R² 09969 REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 64 Regressão Linear Múltipla utilizando variáveis DUMMY Analisando os resultados do modelo O teste F nos permite afirmar que pelo menos um parâmetro estimado ß é estatisticamente diferente de zero ao nível de significância de 5 F 005 estatisticamente significativo REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 65 Regressão Linear Múltipla utilizando variáveis DUMMY Analisando os resultados do modelo F 005 X3 e X4 não são estatisticamente diferentes de zero Os testes t de cada parâmetro mostram que apenas ß1ß2 ß5 e o próprio α são estatisticamente diferentes de zero a este nível de significância período em que o trajeto foi efetuado X3 e à categoria moderado da variável perfil ao volante X4 não foram significantes Desta forma tais variáveis serão retiradas da análise e o modelo será elaborado novamente REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 66 Regressão Linear Múltipla utilizando variáveis DUMMY é importante analisarmos que na presença das demais variáveis o tempo do percurso até a escola passa a não apresentar mais diferenças se o percurso for realizado de manhã ou à tarde Procedimento Stepwise apresenta a propriedade de automaticamente excluir as variáveis explicativas cujos parâmetros não se mostrarem estatisticamente diferentes de zero Os softwares fazem esse procedimento e apresenta o modelo final em que todos os parâmetros são estatisticamente diferentes de zero REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 67 Regressão Linear Múltipla utilizando variáveis DUMMY Analisando os resultados do modelo O coeficiente de ajuste do modelo R² foi muito elevado R² 09954 Nova Equação REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 68 Regressão Linear Múltipla utilizando variáveis DUMMY Analisando os resultados do modelo O teste F nos permite afirmar que pelo menos um parâmetro estimado ß é estatisticamente diferente de zero ao nível de significância de 5 F 005 estatisticamente significativo REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 69 Regressão Linear Múltipla utilizando variáveis DUMMY Analisando os resultados do modelo F 005 Todos são estatisticamente diferentes de zero Os testes t de cada parâmetro mostram que todos os ß ß1ß2 ß3 variáveis x1 x2 e x5 e o próprio α são estatisticamente diferentes de zero a este nível de significância REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 70 Elaboração de Previsão com a Equação encontrada Qual seria o tempo estimado para outro aluno que também se desloca 17 quilômetros passa também por dois semáforos também decide ir à escola de manhã porém tem um perfil considerado agressivo ao volante Basta substituir valor de perfil 3 1 1 para agressivo e 0 para calmo Por fim podemos afirmar que um estudante considerado agressivo ao volante leva em média 89676 minutos a mais para chegar à escola em relação a outro considerado calmo Pressupostos dos modelos de regressão MQO REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 71 REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 72 Pressupostos dos modelos de regressão MQO 1 Normalidade dos resíduos A normalidade dos resíduos é requerida apenas e tão somente para que sejam validados os testes de hipótese dos modelos de regressão o pressuposto da normalidade assegura que o valorP dos testes T e do teste F sejam válidos a violação deste pressuposto pode ser minimizada quando da utilização de grandes amostras 1 Normalidade dos resíduos Figura 1234 Distribuição normal dos resíduos REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 74 Pressupostos dos modelos de regressão MQO 1 Normalidade dos resíduos Recomendase que seja aplicado dependendo do tamanho da amostra o teste de ShapiroWilk ou o teste de ShapiroFrancia aos termos de erro a fim de que seja verificado o pressuposto da normalidade dos resíduos Enquanto o teste de ShapiroWilk é mais indicado para pequenas amostras aquelas com até 30 observações o teste de ShapiroFrancia é mais recomendado para grandes amostras A não aderência à normalidade dos termos de erro pode indicar que o modelo foi especificado incorretamente quanto à forma funcional e que houve a omissão de variáveis explicativas relevantes corrigido o problema alterar a formulação matemática ou incluir novas variáveis explicativas no modelo REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 75 Pressupostos dos modelos de regressão MQO 2 Multicolinearidade O problema da multicolinearidade ocorre quando há correlações muito elevadas entre variáveis explicativas Não seria possível separar as variações ocorridas na variável dependente em decorrência de alterações em X1 advindas da influência de X2 REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 76 Pressupostos dos modelos de regressão MQO 2 Multicolinearidade Existência de variáveis que apresentam a mesma tendência durante alguns períodos CAUSAS Faturamento de uma franquia Area m² da loja Nº de funcionários Certamente há uma relação direta entre área m² e Nº de funcionários x1 e x2 estão altamente correlacionados Banco de dados com número insuficiente de observações REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 77 Pressupostos dos modelos de regressão MQO 2 Multicolinearidade Pode eventualmente fazer com que um pesquisador considere não significantes os efeitos de algumas das variáveis explicativas CONSEQUÊNCIAS Como os cálculos da estatística F e do R² não são afetados por este fenômeno é comum que se encontrem modelos em que os coeficientes das variáveis explicativas não sejam estatisticamente significantes E o teste F rejeitando a hipótese nula ao mesmo nível de significância ou seja indicando que pelo menos um parâmetro seja estatisticamente diferente de zero REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 78 Pressupostos dos modelos de regressão MQO 2 Multicolinearidade Identificação de altas correlações entre variáveis explicativas por meio da análise da matriz de correlação simples DIAGNÓSTICO não consegue identificar eventuais relações existentes entre mais de duas variáveis simultaneamente Estatística VIF Variance Inflation Factor Geralmente um VIF acima de 10 indica problemas mas há controvérsias REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 79 Pressupostos dos modelos de regressão MQO 2 Multicolinearidade Aplicam o procedimento Stepwíse para que sejam eliminadas as variáveis explicativas que estão correlacionadas POSSÍVEIS SOLUÇÕES A existência de multicolinearidade não afeta a intenção de elaboração de previsões tal solução pode criar um problema de especificação pela omissão de variável relevante Apesar do problema não gera necessariamente estimadores ruins ou fracos e não significa que o modelo possui problemas uma solução para a multicolinearidade é identificála reconhecêla e não fazer nada REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 80 Pressupostos dos modelos de regressão MQO 3 HETEROCEDASTICIDADE Não constância da variância dos resíduos ao longo da variável explicativa Em outras palavras deve estar ocorrendo uma correlação entre os termos do erro e a variável X 81 3 HETEROCEDASTICIDADE deve estar ocorrendo uma correlação entre os termos do erro e a variável X percebida pela formação de um cone que se estreita à medida que X aumenta REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 82 Pressupostos dos modelos de regressão MQO 3 HETEROCEDASTICIDADE Erros de especificação quanto à forma funcional ou quanto à omissão de variável relevante podem gerar termos de erro heterocedásticos no modelo CAUSAS REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 83 Pressupostos dos modelos de regressão MQO 3 HETEROCEDASTICIDADE Gera estimadores dos parâmetros não viesados porém ineficientes e errospadrão dos parâmetros viesados o que acarreta problemas com os testes de hipótese das estatísticas t CONSEQUÊNCIAS REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 84 Pressupostos dos modelos de regressão MQO DIAGNÓSTICO O teste de BreuschPaganCookWeisberg 3 HETEROCEDASTICIDADE valorP 005 REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 85 Pressupostos dos modelos de regressão MQO POSSÍVEL SOLUÇÃO Falhas na especificação do modelo podem gerar termos de erro heterocedásticos 3 HETEROCEDASTICIDADE Cabe ao pesquisador elaboração de gráficos dos resíduos em função da variável dependente ou das variáveis explicativas tentar inferir sobre um eventual ajuste não linear a ser aplicado ao modelo em estudo como o logarítmico o quadrático ou o inverso REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 86 Pressupostos dos modelos de regressão MQO 4 AUTOCORRELAÇÃO DOS RESÍDUOS A hipótese de aleatoriedade e independência dos termos de erro apenas faz sentido de ser estudada em modelos em que há a evolução temporal dos dados Se estivermos trabalhando com uma base de dados em crosssection este pressuposto não se justifica Os termos de erro não são independentes cada valor de e depende do valor de e do período anterior e de um termo aleatório e independente u com distribuição normal média zero e variância constante 87 nitidamente os termos de erro não apresentam aleatoriedade e correlacionamse temporalmente 4 AUTOCORRELAÇÃO DOS RESÍDUOS REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 88 Pressupostos dos modelos de regressão MQO Erros de especificação quanto à forma funcional ou quanto à omissão de variável explicativa relevante podem gerar termos de erro autocorrelacionados CAUSAS 4 AUTOCORRELAÇÃO DOS RESÍDUOS Além disso a autocorrelação dos resíduos também pode ser causada por fenômenos sazonais e consequentemente pela dessazonalização destas séries 89 4 AUTOCORRELAÇÃO DOS RESÍDUOS Investigar a relação existente entre consumo de sorvete em toneladas em determinada cidade e o crescimento da população ao longo dos trimestres Podemos perceber que o crescimento da população da cidade ao longo do tempo faz com que o consumo de sorvete aumente Entretanto por conta da sazonalidade que existe já que o consumo de sorvete é maior em períodos de primavera e verão e menor em períodos de outono e inverno a forma funcional linear modelo dessazonalizado faz com que sejam gerados termos de erro autocorrelacionados ao longo do tempo REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 90 Pressupostos dos modelos de regressão MQO Gera estimadores dos parâmetros não viesados porém ineficientes e errospadrão dos parâmetros subestimados o que acarreta problemas com os testes de hipótese das estatísticas t CONSEQUÊNCIAS 4 AUTOCORRELAÇÃO DOS RESÍDUOS REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 91 Pressupostos dos modelos de regressão MQO Testes de DurbinWatson DIAGNÓSTICO 4 AUTOCORRELAÇÃO DOS RESÍDUOS Um teste de DurbinWatson com estatística DW aproximadamente igual a 2 resulta em inexistência de autocorrelação dos resíduos Teste de BreuschGodfrey REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 92 Pressupostos dos modelos de regressão MQO Pode ser tratada pela alteração da forma funcional do modelo ou pela inclusão de variável relevante que havia sido omitida POSSÍVEIS SOLUÇÕES 4 AUTOCORRELAÇÃO DOS RESÍDUOS Um teste de DurbinWatson com estatística DW aproximadamente igual a 2 resulta em inexistência de autocorrelação dos resíduos Teste de BreuschGodfrey REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 93 Detecção de problemas de especificação Falhas de especificação do modelo problemas na definição na forma funcional e por omissão de variáveis explicativas relevantes Grande parte das violações dos pressupostos em regressão é gerada por falhas de especificação do modelo Testes linktest e RESET 94 Modelos não lineares de regressão Um modelo de regressão linear Comportamento não linear 95 Modelos não lineares de regressão 96 Modelos não lineares de regressão 97 Principais formas funcionais em modelos de regressão REFERÊNCIAS BIBLIOGRÁFICAS INTRODUÇÃO À ECONOMETRIA UMA ABORDAGEM MODERNA TRADUÇÃO DA 4ª EDIÇÃO NORTEAMERICANA JEFFREY M WOOLDRIDGE ANÁLISE MULTIVARIADA DE DADOS 6ª EDIÇÃO Hair Black Babin Anderson Tatham ECONOMETRIA NA PRÁTICA Organizadoras Cláudia Malbouisson Gisele F Tiryaki LUIZ PAULO FÁVERO ANÁLISE DE DADOS MODELOS DE REGRESSÃO Com EXCEL STATA e SPSS LUIZ PAULO FÁVERO PATRÍCIA BELFIORE MANUAL DE ANÁLISE DE DADOS Estatística e Modelagem Multivariada com Excel SPSS e Stata LTC
22
Macroeconomia 2
UNIOESTE
22
Macroeconomia 2
UNIOESTE
46
Macroeconomia 2
UNIOESTE
46
Macroeconomia 2
UNIOESTE
1
Macroeconomia 2
UNIGRANRIO
2
Macroeconomia 2
UMG
87
Macroeconomia 2
PUC
3
Macroeconomia 2
UFABC
2
Macroeconomia 2
USP
71
Macroeconomia 2
EEP/FUMEP
Texto de pré-visualização
Métodos Quantitativos Docente Flávio Rocha Email flaviorochaunioestebr Análise de Regressão Simples Análise de Regressão Múltipla INTRODUÇÃO Das técnicas estudadas sem dúvida nenhuma aquelas conhecidas por modelos de regressão simples e múltipla são as mais utilizadas em diversos campos do conhecimento REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 2 Imagine que um grupo de pesquisadores tenha o interesse em estudar como as taxas de retorno de um ativo financeiro comportamse em relação ao mercado como o custo de uma empresa varia quando o parque fabril aumenta a sua capacidade produtiva ou incrementa o número de horas trabalhadas como o número de dormitórios e a área útil de uma amostra de imóveis residenciais podem influenciar a formação dos preços de venda INTRODUÇÃO Note em todos estes exemplos que os fenômenos principais sobre os quais há o interesse de estudo são representados em cada caso por REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 3 uma variável métrica ou quantitativa podem ser estudados por meio da estimação de modelos de regressão finalidade principal analisar como se comportam as relações entre um conjunto de variáveis explicativas e uma variável dependente métricas ou dummies métrica INTRODUÇÃO ESTRUTURA REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 4 Temos os seguintes objetivos em relação a esse conteúdo Introduzir os conceitos sobre regressão simples e múltipla Interpretar os resultados obtidos e elaborar previsões Discutir os pressupostos da técnica Apresentar a aplicação da técnica no Gretl MODELOS LINEARES DE REGRESSÃO A técnica de regressão linear oferece a possibilidade de que seja estudada a relação entre uma ou mais variáveis explicativas que se apresentam na forma linear e uma variável dependente quantitativa REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 5 modelo geral de regressão linear pode ser definido da seguinte maneira 𝑌𝑖 𝑎 𝑏1𝑋1𝑖 𝑏2 𝑋2𝑖 𝑏𝑘 𝑋𝑘𝑖 𝑢𝑖 𝑌 variável dependente quantitativa 𝑎 coeficiente linear 𝑏𝑗 coeficientes de cada variável 𝑋𝑗 variáveis explicativas métricas ou dummies u termo erro diferença entre valor real e o previsto Essa equação representa regressão múltipla por ter diversas variáveis explicativas MODELOS LINEARES DE REGRESSÃO modelo de regressão linear simples a ser estimado apresenta a seguinte expressão REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 6 Ŷ𝒊 𝒂 ß 𝑿𝒊 intercepto Parâmetros Estimados Valor Previsto Inclinação da reta Podemos portanto verificar que enquanto o parâmetro estimado α mostra o ponto da reta de regressão em que XO o parâmetro estimado ß representa a inclinação da reta ou seja o incremento ou decréscimo de Y para cada unidade adicional de X em média REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 7 Ŷ𝒊 𝒂 ß 𝑿𝒊 intercepto Parâmetros Estimados Valor Previsto Inclinação da reta MODELOS LINEARES DE REGRESSÃO a inclusão do termo de erro resíduo qualquer relação que seja proposta dificilmente se apresentará de maneira perfeita O fenômeno que se deseja estudar representado pela variável Y apresentará relação com alguma outra variável X não incluída no modelo proposto e que portanto precisará ser representada pelo termo de erro 𝑢 REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 8 Os termos de erro ocorrem em função de algumas razões que precisam ser conhecidas e consideradas pelos pesquisadores como Existência de variáveis agregadas eou não aleatórias Incidência de falhas quando da especificação do modelo formas funcionais não lineares e omissão de variáveis explicativas relevantes Ocorrência de erros quando do levantamento dos dados Estimação do modelo de regressão linear por mínimos quadrados ordinários MQO Frequentemente vislumbramos de forma racional ou intuitiva a relação entre comportamentos de variáveis que se apresentam de forma direta ou indireta REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 9 Estas questões oferecem nitidamente relações entre determinada variável dependente que representa o fenômeno que se deseja estudar e no caso uma única variável explicativa Será que se eu mudar de emprego terei mais tempo para ficar com meus filhos Será que se eu poupar maior parcela de meu salário poderei me aposentar mais jovem Estimação do modelo de regressão linear por mínimos quadrados ordinários MQO O objetivo principal da análise de regressão é portanto propiciar ao pesquisador condições de avaliar como se comporta uma variável Y com base no comportamento de uma ou mais variáveis X sem que necessariamente ocorra uma relação de causa e efeito REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 10 Imagine que em determinado dia de aula um professor tenha o interesse em saber para uma turma de 1O estudantes de uma mesma classe qual a relação entre a distância percorrida para se chegar à escola e o tempo de percurso Regressão Linear Simples 𝑌𝑖𝒕𝒆𝒎𝒑𝒐 𝒑𝒂𝒓𝒂 𝒄𝒉𝒆𝒈𝒂𝒓 à 𝒆𝒔𝒄𝒐𝒍𝒂 𝑎 𝑏1𝑋1𝑖 distância percorrida até a escolakm Estimação do modelo de regressão linear por mínimos quadrados ordinários MQO REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 11 𝑌𝑖𝒕𝒆𝒎𝒑𝒐 𝒑𝒂𝒓𝒂 𝒄𝒉𝒆𝒈𝒂𝒓 à 𝒆𝒔𝒄𝒐𝒍𝒂 𝑎 𝑏1𝑋1𝑖 distância percorrida até a escolakm Estimação do modelo de regressão linear por mínimos quadrados ordinários MQO REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 12 Equação de regressão é Podese modelar o problema da seguinte forma Não é somente a distância percorrida que afeta o tempo para se chegar à escola uma vez que este pode também ser afetado por outras variáveis relacionadas ao tráfego ao meio de transporte ou ao próprio indivíduo e desta maneira o termo de erro u deverá capturar o efeito das demais variáveis não incluídas no modelo Estimação do modelo de regressão linear por mínimos quadrados ordinários MQO REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 13 A somatória dos resíduos deve ser zero Para que estimemos a equação que melhor se ajusta a esta nuvem de pontos devemos estabelecer duas condições fundamentais relacionadas aos resíduos 1 Em que n é o tamanho da amostra Para o mesmo banco de dados diversas retas podem respeitar a condição de que a somatória dos resíduos seja igual a zero Figura 122 Tempo de percurso x distância percorrida para cada aluno Exemplos de retas de regressão em que a somatória dos resíduos é zero Exemplos de retas de regressão em que a somatória dos resíduos é zero Exemplos de retas de regressão em que a somatória dos resíduos é zero Estimação do modelo de regressão linear por mínimos quadrados ordinários MQO REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 18 A somatória dos resíduos deve ser zero 1 Com apenas esta primeira condição podem ser encontradas diversas retas de regressão em que a somatória dos resíduos seja zero Para o mesmo banco de dados diversas retas podem respeitar a condição de que a somatória dos resíduos seja igual a zero Portanto fazse necessário o estabelecimento de uma segunda condição Estimação do modelo de regressão linear por mínimos quadrados ordinários MQO REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 19 A somatória dos resíduos ao quadrado é a mínima possível 2 Com esta condição escolhese a reta que apresenta o melhor ajuste possível à nuvem de pontos partindose portanto da definição de mínimos quadrados ou seja devese determinar a e B de modo que a somatória dos quadrados dos resíduos seja a menor possível Estimação do modelo de regressão linear por mínimos quadrados ordinários MQO REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 20 A equação para estimar B é Tabela 122 Planilha de cálculo para a determinação de α e β Observação i Tempo Yi Distância Xi Yi Y Xi X Xi XYi Y Xi X² 1 15 8 15 9 135 81 2 20 6 10 11 110 121 3 20 15 10 2 20 4 4 40 20 10 3 30 9 5 50 25 20 8 160 64 6 25 11 5 6 30 36 7 10 5 20 12 240 144 8 55 32 25 15 375 225 9 35 28 5 11 55 121 10 30 20 0 3 0 9 Soma 300 170 1155 814 Média 30 17 Média de Y Média de X Estimação do modelo de regressão linear por mínimos quadrados ordinários MQO REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 22 Jogando os dados na equação Tamanho das amostra Equação final Ŷi 58784 14189 Xi Tempo até a Escola minutos Distância Percorrida quilômetros Poder Explicativo do Modelo de regressão R² REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 24 Enquanto a soma total dos quadrados SQT mostra a variação em Y em torno da própria média a soma dos quadrados da regressão SQR oferece a variação de Y considerando as variáveis X utilizadas no modelo Para mensurarmos o poder explicativo de determinado modelo de regressão precisamos entender alguns conceitos importantes percentual de variabilidade da variável Y que é explicado pelo comportamento de variação das variáveis explicativas Além disso a soma dos quadrados dos resíduos SQU apresenta a variação de Y que não é explicada pelo modelo elaborado Poder Explicativo do Modelo de regressão R² REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 25 𝑌𝑖 equivale ao valor de Y de cada observação 𝑖 da amostra Ȳ é a média de Y Ŷ𝑖 representa o valor ajustado da resta de regressão para cada observação 𝑖 desvio total dos valores de cada observação em relação à média desvio dos valores da reta de regressão para cada observação em relação à média desvio dos valores de cada observação em relação à reta de regressão Poder Explicativo do Modelo de regressão R² REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 26 desvio dos valores de cada observação em relação à reta de regressão Figura 1213 Desvios de Y para duas observações Poder Explicativo do Modelo de regressão R² REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 28 O R² é uma fração da variância da amostra de 𝑌𝑖 explicada ou prevista pelas variáveis explicativas O R² também é conhecido como Coeficiente de ajuste ou Coeficiente de explicação O R²é uma proporção da variação amostral da variável dependente explicada pelo conjunto de variáveis explicativas Para um modelo de regressão simples esta medida mostra quanto do comportamento da variável Y é explicado pelo comportamento de variação da variável X não existe necessariamente uma relação de causa e efeito Poder Explicativo do Modelo de regressão R² REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 29 Para um modelo de regressão múltipla esta medida mostra quanto do comportamento da variável Y é explicado pela variação conjunta das variáveis X consideradas no modelo O R²é obtido da seguinte forma O R² pode variar entre O e 1 0 a 100 porém é praticamente impossível a obtenção de um R 2 igual a 1 uma vez que dificilmente todos os pontos situarseão em cima de uma reta Se o R² for 1 não haverá resíduos para cada uma das observações da amostra em estudo e a variabilidade da variável Y estará sendo totalmente explicada pelo vetor de variáveis X consideradas no modelo de regressão Figura 1214 Comportamento do R2 para diferentes regressões lineares simples REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 32 Calculando R² Poder Explicativo do Modelo de regressão R² Podemos agora afirmar que para a mostra estudada 8194 da variabilidade do tempo para se chegar à escola é devido à variável referente à distância percorrida durante o percurso elaborado por cada um dos alunos Portanto pouco mais de 18 desta variabilidade é devido a outras variáveis não incluídas no modelo e que portanto foram decorrentes da variação dos resíduos Tabela 123 Planilha para o cálculo do coeficiente de ajuste do modelo de regressão R2 Observação i Tempo Yi Distância Xi Yhati ui Yi Yhati Yhati Ybar2 ui2 1 15 8 1723 223 16308 497 2 20 6 1439 561 24361 3145 3 20 15 2716 716 805 5130 4 40 20 3426 574 1812 3298 5 50 25 4135 865 12885 7480 6 25 11 2149 351 7248 1234 7 10 5 1297 297 28992 884 8 55 32 5128 372 45300 1381 9 35 28 4561 1061 24361 11253 10 30 20 3426 426 1812 1812 Soma 300 170 163885 36115 Média 30 17 Obs Em que Yhati tempoi 58784 14189disti REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 33 O coeficiente de ajuste R² não diz aos pesquisadores se determinada variável explicativa é estatisticamente significante e se esta variável é a causa verdadeira da alteração de comportamento da variável dependente Poder Explicativo do Modelo de regressão R² Mais do que isso o R² também não oferece condições de se avaliar a existência de um eventual viés de omissão de variáveis explicativas e se a escolha daquelas que foram inseridas no modelo proposto adequada É fundamental não dar importância considerável ao valor do R² na avaliação de modelos de regressão Testes Estatísticos A Significância geral do modelo e de cada um dos parâmetros REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 34 Teste F Para estudarmos a significância estatística geral do modelo estimado Para modelo de regressão simples Verificar se o modelo que está sendo estimado de fato existe Se todos os ß 0 estatisticamente igual a zero o comportamento das variáveis explicativas não influenciará em nada o comportamento da variação da variável dependente A Significância geral do modelo e de cada um dos parâmetros REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 35 Estatística F k representa o número de parâmetros do modelo estimado inclusive o intercepto e n o tamanho da amostra A Significância geral do modelo e de cada um dos parâmetros REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 36 Usando os mesmo dados Desta forma como o F calculado 𝐹𝑐𝑎𝑙 3630 𝐹𝑐𝑟í𝑡𝑖𝑐𝑜 532 podemos rejeitar a hipótese nula de que todos os parâmetros ß sejam estatisticamente iguais a zero Com 1 grau de liberdade da regressão k 1 1 e 8 graus de liberdade para os resíduos n k 1O 2 8 temos por meio da Tabela A do apêndice do livro que o 𝐹𝑐 532 F crítico ao nível de significância de 5 Verifica nº de variáveis explicativas usado no modelo Verifica tamanho da amostra Logo pelo menos uma variável X é estatisticamente significante para explicar a variabilidade de Y e teremos um modelo de regressão estatisticamente significante para fins de previsão A Significância geral do modelo e de cada um dos parâmetros REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 37 Teste t Para estudarmos a significância estatística geral do modelo estimado Para modelo de regressão simples se corresponde ao erropadrão de cada parâmetro regressão simples temos apenas dois a e b REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 38 Calculando Teste t A Significância geral do modelo e de cada um dos parâmetros Para 8 graus de liberdade para os resíduos n k 1O 2 8 temos por meio da Tabela B do apêndice do livro que o 𝑡𝑐 2306 para o nível de significância de 5 Desta forma como o calculado t𝑐𝑎𝑙 12969 t𝑐𝑟í𝑡𝑖𝑐𝑜 2306 não podemos rejeitar a hipótese nula de que todos o parâmetros ɑ sejam estatisticamente iguais a zero a este nível de significância para a amostra em questão O mesmo todavia não ocorre para o parâmetro ß já que t𝑐𝑎𝑙 602 t𝑐 2306 Podemos portanto rejeitar a hipótese nula neste caso ou seja ao nível de significância de 5 não podemos afirmar que este parâmetro seja estatisticamente igual a zero REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 39 Elaboração de Previsão com a Equação encontrada Qual a previsão do tempo médio de percurso Y de um aluno que percorre 17 quilômetros para chegar à escola Basta substituir valor de 𝑋i 17 REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 40 a regressão linear múltipla apresenta a mesma lógica apresentada para a regressão linear simples porém agora com a inclusão de mais de uma variável explicativa X no modelo Regressão Linear Múltipla A utilização de muitas variáveis explicativas dependerá da teoria subjacente e de estudos predecessores bem como da experiência e do bom senso do pesquisador a fim de que seja possível fundamentar a decisão Utilizaremos o mesmo exemplo Imaginemos que o professor tenha tomado a decisão de coletar mais uma variável de cada um dos alunos Esta variável será referente ao número de semáforos pelos quais cada aluno é obrigado a passar e a chamaremos de variável sem Tabela 125 Exemplo tempo de percurso x distância percorrida e quantidade de semáforos Estudante Tempo para chegar à escola minutos Yi Distância percorrida até a escola quilômetros X1i Quantidade de semáforos X2i Gabriela 15 8 0 Dalila 20 6 1 Gustavo 20 15 0 Letícia 40 20 1 Luiz Ovídio 50 25 2 Leonor 25 11 1 Ana 10 5 0 Antônio 55 32 3 Júlia 35 28 1 Mariana 30 20 1 42 Equação final R² 09374 R² ajustado 09195 ajusta o modelo segundo os graus de liberdade REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 43 Teste F Regressão Linear Múltipla Todos 005 Todos estatisticamente significativos valorP 005 logo o intervalo de confiança não contém o zero REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 44 Análise Final Podese concluir que o aumento de um semáforo ao longo do trajeto até a escola incrementa o tempo médio de percurso em 82963 minutos Regressão Linear Múltipla Coeficiente da variável semáforo Equação final Por outro lado um incremento de um quilômetro na distância a ser percorrida aumenta agora apenas O7972 minutos no tempo médio de percurso Coeficiente da variável distância A redução no valor estimado do coeficiente da variável distância ocorreu porque parte do comportamento desta variável está contemplada na própria variável semáforo Em outras palavras distâncias maiores são mais suscetíveis a uma quantidade maior de semáforos e portanto há uma correlação alta entre elas Na regressão simples 14189 Na regressão múltipla 07972 REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 45 O procedimento para determinar o número de variáveis explicativas cujos dados estejam em escalas qualitativas é diferente Regressão Linear Múltipla utilizando variáveis DUMMY Como analisar o desempenho de empresas lucro de setores diferentes Como analisar o valores gastos em um supermercado diferenciando as pessoas por idades e sexo Será que há diferença como se comportam as taxas de crescimento do PIB de diferentes países considerados emergentes e desenvolvidos REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 46 Regressão Linear Múltipla utilizando variáveis DUMMY Em todas estas hipotéticas situações as variáveis dependentes são quantitativas lucro das empresas valores gastos ou taxa de crescimento do PIB Porém desejamos saber como estas se comportam em função de variáveis explicativas qualitativas setor sexo faixa de idade classificação do país que serão incluídas do lado direito dos respectivos modelos de regressão a serem estimados As variáveis dummy devem portanto ser utilizadas quando desejarmos estudar a relação entre o comportamento de determinada variável explicativa qualitativa e o fenômeno em questão representado pela variável dependente REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 47 Regressão Linear Múltipla utilizando variáveis DUMMY Devemos recorrer ao artificio das variáveis dummy ou binárias que assumem valores iguais a O ou 1 de forma a estratificar a amostra da maneira que for definido determinado critério evento ou atributo para aí assim serem incluídas no modelo em análise Até mesmo um determinado período dia mês ou ano em que ocorre um importante evento pode ser objeto de análise Exemplo Em que período do dia vieram à escola ou seja se cada um deles veio de manhã a fim de ficar estudando na biblioteca ou se veio apenas no final da tarde para a aula noturna Queremos saber se o tempo de percurso até a escola sofre variação em função da distância percorrida da quantidade de semáforos e também do período do dia em que os estudantes se deslocam para chegar até a escola Tabela 128 Exemplo tempo de percurso x distância percorrida quantidade de semáforos e período do dia para o trajeto até a escola Estudante Tempo para chegar à escola minutos Yi Distância percorrida até a escola quilômetros X1i Quantidade de semáforos X2i Período do dia X3i Gabriela 15 8 0 Manhã Dalila 20 6 1 Manhã Gustavo 20 15 0 Manhã Letícia 40 20 1 Tarde Luiz Ovídio 50 25 2 Tarde Leonor 25 11 1 Manhã Ana 10 5 0 Manhã Antônio 55 32 3 Tarde Júlia 35 28 1 Manhã Mariana 30 20 1 Manhã REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 49 Regressão Linear Múltipla utilizando variáveis DUMMY Devemos portanto definir qual das categorias da variável qualitativa será a referência dummy O Como neste caso temos somente duas categorias manhã ou tarde apenas uma única variável dummy deverá ser criada em que a categoria de referência assumirá valor O e a outra categoria valor 1 Este procedimento permitirá estudar as diferenças que acontecem na variável Y ao se alterar a categoria da variável qualitativa uma vez que o ß desta dummy representará exatamente a diferença que ocorre no comportamento da variável Y quando se passa da categoria de referência da variável qualitativa para a outra categoria estando o comportamento da categoria de referência representado pelo intercepto α A decisão de escolha sobre qual será a categoria de referência é do próprio pesquisador e os parâmetros do modelo serão obtidos com base no critério adotado REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 50 Regressão Linear Múltipla utilizando variáveis DUMMY A decisão de escolha sobre qual será a categoria de referência é do próprio pesquisador e os parâmetros do modelo serão obtidos com base no critério adotado A categoria de referência será o período da tarde ou seja as células do banco de dados com esta categoria assumirão valores iguais a O Logo as células com a categoria manhã assumirão valores iguais a 1 Isso porque o professor deseja avaliar se a ida à escola no período da manhã traz algum benefício ou prejuízo de tempo em relação ao período da tarde que é imediatamente anterior à aula Equação tempoi a b1disti b2semi b3peri ui Tabela 129 Substituição das categorias da variável qualitativa pela dummy Estudante Tempo para chegar à escola minutos Yi Distância percorrida até a escola quilômetros X1i Quantidade de semáforos X2i Período do dia dummy per X3i Gabriela 15 8 0 1 Dalila 20 6 1 1 Gustavo 20 15 0 1 Letícia 40 20 1 0 Luiz Ovídio 50 25 2 0 Leonor 25 11 1 1 Ana 10 5 0 1 Antônio 55 32 3 0 Júlia 35 28 1 1 Mariana 30 20 1 1 REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 52 Regressão Linear Múltipla utilizando variáveis DUMMY Analisando os resultados do modelo R² subiu para 09839 o que nos permite dizer que mais de 98 do comportamento de variação do tempo para se chegar à escola é explicado pela variação conjunta das três variáveis X dist sem e per Além disso este modelo é preferível em relação aos anteriormente estudados uma vez que apresenta maior R² ajustado REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 53 Regressão Linear Múltipla utilizando variáveis DUMMY Analisando os resultados do modelo O teste F nos permite afirmar que pelo menos um parâmetro estimado ß é estatisticamente diferente de zero ao nível de significância de 5 F 005 estatisticamente significativo REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 54 Regressão Linear Múltipla utilizando variáveis DUMMY Analisando os resultados do modelo F 005 estatisticamente significativo Os testes t de cada parâmetro mostram que todos eles ß1ß2 ß3 e o próprio α são estatisticamente diferentes de zero a este nível de significância Assim nenhuma variável X precisa ser excluída da modelagem REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 55 Regressão Linear Múltipla utilizando variáveis DUMMY Analisando os resultados do modelo Equação Final Podemos afirmar para o nosso exemplo que o tempo médio previsto para se chegar à escola é de 99088 minutos a menos para os alunos que optarem por ir no período da manhã em relação àqueles que optarem por ir à tarde ceteris paríbus Isso provavelmente deve ter acontecido por motivos associados ao trânsito porém estudos mais aprofundados poderiam ser elaborados neste momento REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 56 Elaboração de Previsão com a Equação encontrada qual o tempo estimado para se chegar à escola por parte de um aluno que se desloca 17 quilômetros passa por dois semáforos e vem à escola pouco antes do início da aula noturna ou seja no período da tarde Basta substituir valor de 𝑋1 17 𝑋2 2 𝑋3 0 E qual seria o tempo estimado para outro aluno que também se desloca 17 quilômetros passa também por dois semáforos porém decide ir à escola de manhã REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 57 Regressão Linear Múltipla utilizando variáveis DUMMY como cada um se considera em termos de perfil ao volante calmo moderado ou agressivo Ao obter as respostas montou o último banco de dados Para elaborar a regressão precisase transformar a variável petfil ao volante em dummíes Para a situação em que houver um número de categorias maior do que 2 para determinada variável qualitativa por exemplo estado civil time de futebol religião setor de atuação entre outros exemplos é necessário que o pesquisador utilize um número maior de variáveis dummy Para uma variável qualitativa com n categorias serão necessárias n 1 dummíes uma vez que determinada categoria deverá ser escolhida como referência e seu comportamento será capturado pelo parâmetro estimado a Tabela 1210 Exemplo tempo de percurso x distância percorrida quantidade de semáforos período do dia para o trajeto até a escola e perfil ao volante Estudante Tempo para chegar à escola minutos Yi Distância percorrida até a escola quilômetros X1i Quantidade de semáforos X2i Período do dia X3i Perfil ao volante X4i Gabriela 15 8 0 manhã calmo Dalila 20 6 1 manhã moderado Gustavo 20 15 0 manhã moderado Letícia 40 20 1 tarde agressivo Luiz Ovídio 50 25 2 tarde agressivo Leonor 25 11 1 manhã moderado Ana 10 5 0 manhã calmo Antônio 55 32 3 tarde calmo Júlia 35 28 1 manhã moderado Mariana 30 20 1 manhã moderado REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 59 Regressão Linear Múltipla utilizando variáveis DUMMY Infelizmente é bastante comum que encontremos na prática procedimentos que substituam arbitrariamente as categorias de variáveis qualitativas por valores como 1 e 2 quando houver duas categorias 1 2 e 3 quando houver três categorias e assim sucessivamente Isso é um erro grave uma vez que desta forma partiríamos do pressuposto de que as diferenças que ocorrem no comportamento da variável Y ao alterarmos a categoria da variável qualitativa seriam sempre de mesma magnitude o que não necessariamente é verdade Em outras palavras não podemos presumir que a diferença média no tempo de percurso entre os indivíduos calmos e moderados será a mesma que entre os moderados e os agressivos REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 60 Regressão Linear Múltipla utilizando variáveis DUMMY No nosso exemplo portanto a variável perfil ao volante deverá ser transformada em duas dummies variáveis perfil2 e perfil3 já que definiremos a categoria calmo como sendo a referência comportamento presente no intercepto REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 61 Regressão Linear Múltipla utilizando variáveis DUMMY Temos a equação diferença média no tempo de percurso entre um indivíduo considerado moderado e um indivíduo considerado calmo diferença média no tempo de percurso entre um indivíduo considerado agressivo e um indivíduo considerado calmo diferença média no tempo de percurso entre um indivíduo considerado agressivo e um indivíduo considerado moderado Tabela 1212 Substituição das categorias das variáveis qualitativas pelas respectivas variáveis dummy Estudante Tempo para chegar à escola minutos Yi Distância percorrida até a escola quilômetros X1i Quantidade de semáforos X2i Período do dia Dummy per X3i Perfil ao Volante Dummy perfil2 X4i Perfil ao Volante Dummy perfil3 X5i Gabriela 15 8 0 1 0 0 Dalila 20 6 1 1 1 0 Gustavo 20 15 0 1 1 0 Letícia 40 20 1 0 0 1 Luiz Ovídio 50 25 2 0 0 1 Leonor 25 11 1 1 1 0 Ana 10 5 0 1 0 0 Antônio 55 32 3 0 0 0 Júlia 35 28 1 1 1 0 Mariana 30 20 1 1 1 0 REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 63 Regressão Linear Múltipla utilizando variáveis DUMMY Analisando os resultados do modelo O coeficiente de ajuste do modelo R² foi muito elevado R² 09969 REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 64 Regressão Linear Múltipla utilizando variáveis DUMMY Analisando os resultados do modelo O teste F nos permite afirmar que pelo menos um parâmetro estimado ß é estatisticamente diferente de zero ao nível de significância de 5 F 005 estatisticamente significativo REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 65 Regressão Linear Múltipla utilizando variáveis DUMMY Analisando os resultados do modelo F 005 X3 e X4 não são estatisticamente diferentes de zero Os testes t de cada parâmetro mostram que apenas ß1ß2 ß5 e o próprio α são estatisticamente diferentes de zero a este nível de significância período em que o trajeto foi efetuado X3 e à categoria moderado da variável perfil ao volante X4 não foram significantes Desta forma tais variáveis serão retiradas da análise e o modelo será elaborado novamente REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 66 Regressão Linear Múltipla utilizando variáveis DUMMY é importante analisarmos que na presença das demais variáveis o tempo do percurso até a escola passa a não apresentar mais diferenças se o percurso for realizado de manhã ou à tarde Procedimento Stepwise apresenta a propriedade de automaticamente excluir as variáveis explicativas cujos parâmetros não se mostrarem estatisticamente diferentes de zero Os softwares fazem esse procedimento e apresenta o modelo final em que todos os parâmetros são estatisticamente diferentes de zero REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 67 Regressão Linear Múltipla utilizando variáveis DUMMY Analisando os resultados do modelo O coeficiente de ajuste do modelo R² foi muito elevado R² 09954 Nova Equação REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 68 Regressão Linear Múltipla utilizando variáveis DUMMY Analisando os resultados do modelo O teste F nos permite afirmar que pelo menos um parâmetro estimado ß é estatisticamente diferente de zero ao nível de significância de 5 F 005 estatisticamente significativo REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 69 Regressão Linear Múltipla utilizando variáveis DUMMY Analisando os resultados do modelo F 005 Todos são estatisticamente diferentes de zero Os testes t de cada parâmetro mostram que todos os ß ß1ß2 ß3 variáveis x1 x2 e x5 e o próprio α são estatisticamente diferentes de zero a este nível de significância REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 70 Elaboração de Previsão com a Equação encontrada Qual seria o tempo estimado para outro aluno que também se desloca 17 quilômetros passa também por dois semáforos também decide ir à escola de manhã porém tem um perfil considerado agressivo ao volante Basta substituir valor de perfil 3 1 1 para agressivo e 0 para calmo Por fim podemos afirmar que um estudante considerado agressivo ao volante leva em média 89676 minutos a mais para chegar à escola em relação a outro considerado calmo Pressupostos dos modelos de regressão MQO REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 71 REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 72 Pressupostos dos modelos de regressão MQO 1 Normalidade dos resíduos A normalidade dos resíduos é requerida apenas e tão somente para que sejam validados os testes de hipótese dos modelos de regressão o pressuposto da normalidade assegura que o valorP dos testes T e do teste F sejam válidos a violação deste pressuposto pode ser minimizada quando da utilização de grandes amostras 1 Normalidade dos resíduos Figura 1234 Distribuição normal dos resíduos REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 74 Pressupostos dos modelos de regressão MQO 1 Normalidade dos resíduos Recomendase que seja aplicado dependendo do tamanho da amostra o teste de ShapiroWilk ou o teste de ShapiroFrancia aos termos de erro a fim de que seja verificado o pressuposto da normalidade dos resíduos Enquanto o teste de ShapiroWilk é mais indicado para pequenas amostras aquelas com até 30 observações o teste de ShapiroFrancia é mais recomendado para grandes amostras A não aderência à normalidade dos termos de erro pode indicar que o modelo foi especificado incorretamente quanto à forma funcional e que houve a omissão de variáveis explicativas relevantes corrigido o problema alterar a formulação matemática ou incluir novas variáveis explicativas no modelo REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 75 Pressupostos dos modelos de regressão MQO 2 Multicolinearidade O problema da multicolinearidade ocorre quando há correlações muito elevadas entre variáveis explicativas Não seria possível separar as variações ocorridas na variável dependente em decorrência de alterações em X1 advindas da influência de X2 REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 76 Pressupostos dos modelos de regressão MQO 2 Multicolinearidade Existência de variáveis que apresentam a mesma tendência durante alguns períodos CAUSAS Faturamento de uma franquia Area m² da loja Nº de funcionários Certamente há uma relação direta entre área m² e Nº de funcionários x1 e x2 estão altamente correlacionados Banco de dados com número insuficiente de observações REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 77 Pressupostos dos modelos de regressão MQO 2 Multicolinearidade Pode eventualmente fazer com que um pesquisador considere não significantes os efeitos de algumas das variáveis explicativas CONSEQUÊNCIAS Como os cálculos da estatística F e do R² não são afetados por este fenômeno é comum que se encontrem modelos em que os coeficientes das variáveis explicativas não sejam estatisticamente significantes E o teste F rejeitando a hipótese nula ao mesmo nível de significância ou seja indicando que pelo menos um parâmetro seja estatisticamente diferente de zero REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 78 Pressupostos dos modelos de regressão MQO 2 Multicolinearidade Identificação de altas correlações entre variáveis explicativas por meio da análise da matriz de correlação simples DIAGNÓSTICO não consegue identificar eventuais relações existentes entre mais de duas variáveis simultaneamente Estatística VIF Variance Inflation Factor Geralmente um VIF acima de 10 indica problemas mas há controvérsias REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 79 Pressupostos dos modelos de regressão MQO 2 Multicolinearidade Aplicam o procedimento Stepwíse para que sejam eliminadas as variáveis explicativas que estão correlacionadas POSSÍVEIS SOLUÇÕES A existência de multicolinearidade não afeta a intenção de elaboração de previsões tal solução pode criar um problema de especificação pela omissão de variável relevante Apesar do problema não gera necessariamente estimadores ruins ou fracos e não significa que o modelo possui problemas uma solução para a multicolinearidade é identificála reconhecêla e não fazer nada REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 80 Pressupostos dos modelos de regressão MQO 3 HETEROCEDASTICIDADE Não constância da variância dos resíduos ao longo da variável explicativa Em outras palavras deve estar ocorrendo uma correlação entre os termos do erro e a variável X 81 3 HETEROCEDASTICIDADE deve estar ocorrendo uma correlação entre os termos do erro e a variável X percebida pela formação de um cone que se estreita à medida que X aumenta REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 82 Pressupostos dos modelos de regressão MQO 3 HETEROCEDASTICIDADE Erros de especificação quanto à forma funcional ou quanto à omissão de variável relevante podem gerar termos de erro heterocedásticos no modelo CAUSAS REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 83 Pressupostos dos modelos de regressão MQO 3 HETEROCEDASTICIDADE Gera estimadores dos parâmetros não viesados porém ineficientes e errospadrão dos parâmetros viesados o que acarreta problemas com os testes de hipótese das estatísticas t CONSEQUÊNCIAS REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 84 Pressupostos dos modelos de regressão MQO DIAGNÓSTICO O teste de BreuschPaganCookWeisberg 3 HETEROCEDASTICIDADE valorP 005 REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 85 Pressupostos dos modelos de regressão MQO POSSÍVEL SOLUÇÃO Falhas na especificação do modelo podem gerar termos de erro heterocedásticos 3 HETEROCEDASTICIDADE Cabe ao pesquisador elaboração de gráficos dos resíduos em função da variável dependente ou das variáveis explicativas tentar inferir sobre um eventual ajuste não linear a ser aplicado ao modelo em estudo como o logarítmico o quadrático ou o inverso REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 86 Pressupostos dos modelos de regressão MQO 4 AUTOCORRELAÇÃO DOS RESÍDUOS A hipótese de aleatoriedade e independência dos termos de erro apenas faz sentido de ser estudada em modelos em que há a evolução temporal dos dados Se estivermos trabalhando com uma base de dados em crosssection este pressuposto não se justifica Os termos de erro não são independentes cada valor de e depende do valor de e do período anterior e de um termo aleatório e independente u com distribuição normal média zero e variância constante 87 nitidamente os termos de erro não apresentam aleatoriedade e correlacionamse temporalmente 4 AUTOCORRELAÇÃO DOS RESÍDUOS REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 88 Pressupostos dos modelos de regressão MQO Erros de especificação quanto à forma funcional ou quanto à omissão de variável explicativa relevante podem gerar termos de erro autocorrelacionados CAUSAS 4 AUTOCORRELAÇÃO DOS RESÍDUOS Além disso a autocorrelação dos resíduos também pode ser causada por fenômenos sazonais e consequentemente pela dessazonalização destas séries 89 4 AUTOCORRELAÇÃO DOS RESÍDUOS Investigar a relação existente entre consumo de sorvete em toneladas em determinada cidade e o crescimento da população ao longo dos trimestres Podemos perceber que o crescimento da população da cidade ao longo do tempo faz com que o consumo de sorvete aumente Entretanto por conta da sazonalidade que existe já que o consumo de sorvete é maior em períodos de primavera e verão e menor em períodos de outono e inverno a forma funcional linear modelo dessazonalizado faz com que sejam gerados termos de erro autocorrelacionados ao longo do tempo REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 90 Pressupostos dos modelos de regressão MQO Gera estimadores dos parâmetros não viesados porém ineficientes e errospadrão dos parâmetros subestimados o que acarreta problemas com os testes de hipótese das estatísticas t CONSEQUÊNCIAS 4 AUTOCORRELAÇÃO DOS RESÍDUOS REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 91 Pressupostos dos modelos de regressão MQO Testes de DurbinWatson DIAGNÓSTICO 4 AUTOCORRELAÇÃO DOS RESÍDUOS Um teste de DurbinWatson com estatística DW aproximadamente igual a 2 resulta em inexistência de autocorrelação dos resíduos Teste de BreuschGodfrey REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 92 Pressupostos dos modelos de regressão MQO Pode ser tratada pela alteração da forma funcional do modelo ou pela inclusão de variável relevante que havia sido omitida POSSÍVEIS SOLUÇÕES 4 AUTOCORRELAÇÃO DOS RESÍDUOS Um teste de DurbinWatson com estatística DW aproximadamente igual a 2 resulta em inexistência de autocorrelação dos resíduos Teste de BreuschGodfrey REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 93 Detecção de problemas de especificação Falhas de especificação do modelo problemas na definição na forma funcional e por omissão de variáveis explicativas relevantes Grande parte das violações dos pressupostos em regressão é gerada por falhas de especificação do modelo Testes linktest e RESET 94 Modelos não lineares de regressão Um modelo de regressão linear Comportamento não linear 95 Modelos não lineares de regressão 96 Modelos não lineares de regressão 97 Principais formas funcionais em modelos de regressão REFERÊNCIAS BIBLIOGRÁFICAS INTRODUÇÃO À ECONOMETRIA UMA ABORDAGEM MODERNA TRADUÇÃO DA 4ª EDIÇÃO NORTEAMERICANA JEFFREY M WOOLDRIDGE ANÁLISE MULTIVARIADA DE DADOS 6ª EDIÇÃO Hair Black Babin Anderson Tatham ECONOMETRIA NA PRÁTICA Organizadoras Cláudia Malbouisson Gisele F Tiryaki LUIZ PAULO FÁVERO ANÁLISE DE DADOS MODELOS DE REGRESSÃO Com EXCEL STATA e SPSS LUIZ PAULO FÁVERO PATRÍCIA BELFIORE MANUAL DE ANÁLISE DE DADOS Estatística e Modelagem Multivariada com Excel SPSS e Stata LTC