·

Ciências Econômicas ·

Econometria

Send your question to AI and receive an answer instantly

Ask Question

Preview text

APRESENTAÇÃO REGRESSÃO LINEAR SIMPLES Profa Dra Daniela Müller de Quevedo REGRESSÃO LINEAR SIMPLES CONCEITOS BÁSICOS Em estatística em diversos momentos trabalhamos com a descrição de valores de uma única variável Quando porém consideramos observações de duas ou mais variáveis surge um novo problema as relações que podem existir entre as variáveis estudadas Assim quando consideramos variáveis como peso e estatura de um grupo de pessoas uso do cigarro e incidência do câncer procuramos verificar se existe alguma relação entre as variáveis de cada um dos pares e qual o comportamento dessa relação Uma vez caracterizada a relação procuramos descrevêla através de uma função matemática A regressão é o instrumento adequado para determinação dos parâmetros dessa função Se todos os valores das variáveis satisfazem exatamente uma equação dizse que elas estão perfeitamente correlacionadas ou que há correlação perfeita entre elas Quando estão em jogo somente duas variáveis falase em correlação e regressão simples REGRESSÃO LINEAR SIMPLES DIAGRAMA DE DISPERSÃO E A RETA DE REGRESSÃO Representando em um sistema cartesiano coordenado cartesiano ortogonal os pares ordenados x y obtemos uma nuvem de pontos que denominamos diagrama de dispersão Através do diagrama poderemos identificar a função que melhor descreve a relação entre as variáveis Consideremos uma amostra aleatória formada por dez dos 98 alunos de uma classe da Universidade A e pelas notas obtidas por eles em Matemática e Estatística Diagrama de Dispersão y 08632x 08889 R2 08304 0 2 4 6 8 10 12 0 2 4 6 8 10 12 Matemática Estatística Equação da Reta de regressão reta crescente O Gráfico apresenta o diagrama de dispersão Através do diagrama percebemos que existe uma relação positiva entre as variáveis e que pode ser expressa através da aproximação por uma reta crescente A reta que aproxima a relação entre as variáveis é chamada de reta de regressão Um problema frequente em estatística consiste em investigar questões como estas Há alguma relação entre duas grandezas As variações em uma grandeza acarretam variações na outra Por exemplo as variações de taxas de juros afetam a procura por casas Em outras situações estamos interessados em saber se é possível usar uma das variáveis para predizer o valor de outra Nessas situações estando estabelecida a relação entre as variáveis podemos estimar os valores de uma variável em função de outra através da função que descreve essa relação No caso de relações lineares ajustamos aos dados uma função ao qual chamamos de reta de regressão A RETA DE REGRESSÃO Regressão linear simples método de análise da relação entre uma variável independente e uma variável dependente Reta de regressão reta calculada na análise de regressão usada para estimar a relação entre as grandezas Ajustamento da Reta Sempre que desejamos estudar determinada variável em função da outra fazemos uma análise de regressão Dizemos que a análise de regressão tem por objetivo descrever através de um modelo matemático a relação entre duas variáveis partindo de n observações das mesmas A variável sobre a qual desejamos fazer uma estimativa recebe o nome de variável dependente e a outra recebe o nome de variável independente Assim supondo X a variável independente e Y a dependente vamos procurar determinar o ajustamento de uma reta à relação entre essas variáveis ou seja vamos obter uma função definida por Y a X b ε É importante relembrar aqui os conceitos da equação de uma reta Onde ε é o erro não explicado pelo modelo e a e b são os parâmetros dados por 2 2 n a i i i i i i x x n y x y x e x y a b n é o número de observações é a média aritmética dos valores xi é a média aritmética dos valores yi x y Exemplo 1 Em economia admitese que o nível de renda afete a procura de determinado bem de consumo Para a maior parte desses bens uma renda mais elevada acarreta maior procura A única maneira de dizer se um determinado bem de consumo é um bem inferior consiste em coletar os dados Suponha as seguintes observações da renda média e de consumo de determinado produto durante um mês em oito cidades distintas Cidade Renda X 1000 Unidades vendidas Y milhares 1 2 3 4 5 6 7 8 5 10 20 8 4 6 12 15 27 46 73 40 30 28 46 59 Diagrama de Dispersão y 29048x 14577 R2 09683 0 20 40 60 80 0 5 10 15 20 25 Renda Vendas a29048 e b14577 Utilizando o Excel poderemos obter o diagrama de dispersão bem como a reta de regressão que nesse caso estabelece a quantidade de unidades vendidas em função da renda Lembre que aqui antes de estimarmos os parâmetros da reta precisamos estabelecer quem é a variável dependente y e quem é a variável independente x No Exemplo 1 utilizamos o Excel para encontrar a equação da reta que descreve a relação entre renda e consumo de determinado produto Em continuidade ao Exemplo 1 demonstramos aqui o cálculo dos coeficientes a e b da equação da reta Cidade Renda X Unidades vendidas Y xi yi xi 2 1000 milhares 1 5 27 135 25 2 10 46 460 100 3 20 73 1460 400 4 8 40 320 64 5 4 30 120 16 6 6 28 168 36 7 12 46 552 144 8 15 59 885 225 Ʃ 80 349 4100 1010 2 2 n a i i i i i i x x n y x y x 𝑎 x y a b 𝑏 349 8 29048 80 8 14577 29048 X 14577 A reta que estima unidades vendidas em função da renda é uma reta crescente a0 o que indica uma relação linear positiva entre as variáveis Usamos a notação para indicar que estamos realizando uma estimativa Exemplo 2 Consideremos uma amostra aleatória formada por dez alunos de uma classe da Universidade A e pelas notas obtidas por eles em Matemática e Estatística Vamos então calcular a reta de regressão tomando como variável independente a As notas obtidas em matemática b As notas obtidas em estatística Matemática Estatística 50 80 70 100 60 70 90 30 80 20 60 90 80 100 50 70 80 40 60 20 Diagrama de Dispersão y 08632x 08889 R2 08304 0 2 4 6 8 10 12 0 2 4 6 8 10 12 Matemática Estatística Diagrama de Dispersão y 09619x 02476 R2 08304 0 2 4 6 8 10 12 0 2 4 6 8 10 12 Estatística Matemática a b Observamos que independente de quem tomamos como variável independente x a relação entre as variáveis permanece a mesma positiva mas a equação de regressão se modifica Interpolação e extrapolação Analisando as notas obtidas em matemática no Exemplo 2 verificamos que a nota 40 não figura entre as notas de matemática Entretanto podemos estimar a nota correspondente em estatística tomando x40 na equação de regressão encontrada y 08632x 08889 08632 4 08889 43417 O mesmo acontece com a nota 10 Repetindo o procedimento temos y 08632x 08889 08632 1 08889 17521 É possível verificar que os valores de notas de Matemática utilizados para cálculo da reta de regressão apresentam um valor mínimo de 2 e máximo de 10 Como 4 210 dizemos que foi feita uma interpolação e como 1 210 dizemos que foi feita uma extrapolação Aqui estabelecemos o conceito de coeficiente de determinação CD que é uma importante medida na análise de regressão O coeficiente de determinação é estabelecido pelo coeficiente de correlação elevado ao quadrado então CD R2 O Coeficiente de determinação indica qual porcentagem dos dados que está sendo explicada pelo modelo de regressão Por exemplo se encontrarmos um CD 080 80 isso significa que oitenta por cento dos dados estão sendo explicados por aquele modelo COEFICIENTE DE DETERMINAÇÃO R2 é uma medida do poder explicativo do modelo utilizado Dá a proporção da variação da variável dependente Y que é explicada em termos lineares pela variável independente X isto é a proporção da variação de Y explicada pelo modelo Temse que 0 R2 1 a proporção da variação de Y explicada pelo modelo é no máximo 1 e no mínimo 0 Se R2 1 significa que grande parte da variação de Y é explicada linearmente por X modelo adequado Se R2 0 o modelo não é adequado aos dados 1 R2 é a proporção de variação de Y não explicada pela variável X resultante de fatores não incluídos no modelo O coeficiente de determinação pode ser utilizado como uma medida da qualidade do ajustamento ou como medida da qualidade de confiança depositada na equação de regressão como instrumento de precisão Diagrama de Dispersão y 29048x 14577 R2 09683 0 20 40 60 80 0 5 10 15 20 25 Renda Vendas O diagrama de dispersão ao lado representa a relação entre Renda e Unidades vendidas apresentado no Exemplo 1 Este além da reta de regressão apresenta o coeficiente de determinação R2 Desse modo podemos afirmar que através da reta 9683 das variações que se observam nas vendas são explicadas pelas variações de renda Um coeficiente de terminação próximo de 1 um indica que temos um bom ajuste da reta para estabelecer a relação entre estas variáveis RESÍDUO DO MODELO A análise de resíduos investiga características que comprometem a validade do modelo A diferença entre os valores observados e os preditos será chamada de resíduo do modelo de regressão sendo denotado por O resíduo relativo à iésima observação ei pode ser considerado uma estimativa do erro aleatório ei como ilustrado abaixo O resíduo será dado pela diferença entre o valor real medido e o valor estimado pela reta de regressão Desejase que essa diferença seja a menor possível pois isso indica que temos boas estimativas através do modelo Alguns dos fatores que podem comprometer a validade do modelo são relação entre X e Y não é linear erros não têm variância constante à variância constante do erro damos no nome de homocedasticidade erros não são normalmente distribuídos εmédia zero e variância constante Para realizarmos uma análise de resíduos elaboramos o diagrama de dispersão dos resíduos versus os valores preditos Deste modo poderemos identificar heterocedasticidade de ε representa a violação da homoscedasticidade detectar não linearidade entre X e Y detectar prováveis dados atípicos Em um modelo bem ajustado obteremos resíduos dispersos aleatoriamente em torno de zero com variância constante concentrados entre 2 e 2 e pouquíssimos pontos acima de 3 ou abaixo de 3 para os erros normalizados GRÁFICOS DE RESÍDUOS DO MODELO Gráfico probabilístico normal dos resíduos É um gráfico de pontos de quantis amostrais dos resíduos versus quantis teóricos da distribuição normal padrão qq plot normal ou quantilquantil normal Através do gráfico poderemos detectar não normalidade de ε detectar dados atípicos Quando o modelo estiver bem ajustado os pontos estarão alinhados na reta que representa a identidade dos quantis amostrais e teóricos Um gráfico alternativo para identificar a normalidade dos resíduos é o histograma Histograma Quantilquantil Os gráficos apresentam um exemplo onde os resíduos não seguem a distribuição normal Nesse caso os resíduos têm distribuição assimétrica Exemplo 3 A tabela abaixo apresenta os preços médios das ações e títulos divulgados pela Bolsa de Nova York entre 1950 e 1959 Encontre a reta de regressão o coeficiente de determinação e faça a análise dos resíduos Ano Ações X Títulos Y Previsto Títulos Resíduos 1950 3522 10243 9952 291 1951 3987 10043 9857 186 1952 4185 9743 9816 073 1953 4323 9781 9788 007 1954 4006 9832 9853 021 1955 5329 10007 9582 425 1956 5414 9708 9565 143 1957 4912 9159 9668 509 1958 4071 9485 9840 355 1959 5515 9465 9544 079 A tabela apresenta além dos dados os valores previstos pela equação de regressão para Títulos com base nos valores observados das ações O resíduo representa a diferença entre o valor observado para títulos e o valor previsto 30 35 40 45 50 55 60 86 88 90 92 94 96 98 100 102 104 fx 0204670380899493 x 106730200121035 R² 0207997352937816 Ações Títulos 30 35 40 45 50 55 60 6 4 2 0 2 4 6 Plotagem de resíduos Ações Resíduos O gráfico representa a dispersão dos resíduos Existe uma relação negativa entre as variáveis pois os pontos acompanham uma reta decrescente a0 O coeficiente de determinação é baixo 208 Ou seja apenas 208 das variações observadas nos Títulos são explicadas pelas variações nas ações Exemplo 3 continuação A tabela abaixo apresenta os preços médios das ações e títulos divulgados pela Bolsa de Nova York entre 1950 e 1959 Encontre a reta de regressão o coeficiente de determinação e faça a análise dos resíduos 30 35 40 45 50 55 60 6 4 2 0 2 4 6 Plotagem de resíduos Ações Resíduos A RETA DE REGRESSÃO Exemplo 4 Consideremos uma amostra aleatória formada por dez alunos de uma classe da Universidade A e pelas notas obtidas por eles em Matemática e Estatística Faça a análise do ajuste do modelo considerando Matemática como variável independente X Matemática Estatística 50 80 70 100 60 70 90 30 80 20 60 90 80 100 50 70 80 40 60 20 1 2 3 4 5 6 7 8 9 10 11 2 15 1 05 0 05 1 15 Plotagem de resíduos Matemática Resíduos 1 2 3 4 5 6 7 8 9 10 11 0 2 4 6 8 10 12 fx 0863247863247863 x 0888888888888888 R² 083036223036223 Matemática X Estatística Y Avaliando o modelo ajustado observase que o valor de R² é alto 08304 e os resíduos concentramse em torno de zero Através do histograma avaliase que esses se aproximam da normal O mesmo pode ser identificado no gráfico qq Plot BARBETTA Pedro Alberto Estatística para cursos de engenharia e informática 3 São Paulo Atlas 2010 Recurso online ISBN 9788522465699 KAZMIER Leonard J Estatística aplicada à administração e economia 4 Porto Alegre Bookman 2006 1 recurso online Schaum ISBN 9788577802470 Gráficos e tabelas elaborados pela autora REFERÊNCIAS