Texto de pré-visualização
1 1 i Quarta lista de exercícios 2 ano de Administração Unioeste Disciplina Métodos Quantitativos Prof Eduardo de Pintor Orientações A lista deve ser entregue impressa contendo os cálculos dos exercícios até dia 16122024 Aluno Lista de exercícios 4 1 A tabela a seguir fornece dados sobre a taxa de demissão por 100 empregados e a taxa de desemprego na indústria dos EUA no período 19601972 Ano Taxa de demissão por 100 empregados Y Taxa de desemprego X 1960 13 62 1961 12 78 1962 14 58 1963 14 57 1964 15 50 1965 19 40 1966 26 32 1967 23 36 1968 25 33 1969 27 33 1970 21 56 1971 18 68 1972 22 56 a Construa um diagrama de dispersão com os dados b Suponha que a taxa de demissão Y se relacione linearmente com a taxa de desemprego X como Yi 1 2 X i ui Estime ˆ ˆ 2 e seus errospadrão Apresente a reta de regressão c Calcule r 2 e r d Interprete seus resultados e Represente graficamente os resíduos resíduos ui O que você pode verificar a partir desses f Utilizando os dados anuais do período 19661978 e o mesmo modelo de b foram obtidos os resultados a seguir yi 31237 01714 X epˆ 2 00210 e r 2 08575 Y i 2 Se estes resultados são diferentes daqueles que você obteve em b como você explicaria a diferença 2 A tabela a seguir mostra os valores de X e Y observados em uma amostra Xi Yi 1 6 2 7 3 7 4 11 5 14 a Determine as estimativas dos parâmetros da equação de regressão linear de Y em relação a X b Plote a reta de regressão em um gráfico e mostre o desvio de cada Y observado em relação ao correspondente Yˆ Yestimado c Determine o coeficiente de determinação Interprete o resultado d Determine o coeficiente de correlação entre X e Y e Admitindo que as variáveis X e Y estão relacionadas de acordo com o modelo Y 1 2 X i ui onde os ui são erros independentes com média zero variância constante e distribuição normal teste a hipótese de significância de 1 H 0 2 0 contra H A 2 0 ao nível f Determine Yˆ Yestimado para X3 para X5 e para X7 3 A tabela a seguir fornece dados sobre preços do ouro o Índice de Preços ao Consumidor IPC e o Índice da Bolsa de Valores de Nova York NYSE para os EUA no período 1977 1991 Ano Preço do Ouro IPC NYSE 1977 14798 606 5369 1978 19344 652 537 1979 30762 726 5832 1980 61251 824 6810 1981 45961 909 7402 1982 37601 965 6893 1983 42383 996 9263 1984 36029 1039 9246 1985 31730 1076 1089 1986 36787 1096 13600 1987 4465 1136 1617 1988 43693 1183 14991 1989 38128 1240 18002 1990 38408 1307 18346 1991 36204 1362 20633 a Represente em um único diagrama de dispersão o preço do ouro o IPC e o índice NYSE Coeficiente de determinação r² 3 2 b Supõese que um investimento esteja protegido contra a inflação se seu preço eou a taxa de retorno pelo menos acompanhar a inflação Para testar esta hipótese suponha que você decida ajustar os modelos a seguir admitindo que o diagrama em a sugere que isto seja apropriado Preço do ourot 1 2 IPCt ut Índice NYSEt 1 2 IPCt ut Se a hipótese estiver correta que valor você esperaria para 2 c Teste a hipótese de que as perturbações nos dois modelos de regressão se distribuem normalmente d Na regressão do preço do ouro teste a hipótese de que 2 1 ou seja que existe uma relação uma a uma entre preços do ouro e IPC isto é o ouro é uma proteção perfeita Qual é o valor p da estatística de teste estimada e Repita o passo d para a regressão do Índice NYSE O investimento no mercado de ações é uma proteção perfeita contra a inflação Qual a hipótese nula que você está testando Qual o valor p f Qual a melhor salvaguarda contra a inflação ouro ou ações Dica analise o 2 estimado para os dois modelos 4 A tabela a seguir fornece dados sobre o número de telefones por 1000 pessoas Y e o Produto Interno Bruto PIB per capita a custo de fatores X em dólares de Cingapura de 1968 para Cingapura no período 19601981 Existe alguma relação entre as duas variáveis Como você sabe Dica Interprete o e o r 2 Ano Y X 1960 36 1299 1961 37 1365 1962 38 1409 1963 41 1549 1964 42 1416 1965 45 1473 1966 48 1589 1967 54 1757 1968 59 1974 1969 67 2204 1970 78 2462 1971 90 2723 1972 102 3033 1973 114 3317 1974 126 3487 1975 141 3575 1976 163 3784 1977 196 4025 1978 223 4286 1979 262 4628 1980 291 5038 1981 317 5472 4 i 1 1 1 5 Explique o significado dos seguintes termos a Análise de Regressão simples e Análise de Regressão Múltipla b Análise de Regressão linear c Termo de erro ou distúrbio d Comente as características ou propriedades dos erros 6 Responda se as afirmações abaixo são verdadeiras ou falsas No modelo clássico de regressão linear Yi 1 2 Xi ui A hipótese de que o erro é normalmente distribuído é necessária para que os estimadores de mínimos quadrados ordinários também sejam normalmente distribuídos Os estimadores ˆ Y ˆ 2 X e ˆ 2 xi yi x 2 são os estimadores lineares nãotendenciosos de variância mínima apenas se os erros ui são variáveis não correlacionadas entre si com ui 0 e variância constante Se uma dessas preposições sobre os erros não for válida os estimadores de mínimos quadrados ordinários deixam de ser os melhores Hoffman cap 19 pág 368 As hipóteses de que o erro é normalmente distribuído e de que covui u j X i X j 0 i j asseguram que ui e u j se distribuem independentemente A hipótese Vari X i é necessária para que os estimadores de mínimos quadrados ordinários sejam não tendenciosos Os estimadores de mínimos quadrados de lineares das observações Yi 1 e 2 podem ser escritos como combinações 7 Na função consumo linear abaixo consˆ ˆ 0 ˆ renda A Propensão Marginal a Consumir PMgC representa a inclinação ˆ enquanto a Propensão Média a Consumir PmeC é a razão entre consumo e renda onde PmeC ˆ 0 renda ˆ Usando observações de consumo e renda ambos medidos em dólares para 100 famílias foi obtida a seguinte equação consˆ 12484 0853renda n 100 r 2 0692 1 2 5 1 a Interprete o intercepto da equação e comente seu sinal e magnitude Há embasamento teórico para esse resultado b Interprete o significado do coeficiente de inclinação ˆ c Qual é o consumo previsto quando a renda da família for de 3000000 d Interprete o coeficiente de determinação 8 Usando dados de 1388 nascimentos n nos Estados Unidos foi estimada a seguinte regressão simples onde a variável dependente é o peso dos bebês recémnascidos kgbaby em onças e a variável explicativa é o número de cigarros fumados por dia pelas mães desses bebês durante a gravidez cigs 1 onça 1 oz 2835 g kgbaby 11977 0514cigs a qual é o peso previsto do recémnascido quando cigs 0 E quando cigs20 Comente a diferença 9 O teorema de Gauss Markov estipula que para um modelo de regressão o método de Mínimos Quadrados Ordinários MQO terá os melhores estimadores lineares se determinados pressupostos básicos relativos ao modelo forem satisfeitos Explique e não apenas liste que pressupostos são estes 9 Para que o Teorema de GaussMarkov seja válido os seguintes pressupostos devem ser satisfeitos 1 Parâmetros devem ser lineares O modelo de regressão deve ser linear nos parâmetros ou seja a relação entre a variável dependente e as variáveis explicativas deve ser expressa como uma combinação linear dos parâmetros Y β0 β1X1 β2X2 βnXn e 2 Amostragem aleatória Os dados devem ser uma amostra aleatória da população Isso implica que as observações são independentes e identicamente distribuídas o que garante que os erros não sejam correlacionados entre si 3 Média condicional zero O valor esperado do termo e condicionado às variáveis explicativas deve ser zero EeX1 X2 Xn 0 Isso significa que em média o termo de erro não tem efeito sobre a variável dependente dado os valores das variáveis independentes Em outras palavras não há viés sistemático 4 Homocedasticidade A variância do termo de erro e deve ser constante para todos os valores das variáveis explicativas Isso pode ser expresso como VareX1 X2 Xn σ² com σ² constante A homocedasticidade garante que a dispersão dos erros seja a mesma em todos os níveis das variáveis independentes 5 Ausência de multicolinearidade perfeita As variáveis explicativas não devem ser perfeitamente correlacionadas entre si Em outras palavras não devem haver uma relação linear exata entre as variáveis independentes A multicolinearidade perfeita tornaria impossível estimar os parâmetros de forma única 8 Kgbaby 11977 0514cigs 1 cigs 0 Kgbaby 11977 05140 11977 onças 2 cigs 20 Kgbaby 11977 051420 11977 1028 10999 onças A diferença no peso previsto do bebê entre mães que não fumam cigs0 e mães que fumam 20 cigarros por dia cigs20 é 1028 onças Isso significa que em média bebês de mães que fumam 20 cigarros por dia durante a gravidez tem um peso 1028 onças menor do que bebês de mães que não fumam 6 V A hipótese de que o erro u é normalmente distribuído não é necessária para que os estimadores de mínimos quadrados ordinários sejam nãoviesados ou consistentes No entanto a normalidade do erro é importante para garantir que os estimadores de MQO sejam normalmente distribuídos especialmente em amostras pequenas V É verdadeiro pois verifica os pressupostos do teorema de Gauss Markov se Eu 0 serão viesados se Varu σ² mas for constante nos terá a menor variância o estimador se houver correlações entre os erros também não serão os estimadores de menor variância V Se o erro e é normalmente distribuído e que temos Covui uj Xi Xj 0 para ij então os erros ui e uj são não correlacionados e como a distribuição normal conjunta de variáveis aleatórias não correlacionadas implica independência concluímos que ei e ej são independentes F Para que os estimadores de MQO sejam não tendenciosos a principal hipótese necessária é que o erro tenha esperança condicional zero ou seja EuiXi 0 V É verdadeiro pois é um dos pressupostos assegurados pelo teorema de GaussMarkov 5 Análise de regressão é uma técnica estatística usada para modelar e analisar relações entre uma variável dependente e uma ou mais variáveis dependentes i Análise de regressão simples Y β1 β2X e Y é variável dependente X é variável independente usada para prever Y β1 é o intercepto Valor esperado de Y quando X0 β2 é o coeficiente angular que mede a mudança esperada em Y para uma unidade de mudança em X e é o erro aleatório que representa influências não explicadas pelo modelo ii Análise de regressão múltipla Y β1 β2X1 β3X2 βpXp e em que X1 X2 Xp são as variáveis explicativas Y é a variável resposta β2 β3 βp são os coeficientes que indicam o efeito de cada variável independente sobre Yi e é o erro aleatório b Análise de regressão linear É um método estatístico usado para modelar a relação entre uma variável dependente ou resposta e uma ou mais variáveis independentes ou explicativas Se houver apenas uma variável independente chamamos de regressão linear simples Se houver várias variáveis independentes chamamos de regressão linear múltipla c Termo de erro ou Distúrbio Na regressão linear representa a diferença entre os valores observados da variável dependente e os valores previstos pelo modelo Ou seja ele captura a parte da variabilidade que o modelo não consegue explicar com as variáveis independentes Cont 5 d Comente as características ou propriedades dos erros As características são Média zero Ee 0 mas tendencioso Variância constante Vare σ² homocedasticidade Independência dos erros Isso significa que não há autocorrelação isto é o erro em uma observação não deve influenciar o erro em outras observações Normalidade dos erros Os erros devem seguir uma distribuição normal especialmente quando se deseja fazer testes de hipóteses e intervalos de confiança 4 β1 Xi XYi Y Xi X² em que X 1299 1365 5472 22 2812045 Y 36 37 317 22 1168182 Xi XYi Y 1299 281204536 1168182 5472 2812045317 1168182 2391139 Xi X² 1299 2812045² 5472 2812045² 3675839695 Dai β1 2391139 3675839695 006505 β0 Y β1X 1168182 0065052812045 6610579 Y 6610579 006505X e β1 006505 significa que para cada aumento de 1 unidade de na variável X esperase que a variável Y aumente em média em 006505 unidades Isso indica que há uma relação positiva entre as duas variáveis R² 1 SSres SStotal SSres Yi Ŷi² SSres Yi Ŷi² SStotal Yi Y² Cont 4 SSres Yi Ŷi² 36 17605945² 317 2715138² 3099589 7371974 8871314 SStotal Yi Y² 136 1168182² 317 1168182² 808162² 2001818² 6531579 4007276 1644153 R² 1 8871314 1644153 1 0053957 0946043 Indica que 9460 da variabilidade da variável dependente Y pode ser explicada pela variável independente X no modelo de regressão linear 2 β1 Xi XYi Y Xi X² 1 36 9 2 37 9 3 34 9 5 314 9 1 3² 2 3² 3 3² 5 3² X Xi 5 1 2 3 4 5 5 15 5 3 20 10 2 β1 2 β0 Y β1X 9 23 3 β0 3 Modelo Y 3 2X e b no arquivo c R² 1 SSres SStotal 1 6 46 1 0130435 0869565 R² 0869565 O modelo explica 8696 da variabilidade da variável dependente SSres Yi Ŷi² 6 5² 7 7² 7 9² 11 11² 14 13² 6 SSres 6 SStotal Y Y² 6 9² 7 9² 7 9² 11 9² 14 9² 9 4 4 4 25 46 SS total 46 Cont 2 2 Ŷ3 3 23 9 Ŷ5 3 25 13 Ŷ7 3 27 17 1 β2 Xi XYi Y Xi X² 62 5069213 19154 56 5069222 19159 62 50692² 56 50692² 752384615 2628169 02862 β1 Y β2X 1915385 0286250692315 33663 O modelo Y 33663 02862X e c R² 1 SSres SStotal SSres Yi Ŷi² 13 029195² 22 0436528² 114351 0085115 0190556 114351 SStotal Yi Y² 13 1915385² 22 1915385² R² 1 114351 3296923 1 0346892 0653158 R² 0653158 O modelo explica 6532 da variabilidade da variável dependente através da variável independente R R² 0653158 0808182 O modelo apresenta uma forte correlação positiva indicando que ao aumentar a taxa de desemprego aumenta na mesma direção a taxa de demissão por 100 empregados f Com a nova base de dados o modelo conseguiu explicar mais a variabilidade dos dados O modelo é diferente devido a inserção de mais dados Além disso os dados novos podem ter características diferentes da coleção de dados anterior
Texto de pré-visualização
1 1 i Quarta lista de exercícios 2 ano de Administração Unioeste Disciplina Métodos Quantitativos Prof Eduardo de Pintor Orientações A lista deve ser entregue impressa contendo os cálculos dos exercícios até dia 16122024 Aluno Lista de exercícios 4 1 A tabela a seguir fornece dados sobre a taxa de demissão por 100 empregados e a taxa de desemprego na indústria dos EUA no período 19601972 Ano Taxa de demissão por 100 empregados Y Taxa de desemprego X 1960 13 62 1961 12 78 1962 14 58 1963 14 57 1964 15 50 1965 19 40 1966 26 32 1967 23 36 1968 25 33 1969 27 33 1970 21 56 1971 18 68 1972 22 56 a Construa um diagrama de dispersão com os dados b Suponha que a taxa de demissão Y se relacione linearmente com a taxa de desemprego X como Yi 1 2 X i ui Estime ˆ ˆ 2 e seus errospadrão Apresente a reta de regressão c Calcule r 2 e r d Interprete seus resultados e Represente graficamente os resíduos resíduos ui O que você pode verificar a partir desses f Utilizando os dados anuais do período 19661978 e o mesmo modelo de b foram obtidos os resultados a seguir yi 31237 01714 X epˆ 2 00210 e r 2 08575 Y i 2 Se estes resultados são diferentes daqueles que você obteve em b como você explicaria a diferença 2 A tabela a seguir mostra os valores de X e Y observados em uma amostra Xi Yi 1 6 2 7 3 7 4 11 5 14 a Determine as estimativas dos parâmetros da equação de regressão linear de Y em relação a X b Plote a reta de regressão em um gráfico e mostre o desvio de cada Y observado em relação ao correspondente Yˆ Yestimado c Determine o coeficiente de determinação Interprete o resultado d Determine o coeficiente de correlação entre X e Y e Admitindo que as variáveis X e Y estão relacionadas de acordo com o modelo Y 1 2 X i ui onde os ui são erros independentes com média zero variância constante e distribuição normal teste a hipótese de significância de 1 H 0 2 0 contra H A 2 0 ao nível f Determine Yˆ Yestimado para X3 para X5 e para X7 3 A tabela a seguir fornece dados sobre preços do ouro o Índice de Preços ao Consumidor IPC e o Índice da Bolsa de Valores de Nova York NYSE para os EUA no período 1977 1991 Ano Preço do Ouro IPC NYSE 1977 14798 606 5369 1978 19344 652 537 1979 30762 726 5832 1980 61251 824 6810 1981 45961 909 7402 1982 37601 965 6893 1983 42383 996 9263 1984 36029 1039 9246 1985 31730 1076 1089 1986 36787 1096 13600 1987 4465 1136 1617 1988 43693 1183 14991 1989 38128 1240 18002 1990 38408 1307 18346 1991 36204 1362 20633 a Represente em um único diagrama de dispersão o preço do ouro o IPC e o índice NYSE Coeficiente de determinação r² 3 2 b Supõese que um investimento esteja protegido contra a inflação se seu preço eou a taxa de retorno pelo menos acompanhar a inflação Para testar esta hipótese suponha que você decida ajustar os modelos a seguir admitindo que o diagrama em a sugere que isto seja apropriado Preço do ourot 1 2 IPCt ut Índice NYSEt 1 2 IPCt ut Se a hipótese estiver correta que valor você esperaria para 2 c Teste a hipótese de que as perturbações nos dois modelos de regressão se distribuem normalmente d Na regressão do preço do ouro teste a hipótese de que 2 1 ou seja que existe uma relação uma a uma entre preços do ouro e IPC isto é o ouro é uma proteção perfeita Qual é o valor p da estatística de teste estimada e Repita o passo d para a regressão do Índice NYSE O investimento no mercado de ações é uma proteção perfeita contra a inflação Qual a hipótese nula que você está testando Qual o valor p f Qual a melhor salvaguarda contra a inflação ouro ou ações Dica analise o 2 estimado para os dois modelos 4 A tabela a seguir fornece dados sobre o número de telefones por 1000 pessoas Y e o Produto Interno Bruto PIB per capita a custo de fatores X em dólares de Cingapura de 1968 para Cingapura no período 19601981 Existe alguma relação entre as duas variáveis Como você sabe Dica Interprete o e o r 2 Ano Y X 1960 36 1299 1961 37 1365 1962 38 1409 1963 41 1549 1964 42 1416 1965 45 1473 1966 48 1589 1967 54 1757 1968 59 1974 1969 67 2204 1970 78 2462 1971 90 2723 1972 102 3033 1973 114 3317 1974 126 3487 1975 141 3575 1976 163 3784 1977 196 4025 1978 223 4286 1979 262 4628 1980 291 5038 1981 317 5472 4 i 1 1 1 5 Explique o significado dos seguintes termos a Análise de Regressão simples e Análise de Regressão Múltipla b Análise de Regressão linear c Termo de erro ou distúrbio d Comente as características ou propriedades dos erros 6 Responda se as afirmações abaixo são verdadeiras ou falsas No modelo clássico de regressão linear Yi 1 2 Xi ui A hipótese de que o erro é normalmente distribuído é necessária para que os estimadores de mínimos quadrados ordinários também sejam normalmente distribuídos Os estimadores ˆ Y ˆ 2 X e ˆ 2 xi yi x 2 são os estimadores lineares nãotendenciosos de variância mínima apenas se os erros ui são variáveis não correlacionadas entre si com ui 0 e variância constante Se uma dessas preposições sobre os erros não for válida os estimadores de mínimos quadrados ordinários deixam de ser os melhores Hoffman cap 19 pág 368 As hipóteses de que o erro é normalmente distribuído e de que covui u j X i X j 0 i j asseguram que ui e u j se distribuem independentemente A hipótese Vari X i é necessária para que os estimadores de mínimos quadrados ordinários sejam não tendenciosos Os estimadores de mínimos quadrados de lineares das observações Yi 1 e 2 podem ser escritos como combinações 7 Na função consumo linear abaixo consˆ ˆ 0 ˆ renda A Propensão Marginal a Consumir PMgC representa a inclinação ˆ enquanto a Propensão Média a Consumir PmeC é a razão entre consumo e renda onde PmeC ˆ 0 renda ˆ Usando observações de consumo e renda ambos medidos em dólares para 100 famílias foi obtida a seguinte equação consˆ 12484 0853renda n 100 r 2 0692 1 2 5 1 a Interprete o intercepto da equação e comente seu sinal e magnitude Há embasamento teórico para esse resultado b Interprete o significado do coeficiente de inclinação ˆ c Qual é o consumo previsto quando a renda da família for de 3000000 d Interprete o coeficiente de determinação 8 Usando dados de 1388 nascimentos n nos Estados Unidos foi estimada a seguinte regressão simples onde a variável dependente é o peso dos bebês recémnascidos kgbaby em onças e a variável explicativa é o número de cigarros fumados por dia pelas mães desses bebês durante a gravidez cigs 1 onça 1 oz 2835 g kgbaby 11977 0514cigs a qual é o peso previsto do recémnascido quando cigs 0 E quando cigs20 Comente a diferença 9 O teorema de Gauss Markov estipula que para um modelo de regressão o método de Mínimos Quadrados Ordinários MQO terá os melhores estimadores lineares se determinados pressupostos básicos relativos ao modelo forem satisfeitos Explique e não apenas liste que pressupostos são estes 9 Para que o Teorema de GaussMarkov seja válido os seguintes pressupostos devem ser satisfeitos 1 Parâmetros devem ser lineares O modelo de regressão deve ser linear nos parâmetros ou seja a relação entre a variável dependente e as variáveis explicativas deve ser expressa como uma combinação linear dos parâmetros Y β0 β1X1 β2X2 βnXn e 2 Amostragem aleatória Os dados devem ser uma amostra aleatória da população Isso implica que as observações são independentes e identicamente distribuídas o que garante que os erros não sejam correlacionados entre si 3 Média condicional zero O valor esperado do termo e condicionado às variáveis explicativas deve ser zero EeX1 X2 Xn 0 Isso significa que em média o termo de erro não tem efeito sobre a variável dependente dado os valores das variáveis independentes Em outras palavras não há viés sistemático 4 Homocedasticidade A variância do termo de erro e deve ser constante para todos os valores das variáveis explicativas Isso pode ser expresso como VareX1 X2 Xn σ² com σ² constante A homocedasticidade garante que a dispersão dos erros seja a mesma em todos os níveis das variáveis independentes 5 Ausência de multicolinearidade perfeita As variáveis explicativas não devem ser perfeitamente correlacionadas entre si Em outras palavras não devem haver uma relação linear exata entre as variáveis independentes A multicolinearidade perfeita tornaria impossível estimar os parâmetros de forma única 8 Kgbaby 11977 0514cigs 1 cigs 0 Kgbaby 11977 05140 11977 onças 2 cigs 20 Kgbaby 11977 051420 11977 1028 10999 onças A diferença no peso previsto do bebê entre mães que não fumam cigs0 e mães que fumam 20 cigarros por dia cigs20 é 1028 onças Isso significa que em média bebês de mães que fumam 20 cigarros por dia durante a gravidez tem um peso 1028 onças menor do que bebês de mães que não fumam 6 V A hipótese de que o erro u é normalmente distribuído não é necessária para que os estimadores de mínimos quadrados ordinários sejam nãoviesados ou consistentes No entanto a normalidade do erro é importante para garantir que os estimadores de MQO sejam normalmente distribuídos especialmente em amostras pequenas V É verdadeiro pois verifica os pressupostos do teorema de Gauss Markov se Eu 0 serão viesados se Varu σ² mas for constante nos terá a menor variância o estimador se houver correlações entre os erros também não serão os estimadores de menor variância V Se o erro e é normalmente distribuído e que temos Covui uj Xi Xj 0 para ij então os erros ui e uj são não correlacionados e como a distribuição normal conjunta de variáveis aleatórias não correlacionadas implica independência concluímos que ei e ej são independentes F Para que os estimadores de MQO sejam não tendenciosos a principal hipótese necessária é que o erro tenha esperança condicional zero ou seja EuiXi 0 V É verdadeiro pois é um dos pressupostos assegurados pelo teorema de GaussMarkov 5 Análise de regressão é uma técnica estatística usada para modelar e analisar relações entre uma variável dependente e uma ou mais variáveis dependentes i Análise de regressão simples Y β1 β2X e Y é variável dependente X é variável independente usada para prever Y β1 é o intercepto Valor esperado de Y quando X0 β2 é o coeficiente angular que mede a mudança esperada em Y para uma unidade de mudança em X e é o erro aleatório que representa influências não explicadas pelo modelo ii Análise de regressão múltipla Y β1 β2X1 β3X2 βpXp e em que X1 X2 Xp são as variáveis explicativas Y é a variável resposta β2 β3 βp são os coeficientes que indicam o efeito de cada variável independente sobre Yi e é o erro aleatório b Análise de regressão linear É um método estatístico usado para modelar a relação entre uma variável dependente ou resposta e uma ou mais variáveis independentes ou explicativas Se houver apenas uma variável independente chamamos de regressão linear simples Se houver várias variáveis independentes chamamos de regressão linear múltipla c Termo de erro ou Distúrbio Na regressão linear representa a diferença entre os valores observados da variável dependente e os valores previstos pelo modelo Ou seja ele captura a parte da variabilidade que o modelo não consegue explicar com as variáveis independentes Cont 5 d Comente as características ou propriedades dos erros As características são Média zero Ee 0 mas tendencioso Variância constante Vare σ² homocedasticidade Independência dos erros Isso significa que não há autocorrelação isto é o erro em uma observação não deve influenciar o erro em outras observações Normalidade dos erros Os erros devem seguir uma distribuição normal especialmente quando se deseja fazer testes de hipóteses e intervalos de confiança 4 β1 Xi XYi Y Xi X² em que X 1299 1365 5472 22 2812045 Y 36 37 317 22 1168182 Xi XYi Y 1299 281204536 1168182 5472 2812045317 1168182 2391139 Xi X² 1299 2812045² 5472 2812045² 3675839695 Dai β1 2391139 3675839695 006505 β0 Y β1X 1168182 0065052812045 6610579 Y 6610579 006505X e β1 006505 significa que para cada aumento de 1 unidade de na variável X esperase que a variável Y aumente em média em 006505 unidades Isso indica que há uma relação positiva entre as duas variáveis R² 1 SSres SStotal SSres Yi Ŷi² SSres Yi Ŷi² SStotal Yi Y² Cont 4 SSres Yi Ŷi² 36 17605945² 317 2715138² 3099589 7371974 8871314 SStotal Yi Y² 136 1168182² 317 1168182² 808162² 2001818² 6531579 4007276 1644153 R² 1 8871314 1644153 1 0053957 0946043 Indica que 9460 da variabilidade da variável dependente Y pode ser explicada pela variável independente X no modelo de regressão linear 2 β1 Xi XYi Y Xi X² 1 36 9 2 37 9 3 34 9 5 314 9 1 3² 2 3² 3 3² 5 3² X Xi 5 1 2 3 4 5 5 15 5 3 20 10 2 β1 2 β0 Y β1X 9 23 3 β0 3 Modelo Y 3 2X e b no arquivo c R² 1 SSres SStotal 1 6 46 1 0130435 0869565 R² 0869565 O modelo explica 8696 da variabilidade da variável dependente SSres Yi Ŷi² 6 5² 7 7² 7 9² 11 11² 14 13² 6 SSres 6 SStotal Y Y² 6 9² 7 9² 7 9² 11 9² 14 9² 9 4 4 4 25 46 SS total 46 Cont 2 2 Ŷ3 3 23 9 Ŷ5 3 25 13 Ŷ7 3 27 17 1 β2 Xi XYi Y Xi X² 62 5069213 19154 56 5069222 19159 62 50692² 56 50692² 752384615 2628169 02862 β1 Y β2X 1915385 0286250692315 33663 O modelo Y 33663 02862X e c R² 1 SSres SStotal SSres Yi Ŷi² 13 029195² 22 0436528² 114351 0085115 0190556 114351 SStotal Yi Y² 13 1915385² 22 1915385² R² 1 114351 3296923 1 0346892 0653158 R² 0653158 O modelo explica 6532 da variabilidade da variável dependente através da variável independente R R² 0653158 0808182 O modelo apresenta uma forte correlação positiva indicando que ao aumentar a taxa de desemprego aumenta na mesma direção a taxa de demissão por 100 empregados f Com a nova base de dados o modelo conseguiu explicar mais a variabilidade dos dados O modelo é diferente devido a inserção de mais dados Além disso os dados novos podem ter características diferentes da coleção de dados anterior