·

Cursos Gerais ·

Estatística Aplicada para Finanças

Send your question to AI and receive an answer instantly

Ask Question

Preview text

Introducao a Estatistica Profa Dra Eucymara Nunes Regressao Linear Simples O termo regressao foi primeiramente utilizado por Sir Francis Galton 1822 1911 que estudou a relacao entre as estaturas de criangas e as estaturas de seus pais A relagao entre as alturas das criangas e de seus pais foi representada por um modelo matematico que associa a variavel dependente com a variavel independente conhecido como modelo de regressao linear simples A analise de regressao a forma mais usada de analise de dependéncia usada para explorar a relacdo entre um conjunto de variaveis independentes X e uma unica variavel dependente Y Geralmente utilizadas para responder as seguintes quest6es a Como descrever a relacao entre a variavel dependente e a variavel independente b Qual a relagao capturada pelo modelo c A relagao descrita estatisticamente significativa d Quais variaveis independentes sao importantes e Quais as previsdes para dados fora da amostra Uma equacado matematica fornece uma relaao linear ou seja de linha reta entre duas variaveis comumente chamadas de x e y Uma equagao linear pode ser representada no plano por uma linha ou uma reta no plano cartesiano em duas dimenso6es onde na forma reduzida é descrita por yatbx onde b 0 coeficiente angular da reta a é 0 ponto de interseccao com 0 eixo y também chamado de coeficiente linear La ft cer pt ft pt Lope ft pp x ee ee Entao a equagao matematica da reta é y ox Na Estatistica a técnica analise de regressao utilizada para avaliar a amplitude da variagao em uma variavel decorrente da variagéo em outra variavel que corresponde a uma equacao matematica que descreve a relacao entre as variaveis A analise de regressao linear simples estuda a relagao entre uma variavel chamada de dependente e outra variavel chamada de independente A relacao entre elas é representada por um modelo matematico que associa a variavel dependente com a variavel independente O modelo de regressao linear é expresso por YBXte Y variavel explicada dependente ou resposta aleatoria X variavel explicativa ou independente nao aleatoria a coeficiente de regressdo constante que representa o intercepto parametro desconhecido do modelo a estimar B coeficiente de regressao que representa o declive inclinagao da reta parametro desconhecido do modelo a estimar erro aleatorio ou estocastico onde se procuram incluir todas as influéncias no comportamento da variavel Y que nao podem ser explicadas linearmente pelo comportamento da variavel X E lembrese a Estatistica é a ciéncia que estuda a incerteza e os modelos sempre apresentarao erros associados Isso acontece porque existe variabilidade Exemplos v Nota de uma prova pode ser explicada pelo tempo de estudo do aluno v Venda de bolos pode ser explicada pelo numero de clientes v Consumo de energia do arcondicionado pela sensacao térmica da cidade v Quantidade de metrés em relacdo ao numero esperado de pessoas no carnaval de Salvador v Frequéncia de compras ecommerce pelo valor do frete cobrado v A populagao de bactérias poder ser predita a partir da relacado entre a populacao e o tempo de armazenamento v A concentragao de gordura saturada no alimento e 0 tempo de contato com o dleo v Renda semanal e despesas de consumo v Variacao dos salarios e taxa de desemprego v Demanda dos produtos de uma firma e publicidade v Vendas semanais e numero de clientes 2 as e S CS ee Eo 2 o n So zs oS e o e 400 500 600 700 800 900 1000 Numero de Clientes Y bXte Lybyx nyUxyrUxdy a n b n x2 x Causas da Variancia GL SQ QM F Fi Regressao Linear P1 SQRLGLRL QMRLQMDR tabelado Desvio da Regressao NP SQDRGLDR TOTAL N1 GL graus de liberdade quantidade de informagées livres que serao utilizadas para o calculo de uma estatistica 2 C ayy fator de corregao N SQ soma dos quadrados diferenga de quadrados entre o valor estimado e o valor real de y para cada ponto SORL C variabilidade explicada pelo modelo xy SQDR SQT SQRL variabilidade explicada por outras causas SOT y C variabilidade total QM quadrados médios indicador da qualidade do ajuste QMDR variancia residual variabilidade nao explicada pela reta de regressao nao explicada pelo modelo Coeficiente de Determinacao proporgao de y que é explicada por x SQRL R 0R 1 SQT R SORL SOT 0 R 1 R 0 modelo linear muito pouco adequado R 1 modelo linear bastante adequado Coeficiente de determinac4o ajustado é uma maneira de corrigir ajustar a divisdo do R corrigido para os graus de liberdade SQDR 2 GLDR Rajust 1 SQT GLT Fo Fiabelado 5 O modelo é adequado F F rejeitase Ho onde Ho Bi 0 e Ha Bi 4 0 Coeficiente de Correlagao relagao entre as variaveis r VR Correlacao indica a forca e a direcdo do relacionamento linear entre duas variaveis aleatorias Se refere a medida da relagdo entre duas variaveis embora nao implique casualidade E obtido dividindo a covariancia de duas variaveis pelo produto de seus desvios padrées O objetivo do estudo da correlacao determinar mensurar o grau de relacionamento entre duas variaveis Caso os pontos das variaveis representados num plano cartesiano X Y ou grafico de dispersdo apresentem uma disperséo ao longo de uma reta imaginaria dizemos que os dados apresentam uma correlacao linear 1 YixyUxLy f 1 1 2 2 2 2 Lox x LMOQuy y a a a Correlacio Positiva Correlagdo Negativa Correlacio Nula r0 r r Exemplo de Regressão Linear Simples Dados da população de estudantes e vendas trimestrais de 10 restaurantes X População de estudantes por 1000 estudantes 2 6 8 8 12 16 20 20 22 26 Y Vendas estimadas em milhões vendas trimestrais 58 105 88 118 117 137 157 169 149 202 X Y XY X2 Y2 2 58 116 4 3364 6 105 630 36 11025 8 88 704 64 7744 8 118 944 64 13924 12 117 1404 144 13689 16 137 2192 256 18769 20 157 3140 400 24649 20 3380 28561 22 3278 22201 26 5252 40804 140 1300 21040 2528 184730 b i DVbY 13005140 60 n 10 nYxyLYxLy 1021040 1401300 nEx2Ex 102528 140 Y6045x8e CV GL SQ QM F F5 Regressao Linear 1 14200 14200 7424 532 Desvio da Regressao 8 1530 19125 TOTAL 9 15730 GLRLP1211 GLDRNP1028 GLTN11019 2 2 cLa9 1300 eo009 N 10 1300 SORL 60 5 169000 14200 21040 SODR 15730 14200 1530 SOT 184730 169000 15730 OMRL 14200 QOMDR 19125 F 14200 7424 19125 F5 005 1 8 532 F F 5 O modelo é adequado significativo pe 14200 09027 15730 r 09027 09501 21040 a 1401300 2840 2840 r oe aE V56815730 2989086817 2528 s 140 184730 13002 10 10 09501 As hipoteses sao Ho parametros iguais a zero e Ha parametros diferentes de zero Aceitar hipotese nula equivalente a concluir que nao ha nenhuma relagao linear entre X e Y e quando rejeitado implica que X tem importancia para explicar a variabilidade de Y Por isso quando Fal Fab na analise de variancia ANOVA ou MANOVA significa rejeitar a hipotese nula No grafico podemos ver que os pontos estao dispersos e nao formam uma linha reta O objetivo da regressao linear encontrar o intercepto e a inclinagao da reta que melhor ajuste a estes dados ou seja que minimize a variancia de erros e portanto nos gere a melhor estimativa de a e B A reta que realiza este objetivo é encontrada pela técnica de minimos quadrados por meio da minimizagao da soma dos quadrados dos residuos CALCULADORA Para limpar a memoria SHIFT ACON MODE REG LIN Valor de x valordey M SHIFT 7 a SHIFT 8 b ALPHA X ALPHA 3 X ALPHA hyp N ALPHA sin y ALPHA cos y ALPHA tan x y SHIFT r Previsao nim SHIFT Y Calculadora Nova Para limpar a memoria SHIFT MODE 3 Apagar memoria SHIFT MODE 1 ou 3 MODO SD Inserir dados dado M dado M Média e Variancia SHIFT 1 3 Regressao Linear Multipla Quando consideramos os efeitos de duas ou mais variaveis independentes sobre uma variavel dependente utilizamos a analise de regress4o linear multipla Y Bo BX BoX2 E Y variavel resposta dependente Xi variaveis preditoras independentes Bi parametros do modelo erro aleatorio Bo o intercepto representa a resposta média EY no ponto quando X X2 0 em outra situacao nao tem qualquer outro significado ou indica a mudanga na resposta média EY por unidade de acréscimo em X quando X2 é mantido constante Trés Eixos xyz Parr w Fie vz eee x Situagdes apropriadas Quando se deseja caracterizar a relacao da variavel dependente Y e duas ou mais variaveis independentes Xj avaliar extensdo direcao e forca da relagao associagao Procurar uma equacao funcao matematica para descrever a variavel dependente Y como funcao das variaveis independentes Xi predizer Y em fungao de Xi determinar o melhor modelo que descreva essa relacao Verificar o efeito de duas ou mais variaveis independentes as quais se relacionam com a variavel dependente Determinar as variaveis independentes importantes para descrever ou predizer a variavel dependente Ordenar as variaveis independentes em sua ordem de importancia em relagao a variavel dependente Comparar multiplos relacionamentos derivados da andalise de regressao Exemplos Variaveis Independentes X Variavel Dependente Y Renda Poupanga Consumo Taxa de Juros Memoria RAM Tempo de Resposta do Sistema Sistema Operacional nd Computacional Tipo de Processados Área Construída Padrão de Qualidade Preço de um Imóvel Localização Valor do Modelo Novo Quilometragem Idade do Veículo Valor de Revenda de um Carro Estado de Conservação Opcionais Área útil em m2 Número de Salas Valor Estimado do Prédio Números de Entradas Idade do prédio em anos Regressão Múltipla Método dos Mínimos Quadrados 2 1 cx bx a y y x c x b n a 2 1 x y x x c x b x a 1 2 1 2 1 1 x y x c x x b x a 2 2 2 2 1 2 1º passo divide cada equação pelo seu valor do coeficiente a 2º passo subtrai a primeira equação pela segunda e novamente a primeira pela terceira 3º passo juntar as duas equações de cima 4º passo refaz o processo do passo 1 dividir pelo valor do coeficiente de b 5º passo subtrai uma equação com os sinais trocados da segunda 6º passo Encontra o valor de c depois substitui nas anteriores de cada subtração para encontrar b depois a Causas da Variância GL SQ QM Fc Ft Regressão Múltipla P1 SQRMGLRM QMRMQMDR tabelado Desvio da Regressão NP SQDRGLDR TOTAL N1 N y C 2 C y x x y y abc SQRM 2 1 SQRM SQT SQDR C y SQT 2 SQT SQRM R 2 Resultados A análise pode estar correta mas os dados podem estar viciados ou incompletos O gráfico dos resíduos deve ter a aparência de uma curva normal e N0 S O erro x y estimado segue uma sequência linear Correlação entre os erros é zero Cov𝜀i 𝜀j 0 Ɐ ij Não há colinearidade relacionadas linearmente perfeita entre as variáveis independentes x Gráficos de dispersão Previsão forecasting Exemplo de Regressão Linear Múltipla Peso kg Altura m Idade anos X1X2 X12 X22 X1Y X2Y 50 152 14 2128 23104 196 76 700 55 155 16 248 24025 256 8525 880 30 125 8 10 15625 64 375 240 60 155 18 279 24025 324 93 1080 45 15 15 225 225 225 675 675 70 175 20 35 30625 400 1225 1400 65 17 18 306 289 324 1105 1170 80 182 21 3822 33124 441 1456 1680 90 18 22 396 324 484 162 1980 75 17 17 289 289 289 1275 1275 620 1614 169 2788 263228 3003 102735 11080 10a 1614b 169c 620 1614a 263228b 2788c 102735 169a 2788b 3003c 11080 10 a 1614b 169c 62 1614 a 26309b 172738c 636524 169 a 16497b 177692c 655621 Primeira equação menos a segunda a 1614b 169c 62 a 26309b 172738c 636524 00169b 03738c 16524 Primeira equação menos a terceira a 1614b 169c 62 a 16497b 177692c 655621 00357b 08692c 35621 Novo sistema repete 00169b 03738c 16524 00357b 08692c 35621 00169 b 221183c 977751 00357 b 243473c 997787 Primeira equacgao menos a segunda b 221183c 977751 b 243473 997787 2229c 20036 c 08988 b 977751 221183 x 08988 778951 a 62 1614778951 169 08988 789124 Y 789124 778951 x 08988 x Previsado Altura xi 160 e Idade x2 19 789124 778951 160 08988 19 6280 Analise de Variancia Multivariada MANOVA CV GL SQ QM Fe Fi5 Regressao Multipla 2 261668 130834 3765 4737 Desvio da Regressdo 7 24322 3475 TOTAL 9 2860 Informacées independentes que sao usados para estimar os parametros quantidade de informacoes livres que serao utilizadas para 0 calculo de uma estatistica GLRMP1312 GLDRNP1037 GLTN11019 Correcao y 620 C N 40 38440 SQ Diferenga de quadrados entre o valor estimado e 0 valor de y real para cada ponto Variabilidade explicada pelo modelo 620 SQRM 789124 778951 08988 02735 38440 11080 410566869 38440 261668 Variabilidade total SQT C 41300 38440 2860 Variabilidade explicada por outras causas dos erros SQDR SQT SQRM 2860 261668 24322 Fo Feo Ho Bi 0 Ha Bi 0 O modelo é adequado ou seja significativo ao nivel de confianga de 5 Rejeitase Ho hipotese de que os parametros sejam iguais a zero Coeficiente de determinacao Qualidade de ajuste proporcao de y que é explicada por x R2 SQRM 261668 09149 SQT 2860 Maneira de corrigir ajustar a divisdo de R corrigido para os graus de liberdade SQDR 24322 2 GIDR 7 4 Raju 1 SOT 1 760 1 01093 08906 GLT 9 Coeficiente de correlagao relacao entre as variaveis r VR 09149 09565 QM indicador da qualidade do ajuste QMDR variancia residual variabilidade nao explicada pela reta de regressao QMDR 3475 589 erro padrao