·

Sistemas de Informação ·

Probabilidade e Estatística 1

Send your question to AI and receive an answer instantly

Ask Question

Preview text

Análise de Regressão Tópicos Tópicos Correlação Regressão Linear Simples Correlação Correlação É uma medida que que está entre 1 e 1 e mede a relação entre duas variáveis Karl Pearson 18571936 Regressão Linear Simples Regressão É uma técnica estatística que visa explorar o relacionamento entre duas ou mais variáveis podendo ser utilizada na construção de modelos de predição por meio do ajuste de uma reta de regressão ou equação de regressão Sir Francis Galton 18221911 Exemplo Estatística Descritiva População Amostra Correlação Análise de Regressão Modelos de Predição População N Existe relação entre as duas variáveis Amostra n Questão Altura vs Peso Corr xy Exemplo Qual modelo me descreve esta relação Gráficos de dispersão 1 Corr x y 1 Corr x y 0 x y Corr 1 1 Corr x y Correlação Amostral 𝐶𝑜𝑟𝑟 𝑥 𝑦 𝑆𝑥𝑦 𝑆𝑥𝑥 𝑆𝑦𝑦 𝑆𝑥𝑥 𝑛𝑥2 𝑥 2 𝑆𝑦𝑦 𝑛𝑦2 𝑦 2 𝑆𝑥𝑦 𝑛𝑥𝑦 𝑥 𝑦 Problema Dados o tempo de serviço em anos de 10 funcionários de uma seguradora e a quantidade de clientes que cada um possui verifique se existe uma associação entre as variáveis ID A B C D E F G H I J TEMPO DE SERVIÇO 2 3 4 5 4 6 7 8 8 10 QTDE FUNCIONÁRIOS 48 50 56 52 43 60 62 58 64 72 Gráfico de dispersão Gráfico de Dispersão ID X Y A 2 48 B 3 50 C 4 56 D 5 52 E 4 43 F 6 60 G 7 62 H 8 58 I 8 64 J 10 72 Correlação Amostral ID X Y X2 Y2 XY A 2 48 4 2304 96 B 3 50 9 2500 150 C 4 56 16 3136 224 D 5 52 25 2704 260 E 4 43 16 1849 172 F 6 60 36 3600 360 G 7 62 49 3844 434 H 8 58 64 3364 464 I 8 64 64 4096 512 J 10 72 100 5184 720 Σ 57 565 383 32581 3392 𝐶𝑜𝑟𝑟 𝑥 𝑦 𝑆𝑥𝑦 𝑆𝑥𝑥 𝑆𝑦𝑦 1715 581 6585 08768 𝑆𝑥𝑥 𝑛𝑥2 𝑥 2 10 383 572 581 𝑆𝑦𝑦 𝑛𝑦2 𝑦 2 10 32581 5652 6585 𝑆𝑥𝑦 𝑛𝑥𝑦 𝑥 𝑦 10 3392 57 565 1715 Regressão Linear Simples Modelo Teórico x y 1 0 0 x y 1 y é a variável dependente ou resposta x é a variável independente ou explicativa Modelo de Regressão Linear Simples Ajuste x y 1 0 0 x y Dados observados Reta de Regressão Estimada 0 1 Intercepto Inclinação Erro Aleatório Estimação Regressão Linear Simples Método de Mínimos Quadrados Minimizar 𝑦 𝛽0 𝛽1𝑥 𝜀 𝑆𝛽0 𝛽1 𝑦𝑖 𝛽0 𝛽1𝑥 2 መ𝛽0 lj𝑦 መ𝛽1 lj𝑥 መ𝛽1 𝑆𝑥𝑦 𝑆𝑥𝑥 Problema Dados o tempo de serviço em anos de 10 funcionários de uma seguradora e a quantidade de clientes que cada um possui verifique se existe uma associação entre as variáveis ID A B C D E F G H I J TEMPO DE SERVIÇO 2 3 4 5 4 6 7 8 8 10 QTDE FUNCIONÁRIOS 48 50 56 52 43 60 62 58 64 72 Equação da Reta de Regressão ID X Y A 2 48 B 3 50 C 4 56 D 5 52 E 4 43 F 6 60 G 7 62 H 8 58 I 8 64 J 10 72 𝑦 𝛽0 𝛽1𝑥 Estimação dos Parâmetros ID X Y X2 Y2 XY A 2 48 4 2304 96 B 3 50 9 2500 150 C 4 56 16 3136 224 D 5 52 25 2704 260 E 4 43 16 1849 172 F 6 60 36 3600 360 G 7 62 49 3844 434 H 8 58 64 3364 464 I 8 64 64 4096 512 J 10 72 100 5184 720 Σ 57 565 383 32581 3392 መ𝛽0 lj𝑦 መ𝛽1 lj𝑥 መ𝛽1 𝑆𝑥𝑦 𝑆𝑥𝑥 1715 581 29518 መ𝛽0 565 29518 57 396747 𝑆𝑥𝑥 𝑛𝑥2 𝑥 2 10 383 572 581 𝑆𝑦𝑦 𝑛𝑦2 𝑦 2 10 32581 5652 6585 𝑆𝑥𝑦 𝑛𝑥𝑦 𝑥 𝑦 10 3392 57 565 1715 Modelo de Regressão Ajuste x y 2 95 3967 Modelo de Predição Assumindo que o modelo de regressão ajustado é adequado qual a previsão da quantidade de clientes para um funcionário com 8 anos de empresa clientes y 63 63286 2 958 3967 Qualidade de ajuste do modelo de regressão Partições da variabilidade 2 2 2 ˆ ˆ y y y y y y E R T SS SS SS 0 x y Var Total Var Erro Var Regressão yˆ y y Partições da variabilidade ID x y 𝐲 𝐲 𝐲 𝟐 𝐲 ഥ𝒚 𝟐 𝒚 ഥ𝒚 𝟐 A 2 48 4558 586 11925 7225 B 3 50 4853 216 6352 4225 C 4 56 5148 2041 2520 025 D 5 52 5443 592 428 2025 E 4 43 5148 7194 2520 18225 F 6 60 5739 684 079 1225 G 7 62 6034 276 1475 3025 H 8 58 6329 2798 4610 225 I 8 64 6329 051 4610 5625 J 10 72 6919 788 16104 24025 soma 57 565 565 15226 50624 65850 O coeficiente de determinação R2 O coeficiente de determinação R2 é a razão entre a variação explicada em𝐲 SQR e a variação total em y SQT O coeficiente de determinação é dado por 𝑅2 𝑆𝑄𝑅 𝑆𝑄𝑇 Assim 𝑅2 50624 60850 07688 𝑜𝑢 7688 O coeficiente de determinação R2 Outra forma de encontrar o coeficiente de determinação é utilizando o coeficiente de correlação R2 corrxy2 O coeficiente de correlação entre anos de empresa e quantidade de clientes é de corrxy 08768 Assim o coeficiente de determinação é R2 corrxy2 087682 07688 ou 7688 Interpretação Temos que 7688 da variação do número de clientes pode ser explicada pelo anos de empresa do funcionário Os outros 2312 não são explicados e podem ser atribuídos ao erro aleatório amostral ou outras variáveis não observadas no estudo O erro padrão da estimativa O erro padrão da estimativa se é o desvio padrão dos valores yi observados em torno do valor y previsto ID x y 𝐲 𝐲 𝐲 𝐲 𝐲 𝟐 A 2 48 4558 242 586 B 3 50 4853 147 216 C 4 56 5148 452 2041 D 5 52 5443 243 592 E 4 43 5148 848 7194 F 6 60 5739 261 684 G 7 62 6034 166 276 H 8 58 6329 529 2798 I 8 64 6329 071 051 J 10 72 6919 281 788 soma 57 565 565 0 15227 O erro padrão da estimativa 𝑆𝑒 𝛴𝑦 𝑦2 𝑛 2 𝑆𝑒 15227 8 436 O erro padrão da estimativa 𝑆𝑒 𝛴𝑦2 መ𝛽0𝛴𝑦 መ𝛽1𝛴𝑥𝑦 𝑛 2 𝑆𝑒 32581 396747 565 29518 3392 8 436 Intervalos de confiança para previsão Dado uma equação de regressão linear específica e x0 um valor específico de x um intervalo de confiança para a previsão de y será Dado uma equação de regressão linear específica e x0 um valor específico de x um intervalo de confiança para a previsão de µy será 𝐼𝐶1 𝛼100 𝑦 𝑡𝛼 2𝑛2 𝑠𝑒 1 1 𝑛 𝑛𝑥𝑜 lj𝑥2 𝑆𝑥𝑥 𝐼𝐶1 𝛼100 𝑦 𝑡𝛼 2𝑛2 𝑠𝑒 1 𝑛 𝑛𝑥𝑜 lj𝑥2 𝑆𝑥𝑥 Intervalos de confiança para previsão Assumindo que o modelo de regressão ajustado é adequado qual o intervalo de 95 para previsão da quantidade de clientes para um funcionário com 8 anos de empresa 𝐼C 95 6329 23060 437 1 1 10 108 572 581 𝐼C 95 6329 23060 437 108 𝐼C 95 6329 1088 𝐼C 95 5241 7417 Intervalos de confiança para previsão Assumindo que o modelo de regressão ajustado é adequado qual o intervalo de 95 para previsão da média quantidade de clientes para um grupo de funcionários com 8 anos de empresa 𝐼𝐶 95 6329 23060 437 1 10 108 572 581 𝐼𝐶 95 6329 23060 437 042 𝐼𝐶 95 6329 423 𝐼𝐶 95 5906 6752 TABELA Distribuição t de Student Unicaudal e Bicaudal