·
Engenharia Civil ·
Estatística 2
Send your question to AI and receive an answer instantly
Recommended for you
1
Análise de Eficiência de Treinamento em Supermercado: Teste Não Paramétrico
Estatística 2
MACKENZIE
128
Planejamento de Experimentos e Análise de Variância
Estatística 2
MACKENZIE
1
Teste de Sinal de Engenharia de Materiais U700 - Analise de Carga e Aderencia
Estatística 2
MACKENZIE
1
Teste de Hipóteses para Comparação de Medias entre Marcas de Lâmpadas
Estatística 2
MACKENZIE
3
Lista de Exercícios de Estatística II - Testes de Hipóteses e Análises de Dados
Estatística 2
MACKENZIE
26
Tabela de Estatística - Análise de Variância e Regressão Linear
Estatística 2
MACKENZIE
1
Lista de Exercicios Estatistica - Teste dos Sinais e Wilcoxon
Estatística 2
MACKENZIE
1
Testes Estatísticos Não Paramétricos: Wilcoxon, Kruskal-Wallis e Friedman - Exemplos Práticos
Estatística 2
MACKENZIE
1
Teste de Hipóteses Não Paramétrico - Vida Útil de Lâmpadas 75W
Estatística 2
MACKENZIE
1
Teste de Friedman para Comparacao de Detergentes - Eficacia e Branqueamento
Estatística 2
MACKENZIE
Preview text
1 REGRESSÃO LINEAR MÚLTIPLA Suponha que se deseja prever o faturamento de um supermercado variável resposta Possíveis variáveis explicativas nº médio de itens diferentes vendidos nº médio de caixas registradoras nº de vagas no estacionamento nº médio de pessoas que passam no entorno área do estabelecimento em m2 padrão do bairro Suponha que foram feitas as medidas em 20 supermercados Modelo y β0 β1x1 β2x2 βkxk ε y vetor n x 1 das observações no exemplo 20 x 1 X matriz n x p dos níveis das variáveis independentes no exemplo 20 x 7 p é o nº variáveis explicativas 1 k1 β vetor p x 1 dos coeficientes de regressão no exemplo 7 x 1 ε vetor n x 1 dos erros aleatórios no exemplo 20 x 1 Suposições ε N0 σ2 independentes X y X X ˆ 1 ˆ ˆ X y y y e ˆ Exemplo do livro de Montgomery e Runger 2 ed p 238 4 ed p 272 5 ed p 303 6 ed p 378 A potência elétrica consumida mensalmente por uma indústria química está relacionada à temperatura média ambiente x1 ao número de dias do mês x2 à pureza média do produto x3 e às toneladas do produto produzido x4 Os dados históricos do ano passado estão disponíveis e são apresentados na seguinte tabela y X1 X2 X3 X4 240 25 24 91 100 236 31 21 90 95 290 45 24 88 110 274 60 25 87 88 301 65 25 91 94 316 72 26 94 99 300 80 25 87 97 296 84 25 86 96 267 75 24 88 110 276 60 25 91 105 288 50 25 90 100 261 38 23 89 98 2 No exemplo y estimado 103 0605 x1 892 x2 144 x3 0014 x4 Preditor Coef EP do Coef T P Constante 1027 2079 049 0636 x1 06054 03689 164 0145 x2 8924 5301 168 0136 x3 1437 2392 060 0567 x4 00136 07338 002 0986 261 288 276 267 296 300 316 301 274 290 236 240 y 98 89 23 38 1 100 90 25 50 1 91 105 25 60 1 110 88 24 75 1 96 86 25 84 1 97 87 25 80 1 99 94 26 72 1 94 91 25 65 1 88 87 25 60 1 110 88 24 45 1 95 90 21 31 1 91 100 24 25 1 X 0 0136 1 4375 8 9236 6054 0 7132 102 ˆ X y X X ˆ 1 n y y X n i i 2 1 ˆ k SQR E R QM QM X y y y ˆ p n SQE n y y y n i i 2 1 Fonte de variação Soma de Quadrados SQ Graus de liberdade Quadrado médio QM F Regressão k Erro n p n k1 Total n 1 p nº de Betas e k nº de variáveis explicativas p k 1 Modelo y β0 β1x1 β2x2 β3x3 β4x4 ε H0 β1 β2 β3 β4 0 não há reta de regressão Anova Como o valorp 0030 ao nível de significância de 5 rejeitase H0 portanto concluise que a regressão é significante isto é existe uma reta de regressão S 155793 R2 745 R2adj 599 Fonte de Variação gl SQ QM F F de significação Regressão 4 49572407 12393102 51060 0030 Resíduo 7 16990093 2427156 Total 11 66562500 3 Mintab Estat Regressão Regressão Ajustar modelo de Regressão 4 Exemplo do livro de Montgomery e Runger resistência ao puxamento de um fio 2 ed p 234 4 ed p 267 5 ed p 298 6 ed p 374 Este exemplo ilustra o ajuste do modelo de regressão múltipla y β0 β1x1 β2x2 ԑ em que y é a resistência ao puxamento de um fio colado x1 é o comprimento do fio e x2 é a altura da garra y x1 x2 nº da observ resist ao puxamento compr do fio altura da garra 1 995 2 50 2 2445 8 110 3 3175 11 120 4 3500 10 550 5 2502 8 295 6 1686 4 200 7 1438 2 375 8 960 2 52 9 2435 9 100 10 2750 8 300 11 1708 4 412 12 3700 11 400 13 4195 12 500 14 1166 2 360 15 2165 4 205 16 1789 4 400 17 6900 20 600 18 1030 1 585 19 3493 10 540 20 4659 15 250 21 4488 15 290 22 5412 16 510 23 5663 17 590 24 2213 6 100 25 2115 5 400 X25 x 3 Y25 x 1 X y X X x ˆ 1 1 3 25 206 8294 206 2396 77177 8294 77177 3531848 XX 02146526 00074909 00003404 00074909 00016708 00000189 00003404 00000189 00000015 XX1 Xy Beta chapéu 72582 226379 800847 274427 27481671 001253 y 1 2 50 995 1 8 110 2445 1 11 120 3175 1 10 550 3500 1 8 295 2502 1 4 200 1686 1 2 375 1438 1 2 52 960 1 9 100 2435 1 8 300 2750 1 4 412 1708 1 11 400 3700 1 12 500 4195 1 2 360 1166 1 4 205 2165 1 4 400 1789 1 20 600 6900 1 1 585 1030 1 10 540 3493 1 15 250 4659 1 15 290 4488 1 16 510 5412 1 17 590 5663 1 6 100 2213 1 5 400 2115 X 5 ˆ ˆ y X y y e ˆ Y Y estimado e 995 8379 1571 2445 25596 1146 3175 33954 2204 3500 36597 1597 2502 27914 2894 1686 15746 1114 1438 12450 1930 960 8404 1196 2435 28215 3865 2750 27976 0476 1708 18402 1322 3700 37462 0462 4195 41459 0491 1166 12262 0602 2165 15809 5841 1789 18252 0362 6900 64666 4334 1030 12337 2037 3493 36472 1542 4659 46560 0030 4488 47061 2181 5412 52561 1559 5663 56308 0322 2213 19982 2148 2115 20996 0154 1 º 1 3 59907712 25 72582 270633581 ˆ 2 2 1 n de Betas graus de liberdade tem SQR n y X y SQ n i i R 1 º 1 25 61059447 2544144 24 25 1 25 61059447 25 72582 271785316 2 2 1 1 2 2 1 n de observações graus de liberdade tem SQT x valoresde y x Var SQ ou n y y n y y y SQ T n i i n i n i i T H0 β1 β2 0 não há reta de regressão fonte var gl SQ QM F valorp Regressão 2 59907712 29953856 5721672 1075E19 Resíduo 22 1151735 52352 Total 24 61059447 Modelo y β0 β1x1 β2x2 ε Como valorp 0000 ao nível de significância de 5 rejeitase H0 e afirmase que a regressão é significante Testes para os coeficientes individuais de regressão e subconjuntos de coeficientes Cjjé o elemento da diagonal de XX 1 No exemplo da resistência ao puxamento de um fio C2200000015 0 0 2 1 2 0 H H 4 4767 0 0028 012528 0 0 0000015 2352 5 012528 0 ˆ ˆ 22 2 2 0 x C T RC T T 2074 ou T 2074 Olhar t com o nº de gl do resíduo Ao ns de 5 rejeitase H0 e afirmase que a altura da garra é significante 0 0 1 0 j j H H jj j C T 2 0 ˆ ˆ 02146526 00074909 00003404 00074909 00016708 00000189 00003404 00000189 00000015 XX1 Coeficientes Erro padrão Stat t valorP 95 inferiores 95 superiores Interseção 22638 10601 21355 00441 00653 44622 compr do fio 27443 00935 293430 00000 25503 29382 altura da garra 00125 00028 44767 00002 00067 00183 6 No exemplo da potência XX 1 QME 24271561 resíduo com 7 graus de liberdade C00 1780079 RC T T 2365 ou T 2365 Ao ns de 5 não se rejeitase H0 e afirmase que o intercepto da reta de regressão é igual a 100 2ˆ 0 0022 0 0006 0 0008 0 0000 1799 0 0 0006 0 0236 0 0221 0 0018 6044 1 0 0008 0 0221 01158 0 0059 5864 0 0 0000 0 0018 0 0059 0 0006 0431 0 01799 1 6044 0 5864 0 0431 0079 178 0 0136 1 4375 8 9236 6054 0 7132 102 ˆ 100 100 0 1 0 0 H H 01305 0 1780079 71561 242 100 7142 102 ˆ 100 ˆ 00 2 0 x C T j j jj n p j C t 2ˆ ˆ p n X y y y ˆ yx0 0 1 0 2 0 ˆ ˆ x X X x t x p n 0y 1 ˆ ˆ 0 1 0 2 0 x X X x t x p n Parâmetro Intervalo de confiança IC Estimativa de 2 Intervalo de confiança na regressão linear múltipla Intervalo de confiança para os coeficientes individuais de regressão Suposições εi N0 σ2 independentes com Cjj igual a diagonal de XX1 Exemplo Calcular um intervalo com 95 de confiança para β1 QME 5235158 C11 00016708 t25 22 2074 2 5503 2 9382 0 0016708 5 235158 2 074 2 74427 1 x I C jj n p j C t C I j ˆ 2 ˆ 7 Intervalo de confiança para a resposta média Exemplo Construir um IC de 95 para a resistência média ao puxamento de um fio com o comprimento do fio x1 8 e altura da garra x2 275 ˆ ˆ 0 X Com y x 66 27 012528 0 74427 2 26379 2 275 8 1 ˆ 0 y x 0 1 0 2 0 ˆ ˆ 0 x X X x t x I C n p x y IC 2766 100 2666 2866 1 8 275 Beta chapéu 2766309671 226379 274427 001253 xo xo 1 8 275 02146526 00074909 00003404 1 00074909 00016708 00000189 8 00003404 00000189 00000015 275 xo QME 0061118 0000673 803657E05 1 00444001 52352 8 resultado 275 02324 raiz 04821 t x raiz 09999 XX1 ˆ 0 y x 0 232441 ˆ 0 0444001 0 1 0 2 0 1 0 x X X x x X X x 0 482122 2 074 2766 0 232441 2 074 2766 0 x I C y x Predição de novas observações Exemplo suponha que o engenheiro deseje construir um intervalo de previsão de 95 para a resistência média ao puxamento de um fio com o comprimento do fio x1 8 e altura da garra x2 275 ˆ ˆ 0 0 x y 1 ˆ ˆ 0 1 0 2 0 0 x X X x t x I C y p n 2281 3251 0 0444 5 23516 1 2 074 2766 0 I C y 8 Teste geral de significância da regressão ou método da soma quadrática extra ou teste F parcial No exemplo do supermercado X1 nº de itens diferentes vendidos X2 nº de caixas registradoras X3 nº de vagas no estacionamento X4 nº de pessoas que passam no entorno X5 padrão do bairro X y β1 é r x 1 Quero testar se pelo menos um dos coeficientes β1 β2 βr é significante pelo menos um dos coeficientes β2 ou β4 é significante β2 é p r x 1 2 1 Teste geral de significância da regressão ou método da soma quadrática extra ou teste F parcial 2 1 1 1 2 2 1 1 r x p é é signif se testar se pelo menos um dos coef Deseja r x é r graus de liberdade r com p SQR se Calcula colunas de X associadas à com X X Y elo reduzido se o ajusta é signif nenhum dos coef Se H r 1 mod 0 2 2 2 2 2 2 1 1 0 2 2 1 R R R SQ SQ SQ Soma de Quadrados de regressão devido à β1 dado que β2 está no modelo tem r graus de liberdade Também chamado de soma de Quadrados Extra devido à β1 SQR modelo completo SQR modelo reduzido X y Rejeitase H0 se F0 Fα r np No exemplo verificar a contribuição da variável X2 altura da garra para o modelo SQRβ2 β0 β1 SQRβ1 β2 β0 SQRβ1 β0 5990771258858521 1049191 2004 2352 5 10491911 2 1 0 E R QM r SQ F F5122 43009 Logo ao ns de 5 rejeitase H0 β2 0 logo o regressor altura da garra X2 contribui significantemente para o modelo note que t2 447672 2004 E R QM r SQ F 2 1 0 Modelo com X1 e X2 fonte var gl SQ QM F valorp Regressão 2 59907712 29953856 5721672 1075E19 Resíduo 22 1151735 52352 Total 24 61059447 Modelo só com X1 fonte var gl SQ MQ F valorp Regressão 1 58858521 58858521 6150801 4241E18 Resíduo 23 2200926 95692 Total 24 61059447 9 Medidas de adequação do modelo Coeficiente de determinação múltipla R2 R coeficiente de correlação linear múltiplo R2 representa o quanto da variabilidade total foi explicada pelo modelo porém R2 grande não implica necessariamente que o modelo seja bom No exemplo 0 R2 1 T p E T p R p SQ SQ SQ SQ R 2 1 2 R 0 9811 9447 6105 59907712 2 T R SQ SQ R Análise residual 2 1 0 1 2 99 90 50 10 1 N 25 AD 0373 ValorP 0393 Resíduos Padronizados Percentual 60 45 30 1 5 0 2 1 0 1 2 Valor ajustado Resíduos Padronizados 2 1 0 1 2 8 6 4 2 0 Resíduos Padronizados Frequência 24 22 20 18 16 1 4 1 2 10 8 6 4 2 2 1 0 1 2 Ordem de Observação Resíduos Padronizados Gráfico de Probabilidade Normal Versus Ajustados Histograma Versus Ordem Gráficos de Resíduo de resist ao puxamento No gráfico de probabilidade Normal dos resíduos vêse que e15 588 e e17 433 estão um pouco distantes da reta 6000 4000 2000 0000 2000 4000 6000 8000 0 5 10 15 20 25 resíduo x X1 6000 4000 2000 0000 2000 4000 6000 8000 0 100 200 300 400 500 600 700 resíduo x X2 Parece que precisa de um termo quadrático em X1 regressão não linear 10 Resíduo na forma de Student ri 1 i n Com hii igual ao iésimo elemento diagonal da matriz H XXX1X H matriz chapéu pois hii xiXX1xi i 1 2 n com 0 hii 1 Estes resíduos auxiliam a achar possíveis outliers Os resíduos na forma de Student são maiores que os resíduos padronizados 1 ˆ 2 ii i i h e r 1 2 ii i h v e 2ˆ e Hy X y X X X X y ˆ ˆ 1 Primeiras linhas e colunas de H 01573 01085 00902 00352 00524 01016 00587 01567 01065 00509 00373 00052 00302 00632 01001 00409 01013 00000 00322 00304 00182 00536 00830 01217 00358 01085 01116 01198 00247 00511 00670 00022 01079 01187 00495 00023 00281 00008 00071 00654 00016 00031 00703 00215 00924 00793 00111 00113 01073 00054 00902 01198 01419 00254 00515 00521 00297 00895 01321 00497 00261 00386 00103 00242 00502 00217 00424 01158 00217 01284 01137 00411 00202 01062 00131 00352 00247 00254 01019 00295 00064 00601 00346 00288 00310 00686 00567 00849 00557 00079 00650 01047 01228 00990 00080 00197 00830 01053 00253 00639 00524 00511 00515 00295 00418 00454 00360 00523 00519 00415 00347 00374 00326 00367 00451 00353 00299 00251 00300 00461 00441 00333 00296 00510 00356 01016 00670 00521 00064 00454 00749 00636 01014 00636 00448 00501 00194 00031 00653 00743 00515 00453 00436 00076 00185 00138 00165 00304 00774 00469 00587 00022 00297 00601 00360 00636 01181 00590 00109 00369 01023 00214 00285 01153 00645 01001 00432 01677 00583 00509 00436 00147 00113 00228 00889 01567 01079 00895 00346 00523 01014 00590 01561 01057 00508 00377 00053 00298 00635 00998 00413 01010 00011 00316 00299 00178 00534 00826 01211 00361 01065 01187 01321 00288 00519 00636 00109 01057 01280 00501 00129 00310 00005 00055 00618 00086 00096 00924 00252 01077 00933 00195 00037 01110 00030 00509 00495 00497 00310 00415 00448 00369 00508 00501 00413 00357 00376 00335 00375 00446 00362 00308 00277 00314 00449 00431 00339 00307 00495 00364 00373 00023 00261 00686 00347 00501 01023 00377 00129 00357 00925 00299 00413 00993 00511 00901 00074 01530 00666 00345 00265 00089 00164 00129 00815 00052 00281 00386 00567 00374 00194 00214 00053 00310 00376 00299 00526 00609 00207 00196 00293 00924 00286 00562 00584 00604 00747 00820 00210 00326 00302 00008 00103 00849 00326 00031 00285 00298 00005 00335 00413 00609 00820 00258 00040 00392 01249 00633 00830 00462 00534 00962 01138 00088 00423 00632 00071 00242 00557 00367 00653 01153 00635 00055 00375 00993 00207 00258 01129 00662 00974 00459 01599 00541 00472 00408 00165 00146 00274 00864 01001 00654 00502 00079 00451 00743 00645 00998 00618 00446 00511 00196 00040 00662 00737 00524 00445 00462 00090 00173 00129 00159 00293 00759 00477 00409 00016 00217 00650 00353 00515 01001 00413 00086 00362 00901 00293 00392 00974 00524 00879 00096 01468 00632 00315 00242 00075 00137 00165 00796 01013 00031 00424 01047 00299 00453 00432 01010 00096 00308 00074 00924 01249 00459 00445 00096 02593 00202 01029 01239 01311 01850 02138 00341 00050 00000 00703 01158 01228 00251 00436 01677 00011 00924 00277 01530 00286 00633 01599 00462 01468 00202 02929 01177 01163 00957 00009 00253 00417 01299 00322 00215 00217 00990 00300 00076 00583 00316 00252 00314 00666 00562 00830 00541 00090 00632 01029 01177 00962 00105 00216 00818 01031 00222 00622 00304 00924 01284 00080 00461 00185 00509 00299 01077 00449 00345 00584 00462 00472 00173 00315 01239 01163 00105 01473 01373 00951 00879 00692 00187 00182 00793 01137 00197 00441 00138 00436 00178 00933 00431 00265 00604 00534 00408 00129 00242 01311 00957 00216 01373 01296 00998 00967 00570 00121 00536 00111 00411 00830 00333 00165 00147 00534 00195 00339 00089 00747 00962 00165 00159 00075 01850 00009 00818 00951 00998 01358 01550 00093 00171 00830 00113 00202 01053 00296 00304 00113 00826 00037 00307 00164 00820 01138 00146 00293 00137 02138 00253 01031 00879 00967 01550 01824 00330 00235 01217 01073 01062 00253 00510 00774 00228 01211 01110 00495 00129 00210 00088 00274 00759 00165 00341 00417 00222 00692 00570 00093 00330 01091 00172 00358 00054 00131 00639 00356 00469 00889 00361 00030 00364 00815 00326 00423 00864 00477 00796 00050 01299 00622 00187 00121 00171 00235 00172 00729 01573 01085 00902 00352 00524 01016 01085 01116 01198 00247 00511 00670 00902 01198 01419 00254 00515 00521 00352 00247 00254 01019 00295 00064 00524 00511 00515 00295 00418 00454 01016 00670 00521 00064 00454 00749 Pontos influentes Pontos relativamente longe da vizinhança onde os demais pontos foram coletados Ao se mudar o valor de uma única medida para longe da vizinhança dos demais valores alterase bastante a reta de regressão Se forem pontos ruins eles devem ser eliminados Distância de Cook para i 1 2 n com p nº de Betas Se Di 1 o ponto exerce influência 1 2 ii ii i i h p r h D 11 Y y chapéu nº observ e hii ri Di 995 8378721 1 157 01573 07481 00348 2445 2559601 2 115 01116 05314 00118 3175 3395409 3 220 01419 10399 00596 3500 3659678 4 160 01019 07364 00205 2502 2791365 5 289 00418 12920 00243 1686 1574643 6 111 00749 05060 00069 1438 1245026 7 193 01181 08981 00360 960 8403777 8 120 01561 05691 00200 2435 28215 9 386 01280 18089 01601 2750 2797629 10 048 00413 02126 00006 1708 1840233 11 132 00925 06067 00125 3700 3746188 12 046 00526 02074 00008 4195 4145893 13 049 00820 02240 00015 1166 1226234 14 060 01129 02795 00033 2165 1580907 15 584 00737 26525 01867 1789 1825199 16 036 00879 01657 00009 6900 6466587 17 433 02593 22010 05654 1030 1233683 18 204 02929 10586 01547 3493 3647151 19 154 00962 07087 00178 4659 4655979 20 003 01473 00143 00000 4488 470609 21 218 01296 10217 00518 5412 5256129 22 156 01358 07328 00281 5663 5630778 23 032 01824 01557 00018 2213 1998219 24 215 01091 09945 00404 2115 2099626 25 015 00729 00698 00001 Pontos influente Ao acrescentar o valor de uma única medida para longe da vizinhança dos demais valores alterouse bastante a reta de regressão Se forem pontos ruins eles devem ser eliminados 32 ÁREA PRIVATIVA m² VALOR R ÁREA PRIVATIVA m² VALOR R 12300 820000 12300 820000 7500 380000 7500 380000 12000 830000 12000 830000 22000 1810000 22000 1810000 16968 1110000 16968 1110000 16968 1320000 16968 1320000 10300 640000 10300 640000 16000 740000 16000 740000 10000 880000 10000 880000 13700 1470000 13700 1470000 30000 1200000 33 p 0036 p 0003 12 34 Os dois modelos são adequados É necessário decidir se o ponto influente deve ser mantido no modelo é um ponto com erro de medida e deve ser corrigido ou deve ser eliminado da amostra Medida para detecção de pontos influentes Distância de Cook Se esta medida ultrapassar o valor 1 o ponto é considerado influente 35 ÁREA PRIVATIVA m² VALOR R COOK ÁREA PRIVATIVA m² VALOR R COOK 12300 820000 000 12300 820000 000 7500 380000 006 7500 380000 019 12000 830000 000 12000 830000 000 22000 1810000 027 22000 1810000 038 16968 1110000 004 16968 1110000 000 16968 1320000 001 16968 1320000 003 10300 640000 001 10300 640000 003 16000 740000 026 16000 740000 005 10000 880000 008 10000 880000 001 13700 1470000 021 13700 1470000 014 30000 1200000 368 Escolha da melhor regressão 36 1º Critério Parar quando o ganho no R2 coeficiente de determinação ao se acrescentar mais uma variável for pequeno 2º Critério Parar quando a perda no QME ao se acrescentar mais uma variável for pequeno 3º Critério Coeficiente de Mallow Uso da medida da média quadrática total do erro para o modelo de regressão Cp Escolher modelo com sendo p o nº de betas nº de variáveis explicativas 1 Se Cp p o modelo tem tendenciosidade com n nº de observ QME do modelo completo e p nº de Betas 4º Critério Maximizar o coeficiente de determinação ajustado T p E T p R p SQ SQ SQ SQ R 2 1 p n SQ C p E p 2 ˆ 2 2 ˆ T p E p p p SQ QM n R p n n R ajustado R 2 2 2 1 1 1 1 1 13 Exemplo do livro de Montgomery e Runger 2 ed p 257 Suponha que há agora quatro variáveis candidatas a variáveis explicativas comprimento do fio x1 altura da garra x2 altura da coluna x3 e comprimento da laçada x4 resist ao puxamento compr do fio altura da garra altura da coluna compr da laçada 995 2 50 1 1 2445 8 110 1 1 3175 11 120 2 1 3500 10 550 2 2 2502 8 295 1 1 1686 4 200 1 1 1438 2 375 1 1 960 2 52 1 1 2435 9 100 1 1 2750 8 300 2 1 1708 4 412 2 2 3700 11 400 3 2 4195 12 500 3 3 1166 2 360 1 1 2165 4 205 2 2 1789 4 400 2 1 6900 20 600 4 4 1030 1 585 1 1 3493 10 540 2 1 4659 15 250 3 2 4488 15 290 3 1 5412 16 510 3 3 5663 17 590 2 2 2213 6 100 2 1 2115 5 400 1 1 Regressão só com X1 R2p 0963954 Usou o QME da regressão com X1X2X3X4 Só X1 RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 09818 RQuadrado 09640 Rquadrado ajustado 09624 Erro padrão 30934 Observações 25 ANOVA gl SQ QM F F de significação Regressão 1 58858521 58858521 6150801 4241E18 Resíduo 23 2200926 95692 Total 24 61059447 ANOVA com X1 X2 X3 X4 gl SQ MQ F F de significação Regressão 4 60443477 15110869 4906366 1190E19 Resíduo 20 615970 30798 Total 24 61059447 0 9624 0 96395 2 1 25 1 25 1 1 1 1 2 2 2 p p p R p n n R ajustado R 5046 2 2 25 0799 3 2200926 2 ˆ 2 x p n SQ C p E p Realizando as regressões por meio da análise de dados do Excel e calculandose o índice Cp de Mallows montase a seguinte tabela nº de variáveis p variáveis R2 p SQRp SQEp QMEp R2 ajust Cp 1 2 X2 02429 14832407 46227040 2009871 02100 147995 1 2 X4 05601 34197865 26861582 1167895 05409 85117 1 2 X3 06983 42638404 18421043 800915 06852 57711 1 2 X1 09640 58858521 2200926 95692 09624 5046 2 3 X2 X4 05716 34900434 26159013 1189046 05326 83036 2 3 X2 X3 07216 44061999 16997448 772611 06963 53289 2 3 X3 X4 07223 44104877 16954570 770662 06971 53150 2 3 X1 X3 09722 59362139 1697308 77150 09697 3611 2 3 X1 X2 09811 59907712 1151735 52352 09794 1840 2 3 X1 X4 09830 60023246 1036201 47100 09815 1464 3 4 X2 X3 X4 07330 44756011 16303436 776354 06948 51236 3 4 X1 X3 X4 09833 60038469 1020978 48618 09809 1615 3 4 X1 X2 X3 09852 60154245 905202 43105 09831 1239 3 4 X1 X2 X4 09896 60425340 634107 30196 09881 359 4 5 X1 X2 X3 X4 09899 60443477 615970 30798 09879 500 14 Seleção de variáveis na Regressão Múltipla Desejase prever bem tendose o menor número possível de regressores Todas as regressões possíveis estudo das 2k 1 possíveis equações de regressão Regressão por etapas Stepwise Seleção progressiva Forward Seleção regressiva Backward Stepwise Regressão por etapas 41 Adição ou remoção de variáveis a cada etapa fentra F para adicionar uma variável aleatória ao modelo fsai F para remover uma variável aleatória ao modelo É necessário que fentra fsai Em geral fentra fsai 1º Começa usando a variável que tenha a mais alta correlação com a variável resposta y é a que tem maior SQR e que também produz o maior F Examinase x1 x2 x3 e x4 No exemplo é x1 x entra f F x QME SQR F entra 1 1 23 10 1 0 1 1 2 9374 61508 5692 9 58858521 1 42 2º Qual é o xj com maior estatística parcial F dado que x1 está no modelo é o que tem maior SQR e que também produz o maior F Examinase x1x2 x1x3 e x1x4 No exemplo é x1x4 Dado que x1 está no modelo x4 deve entrar Entrando x4 no modelo x1 deve ser mantido Sim pois caso contrário o modelo ficaria só com x4 opção já verificada e descartada 3º Qual é o xj com maior estatística parcial F dado que x1 e x4 estão no modelo é o que tem maior SQR e que também produz o maior F Examinase x1x2x4 e x1x3x4 No exemplo é x1x2x4 Dado que x1 e e x4 estão no modelo x2 deve entrar x entra f F x x QME SQR SQR x x QME SQR F entra 4 1 22 10 4 1 0 1 0 4 1 4 1 1 0 4 4 2 9486 73 24 71 4 58858521 3246 6002 1 15 43 Entrando x2 no modelo x4 deve ser mantido Sim pois caso contrário o modelo ficaria só com x1 x2 opção já verificada e descartada Entrando x2 no modelo x1 deve ser mantido A opção x2 x4 ainda não foi verificada x1 sai do modelo 4º Estando x1 x2 e x4 no modelo x3 entra no modelo Nenhuma variável entra e nenhuma variável sai do modelo logo o modelo final é com x1 x2 e x4 no modelo x entra f F x x x QME SQR SQR x x x QME SQR F entra 2 1 21 10 4 2 1 0 4 1 0 4 2 1 4 2 1 4 1 0 2 2 2 9610 3161 13 0196 3 60023246 5340 6042 1 x fica f F x x x QME SQR SQR x x x QME SQR F entra 1 1 21 10 4 2 1 0 4 2 0 4 2 1 4 2 1 4 2 0 1 1 2 9610 31 845 0196 3 34900434 5340 6042 1 x não entra f F x x x x QME SQR SQR x x x x QME SQR F entra 3 1 20 10 4 3 2 1 0 4 2 1 0 4 3 2 1 4 3 2 1 4 2 1 0 3 3 2 97 5889 0 0799 3 60425340 3477 6044 1 44 Seleção Progressiva Vai se adicionando variáveis toda vez que Fparcial fentra Não se testa remoção Termina quando nenhuma variável é mais acrescentada No exemplo Começar analisando as regressões com uma variável X1 X2 X3 ou X4 Escolher a que tem maior R2 que também é a que tem maior SQR X1 Analisar as regressões com X1X2 X1X3 e X1X4 e verificar qual a regressão com maior R2 ou maior SQR Escolhese X1X4 Testar se X4 entra no modelo estando já X1 no modelo Concluise que X4 entra no modelo Analisar as regressões com X1X2X4 e X1X3X4 e verificar qual a regressão com maior R2 ou maior SQR Escolhese X1X2X4 Testar se X2 entra no modelo estando já X1 e X4 no modelo Concluise que X2 entra no modelo Fazer a regressão com X1X2X3X4 Testar se X3 entra no modelo estando já X1 X2 e X4 no modelo Concluise que X3 não entra no modelo logo o modelo final tem as variáveis X1 X2 e X4 45 Eliminação Regressiva Começa com todas as k possíveis variáveis regressoras e vai se eliminando variáveis toda vez que Fparcial fsai Termina quando nenhuma variável é mais eliminada No exemplo Analisar as regressões com X1X2X3 X1X2X4 X1X3X4 e X2X3X4 e verificar qual a regressão com maior R2 ou maior SQR Escolhese X1X2X4 Fazer a regressão com X1X2X3X4 e testar se X3 sai do modelo estando já X1 X2 e X4 no modelo Concluise que X3 sai do modelo logo o modelo fica com as variáveis X1 X2 e X4 Analisar as regressões X1X2 X1X4 eX2X4 e verificar qual a regressão com maior R2 ou maior SQR Escolhese X1X4 Testar se X2 sai do modelo estando já X1 e X4 no modelo Concluise que X2 não sai do modelo logo o modelo final fica com as variáveis X1 X2 e X4 16 MULTICOLINEARIDADE Quando há relações quaselineares entre os regressores ocorre a multicolinearidade torna o modelo de mínimos quadrados inadequado Quando as variáveis regressoras são não correlacionadas os coeficientes de cada regressor se mantêm independente das variáveis utilizadas no modelo Se há alta correlação linear entre duas variáveis regressoras seus coeficientes se alteram enormemente podendo até mudar de sinal dependendo do fato de só uma ou ambas as variáveis serem incluídas no modelo 47 Se o determinante da matriz XX for próximo de zero há indicação de possível multicolinearidade A multicolinearidade é medida por meio do Fator de Inflação da Variância FIV Quanto maior o FIV mais forte é a multicolinearidade Há controvérsias quanto ao valor do FIV que represente um problema A literatura fala de valores acima de 4 5 ou 10 Medida para evitar a multicolineariedade Utilizase a transformação de correlação nos dados originais de modo que O modelo de regressão com as variáveis transformadas é A matriz XX1 é p 1 x p 1 Seja Cjj o jésimo elemento da diagonal de XX1 O fator de inflação da variância para βj com Rj2 coeficiente de determinação da regressão da variável regressora Xj com as demais variáveis regressoras igual ao coef calculado com as variáveis transformadas 1 1 2 1 1 1 1 p k s X X n X s Y Y n Y k k ik ik Y i i 1 1 ˆ 2 j jj j R C FIV 1 1 2 2 1 1 i p p i i i X X X Y 17 No exemplo da potência elétrica Saída do Minitab R21 coef determinação da regressão de X1 em função de X2 X3 e X4 R2 1 056949 FIV1 1009 0103 0 073 054 0 0103 1335 0 719 856 0 0 073 0 719 2161 632 1 0 054 0 856 1632 323 2 1 X X 2 323 0 56949 1 1 1 1 2 1 R y X1 X2 X3 X4 04750 04985 00772 02214 00313 05240 04052 07715 00886 02032 01379 01877 00772 01771 05002 00582 00453 01543 03100 05315 02727 01230 01543 02214 02501 04566 02317 03858 06199 00156 02605 03560 01543 03100 01094 02114 04182 01543 04428 01563 01440 02784 00772 01771 05002 00337 00453 01543 02214 02658 01134 01100 01543 00886 00313 02176 02965 03086 00443 00625 51 Exemplo de previsão de valor de um imóvel Prever o valor do imóvel usando ao mesmo tempo a idade do imóvel nº de vagas de garagem área privativa andar nº de dormitórios nº de suítes presença de quarto de empregada e armários embutidos O conjunto de dados tem 53 observações VALOR R IDADE anos VAGAS ÁREA PRIVATIVA m² ANDAR DORMITORIOS SUÍTES QUARTO EMPREGADA ARMÁRIOS EMBUTIDOS 82000000 20 1 12300 6 3 1 1 1 38000000 28 0 7500 10 2 0 0 0 83000000 35 1 12000 12 3 1 1 1 181000000 33 1 22000 1 3 1 1 1 111000000 39 1 16968 17 3 1 1 1 132000000 39 2 16968 21 3 1 1 1 64000000 29 1 10300 9 3 1 0 0 49000000 1 1 5600 2 2 0 0 1 36000000 10 1 3800 9 1 0 0 1 45000000 10 1 4000 3 1 0 0 1 18 52 A eliminação do nº de dormitórios alterou bastante o coeficiente do nº de suítes No exemplo dos fios de Montgomery e Runger 2 ed p 257 nº variáveis p variáveis R2p SQRp SQEp QMEp R2 ajust Cp max FIV 1 2 X1 09640 58858521 2200926 95692 09624 5046 100 1 2 X2 02429 14832407 46227040 2009871 02100 147995 100 1 2 X3 06983 42638404 18421043 800915 06852 57711 100 1 2 X4 05601 34197865 26861582 1167895 05409 85117 100 2 3 X1 X2 09811 59907712 1151735 52352 09794 1840 117 2 3 X1 X3 09722 59362139 1697308 77150 09697 3611 272 2 3 X1 X4 09830 60023246 1036201 47100 09815 1464 176 2 3 X2 X3 07216 44061999 16997448 772611 06963 53289 122 2 3 X2 X4 05716 34900434 26159013 1189046 05326 83036 141 2 3 X3 X4 07223 44104877 16954570 770662 06971 53150 255 3 4 X1 X2 X3 09852 60154245 905202 43105 09831 1239 286 3 4 X1 X2 X4 09896 60425340 634107 30196 09881 359 272 3 4 X1 X3 X4 09833 60038469 1020978 48618 09809 1615 398 3 4 X2 X3 X4 07330 44756011 16303436 776354 06948 51236 294 4 5 X1 X2 X3 X4 09899 60443477 615970 30798 09879 500 398 Nenhum FIV ultrapassou 4 logo não houve multicolinearidade em nenhum dos modelos de regressão 54 Comentários Para qualquer modelo escolhido testar as suposições do modelo análise de resíduos testar falta de ajuste do modelo se há efeito de pontos influentes se há multicolinearidade e se o Cp é p Usar vários critérios para escolha de um modelo Se o mesmo modelo for escolhido utilizandose vários critérios diferentes este deve ser um bom modelo 19 Modelo de regressão polinomial Utilização Quando a função resposta é realmente um polinômio Quando a função resposta é desconhecida e complexa mas pode ser aproximada por um polinômio Cuidado especial nas extrapolações Trabalhar com variáveis centradas pois por exemplo X e X2 são em geral muito correlacionadas resultado não garantido X X x i i Há uma pequena mudança na notação dos coeficientes Exemplos i i x x Y 2 1 11 1 1 0 i i i i i i i i x x x x x x Y 2 1 12 2 2 22 2 1 11 2 2 1 1 0 Exemplo KUTNER WILLIAM NACHTSHEIM NETER 2004 p 300 Um pesquisador estudou os efeitos das taxas de carga e da temperatura no tempo de vida de um novo tipo de bateria para celular em um pequeno experimento preliminar A taxa de carga X1 foi controlada em três níveis 06 10 e 14 amperes e a temperatura ambiente X2 foi controlada em três níveis 10 20 e 30 ºC Fatores pertinentes às descargas de baterias de celular foram mantidos constantes O tempo de vida da bateria do celular Y foi medido em termos de números de ciclos de cargadescarga até a falência Os dados são apresentados a seguir 20 O pesquisador decidiu não só utilizar as variáveis centralizadas mas codificadas da seguinte forma 10 40 2 2 2 1 1 1 X X x X X x i i i i nº de ciclos Taxa de carga Temperatura Y X1 X2 150 06 10 86 10 10 49 14 10 288 06 20 157 10 20 131 10 20 184 10 20 109 14 20 279 06 30 235 10 30 224 14 30 média 172 10 20 X1p X2p 1 1 0 1 1 1 1 0 0 0 0 0 0 0 1 0 1 1 0 1 1 1 Correlação entre X1 e X12 Coeficiente de correlação entre X1 e X12 0991 ValorP 0000 Correlação entre X1p e X1p 2 variáveis codificadas Coeficiente de correlação entre X1p e X1p2 0000 ValorP 1000 Correlação entre X1centrada e X1centrada 2 Coeficiente de correlação entre X1centrada e X1centrada2 0000 ValorP 1000 Y 162842 558333 X1p 755 X2p 273947 X1pX1p 115 X1pX2p 106053 X2pX2p Análise de variância Fonte de Var gl SQ SQ ajust Adj MS F P Regressão 5 553656 553656 110731 10565 00109 X1p 1 187042 187042 187042 17846 00083 X2p 1 342015 342015 342015 32632 00023 X1pX1p 1 16460 19012 19012 1814 02359 X2pX2p 1 2849 2849 2849 0272 06244 X1pX2p 1 5290 5290 5290 0505 05092 Erro 5 52404 52404 10481 Falta de ajuste 3 38358 38358 12786 1820 03738 Erro puro 2 14047 14047 7023 Total 10 606060 Notar o teste para falta de ajuste pois há medidas repetidas 21 Aqui há multicolinearidade Y 338 540 X1 892 X2 171 X12 0106 X22 288 X1 X2 Equação de Regressão Coeficientes Termo Coef EP de Coef ValorT ValorP VIF Constante 338 150 225 0074 X1 540 269 201 0101 6621 X2 892 918 097 0376 4827 X12 171 127 135 0236 6029 X22 0106 0203 052 0624 3897 X1 X2 288 405 071 0509 1638 Sumário do Modelo S R2 R2aj R2pred 323742 9135 8271 3137 Análise de Variância Fonte GL SQ Aj QM Aj Valor F ValorP Regressão 5 553656 110731 1057 0011 X1 1 42204 42204 403 0101 X2 1 9884 9884 094 0376 X12 1 19012 19012 181 0236 X22 1 2849 2849 027 0624 X1 X2 1 5290 5290 050 0509 Erro 5 52404 10481 Falta de ajuste 3 38358 12786 182 0374 Erro puro 2 14047 7023 Total 10 606060 Aqui não há multicolinearidade Equação de Regressão Coeficientes Sumário do Modelo Análise de variância Y 1628 558 X1p 755 X2p 274 X1p2 106 X2p2 115 X1pX2p Termo Coef EP de Coef ValorT ValorP VIF Constante 1628 166 981 0000 X1p 558 132 422 0008 100 X2p 755 132 571 0002 100 X1p2 274 203 135 0236 108 X2p2 106 203 052 0624 108 X1pX2p 115 162 071 0509 100 S R2 R2aj R2pred 323742 9135 8271 3137 Fonte GL SQ Aj QM Aj Valor F ValorP Regressão 5 553656 110731 1057 0011 X1p 1 187042 187042 1785 0008 X2p 1 342015 342015 3263 0002 X1p2 1 19012 19012 181 0236 X2p2 1 2849 2849 027 0624 X1pX2p 1 5290 5290 050 0509 Erro 5 52404 10481 Falta de ajuste 3 38358 12786 182 0374 Erro puro 2 14047 7023 Total 10 606060 Segundo Kutner et al 2004 o motivo de se usar variáveis centradas em uma regressão polinomial é que X e X2 sempre serão altamente correlacionadas o que causa problemas sérios ao se inverter a matriz XX para poder se estimar os coeficientes da regressão Centrar as variáveis frequentemente reduz muito a multicolinearidade Exemplo da potência elétrica consumida X1 X1 2 X2 X2 2 X3 X3 2 X4 X4 2 25 625 24 576 91 8281 100 10000 31 961 21 441 90 8100 95 9025 45 2025 24 576 88 7744 110 12100 60 3600 25 625 87 7569 88 7744 65 4225 25 625 91 8281 94 8836 72 5184 26 676 94 8836 99 9801 80 6400 25 625 87 7569 97 9409 84 7056 25 625 86 7396 96 9216 75 5625 24 576 88 7744 110 12100 60 3600 25 625 91 8281 105 11025 50 2500 25 625 90 8100 100 10000 38 1444 23 529 89 7921 98 9604 corr 09889 corr 09994 corr 09999 corr 09993 X1 c X1 c 2 X2 c X2 c 2 X3 c X3 c 2 X4 c X4 c 2 320833 10293403 03333 01111 16667 27778 06667 04444 260833 6803403 33333 111111 06667 04444 43333 187778 120833 1460069 03333 01111 13333 17778 106667 1137778 29167 85069 06667 04444 23333 54444 113333 1284444 79167 626736 06667 04444 16667 27778 53333 284444 149167 2225069 16667 27778 46667 217778 03333 01111 229167 5251736 06667 04444 23333 54444 23333 54444 269167 7245069 06667 04444 33333 111111 33333 111111 179167 3210069 03333 01111 13333 17778 106667 1137778 29167 85069 06667 04444 16667 27778 56667 321111 70833 501736 06667 04444 06667 04444 06667 04444 190833 3641736 13333 17778 03333 01111 13333 17778 corr 02644 corr 07426 corr 03172 corr 02457 22 A centralização melhorou mas não resolveu totalmente a multicolinearidade Exemplo do livro de Montgomery e Runger 2 ed p 251 4 ed p 290 5 ed p 321 6 ed p 400 Os painéis laterais para o interior de um avião são formados em uma prensa de 1500 toneladas O custo da unidade de fabricação varia com o tamanho do lote de produção Os dados mostrados a seguir fornecem o custo médio por unidade em centenas de dólares para esse produto y e o tamanho do lote de produção x O diagrama de dispersão indica que um polinômio de segundo grau pode ser apropriado 90 80 70 60 50 40 30 20 18 17 16 15 14 13 12 11 x y Gráfico de Dispersão de y versus x y x 181 20 170 25 165 30 155 35 148 40 140 50 130 60 126 65 124 70 121 75 120 80 118 90 23 Se for realizada uma regressão linear simples só com a variável explicativa X O gráfico de resíduos indica a necessidade de um termo quadrático y 21983 00225 x 0000125 x2 Observ Os autores não trabalharam com variáveis centradas Sem centralizar a correlação entre X e X² é igual a 09859 Usando variáveis centradas a correlação passa a ser igual a 00357 2 1 0 8100 90 1 900 30 1 625 25 1 400 20 1 18 1 1 65 70 1 81 1 X y i Análise de Regressão y versus x1 x2 25 Ao n s de 5 o termo quadrático contribui para o modelo Estatística de regressão R múltiplo 09987 RQuadrado 09975 Rquadrado ajustado 09969 Erro padrão 00122 Observações 12 ANOVA gl SQ QM F valorp Regressão 2 05252 02626 1767399 2096E12 Resíduo 9 00013 00001 Total 11 05265 Coeficientes Erro padrão Stat t valorP 95 inferiores 95 superiores Interseção 21983 00225 974849 0000 21473 22493 x 00225 00009 238980 0000 00247 00204 x2 00001 00000 144455 0000 00001 00001 ANOVA só X gl SQ QM F valorp Regressão 1 04942 04942 1528032 2209E07 Resíduo 10 00323 00032 Total 11 05265 1 9 5 11 1 0 1 0 11 1 11 1 1 0 11 5117 2086737 00015 0 0 4942 5252 0 1 2 F x x QME SQR SQR x x QME SQR Fx Variáveis indicativas Uso de variáveis qualitativas Exemplo de duas possíveis respostas x 0 se a observação for do operador 1 x 1 se a observação for do operador 2 Exemplo de três possíveis respostas x1 1 e x2 0 se a observação for do operador 1 x1 0 e x2 1 se a observação for do operador 2 x1 0 e x2 0 se a observação for do operador 3 Variáveis indicativas Uso de variáveis qualitativas Variável explicativa Nº de pessoas que passam no entorno do supermercado X1 X2 0 0 Poucas 1 0 Moderado 0 1 Muitas Y β0 β1x1 β2x2 ԑ 26 Variáveis indicativas Uso de variáveis qualitativas Variável explicativa Escolaridade X1 X2 X3 0 0 0 Fundamental compl ou incompl 1 0 0 Ensino médio compl ou incompl 0 1 0 Superior compl ou incompl 0 0 1 Pós graduação compl ou incompl Y β0 β1x1 β2x2 β3x3 ԑ Exemplo do livro de Montgomery e Runger 2 ed p 253 4 ed p 291 5 ed p 323 6 ed p 401 Um engenheiro mecânico está investigando o acabamento na superfície de partes metálicas produzidas em um torno mecânico e sua relação com a velocidade em RPM do torno Os dados são mostrados na Tabela Note que os dados foram coletados usando dois tipos diferentes de ferramentas de corte Uma vez que o tipo da ferramenta de corte provavelmente afeta o acabamento da superfície ajustaremos o modelo Y β0 β1x1 β2x2 ԑ sendo Y o acabamento x1 a velocidade do torno em RPM e x2 uma variável indicativa denotando o tipo da ferramenta de corte usada isto x2 é 0 para a ferramenta 1 e 1 para a ferramenta 2 Acabamento RPM Ferramenta 4544 225 0 4203 200 0 5010 250 0 4875 245 0 4792 235 0 4779 237 0 5226 265 0 5052 259 0 4558 221 0 4478 218 0 3350 224 1 3123 212 1 3752 248 1 3713 260 1 3470 243 1 3392 238 1 3213 224 1 3547 251 1 3349 232 1 3229 216 1 1 216 1 0 250 1 0 200 1 0 225 1 29 32 10 50 03 42 44 45 X y i Estatística de regressão R múltiplo 09962 RQuadrado 09924 Rquadrado ajustado 09915 Erro padrão 06771 Observações 20 ANOVA gl SQ QM F valorp Regressão 2 10120595 5060297 1103695 1017E18 Resíduo 17 77943 04585 Total 19 10198538 CoeficientesErro padrão Stat t valorP 95 inferiores 95 superiores Interseção 142762 20912 68268 0000 98641 186883 RPM 01411 00088 159794 0000 01225 01598 Feramenta 132802 03029 438465 0000 139192 126412 27 Regressão não linear Em modelos nos quais a função preditiva é não linear utilizamse procedimentos iterativos para efetuar a estimação do modelo O uso de programas estatísticos são recomendáveis Exemplo Regressão Logística A regressão logística é um tipo especial de regressão na qual a variável resposta pode assumir somente dois possíveis resultados A forma mais comum de ocorrência desta situação é quando se deseja estimar se um elemento pertence ou não a determinado grupo em função de algumas de suas características A transformação importante para o estudo de regressão logística é denominada de transformação logito na qual é definida como A resposta da regressão logística é um número entre 0 e 1 1 1 0 1 1 0 1 1 x x i i e e x P Y x 1 1 0 1 ln x x x x g i i i Exemplo PIRAGIBE CYMROT 2010 p51 Objetivo Estimar se um consumidor irá optar na hora da compra por um eletrodoméstico que consuma menos energia Formulários com 15 questões respondidos por 150 indivíduos 120 para o modelo e 30 para o teste do modelo Variáveis escolhidas Manutenção da maioria das mudanças de hábitos no consumo de energia ocorridas em sua casa durante o racionamento e idade 28 Resultados encontrados Y 155952 0860941 XMUDANÇA 00356552 Idade com XMUDANÇA valendo um quando as mudanças realizadas durante o período de racionamento ainda continuarem e zero caso contrário Se πy 05 o consumidor será classificado como tendo propensão à optar na hora da compra por um eletrodoméstico que consuma menos energia Preditor Coeficientes Erro padrão dos coeficientes Z P Razão de Chances Intervalo de Confiança Constante 155952 0513333 304 0002 Mudanças continuam 0860941 0394243 218 0029 237 109 a 512 Idade 00356552 00152920 233 0020 104 101 a 107 Referências KUTNER M H WILLIAM L NACHTSHEIM C J NETER J Applied Linear Regression Models 4 ed Boston McGrawHill Irwin 2004 MONTGOMERY DC PECK E A VINING G G Introduction to linear regression analysis 3 ed New York John Wiley 2001 MONTGOMERY D C RUNGER G C Estatística aplicada e probabilidade para engenheiros 6 ed Rio de Janeiro LTC 2016 PIRAGIBE F L S CYMROT R Aplicação de regressão logística e estratégia de marketing em Engenharia de Produção Trabalho de Graduação Interdisciplinar Graduação em Engenharia de ProduçãoEscola de Engenharia da Universidade Presbiteriana Mackenzie São Paulo 2010
Send your question to AI and receive an answer instantly
Recommended for you
1
Análise de Eficiência de Treinamento em Supermercado: Teste Não Paramétrico
Estatística 2
MACKENZIE
128
Planejamento de Experimentos e Análise de Variância
Estatística 2
MACKENZIE
1
Teste de Sinal de Engenharia de Materiais U700 - Analise de Carga e Aderencia
Estatística 2
MACKENZIE
1
Teste de Hipóteses para Comparação de Medias entre Marcas de Lâmpadas
Estatística 2
MACKENZIE
3
Lista de Exercícios de Estatística II - Testes de Hipóteses e Análises de Dados
Estatística 2
MACKENZIE
26
Tabela de Estatística - Análise de Variância e Regressão Linear
Estatística 2
MACKENZIE
1
Lista de Exercicios Estatistica - Teste dos Sinais e Wilcoxon
Estatística 2
MACKENZIE
1
Testes Estatísticos Não Paramétricos: Wilcoxon, Kruskal-Wallis e Friedman - Exemplos Práticos
Estatística 2
MACKENZIE
1
Teste de Hipóteses Não Paramétrico - Vida Útil de Lâmpadas 75W
Estatística 2
MACKENZIE
1
Teste de Friedman para Comparacao de Detergentes - Eficacia e Branqueamento
Estatística 2
MACKENZIE
Preview text
1 REGRESSÃO LINEAR MÚLTIPLA Suponha que se deseja prever o faturamento de um supermercado variável resposta Possíveis variáveis explicativas nº médio de itens diferentes vendidos nº médio de caixas registradoras nº de vagas no estacionamento nº médio de pessoas que passam no entorno área do estabelecimento em m2 padrão do bairro Suponha que foram feitas as medidas em 20 supermercados Modelo y β0 β1x1 β2x2 βkxk ε y vetor n x 1 das observações no exemplo 20 x 1 X matriz n x p dos níveis das variáveis independentes no exemplo 20 x 7 p é o nº variáveis explicativas 1 k1 β vetor p x 1 dos coeficientes de regressão no exemplo 7 x 1 ε vetor n x 1 dos erros aleatórios no exemplo 20 x 1 Suposições ε N0 σ2 independentes X y X X ˆ 1 ˆ ˆ X y y y e ˆ Exemplo do livro de Montgomery e Runger 2 ed p 238 4 ed p 272 5 ed p 303 6 ed p 378 A potência elétrica consumida mensalmente por uma indústria química está relacionada à temperatura média ambiente x1 ao número de dias do mês x2 à pureza média do produto x3 e às toneladas do produto produzido x4 Os dados históricos do ano passado estão disponíveis e são apresentados na seguinte tabela y X1 X2 X3 X4 240 25 24 91 100 236 31 21 90 95 290 45 24 88 110 274 60 25 87 88 301 65 25 91 94 316 72 26 94 99 300 80 25 87 97 296 84 25 86 96 267 75 24 88 110 276 60 25 91 105 288 50 25 90 100 261 38 23 89 98 2 No exemplo y estimado 103 0605 x1 892 x2 144 x3 0014 x4 Preditor Coef EP do Coef T P Constante 1027 2079 049 0636 x1 06054 03689 164 0145 x2 8924 5301 168 0136 x3 1437 2392 060 0567 x4 00136 07338 002 0986 261 288 276 267 296 300 316 301 274 290 236 240 y 98 89 23 38 1 100 90 25 50 1 91 105 25 60 1 110 88 24 75 1 96 86 25 84 1 97 87 25 80 1 99 94 26 72 1 94 91 25 65 1 88 87 25 60 1 110 88 24 45 1 95 90 21 31 1 91 100 24 25 1 X 0 0136 1 4375 8 9236 6054 0 7132 102 ˆ X y X X ˆ 1 n y y X n i i 2 1 ˆ k SQR E R QM QM X y y y ˆ p n SQE n y y y n i i 2 1 Fonte de variação Soma de Quadrados SQ Graus de liberdade Quadrado médio QM F Regressão k Erro n p n k1 Total n 1 p nº de Betas e k nº de variáveis explicativas p k 1 Modelo y β0 β1x1 β2x2 β3x3 β4x4 ε H0 β1 β2 β3 β4 0 não há reta de regressão Anova Como o valorp 0030 ao nível de significância de 5 rejeitase H0 portanto concluise que a regressão é significante isto é existe uma reta de regressão S 155793 R2 745 R2adj 599 Fonte de Variação gl SQ QM F F de significação Regressão 4 49572407 12393102 51060 0030 Resíduo 7 16990093 2427156 Total 11 66562500 3 Mintab Estat Regressão Regressão Ajustar modelo de Regressão 4 Exemplo do livro de Montgomery e Runger resistência ao puxamento de um fio 2 ed p 234 4 ed p 267 5 ed p 298 6 ed p 374 Este exemplo ilustra o ajuste do modelo de regressão múltipla y β0 β1x1 β2x2 ԑ em que y é a resistência ao puxamento de um fio colado x1 é o comprimento do fio e x2 é a altura da garra y x1 x2 nº da observ resist ao puxamento compr do fio altura da garra 1 995 2 50 2 2445 8 110 3 3175 11 120 4 3500 10 550 5 2502 8 295 6 1686 4 200 7 1438 2 375 8 960 2 52 9 2435 9 100 10 2750 8 300 11 1708 4 412 12 3700 11 400 13 4195 12 500 14 1166 2 360 15 2165 4 205 16 1789 4 400 17 6900 20 600 18 1030 1 585 19 3493 10 540 20 4659 15 250 21 4488 15 290 22 5412 16 510 23 5663 17 590 24 2213 6 100 25 2115 5 400 X25 x 3 Y25 x 1 X y X X x ˆ 1 1 3 25 206 8294 206 2396 77177 8294 77177 3531848 XX 02146526 00074909 00003404 00074909 00016708 00000189 00003404 00000189 00000015 XX1 Xy Beta chapéu 72582 226379 800847 274427 27481671 001253 y 1 2 50 995 1 8 110 2445 1 11 120 3175 1 10 550 3500 1 8 295 2502 1 4 200 1686 1 2 375 1438 1 2 52 960 1 9 100 2435 1 8 300 2750 1 4 412 1708 1 11 400 3700 1 12 500 4195 1 2 360 1166 1 4 205 2165 1 4 400 1789 1 20 600 6900 1 1 585 1030 1 10 540 3493 1 15 250 4659 1 15 290 4488 1 16 510 5412 1 17 590 5663 1 6 100 2213 1 5 400 2115 X 5 ˆ ˆ y X y y e ˆ Y Y estimado e 995 8379 1571 2445 25596 1146 3175 33954 2204 3500 36597 1597 2502 27914 2894 1686 15746 1114 1438 12450 1930 960 8404 1196 2435 28215 3865 2750 27976 0476 1708 18402 1322 3700 37462 0462 4195 41459 0491 1166 12262 0602 2165 15809 5841 1789 18252 0362 6900 64666 4334 1030 12337 2037 3493 36472 1542 4659 46560 0030 4488 47061 2181 5412 52561 1559 5663 56308 0322 2213 19982 2148 2115 20996 0154 1 º 1 3 59907712 25 72582 270633581 ˆ 2 2 1 n de Betas graus de liberdade tem SQR n y X y SQ n i i R 1 º 1 25 61059447 2544144 24 25 1 25 61059447 25 72582 271785316 2 2 1 1 2 2 1 n de observações graus de liberdade tem SQT x valoresde y x Var SQ ou n y y n y y y SQ T n i i n i n i i T H0 β1 β2 0 não há reta de regressão fonte var gl SQ QM F valorp Regressão 2 59907712 29953856 5721672 1075E19 Resíduo 22 1151735 52352 Total 24 61059447 Modelo y β0 β1x1 β2x2 ε Como valorp 0000 ao nível de significância de 5 rejeitase H0 e afirmase que a regressão é significante Testes para os coeficientes individuais de regressão e subconjuntos de coeficientes Cjjé o elemento da diagonal de XX 1 No exemplo da resistência ao puxamento de um fio C2200000015 0 0 2 1 2 0 H H 4 4767 0 0028 012528 0 0 0000015 2352 5 012528 0 ˆ ˆ 22 2 2 0 x C T RC T T 2074 ou T 2074 Olhar t com o nº de gl do resíduo Ao ns de 5 rejeitase H0 e afirmase que a altura da garra é significante 0 0 1 0 j j H H jj j C T 2 0 ˆ ˆ 02146526 00074909 00003404 00074909 00016708 00000189 00003404 00000189 00000015 XX1 Coeficientes Erro padrão Stat t valorP 95 inferiores 95 superiores Interseção 22638 10601 21355 00441 00653 44622 compr do fio 27443 00935 293430 00000 25503 29382 altura da garra 00125 00028 44767 00002 00067 00183 6 No exemplo da potência XX 1 QME 24271561 resíduo com 7 graus de liberdade C00 1780079 RC T T 2365 ou T 2365 Ao ns de 5 não se rejeitase H0 e afirmase que o intercepto da reta de regressão é igual a 100 2ˆ 0 0022 0 0006 0 0008 0 0000 1799 0 0 0006 0 0236 0 0221 0 0018 6044 1 0 0008 0 0221 01158 0 0059 5864 0 0 0000 0 0018 0 0059 0 0006 0431 0 01799 1 6044 0 5864 0 0431 0079 178 0 0136 1 4375 8 9236 6054 0 7132 102 ˆ 100 100 0 1 0 0 H H 01305 0 1780079 71561 242 100 7142 102 ˆ 100 ˆ 00 2 0 x C T j j jj n p j C t 2ˆ ˆ p n X y y y ˆ yx0 0 1 0 2 0 ˆ ˆ x X X x t x p n 0y 1 ˆ ˆ 0 1 0 2 0 x X X x t x p n Parâmetro Intervalo de confiança IC Estimativa de 2 Intervalo de confiança na regressão linear múltipla Intervalo de confiança para os coeficientes individuais de regressão Suposições εi N0 σ2 independentes com Cjj igual a diagonal de XX1 Exemplo Calcular um intervalo com 95 de confiança para β1 QME 5235158 C11 00016708 t25 22 2074 2 5503 2 9382 0 0016708 5 235158 2 074 2 74427 1 x I C jj n p j C t C I j ˆ 2 ˆ 7 Intervalo de confiança para a resposta média Exemplo Construir um IC de 95 para a resistência média ao puxamento de um fio com o comprimento do fio x1 8 e altura da garra x2 275 ˆ ˆ 0 X Com y x 66 27 012528 0 74427 2 26379 2 275 8 1 ˆ 0 y x 0 1 0 2 0 ˆ ˆ 0 x X X x t x I C n p x y IC 2766 100 2666 2866 1 8 275 Beta chapéu 2766309671 226379 274427 001253 xo xo 1 8 275 02146526 00074909 00003404 1 00074909 00016708 00000189 8 00003404 00000189 00000015 275 xo QME 0061118 0000673 803657E05 1 00444001 52352 8 resultado 275 02324 raiz 04821 t x raiz 09999 XX1 ˆ 0 y x 0 232441 ˆ 0 0444001 0 1 0 2 0 1 0 x X X x x X X x 0 482122 2 074 2766 0 232441 2 074 2766 0 x I C y x Predição de novas observações Exemplo suponha que o engenheiro deseje construir um intervalo de previsão de 95 para a resistência média ao puxamento de um fio com o comprimento do fio x1 8 e altura da garra x2 275 ˆ ˆ 0 0 x y 1 ˆ ˆ 0 1 0 2 0 0 x X X x t x I C y p n 2281 3251 0 0444 5 23516 1 2 074 2766 0 I C y 8 Teste geral de significância da regressão ou método da soma quadrática extra ou teste F parcial No exemplo do supermercado X1 nº de itens diferentes vendidos X2 nº de caixas registradoras X3 nº de vagas no estacionamento X4 nº de pessoas que passam no entorno X5 padrão do bairro X y β1 é r x 1 Quero testar se pelo menos um dos coeficientes β1 β2 βr é significante pelo menos um dos coeficientes β2 ou β4 é significante β2 é p r x 1 2 1 Teste geral de significância da regressão ou método da soma quadrática extra ou teste F parcial 2 1 1 1 2 2 1 1 r x p é é signif se testar se pelo menos um dos coef Deseja r x é r graus de liberdade r com p SQR se Calcula colunas de X associadas à com X X Y elo reduzido se o ajusta é signif nenhum dos coef Se H r 1 mod 0 2 2 2 2 2 2 1 1 0 2 2 1 R R R SQ SQ SQ Soma de Quadrados de regressão devido à β1 dado que β2 está no modelo tem r graus de liberdade Também chamado de soma de Quadrados Extra devido à β1 SQR modelo completo SQR modelo reduzido X y Rejeitase H0 se F0 Fα r np No exemplo verificar a contribuição da variável X2 altura da garra para o modelo SQRβ2 β0 β1 SQRβ1 β2 β0 SQRβ1 β0 5990771258858521 1049191 2004 2352 5 10491911 2 1 0 E R QM r SQ F F5122 43009 Logo ao ns de 5 rejeitase H0 β2 0 logo o regressor altura da garra X2 contribui significantemente para o modelo note que t2 447672 2004 E R QM r SQ F 2 1 0 Modelo com X1 e X2 fonte var gl SQ QM F valorp Regressão 2 59907712 29953856 5721672 1075E19 Resíduo 22 1151735 52352 Total 24 61059447 Modelo só com X1 fonte var gl SQ MQ F valorp Regressão 1 58858521 58858521 6150801 4241E18 Resíduo 23 2200926 95692 Total 24 61059447 9 Medidas de adequação do modelo Coeficiente de determinação múltipla R2 R coeficiente de correlação linear múltiplo R2 representa o quanto da variabilidade total foi explicada pelo modelo porém R2 grande não implica necessariamente que o modelo seja bom No exemplo 0 R2 1 T p E T p R p SQ SQ SQ SQ R 2 1 2 R 0 9811 9447 6105 59907712 2 T R SQ SQ R Análise residual 2 1 0 1 2 99 90 50 10 1 N 25 AD 0373 ValorP 0393 Resíduos Padronizados Percentual 60 45 30 1 5 0 2 1 0 1 2 Valor ajustado Resíduos Padronizados 2 1 0 1 2 8 6 4 2 0 Resíduos Padronizados Frequência 24 22 20 18 16 1 4 1 2 10 8 6 4 2 2 1 0 1 2 Ordem de Observação Resíduos Padronizados Gráfico de Probabilidade Normal Versus Ajustados Histograma Versus Ordem Gráficos de Resíduo de resist ao puxamento No gráfico de probabilidade Normal dos resíduos vêse que e15 588 e e17 433 estão um pouco distantes da reta 6000 4000 2000 0000 2000 4000 6000 8000 0 5 10 15 20 25 resíduo x X1 6000 4000 2000 0000 2000 4000 6000 8000 0 100 200 300 400 500 600 700 resíduo x X2 Parece que precisa de um termo quadrático em X1 regressão não linear 10 Resíduo na forma de Student ri 1 i n Com hii igual ao iésimo elemento diagonal da matriz H XXX1X H matriz chapéu pois hii xiXX1xi i 1 2 n com 0 hii 1 Estes resíduos auxiliam a achar possíveis outliers Os resíduos na forma de Student são maiores que os resíduos padronizados 1 ˆ 2 ii i i h e r 1 2 ii i h v e 2ˆ e Hy X y X X X X y ˆ ˆ 1 Primeiras linhas e colunas de H 01573 01085 00902 00352 00524 01016 00587 01567 01065 00509 00373 00052 00302 00632 01001 00409 01013 00000 00322 00304 00182 00536 00830 01217 00358 01085 01116 01198 00247 00511 00670 00022 01079 01187 00495 00023 00281 00008 00071 00654 00016 00031 00703 00215 00924 00793 00111 00113 01073 00054 00902 01198 01419 00254 00515 00521 00297 00895 01321 00497 00261 00386 00103 00242 00502 00217 00424 01158 00217 01284 01137 00411 00202 01062 00131 00352 00247 00254 01019 00295 00064 00601 00346 00288 00310 00686 00567 00849 00557 00079 00650 01047 01228 00990 00080 00197 00830 01053 00253 00639 00524 00511 00515 00295 00418 00454 00360 00523 00519 00415 00347 00374 00326 00367 00451 00353 00299 00251 00300 00461 00441 00333 00296 00510 00356 01016 00670 00521 00064 00454 00749 00636 01014 00636 00448 00501 00194 00031 00653 00743 00515 00453 00436 00076 00185 00138 00165 00304 00774 00469 00587 00022 00297 00601 00360 00636 01181 00590 00109 00369 01023 00214 00285 01153 00645 01001 00432 01677 00583 00509 00436 00147 00113 00228 00889 01567 01079 00895 00346 00523 01014 00590 01561 01057 00508 00377 00053 00298 00635 00998 00413 01010 00011 00316 00299 00178 00534 00826 01211 00361 01065 01187 01321 00288 00519 00636 00109 01057 01280 00501 00129 00310 00005 00055 00618 00086 00096 00924 00252 01077 00933 00195 00037 01110 00030 00509 00495 00497 00310 00415 00448 00369 00508 00501 00413 00357 00376 00335 00375 00446 00362 00308 00277 00314 00449 00431 00339 00307 00495 00364 00373 00023 00261 00686 00347 00501 01023 00377 00129 00357 00925 00299 00413 00993 00511 00901 00074 01530 00666 00345 00265 00089 00164 00129 00815 00052 00281 00386 00567 00374 00194 00214 00053 00310 00376 00299 00526 00609 00207 00196 00293 00924 00286 00562 00584 00604 00747 00820 00210 00326 00302 00008 00103 00849 00326 00031 00285 00298 00005 00335 00413 00609 00820 00258 00040 00392 01249 00633 00830 00462 00534 00962 01138 00088 00423 00632 00071 00242 00557 00367 00653 01153 00635 00055 00375 00993 00207 00258 01129 00662 00974 00459 01599 00541 00472 00408 00165 00146 00274 00864 01001 00654 00502 00079 00451 00743 00645 00998 00618 00446 00511 00196 00040 00662 00737 00524 00445 00462 00090 00173 00129 00159 00293 00759 00477 00409 00016 00217 00650 00353 00515 01001 00413 00086 00362 00901 00293 00392 00974 00524 00879 00096 01468 00632 00315 00242 00075 00137 00165 00796 01013 00031 00424 01047 00299 00453 00432 01010 00096 00308 00074 00924 01249 00459 00445 00096 02593 00202 01029 01239 01311 01850 02138 00341 00050 00000 00703 01158 01228 00251 00436 01677 00011 00924 00277 01530 00286 00633 01599 00462 01468 00202 02929 01177 01163 00957 00009 00253 00417 01299 00322 00215 00217 00990 00300 00076 00583 00316 00252 00314 00666 00562 00830 00541 00090 00632 01029 01177 00962 00105 00216 00818 01031 00222 00622 00304 00924 01284 00080 00461 00185 00509 00299 01077 00449 00345 00584 00462 00472 00173 00315 01239 01163 00105 01473 01373 00951 00879 00692 00187 00182 00793 01137 00197 00441 00138 00436 00178 00933 00431 00265 00604 00534 00408 00129 00242 01311 00957 00216 01373 01296 00998 00967 00570 00121 00536 00111 00411 00830 00333 00165 00147 00534 00195 00339 00089 00747 00962 00165 00159 00075 01850 00009 00818 00951 00998 01358 01550 00093 00171 00830 00113 00202 01053 00296 00304 00113 00826 00037 00307 00164 00820 01138 00146 00293 00137 02138 00253 01031 00879 00967 01550 01824 00330 00235 01217 01073 01062 00253 00510 00774 00228 01211 01110 00495 00129 00210 00088 00274 00759 00165 00341 00417 00222 00692 00570 00093 00330 01091 00172 00358 00054 00131 00639 00356 00469 00889 00361 00030 00364 00815 00326 00423 00864 00477 00796 00050 01299 00622 00187 00121 00171 00235 00172 00729 01573 01085 00902 00352 00524 01016 01085 01116 01198 00247 00511 00670 00902 01198 01419 00254 00515 00521 00352 00247 00254 01019 00295 00064 00524 00511 00515 00295 00418 00454 01016 00670 00521 00064 00454 00749 Pontos influentes Pontos relativamente longe da vizinhança onde os demais pontos foram coletados Ao se mudar o valor de uma única medida para longe da vizinhança dos demais valores alterase bastante a reta de regressão Se forem pontos ruins eles devem ser eliminados Distância de Cook para i 1 2 n com p nº de Betas Se Di 1 o ponto exerce influência 1 2 ii ii i i h p r h D 11 Y y chapéu nº observ e hii ri Di 995 8378721 1 157 01573 07481 00348 2445 2559601 2 115 01116 05314 00118 3175 3395409 3 220 01419 10399 00596 3500 3659678 4 160 01019 07364 00205 2502 2791365 5 289 00418 12920 00243 1686 1574643 6 111 00749 05060 00069 1438 1245026 7 193 01181 08981 00360 960 8403777 8 120 01561 05691 00200 2435 28215 9 386 01280 18089 01601 2750 2797629 10 048 00413 02126 00006 1708 1840233 11 132 00925 06067 00125 3700 3746188 12 046 00526 02074 00008 4195 4145893 13 049 00820 02240 00015 1166 1226234 14 060 01129 02795 00033 2165 1580907 15 584 00737 26525 01867 1789 1825199 16 036 00879 01657 00009 6900 6466587 17 433 02593 22010 05654 1030 1233683 18 204 02929 10586 01547 3493 3647151 19 154 00962 07087 00178 4659 4655979 20 003 01473 00143 00000 4488 470609 21 218 01296 10217 00518 5412 5256129 22 156 01358 07328 00281 5663 5630778 23 032 01824 01557 00018 2213 1998219 24 215 01091 09945 00404 2115 2099626 25 015 00729 00698 00001 Pontos influente Ao acrescentar o valor de uma única medida para longe da vizinhança dos demais valores alterouse bastante a reta de regressão Se forem pontos ruins eles devem ser eliminados 32 ÁREA PRIVATIVA m² VALOR R ÁREA PRIVATIVA m² VALOR R 12300 820000 12300 820000 7500 380000 7500 380000 12000 830000 12000 830000 22000 1810000 22000 1810000 16968 1110000 16968 1110000 16968 1320000 16968 1320000 10300 640000 10300 640000 16000 740000 16000 740000 10000 880000 10000 880000 13700 1470000 13700 1470000 30000 1200000 33 p 0036 p 0003 12 34 Os dois modelos são adequados É necessário decidir se o ponto influente deve ser mantido no modelo é um ponto com erro de medida e deve ser corrigido ou deve ser eliminado da amostra Medida para detecção de pontos influentes Distância de Cook Se esta medida ultrapassar o valor 1 o ponto é considerado influente 35 ÁREA PRIVATIVA m² VALOR R COOK ÁREA PRIVATIVA m² VALOR R COOK 12300 820000 000 12300 820000 000 7500 380000 006 7500 380000 019 12000 830000 000 12000 830000 000 22000 1810000 027 22000 1810000 038 16968 1110000 004 16968 1110000 000 16968 1320000 001 16968 1320000 003 10300 640000 001 10300 640000 003 16000 740000 026 16000 740000 005 10000 880000 008 10000 880000 001 13700 1470000 021 13700 1470000 014 30000 1200000 368 Escolha da melhor regressão 36 1º Critério Parar quando o ganho no R2 coeficiente de determinação ao se acrescentar mais uma variável for pequeno 2º Critério Parar quando a perda no QME ao se acrescentar mais uma variável for pequeno 3º Critério Coeficiente de Mallow Uso da medida da média quadrática total do erro para o modelo de regressão Cp Escolher modelo com sendo p o nº de betas nº de variáveis explicativas 1 Se Cp p o modelo tem tendenciosidade com n nº de observ QME do modelo completo e p nº de Betas 4º Critério Maximizar o coeficiente de determinação ajustado T p E T p R p SQ SQ SQ SQ R 2 1 p n SQ C p E p 2 ˆ 2 2 ˆ T p E p p p SQ QM n R p n n R ajustado R 2 2 2 1 1 1 1 1 13 Exemplo do livro de Montgomery e Runger 2 ed p 257 Suponha que há agora quatro variáveis candidatas a variáveis explicativas comprimento do fio x1 altura da garra x2 altura da coluna x3 e comprimento da laçada x4 resist ao puxamento compr do fio altura da garra altura da coluna compr da laçada 995 2 50 1 1 2445 8 110 1 1 3175 11 120 2 1 3500 10 550 2 2 2502 8 295 1 1 1686 4 200 1 1 1438 2 375 1 1 960 2 52 1 1 2435 9 100 1 1 2750 8 300 2 1 1708 4 412 2 2 3700 11 400 3 2 4195 12 500 3 3 1166 2 360 1 1 2165 4 205 2 2 1789 4 400 2 1 6900 20 600 4 4 1030 1 585 1 1 3493 10 540 2 1 4659 15 250 3 2 4488 15 290 3 1 5412 16 510 3 3 5663 17 590 2 2 2213 6 100 2 1 2115 5 400 1 1 Regressão só com X1 R2p 0963954 Usou o QME da regressão com X1X2X3X4 Só X1 RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 09818 RQuadrado 09640 Rquadrado ajustado 09624 Erro padrão 30934 Observações 25 ANOVA gl SQ QM F F de significação Regressão 1 58858521 58858521 6150801 4241E18 Resíduo 23 2200926 95692 Total 24 61059447 ANOVA com X1 X2 X3 X4 gl SQ MQ F F de significação Regressão 4 60443477 15110869 4906366 1190E19 Resíduo 20 615970 30798 Total 24 61059447 0 9624 0 96395 2 1 25 1 25 1 1 1 1 2 2 2 p p p R p n n R ajustado R 5046 2 2 25 0799 3 2200926 2 ˆ 2 x p n SQ C p E p Realizando as regressões por meio da análise de dados do Excel e calculandose o índice Cp de Mallows montase a seguinte tabela nº de variáveis p variáveis R2 p SQRp SQEp QMEp R2 ajust Cp 1 2 X2 02429 14832407 46227040 2009871 02100 147995 1 2 X4 05601 34197865 26861582 1167895 05409 85117 1 2 X3 06983 42638404 18421043 800915 06852 57711 1 2 X1 09640 58858521 2200926 95692 09624 5046 2 3 X2 X4 05716 34900434 26159013 1189046 05326 83036 2 3 X2 X3 07216 44061999 16997448 772611 06963 53289 2 3 X3 X4 07223 44104877 16954570 770662 06971 53150 2 3 X1 X3 09722 59362139 1697308 77150 09697 3611 2 3 X1 X2 09811 59907712 1151735 52352 09794 1840 2 3 X1 X4 09830 60023246 1036201 47100 09815 1464 3 4 X2 X3 X4 07330 44756011 16303436 776354 06948 51236 3 4 X1 X3 X4 09833 60038469 1020978 48618 09809 1615 3 4 X1 X2 X3 09852 60154245 905202 43105 09831 1239 3 4 X1 X2 X4 09896 60425340 634107 30196 09881 359 4 5 X1 X2 X3 X4 09899 60443477 615970 30798 09879 500 14 Seleção de variáveis na Regressão Múltipla Desejase prever bem tendose o menor número possível de regressores Todas as regressões possíveis estudo das 2k 1 possíveis equações de regressão Regressão por etapas Stepwise Seleção progressiva Forward Seleção regressiva Backward Stepwise Regressão por etapas 41 Adição ou remoção de variáveis a cada etapa fentra F para adicionar uma variável aleatória ao modelo fsai F para remover uma variável aleatória ao modelo É necessário que fentra fsai Em geral fentra fsai 1º Começa usando a variável que tenha a mais alta correlação com a variável resposta y é a que tem maior SQR e que também produz o maior F Examinase x1 x2 x3 e x4 No exemplo é x1 x entra f F x QME SQR F entra 1 1 23 10 1 0 1 1 2 9374 61508 5692 9 58858521 1 42 2º Qual é o xj com maior estatística parcial F dado que x1 está no modelo é o que tem maior SQR e que também produz o maior F Examinase x1x2 x1x3 e x1x4 No exemplo é x1x4 Dado que x1 está no modelo x4 deve entrar Entrando x4 no modelo x1 deve ser mantido Sim pois caso contrário o modelo ficaria só com x4 opção já verificada e descartada 3º Qual é o xj com maior estatística parcial F dado que x1 e x4 estão no modelo é o que tem maior SQR e que também produz o maior F Examinase x1x2x4 e x1x3x4 No exemplo é x1x2x4 Dado que x1 e e x4 estão no modelo x2 deve entrar x entra f F x x QME SQR SQR x x QME SQR F entra 4 1 22 10 4 1 0 1 0 4 1 4 1 1 0 4 4 2 9486 73 24 71 4 58858521 3246 6002 1 15 43 Entrando x2 no modelo x4 deve ser mantido Sim pois caso contrário o modelo ficaria só com x1 x2 opção já verificada e descartada Entrando x2 no modelo x1 deve ser mantido A opção x2 x4 ainda não foi verificada x1 sai do modelo 4º Estando x1 x2 e x4 no modelo x3 entra no modelo Nenhuma variável entra e nenhuma variável sai do modelo logo o modelo final é com x1 x2 e x4 no modelo x entra f F x x x QME SQR SQR x x x QME SQR F entra 2 1 21 10 4 2 1 0 4 1 0 4 2 1 4 2 1 4 1 0 2 2 2 9610 3161 13 0196 3 60023246 5340 6042 1 x fica f F x x x QME SQR SQR x x x QME SQR F entra 1 1 21 10 4 2 1 0 4 2 0 4 2 1 4 2 1 4 2 0 1 1 2 9610 31 845 0196 3 34900434 5340 6042 1 x não entra f F x x x x QME SQR SQR x x x x QME SQR F entra 3 1 20 10 4 3 2 1 0 4 2 1 0 4 3 2 1 4 3 2 1 4 2 1 0 3 3 2 97 5889 0 0799 3 60425340 3477 6044 1 44 Seleção Progressiva Vai se adicionando variáveis toda vez que Fparcial fentra Não se testa remoção Termina quando nenhuma variável é mais acrescentada No exemplo Começar analisando as regressões com uma variável X1 X2 X3 ou X4 Escolher a que tem maior R2 que também é a que tem maior SQR X1 Analisar as regressões com X1X2 X1X3 e X1X4 e verificar qual a regressão com maior R2 ou maior SQR Escolhese X1X4 Testar se X4 entra no modelo estando já X1 no modelo Concluise que X4 entra no modelo Analisar as regressões com X1X2X4 e X1X3X4 e verificar qual a regressão com maior R2 ou maior SQR Escolhese X1X2X4 Testar se X2 entra no modelo estando já X1 e X4 no modelo Concluise que X2 entra no modelo Fazer a regressão com X1X2X3X4 Testar se X3 entra no modelo estando já X1 X2 e X4 no modelo Concluise que X3 não entra no modelo logo o modelo final tem as variáveis X1 X2 e X4 45 Eliminação Regressiva Começa com todas as k possíveis variáveis regressoras e vai se eliminando variáveis toda vez que Fparcial fsai Termina quando nenhuma variável é mais eliminada No exemplo Analisar as regressões com X1X2X3 X1X2X4 X1X3X4 e X2X3X4 e verificar qual a regressão com maior R2 ou maior SQR Escolhese X1X2X4 Fazer a regressão com X1X2X3X4 e testar se X3 sai do modelo estando já X1 X2 e X4 no modelo Concluise que X3 sai do modelo logo o modelo fica com as variáveis X1 X2 e X4 Analisar as regressões X1X2 X1X4 eX2X4 e verificar qual a regressão com maior R2 ou maior SQR Escolhese X1X4 Testar se X2 sai do modelo estando já X1 e X4 no modelo Concluise que X2 não sai do modelo logo o modelo final fica com as variáveis X1 X2 e X4 16 MULTICOLINEARIDADE Quando há relações quaselineares entre os regressores ocorre a multicolinearidade torna o modelo de mínimos quadrados inadequado Quando as variáveis regressoras são não correlacionadas os coeficientes de cada regressor se mantêm independente das variáveis utilizadas no modelo Se há alta correlação linear entre duas variáveis regressoras seus coeficientes se alteram enormemente podendo até mudar de sinal dependendo do fato de só uma ou ambas as variáveis serem incluídas no modelo 47 Se o determinante da matriz XX for próximo de zero há indicação de possível multicolinearidade A multicolinearidade é medida por meio do Fator de Inflação da Variância FIV Quanto maior o FIV mais forte é a multicolinearidade Há controvérsias quanto ao valor do FIV que represente um problema A literatura fala de valores acima de 4 5 ou 10 Medida para evitar a multicolineariedade Utilizase a transformação de correlação nos dados originais de modo que O modelo de regressão com as variáveis transformadas é A matriz XX1 é p 1 x p 1 Seja Cjj o jésimo elemento da diagonal de XX1 O fator de inflação da variância para βj com Rj2 coeficiente de determinação da regressão da variável regressora Xj com as demais variáveis regressoras igual ao coef calculado com as variáveis transformadas 1 1 2 1 1 1 1 p k s X X n X s Y Y n Y k k ik ik Y i i 1 1 ˆ 2 j jj j R C FIV 1 1 2 2 1 1 i p p i i i X X X Y 17 No exemplo da potência elétrica Saída do Minitab R21 coef determinação da regressão de X1 em função de X2 X3 e X4 R2 1 056949 FIV1 1009 0103 0 073 054 0 0103 1335 0 719 856 0 0 073 0 719 2161 632 1 0 054 0 856 1632 323 2 1 X X 2 323 0 56949 1 1 1 1 2 1 R y X1 X2 X3 X4 04750 04985 00772 02214 00313 05240 04052 07715 00886 02032 01379 01877 00772 01771 05002 00582 00453 01543 03100 05315 02727 01230 01543 02214 02501 04566 02317 03858 06199 00156 02605 03560 01543 03100 01094 02114 04182 01543 04428 01563 01440 02784 00772 01771 05002 00337 00453 01543 02214 02658 01134 01100 01543 00886 00313 02176 02965 03086 00443 00625 51 Exemplo de previsão de valor de um imóvel Prever o valor do imóvel usando ao mesmo tempo a idade do imóvel nº de vagas de garagem área privativa andar nº de dormitórios nº de suítes presença de quarto de empregada e armários embutidos O conjunto de dados tem 53 observações VALOR R IDADE anos VAGAS ÁREA PRIVATIVA m² ANDAR DORMITORIOS SUÍTES QUARTO EMPREGADA ARMÁRIOS EMBUTIDOS 82000000 20 1 12300 6 3 1 1 1 38000000 28 0 7500 10 2 0 0 0 83000000 35 1 12000 12 3 1 1 1 181000000 33 1 22000 1 3 1 1 1 111000000 39 1 16968 17 3 1 1 1 132000000 39 2 16968 21 3 1 1 1 64000000 29 1 10300 9 3 1 0 0 49000000 1 1 5600 2 2 0 0 1 36000000 10 1 3800 9 1 0 0 1 45000000 10 1 4000 3 1 0 0 1 18 52 A eliminação do nº de dormitórios alterou bastante o coeficiente do nº de suítes No exemplo dos fios de Montgomery e Runger 2 ed p 257 nº variáveis p variáveis R2p SQRp SQEp QMEp R2 ajust Cp max FIV 1 2 X1 09640 58858521 2200926 95692 09624 5046 100 1 2 X2 02429 14832407 46227040 2009871 02100 147995 100 1 2 X3 06983 42638404 18421043 800915 06852 57711 100 1 2 X4 05601 34197865 26861582 1167895 05409 85117 100 2 3 X1 X2 09811 59907712 1151735 52352 09794 1840 117 2 3 X1 X3 09722 59362139 1697308 77150 09697 3611 272 2 3 X1 X4 09830 60023246 1036201 47100 09815 1464 176 2 3 X2 X3 07216 44061999 16997448 772611 06963 53289 122 2 3 X2 X4 05716 34900434 26159013 1189046 05326 83036 141 2 3 X3 X4 07223 44104877 16954570 770662 06971 53150 255 3 4 X1 X2 X3 09852 60154245 905202 43105 09831 1239 286 3 4 X1 X2 X4 09896 60425340 634107 30196 09881 359 272 3 4 X1 X3 X4 09833 60038469 1020978 48618 09809 1615 398 3 4 X2 X3 X4 07330 44756011 16303436 776354 06948 51236 294 4 5 X1 X2 X3 X4 09899 60443477 615970 30798 09879 500 398 Nenhum FIV ultrapassou 4 logo não houve multicolinearidade em nenhum dos modelos de regressão 54 Comentários Para qualquer modelo escolhido testar as suposições do modelo análise de resíduos testar falta de ajuste do modelo se há efeito de pontos influentes se há multicolinearidade e se o Cp é p Usar vários critérios para escolha de um modelo Se o mesmo modelo for escolhido utilizandose vários critérios diferentes este deve ser um bom modelo 19 Modelo de regressão polinomial Utilização Quando a função resposta é realmente um polinômio Quando a função resposta é desconhecida e complexa mas pode ser aproximada por um polinômio Cuidado especial nas extrapolações Trabalhar com variáveis centradas pois por exemplo X e X2 são em geral muito correlacionadas resultado não garantido X X x i i Há uma pequena mudança na notação dos coeficientes Exemplos i i x x Y 2 1 11 1 1 0 i i i i i i i i x x x x x x Y 2 1 12 2 2 22 2 1 11 2 2 1 1 0 Exemplo KUTNER WILLIAM NACHTSHEIM NETER 2004 p 300 Um pesquisador estudou os efeitos das taxas de carga e da temperatura no tempo de vida de um novo tipo de bateria para celular em um pequeno experimento preliminar A taxa de carga X1 foi controlada em três níveis 06 10 e 14 amperes e a temperatura ambiente X2 foi controlada em três níveis 10 20 e 30 ºC Fatores pertinentes às descargas de baterias de celular foram mantidos constantes O tempo de vida da bateria do celular Y foi medido em termos de números de ciclos de cargadescarga até a falência Os dados são apresentados a seguir 20 O pesquisador decidiu não só utilizar as variáveis centralizadas mas codificadas da seguinte forma 10 40 2 2 2 1 1 1 X X x X X x i i i i nº de ciclos Taxa de carga Temperatura Y X1 X2 150 06 10 86 10 10 49 14 10 288 06 20 157 10 20 131 10 20 184 10 20 109 14 20 279 06 30 235 10 30 224 14 30 média 172 10 20 X1p X2p 1 1 0 1 1 1 1 0 0 0 0 0 0 0 1 0 1 1 0 1 1 1 Correlação entre X1 e X12 Coeficiente de correlação entre X1 e X12 0991 ValorP 0000 Correlação entre X1p e X1p 2 variáveis codificadas Coeficiente de correlação entre X1p e X1p2 0000 ValorP 1000 Correlação entre X1centrada e X1centrada 2 Coeficiente de correlação entre X1centrada e X1centrada2 0000 ValorP 1000 Y 162842 558333 X1p 755 X2p 273947 X1pX1p 115 X1pX2p 106053 X2pX2p Análise de variância Fonte de Var gl SQ SQ ajust Adj MS F P Regressão 5 553656 553656 110731 10565 00109 X1p 1 187042 187042 187042 17846 00083 X2p 1 342015 342015 342015 32632 00023 X1pX1p 1 16460 19012 19012 1814 02359 X2pX2p 1 2849 2849 2849 0272 06244 X1pX2p 1 5290 5290 5290 0505 05092 Erro 5 52404 52404 10481 Falta de ajuste 3 38358 38358 12786 1820 03738 Erro puro 2 14047 14047 7023 Total 10 606060 Notar o teste para falta de ajuste pois há medidas repetidas 21 Aqui há multicolinearidade Y 338 540 X1 892 X2 171 X12 0106 X22 288 X1 X2 Equação de Regressão Coeficientes Termo Coef EP de Coef ValorT ValorP VIF Constante 338 150 225 0074 X1 540 269 201 0101 6621 X2 892 918 097 0376 4827 X12 171 127 135 0236 6029 X22 0106 0203 052 0624 3897 X1 X2 288 405 071 0509 1638 Sumário do Modelo S R2 R2aj R2pred 323742 9135 8271 3137 Análise de Variância Fonte GL SQ Aj QM Aj Valor F ValorP Regressão 5 553656 110731 1057 0011 X1 1 42204 42204 403 0101 X2 1 9884 9884 094 0376 X12 1 19012 19012 181 0236 X22 1 2849 2849 027 0624 X1 X2 1 5290 5290 050 0509 Erro 5 52404 10481 Falta de ajuste 3 38358 12786 182 0374 Erro puro 2 14047 7023 Total 10 606060 Aqui não há multicolinearidade Equação de Regressão Coeficientes Sumário do Modelo Análise de variância Y 1628 558 X1p 755 X2p 274 X1p2 106 X2p2 115 X1pX2p Termo Coef EP de Coef ValorT ValorP VIF Constante 1628 166 981 0000 X1p 558 132 422 0008 100 X2p 755 132 571 0002 100 X1p2 274 203 135 0236 108 X2p2 106 203 052 0624 108 X1pX2p 115 162 071 0509 100 S R2 R2aj R2pred 323742 9135 8271 3137 Fonte GL SQ Aj QM Aj Valor F ValorP Regressão 5 553656 110731 1057 0011 X1p 1 187042 187042 1785 0008 X2p 1 342015 342015 3263 0002 X1p2 1 19012 19012 181 0236 X2p2 1 2849 2849 027 0624 X1pX2p 1 5290 5290 050 0509 Erro 5 52404 10481 Falta de ajuste 3 38358 12786 182 0374 Erro puro 2 14047 7023 Total 10 606060 Segundo Kutner et al 2004 o motivo de se usar variáveis centradas em uma regressão polinomial é que X e X2 sempre serão altamente correlacionadas o que causa problemas sérios ao se inverter a matriz XX para poder se estimar os coeficientes da regressão Centrar as variáveis frequentemente reduz muito a multicolinearidade Exemplo da potência elétrica consumida X1 X1 2 X2 X2 2 X3 X3 2 X4 X4 2 25 625 24 576 91 8281 100 10000 31 961 21 441 90 8100 95 9025 45 2025 24 576 88 7744 110 12100 60 3600 25 625 87 7569 88 7744 65 4225 25 625 91 8281 94 8836 72 5184 26 676 94 8836 99 9801 80 6400 25 625 87 7569 97 9409 84 7056 25 625 86 7396 96 9216 75 5625 24 576 88 7744 110 12100 60 3600 25 625 91 8281 105 11025 50 2500 25 625 90 8100 100 10000 38 1444 23 529 89 7921 98 9604 corr 09889 corr 09994 corr 09999 corr 09993 X1 c X1 c 2 X2 c X2 c 2 X3 c X3 c 2 X4 c X4 c 2 320833 10293403 03333 01111 16667 27778 06667 04444 260833 6803403 33333 111111 06667 04444 43333 187778 120833 1460069 03333 01111 13333 17778 106667 1137778 29167 85069 06667 04444 23333 54444 113333 1284444 79167 626736 06667 04444 16667 27778 53333 284444 149167 2225069 16667 27778 46667 217778 03333 01111 229167 5251736 06667 04444 23333 54444 23333 54444 269167 7245069 06667 04444 33333 111111 33333 111111 179167 3210069 03333 01111 13333 17778 106667 1137778 29167 85069 06667 04444 16667 27778 56667 321111 70833 501736 06667 04444 06667 04444 06667 04444 190833 3641736 13333 17778 03333 01111 13333 17778 corr 02644 corr 07426 corr 03172 corr 02457 22 A centralização melhorou mas não resolveu totalmente a multicolinearidade Exemplo do livro de Montgomery e Runger 2 ed p 251 4 ed p 290 5 ed p 321 6 ed p 400 Os painéis laterais para o interior de um avião são formados em uma prensa de 1500 toneladas O custo da unidade de fabricação varia com o tamanho do lote de produção Os dados mostrados a seguir fornecem o custo médio por unidade em centenas de dólares para esse produto y e o tamanho do lote de produção x O diagrama de dispersão indica que um polinômio de segundo grau pode ser apropriado 90 80 70 60 50 40 30 20 18 17 16 15 14 13 12 11 x y Gráfico de Dispersão de y versus x y x 181 20 170 25 165 30 155 35 148 40 140 50 130 60 126 65 124 70 121 75 120 80 118 90 23 Se for realizada uma regressão linear simples só com a variável explicativa X O gráfico de resíduos indica a necessidade de um termo quadrático y 21983 00225 x 0000125 x2 Observ Os autores não trabalharam com variáveis centradas Sem centralizar a correlação entre X e X² é igual a 09859 Usando variáveis centradas a correlação passa a ser igual a 00357 2 1 0 8100 90 1 900 30 1 625 25 1 400 20 1 18 1 1 65 70 1 81 1 X y i Análise de Regressão y versus x1 x2 25 Ao n s de 5 o termo quadrático contribui para o modelo Estatística de regressão R múltiplo 09987 RQuadrado 09975 Rquadrado ajustado 09969 Erro padrão 00122 Observações 12 ANOVA gl SQ QM F valorp Regressão 2 05252 02626 1767399 2096E12 Resíduo 9 00013 00001 Total 11 05265 Coeficientes Erro padrão Stat t valorP 95 inferiores 95 superiores Interseção 21983 00225 974849 0000 21473 22493 x 00225 00009 238980 0000 00247 00204 x2 00001 00000 144455 0000 00001 00001 ANOVA só X gl SQ QM F valorp Regressão 1 04942 04942 1528032 2209E07 Resíduo 10 00323 00032 Total 11 05265 1 9 5 11 1 0 1 0 11 1 11 1 1 0 11 5117 2086737 00015 0 0 4942 5252 0 1 2 F x x QME SQR SQR x x QME SQR Fx Variáveis indicativas Uso de variáveis qualitativas Exemplo de duas possíveis respostas x 0 se a observação for do operador 1 x 1 se a observação for do operador 2 Exemplo de três possíveis respostas x1 1 e x2 0 se a observação for do operador 1 x1 0 e x2 1 se a observação for do operador 2 x1 0 e x2 0 se a observação for do operador 3 Variáveis indicativas Uso de variáveis qualitativas Variável explicativa Nº de pessoas que passam no entorno do supermercado X1 X2 0 0 Poucas 1 0 Moderado 0 1 Muitas Y β0 β1x1 β2x2 ԑ 26 Variáveis indicativas Uso de variáveis qualitativas Variável explicativa Escolaridade X1 X2 X3 0 0 0 Fundamental compl ou incompl 1 0 0 Ensino médio compl ou incompl 0 1 0 Superior compl ou incompl 0 0 1 Pós graduação compl ou incompl Y β0 β1x1 β2x2 β3x3 ԑ Exemplo do livro de Montgomery e Runger 2 ed p 253 4 ed p 291 5 ed p 323 6 ed p 401 Um engenheiro mecânico está investigando o acabamento na superfície de partes metálicas produzidas em um torno mecânico e sua relação com a velocidade em RPM do torno Os dados são mostrados na Tabela Note que os dados foram coletados usando dois tipos diferentes de ferramentas de corte Uma vez que o tipo da ferramenta de corte provavelmente afeta o acabamento da superfície ajustaremos o modelo Y β0 β1x1 β2x2 ԑ sendo Y o acabamento x1 a velocidade do torno em RPM e x2 uma variável indicativa denotando o tipo da ferramenta de corte usada isto x2 é 0 para a ferramenta 1 e 1 para a ferramenta 2 Acabamento RPM Ferramenta 4544 225 0 4203 200 0 5010 250 0 4875 245 0 4792 235 0 4779 237 0 5226 265 0 5052 259 0 4558 221 0 4478 218 0 3350 224 1 3123 212 1 3752 248 1 3713 260 1 3470 243 1 3392 238 1 3213 224 1 3547 251 1 3349 232 1 3229 216 1 1 216 1 0 250 1 0 200 1 0 225 1 29 32 10 50 03 42 44 45 X y i Estatística de regressão R múltiplo 09962 RQuadrado 09924 Rquadrado ajustado 09915 Erro padrão 06771 Observações 20 ANOVA gl SQ QM F valorp Regressão 2 10120595 5060297 1103695 1017E18 Resíduo 17 77943 04585 Total 19 10198538 CoeficientesErro padrão Stat t valorP 95 inferiores 95 superiores Interseção 142762 20912 68268 0000 98641 186883 RPM 01411 00088 159794 0000 01225 01598 Feramenta 132802 03029 438465 0000 139192 126412 27 Regressão não linear Em modelos nos quais a função preditiva é não linear utilizamse procedimentos iterativos para efetuar a estimação do modelo O uso de programas estatísticos são recomendáveis Exemplo Regressão Logística A regressão logística é um tipo especial de regressão na qual a variável resposta pode assumir somente dois possíveis resultados A forma mais comum de ocorrência desta situação é quando se deseja estimar se um elemento pertence ou não a determinado grupo em função de algumas de suas características A transformação importante para o estudo de regressão logística é denominada de transformação logito na qual é definida como A resposta da regressão logística é um número entre 0 e 1 1 1 0 1 1 0 1 1 x x i i e e x P Y x 1 1 0 1 ln x x x x g i i i Exemplo PIRAGIBE CYMROT 2010 p51 Objetivo Estimar se um consumidor irá optar na hora da compra por um eletrodoméstico que consuma menos energia Formulários com 15 questões respondidos por 150 indivíduos 120 para o modelo e 30 para o teste do modelo Variáveis escolhidas Manutenção da maioria das mudanças de hábitos no consumo de energia ocorridas em sua casa durante o racionamento e idade 28 Resultados encontrados Y 155952 0860941 XMUDANÇA 00356552 Idade com XMUDANÇA valendo um quando as mudanças realizadas durante o período de racionamento ainda continuarem e zero caso contrário Se πy 05 o consumidor será classificado como tendo propensão à optar na hora da compra por um eletrodoméstico que consuma menos energia Preditor Coeficientes Erro padrão dos coeficientes Z P Razão de Chances Intervalo de Confiança Constante 155952 0513333 304 0002 Mudanças continuam 0860941 0394243 218 0029 237 109 a 512 Idade 00356552 00152920 233 0020 104 101 a 107 Referências KUTNER M H WILLIAM L NACHTSHEIM C J NETER J Applied Linear Regression Models 4 ed Boston McGrawHill Irwin 2004 MONTGOMERY DC PECK E A VINING G G Introduction to linear regression analysis 3 ed New York John Wiley 2001 MONTGOMERY D C RUNGER G C Estatística aplicada e probabilidade para engenheiros 6 ed Rio de Janeiro LTC 2016 PIRAGIBE F L S CYMROT R Aplicação de regressão logística e estratégia de marketing em Engenharia de Produção Trabalho de Graduação Interdisciplinar Graduação em Engenharia de ProduçãoEscola de Engenharia da Universidade Presbiteriana Mackenzie São Paulo 2010