18
Estatística 2
CEFET/MG
16
Estatística 2
CEFET/MG
22
Estatística 2
CEFET/MG
47
Estatística 2
CEFET/MG
5
Estatística 2
CEFET/MG
31
Estatística 2
CEFET/MG
59
Estatística 2
CEFET/MG
17
Estatística 2
CEFET/MG
1
Estatística 2
CEFET/MG
14
Estatística 2
CEFET/MG
Texto de pré-visualização
Centro Federal de Educacao Tecnologica de Minas Gerais Departamento de Computacao Disciplina Estatıstica II Prof Guilherme Lopes de Oliveira Trabalho Pratico Final Valor 250 pontos ASSUNTO Analise de correlacao linear analise de regressao linear simples e multipla estimativa e inter pretacao dos coeficientes de regressao significˆancia dos coeficientes e predicao GRUPOS Individual DADOS Sera disponibilizado pelo professor um conjunto de dados Y X1 Xq para cada alunoa mediante sorteio previo Como o objetivo e aplicacao de regressao linear multipla os dados terao um conjunto de no mınimo duas variaveis explicativas isto e q 2 ENTREGA O relatorio contendo as analises PDF deve ser enviado atraves do email guilhermeoliveiracefetmgbr ate o dia 13082024 impreterivelmente ROTEIRO Para o banco de dados indicado pelo professor prossiga com as analises de acordo com os itens abaixo sempre deixando claras e completas as suas respostas 1 Descreva as variaveis e o problema relacionado ao seu conjunto de dados Identifique qual e a variavel resposta e quais sao as variaveis explicativas de interesse 2 Investigue a correlacao linear entre a variavel resposta e cada uma das variaveis explicativas Comente sobre a direcao e magnitude da correlacao Para tal faca uso do grafico de dispersao e calcule e interprete o coeficiente de correlacao amostral de Pearson R 3 Ajuste um modelo de regressao linear com todas as variaveis do seu conjunto de dados Lembrese que caso possua alguma variavel explicativa categorica vocˆe deve criar as variaveis indicadorasdummies pertinentes e incluilas no modelo Apresente a tabela de Analise de Variˆancia ANOVA do modelo e faca o teste de hipoteses associado a estatıstica F presente nesta tabela escreva as hipoteses nula e alternativa apresente o valor da estatıstica do teste e conclua o teste com base no valorp associado Use o nıvel de 5 de significˆancia em sua analise 4 Indique se o modelo ajustado no item 3 contem coeficientes que nao sao estatisticamente significantes para cada um dos coeficientes escreva as hipoteses nula e alternativa do teste t associado apresente o valor da estatıstica do teste apropriado e conclua o teste com base no valorp Use o nıvel de 5 de significˆancia em sua analise Se sua resposta foi positiva retire do modelo aquela variavel explicativa que tem o maior pvalor e a menos significativa e refaca o ajuste Repita o procedimento ate obter um modelo em que todas as variaveis preditoras sejam estatisticamente significativas 1 5 Para o modelo final obtido interprete cada um dos parˆametros do modelo 6 Qual e a porcentagem da variabilidade da variavel resposta que e explicada pelas variavelis ex plicativas no seu modelo final 7 Qual a estimativa da variˆancia σ2 do termo de erro do modelo 8 Escolha um conjunto de valores para as variavelis explicativas presentes no seu modelo final e faca uma previsao aplicando estes valores no modelo ajustado 9 Descreva as suposicoes feitas sobre o termo de erro do modelo de regressao linear Nao precisa fazer a verificacao destas suposicoes atraves da analise de resıduos Basta enunciar quais sao estas suposicoes No entanto vale lembrar que na pratica o ideal e fazer a analise de resıduos para validar o modelo antes de usalo para predicao eou extrapolacao para a populacao 2 Questão 1 A variável resposta é o valor do aluguel do imóvel denotado por ValorAluguel As variáveis explicativas são a área do imóvel denotado por Area o número de vagas na garagem denotado por VagasGaragem o valor das taxas denotado por ValorTaxas o seguro incêndio denotado por SeguroIncendio se o imóvel aceita animais denotado por Animal se o imóvel é mobiliado denotado por Mobilia Estas duas últimas variáveis são variáveis dummies ou seja elas apresentam apenas os valores 0 ou 1 No caso da variável Animal 0 indica que o imóvel aceita animais e 1 indica que não aceita Já no caso da variável Mobilia 0 indica que o imóvel é mobiliado e 1 indica que não é Questão 2 A tabela abaixo apresenta o coeficiente de correlação de Pearson R da variável de valor do aluguel com outras quatro variáveis possíveis de se calcular tal coeficiente Pela tabela percebese que há uma correlação positiva do valor do aluguel com todas as variáveis Ou seja o valor do aluguel apresenta correlação positiva com o valor das taxas o seguro incêndio o número de vagas na garagem e a área do imóvel Tabela 21 Coeficiente de correlação de Pearson R do valor do aluguel com outras quatro variáveis Valor das taxas 022 Seguro de incêndio 025 Vagas na garagem 015 Área 005 Essas correlações podem ser analisadas também a partir de gráficos de dispersão Gráficos de dispersão entre a variável Valor do aluguel e a outras quatro variáveis estão colocados abaixo Gráfico 21 Correlação entre valor do aluguel e valor das taxas Gráfico 22 Correlação entre valor do aluguel e seguro incêndio 0 200000 400000 600000 800000 1000000 1200000 0 50000 100000 150000 200000 250000 300000 350000 Valos do aluguel Valor das taxas 0 200000 400000 600000 800000 1000000 1200000 0 100 200 300 400 500 600 700 800 Valor do aluguel Seguro incêndio Gráfico 23 Correlação entre valor do aluguel e número de vagas na garagem Gráfico 23 Correlação entre valor do aluguel e área Questão 3 Os resultados da regressão estão colocados na tabela 31 Como explicado na questão 1 a variável resposta é o valor do aluguel do imóvel As estatísticas da regressão estão na tabela 32 Por sua vez a ANOVA está apresentada na tabela 33 0 200000 400000 600000 800000 1000000 1200000 0 2 4 6 8 10 12 14 Valor do aluguel Nº de vagas na garagem 0 200000 400000 600000 800000 1000000 1200000 0 5000 10000 15000 20000 25000 30000 35000 40000 45000 50000 Valos do aluguel Área Tabela 31 Regressão Coeficientes Erro padrão Valor t Valor p Interseção 1433865 11513307 0125 0901 Area 0064 0309 0207 0836 VagasGaragem 135292 129940 1041 0298 Animal 1031060 396155 2603 0009 Mobilia 791808 11514166 0069 0945 ValorTaxas 1027 0051 20124 0000 SeguroIncendio 84001 4259 19724 0000 Tabela 32 Estatísticas da regressão R múltiplo 0315 Rquadrado 0099 Rquadrado ajustado 0099 Erro padrão 16279891 Observações 9839 Tabela 33 ANOVA gl SQ MQ F F de significância Regressão 6 287483E11 4791E10 180783 44572E219 Resíduo 9832 260582E12 265034850 Total 9838 289331E12 O teste F serve para descobrir se todas as variáveis explicativas são simultaneamente iguais a zero ou não A hipótese nula é de que todas são simultaneamente iguais a zero ao passo que a hipótese alternativa é de que existe ao menos uma variável explicativa diferente de zero A tabela 33 indica que o valor F do teste F é de 18078 Dado que o F de significância a 5 de nível de significância é muito menor do que tal valor então se rejeita a hipótese nula de que todas as variáveis são iguais a zero Questão 4 As hipóteses do teste t para cada uma das variáveis são as seguintes Hipótese nula o coeficiente da variável é estatisticamente igual a zero Hipótese alternativa o coeficiente da variável é estatisticamente diferente de zero Os valores t do teste t de cada uma das variáveis estão apresentados na 4ª coluna da tabela 31 Com base no valor no valor p dos coeficientes apresentados na última coluna da mesma tabela e considerando um nível de significância de 5 concluise que as variáveis Area VagasGaragem e Mobilia não são estatisticamente significantes A tabela abaixo apresenta os resultados de uma nova regressão desconsiderando a variável Area que apresentou o maior valor p entre as variáveis da 1ª regressão As variáveis VagasGaragem e Mobilia continuam sendo estatisticamente insignificantes ao nível de significância de 5 Portanto uma nova regressão deve ser realizada Tabela 41 2ª regressão Coeficientes Erro padrão Valor t Valor p Interseção 1440703 11512699 0125 0900 VagasGaragem 132480 129222 1025 0305 Animal 1029890 396095 2600 0009 Mobilia 797646 11513571 0069 0945 ValorTaxas 1027 0051 20131 0000 SeguroIncendio 84078 4242 19820 0000 A tabela abaixo apresenta os resultados de uma nova regressão desconsiderando a variável Mobilia que apresentou o maior valor p entre as variáveis da 2ª regressão A variável VagasGaragem continua sendo estatisticamente insignificante ao nível de significância de 5 Portanto uma nova regressão deve ser realizada Tabela 42 3ª regressão Coeficientes Erro padrão Valor t Valor p Interseção 643354 280700 2292 0022 VagasGaragem 132595 129205 1026 0305 Animal 1029643 396059 2600 0009 ValorTaxas 1027 0051 20132 0000 SeguroIncendio 84080 4242 19822 0000 A tabela abaixo apresenta os resultados de uma nova regressão desconsiderando a variável VagasGaragem que apresentou o maior valor p entre as variáveis da 3ª regressão Agora todas as três variáveis restantes mais a interseção são estatisticamente significantes Tabela 43 4ª regressão Coeficientes Erro padrão Valor t Valor p Interseção 563479 269694 2089 0037 Animal 1068526 394243 2710 0007 ValorTaxas 1024 0051 20106 0000 SeguroIncendio 81506 3421 23827 0000 Questão 5 O coeficiente associado à variável Animal é de 106853 o que indica que se o imóvel não aceita animais então o valor do imóvel aumenta em média em R 106853 O coeficiente associado à variável ValorTaxas é de 102 o que indica que se o valor das taxas aumenta em R 100 então o valor do imóvel aumenta em média em R 102 O coeficiente associado à variável SeguroIncendio é de 8151 o que indica que se o valor do seguro incêndio aumenta em R 100 então o valor do imóvel aumenta em média em R 8151 Questão 6 As estatísticas da 4ª regressão estão colocadas na tabela abaixo Tabela 61 Estatísticas da 4ª regressão R múltiplo 0315 Rquadrado 0099 Rquadrado ajustado 0099 Erro padrão 16278319 Observações 9839 O valor do R² é de 0099 o que indica que 99 da variabilidade da variável resposta é explicada pelas variáveis explicativas Questão 7 A variância do termo de erro é de 26498366474 Ela pode ser calculada elevando ao quadrado o erro padrão colocado na tabela 61 Questão 8 O modelo final é dado por onde é a observação Aplicando essa fórmula em 5 observações com os valores das variáveis explicativas sendo gerados aleatoriamente temse os seguintes valores de aluguel última coluna Tabela 81 Valores obtidos de ValorAluguel a partir da substituição no modelo de valores aleatórias para as variáveis explicativas Observação Animal ValorTaxas SeguroIncendio ValorAluguel 1 0 703 24 323950 2 0 580 14 229848 3 1 588 78 859159 4 1 73 97 961284 5 0 104 44 425624 Questão 9 1 Homoscedasticidade os termos de erro deve ter variância constante independentemente dos valores das variáveis explicativas Ou seja 2 Ausência de autocorrelação os termos de erro são independentes entre si Ou seja 3 Normalidade dos erros os termos de erro devem seguir uma distribuição normal Ou seja
18
Estatística 2
CEFET/MG
16
Estatística 2
CEFET/MG
22
Estatística 2
CEFET/MG
47
Estatística 2
CEFET/MG
5
Estatística 2
CEFET/MG
31
Estatística 2
CEFET/MG
59
Estatística 2
CEFET/MG
17
Estatística 2
CEFET/MG
1
Estatística 2
CEFET/MG
14
Estatística 2
CEFET/MG
Texto de pré-visualização
Centro Federal de Educacao Tecnologica de Minas Gerais Departamento de Computacao Disciplina Estatıstica II Prof Guilherme Lopes de Oliveira Trabalho Pratico Final Valor 250 pontos ASSUNTO Analise de correlacao linear analise de regressao linear simples e multipla estimativa e inter pretacao dos coeficientes de regressao significˆancia dos coeficientes e predicao GRUPOS Individual DADOS Sera disponibilizado pelo professor um conjunto de dados Y X1 Xq para cada alunoa mediante sorteio previo Como o objetivo e aplicacao de regressao linear multipla os dados terao um conjunto de no mınimo duas variaveis explicativas isto e q 2 ENTREGA O relatorio contendo as analises PDF deve ser enviado atraves do email guilhermeoliveiracefetmgbr ate o dia 13082024 impreterivelmente ROTEIRO Para o banco de dados indicado pelo professor prossiga com as analises de acordo com os itens abaixo sempre deixando claras e completas as suas respostas 1 Descreva as variaveis e o problema relacionado ao seu conjunto de dados Identifique qual e a variavel resposta e quais sao as variaveis explicativas de interesse 2 Investigue a correlacao linear entre a variavel resposta e cada uma das variaveis explicativas Comente sobre a direcao e magnitude da correlacao Para tal faca uso do grafico de dispersao e calcule e interprete o coeficiente de correlacao amostral de Pearson R 3 Ajuste um modelo de regressao linear com todas as variaveis do seu conjunto de dados Lembrese que caso possua alguma variavel explicativa categorica vocˆe deve criar as variaveis indicadorasdummies pertinentes e incluilas no modelo Apresente a tabela de Analise de Variˆancia ANOVA do modelo e faca o teste de hipoteses associado a estatıstica F presente nesta tabela escreva as hipoteses nula e alternativa apresente o valor da estatıstica do teste e conclua o teste com base no valorp associado Use o nıvel de 5 de significˆancia em sua analise 4 Indique se o modelo ajustado no item 3 contem coeficientes que nao sao estatisticamente significantes para cada um dos coeficientes escreva as hipoteses nula e alternativa do teste t associado apresente o valor da estatıstica do teste apropriado e conclua o teste com base no valorp Use o nıvel de 5 de significˆancia em sua analise Se sua resposta foi positiva retire do modelo aquela variavel explicativa que tem o maior pvalor e a menos significativa e refaca o ajuste Repita o procedimento ate obter um modelo em que todas as variaveis preditoras sejam estatisticamente significativas 1 5 Para o modelo final obtido interprete cada um dos parˆametros do modelo 6 Qual e a porcentagem da variabilidade da variavel resposta que e explicada pelas variavelis ex plicativas no seu modelo final 7 Qual a estimativa da variˆancia σ2 do termo de erro do modelo 8 Escolha um conjunto de valores para as variavelis explicativas presentes no seu modelo final e faca uma previsao aplicando estes valores no modelo ajustado 9 Descreva as suposicoes feitas sobre o termo de erro do modelo de regressao linear Nao precisa fazer a verificacao destas suposicoes atraves da analise de resıduos Basta enunciar quais sao estas suposicoes No entanto vale lembrar que na pratica o ideal e fazer a analise de resıduos para validar o modelo antes de usalo para predicao eou extrapolacao para a populacao 2 Questão 1 A variável resposta é o valor do aluguel do imóvel denotado por ValorAluguel As variáveis explicativas são a área do imóvel denotado por Area o número de vagas na garagem denotado por VagasGaragem o valor das taxas denotado por ValorTaxas o seguro incêndio denotado por SeguroIncendio se o imóvel aceita animais denotado por Animal se o imóvel é mobiliado denotado por Mobilia Estas duas últimas variáveis são variáveis dummies ou seja elas apresentam apenas os valores 0 ou 1 No caso da variável Animal 0 indica que o imóvel aceita animais e 1 indica que não aceita Já no caso da variável Mobilia 0 indica que o imóvel é mobiliado e 1 indica que não é Questão 2 A tabela abaixo apresenta o coeficiente de correlação de Pearson R da variável de valor do aluguel com outras quatro variáveis possíveis de se calcular tal coeficiente Pela tabela percebese que há uma correlação positiva do valor do aluguel com todas as variáveis Ou seja o valor do aluguel apresenta correlação positiva com o valor das taxas o seguro incêndio o número de vagas na garagem e a área do imóvel Tabela 21 Coeficiente de correlação de Pearson R do valor do aluguel com outras quatro variáveis Valor das taxas 022 Seguro de incêndio 025 Vagas na garagem 015 Área 005 Essas correlações podem ser analisadas também a partir de gráficos de dispersão Gráficos de dispersão entre a variável Valor do aluguel e a outras quatro variáveis estão colocados abaixo Gráfico 21 Correlação entre valor do aluguel e valor das taxas Gráfico 22 Correlação entre valor do aluguel e seguro incêndio 0 200000 400000 600000 800000 1000000 1200000 0 50000 100000 150000 200000 250000 300000 350000 Valos do aluguel Valor das taxas 0 200000 400000 600000 800000 1000000 1200000 0 100 200 300 400 500 600 700 800 Valor do aluguel Seguro incêndio Gráfico 23 Correlação entre valor do aluguel e número de vagas na garagem Gráfico 23 Correlação entre valor do aluguel e área Questão 3 Os resultados da regressão estão colocados na tabela 31 Como explicado na questão 1 a variável resposta é o valor do aluguel do imóvel As estatísticas da regressão estão na tabela 32 Por sua vez a ANOVA está apresentada na tabela 33 0 200000 400000 600000 800000 1000000 1200000 0 2 4 6 8 10 12 14 Valor do aluguel Nº de vagas na garagem 0 200000 400000 600000 800000 1000000 1200000 0 5000 10000 15000 20000 25000 30000 35000 40000 45000 50000 Valos do aluguel Área Tabela 31 Regressão Coeficientes Erro padrão Valor t Valor p Interseção 1433865 11513307 0125 0901 Area 0064 0309 0207 0836 VagasGaragem 135292 129940 1041 0298 Animal 1031060 396155 2603 0009 Mobilia 791808 11514166 0069 0945 ValorTaxas 1027 0051 20124 0000 SeguroIncendio 84001 4259 19724 0000 Tabela 32 Estatísticas da regressão R múltiplo 0315 Rquadrado 0099 Rquadrado ajustado 0099 Erro padrão 16279891 Observações 9839 Tabela 33 ANOVA gl SQ MQ F F de significância Regressão 6 287483E11 4791E10 180783 44572E219 Resíduo 9832 260582E12 265034850 Total 9838 289331E12 O teste F serve para descobrir se todas as variáveis explicativas são simultaneamente iguais a zero ou não A hipótese nula é de que todas são simultaneamente iguais a zero ao passo que a hipótese alternativa é de que existe ao menos uma variável explicativa diferente de zero A tabela 33 indica que o valor F do teste F é de 18078 Dado que o F de significância a 5 de nível de significância é muito menor do que tal valor então se rejeita a hipótese nula de que todas as variáveis são iguais a zero Questão 4 As hipóteses do teste t para cada uma das variáveis são as seguintes Hipótese nula o coeficiente da variável é estatisticamente igual a zero Hipótese alternativa o coeficiente da variável é estatisticamente diferente de zero Os valores t do teste t de cada uma das variáveis estão apresentados na 4ª coluna da tabela 31 Com base no valor no valor p dos coeficientes apresentados na última coluna da mesma tabela e considerando um nível de significância de 5 concluise que as variáveis Area VagasGaragem e Mobilia não são estatisticamente significantes A tabela abaixo apresenta os resultados de uma nova regressão desconsiderando a variável Area que apresentou o maior valor p entre as variáveis da 1ª regressão As variáveis VagasGaragem e Mobilia continuam sendo estatisticamente insignificantes ao nível de significância de 5 Portanto uma nova regressão deve ser realizada Tabela 41 2ª regressão Coeficientes Erro padrão Valor t Valor p Interseção 1440703 11512699 0125 0900 VagasGaragem 132480 129222 1025 0305 Animal 1029890 396095 2600 0009 Mobilia 797646 11513571 0069 0945 ValorTaxas 1027 0051 20131 0000 SeguroIncendio 84078 4242 19820 0000 A tabela abaixo apresenta os resultados de uma nova regressão desconsiderando a variável Mobilia que apresentou o maior valor p entre as variáveis da 2ª regressão A variável VagasGaragem continua sendo estatisticamente insignificante ao nível de significância de 5 Portanto uma nova regressão deve ser realizada Tabela 42 3ª regressão Coeficientes Erro padrão Valor t Valor p Interseção 643354 280700 2292 0022 VagasGaragem 132595 129205 1026 0305 Animal 1029643 396059 2600 0009 ValorTaxas 1027 0051 20132 0000 SeguroIncendio 84080 4242 19822 0000 A tabela abaixo apresenta os resultados de uma nova regressão desconsiderando a variável VagasGaragem que apresentou o maior valor p entre as variáveis da 3ª regressão Agora todas as três variáveis restantes mais a interseção são estatisticamente significantes Tabela 43 4ª regressão Coeficientes Erro padrão Valor t Valor p Interseção 563479 269694 2089 0037 Animal 1068526 394243 2710 0007 ValorTaxas 1024 0051 20106 0000 SeguroIncendio 81506 3421 23827 0000 Questão 5 O coeficiente associado à variável Animal é de 106853 o que indica que se o imóvel não aceita animais então o valor do imóvel aumenta em média em R 106853 O coeficiente associado à variável ValorTaxas é de 102 o que indica que se o valor das taxas aumenta em R 100 então o valor do imóvel aumenta em média em R 102 O coeficiente associado à variável SeguroIncendio é de 8151 o que indica que se o valor do seguro incêndio aumenta em R 100 então o valor do imóvel aumenta em média em R 8151 Questão 6 As estatísticas da 4ª regressão estão colocadas na tabela abaixo Tabela 61 Estatísticas da 4ª regressão R múltiplo 0315 Rquadrado 0099 Rquadrado ajustado 0099 Erro padrão 16278319 Observações 9839 O valor do R² é de 0099 o que indica que 99 da variabilidade da variável resposta é explicada pelas variáveis explicativas Questão 7 A variância do termo de erro é de 26498366474 Ela pode ser calculada elevando ao quadrado o erro padrão colocado na tabela 61 Questão 8 O modelo final é dado por onde é a observação Aplicando essa fórmula em 5 observações com os valores das variáveis explicativas sendo gerados aleatoriamente temse os seguintes valores de aluguel última coluna Tabela 81 Valores obtidos de ValorAluguel a partir da substituição no modelo de valores aleatórias para as variáveis explicativas Observação Animal ValorTaxas SeguroIncendio ValorAluguel 1 0 703 24 323950 2 0 580 14 229848 3 1 588 78 859159 4 1 73 97 961284 5 0 104 44 425624 Questão 9 1 Homoscedasticidade os termos de erro deve ter variância constante independentemente dos valores das variáveis explicativas Ou seja 2 Ausência de autocorrelação os termos de erro são independentes entre si Ou seja 3 Normalidade dos erros os termos de erro devem seguir uma distribuição normal Ou seja