18
Estatística 2
CEFET/MG
16
Estatística 2
CEFET/MG
47
Estatística 2
CEFET/MG
9
Estatística 2
CEFET/MG
22
Estatística 2
CEFET/MG
14
Estatística 2
CEFET/MG
1
Estatística 2
CEFET/MG
1
Estatística 2
CEFET/MG
17
Estatística 2
CEFET/MG
59
Estatística 2
CEFET/MG
Texto de pré-visualização
Regressão Linear Múltipla Definição Estimação e Inferência Professor Guilherme Lopes de Oliveira guilhermeoliveiracefetmgbr Departamento de Computação Centro Federal de Educação Tecnológica de Minas Gerais CEFETMG Por que incorporar mais variáveis no modelo 1 Uma única variável não consegue explicar bem a variabili dade da resposta a qual está associada com diversas co variáveis 2 Existem diversas variáveis explicativas de interesse no es tudo 3 A variável explicativa de interesse tem seu efeito confun dido pela existência de covariáveis relacionadas à ela e com à variável resposta Modelo de Regressão Linear Múltiplo É um modelo de regressão linear com uma variável resposta Y e q variáveis explicativas X1 X2 Xq tal que para uma amostra de n indivíduos podemos escrever Yi β0 β1X1i β2X2i βqXqi ϵi onde i 1 n e ϵi é o termo de erro aleatório Suposições do Modelo 1 A relação entre Y e as variáveis explicativas X1 X2 Xq é linear 2 Os erros ϵ1 ϵ2 ϵn tem média zero e variância comum igual a σ2 desconhecido Implica que a média de Yi é EYi β0 β1x1i βjxji βqxqi e VarYi σ2 3 Os erros ϵ1 ϵ2 ϵn são independentes Implica que Y1 Y2 Yn são independentes 4 Os erros ϵ1 ϵ2 ϵn tem distribuição Normal Implica que Y1 Y2 Yn tem distribuição Normal com mé dia e variância dadas no item 2 Interpretação dos Coeficientes Para j 1 q o parâmetro βj representa a variação aumento se βj 0 ou redução se βj 0 na média de Y EY a cada aumento de uma unidade em Xj mantendose constante os valores de todas as outras covariáveis Note que Para Xj xj temse que EY β0 β1x1 βjxj βqxq Para Xj xj 1 temse que EY β0 β1x1 βjxj 1 βqxq Assim βj representa a diferença na média de Y ao se passar de um valor Xj xj para Xj xj 1 Estimulação dos Parâmetros β₀ β₁ βq O método de minimização da função SQE é feito da forma usual tendo como base as derivadas parciais SQE β₀ β₀β₁βq 2 n i1 yi β₀ q j1 βjxji 0 SQE βj β₀β₁βq 2 n i1 yi β₀ q j1 βjxjixji 0 onde j 1 q e β₀ β₁ βq são os estimadores de mínimos quadrados de β₀ β₁ βq respectivamente As fórmulas para os estimadores β₀ β₁ βq são obtidas ao se resolver o sistema com as q 1 Equações Normais acima Abordagem Matricial Modelo Múltiplo Y Xβ ε Y y₁ x₁₁ x₂₁ xq₁ β₀ ε₁ y₂ x₁₂ x₂₂ xq₂ β₁ ε₂ yn x₁nx₂n xq n βq εn Abordagem Matricial Equações Normais de MQ Estimulação dos Parâmetros β₀ β₁ βq O modelo é Yi β₀ β₁X₁i β₂X₂i βqXqi εi Com base na amostra os coeficientes do modelo de regressão múltipla são estimados usando o mesmo raciocínio que os coeficientes do modelo de regressão linear simples Ou seja são encontrados os valores de β₀ β₁ βq que minimizem a soma de quadrados dos erros SQE n i1 ε²i n i1 yi β₀ β₁X₁i β₂X₂i βqXqi² Abordagem Matricial Estimadores de MQ O Modelo Ajustado e seu Uso para Previsões A reta estimada ajustada a qual pode ser usada para se fazer previsões para a média da va Y é então denotada por ˆyi ˆβ0 ˆβ1x1i ˆβ2x2i ˆβqxqi i 1 n Neste caso para fazermos a previsão para a média de Y é necessário fornecer um vetor com os valores das q covariáveis no modelo ou seja x1 xq e substituir estes valores nesta equação Exemplo Prof Ilka Reis UFMG Lucro anual de empresas em função de capital e gastos com publicidade Yi β0 β1X1i β2X2i εi Exemplo Prof Ilka Reis UFMG β0 340 β1 012 β2 261 Modelo estimado ŷi 340 012X1i 261X2i Para empresas com mesmo valor de gastos com publicidade um aumento de um milhão de unidades monetárias no capital provoca uma diminuição média de 012 milhões de unidades monetárias no lucro anual Para empresas com o mesmo capital um aumento de um milhão de unidades monetárias nos gastos com publicidade provoca um aumento médio de 261 milhões de unidades monetárias no lucro anual As Fontes de Variabilidade de Y Na análise de Regressão Múltipla a ideia de decompor a variabilidade total da variável resposta Y em duas fontes de variação permanece a mesma só que agora X X1 X2 Xn A Tabela da Análise de Variância ANOVA onde SQR SQReg SQE SQRes e SQT SQTotal como defini dos no modelo simples Sob a validade das suposições do modelo a estatística de teste F0 segue uma distribuição F de FisherSnedecor com q e n q 1 graus de liberdade e é utilizada para testar a significância geral do modelo como veremos na sequência Coeficiente de Determinação Ajustado O valor de R² SQRegSQTotal é frequentemente usado como medida da qualidade do modelo linear em termos do potencial de explicação da variabilidade da variável resposta Porém uso do R² para comparar modelos com número diferente de covariáveis pode ser enganador pois o valor de R² sempre aumenta quando um termo é acrescentado ao modelo Para contornar este problema usaremos o R² ajustado R²ajd 1 SQResn q 1SQTotaln 1 o qual pode ser interpretado da mesma forma que fizemos com o coeficiente de determinação R² Estimação do Parâmetro σ² Assim como na regressão linear simples além dos coeficientes do modelo linear β₀ β₁ βᵩ a variância do termo de erro também é um parâmetro desconhecido denotado por σ² Os resíduos eᵢ yᵢ ŷᵢ são usados no cálculo da estimativa de σ² a qual é dada por ˆσ² ⁿᵢ1 yᵢ ŷ² n q 1 SQE n q 1 QME A estimativa ˆσ² é necessária no processo de inferência para os parâmetros do modelo e na inferência para as previsões Teste F de Significância da Regressão Para que o modelo de regressão linear seja significativo é necessário que o coeficiente de pelo menos uma das variáveis explicativas seja significativo ou seja diferente de zero Neste contexto a estatística F₀ constante na tabela ANOVA fornece um procedimento testar as hipóteses H₀ β₁ 0 e β₂ 0 e βᵩ 0 H₁ βⱼ 0 para pelo menos um j 1 q Estatística de teste F₀ QMR QME Fᵩnq1 sob H₀ Assim para um nível de significância α escolhido rejeitase H₀ se valor p α sendo o valor p PFᵩnq1 F₀ Se H₀ é rejeitada então pelo menos um dos termos βⱼXⱼ é significante j 1 q Para saber quais são individualmente significativos devemos fazer os testes t individuais como definido a seguir Testes t Individuais para cada βⱼ Para j 0 1 q podemos testar a significância do coeficiente βⱼ na população na presença dos demais coeficientes Considere as hipóteses H₀ βⱼ 0 H₁ βⱼ 0 Estatística de teste Tₒᵇₛⱼ ˆβⱼ epˆβⱼ Sob H₀ e sob a validade das suposições feitas para o termo de erro a distribuição amostral da estatística Tₒᵇₛⱼ é uma distribuição tStudent com n q 1 graus de liberdade Assim para um nível de significância α escolhido rejeitase H₀ se valor p α sendo o valor p 2Ptₙq1 Tₒᵇₛⱼ The regression equation is Lucro 340 261 publicidade 0118 capital The regression equation is Lucro 102 262 publicidade Predição do percentual de gordura corporal em função de quantidades antropométricas siri Percentagem da gordura corporal usando equação de Siri pescoço 0491 torax 0703 abdom 0813 quadril 0625 coxa 0560 joelho 0509 tornozelo 0266 biceps 0493 antebraco 0361 punho 0347 Intercept 345627 67807 0515 060686 abdom 101484 007802 13007 2e16 torax 014183 09221 1538 012533 quadril 041185 012341 3337 000098 coxa 008586 03596 0631 052834 joelho 003984 02320 0172 086396 tornozelo 003104 02226 0140 088905 biceps 006511 01720 0378 070602 antebraco 028900 020166 1433 015311 punho 205457 07335 4340 209e05 Exercício Prof Ilka Reis UFMG Com base nos resultados anteriores responda ao que se pede nos seguinte itens 1 Identifique a variável resposta de interesse nesse problema 2 Faça uma análise das correlações entre as variáveis explicativas e a variável resposta de interesse com base na matriz de corre lações fornecidas no slide anterior 3 Escreva a equação do modelo ajustado 4 Faça o teste de hipóteses associado à estatística de teste forne cida escreva as hipóteses nula e alternativa apresente o valor da estatística do teste e conclua o teste com base no valorp associado Intercept 1409179 521280 2703 000734 abdom 100456 007825 12838 2e16 torax 020033 008704 2302 002219 quadril 039575 008467 4674 485e06 Fstatistic 1922 on 3 and 240 DF pvalue 22e16 Multiple Rsquared 06993 Adjusted Rsquared 06956 5 Indique se o modelo ajustado contém coeficientes que não são estatisticamente significantes escreva as hipóteses nula e al ternativa apresente o valor da estatística do teste apropriado e conclua o teste com base no valorp 6 Você indicaria este modelo para prever o percentual de gordura corporal índice de Siri Justifique Um novo ajuste para este dados foi feito e o resultado é mostrado a seguir Exercício Prof Ilka Reis UFMG Com base nos novos resultados responda ao que se pede nos seguinte itens i Escreva a equação do novo modelo ajustado ii Faça o teste de hipóteses associado à estatística de teste F fornecida escreva as hipóteses nula e alternativa apresente o valor da estatística do teste e conclua o teste com base no valor p associado iii Indique se o modelo ajustado contém coeficientes que não são estatisticamente significantes escreva as hipóteses nula e al ternativa apresente o valor da estatística do teste apropriado e conclua o teste com base no valorp iv Identifique e interprete o coeficiente de determinação ajustado v Use o modelo para prever o percentual médio de gordura cor poral índice de Siri para um indivíduo com circunferência de abdomen igual a 100 cm de tórax igual a 115 cm e de quadril igual a 90 cm
18
Estatística 2
CEFET/MG
16
Estatística 2
CEFET/MG
47
Estatística 2
CEFET/MG
9
Estatística 2
CEFET/MG
22
Estatística 2
CEFET/MG
14
Estatística 2
CEFET/MG
1
Estatística 2
CEFET/MG
1
Estatística 2
CEFET/MG
17
Estatística 2
CEFET/MG
59
Estatística 2
CEFET/MG
Texto de pré-visualização
Regressão Linear Múltipla Definição Estimação e Inferência Professor Guilherme Lopes de Oliveira guilhermeoliveiracefetmgbr Departamento de Computação Centro Federal de Educação Tecnológica de Minas Gerais CEFETMG Por que incorporar mais variáveis no modelo 1 Uma única variável não consegue explicar bem a variabili dade da resposta a qual está associada com diversas co variáveis 2 Existem diversas variáveis explicativas de interesse no es tudo 3 A variável explicativa de interesse tem seu efeito confun dido pela existência de covariáveis relacionadas à ela e com à variável resposta Modelo de Regressão Linear Múltiplo É um modelo de regressão linear com uma variável resposta Y e q variáveis explicativas X1 X2 Xq tal que para uma amostra de n indivíduos podemos escrever Yi β0 β1X1i β2X2i βqXqi ϵi onde i 1 n e ϵi é o termo de erro aleatório Suposições do Modelo 1 A relação entre Y e as variáveis explicativas X1 X2 Xq é linear 2 Os erros ϵ1 ϵ2 ϵn tem média zero e variância comum igual a σ2 desconhecido Implica que a média de Yi é EYi β0 β1x1i βjxji βqxqi e VarYi σ2 3 Os erros ϵ1 ϵ2 ϵn são independentes Implica que Y1 Y2 Yn são independentes 4 Os erros ϵ1 ϵ2 ϵn tem distribuição Normal Implica que Y1 Y2 Yn tem distribuição Normal com mé dia e variância dadas no item 2 Interpretação dos Coeficientes Para j 1 q o parâmetro βj representa a variação aumento se βj 0 ou redução se βj 0 na média de Y EY a cada aumento de uma unidade em Xj mantendose constante os valores de todas as outras covariáveis Note que Para Xj xj temse que EY β0 β1x1 βjxj βqxq Para Xj xj 1 temse que EY β0 β1x1 βjxj 1 βqxq Assim βj representa a diferença na média de Y ao se passar de um valor Xj xj para Xj xj 1 Estimulação dos Parâmetros β₀ β₁ βq O método de minimização da função SQE é feito da forma usual tendo como base as derivadas parciais SQE β₀ β₀β₁βq 2 n i1 yi β₀ q j1 βjxji 0 SQE βj β₀β₁βq 2 n i1 yi β₀ q j1 βjxjixji 0 onde j 1 q e β₀ β₁ βq são os estimadores de mínimos quadrados de β₀ β₁ βq respectivamente As fórmulas para os estimadores β₀ β₁ βq são obtidas ao se resolver o sistema com as q 1 Equações Normais acima Abordagem Matricial Modelo Múltiplo Y Xβ ε Y y₁ x₁₁ x₂₁ xq₁ β₀ ε₁ y₂ x₁₂ x₂₂ xq₂ β₁ ε₂ yn x₁nx₂n xq n βq εn Abordagem Matricial Equações Normais de MQ Estimulação dos Parâmetros β₀ β₁ βq O modelo é Yi β₀ β₁X₁i β₂X₂i βqXqi εi Com base na amostra os coeficientes do modelo de regressão múltipla são estimados usando o mesmo raciocínio que os coeficientes do modelo de regressão linear simples Ou seja são encontrados os valores de β₀ β₁ βq que minimizem a soma de quadrados dos erros SQE n i1 ε²i n i1 yi β₀ β₁X₁i β₂X₂i βqXqi² Abordagem Matricial Estimadores de MQ O Modelo Ajustado e seu Uso para Previsões A reta estimada ajustada a qual pode ser usada para se fazer previsões para a média da va Y é então denotada por ˆyi ˆβ0 ˆβ1x1i ˆβ2x2i ˆβqxqi i 1 n Neste caso para fazermos a previsão para a média de Y é necessário fornecer um vetor com os valores das q covariáveis no modelo ou seja x1 xq e substituir estes valores nesta equação Exemplo Prof Ilka Reis UFMG Lucro anual de empresas em função de capital e gastos com publicidade Yi β0 β1X1i β2X2i εi Exemplo Prof Ilka Reis UFMG β0 340 β1 012 β2 261 Modelo estimado ŷi 340 012X1i 261X2i Para empresas com mesmo valor de gastos com publicidade um aumento de um milhão de unidades monetárias no capital provoca uma diminuição média de 012 milhões de unidades monetárias no lucro anual Para empresas com o mesmo capital um aumento de um milhão de unidades monetárias nos gastos com publicidade provoca um aumento médio de 261 milhões de unidades monetárias no lucro anual As Fontes de Variabilidade de Y Na análise de Regressão Múltipla a ideia de decompor a variabilidade total da variável resposta Y em duas fontes de variação permanece a mesma só que agora X X1 X2 Xn A Tabela da Análise de Variância ANOVA onde SQR SQReg SQE SQRes e SQT SQTotal como defini dos no modelo simples Sob a validade das suposições do modelo a estatística de teste F0 segue uma distribuição F de FisherSnedecor com q e n q 1 graus de liberdade e é utilizada para testar a significância geral do modelo como veremos na sequência Coeficiente de Determinação Ajustado O valor de R² SQRegSQTotal é frequentemente usado como medida da qualidade do modelo linear em termos do potencial de explicação da variabilidade da variável resposta Porém uso do R² para comparar modelos com número diferente de covariáveis pode ser enganador pois o valor de R² sempre aumenta quando um termo é acrescentado ao modelo Para contornar este problema usaremos o R² ajustado R²ajd 1 SQResn q 1SQTotaln 1 o qual pode ser interpretado da mesma forma que fizemos com o coeficiente de determinação R² Estimação do Parâmetro σ² Assim como na regressão linear simples além dos coeficientes do modelo linear β₀ β₁ βᵩ a variância do termo de erro também é um parâmetro desconhecido denotado por σ² Os resíduos eᵢ yᵢ ŷᵢ são usados no cálculo da estimativa de σ² a qual é dada por ˆσ² ⁿᵢ1 yᵢ ŷ² n q 1 SQE n q 1 QME A estimativa ˆσ² é necessária no processo de inferência para os parâmetros do modelo e na inferência para as previsões Teste F de Significância da Regressão Para que o modelo de regressão linear seja significativo é necessário que o coeficiente de pelo menos uma das variáveis explicativas seja significativo ou seja diferente de zero Neste contexto a estatística F₀ constante na tabela ANOVA fornece um procedimento testar as hipóteses H₀ β₁ 0 e β₂ 0 e βᵩ 0 H₁ βⱼ 0 para pelo menos um j 1 q Estatística de teste F₀ QMR QME Fᵩnq1 sob H₀ Assim para um nível de significância α escolhido rejeitase H₀ se valor p α sendo o valor p PFᵩnq1 F₀ Se H₀ é rejeitada então pelo menos um dos termos βⱼXⱼ é significante j 1 q Para saber quais são individualmente significativos devemos fazer os testes t individuais como definido a seguir Testes t Individuais para cada βⱼ Para j 0 1 q podemos testar a significância do coeficiente βⱼ na população na presença dos demais coeficientes Considere as hipóteses H₀ βⱼ 0 H₁ βⱼ 0 Estatística de teste Tₒᵇₛⱼ ˆβⱼ epˆβⱼ Sob H₀ e sob a validade das suposições feitas para o termo de erro a distribuição amostral da estatística Tₒᵇₛⱼ é uma distribuição tStudent com n q 1 graus de liberdade Assim para um nível de significância α escolhido rejeitase H₀ se valor p α sendo o valor p 2Ptₙq1 Tₒᵇₛⱼ The regression equation is Lucro 340 261 publicidade 0118 capital The regression equation is Lucro 102 262 publicidade Predição do percentual de gordura corporal em função de quantidades antropométricas siri Percentagem da gordura corporal usando equação de Siri pescoço 0491 torax 0703 abdom 0813 quadril 0625 coxa 0560 joelho 0509 tornozelo 0266 biceps 0493 antebraco 0361 punho 0347 Intercept 345627 67807 0515 060686 abdom 101484 007802 13007 2e16 torax 014183 09221 1538 012533 quadril 041185 012341 3337 000098 coxa 008586 03596 0631 052834 joelho 003984 02320 0172 086396 tornozelo 003104 02226 0140 088905 biceps 006511 01720 0378 070602 antebraco 028900 020166 1433 015311 punho 205457 07335 4340 209e05 Exercício Prof Ilka Reis UFMG Com base nos resultados anteriores responda ao que se pede nos seguinte itens 1 Identifique a variável resposta de interesse nesse problema 2 Faça uma análise das correlações entre as variáveis explicativas e a variável resposta de interesse com base na matriz de corre lações fornecidas no slide anterior 3 Escreva a equação do modelo ajustado 4 Faça o teste de hipóteses associado à estatística de teste forne cida escreva as hipóteses nula e alternativa apresente o valor da estatística do teste e conclua o teste com base no valorp associado Intercept 1409179 521280 2703 000734 abdom 100456 007825 12838 2e16 torax 020033 008704 2302 002219 quadril 039575 008467 4674 485e06 Fstatistic 1922 on 3 and 240 DF pvalue 22e16 Multiple Rsquared 06993 Adjusted Rsquared 06956 5 Indique se o modelo ajustado contém coeficientes que não são estatisticamente significantes escreva as hipóteses nula e al ternativa apresente o valor da estatística do teste apropriado e conclua o teste com base no valorp 6 Você indicaria este modelo para prever o percentual de gordura corporal índice de Siri Justifique Um novo ajuste para este dados foi feito e o resultado é mostrado a seguir Exercício Prof Ilka Reis UFMG Com base nos novos resultados responda ao que se pede nos seguinte itens i Escreva a equação do novo modelo ajustado ii Faça o teste de hipóteses associado à estatística de teste F fornecida escreva as hipóteses nula e alternativa apresente o valor da estatística do teste e conclua o teste com base no valor p associado iii Indique se o modelo ajustado contém coeficientes que não são estatisticamente significantes escreva as hipóteses nula e al ternativa apresente o valor da estatística do teste apropriado e conclua o teste com base no valorp iv Identifique e interprete o coeficiente de determinação ajustado v Use o modelo para prever o percentual médio de gordura cor poral índice de Siri para um indivíduo com circunferência de abdomen igual a 100 cm de tórax igual a 115 cm e de quadril igual a 90 cm