·
Engenharia Mecânica ·
Matemática Aplicada
Send your question to AI and receive an answer instantly
Recommended for you
17
Problema da Mochila: Formulação e Exercício
Matemática Aplicada
UNIFACENS
32
Introdução à Pesquisa Operacional e Tomada de Decisão
Matemática Aplicada
UNIFACENS
18
Introdução à Programação Inteira e Problemas Relacionados
Matemática Aplicada
UNIFACENS
15
Modelo de Programação Linear para Maximização de Lucro na Produção de Produtos A e B
Matemática Aplicada
UNIFACENS
1
Potencia de Antibiótico e Temperatura - Regressão Linear e Estimativa
Matemática Aplicada
UNIFACENS
1
Analise IDH-de-Municipios-SP-Regressao-Linear-Multipla
Matemática Aplicada
UNIFACENS
1
Analise Estatistica - Relacao entre Renda e Felicidade
Matemática Aplicada
UNIFACENS
1
Analise Estatistica - Relacao entre Renda e Felicidade
Matemática Aplicada
UNIFACENS
1
Potencia-Antibiotico-Dezm-Temperatura-Regressao-Linear
Matemática Aplicada
UNIFACENS
1
Regressao Linear Múltipla em R- Analise de Resultados e Interpretacao
Matemática Aplicada
UNIFACENS
Preview text
Facens Regressão Linear Prof Dr Henrique Ewbank Introdução A análise de regressão estuda a relação entre uma variável chamada a variável dependente e outras variáveis chamadas variáveis independentes A relação entre elas é representada por um modelo matemático que associa a variável dependente com as variáveis independentes Este modelo é designado por modelo de regressão linear simples MRLS se define uma relação linear entre a variável dependente e uma variável independente Se em vez de uma forem incorporadas várias variáveis independentes o modelo passa a denominarse modelo de regressão linear múltipla No MRLS vamos estudar a relação linear entre duas variáveis quantitativas Exemplos Altura dos pais e altura dos filhos Renda semanal e despesas de consumo Variação dos salários e taxa de desemprego Demanda dos produtos de uma firma e publicidade Sob dois pontos de vista Explicitando a forma dessa relação regressão Quantificando a força ou o grau dessa relação correlação As técnicas de análise de correlação e regressão estão muito ligadas Diagrama de dispersão Os dados para a análise de regressão e correlação simples são da forma 𝑥1 𝑦1 𝑥2 𝑦2 𝑥𝑖 𝑦𝑖 𝑥𝑛 𝑦𝑛 Com base nos dados constróise o diagrama de dispersão que deve exibir uma tendência linear para que se possa usar a regressão linear Este diagrama permite decidir empiricamente se um relacionamento linear entre as variáveis X e Y deve ser assumido se o grau de relacionamento linear entre as variáveis é forte ou fraco conforme o modo como se situam os pontos em redor de uma reta imaginária que passa através do enxame de pontos Gráfico de Dispersão Tanino Regressão é o método estatístico usado para estimar as relações entre as variáveis A maneira mais fácil de analisar se a regressão é um método aplicável a seus dados é plotando um gráfico de dispersão dados readtableregressiontxtheaderT attachdados namesdados plottannin growth pch21 colbluebgred Por que realizar uma inspeção visual Os quatro conjuntos de dados abaixo possuem a mesma média variância linha de regressão e coeficiente de correlação A regressão linear é aplicável somente no primeiro caso ou no máximo no terceiro se removermos o outlier Nota O termo linear é usado para indicar que o modelo é linear nos parâmetros da regressão 𝛼 e 𝛽 e não porque Y é função linear dos Xs Por exemplo uma expressão da forma 𝐸 𝑌 𝑥 𝛼 𝛽𝑥 𝛾𝑥2 é um modelo linear em 𝛼 𝛽 𝑒 𝛾 mas o modelo 𝐸 𝑌 𝑥 𝛼𝑒𝛽𝑥 não é um modelo linear em 𝛼 e 𝛽 Modelo de Regressão Linear Simples MRLS Y 𝛽0 𝛽1𝑥 𝜖 Y variável explicada ou dependente aleatória X variável explicativa ou independente medida sem erro não aleatória 𝛽0 coeficiente de regressão que representa o intercepto parâmetro desconhecido do modelo a estimar 𝛽1 coeficiente de regressão que representa o declive inclinação parâmetro desconhecido do modelo a estimar 𝜖 erro aleatório ou estocástico onde se procuram incluir todas as influências no comportamento da variável Y que não podem ser explicadas linearmente pelo comportamento da variável X Interpretação de 𝛽0 e 𝛽1 𝛽0 é o ponto onde a reta corta o eixo das ordenadas e pode ser interpretável ou não 𝛽1 é o coeficiente angular e representa o quanto varia a média de Y para um aumento de uma unidade da variável X Premissas da Regressão Linear Linearidade Y é normalmente distribuído 𝐸 𝜀𝑋 0 Residuos normal iid 𝑉𝑎𝑟 𝜀𝑋 𝜎2𝐼 Variância homogênea Homocedasticidade Regressão Linear O modelo de regressão linear simples 𝑦 𝛽0 𝛽1𝑥 Comando da regressão linear no R model lmgrowth tannin Exibe relatório da regressão linear summarymodel Resultado da regressão linear summarymodel Call lmformula growth tannin Residuals Min 1Q Median 3Q Max 24556 08889 02389 09778 28944 Coefficients Estimate Std Error t value Prt Intercept 117556 10408 11295 954e06 tannin 12167 02186 5565 0000846 Signif codes 0 0001 001 005 01 1 Residual standard error 1693 on 7 degrees of freedom Multiple Rsquared 08157 Adjusted Rsquared 07893 Fstatistic 3097 on 1 and 7 DF pvalue 00008461 Resultado da regressão linear summarymodel Call lmformula growth tannin Residuals Min 1Q Median 3Q Max 24556 08889 02389 09778 28944 Coefficients Estimate Std Error t value Prt Intercept 117556 10408 11295 954e06 tannin 12167 02186 5565 0000846 Signif codes 0 0001 001 005 01 1 Residual standard error 1693 on 7 degrees of freedom Multiple Rsquared 08157 Adjusted Rsquared 07893 Fstatistic 3097 on 1 and 7 DF pvalue 00008461 Para cada coeficiente realizamos um teste de hipótese para verificar se ele é significativamente diferente de 0 ou seja se ele existe 𝐻0 𝛽 0 𝐻1 𝛽 0 Como os valores p de ambos os coeficientes são menores do que 005 podemos dizer que os coeficientes são significativamente diferentes de 0 para um nível de significância de 5 Resultado da regressão linear summarymodel Call lmformula growth tannin Residuals Min 1Q Median 3Q Max 24556 08889 02389 09778 28944 Coefficients Estimate Std Error t value Prt Intercept 117556 10408 11295 954e06 tannin 12167 02186 5565 0000846 Signif codes 0 0001 001 005 01 1 Residual standard error 1693 on 7 degrees of freedom Multiple Rsquared 08157 Adjusted Rsquared 07893 Fstatistic 3097 on 1 and 7 DF pvalue 00008461 Para cada coeficiente realizamos um teste de hipótese para verificar se ele é significativamente diferente de 0 ou seja se ele existe 𝐻0 𝛽 0 𝐻1 𝛽 0 Como os valores p de ambos os coeficientes são menores do que 005 podemos dizer que os coeficientes são significativamente diferentes de 0 para um nível de significância de 5 Resultado da regressão linear summarymodel Call lmformula growth tannin Residuals Min 1Q Median 3Q Max 24556 08889 02389 09778 28944 Coefficients Estimate Std Error t value Prt Intercept 117556 10408 11295 954e06 tannin 12167 02186 5565 0000846 Signif codes 0 0001 001 005 01 1 Residual standard error 1693 on 7 degrees of freedom Multiple Rsquared 08157 Adjusted Rsquared 07893 Fstatistic 3097 on 1 and 7 DF pvalue 00008461 E podemos afirmar que o coeficiente de tanino é igual a 12167 Significa dizer que para cada unidade a mais de tanino o crescimento será reduzido sinal negativo em 12167 unidades O sinal do coeficiente angular respeita o sinal da correlação entre a variável dependente e a independente Coeficiente de determinação R2 O coeficiente de determinação é uma medida da proporção da variação total que é explicada pelo MRLS Este coeficiente pode ser utilizado como uma medida da qualidade do ajustamento ou como medida da confiança depositada na equação de regressão como instrumento de previsão e representa a porcentagem da variação total que é explicada pelo MRLS Notese que o ajustamento será tanto melhor quanto mais pequeno for SQRes e portanto maior for SQReg relativamente a SQTot Cálculo de R2 pode ser feita através da soma quadrados dos resíduos SQRes e da soma dos quadrados da variável de resposta ou da regressão SQReg 𝑆QTot 𝑆QRes 𝑆QReg 𝑦 ത𝑦 2 𝑦 𝑦 2 𝑦 ത𝑦 2 0 𝑅2 1 𝑅2 0 Modelo linear pouco adequado 𝑅2 1 Modelo linear bastante adequado Exercício Sabendo as fórmulas para a soma dos quadrados do erro da regressão e do total escreva funções que retornem seus valores e a partir delas calcule o coeficiente de determinação SSE sumgrowthyhat2 SSR sumyhatmeangrowth2 SST sumgrowthmeangrowth2 R2 SSRSST 1 SSESST s summarymodel srsquared R2 alto é bom Segue um exemplo de R2 985 onde o gráfico resíduos vs previstos apresenta um padrão isto é indesejável Em algumas áreas do conhecimento como previsão de comportamento humano é esperado um R2 abaixo de 05 Isto porque seres humanos são difíceis de serem previstos Base de dados mtcars Variáveis mpg e wt Código em R no R Studio modelo lmmpg wt datamtcars modelo summarymodelo Call lmformula mpg wt data mtcars Residuals Min 1Q Median 3Q Max 45432 23647 01252 14096 68727 Coefficients Estimate Std Error t value Prt Intercept 372851 18776 19858 2e16 wt 53445 05591 9559 129e10 Signif codes 0 0001 001 005 01 1 Residual standard error 3046 on 30 degrees of freedom Multiple Rsquared 07528 Adjusted Rsquared 07446 Fstatistic 9138 on 1 and 30 DF pvalue 1294e10 Sim pois o coeficiente que multiplica peso wt é significativamente diferente de 0 valor p que alfa de 5 Cada unidade de peso a mais reduz sinal negativo o rendimento do combustível em 534 milhas por galão mpg Exemplo O peso de um carro interfere no rendimento de combustível Exercício Os dados da tabela apresentam o peso kg de carros de corrida de uma certa categoria e a velocidade máxima kmh que conseguem atingir durante o percurso a Estime β0 e β1 pelo método dos Mínimos Quadrados b O MRLS parece ser útil ou seja o peso poderia ser usado para explicar o comportamento da velocidade máxima dos carros Exercício 2 Uma faculdade de economia realizou uma pesquisa para estudar a evolução do salário médio mensal inicial dos seus exalunos formados durante o período de 1987 a 1993 Para tanto selecionou 20 formandos de cada ano para os quais foram calculadas as médias salariais para cada ano reais Os dados encontramse na Tabela 2 a Faça um diagrama de dispersão do salário médio em função do ano Comente a possível relação visual entre as duas variáveis b Calcule o coeficiente de correlação linear de Pearson entre salário e ano O que está indicando a correlação encontrada c Estime o MRLS que relaciona salário médio e ano de formatura e interpreteo Erros da regressão Modo de exibição dos erros ablinemodelcolred yhat modelfittedvalues join functioni linesctanninitanninicgrowthiyhaticolgreen sapply19join R2 ajustado R2 ajustado é preferível ao R2 pois considera os graus de liberdade de cada soma dos quadrados 𝑅𝑎𝑑𝑗 2 1 𝑆𝑆𝐸 𝑑𝑓𝜀 𝑆𝑆𝑇 𝑑𝑓𝑇 R2adj 1 SSE7SST8 sadjrsquared R2 ajustado penaliza o pesquisador quando este insere mais uma variável independente na regressão Previsão de dados Variável new que contém o domínio a ser previsto deve apresentar os nomes das colunas iguais às variáveis independentes do modelo de regressão predictmodel new dataframetannin seq3 3 05 predictmodel new Correlação NÂO É Causalidade Co Correlação 9586 r0958648 Correlação 666 r0666004 Alguns abusos no modelo de regressão Seleção de variável explicativa É possível desenvolver uma relação estatisticamente significativa entre a variável resposta Y e a variável explicativa X que não faça sentido na prática Extrapolação A relação linear assumida para as variáveis resposta e explicativa não pode ser estendida para fora do domínio de atuação dos dados observados a não ser que haja informação adicional sobre a validade do modelo para esse domínio estendido Exercício Os dados apresentados na tabela abaixo representam o número de inserções diárias de links de propagandas em uma página da internet X e o número diário de visualizações de internautas Y em milhares por meio desses links para as propagandas de dez empresas distintas Considerando os dados disponíveis a Apresente o diagrama de dispersão b Calcule as estimativas de mínimos quadrados dos parâmetros do MRLS que relaciona o número de visualizações são número de inserções diárias c Interprete se fizer sentido as estimativas obtidas no item b d Calcule os preditos e os resíduos para as empresas 4 e 7 de acordo com o modelo ajustado e Com base no modelo ajustado qual a predição do número de visualizações para propagandas com 27 e 39 inserções f Com base no modelo ajustado você poderia predizer o número de visualizações para propagandas com 15 inserções Por que Empresa 1 2 3 4 5 6 7 8 9 10 Xi 34 46 31 44 41 48 24 29 37 22 Yi 84 132 66 118 107 127 27 84 107 42 Para realizar uma regressão linear múltipla basta acrescentar variáveis independentes na fórmula da regressão como no exemplo growth2 growth1 tannin2 tannin1 FORMULA growth2 tannin2 logtannin2 model2 lmFORMULA Call lmformula FORMULA Residuals 1 2 3 4 5 6 7 8 004477 129722 272736 109798 115891 253218 018737 118370 Coefficients Estimate Std Error t value Prt Intercept 11496 1573 7307 0000752 tannin2 1541 1071 1440 0209495 logtannin2 1274 3728 0342 0746402 Signif codes 0 0001 001 005 01 1 Residual standard error 1976 on 5 degrees of freedom Multiple Rsquared 07545 Adjusted Rsquared 06562 Fstatistic 7682 on 2 and 5 DF pvalue 002987 Como vamos calcular o logtannin removemos o valor 0 representado no primeiro elemento Regressão Múltipla Exercício Usando a base HBATcsv faça uma regressão linear simples 1 variável independente X prevendo uma variável dependente Y Considere como X as colunas x6 até x18 serão 13 modelos ao total Considere x19 como a variável dependente Y Baseado na informação abaixo sobre cada uma das variáveis analisadas tire suas conclusões Database Independent Variables X6 Product Quality X13 Competitive Price X7 ECommerce Activities X14 Warranty and Claims X8 Technical Support X15 New Products X9 Complaint Resolution X16 Ordering and Billing X10 Advertising X17 Price Flexibility X11 Product Line X18 Delivery Speed X12 Salesforce Image Dependent Variable X19 Satisfaction Exemplos de definição de lm Syntax Model Comments Y A 𝑌 𝛽0 𝛽1𝐴 Straightline with an implicit yintercept Y 1 A 𝑌 𝛽1𝐴 Straightline with no yintercept that is a fit forced through 00 Y A IA2 𝑌 𝛽0 𝛽1𝐴 𝛽2𝐴2 Polynomial model note that the identity function I allows terms in the model to include normal mathematical symbols Y A B 𝑌 𝛽0 𝛽1𝐴 𝛽2𝐵 A firstorder model in A and B without interaction terms Y AB 𝑌 𝛽0 𝛽1𝐴𝐵 A model containing only firstorder interactions between A and B Y AB 𝑌 𝛽0 𝛽1𝐴 𝛽2𝐵 𝛽3𝐴𝐵 A full firstorder model with a term an equivalent code is Y A B AB Y A B C2 𝑌 𝛽0 𝛽1𝐴 𝛽2𝐵 𝛽3𝐶 𝛽4𝐴𝐵 𝛽5𝐵𝐶 𝛽6𝐴𝐶 A model including all firstorder effects and interactions up to the nth order where n is given by n An equivalent code in this case is Y ABC ABC Facens
Send your question to AI and receive an answer instantly
Recommended for you
17
Problema da Mochila: Formulação e Exercício
Matemática Aplicada
UNIFACENS
32
Introdução à Pesquisa Operacional e Tomada de Decisão
Matemática Aplicada
UNIFACENS
18
Introdução à Programação Inteira e Problemas Relacionados
Matemática Aplicada
UNIFACENS
15
Modelo de Programação Linear para Maximização de Lucro na Produção de Produtos A e B
Matemática Aplicada
UNIFACENS
1
Potencia de Antibiótico e Temperatura - Regressão Linear e Estimativa
Matemática Aplicada
UNIFACENS
1
Analise IDH-de-Municipios-SP-Regressao-Linear-Multipla
Matemática Aplicada
UNIFACENS
1
Analise Estatistica - Relacao entre Renda e Felicidade
Matemática Aplicada
UNIFACENS
1
Analise Estatistica - Relacao entre Renda e Felicidade
Matemática Aplicada
UNIFACENS
1
Potencia-Antibiotico-Dezm-Temperatura-Regressao-Linear
Matemática Aplicada
UNIFACENS
1
Regressao Linear Múltipla em R- Analise de Resultados e Interpretacao
Matemática Aplicada
UNIFACENS
Preview text
Facens Regressão Linear Prof Dr Henrique Ewbank Introdução A análise de regressão estuda a relação entre uma variável chamada a variável dependente e outras variáveis chamadas variáveis independentes A relação entre elas é representada por um modelo matemático que associa a variável dependente com as variáveis independentes Este modelo é designado por modelo de regressão linear simples MRLS se define uma relação linear entre a variável dependente e uma variável independente Se em vez de uma forem incorporadas várias variáveis independentes o modelo passa a denominarse modelo de regressão linear múltipla No MRLS vamos estudar a relação linear entre duas variáveis quantitativas Exemplos Altura dos pais e altura dos filhos Renda semanal e despesas de consumo Variação dos salários e taxa de desemprego Demanda dos produtos de uma firma e publicidade Sob dois pontos de vista Explicitando a forma dessa relação regressão Quantificando a força ou o grau dessa relação correlação As técnicas de análise de correlação e regressão estão muito ligadas Diagrama de dispersão Os dados para a análise de regressão e correlação simples são da forma 𝑥1 𝑦1 𝑥2 𝑦2 𝑥𝑖 𝑦𝑖 𝑥𝑛 𝑦𝑛 Com base nos dados constróise o diagrama de dispersão que deve exibir uma tendência linear para que se possa usar a regressão linear Este diagrama permite decidir empiricamente se um relacionamento linear entre as variáveis X e Y deve ser assumido se o grau de relacionamento linear entre as variáveis é forte ou fraco conforme o modo como se situam os pontos em redor de uma reta imaginária que passa através do enxame de pontos Gráfico de Dispersão Tanino Regressão é o método estatístico usado para estimar as relações entre as variáveis A maneira mais fácil de analisar se a regressão é um método aplicável a seus dados é plotando um gráfico de dispersão dados readtableregressiontxtheaderT attachdados namesdados plottannin growth pch21 colbluebgred Por que realizar uma inspeção visual Os quatro conjuntos de dados abaixo possuem a mesma média variância linha de regressão e coeficiente de correlação A regressão linear é aplicável somente no primeiro caso ou no máximo no terceiro se removermos o outlier Nota O termo linear é usado para indicar que o modelo é linear nos parâmetros da regressão 𝛼 e 𝛽 e não porque Y é função linear dos Xs Por exemplo uma expressão da forma 𝐸 𝑌 𝑥 𝛼 𝛽𝑥 𝛾𝑥2 é um modelo linear em 𝛼 𝛽 𝑒 𝛾 mas o modelo 𝐸 𝑌 𝑥 𝛼𝑒𝛽𝑥 não é um modelo linear em 𝛼 e 𝛽 Modelo de Regressão Linear Simples MRLS Y 𝛽0 𝛽1𝑥 𝜖 Y variável explicada ou dependente aleatória X variável explicativa ou independente medida sem erro não aleatória 𝛽0 coeficiente de regressão que representa o intercepto parâmetro desconhecido do modelo a estimar 𝛽1 coeficiente de regressão que representa o declive inclinação parâmetro desconhecido do modelo a estimar 𝜖 erro aleatório ou estocástico onde se procuram incluir todas as influências no comportamento da variável Y que não podem ser explicadas linearmente pelo comportamento da variável X Interpretação de 𝛽0 e 𝛽1 𝛽0 é o ponto onde a reta corta o eixo das ordenadas e pode ser interpretável ou não 𝛽1 é o coeficiente angular e representa o quanto varia a média de Y para um aumento de uma unidade da variável X Premissas da Regressão Linear Linearidade Y é normalmente distribuído 𝐸 𝜀𝑋 0 Residuos normal iid 𝑉𝑎𝑟 𝜀𝑋 𝜎2𝐼 Variância homogênea Homocedasticidade Regressão Linear O modelo de regressão linear simples 𝑦 𝛽0 𝛽1𝑥 Comando da regressão linear no R model lmgrowth tannin Exibe relatório da regressão linear summarymodel Resultado da regressão linear summarymodel Call lmformula growth tannin Residuals Min 1Q Median 3Q Max 24556 08889 02389 09778 28944 Coefficients Estimate Std Error t value Prt Intercept 117556 10408 11295 954e06 tannin 12167 02186 5565 0000846 Signif codes 0 0001 001 005 01 1 Residual standard error 1693 on 7 degrees of freedom Multiple Rsquared 08157 Adjusted Rsquared 07893 Fstatistic 3097 on 1 and 7 DF pvalue 00008461 Resultado da regressão linear summarymodel Call lmformula growth tannin Residuals Min 1Q Median 3Q Max 24556 08889 02389 09778 28944 Coefficients Estimate Std Error t value Prt Intercept 117556 10408 11295 954e06 tannin 12167 02186 5565 0000846 Signif codes 0 0001 001 005 01 1 Residual standard error 1693 on 7 degrees of freedom Multiple Rsquared 08157 Adjusted Rsquared 07893 Fstatistic 3097 on 1 and 7 DF pvalue 00008461 Para cada coeficiente realizamos um teste de hipótese para verificar se ele é significativamente diferente de 0 ou seja se ele existe 𝐻0 𝛽 0 𝐻1 𝛽 0 Como os valores p de ambos os coeficientes são menores do que 005 podemos dizer que os coeficientes são significativamente diferentes de 0 para um nível de significância de 5 Resultado da regressão linear summarymodel Call lmformula growth tannin Residuals Min 1Q Median 3Q Max 24556 08889 02389 09778 28944 Coefficients Estimate Std Error t value Prt Intercept 117556 10408 11295 954e06 tannin 12167 02186 5565 0000846 Signif codes 0 0001 001 005 01 1 Residual standard error 1693 on 7 degrees of freedom Multiple Rsquared 08157 Adjusted Rsquared 07893 Fstatistic 3097 on 1 and 7 DF pvalue 00008461 Para cada coeficiente realizamos um teste de hipótese para verificar se ele é significativamente diferente de 0 ou seja se ele existe 𝐻0 𝛽 0 𝐻1 𝛽 0 Como os valores p de ambos os coeficientes são menores do que 005 podemos dizer que os coeficientes são significativamente diferentes de 0 para um nível de significância de 5 Resultado da regressão linear summarymodel Call lmformula growth tannin Residuals Min 1Q Median 3Q Max 24556 08889 02389 09778 28944 Coefficients Estimate Std Error t value Prt Intercept 117556 10408 11295 954e06 tannin 12167 02186 5565 0000846 Signif codes 0 0001 001 005 01 1 Residual standard error 1693 on 7 degrees of freedom Multiple Rsquared 08157 Adjusted Rsquared 07893 Fstatistic 3097 on 1 and 7 DF pvalue 00008461 E podemos afirmar que o coeficiente de tanino é igual a 12167 Significa dizer que para cada unidade a mais de tanino o crescimento será reduzido sinal negativo em 12167 unidades O sinal do coeficiente angular respeita o sinal da correlação entre a variável dependente e a independente Coeficiente de determinação R2 O coeficiente de determinação é uma medida da proporção da variação total que é explicada pelo MRLS Este coeficiente pode ser utilizado como uma medida da qualidade do ajustamento ou como medida da confiança depositada na equação de regressão como instrumento de previsão e representa a porcentagem da variação total que é explicada pelo MRLS Notese que o ajustamento será tanto melhor quanto mais pequeno for SQRes e portanto maior for SQReg relativamente a SQTot Cálculo de R2 pode ser feita através da soma quadrados dos resíduos SQRes e da soma dos quadrados da variável de resposta ou da regressão SQReg 𝑆QTot 𝑆QRes 𝑆QReg 𝑦 ത𝑦 2 𝑦 𝑦 2 𝑦 ത𝑦 2 0 𝑅2 1 𝑅2 0 Modelo linear pouco adequado 𝑅2 1 Modelo linear bastante adequado Exercício Sabendo as fórmulas para a soma dos quadrados do erro da regressão e do total escreva funções que retornem seus valores e a partir delas calcule o coeficiente de determinação SSE sumgrowthyhat2 SSR sumyhatmeangrowth2 SST sumgrowthmeangrowth2 R2 SSRSST 1 SSESST s summarymodel srsquared R2 alto é bom Segue um exemplo de R2 985 onde o gráfico resíduos vs previstos apresenta um padrão isto é indesejável Em algumas áreas do conhecimento como previsão de comportamento humano é esperado um R2 abaixo de 05 Isto porque seres humanos são difíceis de serem previstos Base de dados mtcars Variáveis mpg e wt Código em R no R Studio modelo lmmpg wt datamtcars modelo summarymodelo Call lmformula mpg wt data mtcars Residuals Min 1Q Median 3Q Max 45432 23647 01252 14096 68727 Coefficients Estimate Std Error t value Prt Intercept 372851 18776 19858 2e16 wt 53445 05591 9559 129e10 Signif codes 0 0001 001 005 01 1 Residual standard error 3046 on 30 degrees of freedom Multiple Rsquared 07528 Adjusted Rsquared 07446 Fstatistic 9138 on 1 and 30 DF pvalue 1294e10 Sim pois o coeficiente que multiplica peso wt é significativamente diferente de 0 valor p que alfa de 5 Cada unidade de peso a mais reduz sinal negativo o rendimento do combustível em 534 milhas por galão mpg Exemplo O peso de um carro interfere no rendimento de combustível Exercício Os dados da tabela apresentam o peso kg de carros de corrida de uma certa categoria e a velocidade máxima kmh que conseguem atingir durante o percurso a Estime β0 e β1 pelo método dos Mínimos Quadrados b O MRLS parece ser útil ou seja o peso poderia ser usado para explicar o comportamento da velocidade máxima dos carros Exercício 2 Uma faculdade de economia realizou uma pesquisa para estudar a evolução do salário médio mensal inicial dos seus exalunos formados durante o período de 1987 a 1993 Para tanto selecionou 20 formandos de cada ano para os quais foram calculadas as médias salariais para cada ano reais Os dados encontramse na Tabela 2 a Faça um diagrama de dispersão do salário médio em função do ano Comente a possível relação visual entre as duas variáveis b Calcule o coeficiente de correlação linear de Pearson entre salário e ano O que está indicando a correlação encontrada c Estime o MRLS que relaciona salário médio e ano de formatura e interpreteo Erros da regressão Modo de exibição dos erros ablinemodelcolred yhat modelfittedvalues join functioni linesctanninitanninicgrowthiyhaticolgreen sapply19join R2 ajustado R2 ajustado é preferível ao R2 pois considera os graus de liberdade de cada soma dos quadrados 𝑅𝑎𝑑𝑗 2 1 𝑆𝑆𝐸 𝑑𝑓𝜀 𝑆𝑆𝑇 𝑑𝑓𝑇 R2adj 1 SSE7SST8 sadjrsquared R2 ajustado penaliza o pesquisador quando este insere mais uma variável independente na regressão Previsão de dados Variável new que contém o domínio a ser previsto deve apresentar os nomes das colunas iguais às variáveis independentes do modelo de regressão predictmodel new dataframetannin seq3 3 05 predictmodel new Correlação NÂO É Causalidade Co Correlação 9586 r0958648 Correlação 666 r0666004 Alguns abusos no modelo de regressão Seleção de variável explicativa É possível desenvolver uma relação estatisticamente significativa entre a variável resposta Y e a variável explicativa X que não faça sentido na prática Extrapolação A relação linear assumida para as variáveis resposta e explicativa não pode ser estendida para fora do domínio de atuação dos dados observados a não ser que haja informação adicional sobre a validade do modelo para esse domínio estendido Exercício Os dados apresentados na tabela abaixo representam o número de inserções diárias de links de propagandas em uma página da internet X e o número diário de visualizações de internautas Y em milhares por meio desses links para as propagandas de dez empresas distintas Considerando os dados disponíveis a Apresente o diagrama de dispersão b Calcule as estimativas de mínimos quadrados dos parâmetros do MRLS que relaciona o número de visualizações são número de inserções diárias c Interprete se fizer sentido as estimativas obtidas no item b d Calcule os preditos e os resíduos para as empresas 4 e 7 de acordo com o modelo ajustado e Com base no modelo ajustado qual a predição do número de visualizações para propagandas com 27 e 39 inserções f Com base no modelo ajustado você poderia predizer o número de visualizações para propagandas com 15 inserções Por que Empresa 1 2 3 4 5 6 7 8 9 10 Xi 34 46 31 44 41 48 24 29 37 22 Yi 84 132 66 118 107 127 27 84 107 42 Para realizar uma regressão linear múltipla basta acrescentar variáveis independentes na fórmula da regressão como no exemplo growth2 growth1 tannin2 tannin1 FORMULA growth2 tannin2 logtannin2 model2 lmFORMULA Call lmformula FORMULA Residuals 1 2 3 4 5 6 7 8 004477 129722 272736 109798 115891 253218 018737 118370 Coefficients Estimate Std Error t value Prt Intercept 11496 1573 7307 0000752 tannin2 1541 1071 1440 0209495 logtannin2 1274 3728 0342 0746402 Signif codes 0 0001 001 005 01 1 Residual standard error 1976 on 5 degrees of freedom Multiple Rsquared 07545 Adjusted Rsquared 06562 Fstatistic 7682 on 2 and 5 DF pvalue 002987 Como vamos calcular o logtannin removemos o valor 0 representado no primeiro elemento Regressão Múltipla Exercício Usando a base HBATcsv faça uma regressão linear simples 1 variável independente X prevendo uma variável dependente Y Considere como X as colunas x6 até x18 serão 13 modelos ao total Considere x19 como a variável dependente Y Baseado na informação abaixo sobre cada uma das variáveis analisadas tire suas conclusões Database Independent Variables X6 Product Quality X13 Competitive Price X7 ECommerce Activities X14 Warranty and Claims X8 Technical Support X15 New Products X9 Complaint Resolution X16 Ordering and Billing X10 Advertising X17 Price Flexibility X11 Product Line X18 Delivery Speed X12 Salesforce Image Dependent Variable X19 Satisfaction Exemplos de definição de lm Syntax Model Comments Y A 𝑌 𝛽0 𝛽1𝐴 Straightline with an implicit yintercept Y 1 A 𝑌 𝛽1𝐴 Straightline with no yintercept that is a fit forced through 00 Y A IA2 𝑌 𝛽0 𝛽1𝐴 𝛽2𝐴2 Polynomial model note that the identity function I allows terms in the model to include normal mathematical symbols Y A B 𝑌 𝛽0 𝛽1𝐴 𝛽2𝐵 A firstorder model in A and B without interaction terms Y AB 𝑌 𝛽0 𝛽1𝐴𝐵 A model containing only firstorder interactions between A and B Y AB 𝑌 𝛽0 𝛽1𝐴 𝛽2𝐵 𝛽3𝐴𝐵 A full firstorder model with a term an equivalent code is Y A B AB Y A B C2 𝑌 𝛽0 𝛽1𝐴 𝛽2𝐵 𝛽3𝐶 𝛽4𝐴𝐵 𝛽5𝐵𝐶 𝛽6𝐴𝐶 A model including all firstorder effects and interactions up to the nth order where n is given by n An equivalent code in this case is Y ABC ABC Facens