·
Cursos Gerais ·
Probabilidade e Estatística 2
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
23
Capítulo 6: Problemas e Análises
Probabilidade e Estatística 2
UMG
21
Problemas do Capítulo 4
Probabilidade e Estatística 2
UMG
11
Capítulo 2: Problemas e Questões
Probabilidade e Estatística 2
UMG
5
Teoremas Limite e Convergência de Variáveis Aleatórias
Probabilidade e Estatística 2
UMG
7
Capítulo 8: Problemas e Exercícios
Probabilidade e Estatística 2
UMG
77
Introdução à Probabilidade e Inferência Estatística
Probabilidade e Estatística 2
UMG
3
Teorema Central do Limite e suas Aplicações em Estatística
Probabilidade e Estatística 2
UMG
9
Exercises on Counting Principles and Assignments
Probabilidade e Estatística 2
UMG
1
Lei Forte dos Grandes Números - Teorema 41
Probabilidade e Estatística 2
UMG
26
Problemas do Capítulo 3: Análise de Probabilidades
Probabilidade e Estatística 2
UMG
Texto de pré-visualização
CIÊNCIAS DE DADOS BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Mário Olímpio de Menezes Transformação BoxCox Uma transformação típica utilizada para acertos de normalidade da variável resposta é a BoxCox que tem este nome devido aos sobrenomes de seus proponentes G E P Box e D R Cox respectivamente da University of Wisconsin e do Birkbeck College University of London esta transformação foi proposta por eles no artigo intitulado An Analysis of Transformations BOX COX 1964 A transformação de BoxCox é dada pela expressão mostrada na Equação 2 yλ yλ 1 λ se λ 0 log y se λ 0 onde λ é um parâmetro a ser estimado dos dados log é o logaritmo neperiano Uma vez obtido o valor de λ encontramos os valores dos dados transformados conforme a equação acima e utilizamos estes dados transformados para efetuar as análises Exemplo de Transformação na Variável Resposta Para ilustrar este tipo de transformação vamos utilizar uma base de dados sobre medidas de ozônio que faz parte da biblioteca faraway do R Caso não esteja instalada a biblioteca faraway deve ser instalada com o comando installpackagesfaraway O conjunto de dados ozone tem 330 observações e 10 variáveis entre elas a medida de ozônio e de temperatura Para nosso propósito utilizaremos apenas as variáveis ozônio e temperatura libraryfaraway ozdata farawayozonecO3temp namesozdata cozôniotemperatura headozdata ozônio temperatura 1 3 40 2 5 45 Conteúdo I Regressão Multivariada 1 Regressão Linear Multivariada 5 Análise Multivariada 5 Regressão Linear Multivariada ou Múltipla 6 Estudo de caso de regressão múltipla 9 Representando Interações ou Efeito Moderador 14 Diagnósticos da Regressão 16 Regressão Múltipla com termo quadrático 20 II Transformações de Variáveis 2 Transformações de Variáveis 28 Transformação na Variável Resposta 28 Transformação na Variável Explicativa 39 Finalizando 47 Bibliografia 49 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 3 eadmackenziebr I 1 Regressão Linear Multivariada 5 Regressão Multivariada 1 Regressão Linear Multivariada Análise Multivariada A técnica de Regressão Linear Multivariada que é o foco desta Trilha situase dentro do grande tópico das técnicas de Análise Multivariada A Análise Multivariada se refere a todas as técnicas que analisam simultaneamente múltiplas medidas de indivíduos ou objetos sob investigação Assim quaisquer análises simultâneas de mais do que duas variáveis pode ser considerada uma análise multivariada HAIR JR et al 2014 Dados multivariados surgem quando se medem várias variáveis para cada observação na amostra A maioria dos conjuntos de dados coletados por pesquisadores em todas as áreas da ciência são multivariados JOHNSON WICHERN 1992 Nesta Trilha além do tema da Regressão Linear Multivariada também trataremos de Transfor mações de Variáveis e no Material Complementar da Trilha falamos de Seleção de Modelos As Transformações de Variáveis são técnicas utilizadas quando se quer corrigir distorções encontra das na modelagem com relação às premissas estatísticas subjacentes ao método dos mínimos quadrados Podemos fazer transformações na variável resposta ou transformações nas variáveis explicativas Na seção sobre Seleção de Modelos abordaremos os critérios numéricos que nos permitem comparar modelos de regressão bem como algumas facilidades bibliotecas e funções que o R fornece para facilitar este processo de comparação e seleção de modelos Apresentamos como Anexo desta Trilha uma compilação sobre a criação de fórmulas no R diversos tipos de fórmulas seus significados e como podem ser utilizados são apresentados Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 5 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Regressão Linear Multivariada ou Múltipla Quando temos mais do que uma variável preditora explicativa a regressão linear simples se transforma em regressão linear multivariada Assumamos que yi representa o valor da variável resposta no iésimo indivíduo e que xi1 xi2 xi3 xiq representam os valores individuais das q variáveis explicativas com i 1 n O modelo de regressão linear multivariada ou múltipla é dado pela Equação 1 yi β0 β1xi1 βqxiq ϵi 1 O resíduo ou termo de erro ϵi i 1 n são assumidos serem variáveis aleatórias independentes com uma distribuição normal com média zero e variância constante σ2 Consequentemente a distribuição da variável aleatória resposta y também é normal com um valor esperado dado pela combinação linear das variáveis explicativas Eyx1 xq β0 β1x1 βqxq e com variância σ2 Os parâmetros do modelo βk k 1 q são os coeficientes da regressão o coeficiente β0 é a média global do modelo Cada coeficiente representa a mudança esperada na variável resposta associada com uma mudança unitária na variável explicativa correspondente quando as demais variáveis explicativas são mantidas constantes O relacionamento básico representado na regressão múltipla é a associação linear entre a variável dependente métrica e as variáveis independentesexplicativas também métricas O termo linear na regressão múltipla se aplica aos parâmetros da regressão βk k 1 q não às variáveis explicativas ou à variável resposta Consequentemente modelos nos quais por exemplo o logaritmo de uma variável resposta é modelado em termos de funções quadráticas de algumas variáveis explicativas devem ser inclusos nesta classe de modelos lineares Outros exemplos onde temos variáveis explicativas não lineares em x mas lineares em β são Uma regressão quadrática tem duas preditoras X e X2 A regressão cúbica tem três preditoras X X2 e X3 Uma regressão polinomial é um caso especial de uma regressão múltipla Existem autores que tratam estes casos onde as variáveis explicativas tem relação não linear em x como Regressão NãoLinear Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 6 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Na Regressão Multivariada temos um problema adicional a ser tratado o relacionamento entre as variáveis explicativas Este problema é descrito como Multicolinearidade HAIR JR et al 2014 Multicolinearidade A habilidade de uma variável independente adicional melhorar o modelo de regressão está relacionada não somente à sua correlação com a variável dependente mas também às correlações da variável independente adicional com as outras variáveis independentes já presentes no modelo Colinearidade é a associação medida como correlação entre duas variáveis independentes Multicolinearidade se refere à correlação entre três ou mais variáveis independentes evidenciada quando uma é regredida em relação às outras O impacto da multicolinearidade é reduzir qualquer poder preditivo de uma variável indepen dente única pela extensão a qual ela está associada com outra variável independente Conforme a colinearidade aumenta a variância única explicada por cada variável independente diminui e o percentual de predição compartilhada aumenta Como esta predição compartilhada somente conta uma vez a predição total aumenta muito mais lentamente quando variáveis altamente correlacionadas são adicionadas ao modelo Para maximizar a predição de um dado número de variáveis independentes devemos procurar aquelas que tenham baixa multicolinearidade com outras variáveis independentes mas que também tenham alta correlações com a variável dependente Predição com Regressão Múltipla Um propósito fundamental da regressão múltipla é prever a variável dependente com um conjunto de variáveis independentes Fazendo isso a regressão múltipla cumpre um de dois objetivos O primeiro objetivo é maximizar o poder preditivo total das variáveis independentes conforme representado na equação de regressão obtida juntamente com os coeficientes Acurácia da predição é um ponto crítico para esta avaliação O segundo objetivo é a comparação de dois ou mais conjuntos de variáveis independentes para avaliar o poder preditivo de cada equação de regressão ou seja encontrar o melhor Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 7 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis subconjunto de variáveis que resulta no melhor modelo Transformações de Variáveis Um problema frequentemente encontrado na regressão múltipla é a incorporação de dados nãométricos tais como gênero ocupação etc na equação de regressão ou seja variáveis categóricas Isso porque a regressão múltipla é limitada a dados métricos numéricos Quando temos variáveis destes tipos nominal ou ordinal elas devem ser transformadas em variáveis numéricas utilizando um esquema de codificação dentre os esquemas possíveis de transformação há a codificação de zeros e uns chamada de dummy coding Assumindo que xi seja um fator com k níveis a submatriz de X correspondente a xi é uma matriz n k de zeros e uns onde o jésimo elemento na iésima linha é um quando xi1 estiver no jésimo nível Veja no Material Complementar da Trilha exemplos destes tipos de codificação incluindo um feito no R Outro problema ou restrição é a inabilidade de se representar diretamente relacionamentos não lineares das variáveis preditoras independentes Uma alternativa para estas situações relacionamentos não lineares é a criação de novas variáveis através de transformações algébricas que eliminam os termos não lineares Outro uso para transformações de variáveis é para acertar violações de alguma das premissas hipóteses estatísticas Assim temos duas razões básicas para transformarmos variáveis Melhorar ou modificar o relacionamento entre as variáveis dependente e independentes não linearidade ou violação de premissas estatísticas do método de mínimos quadrados Habilitar o uso de variáveis não métricas na equação de regressão dummy coding Veremos exemplos destas transformações ao longo do tema regressão múltipla e também regressão generalizada Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 8 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Estudo de caso de regressão múltipla Vamos fazer um estudo de caso um exemplo geral Utilizaremos a base de dados statex77 que faz parte da instalação base do R Queremos explorar o relacionamento entre a taxa de assassinatos de um estado e outras características do estado incluindo população grau de analfabetismo renda média e níveis de frio número médio de dias abaixo de zero A base de dados statex77 está contida em uma matriz e a função lm requer que os dados estejam em um dataframe Então precisamos acertar isso antes de prosseguir explorando os dados states asdataframe statex77cMurderPopulationIlliteracyIncomeFrost Vamos explorar um pouco nossa base de dados para ganharmos mais insights sobre ela Explorando os dados Um bom começo da regressão múltipla é examinar os relacionamentos entre as variáveis duas de cada vez A função cor pode ser utilizada para fornecer uma matriz das correlações entre as variáveis O pacote GGally fornece algumas opções interessantes de visualização de dados Por exemplo a função ggcorr permite visualizar as correlações graficamente com cores e rótulos mais indicativos como mostrado na Figura 1 libraryggplot2 libraryggpubr libraryggfortify libraryGGally ggcorrstates palette RdYlGn name bquoterho label TRUE labelcolor black labs caption Fonte Elaborado pelo autor themeplotcaption elementtexthjust 0size 8 Também podemos criar alguns gráficos especiais do tipo pares scatter plots para inspecionarmos visualmente os relacionamentos Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 9 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 1 Correlação entre variáveis da base statex77 03 07 02 05 01 02 03 04 07 02 Murder Population Illiteracy Income Frost 10 05 00 05 10 ρ Fonte Elaborado pelo autor A função ggpairs do mesmo pacote GGally permite esta visualização agrupando no mesmo gráfico curva de densidade gráfico de dispersão scatter plots e a correlação entre as respectivas variáveis como mostrado na Figura 2 ggpairsstates columns 1ncolstates title axisLabels show themeaxistextx elementtextangle90 vjust05 size10 themepubr labspubr labs caption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 Do gráfico mostrado na Figura 2 podemos ver que a variável Murder taxa de assassinato possui uma distribuição bimodal o que é um problema para o tipo de modelagem que estamos tratando Além disso vemos também que cada variável preditora tem alguma distorção em sua distribuição A taxa de assassinato aumenta com a população e com o analfabetismo e ela cai com o aumento da renda média e o número de dias frios Ao mesmo tempo observamos que os estados mais frios tem menores taxas de analfabetismo e população mas tem renda média maior Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 10 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 2 Visualização de Curva de Densidade Gráfico de Dispersão e correlações das variáveis do conjunto de dados statex77 Corr 0344 Corr 0703 Corr 0108 Corr 023 Corr 0208 Corr 0437 Corr 0539 Corr 0332 Corr 0672 Corr 0226 Murder Population Illiteracy Income Frost Murder PopulationIlliteracy Income Frost 4 8 12 0 5000 10000 15000 20000 1 2 3000 4000 5000 6000 0 50 100 150 0000 0025 0050 0075 0 5000 10000 15000 20000 1 2 3000 4000 5000 6000 0 50 100 150 Fonte Elaborado pelo autor Ajustando um Modelo de Regressão Linear Multivariada Vamos utilizar a função lm para fazer o ajuste multivariado fit lmMurder Population Illiteracy Income Frost datastates summaryfit Call lmformula Murder Population Illiteracy Income Frost data states Residuals Min 1Q Median 3Q Max 47960 16495 00811 14815 76210 Coefficients Estimate Std Error t value Prt Intercept 1235e00 3866e00 0319 07510 Population 2237e04 9052e05 2471 00173 Illiteracy 4143e00 8744e01 4738 219e05 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 11 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Income 6442e05 6837e04 0094 09253 Frost 5813e04 1005e02 0058 09541 Signif codes 0 0001 001 005 01 1 Residual standard error 2535 on 45 degrees of freedom Multiple Rsquared 0567 Adjusted Rsquared 05285 Fstatistic 1473 on 4 and 45 DF pvalue 9133e08 Analisando o Modelo Multivariado Ajustado Quando temos mais do que uma variável preditora os coeficientes de regressão indicam o aumento na variável dependente para uma unidade de mudança na variável preditora mantendose todas as outras variáveis preditoras constante No nosso exemplo ainda com todas as variáveis no modelo o coeficiente de regressão para Illiteracy é 4143 sugerindo que um aumento de 1 no analfabetismo está associado com um aumento de 4143 na taxa de assassinato O coeficiente é diferente de zero com nível de significância de 005 P 00001 Por outro lado o coeficiente para Frost não é significantemente diferente de zero p 0954 sugerindo que Frost e Murder não estão linearmente relacionadas quando se controla as outras variáveis preditoras O mesmo ocorre com Income isto é não é significantemente diferente de zero p 0925 Em conjunto as variáveis preditoras respondem por 57 da variância na taxa de assassinato dos estados Rquadrado já o valor do Rquadrado ajustado é de 05285 Depois de identificarmos variáveis que não são estatisticamente significantes podemos atualizar nosso modelo removendoas O processo de remoção deve ser feito uma variável de cada vez com uma reavaliação do modelo a cada passo Isto porque ao se remover uma variável as restantes serão afetadas podendo passar a ter significância estatística ou deixando de ter Começamos com Frost fit updatefit Frost summaryfit Call lmformula Murder Population Illiteracy Income data states Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 12 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Residuals Min 1Q Median 3Q Max 47846 16768 00839 14783 76417 Coefficients Estimate Std Error t value Prt Intercept 13402721 33694210 0398 06926 Population 00002219 00000842 2635 00114 Illiteracy 41109188 06706786 6129 185e07 Income 00000644 00006762 0095 09245 Signif codes 0 0001 001 005 01 1 Residual standard error 2507 on 46 degrees of freedom Multiple Rsquared 05669 Adjusted Rsquared 05387 Fstatistic 2007 on 3 and 46 DF pvalue 184e08 Continuamos nossa atualização do modelo removendo as variáveis que não tiveram significado estatístico Income é a proxima candidata a remoção fit updatefit Income summaryfit Call lmformula Murder Population Illiteracy data states Residuals Min 1Q Median 3Q Max 47652 16561 00898 14570 76758 Coefficients Estimate Std Error t value Prt Intercept 1652e00 8101e01 2039 004713 Population 2242e04 7984e05 2808 000724 Illiteracy 4081e00 5848e01 6978 883e09 Signif codes 0 0001 001 005 01 1 Residual standard error 2481 on 47 degrees of freedom Multiple Rsquared 05668 Adjusted Rsquared 05484 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 13 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Fstatistic 3075 on 2 and 47 DF pvalue 2893e09 Chegamos agora a um modelo que tem apenas duas variáveis explicativas a equação do nosso modelo é Murder 1652 00002242 Population 4081 Illiteracy Ou seja o aumento de 1 ponto percentual na taxa de analfabetismo implica no aumento de 4081 na taxa de assassinato Observe a pequena mudança em relação ao primeiro modelo O aumento da população tem um impacto bem menor sobre a taxa de assassinato um aumento de cerca de 10000 na População está associado a um aumento aproximado de 2 na taxa de assassinato Representando Interações ou Efeito Moderador Em uma regressão linear multivariada podemos descobrir que o modelo linear deve considerar interações entre as variáveis se quiser ser bem sucedido Estas interações são também conhecidas como efeito moderador que significa que o relacionamento entre um variável indepedente e a dependente é afetado por outra variável independente Para estudarmos este efeito vamos utilizar a base de dados mtcars que faz parte da instalação base do R através do pacote datasets Veja o help desta base de dados para mais informações sobre ela mtcars Estamos interessados no impacto do peso e da potência dos automóveis na consumo de combustível mileage Vamos construir um modelo de regressão que inclua ambas as variáveis preditoras juntamente com sua interação fitmpg lmmpg hp wt hpwt datamtcars summaryfitmpg Call lmformula mpg hp wt hpwt data mtcars Residuals Min 1Q Median 3Q Max 30632 16491 07362 14211 45513 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 14 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Coefficients Estimate Std Error t value Prt Intercept 4980842 360516 13816 501e14 hp 012010 002470 4863 404e05 wt 821662 126971 6471 520e07 hpwt 002785 000742 3753 0000811 Signif codes 0 0001 001 005 01 1 Residual standard error 2153 on 28 degrees of freedom Multiple Rsquared 08848 Adjusted Rsquared 08724 Fstatistic 7166 on 3 and 28 DF pvalue 2981e13 Podemos ver da coluna com os Prt que a interação entre horsepower e peso do carro é significante O que isso significa Uma interação signifcante entre duas variáveis preditoras nos diz que o relacionamento entre uma variável preditora e a variável resposta depende do nível da outra preditora Aqui significa que o relacionamento entre milhas por galão e horsepower varia conforme o peso do carro O modelo de previsão de mpg é ˆ mpg 4981 012 hp 822 wt 003 hp wt Para interpretar a interação podemos colocar diversos valores de wt e simplificar a equação Dentre os valores possíveis utilizase a média 32 e também um desvio padrão para cima e um para baixo da média 22 e 42 respectivamente Para wt 22 a equação simplifica para ˆ mpg 4981 012 hp 822 22 003 hp 22 ˆ mpg 3141 006 hp Para wt 32 a equação se torna ˆ mpg 2337 003 hp Para wt 42 a equação se torna ˆ mpg 1533 0003 hp Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 15 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Podemos ver que conforme o peso do carro aumenta 22 32 42 a mudança esperada em mpg por aumento unitário em hp diminui 006 003 0003 Podemos visualizar as interações utilizando a função effect do pacote effects juntamente com seu método plot A função effect retorna um objeto que contém os valores ajustados do modelo para cada valor da variável especificada pelo parâmetro xlevels Veja o help da função para mais detalhes sobre sua utilização effect Para visualizarmos o gráfico dos efeitos o formato da chamada da função é ploteffectterm mod xlevels multilineTRUE Ao invés de utilizarmos esta função diretamente vamos utilizar o objeto eff retornado e construir um dataframe para ser utilizado com o ggplot2 e termos mais controle sobre o aspecto visual final do gráfico conforme mostrado na Figura 3 libraryeffects efeitos effecthpwt fitmpg listwtc223242 dfef asdataframeefeitos dfefwt asfactordfefwt ggplotdata dfef geomlineaesy fit x hp shape wt color wt geompointaesx hp y fit shape wt color wt ylabmpg themepubrlegend right labspubr labs caption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 Podemos ver pelo gráfico da Figura 3 que conforme o peso do carro aumenta o relacionamento entre horsepower e milhas por galão se enfraquece Para wt 42 a linha é praticamente horizontal indicando que conforme wt aumenta mpg não muda Diagnósticos da Regressão Ajustar o modelo é somente parte da etapa de análise Uma vez que ajustamos um modelo de regressão precisamos avaliar se conseguimos atingir as hipóteses estatísticas subjacentes à nossa abordagem antes de pensarmos em intervalos de confiança Até aqui utilizamos a função summary para termos os parâmetros do modelo e um sumário das estatísticas Infelizmente como já vimos na Trilha de Regressão Linear Simples nada na saída Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 16 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 3 Efeito da Interação hpwt no consumo mpg 15 20 25 100 200 300 hp mpg wt 22 32 42 Fonte Elaborado pelo autor da função summarymodel nos diz se o nosso modelo é apropriado ou seja que ele satisfaz as hipóteses estatísticas subjacentes Nossa confiança nas inferências sobre os parâmetros da regressão dependem do grau em que conseguimos atender as hipóteses estatísticas do modelo de minimos quadrados ordinários OLS Por que isso é importante Irregularidades nos dados ou uma especificação errada dos relacionamentos entre as variáveis preditoras e a variável resposta pode nos levar a especificar um modelo amplamente impreciso Também podemos concluir que uma variável preditora e a variável resposta não estão relacionadas quando na verdade estão Ou o contrário Vamos começar nosso diagnóstico examinando os intervalos de confiança dos coeficientes utilizaremos o modelo completo para uma análise didática apenas Normalmente podemos utilizar apenas os coeficientes do modelo já reduzido Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 17 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis fitcoef lmMurder Population Illiteracy Income Frost datastates confintfitcoef 25 975 Intercept 6552191e00 90213182149 Population 4136397e05 00004059867 Illiteracy 2381799e00 59038743192 Income 1312611e03 00014414600 Frost 1966781e02 00208304170 Os resultados sugerem que podemos estar 95 confiantes de que o intervalo 238 590 contém a mudança verdadeira na taxa de assassinato para uma mudança de 1 na taxa de analfabetismo Adicionalmente como o intervalo de confiança de Frost contém 0 podemos concluir que uma mudança na temperatura não está relacionado à taxa de assassinato mantendose as outras variáveis constantes Mas nossa fé neste modelo deve ser tão forte quanto as evidências que temos sobre se nossos dados satisfazem as hipóteses estatísticas no modelo subjacente Vamos fazer um diagnóstico do nosso modelo verificando a homocedasticidade e também o comportamento dos resíduos com relação aos quantis teóricos ou seja o gráfico QQplot Ao invés de utilizarmos a função plot do objeto retornado por lm para obtermos os gráficos diagnósticos vamos utilizar o ggplot2 através da biblioteca ggfortify O ggplot2 não consegue acessar alguns tipos de dados na verdade ele precisa sempre de um dataframe tal como faz a função plot do sistema gráfico base então para conseguirmos obter os gráficos diagnósticos pelo ggplot2 vamos utilizar a função autoplot do pacote ggfortify autoplot Vamos selecionar apenas os dois primeiros gráficos como mencionado acima Os gráficos diagnósticos são mostrados na Figura 4 autoplotfit which 12 ncol 2 labelsize 2 themepubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 Teoricamente os dois gráficos devem ter os seguintes comportamentos O gráfico Residuals vs Fitted mostra os resíduos no eixo y contra os valores ajustados no eixo x Não se deve observar estruturas ou padrões no gráfico Os pontos devem se Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 18 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 4 Gráficos Diagnósticos do Modelo Ajustado Nevada Rhode Island Massachusetts 5 0 5 6 9 12 Fitted values Residuals Residuals vs Fitted Fonte Elaborado pelo autor Nevada Rhode Island Massachusetts 2 1 0 1 2 3 2 1 0 1 2 Theoretical Quantiles Standardized residuals Normal QQ Fonte Elaborado pelo autor parecer como o céu à noite É um problema se os pontos se espalham conforme os valores ajustados ficam maiores como se fosse uma fatia de queijo O gráfico Normal QQ QQPlot que deve ser uma linha reta se os erros são normalmente distribuídos Se o gráfico tivesse a forma de um S ou de uma banana precisariamos ajustar um modelo diferente Analisando os nossos gráficos diagnósticos acima temos Os resíduos do nosso modelo tem um comportamento bem próximo do que se espera isto é não há um aumento dos resíduos com o aumento da variável dependente Isto significa que nosso modelo apresenta homocedasticidade adequada Os resíduos do nosso modelo também apresentam uma distribuição não muito divergente de uma distribuição normal exceto pela parte inicial 4 ou 5 primeiros pontos como pode ser observado do gráfico Normal QQ Ademais as observações destacadas rotuladas nos gráficos indicam possíveis problemas em termos de alavancagem eou outliers No momento não abordaremos estes possíveis problemas Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 19 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Regressão Múltipla com termo quadrático Vamos fazer mais um estudo de caso demonstrando a utilização de termos quadráticos no modelo de regressão múltipla Como já falamos os coeficientes do modelo permanecem lineares mas as variáveis preditoras explicativas podem ter outro relacionamento Vamos utilizar o conjunto de dados women da instalação base do R que provê a altura e o peso para um conjunto de 15 mulheres com idades entre 30 a 39 anos Queremos prever o peso a partir da altura isto é iniciaremos com um modelo de regressão linear simples do tipo peso altura Iniciamos com uma exploração rápida dos dados summarywomen height weight Min 580 Min 1150 1st Qu615 1st Qu1245 Median 650 Median 1350 Mean 650 Mean 1367 3rd Qu685 3rd Qu1480 Max 720 Max 1640 Uma inspeção na estrutura strwomen dataframe 15 obs of 2 variables height num 58 59 60 61 62 63 64 65 66 67 weight num 115 117 120 123 126 129 132 135 139 142 E uma inspeção visual para uma primeira ideia sobre o relacionamento entre as duas variáveis de interesse como mostrado na Figura 5 g1 ggplotdata women geompointaesx height y weight color red themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 g1 Vamos então iniciar nossa modelagem com uma regressão linear simples do peso como uma Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 20 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 5 Relacionamento entre peso e altura das mulheres 120 130 140 150 160 60 64 68 72 height weight Fonte Elaborado pelo autor função da altura ie weight height fitw1 lmweight height datawomen summaryfitw1 Call lmformula weight height data women Residuals Min 1Q Median 3Q Max 17333 11333 03833 07417 31167 Coefficients Estimate Std Error t value Prt Intercept 8751667 593694 1474 171e09 height 345000 009114 3785 109e14 Signif codes 0 0001 001 005 01 1 Residual standard error 1525 on 13 degrees of freedom Multiple Rsquared 0991 Adjusted Rsquared 09903 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 21 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 6 Peso como função da altura com modelo linear 120 130 140 150 160 60 64 68 72 height weight Fonte Elaborado pelo autor Fstatistic 1433 on 1 and 13 DF pvalue 1091e14 Analisando nosso modelo pelo sumário da regressão podemos ser levados a pensar que já temos um modelo ótimo afinal conseguimos explicar 9903 da variância dos nossos dados além disso os dois coeficientes encontrados tem significância estatística a um nível de 5 Vamos visualizar nosso modelo juntamente com os pontos de dados como mostrado na Figura 6 slope asnumericfitw1coefficients2 interc asnumericfitw1coefficients1 g1 ggplotdata women geompointaesx height y weight color red geomablineslope slope intercept interc color blue data women themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 g1 Pela figura acima o modelo linear simples apesar de explicar um elevado percentual da variância Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 22 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 7 Gráficos Diagnósticos da Regressão Base women 15 1 8 1 0 1 2 3 120 130 140 150 160 Fitted values Residuals Residuals vs Fitted Fonte Elaborado pelo autor 15 1 8 1 0 1 2 2 1 0 1 2 Theoretical Quantiles Standardized residuals Normal QQ Fonte Elaborado pelo autor dos dados parece não ser o que mais se adequa ao formato dos nossos dados Continuamos nossa avaliação do modelo e como já falamos outras vezes precisamos nos certificar que nosso modelo atende às premissas estatísticas do método de mínimos quadrados ordinários OLS Para isso utilizamos novamente os gráficos diagnósticos dos resíduos e o QQPlot como mostrado na Figura 7 autoplotfitw1 which 12 ncol 2 labelsize 3 themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 O gráfico dos resíduos do nosso modelo claramente aponta para uma inapropriação de um modelo linear simples para descrever nossos dados O gráfico apresenta um aspecto de U Da mesma forma o gráfico QQPlot apresenta uma forma acentuada de banana indicando também que os resíduos não seguem bem uma distribuição normal Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 23 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Como vimos na fase exploratória nossos dados apresentam uma forma levemente curva esta forma curva aliado ao que observamos no formato do gráfico dos resíduos U nos leva à seguinte decisão incluir um termo quadrático no nosso modelo isto é um termo do tipo X2 para capturarmos este comportamento dos dados no modelo A inclusão do termo quadrático no modelo é feita com a função I Esta função que significa asis indica para o R que ele deve interpretar o termo do modelo tal como está escrito neste caso um termo quadrático height2 Isto é necessário pois em uma fórmula do R a expressão heightˆ2 indicaria uma interação da variável com ela mesma Veja a seção Criando fórmulas no R no Material Complementar da Trilha fitw2 lmweight height Iheight2 datawomen summaryfitw2 Call lmformula weight height Iheight2 data women Residuals Min 1Q Median 3Q Max 050941 029611 000941 028615 059706 Coefficients Estimate Std Error t value Prt Intercept 26187818 2519677 10393 236e07 height 734832 077769 9449 658e07 Iheight2 008306 000598 13891 932e09 Signif codes 0 0001 001 005 01 1 Residual standard error 03841 on 12 degrees of freedom Multiple Rsquared 09995 Adjusted Rsquared 09994 Fstatistic 1139e04 on 2 and 12 DF pvalue 22e16 Novamente analisamos o sumário do nosso modelo e verificamos que temos significância estatística para todos os coeficientes incluindo o termo quadrático e agora conseguimos explicar 9994 da variância dos nossos dados Vamos então aos gráficos diagnósticos como mostrados na Figura 8 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 24 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 8 Gráficos Diagnósticos da Regressão com termo quadrático Base women 15 13 2 03 00 03 06 120 130 140 150 160 Fitted values Residuals Residuals vs Fitted Fonte Elaborado pelo autor 15 13 2 1 0 1 2 2 1 0 1 2 Theoretical Quantiles Standardized residuals Normal QQ Fonte Elaborado pelo autor autoplotfitw2 which 12 ncol 2 labelsize 3 themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 Analisando os gráficos vemos que a homocedasticidade dos resíduos agora está mais aceitável ou seja a variância se mantem dentro da mesma faixa ao longo dos valores ajustados Da mesma forma o gráfico QQPlot também mostra que os resíduos agora apresentam uma distribuição bem mais próxima de uma normal Vamos examinar novamente o modelo ajustado mostrado no gráfico da Figura 9 g2 ggplotdata women aesx height y weight geompointcolor red geomsmooth method lm formula y x Ix2 se FALSE color blue data women themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 g2 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 25 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 9 Peso como função da altura com modelo com termo linear quadrático 120 130 140 150 160 60 64 68 72 height weight Fonte Elaborado pelo autor Como pode ser observado no gráfico acima temos agora um ajuste muito mais preciso utilizando uma equação quadrática Apesar de ser mínima a forma quadrática dos dados exige um modelo também quadrático para que tenhamos um ajuste apropriado seguindo as premissas básicas da modelagem com mínimos quadrados Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 26 II 2 Transformações de Variáveis 28 Transformações de Variáveis 2 Transformações de Variáveis Quando os modelos não atendem as hipóteses de normalidade linearidade homocedasticidade transformações de uma ou mais variáveis frequentemente tem bom resultado para melhorar ou corrigir a situação Quando o modelo viola as hipóteses de normalidade a transformação tipicamente é realizada na variável resposta Quando a hipótese de linearidade é violada uma transformação nas variáveis explicativas pode ajudar Transformação na Variável Resposta Transformação de potência Y λ As transformações típicas envolvem substituir a variável resposta Y por Y λ Valores típicos de λ e sua interpretação são dados no Quadro 1 Se Y é uma proporção uma transformação logit lnY1 Y é frequentemente utilizada Quadro 1 Transformações típicas de variáveis e valores típicos de λ KABACOFF 2015 λ 2 1 05 0 05 1 2 Transformação 1Y 2 1Y 1 Y logY Y Nenhuma Y 2 Fonte Elaborado pelo próprio autor Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 28 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 10 Níveis de Ozônio como função da Temperatura 0 10 20 30 40 60 80 Temperatura Ozônio Fonte Elaborado pelo autor 3 5 54 4 6 35 5 4 45 6 4 55 Após a leitura dos dados vamos ver a relação entre as duas variáveis através de um gráfico de dispersão como mostrado na Figura 10 libraryggplot2 libraryggpubr libraryggfortify g ggplotdata ozdata aesx temperatura y ozonio geompoint xlabTemperatura ylabOzônio themepubr labspubr labs caption Fonte Elaborado pelo autor themeplotcaption elementtexthjust 0size 8 g Observe que o gráfico de dispersão mostrado na Figura 10 mostra uma forte relação crescente não linear entre as medidas de ozônio e temperatura Também observamos que as medidas de ozônio apresentam aumento de variabilidade para valores crescentes de temperatura Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 30 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Diante disso podemos levantar dúvidas se o ajuste do modelo de regressão linear simples com as variáveis na sua forma original é adequado neste caso Vamos fazer este ajuste para evidenciar sua inadequação através da análise de resíduos oz1 lmozonio temperatura ozdata summaryoz1 Call lmformula ozonio temperatura data ozdata Residuals Min 1Q Median 3Q Max 109939 38202 01796 31951 150112 Coefficients Estimate Std Error t value Prt Intercept 1493745 121247 1232 2e16 temperatura 043257 001912 2263 2e16 Signif codes 0 0001 001 005 01 1 Residual standard error 5014 on 328 degrees of freedom Multiple Rsquared 06095 Adjusted Rsquared 06083 Fstatistic 5119 on 1 and 328 DF pvalue 22e16 Teste de normalidade dos Resíduos Uma das premissas estatísticas para a utilização do método dos mínimos quadrados ordinários OLS é que a variável resposta Y tenha uma distribuição normal em torno da média O teste de ShapiroWilk utiliza o princípio da hipótese nula para verificar se uma amostra vem de uma população com distribuição normal A hipótese nula deste teste é que a população é normalmente distribuída Assim se o pvalue é menor do que o nível do alfa escolhido a hipótese nula é rejeitada e há evidência de que os dados testados não são de uma população com distribuição normal shapirotestresidualsoz1 ShapiroWilk normality test Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 31 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 11 Gráficos Diagnósticos da Regressão 53 124 220 10 0 10 0 10 20 Fitted values Residuals Residuals vs Fitted Fonte Elaborado pelo autor 53 124 220 2 1 0 1 2 3 3 2 1 0 1 2 3 Theoretical Quantiles Standardized residuals Normal QQ Fonte Elaborado pelo autor data residualsoz1 W 09856 pvalue 0002235 Observamos pelo Teste de normalidade de ShapiroWilk que a hipótese nula deve ser rejeitada já que obtivemos um pvalue de 00022 Gráficos Diagnósticos Continuamos nosso diagnóstico do modelo ajustado agora com a inspeção dos gráficos diagnósticos Vamos inspecionar os seguintes gráficos resíduos valores ajustados gráfico dos quantis teóricos quantis dos resíduos QQPlot conforme mostrado na Figura 11 autoplotoz1 which 12 ncol 2 labelsize 2 smoothlinetype 0 themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 32 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 12 Histograma dos resíduos 0 10 20 10 0 10 Residuos Frequência Fonte Elaborado pelo autor Observamos nos gráficos da Figura 11 que a variância dos erros não é constante gráfico Resíduos x Valores Ajustados há um aumento na variabilidade dos resíduos com o aumento do valor da variável resposta Y no gráfico QQplot observamos que há um desvio da normalidade gráfico QQPlot suposição que também é confirmada pelo Teste de normalidade de ShapiroWilk cujo pvalor 00022 Outra premissa do método dos mínimos quadrados ordinários OLS é que os resíduos tenham uma distribuição normal Vamos então fazer um histograma dos resíduos conforme mostrado na Figura 12 Nesta figura observamos que a distribuição aparenta ser bimodal dfhist dataframeResiduos residualsoz1Ajustados fittedoz1 gh ggplotdata dfhist aesx Residuos geomhistogram themepubr labspubr ylabFrequência labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 gh A fim de solucionar os problemas de variância nãoconstante devese tentar realizar uma transfor Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 33 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis mação na variável resposta Y Apesar de ser possível em muitos casos selecionar empiricamente a transformação adequada do tipo Y λ vamos utilizar a técnica da Transformação BoxCox Utilizamos a função boxcox do pacote MASS para a determinação do parâmetro λ A função boxcox é muito fácil de utilizar especificamos a fórmula do modelo e normalmente as opções padrões cuidam de todo o resto O gráfico padrão da função boxcox tem como limites 22 Como estamos interessados no ponto de máximo fazemos um novo gráfico com um zoom na região de interesse como mostrado na Figura 13 requireMASS librarydplyr setseed123456 optionsdigits 7 parmfrow c12 boxcoxoz1 eps 0001 mtextFonte Elaborado pelo autor xpd NA cex 07 side 1 line 38 adj1 boxcoxoz1 lambdaseq02 04 by001 eps 0001 parmfrow c11 Pelo gráfico verificamos que o máximo da verossimilhança foi atingido com aproximadamente λ 0 27 com intervalo de confiança de 95 igual a 015039 Como esse intevalo não inclui o valor 1 há forte evidência da necessidade de transformação na variável resposta ozônio Para extrairmos o valor calculado de lambda chamamos a função boxcox mas agora atribuindo o resultado a uma variável objeto O retorno da função é uma lista do vetor lambda e do perfil do vetor loglikelihood calculados estes vetores são invisíveis quando os resultados são plotados Estamos interessados no valor de lambda no máximo do loglikelihood bx boxcoxoz1 lambdaseq02 04 by001 plotit FALSE eps 0001 bxdf dataframex bxxy bxy bx2df bxdfwithbxdf orderbxdfy bx2df1 x y 8 027 6954193 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 34 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 13 Gráfico da função boxcox para determinar o valor ótimo de lambda 2 1 0 1 2 1300 1100 900 700 λ logLikelihood 95 Fonte Elaborado pelo autor 020 025 030 035 040 6975 6965 6955 λ logLikelihood 95 roundbx2df1x4 1 027 O valor calculado de λ pelo método da função boxcox é 027 Assim a transformação dos dados será dada por ozonio ozonio027 10 27 Se o intervalo de confiança contivesse o 0 provavelmente a transformação logarítmica dos dados poderia ser utilizada com bons resultados Sendo assim a nova variável transformada ozoniotrans deve ser inserida no nosso conjunto de dados para que o novo modelo de regressão linear simples seja ajustado lmbd roundbx2df1x3 ozdatatrans mutateozdata ozoniotrans ozoniolmbd 1lmbd headozdatatrans ozonio temperatura ozoniotrans 1 3 40 1278930 2 5 45 2015797 3 5 54 2015797 4 6 35 2304395 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 35 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 14 Níveis de Ozônio após transformação em função da temperatura 0 2 4 6 40 60 80 temperatura Ozônio transformado y yλ 1 λ Fonte Elaborado pelo autor 5 4 45 1681380 6 4 55 1681380 Com a variável resposta transformada fazemos novamente o gráfico de dispersão como mostrado na Figura 14 g ggplotozdatatrans aesx temperatura y ozoniotrans geompoint ylabexpressionOzôniotransformadoyylambda 1lambda themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 g O gráfico mostrado na Figura 14 indica uma forte relação linear crescente entre as medidas de ozônio transformadas via método de Box Cox versus temperatura com variabilidade aproxima damente constante que era o nosso objetivo Podemos então ajustar novamente o modelo linear agora utilizando a variável transformada Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 36 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis oz2 lmozoniotrans temperatura ozdatatrans summaryoz2 Call lmformula ozoniotrans temperatura data ozdatatrans Residuals Min 1Q Median 3Q Max 199712 056569 007148 056078 241671 Coefficients Estimate Std Error t value Prt Intercept 1408685 0199642 7056 102e11 temperatura 0074039 0003148 23520 2e16 Signif codes 0 0001 001 005 01 1 Residual standard error 08256 on 328 degrees of freedom Multiple Rsquared 06278 Adjusted Rsquared 06266 Fstatistic 5532 on 1 and 328 DF pvalue 22e16 Examinamos agora os gráficos diagnósticos do nosso modelo com a variável transformada como mostrado na Figura 15 autoplotoz2 which 12 ncol 2 labelsize 3 smoothlinetype 0 themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 Examinamos também o histograma dos resíduos lembrando que devem seguir uma distribuição normal como mostrado na Figura 16 dfhist dataframeResiduos residualsoz2Ajustados fittedoz2 gh ggplotdata dfhist aesx Residuos geomhistogram themepubr labspubr ylabFrequência labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 gh Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 37 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 15 Gráficos Diagnósticos após transformação BoxCox 53 109 78 2 1 0 1 2 1 2 3 4 5 Fitted values Residuals Residuals vs Fitted Fonte Elaborado pelo autor 53 109 78 2 1 0 1 2 3 3 2 1 0 1 2 3 Theoretical Quantiles Standardized residuals Normal QQ Fonte Elaborado pelo autor Figura 16 Histograma dos Resíduos variável níveis de Ozônio transformada 0 10 20 30 2 1 0 1 2 Residuos Frequência Fonte Elaborado pelo autor Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 38 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis O novo ajuste oz2 cuja equação da reta ajustada é dada por ˆY 1 41 0 074Xi tem um R2 ajustado 0 63 Pelos gráficos diagnósticos mostrados na Figura 15 observase que a suposição de normalidade é aceitável bem como a homocedasticidade dos erros Realizamos o teste de ShapiroWilk para verificarmos o resultado da transformação BoxCox shapirotestresidualsoz2 ShapiroWilk normality test data residualsoz2 W 099325 pvalue 01456 Obtemos agora um pvalue que cai na região de aceitação da hipótese nula indicando que a transformação surtiu o efeito desejado Transformação na Variável Explicativa Além de transformações na variável dependente resposta também é possível realizar trans formações na variável explicativa tais transformações são geralmente necessárias quando os aspectos de linearidades não estão sendo atendidos e não se quer introduzir termos não lineares de variáveis explicativas O objetivo é a a obtenção de um modelo estatístico mais adequado para a descrição dos dados Vamos estudar um pequeno conjunto de dados neste exemplo Exemplo de Transformação na Variável Explicativa Os dados fictícios que utilizaremos tratam do estudo que o gerente de Recursos Humanos de uma loja realizou para estimar o efeito do número de dias de treinamento X no desempenho em um teste simulado de vendas Y aplicado em seus vendedores Os dados estão na Tabela 1 Ao invés de fazermos a leitura dos dados de um arquivo vamos colocálos diretamente em um dataframe no R chamado treinovenda os nomes das variáveis devem ser Tempo e Desempenho respectivamente Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 39 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Tabela 1 Tempo de Treinamento vs Desempenho no teste Tempo de Treinamento Desempenho 05 425 05 506 1 685 1 807 15 89 15 996 2 1053 2 1118 25 1123 25 1257 Fonte Elaborado pelo autor treinovenda dataframeTempoc0505111515222525 Desempenhoc425506685807899961053111811231257 headtreinovenda Tempo Desempenho 1 05 425 2 05 506 3 10 685 4 10 807 5 15 890 6 15 996 Vamos fazer uma primeira inspeção visual dos dados através de um gráfico de dispersão mostrado na Figura 17 g ggplottreinovenda aesxTempo y Desempenho geompoint xlabTempo de Treinamento themepubr ylabDesempenho de Venda labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 g O gráfico de dispersão da Figura 17 mostra uma relação levemente curvilínea entre X e Y com variabilidade aproximadamente constante nos níveis de X Desse modo vamos tentar realizar uma transformação apenas em X A escolha da transformação adequada aqui é feita apenas de forma empírica Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 40 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 17 Desempenho de Venda vs Tempo de Treinamento 40 60 80 100 120 05 10 15 20 25 Tempo de Treinamento Desempenho de Venda Fonte Elaborado pelo autor Baseandose em padrões já conhecidos vamos escolher a função raiz quadrada ou seja X X Entretanto para fins comparativos antes de realizar a regressão linear simples com a variável transformada X realizamos a regressão com a variável original X ajuste1 lmDesempenho Tempo datatreinovenda summaryajuste1 Call lmformula Desempenho Tempo data treinovenda Residuals Min 1Q Median 3Q Max 120700 22262 03925 43187 110000 Coefficients Estimate Std Error t value Prt Intercept 34945 5948 5875 0000372 Tempo 35770 3587 9973 866e06 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 41 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Signif codes 0 0001 001 005 01 1 Residual standard error 802 on 8 degrees of freedom Multiple Rsquared 09256 Adjusted Rsquared 09163 Fstatistic 9946 on 1 and 8 DF pvalue 866e06 Iniciamos o diagnóstico pelo teste de ShapiroWilk shapirotestresidualsajuste1 ShapiroWilk normality test data residualsajuste1 W 094359 pvalue 05936 Pelo teste de ShapiroWilk obtemos um pvalue 05936 que está na região de aceitação da hipótese nula ou seja resíduos com distribuição normal Mas vamos prosseguir Continuamos nosso diagnóstico do modelo ajustado agora com a inspeção dos gráficos diagnósti cos como mostrado na Figura 18 autoplotajuste1 which 12 ncol 2 labelsize 3 smoothlinetype 0 themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 O histograma dos resíduos mostrados na Figura 19 dfaj1 dataframeresiduos residualsajuste1 ajustados fittedajuste1 g ggplotdata dfaj1 aesx residuos ylabFrequência geomhistogrambinwidth 4 themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 g A análise dos resíduos na Figura 18 indica uma distribuição com tendência parábola que é diferente de um padrão aleatório que seria esperado apesar do resultado do Teste de normalidade de ShapiroWilk cujo Pvalor é 05936 indicar que devemos aceitar a hipótese nula Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 42 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 18 Gráficos Diagnósticos do Modelo Linear 9 6 1 10 5 0 5 10 50 70 90 110 Fitted values Residuals Residuals vs Fitted Fonte Elaborado pelo autor 9 6 1 1 0 1 1 0 1 Theoretical Quantiles Standardized residuals Normal QQ Fonte Elaborado pelo autor Figura 19 Histograma dos Resídudos do Modelo Linear 0 1 2 3 15 10 5 0 5 10 15 residuos Frequência Fonte Elaborado pelo autor Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 43 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 20 Modelo Linear nos dados de Desempenho de Venda vs Tempo de Treinamento 40 60 80 100 120 05 10 15 20 25 Tempo Desempenho Fonte Elaborado pelo autor Para melhor visualizarmos o problema que enfrentamos neste caso vamos plotar também a linha de regressão do nosso modelo como mostrado na Figura 20 it coefajuste11 sl coefajuste12 ggplotdata treinovenda aesx Tempo y Desempenho geompoint geomablineslope sl intercept it themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 Observamos no gráfico mostrado na Figura 20 que a reta de regressão não acompanha bem todos os pontos evidenciando o aspecto curvilíneo da relação entre X e Y A fim de linearizar o modelo acima sem modificar as condições de normalidade vamos utilizar a transformação da variável explicativa pela função raiz quadrada mostrada a seguir treinovendatrans mutatetreinovendaTempotrans sqrtTempo Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 44 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 21 Desempenho de Venda vs Tempo de Treinamento Transformado 40 60 80 100 120 08 10 12 14 16 Tempo de Treinamento Transformado Desempenho de Venda Fonte Elaborado pelo autor Podemos então visualizar o gráfico dos dados transformados mostrado na Figura 21 ggplotdata treinovendatrans aesx Tempotrans y Desempenho geompoint themepubr labspubr xlabTempo de Treinamento Transformado ylabDesempenho de Venda labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 Vamos então ajustar um novo modelo aos dados transformados ajuste2 lmDesempenho Tempotrans datatreinovendatrans summaryajuste2 Call lmformula Desempenho Tempotrans data treinovendatrans Residuals Min 1Q Median 3Q Max 93221 41884 02367 41007 77200 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 45 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Coefficients Estimate Std Error t value Prt Intercept 10328 7892 1309 0227 Tempotrans 83453 6444 12951 12e06 Signif codes 0 0001 001 005 01 1 Residual standard error 6272 on 8 degrees of freedom Multiple Rsquared 09545 Adjusted Rsquared 09488 Fstatistic 1677 on 1 and 8 DF pvalue 1197e06 Repetimos o teste de normalidade dos resíduos para ver se nossa transformação não bagunçou com o que estava OK shapirotestresidualsajuste2 ShapiroWilk normality test data residualsajuste2 W 094032 pvalue 05566 Continuamos com uma distribuição normal para os resíduos com pvalue de 05566 Vamos então fazer uma inspeção visual no modelo plotando os dados e o modelo como mostra a Figura 22 it coefajuste21 sl coefajuste22 ggplotdata treinovendatrans aesx Tempotrans y Desempenho geompoint geomablineslope sl intercept it xlabTempo de Treinamento Transformado themepubr labspubr ylabDesempenho de Venda labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 Vamos também analisar o modelo através dos gráficos diagnósticos mostrados na Figura 23 resíduos vs valores ajustados e QQPlot Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 46 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 22 Curva de Regressão do Modelo Linear com Variável Transformada 40 60 80 100 120 08 10 12 14 16 Tempo de Treinamento Transformado Desempenho de Venda Fonte Elaborado pelo autor autoplotajuste2 which 12 ncol 2 labelsize 3 smoothlinetype 0 themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 A equação da reta ajustada é dada por ˆY 10328 83453X i com R2 ajustado 0 95 maior que o anterior Observamos na Figura 22 que a reta de regressão agora acompanha bem todos os pontos indicando que a linearidade entre X e Y foi alcançada A análise dos resíduos mostrado nos gráficos da Figura 23 indica um bom ajuste do modelo assim como o Teste de normalidade de ShapiroWilk cujo Pvalor é 05566 Finalizando Nesta Trilha abordamos a Regressão Linear Multivariada Transformações de Variáveis e Técnicas de Seleção de Modelos Material Complementar A Regressão Linear Multivariada é a técnica utilizada quando temos mais do que uma variável Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 47 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 23 Gráficos Diagnósticos do Modelo Linear com Variável Transformada 9 6 4 10 5 0 5 60 80 100 120 Fitted values Residuals Residuals vs Fitted Fonte Elaborado pelo autor 9 6 4 1 0 1 1 0 1 Theoretical Quantiles Standardized residuals Normal QQ Fonte Elaborado pelo autor explicativa no nosso modelo Várias aspectos relacionados à sua utilização foram abordados incluindo a verificação de multicolinearidade interação entre variáveis explicativas e as trans formações de variáveis que eventualmente são necessárias Uma restrição importante em nossa abordagem é que a variável resposta deve ser uma combinação linear das variáveis explicativas embora estas possam aparecer como funções quadráticas logarítmicas ou outras Os seus coeficientes no entanto devem ser lineares Quando nosso modelo não atende às hipóteses estatísticas subjacentes para a utilização do método dos mínimos quadrados uma alternativa é realizar transformações de variáveis Vimos nesta Trilha como transformar a variável resposta utilizando a abordagem de BoxCox e também como transformar a variável explicativa com uma função simples raiz quadrada As transformações se mostraram eficientes ao restaurarem os aspectos necessários para que os modelos tivessem aderências às premissas estatísticas Por fim no Material Complementar da Trilha abordamos alguns critérios numéricos objetivos para selecionarmos um melhor modelo entre modelos possíveis com as variáveis presentes nos dados Os critérios abordados são construídos de modo a penalizar modelos com mais variáveis e mesmo poder de explicação O R tem algumas funções que auxiliam na visualização dos testes para a seleção dos modelos dentre as quais algumas foram abordadas nesta Trilha Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 48 Bibliografia BOX G E COX D R An analysis of transformations Journal of the Royal Statistical Society Series B Methodological v 26 n 2 p 211243 1964 HAIR JR J F et al Multivariate Data Analysis 7th ed Harlow Essex UK Pearson Education Ltd 2014 JOHNSON R A WICHERN D W Applied Multivariate Statistical Analysis 3rd ed Englewood Cliffs NJ USA Prentice Hall 1992 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 49
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
23
Capítulo 6: Problemas e Análises
Probabilidade e Estatística 2
UMG
21
Problemas do Capítulo 4
Probabilidade e Estatística 2
UMG
11
Capítulo 2: Problemas e Questões
Probabilidade e Estatística 2
UMG
5
Teoremas Limite e Convergência de Variáveis Aleatórias
Probabilidade e Estatística 2
UMG
7
Capítulo 8: Problemas e Exercícios
Probabilidade e Estatística 2
UMG
77
Introdução à Probabilidade e Inferência Estatística
Probabilidade e Estatística 2
UMG
3
Teorema Central do Limite e suas Aplicações em Estatística
Probabilidade e Estatística 2
UMG
9
Exercises on Counting Principles and Assignments
Probabilidade e Estatística 2
UMG
1
Lei Forte dos Grandes Números - Teorema 41
Probabilidade e Estatística 2
UMG
26
Problemas do Capítulo 3: Análise de Probabilidades
Probabilidade e Estatística 2
UMG
Texto de pré-visualização
CIÊNCIAS DE DADOS BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Mário Olímpio de Menezes Transformação BoxCox Uma transformação típica utilizada para acertos de normalidade da variável resposta é a BoxCox que tem este nome devido aos sobrenomes de seus proponentes G E P Box e D R Cox respectivamente da University of Wisconsin e do Birkbeck College University of London esta transformação foi proposta por eles no artigo intitulado An Analysis of Transformations BOX COX 1964 A transformação de BoxCox é dada pela expressão mostrada na Equação 2 yλ yλ 1 λ se λ 0 log y se λ 0 onde λ é um parâmetro a ser estimado dos dados log é o logaritmo neperiano Uma vez obtido o valor de λ encontramos os valores dos dados transformados conforme a equação acima e utilizamos estes dados transformados para efetuar as análises Exemplo de Transformação na Variável Resposta Para ilustrar este tipo de transformação vamos utilizar uma base de dados sobre medidas de ozônio que faz parte da biblioteca faraway do R Caso não esteja instalada a biblioteca faraway deve ser instalada com o comando installpackagesfaraway O conjunto de dados ozone tem 330 observações e 10 variáveis entre elas a medida de ozônio e de temperatura Para nosso propósito utilizaremos apenas as variáveis ozônio e temperatura libraryfaraway ozdata farawayozonecO3temp namesozdata cozôniotemperatura headozdata ozônio temperatura 1 3 40 2 5 45 Conteúdo I Regressão Multivariada 1 Regressão Linear Multivariada 5 Análise Multivariada 5 Regressão Linear Multivariada ou Múltipla 6 Estudo de caso de regressão múltipla 9 Representando Interações ou Efeito Moderador 14 Diagnósticos da Regressão 16 Regressão Múltipla com termo quadrático 20 II Transformações de Variáveis 2 Transformações de Variáveis 28 Transformação na Variável Resposta 28 Transformação na Variável Explicativa 39 Finalizando 47 Bibliografia 49 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 3 eadmackenziebr I 1 Regressão Linear Multivariada 5 Regressão Multivariada 1 Regressão Linear Multivariada Análise Multivariada A técnica de Regressão Linear Multivariada que é o foco desta Trilha situase dentro do grande tópico das técnicas de Análise Multivariada A Análise Multivariada se refere a todas as técnicas que analisam simultaneamente múltiplas medidas de indivíduos ou objetos sob investigação Assim quaisquer análises simultâneas de mais do que duas variáveis pode ser considerada uma análise multivariada HAIR JR et al 2014 Dados multivariados surgem quando se medem várias variáveis para cada observação na amostra A maioria dos conjuntos de dados coletados por pesquisadores em todas as áreas da ciência são multivariados JOHNSON WICHERN 1992 Nesta Trilha além do tema da Regressão Linear Multivariada também trataremos de Transfor mações de Variáveis e no Material Complementar da Trilha falamos de Seleção de Modelos As Transformações de Variáveis são técnicas utilizadas quando se quer corrigir distorções encontra das na modelagem com relação às premissas estatísticas subjacentes ao método dos mínimos quadrados Podemos fazer transformações na variável resposta ou transformações nas variáveis explicativas Na seção sobre Seleção de Modelos abordaremos os critérios numéricos que nos permitem comparar modelos de regressão bem como algumas facilidades bibliotecas e funções que o R fornece para facilitar este processo de comparação e seleção de modelos Apresentamos como Anexo desta Trilha uma compilação sobre a criação de fórmulas no R diversos tipos de fórmulas seus significados e como podem ser utilizados são apresentados Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 5 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Regressão Linear Multivariada ou Múltipla Quando temos mais do que uma variável preditora explicativa a regressão linear simples se transforma em regressão linear multivariada Assumamos que yi representa o valor da variável resposta no iésimo indivíduo e que xi1 xi2 xi3 xiq representam os valores individuais das q variáveis explicativas com i 1 n O modelo de regressão linear multivariada ou múltipla é dado pela Equação 1 yi β0 β1xi1 βqxiq ϵi 1 O resíduo ou termo de erro ϵi i 1 n são assumidos serem variáveis aleatórias independentes com uma distribuição normal com média zero e variância constante σ2 Consequentemente a distribuição da variável aleatória resposta y também é normal com um valor esperado dado pela combinação linear das variáveis explicativas Eyx1 xq β0 β1x1 βqxq e com variância σ2 Os parâmetros do modelo βk k 1 q são os coeficientes da regressão o coeficiente β0 é a média global do modelo Cada coeficiente representa a mudança esperada na variável resposta associada com uma mudança unitária na variável explicativa correspondente quando as demais variáveis explicativas são mantidas constantes O relacionamento básico representado na regressão múltipla é a associação linear entre a variável dependente métrica e as variáveis independentesexplicativas também métricas O termo linear na regressão múltipla se aplica aos parâmetros da regressão βk k 1 q não às variáveis explicativas ou à variável resposta Consequentemente modelos nos quais por exemplo o logaritmo de uma variável resposta é modelado em termos de funções quadráticas de algumas variáveis explicativas devem ser inclusos nesta classe de modelos lineares Outros exemplos onde temos variáveis explicativas não lineares em x mas lineares em β são Uma regressão quadrática tem duas preditoras X e X2 A regressão cúbica tem três preditoras X X2 e X3 Uma regressão polinomial é um caso especial de uma regressão múltipla Existem autores que tratam estes casos onde as variáveis explicativas tem relação não linear em x como Regressão NãoLinear Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 6 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Na Regressão Multivariada temos um problema adicional a ser tratado o relacionamento entre as variáveis explicativas Este problema é descrito como Multicolinearidade HAIR JR et al 2014 Multicolinearidade A habilidade de uma variável independente adicional melhorar o modelo de regressão está relacionada não somente à sua correlação com a variável dependente mas também às correlações da variável independente adicional com as outras variáveis independentes já presentes no modelo Colinearidade é a associação medida como correlação entre duas variáveis independentes Multicolinearidade se refere à correlação entre três ou mais variáveis independentes evidenciada quando uma é regredida em relação às outras O impacto da multicolinearidade é reduzir qualquer poder preditivo de uma variável indepen dente única pela extensão a qual ela está associada com outra variável independente Conforme a colinearidade aumenta a variância única explicada por cada variável independente diminui e o percentual de predição compartilhada aumenta Como esta predição compartilhada somente conta uma vez a predição total aumenta muito mais lentamente quando variáveis altamente correlacionadas são adicionadas ao modelo Para maximizar a predição de um dado número de variáveis independentes devemos procurar aquelas que tenham baixa multicolinearidade com outras variáveis independentes mas que também tenham alta correlações com a variável dependente Predição com Regressão Múltipla Um propósito fundamental da regressão múltipla é prever a variável dependente com um conjunto de variáveis independentes Fazendo isso a regressão múltipla cumpre um de dois objetivos O primeiro objetivo é maximizar o poder preditivo total das variáveis independentes conforme representado na equação de regressão obtida juntamente com os coeficientes Acurácia da predição é um ponto crítico para esta avaliação O segundo objetivo é a comparação de dois ou mais conjuntos de variáveis independentes para avaliar o poder preditivo de cada equação de regressão ou seja encontrar o melhor Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 7 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis subconjunto de variáveis que resulta no melhor modelo Transformações de Variáveis Um problema frequentemente encontrado na regressão múltipla é a incorporação de dados nãométricos tais como gênero ocupação etc na equação de regressão ou seja variáveis categóricas Isso porque a regressão múltipla é limitada a dados métricos numéricos Quando temos variáveis destes tipos nominal ou ordinal elas devem ser transformadas em variáveis numéricas utilizando um esquema de codificação dentre os esquemas possíveis de transformação há a codificação de zeros e uns chamada de dummy coding Assumindo que xi seja um fator com k níveis a submatriz de X correspondente a xi é uma matriz n k de zeros e uns onde o jésimo elemento na iésima linha é um quando xi1 estiver no jésimo nível Veja no Material Complementar da Trilha exemplos destes tipos de codificação incluindo um feito no R Outro problema ou restrição é a inabilidade de se representar diretamente relacionamentos não lineares das variáveis preditoras independentes Uma alternativa para estas situações relacionamentos não lineares é a criação de novas variáveis através de transformações algébricas que eliminam os termos não lineares Outro uso para transformações de variáveis é para acertar violações de alguma das premissas hipóteses estatísticas Assim temos duas razões básicas para transformarmos variáveis Melhorar ou modificar o relacionamento entre as variáveis dependente e independentes não linearidade ou violação de premissas estatísticas do método de mínimos quadrados Habilitar o uso de variáveis não métricas na equação de regressão dummy coding Veremos exemplos destas transformações ao longo do tema regressão múltipla e também regressão generalizada Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 8 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Estudo de caso de regressão múltipla Vamos fazer um estudo de caso um exemplo geral Utilizaremos a base de dados statex77 que faz parte da instalação base do R Queremos explorar o relacionamento entre a taxa de assassinatos de um estado e outras características do estado incluindo população grau de analfabetismo renda média e níveis de frio número médio de dias abaixo de zero A base de dados statex77 está contida em uma matriz e a função lm requer que os dados estejam em um dataframe Então precisamos acertar isso antes de prosseguir explorando os dados states asdataframe statex77cMurderPopulationIlliteracyIncomeFrost Vamos explorar um pouco nossa base de dados para ganharmos mais insights sobre ela Explorando os dados Um bom começo da regressão múltipla é examinar os relacionamentos entre as variáveis duas de cada vez A função cor pode ser utilizada para fornecer uma matriz das correlações entre as variáveis O pacote GGally fornece algumas opções interessantes de visualização de dados Por exemplo a função ggcorr permite visualizar as correlações graficamente com cores e rótulos mais indicativos como mostrado na Figura 1 libraryggplot2 libraryggpubr libraryggfortify libraryGGally ggcorrstates palette RdYlGn name bquoterho label TRUE labelcolor black labs caption Fonte Elaborado pelo autor themeplotcaption elementtexthjust 0size 8 Também podemos criar alguns gráficos especiais do tipo pares scatter plots para inspecionarmos visualmente os relacionamentos Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 9 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 1 Correlação entre variáveis da base statex77 03 07 02 05 01 02 03 04 07 02 Murder Population Illiteracy Income Frost 10 05 00 05 10 ρ Fonte Elaborado pelo autor A função ggpairs do mesmo pacote GGally permite esta visualização agrupando no mesmo gráfico curva de densidade gráfico de dispersão scatter plots e a correlação entre as respectivas variáveis como mostrado na Figura 2 ggpairsstates columns 1ncolstates title axisLabels show themeaxistextx elementtextangle90 vjust05 size10 themepubr labspubr labs caption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 Do gráfico mostrado na Figura 2 podemos ver que a variável Murder taxa de assassinato possui uma distribuição bimodal o que é um problema para o tipo de modelagem que estamos tratando Além disso vemos também que cada variável preditora tem alguma distorção em sua distribuição A taxa de assassinato aumenta com a população e com o analfabetismo e ela cai com o aumento da renda média e o número de dias frios Ao mesmo tempo observamos que os estados mais frios tem menores taxas de analfabetismo e população mas tem renda média maior Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 10 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 2 Visualização de Curva de Densidade Gráfico de Dispersão e correlações das variáveis do conjunto de dados statex77 Corr 0344 Corr 0703 Corr 0108 Corr 023 Corr 0208 Corr 0437 Corr 0539 Corr 0332 Corr 0672 Corr 0226 Murder Population Illiteracy Income Frost Murder PopulationIlliteracy Income Frost 4 8 12 0 5000 10000 15000 20000 1 2 3000 4000 5000 6000 0 50 100 150 0000 0025 0050 0075 0 5000 10000 15000 20000 1 2 3000 4000 5000 6000 0 50 100 150 Fonte Elaborado pelo autor Ajustando um Modelo de Regressão Linear Multivariada Vamos utilizar a função lm para fazer o ajuste multivariado fit lmMurder Population Illiteracy Income Frost datastates summaryfit Call lmformula Murder Population Illiteracy Income Frost data states Residuals Min 1Q Median 3Q Max 47960 16495 00811 14815 76210 Coefficients Estimate Std Error t value Prt Intercept 1235e00 3866e00 0319 07510 Population 2237e04 9052e05 2471 00173 Illiteracy 4143e00 8744e01 4738 219e05 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 11 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Income 6442e05 6837e04 0094 09253 Frost 5813e04 1005e02 0058 09541 Signif codes 0 0001 001 005 01 1 Residual standard error 2535 on 45 degrees of freedom Multiple Rsquared 0567 Adjusted Rsquared 05285 Fstatistic 1473 on 4 and 45 DF pvalue 9133e08 Analisando o Modelo Multivariado Ajustado Quando temos mais do que uma variável preditora os coeficientes de regressão indicam o aumento na variável dependente para uma unidade de mudança na variável preditora mantendose todas as outras variáveis preditoras constante No nosso exemplo ainda com todas as variáveis no modelo o coeficiente de regressão para Illiteracy é 4143 sugerindo que um aumento de 1 no analfabetismo está associado com um aumento de 4143 na taxa de assassinato O coeficiente é diferente de zero com nível de significância de 005 P 00001 Por outro lado o coeficiente para Frost não é significantemente diferente de zero p 0954 sugerindo que Frost e Murder não estão linearmente relacionadas quando se controla as outras variáveis preditoras O mesmo ocorre com Income isto é não é significantemente diferente de zero p 0925 Em conjunto as variáveis preditoras respondem por 57 da variância na taxa de assassinato dos estados Rquadrado já o valor do Rquadrado ajustado é de 05285 Depois de identificarmos variáveis que não são estatisticamente significantes podemos atualizar nosso modelo removendoas O processo de remoção deve ser feito uma variável de cada vez com uma reavaliação do modelo a cada passo Isto porque ao se remover uma variável as restantes serão afetadas podendo passar a ter significância estatística ou deixando de ter Começamos com Frost fit updatefit Frost summaryfit Call lmformula Murder Population Illiteracy Income data states Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 12 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Residuals Min 1Q Median 3Q Max 47846 16768 00839 14783 76417 Coefficients Estimate Std Error t value Prt Intercept 13402721 33694210 0398 06926 Population 00002219 00000842 2635 00114 Illiteracy 41109188 06706786 6129 185e07 Income 00000644 00006762 0095 09245 Signif codes 0 0001 001 005 01 1 Residual standard error 2507 on 46 degrees of freedom Multiple Rsquared 05669 Adjusted Rsquared 05387 Fstatistic 2007 on 3 and 46 DF pvalue 184e08 Continuamos nossa atualização do modelo removendo as variáveis que não tiveram significado estatístico Income é a proxima candidata a remoção fit updatefit Income summaryfit Call lmformula Murder Population Illiteracy data states Residuals Min 1Q Median 3Q Max 47652 16561 00898 14570 76758 Coefficients Estimate Std Error t value Prt Intercept 1652e00 8101e01 2039 004713 Population 2242e04 7984e05 2808 000724 Illiteracy 4081e00 5848e01 6978 883e09 Signif codes 0 0001 001 005 01 1 Residual standard error 2481 on 47 degrees of freedom Multiple Rsquared 05668 Adjusted Rsquared 05484 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 13 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Fstatistic 3075 on 2 and 47 DF pvalue 2893e09 Chegamos agora a um modelo que tem apenas duas variáveis explicativas a equação do nosso modelo é Murder 1652 00002242 Population 4081 Illiteracy Ou seja o aumento de 1 ponto percentual na taxa de analfabetismo implica no aumento de 4081 na taxa de assassinato Observe a pequena mudança em relação ao primeiro modelo O aumento da população tem um impacto bem menor sobre a taxa de assassinato um aumento de cerca de 10000 na População está associado a um aumento aproximado de 2 na taxa de assassinato Representando Interações ou Efeito Moderador Em uma regressão linear multivariada podemos descobrir que o modelo linear deve considerar interações entre as variáveis se quiser ser bem sucedido Estas interações são também conhecidas como efeito moderador que significa que o relacionamento entre um variável indepedente e a dependente é afetado por outra variável independente Para estudarmos este efeito vamos utilizar a base de dados mtcars que faz parte da instalação base do R através do pacote datasets Veja o help desta base de dados para mais informações sobre ela mtcars Estamos interessados no impacto do peso e da potência dos automóveis na consumo de combustível mileage Vamos construir um modelo de regressão que inclua ambas as variáveis preditoras juntamente com sua interação fitmpg lmmpg hp wt hpwt datamtcars summaryfitmpg Call lmformula mpg hp wt hpwt data mtcars Residuals Min 1Q Median 3Q Max 30632 16491 07362 14211 45513 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 14 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Coefficients Estimate Std Error t value Prt Intercept 4980842 360516 13816 501e14 hp 012010 002470 4863 404e05 wt 821662 126971 6471 520e07 hpwt 002785 000742 3753 0000811 Signif codes 0 0001 001 005 01 1 Residual standard error 2153 on 28 degrees of freedom Multiple Rsquared 08848 Adjusted Rsquared 08724 Fstatistic 7166 on 3 and 28 DF pvalue 2981e13 Podemos ver da coluna com os Prt que a interação entre horsepower e peso do carro é significante O que isso significa Uma interação signifcante entre duas variáveis preditoras nos diz que o relacionamento entre uma variável preditora e a variável resposta depende do nível da outra preditora Aqui significa que o relacionamento entre milhas por galão e horsepower varia conforme o peso do carro O modelo de previsão de mpg é ˆ mpg 4981 012 hp 822 wt 003 hp wt Para interpretar a interação podemos colocar diversos valores de wt e simplificar a equação Dentre os valores possíveis utilizase a média 32 e também um desvio padrão para cima e um para baixo da média 22 e 42 respectivamente Para wt 22 a equação simplifica para ˆ mpg 4981 012 hp 822 22 003 hp 22 ˆ mpg 3141 006 hp Para wt 32 a equação se torna ˆ mpg 2337 003 hp Para wt 42 a equação se torna ˆ mpg 1533 0003 hp Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 15 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Podemos ver que conforme o peso do carro aumenta 22 32 42 a mudança esperada em mpg por aumento unitário em hp diminui 006 003 0003 Podemos visualizar as interações utilizando a função effect do pacote effects juntamente com seu método plot A função effect retorna um objeto que contém os valores ajustados do modelo para cada valor da variável especificada pelo parâmetro xlevels Veja o help da função para mais detalhes sobre sua utilização effect Para visualizarmos o gráfico dos efeitos o formato da chamada da função é ploteffectterm mod xlevels multilineTRUE Ao invés de utilizarmos esta função diretamente vamos utilizar o objeto eff retornado e construir um dataframe para ser utilizado com o ggplot2 e termos mais controle sobre o aspecto visual final do gráfico conforme mostrado na Figura 3 libraryeffects efeitos effecthpwt fitmpg listwtc223242 dfef asdataframeefeitos dfefwt asfactordfefwt ggplotdata dfef geomlineaesy fit x hp shape wt color wt geompointaesx hp y fit shape wt color wt ylabmpg themepubrlegend right labspubr labs caption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 Podemos ver pelo gráfico da Figura 3 que conforme o peso do carro aumenta o relacionamento entre horsepower e milhas por galão se enfraquece Para wt 42 a linha é praticamente horizontal indicando que conforme wt aumenta mpg não muda Diagnósticos da Regressão Ajustar o modelo é somente parte da etapa de análise Uma vez que ajustamos um modelo de regressão precisamos avaliar se conseguimos atingir as hipóteses estatísticas subjacentes à nossa abordagem antes de pensarmos em intervalos de confiança Até aqui utilizamos a função summary para termos os parâmetros do modelo e um sumário das estatísticas Infelizmente como já vimos na Trilha de Regressão Linear Simples nada na saída Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 16 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 3 Efeito da Interação hpwt no consumo mpg 15 20 25 100 200 300 hp mpg wt 22 32 42 Fonte Elaborado pelo autor da função summarymodel nos diz se o nosso modelo é apropriado ou seja que ele satisfaz as hipóteses estatísticas subjacentes Nossa confiança nas inferências sobre os parâmetros da regressão dependem do grau em que conseguimos atender as hipóteses estatísticas do modelo de minimos quadrados ordinários OLS Por que isso é importante Irregularidades nos dados ou uma especificação errada dos relacionamentos entre as variáveis preditoras e a variável resposta pode nos levar a especificar um modelo amplamente impreciso Também podemos concluir que uma variável preditora e a variável resposta não estão relacionadas quando na verdade estão Ou o contrário Vamos começar nosso diagnóstico examinando os intervalos de confiança dos coeficientes utilizaremos o modelo completo para uma análise didática apenas Normalmente podemos utilizar apenas os coeficientes do modelo já reduzido Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 17 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis fitcoef lmMurder Population Illiteracy Income Frost datastates confintfitcoef 25 975 Intercept 6552191e00 90213182149 Population 4136397e05 00004059867 Illiteracy 2381799e00 59038743192 Income 1312611e03 00014414600 Frost 1966781e02 00208304170 Os resultados sugerem que podemos estar 95 confiantes de que o intervalo 238 590 contém a mudança verdadeira na taxa de assassinato para uma mudança de 1 na taxa de analfabetismo Adicionalmente como o intervalo de confiança de Frost contém 0 podemos concluir que uma mudança na temperatura não está relacionado à taxa de assassinato mantendose as outras variáveis constantes Mas nossa fé neste modelo deve ser tão forte quanto as evidências que temos sobre se nossos dados satisfazem as hipóteses estatísticas no modelo subjacente Vamos fazer um diagnóstico do nosso modelo verificando a homocedasticidade e também o comportamento dos resíduos com relação aos quantis teóricos ou seja o gráfico QQplot Ao invés de utilizarmos a função plot do objeto retornado por lm para obtermos os gráficos diagnósticos vamos utilizar o ggplot2 através da biblioteca ggfortify O ggplot2 não consegue acessar alguns tipos de dados na verdade ele precisa sempre de um dataframe tal como faz a função plot do sistema gráfico base então para conseguirmos obter os gráficos diagnósticos pelo ggplot2 vamos utilizar a função autoplot do pacote ggfortify autoplot Vamos selecionar apenas os dois primeiros gráficos como mencionado acima Os gráficos diagnósticos são mostrados na Figura 4 autoplotfit which 12 ncol 2 labelsize 2 themepubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 Teoricamente os dois gráficos devem ter os seguintes comportamentos O gráfico Residuals vs Fitted mostra os resíduos no eixo y contra os valores ajustados no eixo x Não se deve observar estruturas ou padrões no gráfico Os pontos devem se Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 18 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 4 Gráficos Diagnósticos do Modelo Ajustado Nevada Rhode Island Massachusetts 5 0 5 6 9 12 Fitted values Residuals Residuals vs Fitted Fonte Elaborado pelo autor Nevada Rhode Island Massachusetts 2 1 0 1 2 3 2 1 0 1 2 Theoretical Quantiles Standardized residuals Normal QQ Fonte Elaborado pelo autor parecer como o céu à noite É um problema se os pontos se espalham conforme os valores ajustados ficam maiores como se fosse uma fatia de queijo O gráfico Normal QQ QQPlot que deve ser uma linha reta se os erros são normalmente distribuídos Se o gráfico tivesse a forma de um S ou de uma banana precisariamos ajustar um modelo diferente Analisando os nossos gráficos diagnósticos acima temos Os resíduos do nosso modelo tem um comportamento bem próximo do que se espera isto é não há um aumento dos resíduos com o aumento da variável dependente Isto significa que nosso modelo apresenta homocedasticidade adequada Os resíduos do nosso modelo também apresentam uma distribuição não muito divergente de uma distribuição normal exceto pela parte inicial 4 ou 5 primeiros pontos como pode ser observado do gráfico Normal QQ Ademais as observações destacadas rotuladas nos gráficos indicam possíveis problemas em termos de alavancagem eou outliers No momento não abordaremos estes possíveis problemas Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 19 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Regressão Múltipla com termo quadrático Vamos fazer mais um estudo de caso demonstrando a utilização de termos quadráticos no modelo de regressão múltipla Como já falamos os coeficientes do modelo permanecem lineares mas as variáveis preditoras explicativas podem ter outro relacionamento Vamos utilizar o conjunto de dados women da instalação base do R que provê a altura e o peso para um conjunto de 15 mulheres com idades entre 30 a 39 anos Queremos prever o peso a partir da altura isto é iniciaremos com um modelo de regressão linear simples do tipo peso altura Iniciamos com uma exploração rápida dos dados summarywomen height weight Min 580 Min 1150 1st Qu615 1st Qu1245 Median 650 Median 1350 Mean 650 Mean 1367 3rd Qu685 3rd Qu1480 Max 720 Max 1640 Uma inspeção na estrutura strwomen dataframe 15 obs of 2 variables height num 58 59 60 61 62 63 64 65 66 67 weight num 115 117 120 123 126 129 132 135 139 142 E uma inspeção visual para uma primeira ideia sobre o relacionamento entre as duas variáveis de interesse como mostrado na Figura 5 g1 ggplotdata women geompointaesx height y weight color red themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 g1 Vamos então iniciar nossa modelagem com uma regressão linear simples do peso como uma Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 20 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 5 Relacionamento entre peso e altura das mulheres 120 130 140 150 160 60 64 68 72 height weight Fonte Elaborado pelo autor função da altura ie weight height fitw1 lmweight height datawomen summaryfitw1 Call lmformula weight height data women Residuals Min 1Q Median 3Q Max 17333 11333 03833 07417 31167 Coefficients Estimate Std Error t value Prt Intercept 8751667 593694 1474 171e09 height 345000 009114 3785 109e14 Signif codes 0 0001 001 005 01 1 Residual standard error 1525 on 13 degrees of freedom Multiple Rsquared 0991 Adjusted Rsquared 09903 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 21 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 6 Peso como função da altura com modelo linear 120 130 140 150 160 60 64 68 72 height weight Fonte Elaborado pelo autor Fstatistic 1433 on 1 and 13 DF pvalue 1091e14 Analisando nosso modelo pelo sumário da regressão podemos ser levados a pensar que já temos um modelo ótimo afinal conseguimos explicar 9903 da variância dos nossos dados além disso os dois coeficientes encontrados tem significância estatística a um nível de 5 Vamos visualizar nosso modelo juntamente com os pontos de dados como mostrado na Figura 6 slope asnumericfitw1coefficients2 interc asnumericfitw1coefficients1 g1 ggplotdata women geompointaesx height y weight color red geomablineslope slope intercept interc color blue data women themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 g1 Pela figura acima o modelo linear simples apesar de explicar um elevado percentual da variância Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 22 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 7 Gráficos Diagnósticos da Regressão Base women 15 1 8 1 0 1 2 3 120 130 140 150 160 Fitted values Residuals Residuals vs Fitted Fonte Elaborado pelo autor 15 1 8 1 0 1 2 2 1 0 1 2 Theoretical Quantiles Standardized residuals Normal QQ Fonte Elaborado pelo autor dos dados parece não ser o que mais se adequa ao formato dos nossos dados Continuamos nossa avaliação do modelo e como já falamos outras vezes precisamos nos certificar que nosso modelo atende às premissas estatísticas do método de mínimos quadrados ordinários OLS Para isso utilizamos novamente os gráficos diagnósticos dos resíduos e o QQPlot como mostrado na Figura 7 autoplotfitw1 which 12 ncol 2 labelsize 3 themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 O gráfico dos resíduos do nosso modelo claramente aponta para uma inapropriação de um modelo linear simples para descrever nossos dados O gráfico apresenta um aspecto de U Da mesma forma o gráfico QQPlot apresenta uma forma acentuada de banana indicando também que os resíduos não seguem bem uma distribuição normal Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 23 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Como vimos na fase exploratória nossos dados apresentam uma forma levemente curva esta forma curva aliado ao que observamos no formato do gráfico dos resíduos U nos leva à seguinte decisão incluir um termo quadrático no nosso modelo isto é um termo do tipo X2 para capturarmos este comportamento dos dados no modelo A inclusão do termo quadrático no modelo é feita com a função I Esta função que significa asis indica para o R que ele deve interpretar o termo do modelo tal como está escrito neste caso um termo quadrático height2 Isto é necessário pois em uma fórmula do R a expressão heightˆ2 indicaria uma interação da variável com ela mesma Veja a seção Criando fórmulas no R no Material Complementar da Trilha fitw2 lmweight height Iheight2 datawomen summaryfitw2 Call lmformula weight height Iheight2 data women Residuals Min 1Q Median 3Q Max 050941 029611 000941 028615 059706 Coefficients Estimate Std Error t value Prt Intercept 26187818 2519677 10393 236e07 height 734832 077769 9449 658e07 Iheight2 008306 000598 13891 932e09 Signif codes 0 0001 001 005 01 1 Residual standard error 03841 on 12 degrees of freedom Multiple Rsquared 09995 Adjusted Rsquared 09994 Fstatistic 1139e04 on 2 and 12 DF pvalue 22e16 Novamente analisamos o sumário do nosso modelo e verificamos que temos significância estatística para todos os coeficientes incluindo o termo quadrático e agora conseguimos explicar 9994 da variância dos nossos dados Vamos então aos gráficos diagnósticos como mostrados na Figura 8 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 24 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 8 Gráficos Diagnósticos da Regressão com termo quadrático Base women 15 13 2 03 00 03 06 120 130 140 150 160 Fitted values Residuals Residuals vs Fitted Fonte Elaborado pelo autor 15 13 2 1 0 1 2 2 1 0 1 2 Theoretical Quantiles Standardized residuals Normal QQ Fonte Elaborado pelo autor autoplotfitw2 which 12 ncol 2 labelsize 3 themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 Analisando os gráficos vemos que a homocedasticidade dos resíduos agora está mais aceitável ou seja a variância se mantem dentro da mesma faixa ao longo dos valores ajustados Da mesma forma o gráfico QQPlot também mostra que os resíduos agora apresentam uma distribuição bem mais próxima de uma normal Vamos examinar novamente o modelo ajustado mostrado no gráfico da Figura 9 g2 ggplotdata women aesx height y weight geompointcolor red geomsmooth method lm formula y x Ix2 se FALSE color blue data women themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 g2 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 25 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 9 Peso como função da altura com modelo com termo linear quadrático 120 130 140 150 160 60 64 68 72 height weight Fonte Elaborado pelo autor Como pode ser observado no gráfico acima temos agora um ajuste muito mais preciso utilizando uma equação quadrática Apesar de ser mínima a forma quadrática dos dados exige um modelo também quadrático para que tenhamos um ajuste apropriado seguindo as premissas básicas da modelagem com mínimos quadrados Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 26 II 2 Transformações de Variáveis 28 Transformações de Variáveis 2 Transformações de Variáveis Quando os modelos não atendem as hipóteses de normalidade linearidade homocedasticidade transformações de uma ou mais variáveis frequentemente tem bom resultado para melhorar ou corrigir a situação Quando o modelo viola as hipóteses de normalidade a transformação tipicamente é realizada na variável resposta Quando a hipótese de linearidade é violada uma transformação nas variáveis explicativas pode ajudar Transformação na Variável Resposta Transformação de potência Y λ As transformações típicas envolvem substituir a variável resposta Y por Y λ Valores típicos de λ e sua interpretação são dados no Quadro 1 Se Y é uma proporção uma transformação logit lnY1 Y é frequentemente utilizada Quadro 1 Transformações típicas de variáveis e valores típicos de λ KABACOFF 2015 λ 2 1 05 0 05 1 2 Transformação 1Y 2 1Y 1 Y logY Y Nenhuma Y 2 Fonte Elaborado pelo próprio autor Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 28 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 10 Níveis de Ozônio como função da Temperatura 0 10 20 30 40 60 80 Temperatura Ozônio Fonte Elaborado pelo autor 3 5 54 4 6 35 5 4 45 6 4 55 Após a leitura dos dados vamos ver a relação entre as duas variáveis através de um gráfico de dispersão como mostrado na Figura 10 libraryggplot2 libraryggpubr libraryggfortify g ggplotdata ozdata aesx temperatura y ozonio geompoint xlabTemperatura ylabOzônio themepubr labspubr labs caption Fonte Elaborado pelo autor themeplotcaption elementtexthjust 0size 8 g Observe que o gráfico de dispersão mostrado na Figura 10 mostra uma forte relação crescente não linear entre as medidas de ozônio e temperatura Também observamos que as medidas de ozônio apresentam aumento de variabilidade para valores crescentes de temperatura Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 30 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Diante disso podemos levantar dúvidas se o ajuste do modelo de regressão linear simples com as variáveis na sua forma original é adequado neste caso Vamos fazer este ajuste para evidenciar sua inadequação através da análise de resíduos oz1 lmozonio temperatura ozdata summaryoz1 Call lmformula ozonio temperatura data ozdata Residuals Min 1Q Median 3Q Max 109939 38202 01796 31951 150112 Coefficients Estimate Std Error t value Prt Intercept 1493745 121247 1232 2e16 temperatura 043257 001912 2263 2e16 Signif codes 0 0001 001 005 01 1 Residual standard error 5014 on 328 degrees of freedom Multiple Rsquared 06095 Adjusted Rsquared 06083 Fstatistic 5119 on 1 and 328 DF pvalue 22e16 Teste de normalidade dos Resíduos Uma das premissas estatísticas para a utilização do método dos mínimos quadrados ordinários OLS é que a variável resposta Y tenha uma distribuição normal em torno da média O teste de ShapiroWilk utiliza o princípio da hipótese nula para verificar se uma amostra vem de uma população com distribuição normal A hipótese nula deste teste é que a população é normalmente distribuída Assim se o pvalue é menor do que o nível do alfa escolhido a hipótese nula é rejeitada e há evidência de que os dados testados não são de uma população com distribuição normal shapirotestresidualsoz1 ShapiroWilk normality test Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 31 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 11 Gráficos Diagnósticos da Regressão 53 124 220 10 0 10 0 10 20 Fitted values Residuals Residuals vs Fitted Fonte Elaborado pelo autor 53 124 220 2 1 0 1 2 3 3 2 1 0 1 2 3 Theoretical Quantiles Standardized residuals Normal QQ Fonte Elaborado pelo autor data residualsoz1 W 09856 pvalue 0002235 Observamos pelo Teste de normalidade de ShapiroWilk que a hipótese nula deve ser rejeitada já que obtivemos um pvalue de 00022 Gráficos Diagnósticos Continuamos nosso diagnóstico do modelo ajustado agora com a inspeção dos gráficos diagnósticos Vamos inspecionar os seguintes gráficos resíduos valores ajustados gráfico dos quantis teóricos quantis dos resíduos QQPlot conforme mostrado na Figura 11 autoplotoz1 which 12 ncol 2 labelsize 2 smoothlinetype 0 themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 32 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 12 Histograma dos resíduos 0 10 20 10 0 10 Residuos Frequência Fonte Elaborado pelo autor Observamos nos gráficos da Figura 11 que a variância dos erros não é constante gráfico Resíduos x Valores Ajustados há um aumento na variabilidade dos resíduos com o aumento do valor da variável resposta Y no gráfico QQplot observamos que há um desvio da normalidade gráfico QQPlot suposição que também é confirmada pelo Teste de normalidade de ShapiroWilk cujo pvalor 00022 Outra premissa do método dos mínimos quadrados ordinários OLS é que os resíduos tenham uma distribuição normal Vamos então fazer um histograma dos resíduos conforme mostrado na Figura 12 Nesta figura observamos que a distribuição aparenta ser bimodal dfhist dataframeResiduos residualsoz1Ajustados fittedoz1 gh ggplotdata dfhist aesx Residuos geomhistogram themepubr labspubr ylabFrequência labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 gh A fim de solucionar os problemas de variância nãoconstante devese tentar realizar uma transfor Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 33 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis mação na variável resposta Y Apesar de ser possível em muitos casos selecionar empiricamente a transformação adequada do tipo Y λ vamos utilizar a técnica da Transformação BoxCox Utilizamos a função boxcox do pacote MASS para a determinação do parâmetro λ A função boxcox é muito fácil de utilizar especificamos a fórmula do modelo e normalmente as opções padrões cuidam de todo o resto O gráfico padrão da função boxcox tem como limites 22 Como estamos interessados no ponto de máximo fazemos um novo gráfico com um zoom na região de interesse como mostrado na Figura 13 requireMASS librarydplyr setseed123456 optionsdigits 7 parmfrow c12 boxcoxoz1 eps 0001 mtextFonte Elaborado pelo autor xpd NA cex 07 side 1 line 38 adj1 boxcoxoz1 lambdaseq02 04 by001 eps 0001 parmfrow c11 Pelo gráfico verificamos que o máximo da verossimilhança foi atingido com aproximadamente λ 0 27 com intervalo de confiança de 95 igual a 015039 Como esse intevalo não inclui o valor 1 há forte evidência da necessidade de transformação na variável resposta ozônio Para extrairmos o valor calculado de lambda chamamos a função boxcox mas agora atribuindo o resultado a uma variável objeto O retorno da função é uma lista do vetor lambda e do perfil do vetor loglikelihood calculados estes vetores são invisíveis quando os resultados são plotados Estamos interessados no valor de lambda no máximo do loglikelihood bx boxcoxoz1 lambdaseq02 04 by001 plotit FALSE eps 0001 bxdf dataframex bxxy bxy bx2df bxdfwithbxdf orderbxdfy bx2df1 x y 8 027 6954193 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 34 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 13 Gráfico da função boxcox para determinar o valor ótimo de lambda 2 1 0 1 2 1300 1100 900 700 λ logLikelihood 95 Fonte Elaborado pelo autor 020 025 030 035 040 6975 6965 6955 λ logLikelihood 95 roundbx2df1x4 1 027 O valor calculado de λ pelo método da função boxcox é 027 Assim a transformação dos dados será dada por ozonio ozonio027 10 27 Se o intervalo de confiança contivesse o 0 provavelmente a transformação logarítmica dos dados poderia ser utilizada com bons resultados Sendo assim a nova variável transformada ozoniotrans deve ser inserida no nosso conjunto de dados para que o novo modelo de regressão linear simples seja ajustado lmbd roundbx2df1x3 ozdatatrans mutateozdata ozoniotrans ozoniolmbd 1lmbd headozdatatrans ozonio temperatura ozoniotrans 1 3 40 1278930 2 5 45 2015797 3 5 54 2015797 4 6 35 2304395 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 35 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 14 Níveis de Ozônio após transformação em função da temperatura 0 2 4 6 40 60 80 temperatura Ozônio transformado y yλ 1 λ Fonte Elaborado pelo autor 5 4 45 1681380 6 4 55 1681380 Com a variável resposta transformada fazemos novamente o gráfico de dispersão como mostrado na Figura 14 g ggplotozdatatrans aesx temperatura y ozoniotrans geompoint ylabexpressionOzôniotransformadoyylambda 1lambda themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 g O gráfico mostrado na Figura 14 indica uma forte relação linear crescente entre as medidas de ozônio transformadas via método de Box Cox versus temperatura com variabilidade aproxima damente constante que era o nosso objetivo Podemos então ajustar novamente o modelo linear agora utilizando a variável transformada Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 36 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis oz2 lmozoniotrans temperatura ozdatatrans summaryoz2 Call lmformula ozoniotrans temperatura data ozdatatrans Residuals Min 1Q Median 3Q Max 199712 056569 007148 056078 241671 Coefficients Estimate Std Error t value Prt Intercept 1408685 0199642 7056 102e11 temperatura 0074039 0003148 23520 2e16 Signif codes 0 0001 001 005 01 1 Residual standard error 08256 on 328 degrees of freedom Multiple Rsquared 06278 Adjusted Rsquared 06266 Fstatistic 5532 on 1 and 328 DF pvalue 22e16 Examinamos agora os gráficos diagnósticos do nosso modelo com a variável transformada como mostrado na Figura 15 autoplotoz2 which 12 ncol 2 labelsize 3 smoothlinetype 0 themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 Examinamos também o histograma dos resíduos lembrando que devem seguir uma distribuição normal como mostrado na Figura 16 dfhist dataframeResiduos residualsoz2Ajustados fittedoz2 gh ggplotdata dfhist aesx Residuos geomhistogram themepubr labspubr ylabFrequência labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 gh Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 37 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 15 Gráficos Diagnósticos após transformação BoxCox 53 109 78 2 1 0 1 2 1 2 3 4 5 Fitted values Residuals Residuals vs Fitted Fonte Elaborado pelo autor 53 109 78 2 1 0 1 2 3 3 2 1 0 1 2 3 Theoretical Quantiles Standardized residuals Normal QQ Fonte Elaborado pelo autor Figura 16 Histograma dos Resíduos variável níveis de Ozônio transformada 0 10 20 30 2 1 0 1 2 Residuos Frequência Fonte Elaborado pelo autor Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 38 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis O novo ajuste oz2 cuja equação da reta ajustada é dada por ˆY 1 41 0 074Xi tem um R2 ajustado 0 63 Pelos gráficos diagnósticos mostrados na Figura 15 observase que a suposição de normalidade é aceitável bem como a homocedasticidade dos erros Realizamos o teste de ShapiroWilk para verificarmos o resultado da transformação BoxCox shapirotestresidualsoz2 ShapiroWilk normality test data residualsoz2 W 099325 pvalue 01456 Obtemos agora um pvalue que cai na região de aceitação da hipótese nula indicando que a transformação surtiu o efeito desejado Transformação na Variável Explicativa Além de transformações na variável dependente resposta também é possível realizar trans formações na variável explicativa tais transformações são geralmente necessárias quando os aspectos de linearidades não estão sendo atendidos e não se quer introduzir termos não lineares de variáveis explicativas O objetivo é a a obtenção de um modelo estatístico mais adequado para a descrição dos dados Vamos estudar um pequeno conjunto de dados neste exemplo Exemplo de Transformação na Variável Explicativa Os dados fictícios que utilizaremos tratam do estudo que o gerente de Recursos Humanos de uma loja realizou para estimar o efeito do número de dias de treinamento X no desempenho em um teste simulado de vendas Y aplicado em seus vendedores Os dados estão na Tabela 1 Ao invés de fazermos a leitura dos dados de um arquivo vamos colocálos diretamente em um dataframe no R chamado treinovenda os nomes das variáveis devem ser Tempo e Desempenho respectivamente Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 39 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Tabela 1 Tempo de Treinamento vs Desempenho no teste Tempo de Treinamento Desempenho 05 425 05 506 1 685 1 807 15 89 15 996 2 1053 2 1118 25 1123 25 1257 Fonte Elaborado pelo autor treinovenda dataframeTempoc0505111515222525 Desempenhoc425506685807899961053111811231257 headtreinovenda Tempo Desempenho 1 05 425 2 05 506 3 10 685 4 10 807 5 15 890 6 15 996 Vamos fazer uma primeira inspeção visual dos dados através de um gráfico de dispersão mostrado na Figura 17 g ggplottreinovenda aesxTempo y Desempenho geompoint xlabTempo de Treinamento themepubr ylabDesempenho de Venda labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 g O gráfico de dispersão da Figura 17 mostra uma relação levemente curvilínea entre X e Y com variabilidade aproximadamente constante nos níveis de X Desse modo vamos tentar realizar uma transformação apenas em X A escolha da transformação adequada aqui é feita apenas de forma empírica Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 40 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 17 Desempenho de Venda vs Tempo de Treinamento 40 60 80 100 120 05 10 15 20 25 Tempo de Treinamento Desempenho de Venda Fonte Elaborado pelo autor Baseandose em padrões já conhecidos vamos escolher a função raiz quadrada ou seja X X Entretanto para fins comparativos antes de realizar a regressão linear simples com a variável transformada X realizamos a regressão com a variável original X ajuste1 lmDesempenho Tempo datatreinovenda summaryajuste1 Call lmformula Desempenho Tempo data treinovenda Residuals Min 1Q Median 3Q Max 120700 22262 03925 43187 110000 Coefficients Estimate Std Error t value Prt Intercept 34945 5948 5875 0000372 Tempo 35770 3587 9973 866e06 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 41 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Signif codes 0 0001 001 005 01 1 Residual standard error 802 on 8 degrees of freedom Multiple Rsquared 09256 Adjusted Rsquared 09163 Fstatistic 9946 on 1 and 8 DF pvalue 866e06 Iniciamos o diagnóstico pelo teste de ShapiroWilk shapirotestresidualsajuste1 ShapiroWilk normality test data residualsajuste1 W 094359 pvalue 05936 Pelo teste de ShapiroWilk obtemos um pvalue 05936 que está na região de aceitação da hipótese nula ou seja resíduos com distribuição normal Mas vamos prosseguir Continuamos nosso diagnóstico do modelo ajustado agora com a inspeção dos gráficos diagnósti cos como mostrado na Figura 18 autoplotajuste1 which 12 ncol 2 labelsize 3 smoothlinetype 0 themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 O histograma dos resíduos mostrados na Figura 19 dfaj1 dataframeresiduos residualsajuste1 ajustados fittedajuste1 g ggplotdata dfaj1 aesx residuos ylabFrequência geomhistogrambinwidth 4 themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 g A análise dos resíduos na Figura 18 indica uma distribuição com tendência parábola que é diferente de um padrão aleatório que seria esperado apesar do resultado do Teste de normalidade de ShapiroWilk cujo Pvalor é 05936 indicar que devemos aceitar a hipótese nula Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 42 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 18 Gráficos Diagnósticos do Modelo Linear 9 6 1 10 5 0 5 10 50 70 90 110 Fitted values Residuals Residuals vs Fitted Fonte Elaborado pelo autor 9 6 1 1 0 1 1 0 1 Theoretical Quantiles Standardized residuals Normal QQ Fonte Elaborado pelo autor Figura 19 Histograma dos Resídudos do Modelo Linear 0 1 2 3 15 10 5 0 5 10 15 residuos Frequência Fonte Elaborado pelo autor Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 43 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 20 Modelo Linear nos dados de Desempenho de Venda vs Tempo de Treinamento 40 60 80 100 120 05 10 15 20 25 Tempo Desempenho Fonte Elaborado pelo autor Para melhor visualizarmos o problema que enfrentamos neste caso vamos plotar também a linha de regressão do nosso modelo como mostrado na Figura 20 it coefajuste11 sl coefajuste12 ggplotdata treinovenda aesx Tempo y Desempenho geompoint geomablineslope sl intercept it themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 Observamos no gráfico mostrado na Figura 20 que a reta de regressão não acompanha bem todos os pontos evidenciando o aspecto curvilíneo da relação entre X e Y A fim de linearizar o modelo acima sem modificar as condições de normalidade vamos utilizar a transformação da variável explicativa pela função raiz quadrada mostrada a seguir treinovendatrans mutatetreinovendaTempotrans sqrtTempo Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 44 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 21 Desempenho de Venda vs Tempo de Treinamento Transformado 40 60 80 100 120 08 10 12 14 16 Tempo de Treinamento Transformado Desempenho de Venda Fonte Elaborado pelo autor Podemos então visualizar o gráfico dos dados transformados mostrado na Figura 21 ggplotdata treinovendatrans aesx Tempotrans y Desempenho geompoint themepubr labspubr xlabTempo de Treinamento Transformado ylabDesempenho de Venda labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 Vamos então ajustar um novo modelo aos dados transformados ajuste2 lmDesempenho Tempotrans datatreinovendatrans summaryajuste2 Call lmformula Desempenho Tempotrans data treinovendatrans Residuals Min 1Q Median 3Q Max 93221 41884 02367 41007 77200 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 45 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Coefficients Estimate Std Error t value Prt Intercept 10328 7892 1309 0227 Tempotrans 83453 6444 12951 12e06 Signif codes 0 0001 001 005 01 1 Residual standard error 6272 on 8 degrees of freedom Multiple Rsquared 09545 Adjusted Rsquared 09488 Fstatistic 1677 on 1 and 8 DF pvalue 1197e06 Repetimos o teste de normalidade dos resíduos para ver se nossa transformação não bagunçou com o que estava OK shapirotestresidualsajuste2 ShapiroWilk normality test data residualsajuste2 W 094032 pvalue 05566 Continuamos com uma distribuição normal para os resíduos com pvalue de 05566 Vamos então fazer uma inspeção visual no modelo plotando os dados e o modelo como mostra a Figura 22 it coefajuste21 sl coefajuste22 ggplotdata treinovendatrans aesx Tempotrans y Desempenho geompoint geomablineslope sl intercept it xlabTempo de Treinamento Transformado themepubr labspubr ylabDesempenho de Venda labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 Vamos também analisar o modelo através dos gráficos diagnósticos mostrados na Figura 23 resíduos vs valores ajustados e QQPlot Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 46 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 22 Curva de Regressão do Modelo Linear com Variável Transformada 40 60 80 100 120 08 10 12 14 16 Tempo de Treinamento Transformado Desempenho de Venda Fonte Elaborado pelo autor autoplotajuste2 which 12 ncol 2 labelsize 3 smoothlinetype 0 themepubr labspubr labscaption Fonte Elaborado pelo autor labspubr themeplotcaption elementtexthjust 0 size 8 A equação da reta ajustada é dada por ˆY 10328 83453X i com R2 ajustado 0 95 maior que o anterior Observamos na Figura 22 que a reta de regressão agora acompanha bem todos os pontos indicando que a linearidade entre X e Y foi alcançada A análise dos resíduos mostrado nos gráficos da Figura 23 indica um bom ajuste do modelo assim como o Teste de normalidade de ShapiroWilk cujo Pvalor é 05566 Finalizando Nesta Trilha abordamos a Regressão Linear Multivariada Transformações de Variáveis e Técnicas de Seleção de Modelos Material Complementar A Regressão Linear Multivariada é a técnica utilizada quando temos mais do que uma variável Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 47 Trilha de Aprendizagem 05 Regressão Linear Multivariada e Transformações de Variáveis Figura 23 Gráficos Diagnósticos do Modelo Linear com Variável Transformada 9 6 4 10 5 0 5 60 80 100 120 Fitted values Residuals Residuals vs Fitted Fonte Elaborado pelo autor 9 6 4 1 0 1 1 0 1 Theoretical Quantiles Standardized residuals Normal QQ Fonte Elaborado pelo autor explicativa no nosso modelo Várias aspectos relacionados à sua utilização foram abordados incluindo a verificação de multicolinearidade interação entre variáveis explicativas e as trans formações de variáveis que eventualmente são necessárias Uma restrição importante em nossa abordagem é que a variável resposta deve ser uma combinação linear das variáveis explicativas embora estas possam aparecer como funções quadráticas logarítmicas ou outras Os seus coeficientes no entanto devem ser lineares Quando nosso modelo não atende às hipóteses estatísticas subjacentes para a utilização do método dos mínimos quadrados uma alternativa é realizar transformações de variáveis Vimos nesta Trilha como transformar a variável resposta utilizando a abordagem de BoxCox e também como transformar a variável explicativa com uma função simples raiz quadrada As transformações se mostraram eficientes ao restaurarem os aspectos necessários para que os modelos tivessem aderências às premissas estatísticas Por fim no Material Complementar da Trilha abordamos alguns critérios numéricos objetivos para selecionarmos um melhor modelo entre modelos possíveis com as variáveis presentes nos dados Os critérios abordados são construídos de modo a penalizar modelos com mais variáveis e mesmo poder de explicação O R tem algumas funções que auxiliam na visualização dos testes para a seleção dos modelos dentre as quais algumas foram abordadas nesta Trilha Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 48 Bibliografia BOX G E COX D R An analysis of transformations Journal of the Royal Statistical Society Series B Methodological v 26 n 2 p 211243 1964 HAIR JR J F et al Multivariate Data Analysis 7th ed Harlow Essex UK Pearson Education Ltd 2014 JOHNSON R A WICHERN D W Applied Multivariate Statistical Analysis 3rd ed Englewood Cliffs NJ USA Prentice Hall 1992 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 49