·
Química ·
Probabilidade e Estatística 1
Send your question to AI and receive an answer instantly
Recommended for you
11
Exercícios Resolvidos Teste de Hipóteses Estatística - Comparação de Médias e Variâncias
Probabilidade e Estatística 1
UNIP
7
Exercícios Resolvidos Teste de Hipóteses Estatística e Bioestatística
Probabilidade e Estatística 1
UNIP
6
Teste T Pareado: Análise Comparativa de Médias em Amostras Dependentes
Probabilidade e Estatística 1
UNIP
10
Comparacao de Medias Amostras Independentes Estatistica-Guia Completo
Probabilidade e Estatística 1
UNIP
9
Exercícios Resolvidos Estatística - Regressão Linear, Correlação e Testes de Hipóteses
Probabilidade e Estatística 1
UNIP
12
Resolução de Exercícios - Probabilidades
Probabilidade e Estatística 1
UFAM
2
Lista de Exercícios Probabilidade e Estatística Inferência Estatística e Níveis de Glicose
Probabilidade e Estatística 1
IFTO
11
Exercícios Resolvidos - Distribuições Discretas de Probabilidade
Probabilidade e Estatística 1
UNIPAMPA
1
Exercícios Resolvidos - Variáveis Aleatórias e Probabilidade Estatística
Probabilidade e Estatística 1
IFTO
11
Resolução da Lista de Exercícios sobre Ligação Química e Orbitais
Probabilidade e Estatística 1
IFTO
Preview text
11 Regressão linear simples O estudo da regressão aplicase àquelas situações em que há razões para supor uma relação de causaefeito entre duas variáveis quantitativas e se deseja expressar matematicamente essa relação Geralmente chamase a variável dependente ou variável resposta de y e a independente fator variável explicativa ou variável preditiva de x As expressões a seguir utilizadas em diferentes linguagens têm todas basicamente o mesmo significado y depende de x linguagem coloquial y é função de x linguagem matemática existe regressão de y sobre x linguagem estatística O termo regressão devese a sir Francis Galton que publicou em 1886 um artigo no qual tentou explicar por que pais de alta estatura tinham filhos com estatura em média mais baixa do que a deles e pais de baixa estatura tinham filhos em média mais altos Esse fenômeno foi chamado de regressão à média termo que apesar de inadequado para expressar a dependência entre duas variáveis quantitativas acabou sendo incorporado pelo uso à linguagem estatística Em um estudo de regressão os valores da variável independente x geralmente são escolhidos e para cada valor escolhido observase o valor de y correspondente Por exemplo se um pesquisador deseja estudar a forma pela qual a pressão arterial depende da idade pode estudar indivíduos com x 30 35 40 45 etc anos de idade e então medir suas pressões arteriais No entanto para que os resultados sejam fidedignos o indivíduo de 30 anos não é escolhido propositadamente mas sorteado da subpopulação de pessoas com essa idade o mesmo ocorrendo com o de 35 o de 40 anos e assim por diante Os objetivos do estudo da regressão são 1 avaliar uma possível dependência de y em relação a x 2 expressar matematicamente esta relação por meio de uma equação GRÁFICO DE DISPERSÃO Todo estudo de regressão deve iniciar pela elaboração de um gráfico de dispersão dos pontos Esse passo é fundamental pois o gráfico já dá uma boa idéia da exis tência ou não de regressão bem como evita o erro de aplicar a técnica a dados para os quais não é adequada Exemplo 1 Suponha que um biólogo esteja estudando a relação entre a quantidade µgL de determinado poluente S despejado por uma fábrica em um riacho e o dano ecológico nesse curso dágua medido por um escore de dano Os valores observados pelo pesquisador estão indicados na Tabela 111 e a Figura 111 apresenta o gráfico de pontos correspondente Pelo gráfico podese notar uma nítida dependência entre o escore de dano e a concentração do poluente S na água tal dependência poderia ser representada genericamente por uma linha possivelmente uma reta admitindose como fruto do acaso os desvios existentes entre os pontos experimentais e a linha proposta Muitas são as relações de causa e efeito que podem ser resumidas por linhas retas evitandose assim o uso de tabelas de dados para mostrar a relação A análise de regressão linear simples é um procedimento que fornece equações de linhas retas por isso o termo linear que descrevem fenômenos em que há uma variável independente apenas por isso simples Neste capítulo serão vistos os passos necessários para se obter e ajustar uma linha reta aos dados experimentais os pressupostos para o teste da regressão e as soluções para os casos em que essas pressuposições não são satisfeitas A RETA DE REGRESSÃO LINEAR Equação da reta A equação da reta pode ser dada por y A Bx TABELA 111 Escore de dano ecológico medido para diferentes concentrações do poluente S no riacho R Quantidade de poluente µgL Escore de dano ecológico 1 3 2 6 3 7 4 10 5 10 6 12 Escore de dano ecológico 14 12 10 8 6 4 2 0 0 2 4 6 8 Concentração de poluente FIGURA 111 Relação entre concentração do poluente S e o dano ecológico no riacho R onde y variável dependente A parâmetro ou coeficiente linear valor de y quando x 0 B parâmetro ou coeficiente angular inclinação da reta acréscimo ou decréscimo em y para cada acréscimo de uma unidade em x x variável independente A Figura 112 ilustra os conceitos A linha reta corta o eixo y no valor 10 logo A 10 e para cada aumento de uma unidade em x há um decréscimo correspondente de duas unidades em y logo B 2 Os pontos experimentais No modelo matemático recémindicado y A Bx a letra y representa um valor que é fixo e dependente de um determinado x isto é y é uma quantidade que não pode variar quando x assume determinado valor Com dados biológicos no entanto é comum verificarse variação na variável dependente quando ela é medida para um certo valor da variável independente Por exemplo valores diferentes de pressão arterial y são observados para indivíduos da mesma idade x Assim sendo os pontos obtidos por um experimentador dificilmente se colocam exatamente em uma linha embora se possa observar muitas vezes que os dados tendem a um alinhamento Os desalinhamentos são interpretados como desvios ao acaso do comportamento geral do fenômeno É por esta razão que se pensa em ajustar uma linha reta a pontos que não estão perfeitamente alinhados a reta vai representar o comportamento médio dos valores de y à medida que x aumenta de valor O modelo matemático proposto neste caso é y A Bx ε onde ε representa a diferença entre o valor observado e o esperado segundo a reta de y A linha reta representa o comportamento de valores de y médios esperados para distintos valores de x isto é a reta representa uma média que se modifica à medida que os valores de x aumentam No caso do Exemplo 1 para x 2 existe um conjunto de valores possíveis de escore de dano que podem ser obtidos quando a concentração do poluente S é 2μgL sendo que a média desses escores está sobre a linha verdadeira Quando a concentração é 3 μgL x 3 há um outro x y 0 10 1 8 2 6 3 4 4 2 5 0 12 10 8 6 4 2 0 0 1 2 3 4 5 6 B 2 FIGURA 112 Reta que ilustra a equação y 10 2x A tabela mostra valores escolhidos de x e os de y correspondentes segundo esta equação conjunto observável de valores de dano cuja média é um pouco maior do que a anterior e também está sobre a reta e assim sucessivamente Em cada uma destas subpopulações os valores de y variam ao redor da média deste grupo como se pode ver na Figura 113 Uma pressuposição importante para o teste estatístico da regressão é a de que esta variação é a mesma nas várias subpopulações homocedasticidade conforme será visto mais adiante A linha que se pretende usar para representar o fenômeno parte dos dados experimentais que constituem um conjunto de pontos mais ou menos desalinhados Podese pensar em um primeiro momento em traçála à mão livre buscando a reta que passa à menor distância de todos os pontos Dependendo da amostra no entanto um desenho desse tipo vai estar sujeito a um grau maior ou menor de erro de julgamento sobre qual é a linha que melhor se ajusta aos dados Na próxima seção será apresentado um método analítico para a obtenção da melhor reta Por outro lado uma vez desenhada a reta desejase muitas vezes fazer previsões para y a partir de valores conhecidos de x O processo gráfico consiste em escolher um valor de x levantar uma perpendicular até a reta e a partir dela desenhar uma linha horizontal até o eixo y buscando nele o valor esperado para y Tais previsões estão sujeitas a erro pois são feitas visualmente com base no gráfico Se no entanto for possível definir a equação que representa a reta podese obter uma melhor estimativa para y pois a equação fornece previsões independentes de julgamento gráfico Esta equação pode ser obtida e se denomina equação de regressão No caso da regressão linear simples a equação de regressão é uma reta de regressão Obtenção da reta de regressão A reta de regressão verdadeira seria obtida se fossem conhecidas os valores de x e y para todos os indivíduos da população Nesse caso seriam conhecidos a altura verdadeira da reta o coeficiente linear A e a inclinação verdadeira da reta o coeficiente de regressão B No entanto o mais comum é estudar a regressão entre x e y utilizando uma amostra da população de pontos São calculados então a e b que são as estima tivas dos parâmetros A e B Esses valores são obtidos pelo Método dos Mínimos Quadrados assim chamado porque garante que a reta obtida é aquela para a qual se tem as menores distâncias ao quadrado entre os valores observados y e a própria reta1 O coeficiente b é calculado da seguinte maneira bSPxySQxxxy yxx2 ou bxyxynx2x2n enquanto o coeficiente linear a é obtido por aybx onde y e x são as médias para y e x respectivamente A reta estimada de regressão é y a bx sendo y o valor estimado ou esperado de y para cada valor de x A Tabela 112 apresenta os cálculos necessários para estimar a reta de regressão que descreve o aumento no escore de dano ecológico conforme a quantidade de substância S presente na água do riacho R O valor de b para estes dados é bxyxynx2x2n1982148696212630175171 enquanto que o valor de a é aybx486171216817135202 Verificouse então que b 171 graus de danoμgL isto é para cada acréscimo positivo de um 1 μgL na concentração de S parece haver um aumento de TABELA 112 Determinação das quantidades necessárias para obtenção dos coeficientes da reta de regressão para o escore de dano conforme a concentração do poluente S x μgL y dano xy x2 y2 y 1 3 3 1 9 372 2 6 12 4 36 543 3 7 21 9 49 714 4 10 40 16 100 886 5 10 50 25 100 1057 6 12 72 36 144 1228 21 48 198 91 438 4800 1 Isto é os menores valores de ε2 17 no índice de dano ecológico Por outro lado o escore de dano esperado quando a concentração for zero é igual a 202 A reta de regressão estimada para os dados da Tabela 112 é y 202 171x sendo y o valor estimado ou esperado de dano para cada valor de concentração de S Ajustamento da reta estimada aos pontos experimentais Para desenhar a reta estimada sobre os pontos do gráfico escolhemse dois valores quaisquer de x suficientemente afastados para diminuir erros no traçado da reta e calculase os valores esperados y correspondentes Por exemplo Se x 1 y 202 1711 372 Se x 8 y 202 1718 1570 De posse desses valores marcamse dois pontos 1 372 e 8 1570 no gráfico de dispersão e unindoos traçase a reta obtida pelo método dos mínimos quadrados Na Figura 114 estão os pontos experimentais e a reta ajustada Note que os pontos observados não estão perfeitamente sobre a reta estimada mas um pouco afastados isto é os valores de y observados não são iguais aos esperados y Tais diferenças são interpretadas como decorrentes das oscilações aleatórias dos valores de y em relação ao valor previsto Portanto parece razoável num primeiro momento estimar o escore esperado de dano ecológico com base na equação obtida Por exemplo para uma concentração de poluente igual a 45 estimase que o dano seja y 202 17145 972 A Tabela 112 apresenta na última coluna os valores de dano esperados segundo a reta proposta para as diferentes concentrações do poluente S examinadas É importante lembrar no entanto que a equação foi obtida com base nos dados de uma amostra Será ela válida para toda a população de valores de concentração possíveis TESTE DE SIGNIFICÂNCIA DA REGRESSÃO A dependência de y em relação a x é representada pelo coeficiente b No entanto ele é quase sempre determinado com base em uma amostra de dados Não se trata portanto do valor verdadeiro do coeficiente de regressão mas de sua estimativa No caso do Exemplo 1 tal coeficiente foi obtido com base em seis observações apenas Para se afirmar que o valor b 171 representa uma dependência real de y em relação a x e justificar previsões para y com base na equação obtida devese realizar um teste de hipótese sobre a existência de regressão na população Raciocínio do teste Quando não existe dependência de y em relação a x o coeficiente de regressão populacional B é igual a zero2 No entanto valores de b obtidos em amostras aleatórias dessa população devem variar ao acaso ao redor de zero A distribuição de b em torno de zero será gaussiana se a distribuição de y for normal Figura 115 Para testar a hipótese de que B não é zero determinase o número crítico de erros padrão permitido para um afastamento nãosignificativo entre b e B e calculase a seguir o afastamento observado b B em unidades de erros padrão tcalc A decisão sobre a significância do desvio é semelhante àquelas vistas nas comparações entre médias e no teste de significância de r se o valor calculado de t exceder o valor crítico rejeitase a hipótese de que b seja um desvio ao acaso de B 0 e concluise pela existência de regressão de y em relação a x O teste de hipóteses relativo a b 171 obtido no Exemplo 1 está apresentado a seguir FIGURA 115 Distribuição amostral de b quando não há regressão na população 2 Embora letras gregas estejam sendo utilizadas neste texto para representar parâmetros optouse aqui por usar a letra B em vez do símbolo β porque este último está sendo usado para indicar a probabilidade de erro do Tipo II Etapas do teste de hipóteses da regressão 1 Elaboração das hipóteses estatísticas H0 B 0 H1 B 0 2 Escolha do nível de significância α 001 3 Determinação do valor crítico do teste Aqui como no teste da correlação gl n 2 onde n número de pontos experimentais3 Como n 2 6 2 4 tαgl t0014 4604 4 Determinação do valor calculado do teste tcalc b BEPb bEPb B desaparece da equação pois supõese em H0 que B 0 O EPb é dado por EPb Σy ŷ2 n2Σx x2 Uma fórmula alternativa mais conveniente para calcular EPb é EPb Σy2 aΣ y bΣ xyn 2Σ x2 Σ x2n Para os dados do Exemplo 1 EPb 438 20248 171198 6291 212 6 246 70 00351 0187 e o valor de tcalc é tcalc 171 0187 9144 Portanto a distância entre b e zero é de aproximadamente 9 erros padrão 5 Decisão Como tcalc 9144 t0014 4604 rejeitase H0 6 Conclusão O coeficiente de regressão populacional B não deve ser zero logo admitimos que existe regressão de y sobre x α 001 Podese então concluir que o dano ecológico depende da concentração da substância S da seguinte forma para cada acréscimo de um μgL na concentração desse poluente na água esperase que o escore de dano ecológico aumente 171 unidades 3 Na verdade estes dois testes são equivalentes Se o coeficiente de correlação simples e o de regressão simples forem calculados para os mesmos dados o valor numérico de t que testa cada um deles é exatamente o mesmo Como o número de graus de liberdade também é igual o mesmo valorP está associado aos dois testes Podese também indicar a significância do teste estatístico usando o valorP associado ao tcalc Na distribuição t com 4 graus de liberdade verificase que para t 9144 P 0001 Este valorP indica que se não houver regressão de y sobre x é muito pequena a probabilidade de se obter ao acaso um valor de b igual ou maior do que 171 Portanto justificase a conclusão de que o dano ecológico depende da concentração de S UTILIDADES DA RETA DE REGRESSÃO A reta de regressão permite 1 Representar a dependência de uma variável quantitativa em relação à outra por meio de uma equação simples 2 Prever valores para a variável dependente y de acordo com valores determinados inclusive nãoobservados da variável independente x Isto é permitido dentro da faixa de valores estudados para x Também é permitido para valores de x menores ou maiores do que os usados no estudo desde que não haja uma distância muito grande entre o valor selecionado e o primeiro ou o último valor de x estudado REQUISITOS AO USO DA REGRESSÃO LINEAR Certas exigências devem ser satisfeitas para se realizarem inferências válidas sobre o coeficiente de regressão linear embora isso não seja necessário para calcular a e b Estas exigências são 1 A variável y deve ter distribuição normal ou aproximadamente normal4 2 A variação de y deve ser a mesma em cada valor de x homocedasticidade Figura 113 Se não houver homocedasticidade será necessário transformar os dados 3 Os pontos no gráfico devem apresentar uma tendência linear Caso contrário a equação que melhor representará o fenômeno não será uma reta mas outra linha qualquer Se os pontos se apresentarem em curva podese tentar transformar os dados de forma a obter uma reta ou ajustar uma curva o que não é difícil com os modernos programas para computadores 4 Os valores de y foram obtidos ao acaso da população e são independentes uns dos outros 5 A variável x foi medida sem erro Satisfazer esta exigência na prática é muito difícil Por isso o que se faz é pressupor que os erros ocorridos ao se medir x são desprezíveis ou pelo menos menores dos que os que estão associados à mensuração de y Violações das três primeiras pressuposições podem ser contornadas pelo uso de uma transformação dos dados Já problemas relacionados com as exigências 4 e 5 são mais difíceis de resolver 4 Esta exigência não é necessária para x ao contrário do que é exigido na análise de correlação entre x e y quando ambas as variáveis devem ter distribuição normal ANÁLISE DE RESÍDUOS Um teste para a validade das pressuposições para a regressão pode ser feito do seguinte modo 1 Calculamse os resíduos para cada valor de y Os resíduos representam a diferença entre aquilo que foi realmente observado e o que foi predito pelo modelo de regressão isto é Resíduo ε y ŷ 2 Desenhase um gráfico no qual os resíduos são colocados no eixo vertical e os valores esperados de y ŷ no horizontal Os pontos devem ficar distribuídos de forma equilibrada acima e abaixo de uma linha imaginária paralela ao eixo x na altura do resíduo zero formando uma faixa aproximadamente retangular A violação do pressuposto 2 homocedasticidade produz faixas em forma de cone enquanto violações do pressuposto 3 linearidade produz faixas curvas Figura 116 FIGURA 116 Teste gráfico da validade das pressuposições em uma análise de regressão linear no eixo vertical estão os resíduos e no horizontal os valores de y preditos pela reta Os gráficos sugerem que a não existe homocedasticidade b a reta não é a equação mais adequada para descrever o fenômeno Exemplo 2 Maria Liége Bazanella de Oliveira 1994 estudou fatores que podem influenciar os níveis de pressão arterial sistólica PAS medidos 12 a 24 horas após o nascimento em recémnascidos normais de Porto Alegre O tamanho amostral foi 28 e as medidas foram tomadas quando a criança estava acordada Entre diferentes variáveis consideradas foi examinada a pressão arterial da mãe A Figura 117 mostra o gráfico de dispersão de pontos relativos às medidas de PAS em mães e filhos A forma da nuvem sugere a existência de dependência da pressão arterial dos filhos em relação à de suas mães Os dados foram analisados por um programa de computador e a equação de regressão ajustada aos dados foi PAS filho 542 0148 PAS mãe O EPb foi 0066 e no teste de significância da regressão obtevese tcalc 2254 gl 26 P 0033 Concluise que a pressão arterial sistólica em recémnascidos com 12 a 24 horas de vida medida quando estão acordados depende da pressão arterial da mãe esperandose um aumento médio de 0148 na PAS do filho para cada mmHg a mais na PAS da mãe Em outras palavras o grupo de mães que tem em média pressão arterial 10 mmHg mais alta do que as outras tem filhos com valores de PAS em média 15 mmHg mais altos também A validade desta análise deve ser verificada pela observação dos resíduos que estão apresentados no gráfico da Figura 118 A distribuição dos resíduos está bem equilibrada acima e abaixo da linha correspondente ao resíduo zero com uma exceção o que confirma que o modelo escolhido é razoável para os dados em estudo FIGURA 117 Pressão arterial sistólica mmHg em recémnascidos com 12 a 24 horas de vida e suas mães FIGURA 118 Gráfico dos resíduos relativos ao ajuste de uma reta de regressão aos dados de pressão arterial em recémnascidos e suas mães Neste gráfico observase presença de um resíduo discrepante com valor aproximado de 9 Esse resíduo corresponde a uma observação atípica outlier Observações deste tipo podem alterar muito os resultados das análises podendo ser decorrentes de 1 erro de leitura ou anotação dos dados 2 erro na execução do experimento ou obtenção da medida 3 problemas nãocontroláveis na execução do experimento 4 características inerentes à variável Nenhuma observação atípica deve ser retirada da amostra sem um exame cuidadoso da causa desse resultado A retirada justificase nos casos 1 a 3 mas se este dado estiver representando uma característica própria da variável 4 sua eliminação determinará uma avaliação distorcida do fenômeno
Send your question to AI and receive an answer instantly
Recommended for you
11
Exercícios Resolvidos Teste de Hipóteses Estatística - Comparação de Médias e Variâncias
Probabilidade e Estatística 1
UNIP
7
Exercícios Resolvidos Teste de Hipóteses Estatística e Bioestatística
Probabilidade e Estatística 1
UNIP
6
Teste T Pareado: Análise Comparativa de Médias em Amostras Dependentes
Probabilidade e Estatística 1
UNIP
10
Comparacao de Medias Amostras Independentes Estatistica-Guia Completo
Probabilidade e Estatística 1
UNIP
9
Exercícios Resolvidos Estatística - Regressão Linear, Correlação e Testes de Hipóteses
Probabilidade e Estatística 1
UNIP
12
Resolução de Exercícios - Probabilidades
Probabilidade e Estatística 1
UFAM
2
Lista de Exercícios Probabilidade e Estatística Inferência Estatística e Níveis de Glicose
Probabilidade e Estatística 1
IFTO
11
Exercícios Resolvidos - Distribuições Discretas de Probabilidade
Probabilidade e Estatística 1
UNIPAMPA
1
Exercícios Resolvidos - Variáveis Aleatórias e Probabilidade Estatística
Probabilidade e Estatística 1
IFTO
11
Resolução da Lista de Exercícios sobre Ligação Química e Orbitais
Probabilidade e Estatística 1
IFTO
Preview text
11 Regressão linear simples O estudo da regressão aplicase àquelas situações em que há razões para supor uma relação de causaefeito entre duas variáveis quantitativas e se deseja expressar matematicamente essa relação Geralmente chamase a variável dependente ou variável resposta de y e a independente fator variável explicativa ou variável preditiva de x As expressões a seguir utilizadas em diferentes linguagens têm todas basicamente o mesmo significado y depende de x linguagem coloquial y é função de x linguagem matemática existe regressão de y sobre x linguagem estatística O termo regressão devese a sir Francis Galton que publicou em 1886 um artigo no qual tentou explicar por que pais de alta estatura tinham filhos com estatura em média mais baixa do que a deles e pais de baixa estatura tinham filhos em média mais altos Esse fenômeno foi chamado de regressão à média termo que apesar de inadequado para expressar a dependência entre duas variáveis quantitativas acabou sendo incorporado pelo uso à linguagem estatística Em um estudo de regressão os valores da variável independente x geralmente são escolhidos e para cada valor escolhido observase o valor de y correspondente Por exemplo se um pesquisador deseja estudar a forma pela qual a pressão arterial depende da idade pode estudar indivíduos com x 30 35 40 45 etc anos de idade e então medir suas pressões arteriais No entanto para que os resultados sejam fidedignos o indivíduo de 30 anos não é escolhido propositadamente mas sorteado da subpopulação de pessoas com essa idade o mesmo ocorrendo com o de 35 o de 40 anos e assim por diante Os objetivos do estudo da regressão são 1 avaliar uma possível dependência de y em relação a x 2 expressar matematicamente esta relação por meio de uma equação GRÁFICO DE DISPERSÃO Todo estudo de regressão deve iniciar pela elaboração de um gráfico de dispersão dos pontos Esse passo é fundamental pois o gráfico já dá uma boa idéia da exis tência ou não de regressão bem como evita o erro de aplicar a técnica a dados para os quais não é adequada Exemplo 1 Suponha que um biólogo esteja estudando a relação entre a quantidade µgL de determinado poluente S despejado por uma fábrica em um riacho e o dano ecológico nesse curso dágua medido por um escore de dano Os valores observados pelo pesquisador estão indicados na Tabela 111 e a Figura 111 apresenta o gráfico de pontos correspondente Pelo gráfico podese notar uma nítida dependência entre o escore de dano e a concentração do poluente S na água tal dependência poderia ser representada genericamente por uma linha possivelmente uma reta admitindose como fruto do acaso os desvios existentes entre os pontos experimentais e a linha proposta Muitas são as relações de causa e efeito que podem ser resumidas por linhas retas evitandose assim o uso de tabelas de dados para mostrar a relação A análise de regressão linear simples é um procedimento que fornece equações de linhas retas por isso o termo linear que descrevem fenômenos em que há uma variável independente apenas por isso simples Neste capítulo serão vistos os passos necessários para se obter e ajustar uma linha reta aos dados experimentais os pressupostos para o teste da regressão e as soluções para os casos em que essas pressuposições não são satisfeitas A RETA DE REGRESSÃO LINEAR Equação da reta A equação da reta pode ser dada por y A Bx TABELA 111 Escore de dano ecológico medido para diferentes concentrações do poluente S no riacho R Quantidade de poluente µgL Escore de dano ecológico 1 3 2 6 3 7 4 10 5 10 6 12 Escore de dano ecológico 14 12 10 8 6 4 2 0 0 2 4 6 8 Concentração de poluente FIGURA 111 Relação entre concentração do poluente S e o dano ecológico no riacho R onde y variável dependente A parâmetro ou coeficiente linear valor de y quando x 0 B parâmetro ou coeficiente angular inclinação da reta acréscimo ou decréscimo em y para cada acréscimo de uma unidade em x x variável independente A Figura 112 ilustra os conceitos A linha reta corta o eixo y no valor 10 logo A 10 e para cada aumento de uma unidade em x há um decréscimo correspondente de duas unidades em y logo B 2 Os pontos experimentais No modelo matemático recémindicado y A Bx a letra y representa um valor que é fixo e dependente de um determinado x isto é y é uma quantidade que não pode variar quando x assume determinado valor Com dados biológicos no entanto é comum verificarse variação na variável dependente quando ela é medida para um certo valor da variável independente Por exemplo valores diferentes de pressão arterial y são observados para indivíduos da mesma idade x Assim sendo os pontos obtidos por um experimentador dificilmente se colocam exatamente em uma linha embora se possa observar muitas vezes que os dados tendem a um alinhamento Os desalinhamentos são interpretados como desvios ao acaso do comportamento geral do fenômeno É por esta razão que se pensa em ajustar uma linha reta a pontos que não estão perfeitamente alinhados a reta vai representar o comportamento médio dos valores de y à medida que x aumenta de valor O modelo matemático proposto neste caso é y A Bx ε onde ε representa a diferença entre o valor observado e o esperado segundo a reta de y A linha reta representa o comportamento de valores de y médios esperados para distintos valores de x isto é a reta representa uma média que se modifica à medida que os valores de x aumentam No caso do Exemplo 1 para x 2 existe um conjunto de valores possíveis de escore de dano que podem ser obtidos quando a concentração do poluente S é 2μgL sendo que a média desses escores está sobre a linha verdadeira Quando a concentração é 3 μgL x 3 há um outro x y 0 10 1 8 2 6 3 4 4 2 5 0 12 10 8 6 4 2 0 0 1 2 3 4 5 6 B 2 FIGURA 112 Reta que ilustra a equação y 10 2x A tabela mostra valores escolhidos de x e os de y correspondentes segundo esta equação conjunto observável de valores de dano cuja média é um pouco maior do que a anterior e também está sobre a reta e assim sucessivamente Em cada uma destas subpopulações os valores de y variam ao redor da média deste grupo como se pode ver na Figura 113 Uma pressuposição importante para o teste estatístico da regressão é a de que esta variação é a mesma nas várias subpopulações homocedasticidade conforme será visto mais adiante A linha que se pretende usar para representar o fenômeno parte dos dados experimentais que constituem um conjunto de pontos mais ou menos desalinhados Podese pensar em um primeiro momento em traçála à mão livre buscando a reta que passa à menor distância de todos os pontos Dependendo da amostra no entanto um desenho desse tipo vai estar sujeito a um grau maior ou menor de erro de julgamento sobre qual é a linha que melhor se ajusta aos dados Na próxima seção será apresentado um método analítico para a obtenção da melhor reta Por outro lado uma vez desenhada a reta desejase muitas vezes fazer previsões para y a partir de valores conhecidos de x O processo gráfico consiste em escolher um valor de x levantar uma perpendicular até a reta e a partir dela desenhar uma linha horizontal até o eixo y buscando nele o valor esperado para y Tais previsões estão sujeitas a erro pois são feitas visualmente com base no gráfico Se no entanto for possível definir a equação que representa a reta podese obter uma melhor estimativa para y pois a equação fornece previsões independentes de julgamento gráfico Esta equação pode ser obtida e se denomina equação de regressão No caso da regressão linear simples a equação de regressão é uma reta de regressão Obtenção da reta de regressão A reta de regressão verdadeira seria obtida se fossem conhecidas os valores de x e y para todos os indivíduos da população Nesse caso seriam conhecidos a altura verdadeira da reta o coeficiente linear A e a inclinação verdadeira da reta o coeficiente de regressão B No entanto o mais comum é estudar a regressão entre x e y utilizando uma amostra da população de pontos São calculados então a e b que são as estima tivas dos parâmetros A e B Esses valores são obtidos pelo Método dos Mínimos Quadrados assim chamado porque garante que a reta obtida é aquela para a qual se tem as menores distâncias ao quadrado entre os valores observados y e a própria reta1 O coeficiente b é calculado da seguinte maneira bSPxySQxxxy yxx2 ou bxyxynx2x2n enquanto o coeficiente linear a é obtido por aybx onde y e x são as médias para y e x respectivamente A reta estimada de regressão é y a bx sendo y o valor estimado ou esperado de y para cada valor de x A Tabela 112 apresenta os cálculos necessários para estimar a reta de regressão que descreve o aumento no escore de dano ecológico conforme a quantidade de substância S presente na água do riacho R O valor de b para estes dados é bxyxynx2x2n1982148696212630175171 enquanto que o valor de a é aybx486171216817135202 Verificouse então que b 171 graus de danoμgL isto é para cada acréscimo positivo de um 1 μgL na concentração de S parece haver um aumento de TABELA 112 Determinação das quantidades necessárias para obtenção dos coeficientes da reta de regressão para o escore de dano conforme a concentração do poluente S x μgL y dano xy x2 y2 y 1 3 3 1 9 372 2 6 12 4 36 543 3 7 21 9 49 714 4 10 40 16 100 886 5 10 50 25 100 1057 6 12 72 36 144 1228 21 48 198 91 438 4800 1 Isto é os menores valores de ε2 17 no índice de dano ecológico Por outro lado o escore de dano esperado quando a concentração for zero é igual a 202 A reta de regressão estimada para os dados da Tabela 112 é y 202 171x sendo y o valor estimado ou esperado de dano para cada valor de concentração de S Ajustamento da reta estimada aos pontos experimentais Para desenhar a reta estimada sobre os pontos do gráfico escolhemse dois valores quaisquer de x suficientemente afastados para diminuir erros no traçado da reta e calculase os valores esperados y correspondentes Por exemplo Se x 1 y 202 1711 372 Se x 8 y 202 1718 1570 De posse desses valores marcamse dois pontos 1 372 e 8 1570 no gráfico de dispersão e unindoos traçase a reta obtida pelo método dos mínimos quadrados Na Figura 114 estão os pontos experimentais e a reta ajustada Note que os pontos observados não estão perfeitamente sobre a reta estimada mas um pouco afastados isto é os valores de y observados não são iguais aos esperados y Tais diferenças são interpretadas como decorrentes das oscilações aleatórias dos valores de y em relação ao valor previsto Portanto parece razoável num primeiro momento estimar o escore esperado de dano ecológico com base na equação obtida Por exemplo para uma concentração de poluente igual a 45 estimase que o dano seja y 202 17145 972 A Tabela 112 apresenta na última coluna os valores de dano esperados segundo a reta proposta para as diferentes concentrações do poluente S examinadas É importante lembrar no entanto que a equação foi obtida com base nos dados de uma amostra Será ela válida para toda a população de valores de concentração possíveis TESTE DE SIGNIFICÂNCIA DA REGRESSÃO A dependência de y em relação a x é representada pelo coeficiente b No entanto ele é quase sempre determinado com base em uma amostra de dados Não se trata portanto do valor verdadeiro do coeficiente de regressão mas de sua estimativa No caso do Exemplo 1 tal coeficiente foi obtido com base em seis observações apenas Para se afirmar que o valor b 171 representa uma dependência real de y em relação a x e justificar previsões para y com base na equação obtida devese realizar um teste de hipótese sobre a existência de regressão na população Raciocínio do teste Quando não existe dependência de y em relação a x o coeficiente de regressão populacional B é igual a zero2 No entanto valores de b obtidos em amostras aleatórias dessa população devem variar ao acaso ao redor de zero A distribuição de b em torno de zero será gaussiana se a distribuição de y for normal Figura 115 Para testar a hipótese de que B não é zero determinase o número crítico de erros padrão permitido para um afastamento nãosignificativo entre b e B e calculase a seguir o afastamento observado b B em unidades de erros padrão tcalc A decisão sobre a significância do desvio é semelhante àquelas vistas nas comparações entre médias e no teste de significância de r se o valor calculado de t exceder o valor crítico rejeitase a hipótese de que b seja um desvio ao acaso de B 0 e concluise pela existência de regressão de y em relação a x O teste de hipóteses relativo a b 171 obtido no Exemplo 1 está apresentado a seguir FIGURA 115 Distribuição amostral de b quando não há regressão na população 2 Embora letras gregas estejam sendo utilizadas neste texto para representar parâmetros optouse aqui por usar a letra B em vez do símbolo β porque este último está sendo usado para indicar a probabilidade de erro do Tipo II Etapas do teste de hipóteses da regressão 1 Elaboração das hipóteses estatísticas H0 B 0 H1 B 0 2 Escolha do nível de significância α 001 3 Determinação do valor crítico do teste Aqui como no teste da correlação gl n 2 onde n número de pontos experimentais3 Como n 2 6 2 4 tαgl t0014 4604 4 Determinação do valor calculado do teste tcalc b BEPb bEPb B desaparece da equação pois supõese em H0 que B 0 O EPb é dado por EPb Σy ŷ2 n2Σx x2 Uma fórmula alternativa mais conveniente para calcular EPb é EPb Σy2 aΣ y bΣ xyn 2Σ x2 Σ x2n Para os dados do Exemplo 1 EPb 438 20248 171198 6291 212 6 246 70 00351 0187 e o valor de tcalc é tcalc 171 0187 9144 Portanto a distância entre b e zero é de aproximadamente 9 erros padrão 5 Decisão Como tcalc 9144 t0014 4604 rejeitase H0 6 Conclusão O coeficiente de regressão populacional B não deve ser zero logo admitimos que existe regressão de y sobre x α 001 Podese então concluir que o dano ecológico depende da concentração da substância S da seguinte forma para cada acréscimo de um μgL na concentração desse poluente na água esperase que o escore de dano ecológico aumente 171 unidades 3 Na verdade estes dois testes são equivalentes Se o coeficiente de correlação simples e o de regressão simples forem calculados para os mesmos dados o valor numérico de t que testa cada um deles é exatamente o mesmo Como o número de graus de liberdade também é igual o mesmo valorP está associado aos dois testes Podese também indicar a significância do teste estatístico usando o valorP associado ao tcalc Na distribuição t com 4 graus de liberdade verificase que para t 9144 P 0001 Este valorP indica que se não houver regressão de y sobre x é muito pequena a probabilidade de se obter ao acaso um valor de b igual ou maior do que 171 Portanto justificase a conclusão de que o dano ecológico depende da concentração de S UTILIDADES DA RETA DE REGRESSÃO A reta de regressão permite 1 Representar a dependência de uma variável quantitativa em relação à outra por meio de uma equação simples 2 Prever valores para a variável dependente y de acordo com valores determinados inclusive nãoobservados da variável independente x Isto é permitido dentro da faixa de valores estudados para x Também é permitido para valores de x menores ou maiores do que os usados no estudo desde que não haja uma distância muito grande entre o valor selecionado e o primeiro ou o último valor de x estudado REQUISITOS AO USO DA REGRESSÃO LINEAR Certas exigências devem ser satisfeitas para se realizarem inferências válidas sobre o coeficiente de regressão linear embora isso não seja necessário para calcular a e b Estas exigências são 1 A variável y deve ter distribuição normal ou aproximadamente normal4 2 A variação de y deve ser a mesma em cada valor de x homocedasticidade Figura 113 Se não houver homocedasticidade será necessário transformar os dados 3 Os pontos no gráfico devem apresentar uma tendência linear Caso contrário a equação que melhor representará o fenômeno não será uma reta mas outra linha qualquer Se os pontos se apresentarem em curva podese tentar transformar os dados de forma a obter uma reta ou ajustar uma curva o que não é difícil com os modernos programas para computadores 4 Os valores de y foram obtidos ao acaso da população e são independentes uns dos outros 5 A variável x foi medida sem erro Satisfazer esta exigência na prática é muito difícil Por isso o que se faz é pressupor que os erros ocorridos ao se medir x são desprezíveis ou pelo menos menores dos que os que estão associados à mensuração de y Violações das três primeiras pressuposições podem ser contornadas pelo uso de uma transformação dos dados Já problemas relacionados com as exigências 4 e 5 são mais difíceis de resolver 4 Esta exigência não é necessária para x ao contrário do que é exigido na análise de correlação entre x e y quando ambas as variáveis devem ter distribuição normal ANÁLISE DE RESÍDUOS Um teste para a validade das pressuposições para a regressão pode ser feito do seguinte modo 1 Calculamse os resíduos para cada valor de y Os resíduos representam a diferença entre aquilo que foi realmente observado e o que foi predito pelo modelo de regressão isto é Resíduo ε y ŷ 2 Desenhase um gráfico no qual os resíduos são colocados no eixo vertical e os valores esperados de y ŷ no horizontal Os pontos devem ficar distribuídos de forma equilibrada acima e abaixo de uma linha imaginária paralela ao eixo x na altura do resíduo zero formando uma faixa aproximadamente retangular A violação do pressuposto 2 homocedasticidade produz faixas em forma de cone enquanto violações do pressuposto 3 linearidade produz faixas curvas Figura 116 FIGURA 116 Teste gráfico da validade das pressuposições em uma análise de regressão linear no eixo vertical estão os resíduos e no horizontal os valores de y preditos pela reta Os gráficos sugerem que a não existe homocedasticidade b a reta não é a equação mais adequada para descrever o fenômeno Exemplo 2 Maria Liége Bazanella de Oliveira 1994 estudou fatores que podem influenciar os níveis de pressão arterial sistólica PAS medidos 12 a 24 horas após o nascimento em recémnascidos normais de Porto Alegre O tamanho amostral foi 28 e as medidas foram tomadas quando a criança estava acordada Entre diferentes variáveis consideradas foi examinada a pressão arterial da mãe A Figura 117 mostra o gráfico de dispersão de pontos relativos às medidas de PAS em mães e filhos A forma da nuvem sugere a existência de dependência da pressão arterial dos filhos em relação à de suas mães Os dados foram analisados por um programa de computador e a equação de regressão ajustada aos dados foi PAS filho 542 0148 PAS mãe O EPb foi 0066 e no teste de significância da regressão obtevese tcalc 2254 gl 26 P 0033 Concluise que a pressão arterial sistólica em recémnascidos com 12 a 24 horas de vida medida quando estão acordados depende da pressão arterial da mãe esperandose um aumento médio de 0148 na PAS do filho para cada mmHg a mais na PAS da mãe Em outras palavras o grupo de mães que tem em média pressão arterial 10 mmHg mais alta do que as outras tem filhos com valores de PAS em média 15 mmHg mais altos também A validade desta análise deve ser verificada pela observação dos resíduos que estão apresentados no gráfico da Figura 118 A distribuição dos resíduos está bem equilibrada acima e abaixo da linha correspondente ao resíduo zero com uma exceção o que confirma que o modelo escolhido é razoável para os dados em estudo FIGURA 117 Pressão arterial sistólica mmHg em recémnascidos com 12 a 24 horas de vida e suas mães FIGURA 118 Gráfico dos resíduos relativos ao ajuste de uma reta de regressão aos dados de pressão arterial em recémnascidos e suas mães Neste gráfico observase presença de um resíduo discrepante com valor aproximado de 9 Esse resíduo corresponde a uma observação atípica outlier Observações deste tipo podem alterar muito os resultados das análises podendo ser decorrentes de 1 erro de leitura ou anotação dos dados 2 erro na execução do experimento ou obtenção da medida 3 problemas nãocontroláveis na execução do experimento 4 características inerentes à variável Nenhuma observação atípica deve ser retirada da amostra sem um exame cuidadoso da causa desse resultado A retirada justificase nos casos 1 a 3 mas se este dado estiver representando uma característica própria da variável 4 sua eliminação determinará uma avaliação distorcida do fenômeno