55
Bioestatística
UFMA
41
Bioestatística
UFMA
40
Bioestatística
UFMA
57
Bioestatística
UFMA
40
Bioestatística
UFMA
59
Bioestatística
UFMA
49
Bioestatística
UFMA
5
Bioestatística
UFMA
61
Bioestatística
UFMA
43
Bioestatística
UFMA
Texto de pré-visualização
AULA 11ANOVA 20252 Prof Antonio Carlos Leal de Castro Análise de Variância ANOVA Às vezes é preciso comparar médias de mais de duas populações Por exemplo parar verificar se pessoas com diferentes estaturas isto é alto médio e baixo têm em média o mesmo peso corporal é preciso comparar médias de três populações Outras vezes é preciso comparar várias situações experimentais Por exemplo se um pesquisador separa ao acaso um conjunto de pacientes em 4 grupos e administra uma droga diferente a cada grupo terá que comparar médias de 4 populações A análise de variância procura dar resposta a questões deste tipo através da comparação das localizações dos diferentes grupos Esta comparação é feita a partir da análise da dispersão presente no conjunto de dados daí a designação de análise de variância Família de curvas determinada pelos graus de liberdade no numerador e no denominador ν1 e ν2 São representadas graficamente de forma positiva A área total sob cada curva de uma distribuição F é 1 Valores F são sempre iguais ou maiores que zero Para todas as distribuições F o valor médio de F é aproximadamente 1 PROPRIEDADES DA DISTRIBUIÇÃO F EXEMPLOS DE CURVAS DA DISTRIBUIÇÃO F d11 d21 d12 d21 d15 d22 d1100 d21 d1100 d2100 Exigências da ANOVA As populações têm a mesma variância As amostras são retiradas de populações com distribuição normal As amostras são independentes Objetivo avaliar se várias médias populacionais são iguais ou se pelo menos uma é diferente H0 μ1 μ2 μn Para isso verificamos como se comporta a variação entre as médias das várias populações e a variação dentro dessas populações ANOVA DE 1 FATOR UNIFATORIAL Comparação de mais de duas médias Em muitas situações o investigador precisa comparar várias médias mais de duas Comparar os efeitos de 5 doses de uma fitohormona sobre o crescimento em altura de plantas de buganvília H0 1 2 3 4 5 Comparar os teores de cafeína de 6 marcas de chá verde H0 1 2 3 4 5 6 Nestes casos usase o método da Análise de Variância ANOVA Comparação de mais de duas médias Numa primeira tentativa de encontrar resposta para o problema proposto seriamos tentados a realizar todas as comparações possíveis das médias dos 5 tratamentos tomadas duas a duas pelo método clássico do t de Student H0 1 2H0 1 3 H0 1 4 H0 1 5 H0 2 3 H0 2 4 H0 2 5 H0 3 4 H0 3 5 H0 4 5 10 testes t de Student para comparar 5 médias A hipótese a ser testada é H0 Não existe diferença entre as médias µ1 µ2 µ3 µ4 µ5 H1 Pelo menos uma das médias é diferente das demais µ1 µ2 µ3 µ4 µ5 Se H0 não for rejeitada não é preciso fazer mais nada Se a H0 for rejeitada testamos dentro dos subgrupos de médias se há alguma que seja diferente das demais Comparação de mais de duas médias Para se testarem hipóteses do tipo Utilizase o procedimento estatístico da Análise de Variância que deve o seu nome e muito do seu desenvolvimento inicial a RA Fisher e para o qual JW Tukey propôs o acrónimo de ANOVA de ANalysis Of VAriance Exemplo Amostra 1 Amostra 2 Amostra 3 5 7 8 6 9 6 5 7 10 4 6 11 6 9 10 A diferença entre as três médias é apenas consequência da variação amostral A diferença entre as médias das amostras é consequência da variação amostral ou é uma evidência da diferença entre as médias das populações A variabilidade total das amostras pode ser dividida em duas partes Variabilidade devido ao fato de que as populações são diferentes denominada variabilidade entre entre as populações Quanto maior for a variabilidade entre mais forte é a evidência de que as médias das populações são diferentes Variabilidade devido à diferenças dentro de cada amostra denominada variabilidade dentro Quanto maior for a variabilidade dentro maior será a dificuldade para concluir que as médias das populações são diferentes O teste de hipóteses para comparação de k amostras é estabelecida da seguinte forma H0 μ1 μ2 μk H1 Nem todas as populações têm a mesma média A distribuição F conduzirá a decisão de aceitar o rejeitar a hipótese nula comparando o valor da estatística de teste F F Variância entre Variância dentro se² sd² com o valor F tabelado correspondente ao nível de significância α adotado F grande maior que o valor tabelado indica que Variância entre Variância dentro Logo F grande é evidência contra a hipótese nula Logo se F F tabelado rejeitamos a hipótese nula F pequeno menor que o valor tabelado indica que Variância entre Variância dentro Logo F pequeno evidência a favor da hipótese nula Logo se F F tabelado não rejeitamos a hipótese nula A estatística F razão F Essa estatística indica o tamanho da diferença entre os grupos em função do tamanho da variação dentro de cada grupo MSd MSe F A estatística do teste ANOVA é OneWay ANOVA A hipótese nula é de que as médias são todas iguais 0 1 2 3 k H O modelo ANOVA não testa se uma média é menor do que a outra apenas se elas todas são iguais ou se pelo menos uma é diferente O que teste a ANOVA ANOVA Generalidades Análise de Variância Fator Único ANOVA Unifatorial Vários Fatores ANOVA Multifatorial Para avaliar a igualdade de várias médias populacionais nós comparamos a variação entre as médias de vários grupos com a variação dentro dos grupos Este método é chamado de Análise de Variância Finalidade da ANOVA 1 fator ANOVA Unifatorial Hipóteses H0 µ1 µ2 µ3 µk As médias das k populações são iguais Não há efeito dos Tratamentos H1 Nem todas µjs são iguais Pelo menos uma média é diferente das outras Há efeito dos tratamentos É incorreto dizer µ1 µ2 µk ANOVA Unifatorial Cálculo Compara dois tipos de variação para testar a igualdade das médias A comparação fazse com base na razão de duas variâncias Se a variação devida aos tratamentos exceder a variação aleatória concluise que as médias não são todas iguais As fracções de variação devidas ao efeito dos tratamentos e aos efeitos aleatórios erro experimental obtêmse decompondo a variação total dos dados ANOVA Unifatorial Cálculo Variação Total Variação devida a tratamentos Variação aleatória erro experimental Soma dos quadrados dos tratamentos Soma dos quadrados entre os grupos Soma dos quadrados do erro Soma dos quadrados dentro dos grupos ANOVA Unifatorial Cálculo SQD Total X11 ത𝑋2 X21 ത𝑋2 X𝑖𝑗 ത𝑋2 Desvios de todos os dados relativamente à média global do estudo ANOVA Unifatorial Cálculo SQD trat n1X1 ത𝑋2 n2X2 ത𝑋2 nkX𝑘 ത𝑋2 Desvios das médias dos tratamentos relativamente à média global do estudo ANOVA Unifatorial Cálculo SQD erro X11 ത𝑋12 X21 ത𝑋12 X𝑘𝑛 ത𝑋𝑘2 Desvios dos dados de cada grupo relativamente à média do próprio grupo ANOVA Unifatorial Cálculo Graus de Liberdade Totais N1 Graus de Liberdade dos Tratamentos k1 Graus de Liberdade do Erro Nk k nº de tratamentos grupos n nº de dados em cada grupo N nº total de dados no estudo kn ANOVA Unifactorial Cálculo Teste F Critério Se H0 for verdadeira μis todas iguais então FQmtratQMerro1 Rejeitar H0 se Famostra for elevado isto é se Famostra Fα k1 Nk Este teste é sempre unilateral AMOSTRAS a b c d K 1 xa1 x 1b 1cx xd1 1kx 2 xa2 kx 2 3 xa3 kx 3 4 xa4 kx 4 n xan kx n a x b x cx d x k x Tabela de análise de Variância Causas da variação Graus de Liberdade Soma dos quadrados SQ Quadrados médios Qμ F calculado Entre tratamentos k 1 SQ1 n 2 xi x QM1 1 1 k SQ F 2 1 QM QM Dentre tratamentos erro K n 1 SQ2 SQtot SQ1 QM2 1 2 n k SQ Total kn 1 SQtotal Soma dos Quadrados Total x x² kn 1 gl Entre n xi x² k 1 gl Dentro x xi² k n 1 gl SQtotal SQtrat SQerro SQtotal SQtrat N x x 2 2 N x n xi 2 2 Exemplo Uma amostra aleatória de alunos foi obtida em cada fileira As notas daqueles alunos em um segundo exame foram registradas Frente 82 83 97 93 55 67 53 Meio 83 78 68 61 77 54 69 51 63 Fundo 38 59 55 66 45 52 52 61 As estatísticas resumo para as notas de cada fileira são mostradas na tabela abaixo Frente Meio Fundo n 7 9 8 média 7571 6711 5350 desvio padrão 1763 1095 896 Variância 31090 11986 8029 Exemplo Aqui está a tabela básica da ANOVA 1 fator Fonte SQ gl QM F p Entre Dentro Total Após preencher as somas de quadrados temos Fonte de Variação SQ gl QM F p Entre 1902 Dentro 3386 Total 5288 Completando os QM variâncias temos Fonte SQ gl QM F p Entre 1902 2 9510 Dentro 3386 21 1612 Total 5288 23 2299 Estatistica do teste F Um teste de estatística F é a razão de duas variâncias amostrais a QME e QMD são duas variâncias amostrais e nós dividimos para obter F F QME QMD Para nossos dados F 9510 1612 59 OneWay ANOVA Adicionando F para a Tabela Efeito SQ gl QM F p Entre 1902 2 9510 59 Dentro 3386 21 1612 Total 5288 23 2299 OneWay ANOVA Exemplo 1 Imagine que 4 amostras casuais simples todas com cinco elementos mas cada uma proveniente de uma população conduziram aos dados apresentados na tabela a seguir As médias dessas amostras estão na última linha dessa tabela Será que as diferenças das médias das amostras são suficientemente grandes para que possa afirmar que as médias das populações são diferentes Amostras A B C D 11 8 5 4 8 5 7 4 5 2 3 2 8 5 3 0 8 5 7 0 T 40 25 25 10 8 5 5 2 Para fazer a análise da variância com os dados apresentados é preciso calcular Os graus de liberdade de tratamentos k 1 4 1 3 do total n 1 20 1 19 de resíduos n k 20 4 16 A soma de quadrados total SQT 11² 8² 0² 100²20 158 A soma de quadrados de tratamentos SQTr 40² 25² 25² 10² 5 500 SQTr 590 500 90 A soma de quadrados de resíduo SQR 158 90 68 O quadrado médio de tratamentos QMTr 903 30 O quadrado médio do resíduo QMR 6816 425 O valor de F F 30425 706 As quantidades calculadas são apresentadas numa tabela de análise da variância Ao nível de significância de 5 o valor de F na tabela com 3 e 16 graus de liberdade é 324 como o valor obtido é maior do que 324 concluise que as médias não são iguais ao nível de significância de 5 Causas de Variação GL SQ QM F Tratamentos 3 90 30 706 Resíduo 16 68 425 Total 19 158
55
Bioestatística
UFMA
41
Bioestatística
UFMA
40
Bioestatística
UFMA
57
Bioestatística
UFMA
40
Bioestatística
UFMA
59
Bioestatística
UFMA
49
Bioestatística
UFMA
5
Bioestatística
UFMA
61
Bioestatística
UFMA
43
Bioestatística
UFMA
Texto de pré-visualização
AULA 11ANOVA 20252 Prof Antonio Carlos Leal de Castro Análise de Variância ANOVA Às vezes é preciso comparar médias de mais de duas populações Por exemplo parar verificar se pessoas com diferentes estaturas isto é alto médio e baixo têm em média o mesmo peso corporal é preciso comparar médias de três populações Outras vezes é preciso comparar várias situações experimentais Por exemplo se um pesquisador separa ao acaso um conjunto de pacientes em 4 grupos e administra uma droga diferente a cada grupo terá que comparar médias de 4 populações A análise de variância procura dar resposta a questões deste tipo através da comparação das localizações dos diferentes grupos Esta comparação é feita a partir da análise da dispersão presente no conjunto de dados daí a designação de análise de variância Família de curvas determinada pelos graus de liberdade no numerador e no denominador ν1 e ν2 São representadas graficamente de forma positiva A área total sob cada curva de uma distribuição F é 1 Valores F são sempre iguais ou maiores que zero Para todas as distribuições F o valor médio de F é aproximadamente 1 PROPRIEDADES DA DISTRIBUIÇÃO F EXEMPLOS DE CURVAS DA DISTRIBUIÇÃO F d11 d21 d12 d21 d15 d22 d1100 d21 d1100 d2100 Exigências da ANOVA As populações têm a mesma variância As amostras são retiradas de populações com distribuição normal As amostras são independentes Objetivo avaliar se várias médias populacionais são iguais ou se pelo menos uma é diferente H0 μ1 μ2 μn Para isso verificamos como se comporta a variação entre as médias das várias populações e a variação dentro dessas populações ANOVA DE 1 FATOR UNIFATORIAL Comparação de mais de duas médias Em muitas situações o investigador precisa comparar várias médias mais de duas Comparar os efeitos de 5 doses de uma fitohormona sobre o crescimento em altura de plantas de buganvília H0 1 2 3 4 5 Comparar os teores de cafeína de 6 marcas de chá verde H0 1 2 3 4 5 6 Nestes casos usase o método da Análise de Variância ANOVA Comparação de mais de duas médias Numa primeira tentativa de encontrar resposta para o problema proposto seriamos tentados a realizar todas as comparações possíveis das médias dos 5 tratamentos tomadas duas a duas pelo método clássico do t de Student H0 1 2H0 1 3 H0 1 4 H0 1 5 H0 2 3 H0 2 4 H0 2 5 H0 3 4 H0 3 5 H0 4 5 10 testes t de Student para comparar 5 médias A hipótese a ser testada é H0 Não existe diferença entre as médias µ1 µ2 µ3 µ4 µ5 H1 Pelo menos uma das médias é diferente das demais µ1 µ2 µ3 µ4 µ5 Se H0 não for rejeitada não é preciso fazer mais nada Se a H0 for rejeitada testamos dentro dos subgrupos de médias se há alguma que seja diferente das demais Comparação de mais de duas médias Para se testarem hipóteses do tipo Utilizase o procedimento estatístico da Análise de Variância que deve o seu nome e muito do seu desenvolvimento inicial a RA Fisher e para o qual JW Tukey propôs o acrónimo de ANOVA de ANalysis Of VAriance Exemplo Amostra 1 Amostra 2 Amostra 3 5 7 8 6 9 6 5 7 10 4 6 11 6 9 10 A diferença entre as três médias é apenas consequência da variação amostral A diferença entre as médias das amostras é consequência da variação amostral ou é uma evidência da diferença entre as médias das populações A variabilidade total das amostras pode ser dividida em duas partes Variabilidade devido ao fato de que as populações são diferentes denominada variabilidade entre entre as populações Quanto maior for a variabilidade entre mais forte é a evidência de que as médias das populações são diferentes Variabilidade devido à diferenças dentro de cada amostra denominada variabilidade dentro Quanto maior for a variabilidade dentro maior será a dificuldade para concluir que as médias das populações são diferentes O teste de hipóteses para comparação de k amostras é estabelecida da seguinte forma H0 μ1 μ2 μk H1 Nem todas as populações têm a mesma média A distribuição F conduzirá a decisão de aceitar o rejeitar a hipótese nula comparando o valor da estatística de teste F F Variância entre Variância dentro se² sd² com o valor F tabelado correspondente ao nível de significância α adotado F grande maior que o valor tabelado indica que Variância entre Variância dentro Logo F grande é evidência contra a hipótese nula Logo se F F tabelado rejeitamos a hipótese nula F pequeno menor que o valor tabelado indica que Variância entre Variância dentro Logo F pequeno evidência a favor da hipótese nula Logo se F F tabelado não rejeitamos a hipótese nula A estatística F razão F Essa estatística indica o tamanho da diferença entre os grupos em função do tamanho da variação dentro de cada grupo MSd MSe F A estatística do teste ANOVA é OneWay ANOVA A hipótese nula é de que as médias são todas iguais 0 1 2 3 k H O modelo ANOVA não testa se uma média é menor do que a outra apenas se elas todas são iguais ou se pelo menos uma é diferente O que teste a ANOVA ANOVA Generalidades Análise de Variância Fator Único ANOVA Unifatorial Vários Fatores ANOVA Multifatorial Para avaliar a igualdade de várias médias populacionais nós comparamos a variação entre as médias de vários grupos com a variação dentro dos grupos Este método é chamado de Análise de Variância Finalidade da ANOVA 1 fator ANOVA Unifatorial Hipóteses H0 µ1 µ2 µ3 µk As médias das k populações são iguais Não há efeito dos Tratamentos H1 Nem todas µjs são iguais Pelo menos uma média é diferente das outras Há efeito dos tratamentos É incorreto dizer µ1 µ2 µk ANOVA Unifatorial Cálculo Compara dois tipos de variação para testar a igualdade das médias A comparação fazse com base na razão de duas variâncias Se a variação devida aos tratamentos exceder a variação aleatória concluise que as médias não são todas iguais As fracções de variação devidas ao efeito dos tratamentos e aos efeitos aleatórios erro experimental obtêmse decompondo a variação total dos dados ANOVA Unifatorial Cálculo Variação Total Variação devida a tratamentos Variação aleatória erro experimental Soma dos quadrados dos tratamentos Soma dos quadrados entre os grupos Soma dos quadrados do erro Soma dos quadrados dentro dos grupos ANOVA Unifatorial Cálculo SQD Total X11 ത𝑋2 X21 ത𝑋2 X𝑖𝑗 ത𝑋2 Desvios de todos os dados relativamente à média global do estudo ANOVA Unifatorial Cálculo SQD trat n1X1 ത𝑋2 n2X2 ത𝑋2 nkX𝑘 ത𝑋2 Desvios das médias dos tratamentos relativamente à média global do estudo ANOVA Unifatorial Cálculo SQD erro X11 ത𝑋12 X21 ത𝑋12 X𝑘𝑛 ത𝑋𝑘2 Desvios dos dados de cada grupo relativamente à média do próprio grupo ANOVA Unifatorial Cálculo Graus de Liberdade Totais N1 Graus de Liberdade dos Tratamentos k1 Graus de Liberdade do Erro Nk k nº de tratamentos grupos n nº de dados em cada grupo N nº total de dados no estudo kn ANOVA Unifactorial Cálculo Teste F Critério Se H0 for verdadeira μis todas iguais então FQmtratQMerro1 Rejeitar H0 se Famostra for elevado isto é se Famostra Fα k1 Nk Este teste é sempre unilateral AMOSTRAS a b c d K 1 xa1 x 1b 1cx xd1 1kx 2 xa2 kx 2 3 xa3 kx 3 4 xa4 kx 4 n xan kx n a x b x cx d x k x Tabela de análise de Variância Causas da variação Graus de Liberdade Soma dos quadrados SQ Quadrados médios Qμ F calculado Entre tratamentos k 1 SQ1 n 2 xi x QM1 1 1 k SQ F 2 1 QM QM Dentre tratamentos erro K n 1 SQ2 SQtot SQ1 QM2 1 2 n k SQ Total kn 1 SQtotal Soma dos Quadrados Total x x² kn 1 gl Entre n xi x² k 1 gl Dentro x xi² k n 1 gl SQtotal SQtrat SQerro SQtotal SQtrat N x x 2 2 N x n xi 2 2 Exemplo Uma amostra aleatória de alunos foi obtida em cada fileira As notas daqueles alunos em um segundo exame foram registradas Frente 82 83 97 93 55 67 53 Meio 83 78 68 61 77 54 69 51 63 Fundo 38 59 55 66 45 52 52 61 As estatísticas resumo para as notas de cada fileira são mostradas na tabela abaixo Frente Meio Fundo n 7 9 8 média 7571 6711 5350 desvio padrão 1763 1095 896 Variância 31090 11986 8029 Exemplo Aqui está a tabela básica da ANOVA 1 fator Fonte SQ gl QM F p Entre Dentro Total Após preencher as somas de quadrados temos Fonte de Variação SQ gl QM F p Entre 1902 Dentro 3386 Total 5288 Completando os QM variâncias temos Fonte SQ gl QM F p Entre 1902 2 9510 Dentro 3386 21 1612 Total 5288 23 2299 Estatistica do teste F Um teste de estatística F é a razão de duas variâncias amostrais a QME e QMD são duas variâncias amostrais e nós dividimos para obter F F QME QMD Para nossos dados F 9510 1612 59 OneWay ANOVA Adicionando F para a Tabela Efeito SQ gl QM F p Entre 1902 2 9510 59 Dentro 3386 21 1612 Total 5288 23 2299 OneWay ANOVA Exemplo 1 Imagine que 4 amostras casuais simples todas com cinco elementos mas cada uma proveniente de uma população conduziram aos dados apresentados na tabela a seguir As médias dessas amostras estão na última linha dessa tabela Será que as diferenças das médias das amostras são suficientemente grandes para que possa afirmar que as médias das populações são diferentes Amostras A B C D 11 8 5 4 8 5 7 4 5 2 3 2 8 5 3 0 8 5 7 0 T 40 25 25 10 8 5 5 2 Para fazer a análise da variância com os dados apresentados é preciso calcular Os graus de liberdade de tratamentos k 1 4 1 3 do total n 1 20 1 19 de resíduos n k 20 4 16 A soma de quadrados total SQT 11² 8² 0² 100²20 158 A soma de quadrados de tratamentos SQTr 40² 25² 25² 10² 5 500 SQTr 590 500 90 A soma de quadrados de resíduo SQR 158 90 68 O quadrado médio de tratamentos QMTr 903 30 O quadrado médio do resíduo QMR 6816 425 O valor de F F 30425 706 As quantidades calculadas são apresentadas numa tabela de análise da variância Ao nível de significância de 5 o valor de F na tabela com 3 e 16 graus de liberdade é 324 como o valor obtido é maior do que 324 concluise que as médias não são iguais ao nível de significância de 5 Causas de Variação GL SQ QM F Tratamentos 3 90 30 706 Resíduo 16 68 425 Total 19 158