·
Agronomia ·
Probabilidade e Estatística 2
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
20
Capítulo 1: Conceitos Básicos de Estatística e Experimentação
Probabilidade e Estatística 2
UFGD
2
Lista de Exercícios sobre Manejo Integrado de Nutrientes em Tomate
Probabilidade e Estatística 2
UFGD
21
Planejamento de Experimentos Agrícolas
Probabilidade e Estatística 2
UFGD
2
Análise Estatística de Dados Agropecuários
Probabilidade e Estatística 2
UFGD
12
Estatística Experimental: Evolução no Planejamento e Análise de Experimentos em Fruticultura
Probabilidade e Estatística 2
UFGD
111
Planejamento e Análise de Experimentos Agrícolas - Conceitos Básicos de Estatística
Probabilidade e Estatística 2
UFGD
6
Uso adequado de casas de vegetação e telados na experimentação agrícola
Probabilidade e Estatística 2
UFGD
8
Comparações Múltiplas em Experimentos com Scott Knott
Probabilidade e Estatística 2
UFGD
9
Dificuldades no Uso de Testes de Comparação de Médias em Artigos Científicos
Probabilidade e Estatística 2
UFGD
6
Análise de Variância e Contrastação em Cultivares de Arroz: Exercício Resolvido
Probabilidade e Estatística 2
UFGD
Texto de pré-visualização
350 Clayton Albuquerque de Sousa et al Rev Ceres Viçosa v 59 n3 p 350354 maijun 2012 RESUMO ABSTRACT Evaluation of multiple mean comparison tests The objective was to verify the efficiency and uniformity of responses from different tests to compare means and the rate of occurrence of Type I error Four different tests for multiple comparison of means were applied to 200 experiments and 10 variables created with random values to assess the number of levels agreement with the F test and rate of occurrence of type I error per variable and per experiment The tests differed in their results for all variables The greatest divergences in results were found when using the LSD test For the level of significance the greatest agreement was found by the Tukey test Key words type I error Tukey Duncan Dunnet LSD Recebido para publicação em 30122011 e aprovado em 01062012 1 EngenheiroAgrônomo Mestre Departamento de Agronomia Universidade Federal Rural de Pernambuco Rua Dom Manoel de Medeiros sn Dois Irmãos 52171900 Recife Pernambuco Brasil claytonadesousagmailcom 2 EngenheiroAgrônomo Doutor Bosista do CNPq Departamento de Agronomia Universidade Federal Rural de Pernambuco Rua Dom Manoel de Medeiros sn Dois Irmãos 52171900 Recife Pernambuco Brasil marioliradepaufrpebr 3 Engenheiro Florestal Doutor Bosista do CNPq Departamento de Ciência Florestal Universidade Federal Rural de Pernambuco Rua Dom Manoel de Medeiros sn Dois Irmãos 52171900 Recife Pernambuco Brasil rinaldodcflufrpebr Clayton Albuquerque de Sousa1 Mario Andrade Lira Junior2 Rinaldo Luiz Caraciolo Ferreira 3 Avaliação de testes estatísticos de comparações múltiplas de médias O objetivo deste trabalho foi verificar a eficiência e uniformidade das respostas de diferentes testes de compara ções múltiplas entre médias bem como a taxa de ocorrência do erro tipo I Quatro diferentes testes de comparações múltiplas de médias foram aplicados a 200 experimentos e a 10 variáveis criadas com valores aleatórios para avaliação do número de níveis concordância com o teste F taxa de ocorrências do erro tipo I por variável e por experimento Os testes diferiram em seus resultados para todas as variáveis analisadas As maiores divergências de resultados foram encontradas quando se utilizou o teste LSD Quanto ao nível de significância adotado maior concordância foi encon trada por meio do teste de Tukey Palavraschave Duncan Dunnet erro tipo I LSD Tukey 351 Avaliação de testes estatísticos de comparações múltiplas de médias Rev Ceres Viçosa v 59 n3 p 350354 maijun 2012 INTRODUÇÃO Na pesquisa científica de diversas áreas do conheci mento as análises estatísticas são utilizadas como ferra mentas para avaliação de suas hipóteses A comparação múltipla entre médias de tratamentos experimentais pre cedida de análise de variância é sem dúvida uma das mais comuns dessas análises Araújo 2003 Cargnelutti Filho et al 2003 Couto et al 2009 Os testes de comparações múltiplas entre médias de tratamentos são de grande interesse na pesquisa aplica da Conagin et al 2008 quando o objetivo do trabalho é comparar tratamentos qualitativos A utilização de um teste é realizada quando a análise de variância detecta existência de efeito significativo dos tratamentos a um determinado nível de significância de modo que se deci de rejeitar a hipótese de nulidade pelo menos um con traste ortogonal entre tratamentos diferentes de zero Dentre os testes mais comuns para comprovação dos resultados experimentais estão o Teste F utilizado para verificar se existe diferença significativa entre contrastes ortogonais dos tratamentos e os testes de Tukey Duncan Dunnet e o teste LSD normalmente utilizados para deta lhar esta informação permitindo mostrar especificada mente quais tratamentos diferem ou não estatisticamente A escolha do teste que se deve adotar depende de suas qualidades estatísticas sendo função do tipo de erro que é controlado e da forma como estes erros são contro lados Vale ressaltar que se deve procurar um teste que seja robusto frente a algumas violações dos pressupos tos básicos para sua aplicação tais como normalidade homocedasticidade e independência de erros Machado et al 2005 Uma característica desejável é que os testes apresen tem controle da taxa de erro tipo I que afirmem haver diferença entre os tratamentos quando na realidade as diferenças são causadas pelo acaso A probabilidade má xima de se rejeitar erroneamente uma hipótese nula H0 é determinada pelo nível de significância do teste e funda menta o erro tipo I sendo comumente utilizado o nível de 5 de probabilidade O comportamento de alguns testes estatísticos e seu desempenho em termos de taxa de erro tipo I tem sido avaliado por exemplo por Hsu 1996 Borges Ferreira 2003 Conagin Barbin 2006ab Conagin et al 2008 dentre outros mas ainda existem muitas perguntas a se rem respondidas neste campo da investigação Bretz et al 2008 Há muitas dificuldades em se comparar o erro tipo I nos procedimentos de comparações múltiplas Carmer Swanson 1971 A razão entre o número de erros tipo I e o número de comparações é definida como taxa de erro por comparação chamada de comparisonwise e a razão entre o número de experimentos com um ou mais erros tipo I e o número total de experimentos é definida como taxa de erro por experimento chamada de experimentwise Steel Torrie 1980 Esperase que os testes de compa rações múltiplas de médias controlem a taxa de ocorrência do erro tipo I com a mesma eficiência tanto para compara ções como para experimentos Alguns testes de compa rações múltiplas controlam a taxa de erro tipo I para com parações enquanto outros controlam a taxa de erro tipo I para experimentos Vieira 2006 Resultados diferentes de taxas de ocorrência do erro tipo I também têm sido registrados quando se avaliam diferentes tamanhos de experimentos de acordo com o número de tratamentos repetições e coeficientes de vari ação Conagin 1998 1999 Conagin et al 1999 e Conagin Gomes 2004 O objetivo deste trabalho foi verificar a eficiência e uniformidade das respostas de diferentes testes de com parações múltiplas entre médias bem como a taxa de ocor rência do erro tipo I MATERIAL E MÉTODOS Foram gerados dados para 200 experimentos conduzi dos em delineamento inteiramente casualizado composto de 32 tratamentos cada experimento com quatro repeti ções e dez variáveis totalizando 2000 aplicações dos tes tes Os tratamentos hipotéticos foram construídos com base em um experimento com um tratamento controle para fim de designação de testemunha para o teste de Dunnett O número de tratamentos e variáveis foi baseado em ex perimentos de algumas áreas das ciências agrárias que normalmente adotam estas quantidades como por exem plo microbiologia do solo ou melhoramento vegetal Os dados foram gerados utilizandose a função de criação de dados aleatórios do Microsoft Excel 2007 para que os tratamentos a priori não apresentassem diferen ça significativa entre si Mediante análise de variância os testes utilizados para avaliação dos experimentos foram o teste F o teste de Tukey procedimento means o teste de Duncan o teste de Dunnet e o teste LSD todos aplica dos utilizandose o procedimento GLM do SAS SAS Institute 1999 Foi determinada a quantidade total de resultados sig nificativos e não significativos em cada teste e submeti dos à análise pelo teste do quiquadrado a 5 de proba bilidade para testar a hipótese de que não havia diferen ça entre a quantidade de resultados significativos obti dos e a quantidade de resultados significativos que era esperada em cada teste Esta análise permitiu verificar a adequação das respostas obtidas dos testes quanto ao nível de significância usado Além disso foram avaliadas as seguintes variáveis 1 número de níveis dos testes determinado pelo número de 352 Clayton Albuquerque de Sousa et al Rev Ceres Viçosa v 59 n3 p 350354 maijun 2012 grupos formados por tratamentos que não diferiram entre si em cada variável 2 coeficiente de concordância dos demais testes com o teste F CCF determinado pela com paração em cada caso do resultado do teste F com o re sultado de cada teste de comparação de médias atribuin dose valor 0 para o caso de apresentarem resultados con cordantes e valor 1 no caso de resultados opostos para essas duas variáveis não se realizou a análise para o teste F 3 taxa de ocorrências do erro tipo I por variável TIV determinada pela atribuição em cada caso de valor 0 para as ocorrências de resultados não significativos e de valor 1 no caso de resultados significativos e 4 taxa de ocor rências do erro tipo I por experimento TIE determinada pela atribuição em cada caso de valor 0 para os experi mentos com resultados não significativos e valor 1 no caso de resultados significativos Como os dados foram criados por procedimento aleatório para a determinação da TIV foi utilizado o conjunto total dos 2000 casos 200 experimentos com 10 variáveis cada e para determinação da TIE o conjunto dos 200 experimentos Todas as análises estatísticas foram realizadas por meio do software SAS Learning Edition 41 SAS Institute 2006 a 5 de probabilidade RESULTADOS E DISCUSSÃO Considerandose todos os testes a análise demons trou comportamento divergente com relação à apresenta ção de diferença significativa para o conjunto dos 2000 casos O teste F e o teste de Tukey apresentaram elevado número de avaliações com resultados não significativos mais de 1900 cada teste o que demonstra um comporta mento coerente com o conjunto de dados construído que teve como hipótese não haver diferença entre tratamen tos Tabela 1 Considerandose que todos os tratamen tos eram formados por números aleatórios e adotandose o nível de significância usual de 5 podería esperar um máximo de 100 ocorrências de significância Os dois tes tes adequaramse a esta probabilidade máxima O teste de Dunnet não obteve resultados significati vamente diferentes do esperado de acordo com o teste do quiquadrado apesar de em valores absolutos não se adequar ao nível máximo de 100 ocorrências de resulta dos significativos Já os testes LSD e Duncan demonstraram um número de resultados significativos superior ao número de não significativos com respectivamente 1942 e 1542 de um total de 2000 avaliações sendo significativas 971 e 771 do total respectivamente Esse resultado mostra que estes testes induzem a maior ocorrência do erro tipo I do que o nível de significância prédefinido com relação aos outros testes avaliados Pelo teste do quiquadrado os testes de Duncan e LSD demonstraram diferenças entre o número de obser vações que teriam resultado não significativo dados ge rados aleatoriamente e o que realmente aconteceu com as comparações das médias resultados observados A análise de variância das variáveis número de níveis dos testes de comparação múltipla de médias coeficiente de concordância dos testes de médias com o teste F taxas de ocorrência do erro tipo I por variável e por experimento demonstrou resultados altamente significativos sugerin do que entre os testes de comparações múltiplas analisa dos existe diferença na capacidade de verificar semelhan ças entre tratamentos e consequentemente diferentes capacidades de controle do erro tipo I Tabela 2 O teste de médias que mais distinguiu os tratamentos separandoos em mais níveis foi o LSD demonstrando ser um teste menos rigoroso possuindo maior incidência de erros tipo I ou seja encontrar diferenças entre trata mentos quando esta diferença não existe Tabela 3 O teste de Tukey e o teste de Dunnet confirmaram os resul tados encontrados no teste de quiquadrado não apre sentando taxa de erro do tipo I superior à esperada O teste LSD foi o que mais divergiu do teste F Numa escala binária em que o coeficiente 0 significa que o re sultado do teste de comparação de médias concorda com o teste F ou seja os dois testes acusaram resultados sig nificativos ou os dois testes resultaram não significati vos e o coeficiente 1 que os resultados do teste de com paração de médias e o teste F são opostos o LSD obteve um coeficiente médio de 0972 demonstrando que a maio ria absoluta dos resultados foi divergente do teste F Ta Tabela 1 Número de casos com resultados significativos e não significativos demonstrados pelos testes de significância e teste do quiquadrado em um conjunto de 2000 análises de dados aleatórios Número de casos Significativo Não significativo F 90 1910 04818 Tukey 98 1902 04424 Dunnet 184 1816 01855 LSD 1942 58 00001 Duncan 1542 458 00001 Para 100 casos esperados como significativos a 5 de probabilidade Probabilidade quiquadrado Testes de significância 353 Avaliação de testes estatísticos de comparações múltiplas de médias Rev Ceres Viçosa v 59 n3 p 350354 maijun 2012 bela 3 Vale ressaltar o desempenho também do teste de Duncan que obteve coeficiente de 0771 obtendo tam bém alto índice de discordância com os resultados do teste F Os outros testes obtiveram coeficientes menores que 01 quando comparados com o teste F demonstran do pouca divergência O teste F é considerado um teste robusto pouco sen sível a problemas de não adequação dos dados aos pré requisitos da análise de variância Moore 2000 Como complemento do teste F desejase que um teste de com parações múltiplas de médias tenha a mesma consistên cia nos resultados concordando com os demonstrados pelo teste F A maior taxa de ocorrência do erro tipo I por variável foi encontrada no teste LSD que obteve um coeficiente de 0972 ou seja em quase 100 dos casos analisados pelo teste LSD houve rejeição da hipótese nula que afir mava não haver diferença entre os tratamentos quando esta deveria ser aceita Já nos testes F e Tukey a taxa de ocorrência do erro tipo I foi de 0045 e 0049 respectiva mente Tabela 4 O resultado indica controle da taxa de erro do tipo I por esses testes assim os resultados apre sentados por esses dois testes são os que podem ser considerados mais confiáveis com taxas de ocorrência do erro tipo I dentro da expectativa Os resultados confir mam que o teste de Tukey pode ser considerado o teste de comparação múltipla de médias com o maior controle da taxa de ocorrência dos erros tipo I sob distribuições normais Borges Ferreira 2003 Já para a comparação por experimentos os testes de Duncan e o LSD obtiveram resultado 10 para a taxa de ocorrência do erro tipo I o que indica ausência de contro le deste tipo de erro por parte destes testes Tabela 4 Nos 200 experimentos avaliados encontraramse diferen ças significativas que foram atribuídas aos tratamentos em uma ou em mais de uma das variáveis analisadas po rém pela própria definição do erro tipo I estas diferenças podem não ser devidas aos tratamentos mas sim devidas à variação do acaso A escolha do teste de comparações de médias para controlar o nível de significância para variáveis ou para experimentos tornase mais importante à medida que au menta o número de tratamentos Em experimentos com apenas dois tratamentos o nível de significância para cada variável e para experimentos é o mesmo já que cada expe rimento só permite uma única comparação de médias No caso de experimentos com grande número de tratamen tos os valores dos dois níveis de significância podem ser muito diferentes Vieira 2006 A menor taxa de ocorrência de erro tipo I foi verificada no teste F sendo este consequentemente o teste que apresentou o melhor controle do erro tipo I seguido pelo teste de Tukey Segundo Vieira 2006 os testes de Tukey e Dunnet são conservadores pois possuem menor probabilidade de rejeição da hipótese nula mantendo o nível de significância para experimentos em 5 enquanto o ní vel de significância para as comparações de médias for menor que 5 em experimentos com mais de dois trata mentos Tabela 2 Resumo da análise de variância para as variáveis número de níveis dos testes de comparação múltipla de médias coeficiente de concordância dos testes de médias com o teste F taxas de ocorrência do erro tipo I por variável e por experimento em um conjunto de 2000 análises de dados aleatórios Variáveis Pr F CV R2 Número de níveis 00001 76 039 Coeficiente de concordância com teste F 00001 92 061 Taxa de erro tipo I por variáveis 00001 82 074 Taxa de erro tipo I por experimento 00001 61 030 CVCoeficiente de Variação R2coeficiente de determinação Tabela 3 Número de níveis e coeficiente de concordância com o teste F demonstrados pelos testes de comparações múltiplas de médias em um conjunto de 2000 análises Coeficiente de concordância com teste F Tukey 1 c 0049 a Dunnet 1 c 0092 b LSD 4 a 0972 d Duncan 2 b 0771 c Médias seguidas de mesma letra na coluna não diferem entre si a 5 de probabilidade pelo teste de Tukey Testes de significância Número de níveis Tabela 4 Taxas de ocorrência do erro do tipo I por variável TIV e taxas de ocorrência do erro do tipo I por experimentos TIE no teste F e nos testes de comparações múltiplas de médias em um conjunto de 2000 análises Testes de significância F 0045 d 029 a Tukey 0049 d 043 b Dunnet 0092 c 071 c LSD 0972 a 1 d Duncan 0771 b 1 d Médias seguidas de mesma letra na coluna não diferem entre si a 5 de probabilidade pelo teste de Tukey TIV TIE 354 Clayton Albuquerque de Sousa et al Rev Ceres Viçosa v 59 n3 p 350354 maijun 2012 Ao se comparar tais resultados com os obtidos por Bernhardson 1975 podese confirmar o caráter conser vador do teste de Tukey Porém os procedimentos de Duncan e LSD atingiram níveis bem mais elevados que os encontrados pelo autor que observou taxas de erro tipo I de mais de 40 tanto para comparações como para expe rimentos Os resultados encontrados para TIV e TIE estão de acordo com todas as situações estudadas por Santos et al 2001 em que a taxa de erro tipo I por variável foi sempre inferior à taxa de erro por experimento CONCLUSÕES O teste de Tukey apresentou maior poder para contro le do erro tipo I A maior ocorrência do erro tipo I foi observada nos testes de Duncan e LSD REFERÊNCIAS Araújo AP 2003 Analysis of variance of primary data on plant growth analysis Pesquisa Agropecuária Brasileira 38110 Bernhardson CS 1975 Type I error rates when multiple comparison procedures follow a significant F test of ANOVA Biometrics 31337340 Borges LC Ferreira DF 2003 Poder e taxas de erro tipo I dos testes ScottKnott Tukey e StudentNewmanKeuls sob distri buições normais e não normais dos resíduos Revista de Mate mática e Estatística 216783 Bretz F Hothorn T Westfall P 2008 Multiple comparison procedures in linear models In Brito P ed Compstat 2008 Proceedings in Computational Statistics Berlin PhysicaVerlag HD p423431 Cargnelutti Filho A Storck L Dalcol Lucio A 2003 Ajustes de quadrado médio do erro em ensaios de competição de cultivares de milho pelo método de Papadakis Pesquisa Agropecuária Bra sileira 38467473 Carmer SG Swanson MR 1971 Detection of differences between means a Monte Carlo study of five pairwise multiple comparison procedures Agronomy Journal Madison 63940 945 Conagin A 1998 Discriminative power of the modified Bonferronis test Revista de Agricultura 733146 Conagin A Igue T Nagai V 1999 Poder discriminativo de diferentes testes de médias Campinas Instituto Agronômico 16p Boletim Científico 44 Conagin A 1999 Discriminative power of the modified Bonferronis test under general and partial null hypothesis Revista de Agricultura 74117126 Conagin A Gomes FP 2004 Escolha adequada dos testes esta tísticos para comparações múltiplas Revista de Agricultura 79288295 Conagin A Barbin D 2006a Bonferronis and Sidaks modified tests Scientia Agricola 637076 Conagin A Barbin D 2006b Poder e eficiência dos diferentes testes estatísticos para comparações múltiplas Revista de Agri cultura 81118137 Conagin A Barbin D Demétrio CGB 2008 Modifications for the Tukey test procedure and evaluation of the power and efficiency of multiple comparison procederes Scientia Agricola 65428432 Couto MRM Lucio AD Lopes SJ Carpes RH 2009 Transfor mações de dados em experimentos com abobrinha italiana em ambiente protegido Ciência Rural 3917011707 Hsu JC 1996 Multiple comparisons London Chapman and Hall 277p Machado AA Demétrio CGB Ferreira DF Silva JGC 2005 Estatística experimental uma abordagem fundamental no pla nejamento e no uso de recursos computacionais In Reunião Anual da Região Brasileira da Sociedade Internacional de Biometria Londrina Anais Reunião Brasileira da Sociedade Internacional de Biometria 290p Moore DS 2000 A estatística básica e sua prática Rio de Janeiro LTCLivros Técnicos e Científicos Editora 482p Santos C Ferreira DF Bueno Filho JSS 2001 Novas alternati vas de testes de agrupamento avaliadas por meio de simulação Monte Carlo Ciência e Agrotecnologia 2513821392 Sas Institute 1999 The SAS System for Windows Cary SAS Institute Inc Sas Institute 2006 Statistical Analysis System SAS Learning Edition 41 SAS Institute Inc Steel RGD Torrie JH 1980 Principles and procedures of statistics 2º ed New York McGrawHill Book 633p Vieira S 2006 Análise de variância ANOVA São Paulo Atlas 204p
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
20
Capítulo 1: Conceitos Básicos de Estatística e Experimentação
Probabilidade e Estatística 2
UFGD
2
Lista de Exercícios sobre Manejo Integrado de Nutrientes em Tomate
Probabilidade e Estatística 2
UFGD
21
Planejamento de Experimentos Agrícolas
Probabilidade e Estatística 2
UFGD
2
Análise Estatística de Dados Agropecuários
Probabilidade e Estatística 2
UFGD
12
Estatística Experimental: Evolução no Planejamento e Análise de Experimentos em Fruticultura
Probabilidade e Estatística 2
UFGD
111
Planejamento e Análise de Experimentos Agrícolas - Conceitos Básicos de Estatística
Probabilidade e Estatística 2
UFGD
6
Uso adequado de casas de vegetação e telados na experimentação agrícola
Probabilidade e Estatística 2
UFGD
8
Comparações Múltiplas em Experimentos com Scott Knott
Probabilidade e Estatística 2
UFGD
9
Dificuldades no Uso de Testes de Comparação de Médias em Artigos Científicos
Probabilidade e Estatística 2
UFGD
6
Análise de Variância e Contrastação em Cultivares de Arroz: Exercício Resolvido
Probabilidade e Estatística 2
UFGD
Texto de pré-visualização
350 Clayton Albuquerque de Sousa et al Rev Ceres Viçosa v 59 n3 p 350354 maijun 2012 RESUMO ABSTRACT Evaluation of multiple mean comparison tests The objective was to verify the efficiency and uniformity of responses from different tests to compare means and the rate of occurrence of Type I error Four different tests for multiple comparison of means were applied to 200 experiments and 10 variables created with random values to assess the number of levels agreement with the F test and rate of occurrence of type I error per variable and per experiment The tests differed in their results for all variables The greatest divergences in results were found when using the LSD test For the level of significance the greatest agreement was found by the Tukey test Key words type I error Tukey Duncan Dunnet LSD Recebido para publicação em 30122011 e aprovado em 01062012 1 EngenheiroAgrônomo Mestre Departamento de Agronomia Universidade Federal Rural de Pernambuco Rua Dom Manoel de Medeiros sn Dois Irmãos 52171900 Recife Pernambuco Brasil claytonadesousagmailcom 2 EngenheiroAgrônomo Doutor Bosista do CNPq Departamento de Agronomia Universidade Federal Rural de Pernambuco Rua Dom Manoel de Medeiros sn Dois Irmãos 52171900 Recife Pernambuco Brasil marioliradepaufrpebr 3 Engenheiro Florestal Doutor Bosista do CNPq Departamento de Ciência Florestal Universidade Federal Rural de Pernambuco Rua Dom Manoel de Medeiros sn Dois Irmãos 52171900 Recife Pernambuco Brasil rinaldodcflufrpebr Clayton Albuquerque de Sousa1 Mario Andrade Lira Junior2 Rinaldo Luiz Caraciolo Ferreira 3 Avaliação de testes estatísticos de comparações múltiplas de médias O objetivo deste trabalho foi verificar a eficiência e uniformidade das respostas de diferentes testes de compara ções múltiplas entre médias bem como a taxa de ocorrência do erro tipo I Quatro diferentes testes de comparações múltiplas de médias foram aplicados a 200 experimentos e a 10 variáveis criadas com valores aleatórios para avaliação do número de níveis concordância com o teste F taxa de ocorrências do erro tipo I por variável e por experimento Os testes diferiram em seus resultados para todas as variáveis analisadas As maiores divergências de resultados foram encontradas quando se utilizou o teste LSD Quanto ao nível de significância adotado maior concordância foi encon trada por meio do teste de Tukey Palavraschave Duncan Dunnet erro tipo I LSD Tukey 351 Avaliação de testes estatísticos de comparações múltiplas de médias Rev Ceres Viçosa v 59 n3 p 350354 maijun 2012 INTRODUÇÃO Na pesquisa científica de diversas áreas do conheci mento as análises estatísticas são utilizadas como ferra mentas para avaliação de suas hipóteses A comparação múltipla entre médias de tratamentos experimentais pre cedida de análise de variância é sem dúvida uma das mais comuns dessas análises Araújo 2003 Cargnelutti Filho et al 2003 Couto et al 2009 Os testes de comparações múltiplas entre médias de tratamentos são de grande interesse na pesquisa aplica da Conagin et al 2008 quando o objetivo do trabalho é comparar tratamentos qualitativos A utilização de um teste é realizada quando a análise de variância detecta existência de efeito significativo dos tratamentos a um determinado nível de significância de modo que se deci de rejeitar a hipótese de nulidade pelo menos um con traste ortogonal entre tratamentos diferentes de zero Dentre os testes mais comuns para comprovação dos resultados experimentais estão o Teste F utilizado para verificar se existe diferença significativa entre contrastes ortogonais dos tratamentos e os testes de Tukey Duncan Dunnet e o teste LSD normalmente utilizados para deta lhar esta informação permitindo mostrar especificada mente quais tratamentos diferem ou não estatisticamente A escolha do teste que se deve adotar depende de suas qualidades estatísticas sendo função do tipo de erro que é controlado e da forma como estes erros são contro lados Vale ressaltar que se deve procurar um teste que seja robusto frente a algumas violações dos pressupos tos básicos para sua aplicação tais como normalidade homocedasticidade e independência de erros Machado et al 2005 Uma característica desejável é que os testes apresen tem controle da taxa de erro tipo I que afirmem haver diferença entre os tratamentos quando na realidade as diferenças são causadas pelo acaso A probabilidade má xima de se rejeitar erroneamente uma hipótese nula H0 é determinada pelo nível de significância do teste e funda menta o erro tipo I sendo comumente utilizado o nível de 5 de probabilidade O comportamento de alguns testes estatísticos e seu desempenho em termos de taxa de erro tipo I tem sido avaliado por exemplo por Hsu 1996 Borges Ferreira 2003 Conagin Barbin 2006ab Conagin et al 2008 dentre outros mas ainda existem muitas perguntas a se rem respondidas neste campo da investigação Bretz et al 2008 Há muitas dificuldades em se comparar o erro tipo I nos procedimentos de comparações múltiplas Carmer Swanson 1971 A razão entre o número de erros tipo I e o número de comparações é definida como taxa de erro por comparação chamada de comparisonwise e a razão entre o número de experimentos com um ou mais erros tipo I e o número total de experimentos é definida como taxa de erro por experimento chamada de experimentwise Steel Torrie 1980 Esperase que os testes de compa rações múltiplas de médias controlem a taxa de ocorrência do erro tipo I com a mesma eficiência tanto para compara ções como para experimentos Alguns testes de compa rações múltiplas controlam a taxa de erro tipo I para com parações enquanto outros controlam a taxa de erro tipo I para experimentos Vieira 2006 Resultados diferentes de taxas de ocorrência do erro tipo I também têm sido registrados quando se avaliam diferentes tamanhos de experimentos de acordo com o número de tratamentos repetições e coeficientes de vari ação Conagin 1998 1999 Conagin et al 1999 e Conagin Gomes 2004 O objetivo deste trabalho foi verificar a eficiência e uniformidade das respostas de diferentes testes de com parações múltiplas entre médias bem como a taxa de ocor rência do erro tipo I MATERIAL E MÉTODOS Foram gerados dados para 200 experimentos conduzi dos em delineamento inteiramente casualizado composto de 32 tratamentos cada experimento com quatro repeti ções e dez variáveis totalizando 2000 aplicações dos tes tes Os tratamentos hipotéticos foram construídos com base em um experimento com um tratamento controle para fim de designação de testemunha para o teste de Dunnett O número de tratamentos e variáveis foi baseado em ex perimentos de algumas áreas das ciências agrárias que normalmente adotam estas quantidades como por exem plo microbiologia do solo ou melhoramento vegetal Os dados foram gerados utilizandose a função de criação de dados aleatórios do Microsoft Excel 2007 para que os tratamentos a priori não apresentassem diferen ça significativa entre si Mediante análise de variância os testes utilizados para avaliação dos experimentos foram o teste F o teste de Tukey procedimento means o teste de Duncan o teste de Dunnet e o teste LSD todos aplica dos utilizandose o procedimento GLM do SAS SAS Institute 1999 Foi determinada a quantidade total de resultados sig nificativos e não significativos em cada teste e submeti dos à análise pelo teste do quiquadrado a 5 de proba bilidade para testar a hipótese de que não havia diferen ça entre a quantidade de resultados significativos obti dos e a quantidade de resultados significativos que era esperada em cada teste Esta análise permitiu verificar a adequação das respostas obtidas dos testes quanto ao nível de significância usado Além disso foram avaliadas as seguintes variáveis 1 número de níveis dos testes determinado pelo número de 352 Clayton Albuquerque de Sousa et al Rev Ceres Viçosa v 59 n3 p 350354 maijun 2012 grupos formados por tratamentos que não diferiram entre si em cada variável 2 coeficiente de concordância dos demais testes com o teste F CCF determinado pela com paração em cada caso do resultado do teste F com o re sultado de cada teste de comparação de médias atribuin dose valor 0 para o caso de apresentarem resultados con cordantes e valor 1 no caso de resultados opostos para essas duas variáveis não se realizou a análise para o teste F 3 taxa de ocorrências do erro tipo I por variável TIV determinada pela atribuição em cada caso de valor 0 para as ocorrências de resultados não significativos e de valor 1 no caso de resultados significativos e 4 taxa de ocor rências do erro tipo I por experimento TIE determinada pela atribuição em cada caso de valor 0 para os experi mentos com resultados não significativos e valor 1 no caso de resultados significativos Como os dados foram criados por procedimento aleatório para a determinação da TIV foi utilizado o conjunto total dos 2000 casos 200 experimentos com 10 variáveis cada e para determinação da TIE o conjunto dos 200 experimentos Todas as análises estatísticas foram realizadas por meio do software SAS Learning Edition 41 SAS Institute 2006 a 5 de probabilidade RESULTADOS E DISCUSSÃO Considerandose todos os testes a análise demons trou comportamento divergente com relação à apresenta ção de diferença significativa para o conjunto dos 2000 casos O teste F e o teste de Tukey apresentaram elevado número de avaliações com resultados não significativos mais de 1900 cada teste o que demonstra um comporta mento coerente com o conjunto de dados construído que teve como hipótese não haver diferença entre tratamen tos Tabela 1 Considerandose que todos os tratamen tos eram formados por números aleatórios e adotandose o nível de significância usual de 5 podería esperar um máximo de 100 ocorrências de significância Os dois tes tes adequaramse a esta probabilidade máxima O teste de Dunnet não obteve resultados significati vamente diferentes do esperado de acordo com o teste do quiquadrado apesar de em valores absolutos não se adequar ao nível máximo de 100 ocorrências de resulta dos significativos Já os testes LSD e Duncan demonstraram um número de resultados significativos superior ao número de não significativos com respectivamente 1942 e 1542 de um total de 2000 avaliações sendo significativas 971 e 771 do total respectivamente Esse resultado mostra que estes testes induzem a maior ocorrência do erro tipo I do que o nível de significância prédefinido com relação aos outros testes avaliados Pelo teste do quiquadrado os testes de Duncan e LSD demonstraram diferenças entre o número de obser vações que teriam resultado não significativo dados ge rados aleatoriamente e o que realmente aconteceu com as comparações das médias resultados observados A análise de variância das variáveis número de níveis dos testes de comparação múltipla de médias coeficiente de concordância dos testes de médias com o teste F taxas de ocorrência do erro tipo I por variável e por experimento demonstrou resultados altamente significativos sugerin do que entre os testes de comparações múltiplas analisa dos existe diferença na capacidade de verificar semelhan ças entre tratamentos e consequentemente diferentes capacidades de controle do erro tipo I Tabela 2 O teste de médias que mais distinguiu os tratamentos separandoos em mais níveis foi o LSD demonstrando ser um teste menos rigoroso possuindo maior incidência de erros tipo I ou seja encontrar diferenças entre trata mentos quando esta diferença não existe Tabela 3 O teste de Tukey e o teste de Dunnet confirmaram os resul tados encontrados no teste de quiquadrado não apre sentando taxa de erro do tipo I superior à esperada O teste LSD foi o que mais divergiu do teste F Numa escala binária em que o coeficiente 0 significa que o re sultado do teste de comparação de médias concorda com o teste F ou seja os dois testes acusaram resultados sig nificativos ou os dois testes resultaram não significati vos e o coeficiente 1 que os resultados do teste de com paração de médias e o teste F são opostos o LSD obteve um coeficiente médio de 0972 demonstrando que a maio ria absoluta dos resultados foi divergente do teste F Ta Tabela 1 Número de casos com resultados significativos e não significativos demonstrados pelos testes de significância e teste do quiquadrado em um conjunto de 2000 análises de dados aleatórios Número de casos Significativo Não significativo F 90 1910 04818 Tukey 98 1902 04424 Dunnet 184 1816 01855 LSD 1942 58 00001 Duncan 1542 458 00001 Para 100 casos esperados como significativos a 5 de probabilidade Probabilidade quiquadrado Testes de significância 353 Avaliação de testes estatísticos de comparações múltiplas de médias Rev Ceres Viçosa v 59 n3 p 350354 maijun 2012 bela 3 Vale ressaltar o desempenho também do teste de Duncan que obteve coeficiente de 0771 obtendo tam bém alto índice de discordância com os resultados do teste F Os outros testes obtiveram coeficientes menores que 01 quando comparados com o teste F demonstran do pouca divergência O teste F é considerado um teste robusto pouco sen sível a problemas de não adequação dos dados aos pré requisitos da análise de variância Moore 2000 Como complemento do teste F desejase que um teste de com parações múltiplas de médias tenha a mesma consistên cia nos resultados concordando com os demonstrados pelo teste F A maior taxa de ocorrência do erro tipo I por variável foi encontrada no teste LSD que obteve um coeficiente de 0972 ou seja em quase 100 dos casos analisados pelo teste LSD houve rejeição da hipótese nula que afir mava não haver diferença entre os tratamentos quando esta deveria ser aceita Já nos testes F e Tukey a taxa de ocorrência do erro tipo I foi de 0045 e 0049 respectiva mente Tabela 4 O resultado indica controle da taxa de erro do tipo I por esses testes assim os resultados apre sentados por esses dois testes são os que podem ser considerados mais confiáveis com taxas de ocorrência do erro tipo I dentro da expectativa Os resultados confir mam que o teste de Tukey pode ser considerado o teste de comparação múltipla de médias com o maior controle da taxa de ocorrência dos erros tipo I sob distribuições normais Borges Ferreira 2003 Já para a comparação por experimentos os testes de Duncan e o LSD obtiveram resultado 10 para a taxa de ocorrência do erro tipo I o que indica ausência de contro le deste tipo de erro por parte destes testes Tabela 4 Nos 200 experimentos avaliados encontraramse diferen ças significativas que foram atribuídas aos tratamentos em uma ou em mais de uma das variáveis analisadas po rém pela própria definição do erro tipo I estas diferenças podem não ser devidas aos tratamentos mas sim devidas à variação do acaso A escolha do teste de comparações de médias para controlar o nível de significância para variáveis ou para experimentos tornase mais importante à medida que au menta o número de tratamentos Em experimentos com apenas dois tratamentos o nível de significância para cada variável e para experimentos é o mesmo já que cada expe rimento só permite uma única comparação de médias No caso de experimentos com grande número de tratamen tos os valores dos dois níveis de significância podem ser muito diferentes Vieira 2006 A menor taxa de ocorrência de erro tipo I foi verificada no teste F sendo este consequentemente o teste que apresentou o melhor controle do erro tipo I seguido pelo teste de Tukey Segundo Vieira 2006 os testes de Tukey e Dunnet são conservadores pois possuem menor probabilidade de rejeição da hipótese nula mantendo o nível de significância para experimentos em 5 enquanto o ní vel de significância para as comparações de médias for menor que 5 em experimentos com mais de dois trata mentos Tabela 2 Resumo da análise de variância para as variáveis número de níveis dos testes de comparação múltipla de médias coeficiente de concordância dos testes de médias com o teste F taxas de ocorrência do erro tipo I por variável e por experimento em um conjunto de 2000 análises de dados aleatórios Variáveis Pr F CV R2 Número de níveis 00001 76 039 Coeficiente de concordância com teste F 00001 92 061 Taxa de erro tipo I por variáveis 00001 82 074 Taxa de erro tipo I por experimento 00001 61 030 CVCoeficiente de Variação R2coeficiente de determinação Tabela 3 Número de níveis e coeficiente de concordância com o teste F demonstrados pelos testes de comparações múltiplas de médias em um conjunto de 2000 análises Coeficiente de concordância com teste F Tukey 1 c 0049 a Dunnet 1 c 0092 b LSD 4 a 0972 d Duncan 2 b 0771 c Médias seguidas de mesma letra na coluna não diferem entre si a 5 de probabilidade pelo teste de Tukey Testes de significância Número de níveis Tabela 4 Taxas de ocorrência do erro do tipo I por variável TIV e taxas de ocorrência do erro do tipo I por experimentos TIE no teste F e nos testes de comparações múltiplas de médias em um conjunto de 2000 análises Testes de significância F 0045 d 029 a Tukey 0049 d 043 b Dunnet 0092 c 071 c LSD 0972 a 1 d Duncan 0771 b 1 d Médias seguidas de mesma letra na coluna não diferem entre si a 5 de probabilidade pelo teste de Tukey TIV TIE 354 Clayton Albuquerque de Sousa et al Rev Ceres Viçosa v 59 n3 p 350354 maijun 2012 Ao se comparar tais resultados com os obtidos por Bernhardson 1975 podese confirmar o caráter conser vador do teste de Tukey Porém os procedimentos de Duncan e LSD atingiram níveis bem mais elevados que os encontrados pelo autor que observou taxas de erro tipo I de mais de 40 tanto para comparações como para expe rimentos Os resultados encontrados para TIV e TIE estão de acordo com todas as situações estudadas por Santos et al 2001 em que a taxa de erro tipo I por variável foi sempre inferior à taxa de erro por experimento CONCLUSÕES O teste de Tukey apresentou maior poder para contro le do erro tipo I A maior ocorrência do erro tipo I foi observada nos testes de Duncan e LSD REFERÊNCIAS Araújo AP 2003 Analysis of variance of primary data on plant growth analysis Pesquisa Agropecuária Brasileira 38110 Bernhardson CS 1975 Type I error rates when multiple comparison procedures follow a significant F test of ANOVA Biometrics 31337340 Borges LC Ferreira DF 2003 Poder e taxas de erro tipo I dos testes ScottKnott Tukey e StudentNewmanKeuls sob distri buições normais e não normais dos resíduos Revista de Mate mática e Estatística 216783 Bretz F Hothorn T Westfall P 2008 Multiple comparison procedures in linear models In Brito P ed Compstat 2008 Proceedings in Computational Statistics Berlin PhysicaVerlag HD p423431 Cargnelutti Filho A Storck L Dalcol Lucio A 2003 Ajustes de quadrado médio do erro em ensaios de competição de cultivares de milho pelo método de Papadakis Pesquisa Agropecuária Bra sileira 38467473 Carmer SG Swanson MR 1971 Detection of differences between means a Monte Carlo study of five pairwise multiple comparison procedures Agronomy Journal Madison 63940 945 Conagin A 1998 Discriminative power of the modified Bonferronis test Revista de Agricultura 733146 Conagin A Igue T Nagai V 1999 Poder discriminativo de diferentes testes de médias Campinas Instituto Agronômico 16p Boletim Científico 44 Conagin A 1999 Discriminative power of the modified Bonferronis test under general and partial null hypothesis Revista de Agricultura 74117126 Conagin A Gomes FP 2004 Escolha adequada dos testes esta tísticos para comparações múltiplas Revista de Agricultura 79288295 Conagin A Barbin D 2006a Bonferronis and Sidaks modified tests Scientia Agricola 637076 Conagin A Barbin D 2006b Poder e eficiência dos diferentes testes estatísticos para comparações múltiplas Revista de Agri cultura 81118137 Conagin A Barbin D Demétrio CGB 2008 Modifications for the Tukey test procedure and evaluation of the power and efficiency of multiple comparison procederes Scientia Agricola 65428432 Couto MRM Lucio AD Lopes SJ Carpes RH 2009 Transfor mações de dados em experimentos com abobrinha italiana em ambiente protegido Ciência Rural 3917011707 Hsu JC 1996 Multiple comparisons London Chapman and Hall 277p Machado AA Demétrio CGB Ferreira DF Silva JGC 2005 Estatística experimental uma abordagem fundamental no pla nejamento e no uso de recursos computacionais In Reunião Anual da Região Brasileira da Sociedade Internacional de Biometria Londrina Anais Reunião Brasileira da Sociedade Internacional de Biometria 290p Moore DS 2000 A estatística básica e sua prática Rio de Janeiro LTCLivros Técnicos e Científicos Editora 482p Santos C Ferreira DF Bueno Filho JSS 2001 Novas alternati vas de testes de agrupamento avaliadas por meio de simulação Monte Carlo Ciência e Agrotecnologia 2513821392 Sas Institute 1999 The SAS System for Windows Cary SAS Institute Inc Sas Institute 2006 Statistical Analysis System SAS Learning Edition 41 SAS Institute Inc Steel RGD Torrie JH 1980 Principles and procedures of statistics 2º ed New York McGrawHill Book 633p Vieira S 2006 Análise de variância ANOVA São Paulo Atlas 204p