47
Estatística Experimental
IFTO
25
Estatística Experimental
IFTO
20
Estatística Experimental
IFTO
8
Estatística Experimental
IFTO
Texto de pré-visualização
Documentos ISSN 15178498 Novembro2003163 Agrobiologia Técnicas Experimentais aplicadas às Ciências Agrárias µ República Federativa do Brasil Luiz Inácio Lula da Silva Presidente Ministério da Agricultura Pecuária e Abastecimento Roberto Rodrigues Ministro Empresa Brasileira de Pesquisa Agropecuária Embrapa Conselho de Administração José Amauri Dimárzio Presidente Clayton Campanhola VicePresidente Alexandre Kalil Pires Dietrich Gerhard Quast Sérgio Fausto Urbano Campos Ribeiral Membros Diretoria Executiva da Embrapa Clayton Campanhola Diretor Presidente Gustavo Kauark Chianca Herbert Cavalcante de Lima Mariza Marilena T Luz Barbosa Diretores Executivos Embrapa Agrobiologia José Ivo Baldani Chefe Geral Eduardo Francia Carneiro Campello Chefe Adjunto de Pesquisa e Desenvolvimento Rosângela Straliotto Chefe Adjunto Administrativo Documentos 163 ISSN 15178498 Novembro2003 Empresa Brasileira de Pesquisa Agropecuária Centro Nacional de Pesquisa em Agrobiologia Ministério da Agricultura Pecuária e Abastecimento Técnicas Experimentais aplicadas às Ciências Agrárias Janaína Ribeiro Costa Seropédica RJ 2003 Exemplares desta publicação podem ser adquiridas na Embrapa Agrobiologia BR465 km 7 Caixa Postal 74505 23851970 SeropédicaRJ Brasil Telefone 0xx21 26821500 Fax 0xx21 26821230 Home page wwwcnpabembrapabr email saccnpabembrapabr Comitê Local de Publicações Eduardo F C Campello Presidente José Guilherme Marinho Guerra Maria Cristina Prata Neves Verônica Massena Reis Robert Michael Boddey Maria Elizabeth Fernandes Correia Dorimar dos Santos Felix Bibliotecária Expediente Revisor eou ad hoc Guilherme Montandon Chaer Normalização Bibliográfica Dorimar dos Santos Félix Editoração eletrônica Marta Maria Gonçalves Bahia 1ª impressão 2003 50 exemplares Embrapa 2003 COSTA J R Técnicas experimentais aplicadas às ciências agrárias Seropédica Embrapa Agrobiologia 2003 102 p Embrapa Agrobiologia Documentos 163 ISSN 15178498 1 Agricultura 2 Ciência agrária I Embrapa Centro Nacional de Pesquisa de Agrobiologia Seropédica RJ II Título III Série CDD 630 6 Referências Bibliográficas BANZATTO A D KRONKA S do N Experimentação agrícola Jaboticabal FUNEP 1989 249 p BEARZOTI E OLIVEIRA M S Estatística básica Lavras UFLA 1997 191 p FISHER R A The design of experiments Edinburgh Oliver and Boyd 1935 HINKELMANN K KEMPTHORNE O Design and analysis of experiments New York J Wiley 1994 631 p MEAD R CURNOW R N Statistical methods in agriculture and experimental biology New York Chapman and Hall 1983 335 p NOGUEIRA M C S Estatística experimental aplicada à experimentação agrícola Piracicaba USPESALQ 1997 250 p PIMENTEL GOMES F Curso de estatística experimental 13 ed Piracicaba NobelUSPESALQ 1990 468 p RAMALHO M A FERREIRA D F OLIVEIRA A C de A experimentação em genética e melhoramento de plantas Lavras UFLA 2000 326 p STEEL R G D TORRIE J H DICKEY D A Principles and procedures of statistics 3 ed New York McGrawHill 1997 666 p Autor Janaína Ribeiro Costa Pesquisadora da Embrapa Agrobiologia Email janainacnpabembrapabr 102 Obtenção da produção máxima de milho tonha Aqui cabe esclarecer que o sinal da estimativa do coeficiente 2 â determina se a variável dependente y no exemplo produção terá um valor máximo ou mínimo Se 2 â é negativo y terá um máximo caso contrário se 2 â for positivo y terá um mínimo No exemplo 5731 para obtenção da produção máxima de milho é necessário antes maximizar a função de regressão polinomial quadrática ou seja derivar esta equação e igualar a zero 2 i i i 000050X 00950X 88421 yˆ i i i 000100X 00950 0 dX dyˆ 0 000100X 00950 0 0 dX yˆ d i i i 95 000100 00950 Xi kgha Dose de adubo nitrogenado que levará a uma produção máxima Substituindo Xi 95 na equação de iyˆ obtémse a produção máxima de milho 2 i 00005095 0095095 88421 yˆ 2 i 00005095 0095095 88421 yˆ yˆ i 133546 tonha produção máxima de milho para dose de adubo nitrogenado de 95 kgha 101 10400 310 312 2 1 0 1 32 2378 1426 0375 1320 2275 P X 3 P X y bˆ 2 2 2 2 2 i 5 1 i 2 1 i i 5 i 1 1 1 04523 314 190 2 1 2 1 32 2378 1426 2375 1320 2275 P X 3 P X y bˆ 2 2 2 2 2 i 5 1 i 2 2 i i 5 i 1 2 2 Lembrando que P1Xi 2 30 X 30 60 X x i i i P2Xi 2 2 30 X 12 1 n x 2 i 2 i2 Portanto bˆ P X bˆ P X bˆ yˆ 1 2 2 1 1 1 0 i 2 2 30 X 0 4523 2 30 1 0400 X 118267 yˆ 2 i i i Resolvendo a equação acima temse 2 i 2 i 1 o i 2 i i i ∠X ∠X ∠yˆ 000050X 00950X 88421 yˆ Equação da Regressão Quadrática Os valores observados yi e estimados yˆ i para cada dose de adubo nitrogenado estão apresentados a seguir Xi yi iyˆ 0 275 88421 30 320 112421 60 375 127421 90 426 133421 120 378 130421 Apresentação A preocupação crescente da sociedade com a preservação e a conservação ambiental tem resultado na busca pelo setor produtivo de tecnologias para a implantação de sistemas de produção agrícola com enfoque ecológicos rentáveis e socialmente justos O enfoque agroecológico do empreendimento agrícola se orienta para o uso responsável dos recursos naturais solo água fauna flora energia e minerais Dentro desse cenário a Embrapa Agrobiologia orienta sua programação de PD para o avanço de conhecimento e desenvolvimento de soluções tecnológicas para uma agricultura sustentável A agricultura sustentável produtiva e ambientalmente equilibrada apoiase em práticas conservacionistas de preparo do solo rotações de culturas e consórcios no uso de adubação verde e de controle biológico de pragas bem como no emprego eficiente dos recursos naturais Inferese daí que os processos biológicos que ocorrem no sistema soloplanta efetivados por microrganismos e pequenos invertebrados constituem a base sobre a qual a agricultura agroecológica se sustenta O documento 1632003 atende uma demanda daqueles que atuam na pesquisa agropecuária principalmente estudantes e profissionais recém ingressados na área disponibilizando de forma objetiva e prática conceitos de estatística aplicados à experimentação em Ciências Agrárias Na verdade existem poucas publicações sobre o referido tema e este documento serve de roteiro para orientar aspectos básicos do planejamento da experimentação de campo e análise dos resultados obtidos 100 S U M Á R I O 1 Noções básicas de experimentação agrícola 7 2 Distribuição de freqüências 10 21 Definição 10 22 Freqüência 10 23 Natureza da distribuição 19 3 Estatísticas descritivas 20 31 Medidas de posição 20 32 Medidas de dispersão 23 33 Medidas de assimetria e curtose 27 4 Testes de comparações múltiplas 29 41 Contrastes ortogonais de médias 29 42 Teste t de Student 33 43 Teste de Tukey 39 44 Teste de Duncan 41 45 Teste de SNK Student Newman Keuls 43 46 Teste de ScottKnott 46 5 Análise de variância 54 51 Princípios básicos da experimentação 54 52 Pressuposições básicas da análise de variância 55 53 Delineamento Inteiramente Casualizado DIC 56 54 Delineamento em Blocos Casualizados DBC 61 55 Experimentos fatoriais 66 56 Experimentos em parcelas subdivididas 74 57 Análise de regressão 87 6 Referências Bibliográficas 102 FV GL SQ QM F ProbF Doses 4 453160 113290 13122 00005 Regressão Linear 1 324480 324480 37586 00000 Regressão Quadrática 1 85952 85952 9956 00100 Desvio 2 42728 21364 2475 01340 Erro 10 86333 08633 Total 14 CV 786 Média geral 1183 Número de observações 15 Observase no quadro anterior que tanto a regressão linear quanto a quadrática foram significativas ao nível de significância estabelecido de 5 Prob005 O coeficiente de determinação R2 para a regressão linear e quadrática foram respectivamente 716 453160100 324480 R 2 Linear 190 453160100 85952 R 2 Quadrática Apesar do R2 da regressão quadrática ter sido baixo 19 devese observar o valor de ProbF do Desvio Se este valor for maior que 005 indicando que o desvio foi não significativo devese portanto considerar a equação de regressão significativa de maior grau no caso a quadrática bˆ P X bˆ P X bˆ ˆ X ˆ X ˆ yˆ 1 2 2 1 1 1 0 2 2 1 0 i β β β em que 118267 15 4 177 x5 3 y y bˆ 5 i 1 i o 99 Para cada nível de X temse então Níveis Dose de adubo Totais yi das 3 repetições P1Xi P2Xi 1 0 275 2 2 2 30 320 1 1 3 60 375 0 2 4 90 426 1 1 5 120 378 2 2 Total 1774 As somas de quadrados SQs da regressão linear e quadrática são dadas por SQRegressão 1Linear P X 3 X y P i 5 1 i 2 1 2 i i 5 i 1 1 324480 310 97344 2 1 0 1 32 2378 0375 1426 1320 2275 2 2 2 2 2 2 SQRegressão 2 Quadrática P X 3 X y P i 5 1 i 2 2 2 i i 5 i 1 2 85952 314 361 2 1 2 1 32 2378 1426 2375 1320 2275 2 2 2 2 2 2 SQDesvio SQ Doses SQRegressão 1 SQRegressão 2 453160 324480 85952 42728 O quadro de análise de variância com o desdobramento dos graus de liberdade da fonte de variação doses em graus de liberdade devido a regressão polinomial está apresentado a seguir Técnicas Experimentais aplicadas às Ciências Agrárias Janaína Ribeiro Costa 1 Noções básicas de experimentação agrícola A Estatística Experimental é a ciência que tem como objetivo estudar experimentos ensaios englobando etapas como o planejamento execução coleta e análise dos dados experimentais e interpretação dos resultados obtidos Ela foi proposta inicialmente na área de ciências biológicas por Ronald A Fisher em 1919 Fisher propôs o uso da análise de variância ANAVA como ferramenta para análise e interpretação de dados A ANAVA permite a decomposição do grau de liberdade e da soma de quadrados total em somas de quadrados correspondentes às fontes de variação previamente definidas no planejamento do experimento A fase de planejamento do experimento merece considerável atenção por parte do pesquisador pois dela dependerá o sucesso da análise e interpretação dos resultados sendo portanto recomendável uma consulta a um estatístico antes da instalação do experimento O planejamento envolve etapas como a Formulação de hipóteses A hipótese estatística formulada é denominada hipótese de nulidade e é simbolizada por Ho Suponha que se deseja estudar qual estirpe de bactéria diazotrófica endofítica considerando por exemplo três estirpes diferentes proporcionará maior peso da parte área de canadeaçúcar No exemplo Ho seria não existem diferenças significativas entre os efeitos das estirpes ou seja qualquer diferença observada é devida a fatores não controlados Ho poderá ser aceita ou rejeitada caso seja rejeitada aceitaremos uma 07 98 hipótese denominada alternativa simbolizada por H1 que no exemplo seria os efeitos das estirpes diferem significativamente entre si ou as estirpes se comportam de modo diferente quanto ao peso da parte aérea b Escolha dos fatores e seus respectivos níveis Fatores ou tratamentos são aqueles que o pesquisador tem interesse em estudar o seu efeito sobre as variáveis respostas As subdivisões de um fator são os níveis dos mesmos Por exemplo se o interesse for planejar um experimento para se estudar o efeito de 6 tipos diferentes de rotações de cultura o fator em estudo é rotação e os níveis deste fator são os 6 tipos de rotação Em alguns casos como por exemplo nos experimentos fatoriais ou em parcelas subdivididas dois ou mais fatores são estudados Suponha que se deseja estudar o efeito de 2 variedades de cana de açúcar e 3 doses de nitrogênio neste caso se trata de um experimento em fatorial 2x3 em que se tem dois fatores variedade e dose de nitrogênio 2 níveis do fator variedade e 3 níveis do fator dose de nitrogênio Um fator pode ser classificado em b1 Qualitativo quando os níveis do fator são categorias atributos Por exemplo nome de variedades de cana de açúcar SP701143 e SP813250 métodos de extração de DNA Cullen Smalla Sebach origem de solos MG RJ BA SP etc b2 Quantitativo quando os níveis do fator são mensurações de valores reais Normalmente os níveis são valores numéricos acompanhados de uma unidade de medida Por exemplo dose de nitrogênio 0 25 e 50 Kgha concentrações de antibiótico 25 50 100 200 µgml etc c Escolha da parcela unidade experimental Parcela é a unidade experimental que receberá o tratamento A parcela pode assumir diferentes formas e tamanhos Por exemplo uma parcela poderá ser constituída por uma ou várias plantas um vaso contendo uma ou mais plantas uma placa de Petri com temse que P1Xi xi em que 30 60 X q X X x i i i com i 1 2 5 Portanto 2 30 60 0 0 P X 1 1 1 30 60 30 30 P X 2 1 0 30 60 60 60 P X 3 1 1 30 60 90 90 P X 4 1 2 30 60 120 120 P X 5 1 e temse que P2Xi 2 X P 12 1 X 5 P 12 1 n x 2 i 1 2 2 i 1 2 i2 com i 1 2 5 Portanto 2 2 2 0 P X 2 1 2 1 2 1 30 P X 2 2 2 2 2 0 60 P X 2 3 2 1 2 1 90 P X 2 4 2 2 2 2 120 P X 2 5 2 97 08 A análise de variância para os dados do exemplo 5731 é FV GL SQ QM F ProbF Doses 4 453160 113290 13122 00005 Erro 10 86333 08633 Total 14 Rejeitase Ho concluindose pela existência do efeito de doses crescentes de adubo nitrogenado sobre a produção do milho Prob 005 Considerando o modelo de regressão polinomial de 2O grau a seguir foi realizada a análise de regressão i 2 i 2 i 1 o i å â X â X â y reescrevendo este modelo pela expressão alternativa yi bo b1P1Xi b2P2Xi εi i 1 2 5 As hipóteses testadas no modelo de regressão adotado são i Ho b1 0 vs H1 b1 0 ii Ho b2 0 vs H1 b2 0 Para obtenção das somas de quadrados das regressões linear e quadrática é necessário antes calcular os coeficientes dos polinômios P1Xi e P2Xi Seja 60 120 90 60 30 5 0 1 X n 1 X n i 1 i q 30 correspondendo a 300 ou 6030 ou 9060 ou 12090 determinado meio de cultura uma área com várias plantas um animal etc d Escolha do delineamento experimental Delineamento experimental é o plano de distribuição dos tratamentos na área experimental Como exemplo de delineamentos temse o delineamento inteiramente casualizado DIC o delineamento em blocos casualizados DBC o delineamento em quadrados latinos DQL os delineamentos em blocos incompletos por exemplo os látices blocos aumentados etc e Escolha das variáveis a serem analisadas Variáveis respostas ou variáveis dependentes ou simplesmente variáveis são características obtidas em cada parcela Os dados observações são realizações de uma variável e serão analisados para verificar se há diferença entre os níveis dos fatores tratamentos Assim exemplos de variáveis são produção de grãos de feijão altura de plantas de milho pH teor de Ca Mg e P em amostras de solo número de plantas de canadeaçúcar atacadas por cercosporiose etc Uma variável também pode ser classificada semelhantemente aos fatores tratamentos em e1 Qualitativa e11 Nominal quando são categorias atributos sem uma ordenação natural Por exemplo cor dos grãos do feijoeiro marrom preto branco textura do solo arenoso argiloso silte etc e12 Ordinal quando são atributos com uma ordenação natural Por exemplo suscetibilidade do cafeeiro à ferrugem alta média baixa nota para o ataque de cercosporiose em canadeaçúcar escala de 1 para ausência da doença até 9 para o máximo de doença etc e2 Quantitativa e21 Discretas quando são contagens de números inteiros positivos com uma ordenação natural Por exemplo número de 09 96 chuvas em 2002 superior a 80 mmh ex 20 chuvas número de plantas atacadas com a broca do fruto do cafeeiro ex 200 plantas número de minhocas encontradas em determinada amostra de solo ex 50 minhocas e22 Contínuas quando são mensurações de valores reais normalmente existe uma unidade de medida acompanhando a variável Por exemplo produtividade 1000 kgha renda R205073mês altura 25 m diâmetro 818 cm peso 985 g pH 55 teor de P Ca Mg K matéria orgânica etc f Análise dos dados obtidos com o experimento 2 Distribuição de freqüências 21 Definição Consiste em uma função que associa os valores que uma variável assume com suas freqüências de ocorrência podendo ser elas absolutas relativas ou porcentuais 22 Freqüência É uma medida que quantifica a ocorrência dos valores de uma variável 221 Freqüência absoluta fa é o número de observações ocorridos em cada classe da variável estudada 222 Freqüência relativa fr é dada pela divisão da fa pelo número total n de dados ou observações n fr fa 223 Freqüência porcentual fp é dada pela multiplicação de fr por 100 fr100 fp P X r P X y ok SQRegressã i n 1 i 2 k 2 i i n i 1 k associada a 1 grau de liberdade O coeficiente de determinação R2 em experimentos com repetição é dado por SQTratamen to 100 SQ Regressão k R 2 0 R2 100 5731 Exemplo de análise de regressão em dados com repetição modelos de regressão polinomial Um experimento foi instalado conforme o delineamento inteiramente casualizado com três repetições para testar o efeito de 5 doses de adubo nitrogenado 0 30 60 90 e 120 kgha Os resultados obtidos em tonha de milho são RepDoses 0 30 60 90 120 1 86 105 125 126 137 2 95 100 128 151 128 3 94 115 122 149 113 Total 275 320 375 426 378 O modelo do exemplo anterior adotado foi ij i ij d y ε µ i 1 2 5 e j 1 2 3 em que yij é o valor observado referente a iésima dose de adubo nitrogenado na jésima repetição di é a iésima dose de adubo nitrogenado e εij é o erro experimental associado a yij com εi N 0 σ2 e independentes As hipóteses testadas na análise de variância são Ho d1 d2 dn 0 i1 2 n H1 pelo menos um di difere de 0 10 95 P2Xi 12 1 n x 2 i2 P3Xi i 2 3 i x 20 7 3n x P4Xi 560 9 1n 3n x 14 13 3n x 2 2 2 i 2 i4 P5Xi i 2 4 3 i 2 5 i x 1008 407 230n 15n x 18 7 5n x em que Xi são os níveis da variável independente n i 1 Xi n 1 X é a média dos níveis de X q é amplitude entre dois níveis consecutivos de X n é o número de níveis da variável independente X O estimador de quadrados mínimos de bk é dado por P X r P X y bˆ i n 1 i 2 k i i n i 1 k k em que PkXi são os coeficientes do polinômio ortogonal de grau k associado ao nível do fator yi é o total do nível i da variável dependente y r é o número de repetições A hipótese de nulidade é Ho bk 0 e a hipótese alternativa é H1 bk 0 A soma de quadrados da regressão de grau k na análise de variância é dada por Exemplo 1 No quadro a seguir está disposta a atividade agrícola predominante em cada uma das 20 propriedades rurais do município Vida Alegre Milho Soja Olericultura Leite Soja Soja Milho Milho Leite Canadeaçúcar Trigo Milho Milho Leite Soja Trigo Milho Laranja Milho Olericultura A variável em estudo atividade agrícola é classificada como qualitativa nominal Uma maneira mais informativa de descrever o conjunto de dados do Exemplo 1 é através da distribuição de freqüências das categorias desta variável podendo ser feita por meio de representação tabular ou gráfica a Representação tabular Tabela 1 Distribuição de freqüência das atividades agrícolas de 20 propriedades rurais do município de Vida Alegre Atividade predominante fa fr fp Milho 7 03500 350 Soja 4 02000 200 Leite 3 01500 150 Trigo 2 01000 100 Olericultura 2 01000 100 Canadeaçúcar 1 00500 50 Laranja 1 00500 50 Total 20 10000 1000 Fonte Apostila de Estatística Básica Bearzoti Oliveira 1997 11 94 b Representação gráfica Gráfico é uma figura para ilustração de fenômenos ou tendências onde existem escalas definidas Para a representação gráfica de variáveis qualitativas como é o caso do Exemplo 1 os gráficos mais utilizados são Gráfico de linhas possui dois eixos com fa ou fr ou fp disposta no eixo vertical e as classes categorias da variável dispostas no eixo horizontal 0 01 02 03 04 Milho Soja Leite Trigo Oleric Cana Laranja Atividade fr Figura 1 Gráfico de linhas representando a distribuição de freqüência relativa referente à atividade agrícola predominante em propriedades do município de Vida Alegre Análise de regressão em dados com repetição modelos de regressão polinomial O modelo de regressão polinomial de grau p para uma única variável independente é representado por i p i p 3 i 3 2 i 2 i 1 o i å â X â X â X â X â y i com i 1 2 n εi N0 σ2 independentes β0 β1 βn são parâmetros da regressão a serem estimados Considerando n pares de dados y1 X1 y2 X2 yn Xn em que np e que os níveis referentes a variável X são todos eqüidistantes ou seja X1X1 X2X1q X3X2q XnXn1q o modelo em i pode ser reescrito como Yi bo b1P1Xi b2P2Xi bpPpXi εi com i 1 2 n εi N0 σ2 independentes b0 b1 bn são parâmetros da regressão a serem estimados e PkXi sendo um polinômio ortogonal de ordem k 1 2 p que deve atender às seguintes restrições i P0Xi1 ii 0 P X i n i 1 k iii 0 P X P X i K i n i 1 k para k k iv 0 X P i n 1 i 2 k Os valores de PkXi k 1 2 p quando os níveis da variável X são eqüidistantes podem ser obtidos através das seguintes expressões P1Xi xi em que q X X x i i 12 93 i 1 o i bˆ X bˆ yˆ em que 10 325 55 15 10 10 32512577 55 1139 15 1 426 10 1388 bˆ 2 2 2 2 1 00073 20625000 150875 20625000 4087525 3936650 bˆ 1 estimativa de b1 14950 02373 12577 10 00073 325 10 12577 bˆ o estimativa de bo O modelo de regressão ajustado estimado é i i 0 0073X 1 4950 yˆ O R2 foi de 90 01255 100 01104 R 2 indicando que 90 da variação na densidade do solo é explicada pelo modelo de regressão utilizado No quadro a seguir para cada valor de Xi temse o valor observado o estimado e o desvio correspondente Xi yi valores observados iyˆ valores estimados yi iyˆ 10 1388 1422 0034 15 1426 1386 0040 20 1393 1349 0044 25 1341 1313 0029 30 126 1276 0016 35 116 1240 0080 40 1177 1203 0026 45 1153 1167 0014 50 114 1130 0010 55 1139 1094 0045 Total 12577 12577 0 Média 12577 12577 0 Gráfico de barras ou colunas semelhantes aos gráficos de linhas com a diferença que são usadas barras colunas ao invés de linhas 0 01 02 03 04 Milho Soja Leite Trigo Oleric Cana Laranja Atividade fr Figura 2 Gráfico de barras verticais representando a distribuição de freqüência relativa referente à atividade agrícola predominante em propriedades do município de Vida Alegre Setograma gráfico circular ou gráfico de setores gráfico circular no qual os setores correspondem as categorias com áreas proporcionais as freqüências de cada classe Para construção do setograma é necessário obter o ângulo referente ao setor de cada categoria por meio de uma regra de três Por exemplo para a atividade milho do Exemplo 1 temse a regra de três para as freqüências porcentuais dada por 100 360 o 35 X x 126 o E assim por diante são calculados os outros ângulos correspondentes aos setores das outras categorias que serão traçados no gráfico 13 92 Laranja Cana Olericultura Trigo Leite Soja Milho Figura 3 Setograma representando a distribuição de freqüência relativa referente à atividade agrícola predominante em propriedades do município de Vida Alegre Exemplo 2 O quadro seguinte apresenta o número de lagartas rosca encontradas em cada um dos 16 canteiros de um viveiro de mudas de eucalipto 1 1 3 5 4 2 4 4 3 1 2 1 5 0 0 4 A variável número de lagartas rosca é classificada como quantitativa discreta A distribuição de freqüências para variáveis quantitativas discretas são semelhantes à das variáveis qualitativas como no caso do Exemplo 1 com os valores inteiros que a variável assume podendo ser considerados como categorias ou classes naturais a Representação tabular Tabela 2 Distribuição de freqüência do número de lagartas rosca em canteiros de um viveiro de eucalipto No de lagartas rosca fa fr fp 0 2 01250 125 1 4 02500 250 2 2 01250 125 3 2 01250 125 4 4 02500 250 5 2 01250 125 Total 16 10000 1000 Fonte Notas de aula H1 b1 0 As somas de quadrados para o exemplo anterior foram SQRegressão 10 325 55 15 10 10 32512577 55 1139 15 1 426 1 388 10 2 2 2 2 2 SQRegressão 01104 20625000 150875 20625000 4087525 3936650 2 2 SQTotal 10 12577 1139 1 426 388 1 2 2 2 2 SQTotal 159436 158181 01255 SQDesvios 01255 01104 00151 O Quadro de análise de variância resultante é FV GL SQ QM F ProbF Regressão 1 01104 01104 58105 00001 Desvios 8 00151 00019 Total 9 01255 Da Tabela de F temse que F005 1 8 é 532 e como 58105 532 rejeitase Ho ao nível de 5 de significância Atualmente os programas computacionais apresentam uma coluna a mais no quadro de análise de variância correspondente a ProbF não havendo a necessidade de procurar o valor de F em Tabela Quando ProbF for menor que 005 significa que o teste F foi significativo ou seja o pesquisador poderá rejeitar Ho e aceitar H1 No exemplo concluise então que as densidades gcm3 em diferentes profundidades X cm podem ser explicadas por meio do seguinte modelo de regressão linear 91 14 SQDesvios SQRegessão SQTotal yˆ y 2 i n i 1 i associada a n 2 graus de liberdade A decisão de rejeitar Ho ao nível α de significância se dará se QMDesvios QM Regressão F Fα 1 n2 em que Fα 1 n2 é o valor tabelado obtido através da Tabela de F Snedecor para o nível α de significância 1 e n2 graus de liberdade O coeficiente de determinação R2 é a estatística dada por 100 SQTotal SQRegressão R 2 0 R2 100 O R2 procura quantificar a proporção da variação da variável y que é explicada pelo modelo de regressão Quanto mais próximo de 100 estiver R2 melhor a qualidade de ajuste do modelo de regressão aos dados 5721 Exemplo de análise de regressão em dados sem repetição Um estudo foi realizado sobre zonas de compactação em perfis de um solo obtendose os seguintes dados de densidade gcm3 em diferentes profundidades X cm Total X cm 10 15 20 25 30 35 40 45 50 55 325 y gcm3 1388 1426 1393 1341 1260 1160 1177 1153 1140 1139 12577 O modelo adotado foi yi b0 b1Xi εi i1 2 10 e εi N 0 σ2 E as hipóteses testadas foram Ho b1 0 A representação gráfica também é semelhante à do Exemplo 1 com os valores inteiros no eixo horizontal representando as classes da variável número de lagartas Exemplo 3 Considere os valores a seguir referentes ao diâmetro à altura do peito DAP em cm de 54 árvores de um talhão 107 172 212 229 242 259 288 328 361 124 176 216 233 244 261 295 336 375 138 188 218 235 244 261 302 342 381 146 192 222 238 246 268 309 345 390 161 205 223 239 248 275 313 347 397 168 209 228 242 255 281 320 355 412 A variável DAP é classificada como quantitativa contínua A distribuição de freqüências para variáveis quantitativas contínuas são diferentes daquelas discretas e das variáveis qualitativas Primeiramente para a realização de uma distribuição de freqüências de uma variável contínua os dados devem ser ordenados em ordem crescente para uma melhor manipulação dos mesmos Depois seguese a um algoritmo para a obtenção da distribuição de freqüências Neste algoritmo alguns passos são diferenciados se os dados são referentes a uma população ou a uma amostra i Para população escolher um número de classes k entre 5 e 20 Para amostra Tamanho da amostra n Número de classes k Até 100 n 100 5 log10 n ii Calcular a amplitude total A dos dados A MVO mvo 15 90 em que MVO é o maior valor observado e mvo é o menor valor observado iii Calcular a amplitude de classe c k x A c população ou 1 k x A c amostra em que x é a precisão de medida menor valor detectável pelo instrumento ou método de medição O valor de c deverá ser arredondado para o mesmo número de casas decimais dos dados iv Calcular o limite inferior da 1a classe LI1 2 x mvo LI1 população ou 2 c mvo LI1 amostra v Calcular o limite superior da 1a classe LS1 LS1 LI1 c LS1 além de limite superior da 1a classe também é o limite inferior da 2a classe LS1 LI2 LS2 LI2 c e assim sucessivamente até terminar as k classes vi Calcular as freqüências absolutas fa e opcionalmente as relativas fr e porcentuais fp de cada classe Aplicandose então o algoritmo nos dados do Exemplo 3 considerando que eles são referentes a uma população temse i Escolhese por exemplo k 10 classes ii A 412 107 305 iii 13 arredondando 3 06 10 10 30 5 c n 1 i 2 n i 1 i 2 i n 1 i n i 1 i i n i 1 i i 1 n X X n y X X y b A partir destes estimadores temse o modelo de regressão linear simples estimado ajustado i 1 o i bˆ X bˆ yˆ 572 Análise de regressão em dados sem repetição Seja a hipótese de nulidade em uma análise de regressão Ho b1 0 e a hipótese alternativa H1 b1 0 o esquema da análise de variância da regressão para se testar estas hipóteses é FV GL SQ QM F Regressão 1 SQRegressão SQRegressão1 QMRegressãoQMDesvios Desvios n2 SQDesvios SQDesvios n2 Total n1 SQTotal Em que as somas de quadrados SQs são dadas pelas seguintes expressões SQTotal n 1 i 2 n i 1 i 2 i 2 n i 1 i n y y y y associada a n1 graus de liberdade SQRegressão 2 n i 1 i y yˆ n 1 i 2 n i 1 i 2 i 2 n 1 i n i 1 i i n i 1 i i n X X n y X X y associada a 1 grau de liberdade 89 16 A princípio qualquer relação funcional entre um conjunto de variáveis regressoras e um conjunto de variáveis dependentes representada por y fX1 X2 Xk pode ser chamada de modelo de regressão sendo tal modelo fixo para determinado conjunto de dados Normalmente esta relação funcional é desconhecida e uma função alternativa pode ser usada para aproximar f como por exemplo os modelos polinomiais que estão incluídos entre os tipos de modelos de regressão linear simples e são amplamente utilizados Nogueira 1997 Um modelo de regressão linear é dito simples quando envolve somente uma variável regressora X Os exemplos anteriores a e c se enquadram em casos de regressão linear simples Já o exemplo b é típico de regressão linear múltipla pois envolve mais de uma variável regressora no caso duas O exemplo d é um caso de regresão linear múltipla multivariada múltipla pois apresenta 3 variáveis regressoras e multivariada pelas duas variáveis respostas y1 e y2 utilizadas Sejam n pares de dados de duas variáveis Xi yi com i 1 2 n Admitindo que a relação entre yi e Xi é uma reta temse o modelo de regressão linear simples yi b0 b1Xi εi em que εi é o erro experimental associado a observação yi b0 e b1 são parâmetros correspondentes ao coeficiente linear ou termo constante intercepto da reta e coeficiente angular ou de regressão respectivamente Os estimadores de quadrados mínimos de b0 e b1 são dados por b X y n X b n y b 1 n i 1 i 1 n i 1 i o Observação Note que como os dados têm apenas uma casa decimal após a vírgula o x é 01 se houvesse 2 casas após a vírgula x seria 001 e assim por diante iv 1065 2 10 10 7 LI1 v LS1 1065 31 1375 LI2 LS1 1375 LS2 1375 31 1685 e assim por diante a Representação tabular Tabela 3 Distribuição de freqüência do diâmetro à altura do peito DAP em cm de 54 árvores de um talhão Classes de DAP Ponto médio fa fr dfr fp 1065 1375 122 2 00370 00119 370 1375 1685 153 4 00741 00239 741 16851995 184 4 00741 00239 741 1995 2305 215 9 01667 00538 1667 2305 2615 246 14 02592 00836 2592 2615 2925 277 4 00741 00239 741 2925 3235 308 5 00926 00299 926 3235 3545 339 5 00926 00299 926 3545 3855 370 4 00741 00239 741 3855 4165 401 3 00555 00179 555 Total 54 10000 10000 Fonte Notas de aula b Representação gráfica Normalmente em gráficos de distribuição de freqüências de variáveis quantitativas contínuas usase no eixo vertical do gráfico a densidade de freqüência df de cada classe dada por 17 88 densidade de freqüência df amplitude da classe da classe freqüência Assim podese usar a densidade de freqüência absoluta dfa ou a relativa dfr ou ainda a porcentual dfp obtidas respectivamente por c dfa fa c dfr fr c dfp fp Na Tabela 3 foram apresentadas as dfrs com c31 O uso de df se torna importante nas situações onde as amplitudes de classes c são desiguais e também permite o cálculo de freqüências a partir de áreas do gráfico Mas se c é igual para todas as classes podese utilizar no eixo vertical do gráfico tanto freqüências como densidades de freqüência Visto o conceito de df os dois gráficos mais usais para distribuição de freqüências de variáveis contínuas são o histograma e o polígono de freqüência b1 Histograma é semelhante ao gráfico de barras com barras dispostas lado a lado e larguras iguais às amplitudes de classes 0 002 004 006 008 01 1065 1375 1685 1995 2305 2615 2925 3235 3545 3855 4165 DAP dfr Figura 4 Histograma de distribuição de freqüência relativa referente ao diâmetro à altura do peito DAP em cm de 54 árvores de um talhão Os resultados do teste de Tukey comparando as médias das Variedades para 1 e 2 linhas de irrigação está apresentado a seguir VariedadesLinhas 1 T 2 T T1 1780 c 1740 b T2 1910 bc 1910 ab T3 2050 ab 1980 a T4 2118 a 1740 b Médias seguidas de mesma letra não diferem entre si pelo teste de Tukey Prob 005 57 Análise de regressão 571 Características Na pesquisa agropecuária é freqüente o interesse no estudo de relações funcionais entre variáveis quantitativas como por exemplo a Estudar a resposta na produção de grãos y em função de doses X de nitrogênio aplicadas ao solo simbolizado por y fX b Estimar o volume de madeira y em árvores de um povoamento florestal sem ter que derrubálas através da medida de seus diâmetros X1 e alturas X2 simbolizado por y fX1 X2 c Expressar a curva de crescimento y de aves em função do tempo X simbolizado por y fX d Determinar como o número de brotos y1 e seu peso seco y2 são afetados pelas doses de meio de cultura MS X1 de sacarose X2 e pH X3 simbolizado por y1 y2 fX1 X2 X3 As variáveis ys dos exemplos anteriores que se deseja descrever são chamadas variáveis dependentes ou respostas e as variáveis Xs são denominadas independentes ou regressoras Na natureza certamente uma variável y que se deseja descrever é determinada por um conjunto de outras variáveis X1 X2 Xk 87 18 Variedade 2 Linha 1 T2T1 1910 4 76 4 Variedade 3 Linha 1 T3T1 2050 4 82 0 Variedade 4 Linha 1 T4T1 2118 4 84 7 Comparando Médias de T para 2 T Variedade 1 Linha 2 T1T2 1740 4 69 6 Variedade 2 Linha 2 T2T2 1910 4 76 4 Variedade 3 Linha 2 T3T2 1980 4 79 2 Variedade 4 Linha 2 T4T2 1740 4 69 6 Teste de Tukey r q QMErroMédio DMS sendo q para α005 I 4 tratamentos principais Variedades e GLErro Médio n 21 q 395 2 00 4 1 0207 3 95 DMS b2 Polígono de freqüência quando as amplitudes de classe c são iguais o polígono é obtido pela união dos pontos médios das classes nas alturas correspondentes às dfs O polígono deve ser unido no eixo horizontal nos pontos 2 LI1 c e 2 c LSk em que LSk é o limite superior da última classe k No Exemplo 3 os pontos de união ao eixo horizontal são 19 2 13 1065 e 43 2 2 13 4165 dfr 0 002 004 006 008 01 91 122 153 184 215 246 277 308 339 37 401 432 DAP Figura 5 Polígono de freqüência relativa referente ao diâmetro à altura do peito DAP em cm de 54 árvores de um talhão 23 Natureza da distribuição O objetivo da distribuição de freqüência é descrever o comportamento da variável A natureza desse comportamento pode ser simétrica assimétrica à direita ou à esquerda como pode ser visualizado na Figura 6 Adiante será visto como se quantifica a assimetria 19 86 i Simétrica ii iii Assimétrica à direita Assimétrica à esquerda Figura 6 Natureza da distribuição dos dados i simétrica ii assimétrica à direita ou iii assimétrica à esquerda 3 Estatísticas descritivas 31 Medidas de posição Definição é um número que descreve um conjunto de dados pela indicação da posição que o conjunto ocupa na escala de valores possíveis que a variável em questão pode assumir 311 Média X ou Me Me N X N i 1 i 16 2948 69 6 792 764 4 696 1 SQTT VariedadeLinha2 SQ 2 2 2 2 2 2 SQTT2 54494800 54316900 177900 Para certificar se o cálculo das somas de quadrados do desdobramento Variedades dentro de Linhas foi realizado corretamente basta verificar SQ T SQ T x T 2 1 SQ T T SQ T T 269635 179184 270919 177900 448819 448819 ok A análise de variância para o desdobramento TT é FV GL SQ QM F ProbF TT1 I1 41 3 270919 90306 8848 00005 TT2 I1 41 3 177900 59300 5810 00047 Erro Médio 21 10207 Da análise de variância anterior observase que houve diferença significativa entre efeitos de Variedades T no comprimento da banana tanto para 1 linha de irrigação quanto para 2 linhas de irrigação Prob 005 Podemos então utilizar por exemplo o teste de Tukey para comparar as médias de T Variedades para 1 T 1 linha de irrigação e também para 2 T 2 linhas de irrigação Médias Comparando Médias de T para 1 T do Quadro 3 podese obter Variedade 1 Linha 1 T T1 17 8 4 71 2 0 85 20 Linha 1 Variedade 4 2118 a Linha 2 Variedade 4 1740 b d Comparações entre médias de tratamentos principais dentro de cada nível de tratamento secundário médias de Variedades dentro de cada Linha TT Esta comparação envolve os dois erros por meio de um erro médio sendo portanto um pouco mais complicada que as demais K 1QMErrob K QMErro a QMErroMédio 10207 2 1 10403 10011 2 QMErroMédio O número de graus de liberdade n associado a este Erro Médio é calculado de modo aproximado pela fórmula de Satterthwaite GLErrob 1 QMErrob K GLErro a QMErro a 1QMErrob K QMErro a n 2 2 2 12 1 1 0403 2 9 1 0011 1 1 0403 1 0011 2 n 2 2 2 2067 21 arredondando Observação GLErro a n GLErro a GLErro b Do Quadro 3 obtémse 16 3143 84 7 82 0 76 4 4 712 1 SQ T T Variedade Linha 1 SQ 2 2 2 2 2 1 SQTT1 62011225 61740306 270919 Para o Exemplo 3 a média é 54 41 2 39 7 12 4 10 7 Me L 259 Propriedades da média i Somandose uma constante K a todos os dados a média Me também é acrescida de K K Mex K Mex ii Multiplicandose K a todos os dados a média também é multiplicada por K KMe Me x K iii A soma dos desvios dis em relação a média é zero di x i Me Exemplo 4 Para as N 3 observações xi a seguir os desvios di em relação a média são xi di 3 35 2 5 55 0 7 75 2 Média Me 5 N i 1 id 0 iv A média minimiza a soma dos quadrados dos desvios SQD ou seja o valor da SQD seria aumentada se colocássemos qualquer outro valor que não Me SQD 2 N i 1 i Me x 21 84 Observações A média é muito influenciada por valores discrepantes extremos Ela é a medida de posição mais utilizada 312 Mediana Md É o valor que é precedido e seguido pelo mesmo número de observações em um conjunto de dados ordenados Exemplo 5 Para as N 5 observações xi a seguir a mediana é x1 x2 x3 x4 x5 8 9 10 15 40 Md 10 este valor é precedido e seguido por duas observações Observação Se o número de observações N for par tomase a média dos dois valores centrais Exemplo 6 Para as N 4 observações xi a seguir a mediana é x1 x2 x3 x4 9 10 14 20 Md 12 2 14 10 Propriedades da mediana i Md xK Md x K ii Md xK KMd x iii A mediana é o valor que minimiza a soma dos módulos dos desvios x i a é mínima se a Mdx Observação A Md é uma medida de posição para medidas assimétricas Da análise de variância anterior observase que houve diferença significativa entre efeitos de Linhas T no comprimento da banana somente para a Variedade 4 Prob 005 Para as demais variedades T1T2 e T3 não houve diferenças significativas Prob 005 entre 1 e 2 linhas de irrigação no comprimento do fruto central da terceira penca de banana Podemos então utilizar por exemplo o teste de Tukey para comparar as médias de T 1 e 2 Linhas de irrigação para T4 Variedade 4 Médias Linha 1 Variedade 4 4 T1T 2118 4 84 7 Linha 2 Variedade 4 4 T2T 1740 4 69 6 Teste de Tukey r q QMErrob DMS sendo q para α005 K 2 tratamentos secundários Linhas e GLErro b 12 q 308 157 4 1 0403 3 08 DMS O contraste entre 1 T e 2 T para T4 é 3 78 2118 1740 T T yˆ 2 1 378 157 portanto 1 T 2 T para T4 Ou seja para Variedade 4 T4 1 linha de irrigação 1 T proporcionou significativamente maior comprimento cm do fruto central da terceira penca de banana do que 2 linhas de irrigação 2 T Colocando as letras do teste 83 22 SQTT1 24784000 24780800 03200 8 1528 764 4 764 1 SQT T Linha Variedade 2 SQ 2 2 2 2 SQTT2 29184800 29184800 00000 8 161 2 79 2 4 82 0 1 SQT T Variedade 3 SQLinha 2 2 2 3 T3 SQT 32491600 324818 09800 8 154 3 69 6 4 84 7 1 SQT T Variedade 4 SQLinha 2 2 2 4 T4 SQT 30045625 29760613 285012 Para certificar se o cálculo das somas de quadrados do desdobramento Linhas dentro de Variedades foi realizado corretamente basta verificar SQ T SQ T x T 4 3 2 1 SQ T T SQ T T SQ T T SQ T T 118828 179184 03200 00000 09800 285012 298012 298012 ok A análise de variância para o desdobramento T T é FV GL SQ QM F ProbF TT1 K1 21 1 03200 03200 0308 06347 TT2 K1 21 1 00000 00000 0000 09975 TT3 K1 21 1 09800 09800 0942 04341 TT4 K1 21 1 285012 285012 27397 00346 Erro b 12 124838 10403 313 Moda Mo É o valor mais freqüente no conjunto de dados Exemplo 7 Para as N 5 observações xi a seguir a moda é x1 x2 x3 x4 x5 8 9 9 12 18 Mo 9 valor mais freqüente apareceu duas vezes no conjunto de dados Propriedades da moda i Mo xK Mo x K ii Mo xK KMo x Observações A Mo também é uma medida de posição para medidas assimétricas Ela é ainda menos afetada por valores extremos do que a mediana Para variáveis contínuas onde é difícil encontrar um mesmo valor repetido duas ou mais vezes a moda é calculada de outra maneira através do denominado método de Czuber porém tal método não será discutido neste material 32 Medidas de dispersão Definição grandeza numérica que descreve a variabilidade em um conjunto de dados 321 Amplitude A A MVO mvo Tratase da diferença entre o maior valor observado MVO e o menor valor observado mvo como já foi visto anteriormente 23 82 Exemplo 8 Considere dois conjuntos de dados X e Y medidos em metro m Totais X 6 16 16 16 41 95 Y 6 11 21 31 41 110 A X 41 6 35 A Y 41 6 35 X e Y apresentam mesma amplitude A portanto o conjunto X apresenta claramente menor variabilidade maior uniformidade que o conjunto Y Observação A amplitude é muito influenciada por valores extremos uma vez que é calculada a partir deles Assim a medida que aumenta N aumenta a chance de encontrar valores extremos aumentando portanto a amplitude 322 Variância Var e Desvio padrão DP São medidas baseadas em todos os dados a partir dos desvios em relação a média Variância Var ou σ2 média dos quadrados dos desvios também chamada de quadrado médio cuja expressão é dada por N Me x 2 N i 1 i 2 σ população ou 1 n Me x ˆ 2 n i 1 i 2 σ amostra Ou ainda pelas expressões alternativas 2 N 1 i N i 1 i 2 i 2 N N x x σ população ou 2 n 1 i n i 1 i 2 i 2 1 n n x x ˆ σ amostra 1515 156 portanto 1T 2 T e assim continua as comparações entre as outras médias de variedades duas a duas b Comparações entre médias de tratamentos secundários médias de Linhas T Comparando a média de 1 T com a de 2 T pelo teste de Tukey do Quadro 3 podese obter 1964 x4 4 3 314 rI T T T1 1 e 1843 x4 4 8 294 rI T T T2 2 Ir q QMErrob DMS sendo q para α005 K 2 tratamentos secundários Linhas e GLErro b 12 q 308 0 78 44 1 0403 3 08 DMS O contraste entre 1 T e 2 T é 1 21 1843 1964 T T yˆ 2 1 121 078 portanto 1 T 2 T c Comparações entre médias de tratamentos secundários dentro de cada nível de tratamento principal médias de Linhas dentro de cada Variedade T T Do Quadro 3 obtémse 8 1408 696 4 712 1 SQ T T Linha Variedade1 SQ 2 2 2 1 81 24 Ti T e TTi total do tratamento principal i e do tratamento secundário i respectivamente iT e iT média do tratamento principal i e do tratamento secundário i respectivamente As comparações de médias que o pesquisador pode ter interesse em um experimento em parcelas subdivididas são as seguintes a Comparações entre médias de tratamentos principais médias de Variedades T Comparando por exemplo a média de T1 com a de T2 pelo teste de Tukey do Quadro 3 podese obter 17 6 x2 4 8 140 rK T T T1 1 e 191 x2 4 8 152 rK T T T2 2 r K q QMErro a DMS sendo q para α005 I 4 tratamentos principais Variedades e GLErro a 9 q 441 156 24 1 0011 4 41 DMS O contraste entre 1T e 2 T é 51 191 17 6 T T yˆ 2 1 Lembrando a interpretação do teste Tukey Se yˆ DMS as médias dos dois tratamentos em comparação podem ser consideradas estatisticamente diferentes Desvio padrão DP ou σ é a raiz quadrada da variância cuja expressão é dada por σ2 σ população ou ˆ 2 ˆ σ σ amostra Observações Quanto maior σ2 ou 2 ˆσ maior a variabilidade do conjunto de dados O DP tem a vantagem em relação a Var de possuir a mesma unidade dos dados por exemplo se a unidade de medida dos dados é kg a do DP também será kg enquanto que a da Var será kg2 facilitando assim a visualização do quanto em média os dados se desviam da média Para o Exemplo 8 temse VarX 13600 5 1805 2485 5 5 95 41 16 16 16 6 2 2 2 2 2 2 m2 VarY 16400 5 2420 3240 5 5 110 41 31 21 11 6 2 2 2 2 2 2 m2 DPX 136 1166 m DPY 164 1281 m Propriedades da variância e do desvio padrão i Somadose uma constante K a todos os dados a Var e o DP não se alteram Varx K Varx DPx K DPx ii Multiplicandose K a todos os dados a Var fica multiplicada por K2 e o DP por K VarxK K2Varx DP xK K DP x 25 80 iii O DP em relação a média é mínimo ao invés de qualquer outro valor devido ao fato da média ser o valor que torna mínima a soma de quadrados do desvio SQD 323 Coeficiente de Variação CV Me 100 DP CV O CV é uma medida relativa porcentual pois o desvio e a média possuem a mesma unidade Exemplo 9 Considere os pesos Kg de animais de dois rebanhos diferentes Rebanho A Rebanho B 70 490 90 510 80 480 100 500 Me 85 495 DP 1118 1118 É claro que pelos valores de pesos tratamse de rebanhos de idades diferentes Os rebanhos A e B possuem o mesmo DP porém é óbvio que diferenças de 5 kg por exemplo possuem um peso relativo muito maior no rebanho A do que no rebanho B Assim poderíamos afirmar que a variabilidade do rebanho A é maior do que a do rebanho B Isto pode ser comprovado pelos valores de CV dos dois rebanhos CV Rebanho A 1315 x 100 85 1118 CV Rebanho B 2 26 x 100 495 1118 FV GL SQ QM F ProbF Bloco 3 157535 52512 5245 00229 Variedades T 3 269635 89878 8978 00045 Erro a 9 90102 10011 Parcelas 15 517272 Linhas T 1 118828 118828 11422 00055 T x T 3 179184 59728 5741 00338 Erro b 12 124838 10403 Total 31 940122 CV a 526 CV b 537 Média geral y 190 Número de observações 32 Nos experimentos em parcelas subdivididas temse dois coeficientes de variação CV Para parcelas 5 26 100 19 0 1 0011 100 y QMErro a CV a Para subparcelas 5 37 100 19 0 1 0403 100 y QMErrob CVb Considere I número de tratamentos principais I 4 variedades K número de tratamentos secundários K 2 linhas de irrigação r número de blocos r 4 blocos 79 26 517272 116455650115938378 SQ Parcelas SQ Erro a SQ Parcelas SQ Blocos SQ Variedades SQ Erro a 517272 157535 269635 90102 É necessário também fazer um outro quadro auxiliar com a combinação entre os níveis dos dois fatores variedades e linhas de irrigação para o cálculo da soma de quadrados do tratamento da subparcela linhas de irrigação e da interação variedades x linha T x T Quadro 3 Quadro auxiliar com os totais de todas as repetições para cada combinação entre os níveis dos fatores T e T LinhasVariedades T1 T2 T3 T4 Totais T1 712 4 764 820 847 314316 T2 696 764 792 696 2948 Totais 14088 1528 1612 1543 6091 Do Quadro 3 é possível obter 2948 115938378 16 3143 1 SQLinhas 2 2 SQ Linhas 116057206 115938378 118828 SQ Variedades SQLinhas 696 C 696 4 712 1 SQ Variedadesx LinhasT x T 2 2 2 SQ Variedades x Linhas T x T 116506025 115938378 269635 118828 179184 SQ Erro b SQ Total SQ Parcela SQ Linhas SQ Variedades x Linhas SQ Erro b 940122 517272 118828 179184 124838 E o quadro de análise de variância para os dados do exemplo 565 conforme o esquema em parcela subdividida é Observação O CV por ser adimensional é útil na comparação entre conjuntos de dados com mesma unidade mas permite também a comparação da variabilidade entre conjuntos de dados referentes a diferentes características 33 Medidas de assimetria e curtose Em estatística freqüentemente é interessante saber se a população da qual a amostra foi coletada pode ser descrita por uma curva normal Isso pode ser verificado por meio das seguintes medidas 331 Coeficiente de assimetria As medida que quantifica o distanciamento de um conjunto de dados em relação à simetria O coeficiente As é dado por 3 3 2 2 3 d m d d m As sendo n x x m n 1 i 3 i 3 e d2 σ2 variância populacional ou 2 ˆσ variância amostral ão normal distribuiç 0indica uma simetriaamostra pode ser considerad a vinda de uma zero As 0indica uma assimetria à esquerda negativo As 0indica uma assimetria à direita As positivo As é Se Na Figura 6 pode ser visto a natureza do comportamento de uma variável se simétrica assimétrica à direita ou assimétrica à esquerda Observação Na prática os valores de As dificilmente serão zero podendo ser próximos de zero 332 Coeficiente de curtose K medida que quantifica o grau de achatamento da distribuição de freqüência de um conjunto de dados tendo a curva normal como referência O coeficiente K é dado por 27 78 4 4 2 2 4 d m d d m K sendo n x x m n 1 i 4 i 4 e d2 σ2 variância populacional ou 2 ˆσ variância amostral 3 indica uma distribuição semelhante a normal chamada mesocúrtica 3 indica uma distribuição achatada chamada platicúrtica 3 indica uma distribuição afiada chamada leptocúrtica K é Se Figura 7 Gráfico dos diferentes graus de achatamento relativos a uma distribuição de freqüência Exemplo 10 Seja as seguintes N 4 observações a média x e a variância d2destas observações dadas por x1 x2 x3 x4 x d2 2 15 16 17 125 3725 Considerando que a unidade de cálculo é a subparcela do Quadro de dados podemos tirar C 32 609 1 2 115938378 SQ Blocos 115938378 155 0 142 6 1551 8 156 4 1 2 2 2 2 SQ Blocos 116095913 115938378 157535 SQ Total 1902 1712 164 2 1862 115938378 SQ Total 116878500 115938378 940122 Para o cálculo da soma de quadrados de parcelas é necessário fazer um quadro auxiliar com os totais das parcelas Quadro 2 Quadro auxiliar com os totais das parcelas Tratamentos Repetições T1 T2 T3 T4 Totais 1 379 2 390 415 380 1564 8 2 347 378 422 404 1551 3 324 368 360 374 1426 4 358 392 415 385 1550 Totais 14088 1528 1612 1543 6091 Do Quadro 2 calculamos 1543 115938378 1612 1528 8 1408 1 SQVariedades 2 2 2 2 SQ Variedades 116208013 115938378 269635 385 11593837 374 347 2 379 1 SQ Parcelas 2 2 2 2 8 77 28 fruto central da terceira penca de banana estão dispostos na Tabela 8 a seguir Tabela 8 Comprimento cm do fruto central da terceira penca de banana para um experimento em blocos casualizados DBC com 4 repetições em esquema de parcela subdividida com 4 variedades de banana T1 T2 T3 e T4 nas parcelas e 2 linhas de irrigação 1 T 1 linha e 2 T 2 linhas nas subparcelas Tratamentos T1 T2 T3 T4 Repetições T1 T2 T1 T2 T1 T2 T1 2 T Totais 1 190 189 192 198 208 207 211 169 1564 2 171 176 195 183 209 213 227 177 1551 3 175 149 175 193 186 174 210 164 1426 4 176 182 202 190 217 198 199 186 1550 Totais 712 696 764 764 820 792 847 696 6091 566 Croqui de campo T2 T4 T1 T3 BL I T2 1 T T2 1 T 1 T T2 1 T 2 T T3 T1 T2 T4 BL II 1 T T2 T2 1 T 1 T T2 T2 1 T T4 T3 T1 T2 BL III 1 T T2 1 T T2 1 T T2 T2 1 T T1 T2 T3 T4 BL IV T2 1 T 1 T T2 T2 1 T 1 T 2 T 252 4 1008 4 12 5 17 12 5 16 12 5 15 12 5 2 m 3 3 3 3 3 3188563 4 25 12754 4 12 5 17 12 5 16 12 5 15 12 5 2 m 4 4 4 4 4 1108 d m 25 3725 37 252 As 3 3 As 0 Assimetria a esquerda 230 37253725 3188563 K K 3 Distribuição platicúrtica 4 Testes de comparações múltiplas 41 Contrastes ortogonais de médias Definição São combinações lineares dadas por Y1 a1m1 a2m2 anmn Y2 b1m1 b2m2 bnmn M YI1 c1m1 c2m2 cnmn sendo a soma dos coeficientes de cada contraste igual a zero 0 c b a n 1 i n i 1 i i n i 1 i L em que a1 b1 c1 an bn cn são os coeficientes dos contrastes m1 m2 mn são médias dos tratamentos 1 2 n Dois contrastes são ditos ortogonais quando há uma independência entre suas comparações ou melhor quando a variação de um contraste é independente da variação do outro A exigência para 29 76 que dois contrates sejam ortogonais é que a covariância Cov entre eles seja nula Cov i Y i Y 0 Seja 2 is a variância do tratamento i e ri o número de repetições do tratamento i a covariância entre dois contrastes é dada por uma das seguintes expressões Se 2 1s 2 2s 2 ns e r1 r2 rn CovY1 Y2 2 n n n n 2 2 2 2 2 2 1 1 1 1 2 i n i 1 i i i s r a b s r a b s r a b s r a b L Se 2 1s 2 2s 2 ns e r1 r2 rn CovY1 Y2 n n n 2 2 2 1 1 1 n i 1 i i i r a b r a b r a b r a b L Se 2 1s 2 2s 2 ns e r1 r2 rn CovY1 Y2 n n 2 2 1 1 n i 1 i i a b a b a b a b L A variância Var de um contraste Y é Var Y n i 1 i 2 i 2 r c s se 2 1s 2 2s 2 ns s2 ou Var Y 2 i n i 1 i 2 i s r c se 2 1s 2 2s 2 ns O erro padrão do contraste Y é sY VarY 563 Desvantagem Há uma redução do número de graus de liberdade do erro comparativamente ao esquema fatorial redução esta decorrente da existência de dois erros o erro a referente às parcelas e o erro b correspondente às subparcelas dentro das parcelas 564 Modelo estatístico do experimento em parcela subdividida O modelo a seguir corresponde a um modelo de um DBC em esquema de parcela subdividida ijk ik k ij i j ijk e ì y β α δ γ αγ em que yijk é o valor observado referente a parcela que recebeu o i ésimo nível do tratamento principal α e o késimo nível do tratamento secundário γ no jésimo bloco µ representa uma constante geral associada a esta variável aleatória βj é o efeito do j ésimo bloco αi é o efeito do iésimo nível do tratamento principal δij αβij é o efeito residual das parcelas caracterizado como componente do erro a γ é o efeito do késimo nível do tratamento secundário αγij é o efeito da interação do iésimo nível do tratamento principal α com o késimo nível do tratamento secundário γ e eijk representa o efeito residual das subparcelas caracterizado como componente do erro b Sobre as distribuições de δij e eijk podese considerar as seguintes pressuposições i δij N0 2 δ σ ii eijk N0 2 σ iii δij e eijk são não correlacionados 565 Exemplo de parcela subdividida Foi realizado um experimento em blocos casualizados com 4 repetições no esquema de parcelas subdivididas Os tratamentos das parcelas foram 4 variedades de banana T1 T2 T3 e T4 e os tratamentos das subparcelas foram uma e duas linhas de irrigação 1 T 1 linha e 2 T 2 linhas Os dados do comprimento cm do 75 30 56 Experimentos em parcelas subdivididas 561 Características O esquema experimental em parcelas subdivididas se caracteriza como sendo uma variação do experimento fatorial com dois fatores Steel et al 1997 A principal característica destes experimentos é que as parcelas são divididas em subparcelas Os tratamentos das parcelas são chamados de primários ou principais e são dispostos segundo um tipo qualquer de delineamento sendo os mais usados os delineamentos em blocos casualizados com o objetivo de procurar controlar a variabilidade que possa haver no material experimental Os tratamentos das subparcelas são chamados secundários e são dispostos aleatoriamente dentro de cada parcela Assim cada parcela funciona como um bloco para os tratamentos secundários Primeiro casualizamse os níveis do fator primário nas parcelas de cada bloco em seguida casualizamse os níveis do fator secundário nas subparcelas de cada parcela Pimentel Gomes 1990 e Hinkelmann Kempthorne 1994 dentre outros autores são unânimes em afirmar a maior precisão existente no teste de tratamentos secundários 562 Vantagens Os experimentos em parcelas subdivididas apresentam uma grande utilidade na pesquisa agropecuária além de outras diversas áreas Tais experimentos são úteis em situações como a quando os níveis de um dos fatores exigem grandes quantidades de material experimental por exemplo níveis de irrigação devendo ser casualizados nas parcelas b quando informações prévias asseguram que as diferenças entre os níveis de um dos fatores são maiores que as do outro fator c quando se deseja maior precisão para comparações entre níveis de um dos fatores d quando existe um fator de maior importância que deverá ser casualizado na subparcela e outro de importância secundária sendo este incluído para aumentar a extensão dos resultados e e nas situações práticas onde é difícil a instalação do experimento no esquema fatorial Observações Em um experimento com I tratamentos o número máximo de contrastes ortogonais possíveis é dado por I1 comparações Os contraste são formulados de acordo com o interesse do pesquisador Exemplo 11 Considere as médias de produtividade de grãos tha de 4 cultivares de milho 25 mˆ 1 33 mˆ 2 04 mˆ 3 09 mˆ 4 r1 r2 r3 r4 5 e 2 1s 2 2s 2 3s 2 4s 2s 019 i Escolher os I1 41 3 contrastes Y1 m1 m2 m3 m4 em que a11 a2 1 a3 1 a4 1 Y2 m1 m2 em que a11 a2 1 a3 0 a4 0 Y3 m3 m4 em que a1 0 a2 0 a3 1 a4 1 ii Verificar se o somatório dos coeficientes de cada contraste é igual a zero 0 1 1 0 0 c Y 0 0 0 1 1 b Y 0 1 1 1 1 a Y 4 i 1 i 3 4 i 1 i 2 4 i 1 i 1 31 74 iii Verificar se a covariância entre dois contrastes é igual a zero CoˆvYˆ Yˆ 2 1 10 10 1 1 11 a b 4 i 1 i i 0 CoˆvYˆ Yˆ 3 1 1 1 11 01 01 a c 4 i 1 i i 0 CoˆvYˆ Yˆ 3 2 1 0 10 10 01 b c 4 i 1 i i 0 iv Calcular a variância de cada contraste raˆ Yˆ V 1 n i 1 i 2 i 2 r a s 5 1 1 1 19 1 0 2 2 2 2 01520 raˆ Yˆ V 2 n i 1 i 2 i 2 r b s 5 0 0 1 19 1 0 2 2 2 2 00760 raˆ Yˆ V 3 n i 1 i 2 i 2 r c s 5 1 1 0 19 0 0 2 2 2 2 00760 v Calcular o erro padrão de cada contraste 0 3899 01520 raˆ Yˆ V s Yˆ 1 1 tha 0 2757 0 0760 V raˆ Yˆ s Yˆ 2 2 tha 0 2757 0 0760 raˆ Yˆ V s Yˆ 3 3 tha vi Calcular as estimativas destes contrastes 1 Yˆ 52 33 40 90 45 tha 2 Yˆ 52 33 19 tha 3 Yˆ 40 90 50 tha Aplicando o teste de ScottKnott para variedades dentro de cada nível de inoculante temse Variedade dentro do inoculante 1 Variedade Médias Resultado do teste 1 2314 b 2 3853 a A variedade 2 apresentou peso do colmo estatisticamente superior ao da variedade 1 quando foi utilizado o inoculante 1 Prob005 Variedade dentro do inoculante 2 Variedade Médias Resultado do teste 1 2090 b 2 3748 a A variedade 2 apresentou peso do colmo estatisticamente superior ao da variedade 1 quando foi utilizado o inoculante 2 Prob005 Variedade dentro do inoculante 3 Variedade Médias Resultado do teste 1 2443 b 2 3793 a A variedade 2 também apresentou peso do colmo estatisticamente superior ao da variedade 1 quando foi utilizado o inoculante 3 Prob005 73 32 Inoculante dentro da variedade 2 Inoculantes Médias Resultado do teste 1 3853 a 2 3748 a 3 3793 a Também não houve diferenças significativas Prob005 com relação ao peso do colmo entre os 3 inoculantes utilizados para a variedade 2 b Estudar o comportamento das variedades para cada inoculante Do Quadro 1 temse SQ Variedade I1 8 2466 4 1541 0 4 925 4 1 2 2 2 473704200 SQ Variedade I2 8 2334 8 1499 0 4 835 8 1 2 2 2 549792800 SQ Variedade I3 8 2494 2 1517 1 4 977 1 1 2 2 2 364500000 FV GL SQ QM F ProbF Variedade I1 1 473704200 473704200 25700 00001 Variedade I2 1 549792800 549792800 29828 00001 Variedade I3 1 364500000 364500000 19775 00005 Erro 15 276481067 18432071 Neste segundo desdobramento da interação variedade dentro de inoculante concluise que as duas variedades apresentaram pesos de colmos diferentes Prob005 para cada inoculante utilizado I1 ou I2 ou I3 vii Conclusões dos contrates a 2 mˆ mˆ 2 mˆ mˆ Yˆ 4 3 2 1 1 225 tha O contraste Y1 nos indica que o grupo das cultivares 1 e 2 produz em média 225 tha a menos que o grupo das cultivares 3 e 4 b 91 1 mˆ 1 mˆ Yˆ 2 1 2 tha O contraste Y2 nos indica que a cultivar 1 superou em média a produção da cultivar 2 em 19 tha c 05 1 mˆ 1 mˆ Yˆ 4 3 3 tha O contraste Y3 nos indica que a cultivar 3 produziu em média 50 tha a menos que a cultivar 4 42 Teste t de Student 421 Teste t para contrastes ortogonais Considerações O teste t pode ser usado para contrastes ortogonais sugeridos pela estrutura dos tratamentos De acordo com Banzatto Kronka 1989 devese escolher os contrastes antes de avaliar os dados ou se possível na fase de planejamento do experimento para evitar que sejam escolhidos contrastes correspondentes as maiores diferenças observadas entre médias o que aumentaria assim a probabilidade de erro tipo I α O α consiste no erro que se comete ao rejeitar Ho sendo que ela é verdadeira Dada uma hipótese de nulidade Ho e sua hipótese alternativa H1 dada por 33 72 Ho Y 0 ou seja as médias ou grupos de médias comparadas no contraste não diferem entre si H1 Y 0 ou seja pelo menos uma média difere das demais ou um grupo de médias difere de outro grupo A estatística t é calculada por s Yˆ 0 Yˆ Vˆ Yˆ 0 Yˆ t sendo Yˆ a estimativa do contraste de interesse e s Yˆ a estimativa do erro padrão do contraste A estatística t é comparada em valor absoluto com um valor tabelado tt procurandose na Tabela de t encontrada em livros de estatística o número de graus de liberdade GL associado a variância e o nível de significância α Se t tt aceitase a hipótese Ho e concluise que as médias ou os grupos de médias em comparação são iguais caso contrário se t tt rejeitase a hipótese Ho e concluise que as médias ou o grupo de médias em comparação são diferentes Exemplo 12 Aplicar o teste t nos contrates Y1 Y2 e Y3 do Exemplo 11 considerando que o GLErro da análise de variância é 16 Y1 m1 m2 m3 m4 1 Yˆ 45 tha s Yˆ 1 03899 tha Y2 m1 m2 2 Yˆ 19 tha s Yˆ 2 02757 tha Y3 m3 m4 3 Yˆ 5 tha s Yˆ 3 02757 tha Teste t para Y1 11541 0 3899 0 54 t cY 1 t Y 1 t para α005 e GL Erro16 t Y 1 t 212 variedades e inoculantes recomendase proceder o desdobramento da interação V x I para certificar tal informação O desdobramento no caso deste exemplo com dois fatores pode ser realizado das seguintes maneiras a Estudar o comportamento dos inoculantes para cada variedade Do Quadro 1 temse SQ Inoculante V1 12 2738 3 977 1 835 8 4 925 4 1 2 2 2 2 25555617 SQ Inoculante V2 12 4557 1 1517 1 1499 0 4 15410 1 2 2 2 2 2219017 FV GL SQ QM F ProbF Inoculante V1 2 25555617 12777808 0693 05110 Inoculante V2 2 2219017 1109508 0060 09427 Erro 15 276481067 18432071 Neste primeiro desdobramento da interação inoculante dentro de variedade concluise que tanto para variedade 1 quanto para a variedade 2 não há diferença significativa Prob005 no peso do colmo entre os três inoculantes aplicados Aplicando o teste de ScottKnott para inoculantes dentro de cada nível de variedade temse Inoculante dentro da variedade 1 Inoculantes Médias Resultado do teste 1 2314 a 2 2090 a 3 2443 a Realmente não houve diferenças significativas Prob005 com relação ao peso do colmo entre os 3 inoculantes utilizados para a variedade 1 71 34 SQ Variedades x Inoculantes 1406121900 1378347267 18124900 9649733 E o quadro de análise de variância para os dados do exemplo 555 conforme o esquema fatorial 3x2 é FV GL SQ QM F ProbF Bloco 3 38068083 12689361 0688 05730 Tratamentos 5 1406121900 281224380 15257 00000 Variedades V 1 1378347267 1378347267 74780 00000 Inoculantes I 2 18124900 9062450 0492 06211 V x I 2 9649733 4824867 0262 07731 Erro 15 276481067 18432071 Total 23 1720671050 CV 1412 Média geral 30398 Número de observações 24 Aplicando o teste de ScottKnott para variedades pois esta fonte de variação foi significativa Prob005 temse Variedades Médias Resultado do teste 1 2282 b 2 3798 a Aplicando o teste de ScottKnott para inoculantes apesar de seu efeito ter sido não significativo Prob005 temse Inoculantes Médias Resultado do teste 1 3083 a 2 2918 a 3 3118 a Embora a interação V x I não seja significativa Prob 005 indicando não haver uma dependência entre os efeitos dos fatores Como cY 1 t t Y 1 t 11541 212 rejeitase Ho Y1 0 e portanto m1 m2 m3 m4 os dois grupos de médias de cultivares diferem entre si ao nível de 5 de significância Teste t para Y2 6 892 0 2757 0 91 t cY 2 t Y 2 t para α005 e GL Erro16 t Y 2 t 212 Como cY 2 t t Y 2 t 6892 212 rejeitase Ho Y2 0 e portanto m1 m2 a média da cultivar 1 difere da cultivar 2 ao nível de 5 de significância Teste t para Y3 18136 0 2757 0 05 t cY 3 Y3 tt para α005 e GL Erro16 t Y 2 t 212 Como cY 3 t tt Y3 18136 212 rejeitase Ho Y3 0 e portanto m3 m4 a média da cultivar 3 difere da cultivar 4 ao nível de 5 de significância 422 Teste t para comparação de duas médias Passos para realização do teste i Definir a hipótese de nulidade Ho 1 y 2 y ii Estabelecer o nível de significância α iii Calcular a média de cada grupo iy iv Calcular a variância de cada grupo s 2 i 35 70 v Calcular a variância ponderada ps2 por meio da expressão 2 n n s1 n s1 n s 2 1 2 2 2 2 1 1 2 p vi Calcular a estatística t por meio da expressão 2 p 2 1 2 1 s n 1 n 1 y y t vii Encontrar o valor Tabelado de t tt procurando na Tabela de t o valor correspondente a combinação entre o nível de significância estabelecido α e o grau de liberdade GL dado por n1 n2 2 viii Concluir o resultado do teste Se t tt aceitase a hipótese Ho e concluise que as duas médias em comparação são iguais Se t tt rejeitase a hipótese Ho e concluise que as duas médias em comparação são diferentes Exemplo 13 Foi avaliado o volume estimado em m3ha de madeira produzida por 2 espécies de eucalipto Verifique se há diferença entre as médias das 2 espécies por meio do teste t Espécie Volume m3ha 1 24 1 26 1 29 1 32 1 38 2 60 2 63 2 71 SQ Bloco 22176192150 17318 1802 4 19417 6 1819 5 1 2 2 2 2 SQ Bloco 22214260233 22176192150 38068083 22176192150 1517 1 1499 0 1541 0 977 1 835 8 4 925 4 1 SQ Tratamento 2 2 2 2 2 SQ Tratamento 23582314050 22176192150 1406121900 SQ Total 23812 22362 2984 2 36382 22176192150 SQ Total 23896863200 22176192150 1720671050 SQ Erro 1720671050 38068083 1406121900 276481067 Devese montar um quadro auxiliar com os totais de todas as repetições para cada combinação entre os níveis dos fatores Quadro 1 Quadro auxiliar com os totais de todas as repetições para cada combinação entre os níveis dos fatores I1 I2 I3 Totais V1 9254 4 8358 9771 27383 12 V2 15410 14990 15171 45571 Totais 24664 8 23348 24942 72954 os valores dentro de parênteses correspondem ao número de parcelas que deu origem a cada total Do Quadro 1 obtémse SQ Variedades 22176192150 4557 1 12 2738 3 1 2 2 SQ Variedades 23554539417 22176192150 1378347267 SQ Inoculantes 22176192150 2494 2 2334 8 8 2466 4 1 2 2 2 SQ Inoculantes 22194317050 22176192150 18124900 SQ Variedades x Inoculantes SQ V I C SQ Variedades SQ Inoculantes 1378347267 18124900 22176192150 15171 4 925 4 1 SQVariedades x Inoculantes 2 2 L 69 36 peso do colmo tonha Os dados estão apresentados na Tabela 7 a seguir Tabela 7 Peso do colmo tonha para os 6 tratamentos de um experimento em blocos casualizados DBC com 4 repetições em esquema fatorial 2x3 Repetições Tratamentos 1 2 3 4 Totais 1 V1I1 2381 2560 2677 1636 9254 2 V1I2 2236 2170 1847 2105 8358 3 V1I3 2868 2058 2316 2529 9771 4 V2I1 3475 4039 3470 4426 15410 5 V2I2 3512 4525 3969 2984 14990 6 V2I3 3723 4065 3745 3638 15171 Totais 18195 19417 18024 17318 72954 556 Croqui de campo BL I 2 4 1 3 6 5 BL II 5 2 6 1 4 3 BL III 3 4 5 2 1 6 BL IV 6 1 3 4 5 2 Assim os valores das somas de quadrados para o exemplo 555 são C 24 7295 4 2 22176192150 i Hipótese de nulidade Ho 1 y 2 y ii α005 iii y1 2980 e y2 6467 iv 1s2 3020 e 3233 s 2 2 v 2 3 5 3 13233 13020 5 s 2 p 1 2 3091 vi 3 3091 1 5 1 6467 2980 t 1 2 8588 vii tt12 para α005 e GL 5 3 2 6 tt12 2447 viii Comparando a média da espécie 1 com a média da espécie 2 de eucalipto t12 tt12 8588 8588 2447 Rejeitase Ho Portanto 1 y 2 y a média da espécie 1 de eucalipto difere da média da espécie 2 de eucalipto ao nível de 5 de probabilidade 423 Teste t para comparação de duas médias em uma análise de variância A diferença mínima significante DMS ou LSDLeast Significant Difference entre duas médias pelo teste t de é dada por r 2 QME t DMS t em que tt é o valor de t tabelado o qual corresponde o valor obtido da combinação entre o nível de significância estabelecido α e o grau de liberdade do erro GLE da análise de variância na Tabela unilateral de t O QME é o quadrado médio do erro da análise de variância e r é o número de repetições de cada tratamento 37 68 Quando o valor absoluto da diferença entre duas médias for igual ou maior que a DMS as médias podem ser consideradas estatisticamente diferentes Exemplo 14 Foi realizada a análise de variância para os dados de porcentagem de absorção de água de 5 linhagens de feijão com 3 repetições por linhagem O valor do grau de liberdade do erro GLE foi 10 e o quadrado médio do erro QME foi 408 Compare as médias dos tratamentos a seguir pelo teste t 1y 955 2 y 878 3 y 869 4 y 263 5 y 1082 i tt para α005 e GLE 10 tt 2228 ii 3 2 228 2 4 08 DMS 367 iii Coloque as médias em ordem decrescente e faça a diferença entre elas duas a duas começando da diferença entre a maior e a menor média e assim por diante 5 y 1082 1y 955 2 y 878 3 y 869 4 y 263 553 Desvantagens como os tratamentos correspondem a todas as combinações possíveis entre os níveis dos fatores o número de tratamentos a ser avaliado pode aumentar muito não podendo ser distribuídos em blocos completos casualizados devido à exigência de homogeneidade das parcelas dentro de cada bloco Isto pode levar a complicações na análise sendo preciso lançar mão de algumas técnicas alternativas como por exemplo o uso de blocos incompletos A análise estatística e a interpretação dos resultados pode tornarse um pouco mais complicada que nos experimentos simples 554 Modelo estatístico do fatorial O modelo a seguir corresponde a um modelo de um delineamento em blocos casualizados DBC em esquema fatorial com 2 fatores α e γ mas pode ser estendido para os casos em que há mais fatores incluindo os fatores isolados e as interações duplas triplas e outras entre os fatores ijk ik k i j ijk e ì y β α γ αγ em que yijk é o valor observado referente a parcela que recebeu o iésimo nível do fator α e o késimo nível do fator γ no jésimo bloco µ representa uma constante geral βj representa o efeito do jésimo bloco αi representa o efeito do iésimo nível do fator α γ representa o efeito do késimo nível do fator γ αγik representa a interação entre o efeito do iésimo nível do fator α e o efeito do do késimo nível do fator γ e eijk representa o erro experimental associado à observação yijk suposto ter distribuição normal com média zero e variância comum 555 Exemplo de fatorial Em um experimento em blocos casualizados com 4 repetições no esquema fatorial 2x3 foi avaliado o efeito de 2 variedades de cana deaçúcar V1 e V2 e 3 tipos de inoculantes I1 I2 e I3 quanto ao 67 38 55 Experimentos fatoriais 551 Características Em alguns experimentos o pesquisador avalia dois ou mais tipos de tratamentos e deseja verificar se há interação entre estes tipos Tais experimentos são denominados experimentos fatoriais e os tipos de tratamentos são denominados fatores As categorias subdivisões de cada fator são ditas níveis do fator Como exemplo considere um experimento em que se comparou o efeito de 3 estirpes de rizóbio BR 9001 BR 9004 e BR 4812 e o efeito de um determinado fungo presença e ausência do fungo na variável número de nódulos produzido pelo feijão Neste caso existem dois fatores estirpe de rizóbio e a ocorrência do fungo Os níveis do fator estirpe são 3 BR 9001 BR 9004 e BR 48122 e do fungo são 2 presença e ausência Costumase representar o fatorial pela multiplicação dos níveis No exemplo anterior o fatorial é 3x2 fatorial 3 por 2 assim fica claro que existem dois fatores o primeiro fator com 3 níveis de estirpe e o segundo com 2 níveis de fungo O número total de tratamentos avaliados também é dado pela multiplicação dos níveis ou seja no exemplo são avaliados 3x2 6 tratamentos avaliados 1 BR 9001 na presença do fungo 2 BR 9004 na presença do fungo 3 BR 4812 na presença do fungo 4 BR 9001 na ausência do fungo 5 BR 9004 na ausência do fungo 6 BR 4812 na ausência do fungo Se fossem por exemplo 3 fatores com 5 2 e 3 níveis para cada fator respectivamente a representação seria fatorial 5x2x3 sendo avaliado um total de 30 tratamentos e assim por diante Vale lembrar que os experimentos fatoriais não são delineamentos e sim um esquema de desdobramento de graus de liberdade de tratamentos e podem ser instalado em qualquer dos delineamentos experimentais DIC DBC etc Banzatto Kronka 1989 552 Vantagens Permite estudar os efeitos principais dos fatores e os efeitos das interações entre eles 5 y 4 y 1082263 819 819 367 5 y 4 y 5 y 3 y 1082869 213 213 367 5 y 3 y 5 y 2 y 1082878 204 204 367 5 y 2 y 5 y 1 y 1082955 127 127 367 5 y 1 y 1y 4 y 955263 692 692 367 1y 4 y 1y 3 y 955869 86 86 367 1y 3 y 1y 2 y 955878 77 77 367 1y 2 y 2 y 4 y 878263 615 615 367 2 y 4 y 2 y 3 y 878869 09 09 367 2 y 3 y 3 y 4 y 869263 606 606 367 3 y 4 y iv Coloque letras iguais para médias semelhantes e letras distintas para médias que diferem entre si e interprete o teste 5 y 1082 a 1y 955 b 2 y 878 c 3 y 869 c 4 y 263 d A linhagem 5 foi a que apresentou maior porcentagem de absorção de água diferindo das demais linhagens Prob 005 43 Teste de Tukey A diferença mínima significante DMS entre duas médias pelo teste de Tukey é dada por 39 66 r q QME DMS em que q é um valor tabelado o qual corresponde o valor obtido da combinação entre o número de tratamentos I e o grau de liberdade do erro GLE da análise de variância para um nível de significância estabelecido α O QME e r já foram descritos no teste t A interpretação é a mesma do teste t ou seja quando o valor absoluto da diferença entre duas médias for igual ou maior que a DMS as médias podem ser consideradas estatisticamente diferentes Exemplo 15 Compare as médias dos tratamentos do Exemplo14 pelo teste de Tukey i q para α005 I 5 tratamentos e GLE 10 q 465 ii 3 4 08 4 65 DMS 542 iii 5 y 4 y 819 542 5 y 4 y 5 y 3 y 213 542 5 y 3 y 5 y 2 y 204 542 5 y 2 y 5 y 1 y 127 542 5 y 1 y 1y 4 y 692 542 1y 4 y 1y 3 y 86 542 1y 3 y 1y 2 y 77 542 1y 2 y 2 y 4 y 615 542 2 y 4 y 2 y 3 y 09 542 2 y 3 y 3 y 4 y 606 542 3 y 4 y SQ Bloco 704603205 215 0 218 8 249 0 250 7 4 253 6 1 2 2 2 2 2 SQ Bloco 708157225 704603205 3554020 SQ Tratamento 704603205 259 6 291 6 343 8 5 2911 1 2 2 2 2 SQ Tratamento 711887140 704603205 7283935 SQ Total 7282 5832 2742 3902 704603205 SQ Total 732090700 704603205 27487495 SQ Erro 27487495 3554020 7283935 16649540 E o quadro de análise de variância para os dados do Exemplo 545 é FV GL SQ QM F ProbF Bloco 4 3554020 888505 0640 06441 Cobertura morta 3 7283935 2427978 1750 02100 Erro 12 16649540 1387462 Total 19 27487495 CV 1983 Média geral 594 Número de observações 20 Como Prob 005 para cobertura morta concluise que as quatro coberturas mortas tiveram influência semelhante no peso seco do brócolis Neste caso não há necessidade de aplicação de um teste de comparação múltipla Observação Se o valor de F para tratamento for significativo a determinado nível α de significância o pesquisador pode usar um teste de comparação múltipla para comparar as médias dos tratamentos caso este seja qualitativo dizse então que o teste usado é protegido caso contrário se F for não significativo o pesquisador poderá optar ou não pelo uso do teste e então dizse que o teste é não protegido 65 40 547 Esquema de análise de variância do DBC com fontes de variação e graus de liberdade Considerando a mesma representação da Tabela 5 porém aqui as repetições representam os blocos o quadro de análise de variância para os dados de um delineamento em blocos casualizados DBC é expresso de uma maneira geral por FV GL SQ QM F Bloco J1 C B I 1 J 1 j 2 j SQBlocoGLBloco QMBlocoQMErro Tratamento I1 C T J 1 I 1 i 2 i SQTratGLTrat QMTratQMErro Erro I1J1 SQTotal SQBloco SQTrat SQErroGLErro Total IJ1 C y JI 1 ji 2 ij CV y QMErro 100 JI y y JI 1 ji ij No exemplo 545 temse Delineamento DBC Tratamentos I 4 tipos de cobertura morta sorgo crotalária milheto e vegetação espontânea Repetições J 5 Variável a analisar peso seco gparcela Assim os valores das somas de quadrados para o exemplo 535 são iv 5 y 1082 a 1y 955 b 2 y 878 c 3 y 869 c 4 y 263 d 44 Teste de Duncan A diferença mínima significante DMS entre duas médias pelo teste de Duncan é dada por r QME z DMS n No teste de Duncan se estão envolvidos I tratamentos no estudo é necessário calcular I1 DMSs O que diferencia uma DMS da outra é o valor de zn que é um valor tabelado o qual corresponde ao valor obtido da combinação entre o número de médias ordenadas abrangidas na comparação n e o grau de liberdade do erro GLE da análise de variância ao nível de significância estabelecido α O QME e r já foram descritos nos testes anteriores Para realização deste teste devese também ordenar as médias em ordem decrescente e ir fazendo a diferença sempre entre a maior e menor média observando assim o número n de médias ordenadas abrangidas na comparação A interpretação é a mesma dos testes anteriores ou seja quando o valor absoluto da diferença entre duas médias for igual ou maior que a DMS as médias podem ser consideradas estatisticamente diferentes A única diferença é que na comparação entre duas médias devese considerar o valor de DMS correspondente ao n em questão Com o exemplo seguinte ficará mais fácil o entendimento 41 64 Exemplo 16 Compare as médias dos tratamentos do Exemplo 14 pelo teste de Duncan i Como no exemplo temse I5 médias de tratamentos é necessário calcular z5 z4 z3 e z2 ou seja é necessário o cálculo de zI z5 até z2 z5 para α005 n 5 e GLE 10 z5 3430 z4 para α005 n 4 e GLE 10 z4 3376 z3 para α005 n 3 e GLE 10 z3 3293 z2 para α005 n 2 e GLE 10 z2 3151 ii Calculase então as I1 4 DMSs 4 00 3 4 08 3 430 DMS5 3 94 3 4 08 3 376 DMS4 3 84 3 4 08 3 293 DMS3 3 67 3 4 08 3151 DMS2 iii Lembrando que as médias colocadas em ordem decrescente são 5 y 1082 1y 955 2 y 878 3 y 869 4 y 263 Tabela 6 Peso seco kgparcela de brócolis em um experimento em blocos casualizados DBC com 5 repetições em que foi avaliada a influência de 4 tipos de cobertura morta 1 sorgo 2 crotalária 3 milheto e 4 vegetação espontânea Rep Trat 1 2 3 4 Total 1 728 690 453 665 2536 2 583 641 609 674 2507 3 504 721 672 593 2490 4 516 736 662 274 2188 5 590 650 520 390 2150 Total 2921 3438 2916 2596 11871 Média 584 688 583 519 594 Correção C C 11871220 704603205 n n 45 20 546 Croqui de campo BL I 2 3 1 4 BL II 4 1 2 3 BL III 2 1 4 3 BL IV 3 2 1 4 BL V 1 4 3 2 A disposição dos tratamentos é realizada de forma aleatória dentro dos blocos 63 42 542 Vantagens Controla diferenças nas condições ambientais de um bloco para outro Leva a uma estimativa mais exata da variância residual 2 ˆσ uma vez que a variação ambiental entre blocos é isolada 543 Desvantagens Há uma redução no número de graus de liberdade do erro pois o DBC utiliza o princípio do controle local O número de tratamentos a ser utilizado é limitado pela exigência de homogeneidade dentro dos blocos não podendo ser muito elevado 544Modelo estatístico do DBC ij i j ij e t b ì y em que ij y representa a observação do iésimo tratamento no j ésimo bloco µ representa uma constante geral associada a esta variável aleatória bj representa o efeito do jésimo bloco ti representa o efeito do iésimo tratamento e eij representa o erro experimental associado a observação yij suposto ter distribuição normal com média zero e variância comum 545 Exemplo de DBC Estudouse a influência de 4 tipos de cobertura morta sorgo crotalária milheto e vegetação espontânea no peso seco de brócolis O experimento foi instalado em DBC com 5 repetições Os dados de peso seco estão dispostos na Tabela 6 a seguir E as diferenças entre elas duas a duas y5 y4 819 n 5 comparase 819 com a DMS5 819 400 5 y y4 y5 3 y 213 n 4 comparase 213 com a DMS4 213 394 5 y 3 y y5 y2 204 n 3 comparase 204 com a DMS3 204 384 5 y y2 y5 1 y 127 n 2 comparase 127 com a DMS2 127 367 5 y 1 y 1y y4 692 n 4 comparase 692 com a DMS4 692 394 1y y4 1y 3 y 86 n 3 comparase 86 com a DMS3 86 384 1y 3 y 1y y2 77 n 2 comparase 77 com a DMS2 77 367 1y y2 y2 y4 615 n 3 comparase 615 com a DMS3 615 384 y2 y4 y2 3 y 09 n 2 comparase 09 com a DMS2 09 367 y2 3 y 3 y y4 606 n 2 comparase 606 com a DMS2 606 367 3 y y4 iv Coloque letras iguais para médias semelhantes e letras distintas para médias que diferem entre si e interprete o teste 5 y 1082 a 1y 955 b 2 y 878 c 3 y 869 c 4 y 263 d 45 Teste de SNK Student Newman Keuls A diferença mínima significante DMS entre duas médias pelo teste de SNK é dada por 43 62 r QME q DMS n n O procedimento para a realização deste teste é bastante semelhante ao do teste de Duncan A diferença é que nas DMSs do SNK são usados os valores tabelados de qn ao invés de zn ou seja devese procurar o valor tabelado na Tabela de q ao nível de significância estebelecido α correspondente a combinação entre o número de médias abrangidas na comparação n e o grau de liberdade do erro GLE da análise de variância Exemplo 17 Compare as médias dos tratamentos do Exemplo 14 pelo teste de SNK i Como no exemplo temse I5 médias de tratamentos é necessário calcular q5 q4 q3 e q2 ou seja é necessário o cálculo de qI q5 até q2 q5 para α005 n 5 e GLE 10 q5 465 q4 para α005 n 4 e GLE 10 q4 433 q3 para α005 n 3 e GLE 10 q3 388 q2 para α005 n 2 e GLE 10 q2 315 ii Calculase então as I1 4 DMSs 5 42 3 4 08 4 65 DMS5 5 05 3 4 08 4 33 DMS4 4 52 3 4 08 3 88 DMS3 3 67 3 4 08 315 DMS2 E o quadro de análise de variância para os dados do Exemplo 535 é FV GL SQ QM F ProbF Variedades 3 130190330 43396776 5668 00056 Erro 20 153140178 7657009 Total 23 283330508 CV 1841 Média y 15031 Número de observações 24 Como Prob 005 valor fornecido por alguns programas computacionais de análise de variância concluise que há diferença estatística significativa entre as médias de peso seco da parte aérea das quatro variedades de canade açúcar Devese então aplicar algum dos testes de comparação múltipla nestas médias 54 Delineamento em Blocos Casualizados DBC 541 Características Os tratamentos são distribuídos aleatoriamente em blocos princípio do controle local de modo que haja maior uniformidade possível dentro de cada bloco O número de parcelas por bloco é igual ao número de tratamentos ou seja cada bloco deverá conter todos os tratamentos O DBC possui os três princípios básicos da experimentação casualização repetição e controle local e portanto as repetições são organizadas em blocos Normalmente é o delineamento mais utilizado em condições de campo A eficiência do DBC depende da uniformidade dentro de cada bloco podendo haver heterogeneidade entre blocos Os blocos podem ser instalados na forma quadrada retangular ou irregular desde que seja respeitada a uniformidade dentro do bloco 61 44 O quadro de análise de variância para os dados da Tabela 5 é FV GL SQ QM F Tratamento I1 C T J 1 I 1 i 2 i SQTratGLTrat QMTratQMErro Erro IJ1 SQTotal SQTrat SQErroGLErro Total IJ1 C y JI 1 ji 2 ij CV y QMErro 100 JI y y JI 1 ji ij No exemplo 535 temse Delineamento DIC Tratamentos I 4 variedades de canadeaçúcar A B C D Repetições J 6 Variável a analisar peso seco da parte aérea gparcela Assim os valores das somas de quadrados para o exemplo 535 são SQ Tratamento 54220725 92259 101187 100530 6 66759 1 2 2 2 2 09 SQ Tratamento 55522628389 5422072509 130190330 SQ Total 113832 133892 922592 153772 54220725 SQ Total 5705403017 5422072509 283330508 SQ Erro 283330508 130190330 153140178 iii Lembrando que as médias colocadas em ordem decrescente são 5 y 1082 1y 955 2 y 878 3 y 869 4 y 263 E as diferenças entre elas duas a duas y5 y4 819 n 5 comparase 819 com a DMS5 819 465 5 y y4 y5 3 y 213 n 4 comparase 213 com a DMS4 213 433 5 y 3 y y5 y2 204 n 3 comparase 204 com a DMS3 204 388 5 y y2 y5 1 y 127 n 2 comparase 127 com a DMS2 127 315 5 y 1 y 1y y4 692 n 4 comparase 692 com a DMS4 692 433 1y y4 1y 3 y 86 n 3 comparase 86 com a DMS3 86 388 1y 3 y 1y y2 77 n 2 comparase 77 com a DMS2 77 315 1y y2 y2 y4 615 n 3 comparase 615 com a DMS3 615 388 y2 y4 y2 3 y 09 n 2 comparase 09 com a DMS2 09 315 y2 3 y 3 y y4 606 n 2 comparase 606 com a DMS2 606 315 3 y y4 45 60 v Coloque letras iguais para médias semelhantes e letras distintas para médias que diferem entre si e interprete o teste 5 y 1082 a 1y 955 b 2 y 878 c 3 y 869 c 4 y 263 d 46 Teste de ScottKnott O procedimento de Scott e Knott 1974 utiliza a razão de verossimilhança para atestar a significância de que os n tratamentos podem ser divididos em dois grupos que maximizem a soma de quadrados entre grupos Ramalho et al 2000 Seja por exemplo 3 tratamentos A B e C O processo consiste em determinar uma partição em dois grupos que maximize a soma de quadrados Veja que nesse caso são possíveis 2n1 grupos isto é A vs B e C B vs A e C e C vs A e B Com um número pequeno de tratamentos como o do exemplo é fácil obter todos os grupos Contudo quando o número n de tratamentos é grande o número de grupos cresce exponencialmente dificultando a aplicação do teste Para atenuar esse problema basta ordenar as médias dos tratamentos Nessa situação o número de partições possíveis passa a ser obtido por n1 Uma vez ordenada as médias procede se do seguinte modo fazendo inicialmente o número de tratamentos envolvidos no grupo de médias consideradog igual ao o número total de tratamentos n i Determinar a partição entre dois grupos que maximiza a soma de quadrados SQ entre grupos Seja T1 e T2 os totais A disposição das repetições de cada tratamento é realizada de forma totalmente aleatória às parcelas 537 Esquema de análise de variância do DIC com fontes de variação e graus de liberdade Imagine um experimento com I tratamentos e cada tratamento com J repetições representado na Tabela a seguir Tabela 5 Representação esquemática dos dados de um delineamento inteiramente casualizado Rep Trat 1 2 3 L I 1 y11 y21 y31 L yi1 2 y12 y22 y32 L yi2 3 y13 y23 y33 L yi3 M M M M M M J y1J y2j y3j L yij Total T1 T2 T3 L TI I i 1 ij I i 1 i y T Média y1 y2 y3 L Iy JI y y JI 1 ji ij Correção C JI y c 2 JI 1 ji ij n nIJ 59 46 535 Exemplo de DIC Suponha que foi avaliado o peso seco da parte aérea gparcela de 4 variedades de canadeaçúcar O experimento foi instalado em casa de vegetação O delineamento foi o inteiramente casualizado com 6 repetições Cada parcela era constituída de 1 vaso com 3 plantas Os dados de peso estão dispostos na Tabela a seguir Tabela 4 Peso seco da parte aérea gparcela de 4 variedades de canadeaçúcar A B C e D em um delineamento inteiramente casualizado com 6 repetições Rep Trat A B C D 1 11383 17494 21339 16676 2 13389 16876 8669 13117 3 9615 15635 15765 17788 4 10122 14489 17444 12123 5 9516 18157 18700 18094 6 12734 17879 19270 14461 Total 66759 100530 101187 92259 360735 total geral Média 11127 16755 16865 15377 15031 média geral Correção C C 360735224 5422072509 n n 46 24 536 Croqui de campo C A B B D D C A C A D B B C B A C A D B A C D D dos dois grupos com k1 e k2 tratamentos em cada um a soma de quadrados Bo é estimada por 2 1 2 2 1 2 2 2 1 2 1 o k k T T k T k T B 1 k i 1 i 1 y T e g 1 i k i 2 1 y T em que iy é a média do tratamento da posição ordenada i Os dois grupos deverão ser identificados por meio da inspeção das somas de quadrados das g1 partições possíveis sendo g o número de tratamentos envolvidos no grupo de médias considerado ii Determinar o valor da estatística λ 2 o Bo 2 2 σ π π λ em que 2 o σ é o estimador de máxima verossimilhança de 2 y σ dado por σ g 1 i 2 y 2 i 2 o sv y y v g 1 em que v é o grau de liberdade do erro associado a este estimador y é a média das médias dos g tratamentos e r QME s2 y é o estimador não viesado de 2 y σ sendo QME o quadrado médio do erro e r o número de repetições iii Se 2 2 g π λ χ α rejeitase a hipótese de que os dois grupos são idênticos em favor da hipótese alternativa de que os dois grupos diferem 2 2 g π χ α é um valor tabelado obtido na Tabela de 47 58 Quiquadrado encontrada em alguns livros de estatística correspondente a combinação entre o nível de significância estebelecido α e o valor dado por gπ2 iv No caso de rejeitar esta hipótese os dois subgrupos formados serão independentemente submetidos aos passos i a iii fazendo respectivamente gk1 e gk2 O processo em cada subgrupo se encerra ao se aceitar Ho no passo iii ou se cada subgrupo contiver apenas uma média Exemplo 18 Agora vamos aplicar o algoritmo do teste de Scott e Knott nas médias do Exemplo 14 em que o quadrado médio do erro foi de 408 com 10 graus de liberdade e as médias das 5 linhagens de feijão estimadas a partir de 3 repetições foram 4 y y 1 263 3 y y 2 869 2 y y 3 878 1y y 4 955 5 y y 5 1082 lembrando que iy é a média do tratamento da posição ordenada i com i 1 5 i SQ da partição 1 vs 2 3 4 e 5 5 108 2 95 5 87 8 86 9 26 3 4 108 2 95 5 87 8 86 9 1 26 3 B 2 2 2 o Bo 6916900 357966400 327564180 37319120 alternância das parcelas evitase uma possível vantagem de algum tratamento A instalação do DIC no campo experimental exige uma certa homogeneidade das condições ambientais como por exemplo quanto a fertilidade do solo distribuição uniforme de água etc 532 Vantagens Possui grande flexibilidade quanto ao número de tratamentos e repetições sendo dependente entretanto da quantidade de material e área experimental disponíveis Podese ter DIC não balanceado ou seja com números de repetições diferentes entre tratamentos o que não leva a grandes alterações n a análise de variância mas os testes de comparações múltiplas passam a ser aproximados e não mais exatos O ideal é que os tratamentos sejam igualmente repetidos Considerando o mesmo número de parcelas e tratamentos avaliados é o delineamento que possibilita o maior grau de liberdade do erro 533 Desvantagens Exige homogeneidade das condições experimentais Se as condições não forem uniformes como se esperava antes da instalação do experimento toda variação exceto à devida a tratamentos irá para o erro aumentando sua estimativa e reduzindo portanto a precisão do experimento 534 Modelo estatístico do DIC ij i ij e t ì y em que ij y representa a observação do iésimo tratamento na j ésima repetição µ representa uma constante geral associada a esta variável aleatória ti representa o efeito do iésimo tratamento e eij representa o erro experimental associado a observação yij suposto ter distribuição normal com média zero e variância comum 57 48 524 Homogeneidade os erros devem apresentar variâncias comuns homogeneidade homocedasticidade de variâncias Estas pressuposições visam facilitar a interpretação dos resultados e testar a significância nos testes de hipóteses Na prática o que pode ocorrer é a validade aproximada e não exata de alguma s destas pressuposições neste caso o pesquisador não perderia tanto com a aproximação visto que os testes aplicados na análise de variância são robustos quanto a isto A homogeneidade de variância é que na maioria das vezes é necessária pois caso não seja verificada o teste F e de comparações múltiplas poderão ser alterados Quando alguma s das pressuposições da análise não se verificam existem alternativas que podem ser usadas entre elas a transformação de dados com a posterior análise de variância destes dados transformados ou a utilização dos recursos da estatística não paramétrica Feitas as considerações iniciais necessárias para o entendimento dos próximos assuntos iniciaremos agora os conceitos e exemplos dos delineamentos mais usuais 53 Delineamento Inteiramente Casualizado DIC 531 Características Os tratamentos são distribuídos nas parcelas de forma inteiramente casual aleatória O DIC possui apenas os princípios da casualização e da repetição não possuindo controle local e portanto as repetições não são organizadas em blocos Normalmente é mais utilizado em experimentos de laboratório experimentos em vasos ou bandejas em casa de vegetação onde há possibilidade de controle das condições ambientais Nos experimentos em casa de vegetação recomendase constantemente mudar as parcelas de posição para evitar diferenças ambientais devido a posição da parcela na casa de vegetação Com esta SQ da partição 1 e 2 vs 3 4 e 5 5 108 2 95 5 87 8 86 9 26 3 3 108 2 95 5 87 8 2 86 9 26 3 B 2 2 2 o Bo 64071200 283240833 327564180 19747853 SQ da partição 1 2 e 3 vs 4 e 5 5 108 2 95 5 87 8 86 9 26 3 2 108 2 95 5 3 87 8 86 9 26 3 B 2 2 2 o Bo 134670000 207468450 327564180 14574270 SQ da partição 1 2 3 e 4 vs 5 5 108 2 95 5 87 8 86 9 26 3 1 2 108 4 95 5 87 8 86 9 26 3 B 2 2 2 o Bo 219780625 117072400 327564180 9288845 A partição 1 vs 2 3 4 e 5 foi a que maximizou a soma de quadrados entre grupos Bo 37319120 ii Considerando g5 v10 e 8094 5 108 2 95 5 87 8 86 9 26 3 y temse σ 3 10 4 08 8094 108 2 8094 10 26 3 5 1 2 2 2 o 2691208 136000 15 40232120 1 2 o σ 2691208 37319120 2 2 π π λ 190806 49 56 O valor de 2 2 0 05 5 π χ 2 χ 0 05 4380 é 10089 Como λ 10089 rejeitase Ho ou seja dois grupos são formados ao nível de 5 o grupo 1 com apenas o tratamento linhagem 41 e o grupo 2 com os tratamentos 32 23 14 e 55 Devese então repetir o algoritmo apenas para os subgrupos que contém mais de um tratamento no caso apenas para o grupo 2 i SQ da partição 2 vs 3 4 e 5 4 108 2 95 5 87 8 86 9 3 108 2 95 5 87 8 1 86 9 B 2 2 2 o Bo 75516100 283240833 357966400 790533 SQ da partição 2 e 3 vs 4 e 5 4 108 2 95 5 87 8 86 9 2 108 2 95 5 2 87 8 86 9 B 2 2 2 o Bo 152600450 207468450 357966400 2102500 SQ da partição 2 3 e 4 vs 5 4 108 2 95 5 87 8 86 9 1 2 108 3 95 5 87 8 86 9 B 2 2 2 o Bo 243360133 117072400 357966400 2466133 A partição 2 3 e 4 vs 5 foi a que maximizou a soma de quadrados entre grupos Bo 2466133 seria possível realizar testes de hipóteses O uso de um número adequado de repetições possibilita uma boa estimativa do erro experimental melhorando as estimativas de interesse No entanto o número de repetições pode ser limitado por exemplo pelo número de tratamentos que serão comparados pela disponibilidade de material e de área experimental entre outros fatores 512 Casualização referese à distribuição aleatória dos tratamentos às parcelas de modo que todas as parcelas tenham a mesma chance de receber qualquer um dos tratamentos Com isso a casualização evita que determinado tratamento seja favorecido e garante que os erros sejam independentes Mead Curnow 1983 Alguns programas computacionais elaboram planilhas de campo já com os tratamentos aleatorizados como por exemplo o MSTAT SISVAR e outros 513 Controle local a idéia básica do controle local é a partição do conjunto total de parcelas em subconjuntos blocos que sejam os mais homogêneos possíveis Para Hinkelmann Kempthorne 1994 o princípio do controle local é o reconhecimento de padrões supostamente associados às parcelas Este princípio é utilizado para atenuar problemas de heterogeneidade ambiental por exemplo de solo de distribuição de água no caso de experimentos irrigados etc 52 Pressuposições básicas da análise de variância Para realização de uma análise de variância devese aceitar algumas pressuposições básicas 521 Aditividade os efeitos de tratamentos e erro devem ser aditivos 522 Independência os erros devem ser independentes ou seja a probabilidade de que o erro de uma observação qualquer tenha um determinado valor não deve depender dos valores dos outros erros 523 Normalidade os erros devem ser normalmente distribuídos 55 50 ii Teste de Tukey 2 QME r 1 r 1 q DMS i i iii Teste de Duncan 2 QME r 1 r 1 z DMS i i n iv Teste de SNK 2 QME r 1 r 1 q SNK i i n com ri e ir sendo o número de repetições do tratamento i e i respectivamente 5 Análise de variância A análise de variância ANAVA é um dos métodos para análise dos dados que visa decompor a variação total entre parcelas em fontes causas de variação devidas a efeitos principais dos fatores efeitos de interações entre fatores efeitos de aninhamento e resíduo erro Para facilitar o entendimento antes de partirmos para exemplos de análises de variância é necessário fazer alguns comentários sobre os princípios básicos da experimentação e também sobre as pressuposições da análise de variância 51 Princípios básicos da experimentação Os delineamentos experimentais clássicos são baseados nos três conceitos a seguir estabelecidos por Fisher 1935 511 Repetição referese ao número de parcelas que receberão um mesmo tratamento Os tratamentos devem ser repetidos possibilitando assim estimar o erro experimental sem o qual não ii Considerando g4 v10 e 9460 4 108 2 95 5 87 8 86 9 y temse σ 3 10 4 08 9460 108 2 9460 10 86 9 4 1 2 2 2 o 217786 136000 14 2913000 1 2 o σ 217786 2466133 2 2 π π λ 155810 O valor de 2 2 0 05 4 π χ 2 3 504 χ005 é 10253 Como λ 10253 rejeitase Ho ou seja dois grupos são formados ao nível de 5 o grupo 1 com os tratamentos linhagens 32 23 e 14 e o grupo 2 com apenas o tratamento 55 Devese então repetir o algoritmo apenas para o grupo 1 i SQ da partição 2 vs 3 e 4 3 95 5 87 8 86 9 2 95 5 87 8 1 86 9 B 2 2 2 o Bo 75516100 167994500 243360133 150417 SQ da partição 2 e 3 vs 4 3 95 5 87 8 86 9 1 5 95 2 87 8 86 9 B 2 2 2 o Bo 152600450 91202500 243360133 442817 A partição 2 e 3 vs 4 foi a que maximizou a soma de quadrados entre grupos Bo 442817 51 54 ii Considerando g3 v10 e 9007 3 95 5 87 8 86 9 y temse σ 3 10 4 08 9007 95 5 9007 87 8 9007 86 9 3 10 1 2 2 2 2 o 44836 136000 13446867 1 2 o σ 4 4836 442817 2 2 π π λ 135896 O valor de 2 2 0 05 3 π χ 2 χ 0 05 2628 é 7136 Como λ 7136 rejeita se Ho ou seja dois grupos são formados ao nível de 5 o grupo 1 com os tratamentos linhagens 32 23 e o grupo 2 com apenas o tratamento e 14 Devese então repetir novamente o algoritmo para o grupo 1 i SQ da partição 2 vs 3 2 87 8 86 9 1 8 87 1 86 9 B 2 2 2 o Bo 75516100 77088400 152600450 04050 Neste caso a partição 2 vs 3 por ser única foi a que maximizou a soma de quadrados entre grupos Bo 04050 ii Considerando g2 v10 e 8735 2 87 8 86 9 y temse σ 3 10 4 08 8735 87 8 8735 10 86 9 2 1 2 2 2 o 11671 136000 12 0 4050 1 2 o σ 11671 0 4050 2 2 π π λ 04775 O valor de 2 2 0 05 2 π χ 2 χ005 1 752 é 5458 Como λ 5458 aceita se Ho ou seja os dois grupos são idênticos ao nível de 5 formando um único grupo com os tratamentos linhagens 32 e 23 finalizando assim o algoritmo Colocando letras diferentes para médias distintas e letras iguais para médias semelhantes por meio do teste Scott e Knott temse então 4 y y 1 263 d 3 y y 2 869 c 2 y y 3 878 c 1y y 4 955 b 5 y y 5 1082 a Observações Nestes exemplos os resultados de todos os testes realizados foram iguais mas poderiam ter diferenciado entre um ou outro teste Quando o número de repetições é diferente entre os tratamentos as DMSs podem ser calculadas por i Teste t QME r 1 r 1 t DMS i i t 53 52
47
Estatística Experimental
IFTO
25
Estatística Experimental
IFTO
20
Estatística Experimental
IFTO
8
Estatística Experimental
IFTO
Texto de pré-visualização
Documentos ISSN 15178498 Novembro2003163 Agrobiologia Técnicas Experimentais aplicadas às Ciências Agrárias µ República Federativa do Brasil Luiz Inácio Lula da Silva Presidente Ministério da Agricultura Pecuária e Abastecimento Roberto Rodrigues Ministro Empresa Brasileira de Pesquisa Agropecuária Embrapa Conselho de Administração José Amauri Dimárzio Presidente Clayton Campanhola VicePresidente Alexandre Kalil Pires Dietrich Gerhard Quast Sérgio Fausto Urbano Campos Ribeiral Membros Diretoria Executiva da Embrapa Clayton Campanhola Diretor Presidente Gustavo Kauark Chianca Herbert Cavalcante de Lima Mariza Marilena T Luz Barbosa Diretores Executivos Embrapa Agrobiologia José Ivo Baldani Chefe Geral Eduardo Francia Carneiro Campello Chefe Adjunto de Pesquisa e Desenvolvimento Rosângela Straliotto Chefe Adjunto Administrativo Documentos 163 ISSN 15178498 Novembro2003 Empresa Brasileira de Pesquisa Agropecuária Centro Nacional de Pesquisa em Agrobiologia Ministério da Agricultura Pecuária e Abastecimento Técnicas Experimentais aplicadas às Ciências Agrárias Janaína Ribeiro Costa Seropédica RJ 2003 Exemplares desta publicação podem ser adquiridas na Embrapa Agrobiologia BR465 km 7 Caixa Postal 74505 23851970 SeropédicaRJ Brasil Telefone 0xx21 26821500 Fax 0xx21 26821230 Home page wwwcnpabembrapabr email saccnpabembrapabr Comitê Local de Publicações Eduardo F C Campello Presidente José Guilherme Marinho Guerra Maria Cristina Prata Neves Verônica Massena Reis Robert Michael Boddey Maria Elizabeth Fernandes Correia Dorimar dos Santos Felix Bibliotecária Expediente Revisor eou ad hoc Guilherme Montandon Chaer Normalização Bibliográfica Dorimar dos Santos Félix Editoração eletrônica Marta Maria Gonçalves Bahia 1ª impressão 2003 50 exemplares Embrapa 2003 COSTA J R Técnicas experimentais aplicadas às ciências agrárias Seropédica Embrapa Agrobiologia 2003 102 p Embrapa Agrobiologia Documentos 163 ISSN 15178498 1 Agricultura 2 Ciência agrária I Embrapa Centro Nacional de Pesquisa de Agrobiologia Seropédica RJ II Título III Série CDD 630 6 Referências Bibliográficas BANZATTO A D KRONKA S do N Experimentação agrícola Jaboticabal FUNEP 1989 249 p BEARZOTI E OLIVEIRA M S Estatística básica Lavras UFLA 1997 191 p FISHER R A The design of experiments Edinburgh Oliver and Boyd 1935 HINKELMANN K KEMPTHORNE O Design and analysis of experiments New York J Wiley 1994 631 p MEAD R CURNOW R N Statistical methods in agriculture and experimental biology New York Chapman and Hall 1983 335 p NOGUEIRA M C S Estatística experimental aplicada à experimentação agrícola Piracicaba USPESALQ 1997 250 p PIMENTEL GOMES F Curso de estatística experimental 13 ed Piracicaba NobelUSPESALQ 1990 468 p RAMALHO M A FERREIRA D F OLIVEIRA A C de A experimentação em genética e melhoramento de plantas Lavras UFLA 2000 326 p STEEL R G D TORRIE J H DICKEY D A Principles and procedures of statistics 3 ed New York McGrawHill 1997 666 p Autor Janaína Ribeiro Costa Pesquisadora da Embrapa Agrobiologia Email janainacnpabembrapabr 102 Obtenção da produção máxima de milho tonha Aqui cabe esclarecer que o sinal da estimativa do coeficiente 2 â determina se a variável dependente y no exemplo produção terá um valor máximo ou mínimo Se 2 â é negativo y terá um máximo caso contrário se 2 â for positivo y terá um mínimo No exemplo 5731 para obtenção da produção máxima de milho é necessário antes maximizar a função de regressão polinomial quadrática ou seja derivar esta equação e igualar a zero 2 i i i 000050X 00950X 88421 yˆ i i i 000100X 00950 0 dX dyˆ 0 000100X 00950 0 0 dX yˆ d i i i 95 000100 00950 Xi kgha Dose de adubo nitrogenado que levará a uma produção máxima Substituindo Xi 95 na equação de iyˆ obtémse a produção máxima de milho 2 i 00005095 0095095 88421 yˆ 2 i 00005095 0095095 88421 yˆ yˆ i 133546 tonha produção máxima de milho para dose de adubo nitrogenado de 95 kgha 101 10400 310 312 2 1 0 1 32 2378 1426 0375 1320 2275 P X 3 P X y bˆ 2 2 2 2 2 i 5 1 i 2 1 i i 5 i 1 1 1 04523 314 190 2 1 2 1 32 2378 1426 2375 1320 2275 P X 3 P X y bˆ 2 2 2 2 2 i 5 1 i 2 2 i i 5 i 1 2 2 Lembrando que P1Xi 2 30 X 30 60 X x i i i P2Xi 2 2 30 X 12 1 n x 2 i 2 i2 Portanto bˆ P X bˆ P X bˆ yˆ 1 2 2 1 1 1 0 i 2 2 30 X 0 4523 2 30 1 0400 X 118267 yˆ 2 i i i Resolvendo a equação acima temse 2 i 2 i 1 o i 2 i i i ∠X ∠X ∠yˆ 000050X 00950X 88421 yˆ Equação da Regressão Quadrática Os valores observados yi e estimados yˆ i para cada dose de adubo nitrogenado estão apresentados a seguir Xi yi iyˆ 0 275 88421 30 320 112421 60 375 127421 90 426 133421 120 378 130421 Apresentação A preocupação crescente da sociedade com a preservação e a conservação ambiental tem resultado na busca pelo setor produtivo de tecnologias para a implantação de sistemas de produção agrícola com enfoque ecológicos rentáveis e socialmente justos O enfoque agroecológico do empreendimento agrícola se orienta para o uso responsável dos recursos naturais solo água fauna flora energia e minerais Dentro desse cenário a Embrapa Agrobiologia orienta sua programação de PD para o avanço de conhecimento e desenvolvimento de soluções tecnológicas para uma agricultura sustentável A agricultura sustentável produtiva e ambientalmente equilibrada apoiase em práticas conservacionistas de preparo do solo rotações de culturas e consórcios no uso de adubação verde e de controle biológico de pragas bem como no emprego eficiente dos recursos naturais Inferese daí que os processos biológicos que ocorrem no sistema soloplanta efetivados por microrganismos e pequenos invertebrados constituem a base sobre a qual a agricultura agroecológica se sustenta O documento 1632003 atende uma demanda daqueles que atuam na pesquisa agropecuária principalmente estudantes e profissionais recém ingressados na área disponibilizando de forma objetiva e prática conceitos de estatística aplicados à experimentação em Ciências Agrárias Na verdade existem poucas publicações sobre o referido tema e este documento serve de roteiro para orientar aspectos básicos do planejamento da experimentação de campo e análise dos resultados obtidos 100 S U M Á R I O 1 Noções básicas de experimentação agrícola 7 2 Distribuição de freqüências 10 21 Definição 10 22 Freqüência 10 23 Natureza da distribuição 19 3 Estatísticas descritivas 20 31 Medidas de posição 20 32 Medidas de dispersão 23 33 Medidas de assimetria e curtose 27 4 Testes de comparações múltiplas 29 41 Contrastes ortogonais de médias 29 42 Teste t de Student 33 43 Teste de Tukey 39 44 Teste de Duncan 41 45 Teste de SNK Student Newman Keuls 43 46 Teste de ScottKnott 46 5 Análise de variância 54 51 Princípios básicos da experimentação 54 52 Pressuposições básicas da análise de variância 55 53 Delineamento Inteiramente Casualizado DIC 56 54 Delineamento em Blocos Casualizados DBC 61 55 Experimentos fatoriais 66 56 Experimentos em parcelas subdivididas 74 57 Análise de regressão 87 6 Referências Bibliográficas 102 FV GL SQ QM F ProbF Doses 4 453160 113290 13122 00005 Regressão Linear 1 324480 324480 37586 00000 Regressão Quadrática 1 85952 85952 9956 00100 Desvio 2 42728 21364 2475 01340 Erro 10 86333 08633 Total 14 CV 786 Média geral 1183 Número de observações 15 Observase no quadro anterior que tanto a regressão linear quanto a quadrática foram significativas ao nível de significância estabelecido de 5 Prob005 O coeficiente de determinação R2 para a regressão linear e quadrática foram respectivamente 716 453160100 324480 R 2 Linear 190 453160100 85952 R 2 Quadrática Apesar do R2 da regressão quadrática ter sido baixo 19 devese observar o valor de ProbF do Desvio Se este valor for maior que 005 indicando que o desvio foi não significativo devese portanto considerar a equação de regressão significativa de maior grau no caso a quadrática bˆ P X bˆ P X bˆ ˆ X ˆ X ˆ yˆ 1 2 2 1 1 1 0 2 2 1 0 i β β β em que 118267 15 4 177 x5 3 y y bˆ 5 i 1 i o 99 Para cada nível de X temse então Níveis Dose de adubo Totais yi das 3 repetições P1Xi P2Xi 1 0 275 2 2 2 30 320 1 1 3 60 375 0 2 4 90 426 1 1 5 120 378 2 2 Total 1774 As somas de quadrados SQs da regressão linear e quadrática são dadas por SQRegressão 1Linear P X 3 X y P i 5 1 i 2 1 2 i i 5 i 1 1 324480 310 97344 2 1 0 1 32 2378 0375 1426 1320 2275 2 2 2 2 2 2 SQRegressão 2 Quadrática P X 3 X y P i 5 1 i 2 2 2 i i 5 i 1 2 85952 314 361 2 1 2 1 32 2378 1426 2375 1320 2275 2 2 2 2 2 2 SQDesvio SQ Doses SQRegressão 1 SQRegressão 2 453160 324480 85952 42728 O quadro de análise de variância com o desdobramento dos graus de liberdade da fonte de variação doses em graus de liberdade devido a regressão polinomial está apresentado a seguir Técnicas Experimentais aplicadas às Ciências Agrárias Janaína Ribeiro Costa 1 Noções básicas de experimentação agrícola A Estatística Experimental é a ciência que tem como objetivo estudar experimentos ensaios englobando etapas como o planejamento execução coleta e análise dos dados experimentais e interpretação dos resultados obtidos Ela foi proposta inicialmente na área de ciências biológicas por Ronald A Fisher em 1919 Fisher propôs o uso da análise de variância ANAVA como ferramenta para análise e interpretação de dados A ANAVA permite a decomposição do grau de liberdade e da soma de quadrados total em somas de quadrados correspondentes às fontes de variação previamente definidas no planejamento do experimento A fase de planejamento do experimento merece considerável atenção por parte do pesquisador pois dela dependerá o sucesso da análise e interpretação dos resultados sendo portanto recomendável uma consulta a um estatístico antes da instalação do experimento O planejamento envolve etapas como a Formulação de hipóteses A hipótese estatística formulada é denominada hipótese de nulidade e é simbolizada por Ho Suponha que se deseja estudar qual estirpe de bactéria diazotrófica endofítica considerando por exemplo três estirpes diferentes proporcionará maior peso da parte área de canadeaçúcar No exemplo Ho seria não existem diferenças significativas entre os efeitos das estirpes ou seja qualquer diferença observada é devida a fatores não controlados Ho poderá ser aceita ou rejeitada caso seja rejeitada aceitaremos uma 07 98 hipótese denominada alternativa simbolizada por H1 que no exemplo seria os efeitos das estirpes diferem significativamente entre si ou as estirpes se comportam de modo diferente quanto ao peso da parte aérea b Escolha dos fatores e seus respectivos níveis Fatores ou tratamentos são aqueles que o pesquisador tem interesse em estudar o seu efeito sobre as variáveis respostas As subdivisões de um fator são os níveis dos mesmos Por exemplo se o interesse for planejar um experimento para se estudar o efeito de 6 tipos diferentes de rotações de cultura o fator em estudo é rotação e os níveis deste fator são os 6 tipos de rotação Em alguns casos como por exemplo nos experimentos fatoriais ou em parcelas subdivididas dois ou mais fatores são estudados Suponha que se deseja estudar o efeito de 2 variedades de cana de açúcar e 3 doses de nitrogênio neste caso se trata de um experimento em fatorial 2x3 em que se tem dois fatores variedade e dose de nitrogênio 2 níveis do fator variedade e 3 níveis do fator dose de nitrogênio Um fator pode ser classificado em b1 Qualitativo quando os níveis do fator são categorias atributos Por exemplo nome de variedades de cana de açúcar SP701143 e SP813250 métodos de extração de DNA Cullen Smalla Sebach origem de solos MG RJ BA SP etc b2 Quantitativo quando os níveis do fator são mensurações de valores reais Normalmente os níveis são valores numéricos acompanhados de uma unidade de medida Por exemplo dose de nitrogênio 0 25 e 50 Kgha concentrações de antibiótico 25 50 100 200 µgml etc c Escolha da parcela unidade experimental Parcela é a unidade experimental que receberá o tratamento A parcela pode assumir diferentes formas e tamanhos Por exemplo uma parcela poderá ser constituída por uma ou várias plantas um vaso contendo uma ou mais plantas uma placa de Petri com temse que P1Xi xi em que 30 60 X q X X x i i i com i 1 2 5 Portanto 2 30 60 0 0 P X 1 1 1 30 60 30 30 P X 2 1 0 30 60 60 60 P X 3 1 1 30 60 90 90 P X 4 1 2 30 60 120 120 P X 5 1 e temse que P2Xi 2 X P 12 1 X 5 P 12 1 n x 2 i 1 2 2 i 1 2 i2 com i 1 2 5 Portanto 2 2 2 0 P X 2 1 2 1 2 1 30 P X 2 2 2 2 2 0 60 P X 2 3 2 1 2 1 90 P X 2 4 2 2 2 2 120 P X 2 5 2 97 08 A análise de variância para os dados do exemplo 5731 é FV GL SQ QM F ProbF Doses 4 453160 113290 13122 00005 Erro 10 86333 08633 Total 14 Rejeitase Ho concluindose pela existência do efeito de doses crescentes de adubo nitrogenado sobre a produção do milho Prob 005 Considerando o modelo de regressão polinomial de 2O grau a seguir foi realizada a análise de regressão i 2 i 2 i 1 o i å â X â X â y reescrevendo este modelo pela expressão alternativa yi bo b1P1Xi b2P2Xi εi i 1 2 5 As hipóteses testadas no modelo de regressão adotado são i Ho b1 0 vs H1 b1 0 ii Ho b2 0 vs H1 b2 0 Para obtenção das somas de quadrados das regressões linear e quadrática é necessário antes calcular os coeficientes dos polinômios P1Xi e P2Xi Seja 60 120 90 60 30 5 0 1 X n 1 X n i 1 i q 30 correspondendo a 300 ou 6030 ou 9060 ou 12090 determinado meio de cultura uma área com várias plantas um animal etc d Escolha do delineamento experimental Delineamento experimental é o plano de distribuição dos tratamentos na área experimental Como exemplo de delineamentos temse o delineamento inteiramente casualizado DIC o delineamento em blocos casualizados DBC o delineamento em quadrados latinos DQL os delineamentos em blocos incompletos por exemplo os látices blocos aumentados etc e Escolha das variáveis a serem analisadas Variáveis respostas ou variáveis dependentes ou simplesmente variáveis são características obtidas em cada parcela Os dados observações são realizações de uma variável e serão analisados para verificar se há diferença entre os níveis dos fatores tratamentos Assim exemplos de variáveis são produção de grãos de feijão altura de plantas de milho pH teor de Ca Mg e P em amostras de solo número de plantas de canadeaçúcar atacadas por cercosporiose etc Uma variável também pode ser classificada semelhantemente aos fatores tratamentos em e1 Qualitativa e11 Nominal quando são categorias atributos sem uma ordenação natural Por exemplo cor dos grãos do feijoeiro marrom preto branco textura do solo arenoso argiloso silte etc e12 Ordinal quando são atributos com uma ordenação natural Por exemplo suscetibilidade do cafeeiro à ferrugem alta média baixa nota para o ataque de cercosporiose em canadeaçúcar escala de 1 para ausência da doença até 9 para o máximo de doença etc e2 Quantitativa e21 Discretas quando são contagens de números inteiros positivos com uma ordenação natural Por exemplo número de 09 96 chuvas em 2002 superior a 80 mmh ex 20 chuvas número de plantas atacadas com a broca do fruto do cafeeiro ex 200 plantas número de minhocas encontradas em determinada amostra de solo ex 50 minhocas e22 Contínuas quando são mensurações de valores reais normalmente existe uma unidade de medida acompanhando a variável Por exemplo produtividade 1000 kgha renda R205073mês altura 25 m diâmetro 818 cm peso 985 g pH 55 teor de P Ca Mg K matéria orgânica etc f Análise dos dados obtidos com o experimento 2 Distribuição de freqüências 21 Definição Consiste em uma função que associa os valores que uma variável assume com suas freqüências de ocorrência podendo ser elas absolutas relativas ou porcentuais 22 Freqüência É uma medida que quantifica a ocorrência dos valores de uma variável 221 Freqüência absoluta fa é o número de observações ocorridos em cada classe da variável estudada 222 Freqüência relativa fr é dada pela divisão da fa pelo número total n de dados ou observações n fr fa 223 Freqüência porcentual fp é dada pela multiplicação de fr por 100 fr100 fp P X r P X y ok SQRegressã i n 1 i 2 k 2 i i n i 1 k associada a 1 grau de liberdade O coeficiente de determinação R2 em experimentos com repetição é dado por SQTratamen to 100 SQ Regressão k R 2 0 R2 100 5731 Exemplo de análise de regressão em dados com repetição modelos de regressão polinomial Um experimento foi instalado conforme o delineamento inteiramente casualizado com três repetições para testar o efeito de 5 doses de adubo nitrogenado 0 30 60 90 e 120 kgha Os resultados obtidos em tonha de milho são RepDoses 0 30 60 90 120 1 86 105 125 126 137 2 95 100 128 151 128 3 94 115 122 149 113 Total 275 320 375 426 378 O modelo do exemplo anterior adotado foi ij i ij d y ε µ i 1 2 5 e j 1 2 3 em que yij é o valor observado referente a iésima dose de adubo nitrogenado na jésima repetição di é a iésima dose de adubo nitrogenado e εij é o erro experimental associado a yij com εi N 0 σ2 e independentes As hipóteses testadas na análise de variância são Ho d1 d2 dn 0 i1 2 n H1 pelo menos um di difere de 0 10 95 P2Xi 12 1 n x 2 i2 P3Xi i 2 3 i x 20 7 3n x P4Xi 560 9 1n 3n x 14 13 3n x 2 2 2 i 2 i4 P5Xi i 2 4 3 i 2 5 i x 1008 407 230n 15n x 18 7 5n x em que Xi são os níveis da variável independente n i 1 Xi n 1 X é a média dos níveis de X q é amplitude entre dois níveis consecutivos de X n é o número de níveis da variável independente X O estimador de quadrados mínimos de bk é dado por P X r P X y bˆ i n 1 i 2 k i i n i 1 k k em que PkXi são os coeficientes do polinômio ortogonal de grau k associado ao nível do fator yi é o total do nível i da variável dependente y r é o número de repetições A hipótese de nulidade é Ho bk 0 e a hipótese alternativa é H1 bk 0 A soma de quadrados da regressão de grau k na análise de variância é dada por Exemplo 1 No quadro a seguir está disposta a atividade agrícola predominante em cada uma das 20 propriedades rurais do município Vida Alegre Milho Soja Olericultura Leite Soja Soja Milho Milho Leite Canadeaçúcar Trigo Milho Milho Leite Soja Trigo Milho Laranja Milho Olericultura A variável em estudo atividade agrícola é classificada como qualitativa nominal Uma maneira mais informativa de descrever o conjunto de dados do Exemplo 1 é através da distribuição de freqüências das categorias desta variável podendo ser feita por meio de representação tabular ou gráfica a Representação tabular Tabela 1 Distribuição de freqüência das atividades agrícolas de 20 propriedades rurais do município de Vida Alegre Atividade predominante fa fr fp Milho 7 03500 350 Soja 4 02000 200 Leite 3 01500 150 Trigo 2 01000 100 Olericultura 2 01000 100 Canadeaçúcar 1 00500 50 Laranja 1 00500 50 Total 20 10000 1000 Fonte Apostila de Estatística Básica Bearzoti Oliveira 1997 11 94 b Representação gráfica Gráfico é uma figura para ilustração de fenômenos ou tendências onde existem escalas definidas Para a representação gráfica de variáveis qualitativas como é o caso do Exemplo 1 os gráficos mais utilizados são Gráfico de linhas possui dois eixos com fa ou fr ou fp disposta no eixo vertical e as classes categorias da variável dispostas no eixo horizontal 0 01 02 03 04 Milho Soja Leite Trigo Oleric Cana Laranja Atividade fr Figura 1 Gráfico de linhas representando a distribuição de freqüência relativa referente à atividade agrícola predominante em propriedades do município de Vida Alegre Análise de regressão em dados com repetição modelos de regressão polinomial O modelo de regressão polinomial de grau p para uma única variável independente é representado por i p i p 3 i 3 2 i 2 i 1 o i å â X â X â X â X â y i com i 1 2 n εi N0 σ2 independentes β0 β1 βn são parâmetros da regressão a serem estimados Considerando n pares de dados y1 X1 y2 X2 yn Xn em que np e que os níveis referentes a variável X são todos eqüidistantes ou seja X1X1 X2X1q X3X2q XnXn1q o modelo em i pode ser reescrito como Yi bo b1P1Xi b2P2Xi bpPpXi εi com i 1 2 n εi N0 σ2 independentes b0 b1 bn são parâmetros da regressão a serem estimados e PkXi sendo um polinômio ortogonal de ordem k 1 2 p que deve atender às seguintes restrições i P0Xi1 ii 0 P X i n i 1 k iii 0 P X P X i K i n i 1 k para k k iv 0 X P i n 1 i 2 k Os valores de PkXi k 1 2 p quando os níveis da variável X são eqüidistantes podem ser obtidos através das seguintes expressões P1Xi xi em que q X X x i i 12 93 i 1 o i bˆ X bˆ yˆ em que 10 325 55 15 10 10 32512577 55 1139 15 1 426 10 1388 bˆ 2 2 2 2 1 00073 20625000 150875 20625000 4087525 3936650 bˆ 1 estimativa de b1 14950 02373 12577 10 00073 325 10 12577 bˆ o estimativa de bo O modelo de regressão ajustado estimado é i i 0 0073X 1 4950 yˆ O R2 foi de 90 01255 100 01104 R 2 indicando que 90 da variação na densidade do solo é explicada pelo modelo de regressão utilizado No quadro a seguir para cada valor de Xi temse o valor observado o estimado e o desvio correspondente Xi yi valores observados iyˆ valores estimados yi iyˆ 10 1388 1422 0034 15 1426 1386 0040 20 1393 1349 0044 25 1341 1313 0029 30 126 1276 0016 35 116 1240 0080 40 1177 1203 0026 45 1153 1167 0014 50 114 1130 0010 55 1139 1094 0045 Total 12577 12577 0 Média 12577 12577 0 Gráfico de barras ou colunas semelhantes aos gráficos de linhas com a diferença que são usadas barras colunas ao invés de linhas 0 01 02 03 04 Milho Soja Leite Trigo Oleric Cana Laranja Atividade fr Figura 2 Gráfico de barras verticais representando a distribuição de freqüência relativa referente à atividade agrícola predominante em propriedades do município de Vida Alegre Setograma gráfico circular ou gráfico de setores gráfico circular no qual os setores correspondem as categorias com áreas proporcionais as freqüências de cada classe Para construção do setograma é necessário obter o ângulo referente ao setor de cada categoria por meio de uma regra de três Por exemplo para a atividade milho do Exemplo 1 temse a regra de três para as freqüências porcentuais dada por 100 360 o 35 X x 126 o E assim por diante são calculados os outros ângulos correspondentes aos setores das outras categorias que serão traçados no gráfico 13 92 Laranja Cana Olericultura Trigo Leite Soja Milho Figura 3 Setograma representando a distribuição de freqüência relativa referente à atividade agrícola predominante em propriedades do município de Vida Alegre Exemplo 2 O quadro seguinte apresenta o número de lagartas rosca encontradas em cada um dos 16 canteiros de um viveiro de mudas de eucalipto 1 1 3 5 4 2 4 4 3 1 2 1 5 0 0 4 A variável número de lagartas rosca é classificada como quantitativa discreta A distribuição de freqüências para variáveis quantitativas discretas são semelhantes à das variáveis qualitativas como no caso do Exemplo 1 com os valores inteiros que a variável assume podendo ser considerados como categorias ou classes naturais a Representação tabular Tabela 2 Distribuição de freqüência do número de lagartas rosca em canteiros de um viveiro de eucalipto No de lagartas rosca fa fr fp 0 2 01250 125 1 4 02500 250 2 2 01250 125 3 2 01250 125 4 4 02500 250 5 2 01250 125 Total 16 10000 1000 Fonte Notas de aula H1 b1 0 As somas de quadrados para o exemplo anterior foram SQRegressão 10 325 55 15 10 10 32512577 55 1139 15 1 426 1 388 10 2 2 2 2 2 SQRegressão 01104 20625000 150875 20625000 4087525 3936650 2 2 SQTotal 10 12577 1139 1 426 388 1 2 2 2 2 SQTotal 159436 158181 01255 SQDesvios 01255 01104 00151 O Quadro de análise de variância resultante é FV GL SQ QM F ProbF Regressão 1 01104 01104 58105 00001 Desvios 8 00151 00019 Total 9 01255 Da Tabela de F temse que F005 1 8 é 532 e como 58105 532 rejeitase Ho ao nível de 5 de significância Atualmente os programas computacionais apresentam uma coluna a mais no quadro de análise de variância correspondente a ProbF não havendo a necessidade de procurar o valor de F em Tabela Quando ProbF for menor que 005 significa que o teste F foi significativo ou seja o pesquisador poderá rejeitar Ho e aceitar H1 No exemplo concluise então que as densidades gcm3 em diferentes profundidades X cm podem ser explicadas por meio do seguinte modelo de regressão linear 91 14 SQDesvios SQRegessão SQTotal yˆ y 2 i n i 1 i associada a n 2 graus de liberdade A decisão de rejeitar Ho ao nível α de significância se dará se QMDesvios QM Regressão F Fα 1 n2 em que Fα 1 n2 é o valor tabelado obtido através da Tabela de F Snedecor para o nível α de significância 1 e n2 graus de liberdade O coeficiente de determinação R2 é a estatística dada por 100 SQTotal SQRegressão R 2 0 R2 100 O R2 procura quantificar a proporção da variação da variável y que é explicada pelo modelo de regressão Quanto mais próximo de 100 estiver R2 melhor a qualidade de ajuste do modelo de regressão aos dados 5721 Exemplo de análise de regressão em dados sem repetição Um estudo foi realizado sobre zonas de compactação em perfis de um solo obtendose os seguintes dados de densidade gcm3 em diferentes profundidades X cm Total X cm 10 15 20 25 30 35 40 45 50 55 325 y gcm3 1388 1426 1393 1341 1260 1160 1177 1153 1140 1139 12577 O modelo adotado foi yi b0 b1Xi εi i1 2 10 e εi N 0 σ2 E as hipóteses testadas foram Ho b1 0 A representação gráfica também é semelhante à do Exemplo 1 com os valores inteiros no eixo horizontal representando as classes da variável número de lagartas Exemplo 3 Considere os valores a seguir referentes ao diâmetro à altura do peito DAP em cm de 54 árvores de um talhão 107 172 212 229 242 259 288 328 361 124 176 216 233 244 261 295 336 375 138 188 218 235 244 261 302 342 381 146 192 222 238 246 268 309 345 390 161 205 223 239 248 275 313 347 397 168 209 228 242 255 281 320 355 412 A variável DAP é classificada como quantitativa contínua A distribuição de freqüências para variáveis quantitativas contínuas são diferentes daquelas discretas e das variáveis qualitativas Primeiramente para a realização de uma distribuição de freqüências de uma variável contínua os dados devem ser ordenados em ordem crescente para uma melhor manipulação dos mesmos Depois seguese a um algoritmo para a obtenção da distribuição de freqüências Neste algoritmo alguns passos são diferenciados se os dados são referentes a uma população ou a uma amostra i Para população escolher um número de classes k entre 5 e 20 Para amostra Tamanho da amostra n Número de classes k Até 100 n 100 5 log10 n ii Calcular a amplitude total A dos dados A MVO mvo 15 90 em que MVO é o maior valor observado e mvo é o menor valor observado iii Calcular a amplitude de classe c k x A c população ou 1 k x A c amostra em que x é a precisão de medida menor valor detectável pelo instrumento ou método de medição O valor de c deverá ser arredondado para o mesmo número de casas decimais dos dados iv Calcular o limite inferior da 1a classe LI1 2 x mvo LI1 população ou 2 c mvo LI1 amostra v Calcular o limite superior da 1a classe LS1 LS1 LI1 c LS1 além de limite superior da 1a classe também é o limite inferior da 2a classe LS1 LI2 LS2 LI2 c e assim sucessivamente até terminar as k classes vi Calcular as freqüências absolutas fa e opcionalmente as relativas fr e porcentuais fp de cada classe Aplicandose então o algoritmo nos dados do Exemplo 3 considerando que eles são referentes a uma população temse i Escolhese por exemplo k 10 classes ii A 412 107 305 iii 13 arredondando 3 06 10 10 30 5 c n 1 i 2 n i 1 i 2 i n 1 i n i 1 i i n i 1 i i 1 n X X n y X X y b A partir destes estimadores temse o modelo de regressão linear simples estimado ajustado i 1 o i bˆ X bˆ yˆ 572 Análise de regressão em dados sem repetição Seja a hipótese de nulidade em uma análise de regressão Ho b1 0 e a hipótese alternativa H1 b1 0 o esquema da análise de variância da regressão para se testar estas hipóteses é FV GL SQ QM F Regressão 1 SQRegressão SQRegressão1 QMRegressãoQMDesvios Desvios n2 SQDesvios SQDesvios n2 Total n1 SQTotal Em que as somas de quadrados SQs são dadas pelas seguintes expressões SQTotal n 1 i 2 n i 1 i 2 i 2 n i 1 i n y y y y associada a n1 graus de liberdade SQRegressão 2 n i 1 i y yˆ n 1 i 2 n i 1 i 2 i 2 n 1 i n i 1 i i n i 1 i i n X X n y X X y associada a 1 grau de liberdade 89 16 A princípio qualquer relação funcional entre um conjunto de variáveis regressoras e um conjunto de variáveis dependentes representada por y fX1 X2 Xk pode ser chamada de modelo de regressão sendo tal modelo fixo para determinado conjunto de dados Normalmente esta relação funcional é desconhecida e uma função alternativa pode ser usada para aproximar f como por exemplo os modelos polinomiais que estão incluídos entre os tipos de modelos de regressão linear simples e são amplamente utilizados Nogueira 1997 Um modelo de regressão linear é dito simples quando envolve somente uma variável regressora X Os exemplos anteriores a e c se enquadram em casos de regressão linear simples Já o exemplo b é típico de regressão linear múltipla pois envolve mais de uma variável regressora no caso duas O exemplo d é um caso de regresão linear múltipla multivariada múltipla pois apresenta 3 variáveis regressoras e multivariada pelas duas variáveis respostas y1 e y2 utilizadas Sejam n pares de dados de duas variáveis Xi yi com i 1 2 n Admitindo que a relação entre yi e Xi é uma reta temse o modelo de regressão linear simples yi b0 b1Xi εi em que εi é o erro experimental associado a observação yi b0 e b1 são parâmetros correspondentes ao coeficiente linear ou termo constante intercepto da reta e coeficiente angular ou de regressão respectivamente Os estimadores de quadrados mínimos de b0 e b1 são dados por b X y n X b n y b 1 n i 1 i 1 n i 1 i o Observação Note que como os dados têm apenas uma casa decimal após a vírgula o x é 01 se houvesse 2 casas após a vírgula x seria 001 e assim por diante iv 1065 2 10 10 7 LI1 v LS1 1065 31 1375 LI2 LS1 1375 LS2 1375 31 1685 e assim por diante a Representação tabular Tabela 3 Distribuição de freqüência do diâmetro à altura do peito DAP em cm de 54 árvores de um talhão Classes de DAP Ponto médio fa fr dfr fp 1065 1375 122 2 00370 00119 370 1375 1685 153 4 00741 00239 741 16851995 184 4 00741 00239 741 1995 2305 215 9 01667 00538 1667 2305 2615 246 14 02592 00836 2592 2615 2925 277 4 00741 00239 741 2925 3235 308 5 00926 00299 926 3235 3545 339 5 00926 00299 926 3545 3855 370 4 00741 00239 741 3855 4165 401 3 00555 00179 555 Total 54 10000 10000 Fonte Notas de aula b Representação gráfica Normalmente em gráficos de distribuição de freqüências de variáveis quantitativas contínuas usase no eixo vertical do gráfico a densidade de freqüência df de cada classe dada por 17 88 densidade de freqüência df amplitude da classe da classe freqüência Assim podese usar a densidade de freqüência absoluta dfa ou a relativa dfr ou ainda a porcentual dfp obtidas respectivamente por c dfa fa c dfr fr c dfp fp Na Tabela 3 foram apresentadas as dfrs com c31 O uso de df se torna importante nas situações onde as amplitudes de classes c são desiguais e também permite o cálculo de freqüências a partir de áreas do gráfico Mas se c é igual para todas as classes podese utilizar no eixo vertical do gráfico tanto freqüências como densidades de freqüência Visto o conceito de df os dois gráficos mais usais para distribuição de freqüências de variáveis contínuas são o histograma e o polígono de freqüência b1 Histograma é semelhante ao gráfico de barras com barras dispostas lado a lado e larguras iguais às amplitudes de classes 0 002 004 006 008 01 1065 1375 1685 1995 2305 2615 2925 3235 3545 3855 4165 DAP dfr Figura 4 Histograma de distribuição de freqüência relativa referente ao diâmetro à altura do peito DAP em cm de 54 árvores de um talhão Os resultados do teste de Tukey comparando as médias das Variedades para 1 e 2 linhas de irrigação está apresentado a seguir VariedadesLinhas 1 T 2 T T1 1780 c 1740 b T2 1910 bc 1910 ab T3 2050 ab 1980 a T4 2118 a 1740 b Médias seguidas de mesma letra não diferem entre si pelo teste de Tukey Prob 005 57 Análise de regressão 571 Características Na pesquisa agropecuária é freqüente o interesse no estudo de relações funcionais entre variáveis quantitativas como por exemplo a Estudar a resposta na produção de grãos y em função de doses X de nitrogênio aplicadas ao solo simbolizado por y fX b Estimar o volume de madeira y em árvores de um povoamento florestal sem ter que derrubálas através da medida de seus diâmetros X1 e alturas X2 simbolizado por y fX1 X2 c Expressar a curva de crescimento y de aves em função do tempo X simbolizado por y fX d Determinar como o número de brotos y1 e seu peso seco y2 são afetados pelas doses de meio de cultura MS X1 de sacarose X2 e pH X3 simbolizado por y1 y2 fX1 X2 X3 As variáveis ys dos exemplos anteriores que se deseja descrever são chamadas variáveis dependentes ou respostas e as variáveis Xs são denominadas independentes ou regressoras Na natureza certamente uma variável y que se deseja descrever é determinada por um conjunto de outras variáveis X1 X2 Xk 87 18 Variedade 2 Linha 1 T2T1 1910 4 76 4 Variedade 3 Linha 1 T3T1 2050 4 82 0 Variedade 4 Linha 1 T4T1 2118 4 84 7 Comparando Médias de T para 2 T Variedade 1 Linha 2 T1T2 1740 4 69 6 Variedade 2 Linha 2 T2T2 1910 4 76 4 Variedade 3 Linha 2 T3T2 1980 4 79 2 Variedade 4 Linha 2 T4T2 1740 4 69 6 Teste de Tukey r q QMErroMédio DMS sendo q para α005 I 4 tratamentos principais Variedades e GLErro Médio n 21 q 395 2 00 4 1 0207 3 95 DMS b2 Polígono de freqüência quando as amplitudes de classe c são iguais o polígono é obtido pela união dos pontos médios das classes nas alturas correspondentes às dfs O polígono deve ser unido no eixo horizontal nos pontos 2 LI1 c e 2 c LSk em que LSk é o limite superior da última classe k No Exemplo 3 os pontos de união ao eixo horizontal são 19 2 13 1065 e 43 2 2 13 4165 dfr 0 002 004 006 008 01 91 122 153 184 215 246 277 308 339 37 401 432 DAP Figura 5 Polígono de freqüência relativa referente ao diâmetro à altura do peito DAP em cm de 54 árvores de um talhão 23 Natureza da distribuição O objetivo da distribuição de freqüência é descrever o comportamento da variável A natureza desse comportamento pode ser simétrica assimétrica à direita ou à esquerda como pode ser visualizado na Figura 6 Adiante será visto como se quantifica a assimetria 19 86 i Simétrica ii iii Assimétrica à direita Assimétrica à esquerda Figura 6 Natureza da distribuição dos dados i simétrica ii assimétrica à direita ou iii assimétrica à esquerda 3 Estatísticas descritivas 31 Medidas de posição Definição é um número que descreve um conjunto de dados pela indicação da posição que o conjunto ocupa na escala de valores possíveis que a variável em questão pode assumir 311 Média X ou Me Me N X N i 1 i 16 2948 69 6 792 764 4 696 1 SQTT VariedadeLinha2 SQ 2 2 2 2 2 2 SQTT2 54494800 54316900 177900 Para certificar se o cálculo das somas de quadrados do desdobramento Variedades dentro de Linhas foi realizado corretamente basta verificar SQ T SQ T x T 2 1 SQ T T SQ T T 269635 179184 270919 177900 448819 448819 ok A análise de variância para o desdobramento TT é FV GL SQ QM F ProbF TT1 I1 41 3 270919 90306 8848 00005 TT2 I1 41 3 177900 59300 5810 00047 Erro Médio 21 10207 Da análise de variância anterior observase que houve diferença significativa entre efeitos de Variedades T no comprimento da banana tanto para 1 linha de irrigação quanto para 2 linhas de irrigação Prob 005 Podemos então utilizar por exemplo o teste de Tukey para comparar as médias de T Variedades para 1 T 1 linha de irrigação e também para 2 T 2 linhas de irrigação Médias Comparando Médias de T para 1 T do Quadro 3 podese obter Variedade 1 Linha 1 T T1 17 8 4 71 2 0 85 20 Linha 1 Variedade 4 2118 a Linha 2 Variedade 4 1740 b d Comparações entre médias de tratamentos principais dentro de cada nível de tratamento secundário médias de Variedades dentro de cada Linha TT Esta comparação envolve os dois erros por meio de um erro médio sendo portanto um pouco mais complicada que as demais K 1QMErrob K QMErro a QMErroMédio 10207 2 1 10403 10011 2 QMErroMédio O número de graus de liberdade n associado a este Erro Médio é calculado de modo aproximado pela fórmula de Satterthwaite GLErrob 1 QMErrob K GLErro a QMErro a 1QMErrob K QMErro a n 2 2 2 12 1 1 0403 2 9 1 0011 1 1 0403 1 0011 2 n 2 2 2 2067 21 arredondando Observação GLErro a n GLErro a GLErro b Do Quadro 3 obtémse 16 3143 84 7 82 0 76 4 4 712 1 SQ T T Variedade Linha 1 SQ 2 2 2 2 2 1 SQTT1 62011225 61740306 270919 Para o Exemplo 3 a média é 54 41 2 39 7 12 4 10 7 Me L 259 Propriedades da média i Somandose uma constante K a todos os dados a média Me também é acrescida de K K Mex K Mex ii Multiplicandose K a todos os dados a média também é multiplicada por K KMe Me x K iii A soma dos desvios dis em relação a média é zero di x i Me Exemplo 4 Para as N 3 observações xi a seguir os desvios di em relação a média são xi di 3 35 2 5 55 0 7 75 2 Média Me 5 N i 1 id 0 iv A média minimiza a soma dos quadrados dos desvios SQD ou seja o valor da SQD seria aumentada se colocássemos qualquer outro valor que não Me SQD 2 N i 1 i Me x 21 84 Observações A média é muito influenciada por valores discrepantes extremos Ela é a medida de posição mais utilizada 312 Mediana Md É o valor que é precedido e seguido pelo mesmo número de observações em um conjunto de dados ordenados Exemplo 5 Para as N 5 observações xi a seguir a mediana é x1 x2 x3 x4 x5 8 9 10 15 40 Md 10 este valor é precedido e seguido por duas observações Observação Se o número de observações N for par tomase a média dos dois valores centrais Exemplo 6 Para as N 4 observações xi a seguir a mediana é x1 x2 x3 x4 9 10 14 20 Md 12 2 14 10 Propriedades da mediana i Md xK Md x K ii Md xK KMd x iii A mediana é o valor que minimiza a soma dos módulos dos desvios x i a é mínima se a Mdx Observação A Md é uma medida de posição para medidas assimétricas Da análise de variância anterior observase que houve diferença significativa entre efeitos de Linhas T no comprimento da banana somente para a Variedade 4 Prob 005 Para as demais variedades T1T2 e T3 não houve diferenças significativas Prob 005 entre 1 e 2 linhas de irrigação no comprimento do fruto central da terceira penca de banana Podemos então utilizar por exemplo o teste de Tukey para comparar as médias de T 1 e 2 Linhas de irrigação para T4 Variedade 4 Médias Linha 1 Variedade 4 4 T1T 2118 4 84 7 Linha 2 Variedade 4 4 T2T 1740 4 69 6 Teste de Tukey r q QMErrob DMS sendo q para α005 K 2 tratamentos secundários Linhas e GLErro b 12 q 308 157 4 1 0403 3 08 DMS O contraste entre 1 T e 2 T para T4 é 3 78 2118 1740 T T yˆ 2 1 378 157 portanto 1 T 2 T para T4 Ou seja para Variedade 4 T4 1 linha de irrigação 1 T proporcionou significativamente maior comprimento cm do fruto central da terceira penca de banana do que 2 linhas de irrigação 2 T Colocando as letras do teste 83 22 SQTT1 24784000 24780800 03200 8 1528 764 4 764 1 SQT T Linha Variedade 2 SQ 2 2 2 2 SQTT2 29184800 29184800 00000 8 161 2 79 2 4 82 0 1 SQT T Variedade 3 SQLinha 2 2 2 3 T3 SQT 32491600 324818 09800 8 154 3 69 6 4 84 7 1 SQT T Variedade 4 SQLinha 2 2 2 4 T4 SQT 30045625 29760613 285012 Para certificar se o cálculo das somas de quadrados do desdobramento Linhas dentro de Variedades foi realizado corretamente basta verificar SQ T SQ T x T 4 3 2 1 SQ T T SQ T T SQ T T SQ T T 118828 179184 03200 00000 09800 285012 298012 298012 ok A análise de variância para o desdobramento T T é FV GL SQ QM F ProbF TT1 K1 21 1 03200 03200 0308 06347 TT2 K1 21 1 00000 00000 0000 09975 TT3 K1 21 1 09800 09800 0942 04341 TT4 K1 21 1 285012 285012 27397 00346 Erro b 12 124838 10403 313 Moda Mo É o valor mais freqüente no conjunto de dados Exemplo 7 Para as N 5 observações xi a seguir a moda é x1 x2 x3 x4 x5 8 9 9 12 18 Mo 9 valor mais freqüente apareceu duas vezes no conjunto de dados Propriedades da moda i Mo xK Mo x K ii Mo xK KMo x Observações A Mo também é uma medida de posição para medidas assimétricas Ela é ainda menos afetada por valores extremos do que a mediana Para variáveis contínuas onde é difícil encontrar um mesmo valor repetido duas ou mais vezes a moda é calculada de outra maneira através do denominado método de Czuber porém tal método não será discutido neste material 32 Medidas de dispersão Definição grandeza numérica que descreve a variabilidade em um conjunto de dados 321 Amplitude A A MVO mvo Tratase da diferença entre o maior valor observado MVO e o menor valor observado mvo como já foi visto anteriormente 23 82 Exemplo 8 Considere dois conjuntos de dados X e Y medidos em metro m Totais X 6 16 16 16 41 95 Y 6 11 21 31 41 110 A X 41 6 35 A Y 41 6 35 X e Y apresentam mesma amplitude A portanto o conjunto X apresenta claramente menor variabilidade maior uniformidade que o conjunto Y Observação A amplitude é muito influenciada por valores extremos uma vez que é calculada a partir deles Assim a medida que aumenta N aumenta a chance de encontrar valores extremos aumentando portanto a amplitude 322 Variância Var e Desvio padrão DP São medidas baseadas em todos os dados a partir dos desvios em relação a média Variância Var ou σ2 média dos quadrados dos desvios também chamada de quadrado médio cuja expressão é dada por N Me x 2 N i 1 i 2 σ população ou 1 n Me x ˆ 2 n i 1 i 2 σ amostra Ou ainda pelas expressões alternativas 2 N 1 i N i 1 i 2 i 2 N N x x σ população ou 2 n 1 i n i 1 i 2 i 2 1 n n x x ˆ σ amostra 1515 156 portanto 1T 2 T e assim continua as comparações entre as outras médias de variedades duas a duas b Comparações entre médias de tratamentos secundários médias de Linhas T Comparando a média de 1 T com a de 2 T pelo teste de Tukey do Quadro 3 podese obter 1964 x4 4 3 314 rI T T T1 1 e 1843 x4 4 8 294 rI T T T2 2 Ir q QMErrob DMS sendo q para α005 K 2 tratamentos secundários Linhas e GLErro b 12 q 308 0 78 44 1 0403 3 08 DMS O contraste entre 1 T e 2 T é 1 21 1843 1964 T T yˆ 2 1 121 078 portanto 1 T 2 T c Comparações entre médias de tratamentos secundários dentro de cada nível de tratamento principal médias de Linhas dentro de cada Variedade T T Do Quadro 3 obtémse 8 1408 696 4 712 1 SQ T T Linha Variedade1 SQ 2 2 2 1 81 24 Ti T e TTi total do tratamento principal i e do tratamento secundário i respectivamente iT e iT média do tratamento principal i e do tratamento secundário i respectivamente As comparações de médias que o pesquisador pode ter interesse em um experimento em parcelas subdivididas são as seguintes a Comparações entre médias de tratamentos principais médias de Variedades T Comparando por exemplo a média de T1 com a de T2 pelo teste de Tukey do Quadro 3 podese obter 17 6 x2 4 8 140 rK T T T1 1 e 191 x2 4 8 152 rK T T T2 2 r K q QMErro a DMS sendo q para α005 I 4 tratamentos principais Variedades e GLErro a 9 q 441 156 24 1 0011 4 41 DMS O contraste entre 1T e 2 T é 51 191 17 6 T T yˆ 2 1 Lembrando a interpretação do teste Tukey Se yˆ DMS as médias dos dois tratamentos em comparação podem ser consideradas estatisticamente diferentes Desvio padrão DP ou σ é a raiz quadrada da variância cuja expressão é dada por σ2 σ população ou ˆ 2 ˆ σ σ amostra Observações Quanto maior σ2 ou 2 ˆσ maior a variabilidade do conjunto de dados O DP tem a vantagem em relação a Var de possuir a mesma unidade dos dados por exemplo se a unidade de medida dos dados é kg a do DP também será kg enquanto que a da Var será kg2 facilitando assim a visualização do quanto em média os dados se desviam da média Para o Exemplo 8 temse VarX 13600 5 1805 2485 5 5 95 41 16 16 16 6 2 2 2 2 2 2 m2 VarY 16400 5 2420 3240 5 5 110 41 31 21 11 6 2 2 2 2 2 2 m2 DPX 136 1166 m DPY 164 1281 m Propriedades da variância e do desvio padrão i Somadose uma constante K a todos os dados a Var e o DP não se alteram Varx K Varx DPx K DPx ii Multiplicandose K a todos os dados a Var fica multiplicada por K2 e o DP por K VarxK K2Varx DP xK K DP x 25 80 iii O DP em relação a média é mínimo ao invés de qualquer outro valor devido ao fato da média ser o valor que torna mínima a soma de quadrados do desvio SQD 323 Coeficiente de Variação CV Me 100 DP CV O CV é uma medida relativa porcentual pois o desvio e a média possuem a mesma unidade Exemplo 9 Considere os pesos Kg de animais de dois rebanhos diferentes Rebanho A Rebanho B 70 490 90 510 80 480 100 500 Me 85 495 DP 1118 1118 É claro que pelos valores de pesos tratamse de rebanhos de idades diferentes Os rebanhos A e B possuem o mesmo DP porém é óbvio que diferenças de 5 kg por exemplo possuem um peso relativo muito maior no rebanho A do que no rebanho B Assim poderíamos afirmar que a variabilidade do rebanho A é maior do que a do rebanho B Isto pode ser comprovado pelos valores de CV dos dois rebanhos CV Rebanho A 1315 x 100 85 1118 CV Rebanho B 2 26 x 100 495 1118 FV GL SQ QM F ProbF Bloco 3 157535 52512 5245 00229 Variedades T 3 269635 89878 8978 00045 Erro a 9 90102 10011 Parcelas 15 517272 Linhas T 1 118828 118828 11422 00055 T x T 3 179184 59728 5741 00338 Erro b 12 124838 10403 Total 31 940122 CV a 526 CV b 537 Média geral y 190 Número de observações 32 Nos experimentos em parcelas subdivididas temse dois coeficientes de variação CV Para parcelas 5 26 100 19 0 1 0011 100 y QMErro a CV a Para subparcelas 5 37 100 19 0 1 0403 100 y QMErrob CVb Considere I número de tratamentos principais I 4 variedades K número de tratamentos secundários K 2 linhas de irrigação r número de blocos r 4 blocos 79 26 517272 116455650115938378 SQ Parcelas SQ Erro a SQ Parcelas SQ Blocos SQ Variedades SQ Erro a 517272 157535 269635 90102 É necessário também fazer um outro quadro auxiliar com a combinação entre os níveis dos dois fatores variedades e linhas de irrigação para o cálculo da soma de quadrados do tratamento da subparcela linhas de irrigação e da interação variedades x linha T x T Quadro 3 Quadro auxiliar com os totais de todas as repetições para cada combinação entre os níveis dos fatores T e T LinhasVariedades T1 T2 T3 T4 Totais T1 712 4 764 820 847 314316 T2 696 764 792 696 2948 Totais 14088 1528 1612 1543 6091 Do Quadro 3 é possível obter 2948 115938378 16 3143 1 SQLinhas 2 2 SQ Linhas 116057206 115938378 118828 SQ Variedades SQLinhas 696 C 696 4 712 1 SQ Variedadesx LinhasT x T 2 2 2 SQ Variedades x Linhas T x T 116506025 115938378 269635 118828 179184 SQ Erro b SQ Total SQ Parcela SQ Linhas SQ Variedades x Linhas SQ Erro b 940122 517272 118828 179184 124838 E o quadro de análise de variância para os dados do exemplo 565 conforme o esquema em parcela subdividida é Observação O CV por ser adimensional é útil na comparação entre conjuntos de dados com mesma unidade mas permite também a comparação da variabilidade entre conjuntos de dados referentes a diferentes características 33 Medidas de assimetria e curtose Em estatística freqüentemente é interessante saber se a população da qual a amostra foi coletada pode ser descrita por uma curva normal Isso pode ser verificado por meio das seguintes medidas 331 Coeficiente de assimetria As medida que quantifica o distanciamento de um conjunto de dados em relação à simetria O coeficiente As é dado por 3 3 2 2 3 d m d d m As sendo n x x m n 1 i 3 i 3 e d2 σ2 variância populacional ou 2 ˆσ variância amostral ão normal distribuiç 0indica uma simetriaamostra pode ser considerad a vinda de uma zero As 0indica uma assimetria à esquerda negativo As 0indica uma assimetria à direita As positivo As é Se Na Figura 6 pode ser visto a natureza do comportamento de uma variável se simétrica assimétrica à direita ou assimétrica à esquerda Observação Na prática os valores de As dificilmente serão zero podendo ser próximos de zero 332 Coeficiente de curtose K medida que quantifica o grau de achatamento da distribuição de freqüência de um conjunto de dados tendo a curva normal como referência O coeficiente K é dado por 27 78 4 4 2 2 4 d m d d m K sendo n x x m n 1 i 4 i 4 e d2 σ2 variância populacional ou 2 ˆσ variância amostral 3 indica uma distribuição semelhante a normal chamada mesocúrtica 3 indica uma distribuição achatada chamada platicúrtica 3 indica uma distribuição afiada chamada leptocúrtica K é Se Figura 7 Gráfico dos diferentes graus de achatamento relativos a uma distribuição de freqüência Exemplo 10 Seja as seguintes N 4 observações a média x e a variância d2destas observações dadas por x1 x2 x3 x4 x d2 2 15 16 17 125 3725 Considerando que a unidade de cálculo é a subparcela do Quadro de dados podemos tirar C 32 609 1 2 115938378 SQ Blocos 115938378 155 0 142 6 1551 8 156 4 1 2 2 2 2 SQ Blocos 116095913 115938378 157535 SQ Total 1902 1712 164 2 1862 115938378 SQ Total 116878500 115938378 940122 Para o cálculo da soma de quadrados de parcelas é necessário fazer um quadro auxiliar com os totais das parcelas Quadro 2 Quadro auxiliar com os totais das parcelas Tratamentos Repetições T1 T2 T3 T4 Totais 1 379 2 390 415 380 1564 8 2 347 378 422 404 1551 3 324 368 360 374 1426 4 358 392 415 385 1550 Totais 14088 1528 1612 1543 6091 Do Quadro 2 calculamos 1543 115938378 1612 1528 8 1408 1 SQVariedades 2 2 2 2 SQ Variedades 116208013 115938378 269635 385 11593837 374 347 2 379 1 SQ Parcelas 2 2 2 2 8 77 28 fruto central da terceira penca de banana estão dispostos na Tabela 8 a seguir Tabela 8 Comprimento cm do fruto central da terceira penca de banana para um experimento em blocos casualizados DBC com 4 repetições em esquema de parcela subdividida com 4 variedades de banana T1 T2 T3 e T4 nas parcelas e 2 linhas de irrigação 1 T 1 linha e 2 T 2 linhas nas subparcelas Tratamentos T1 T2 T3 T4 Repetições T1 T2 T1 T2 T1 T2 T1 2 T Totais 1 190 189 192 198 208 207 211 169 1564 2 171 176 195 183 209 213 227 177 1551 3 175 149 175 193 186 174 210 164 1426 4 176 182 202 190 217 198 199 186 1550 Totais 712 696 764 764 820 792 847 696 6091 566 Croqui de campo T2 T4 T1 T3 BL I T2 1 T T2 1 T 1 T T2 1 T 2 T T3 T1 T2 T4 BL II 1 T T2 T2 1 T 1 T T2 T2 1 T T4 T3 T1 T2 BL III 1 T T2 1 T T2 1 T T2 T2 1 T T1 T2 T3 T4 BL IV T2 1 T 1 T T2 T2 1 T 1 T 2 T 252 4 1008 4 12 5 17 12 5 16 12 5 15 12 5 2 m 3 3 3 3 3 3188563 4 25 12754 4 12 5 17 12 5 16 12 5 15 12 5 2 m 4 4 4 4 4 1108 d m 25 3725 37 252 As 3 3 As 0 Assimetria a esquerda 230 37253725 3188563 K K 3 Distribuição platicúrtica 4 Testes de comparações múltiplas 41 Contrastes ortogonais de médias Definição São combinações lineares dadas por Y1 a1m1 a2m2 anmn Y2 b1m1 b2m2 bnmn M YI1 c1m1 c2m2 cnmn sendo a soma dos coeficientes de cada contraste igual a zero 0 c b a n 1 i n i 1 i i n i 1 i L em que a1 b1 c1 an bn cn são os coeficientes dos contrastes m1 m2 mn são médias dos tratamentos 1 2 n Dois contrastes são ditos ortogonais quando há uma independência entre suas comparações ou melhor quando a variação de um contraste é independente da variação do outro A exigência para 29 76 que dois contrates sejam ortogonais é que a covariância Cov entre eles seja nula Cov i Y i Y 0 Seja 2 is a variância do tratamento i e ri o número de repetições do tratamento i a covariância entre dois contrastes é dada por uma das seguintes expressões Se 2 1s 2 2s 2 ns e r1 r2 rn CovY1 Y2 2 n n n n 2 2 2 2 2 2 1 1 1 1 2 i n i 1 i i i s r a b s r a b s r a b s r a b L Se 2 1s 2 2s 2 ns e r1 r2 rn CovY1 Y2 n n n 2 2 2 1 1 1 n i 1 i i i r a b r a b r a b r a b L Se 2 1s 2 2s 2 ns e r1 r2 rn CovY1 Y2 n n 2 2 1 1 n i 1 i i a b a b a b a b L A variância Var de um contraste Y é Var Y n i 1 i 2 i 2 r c s se 2 1s 2 2s 2 ns s2 ou Var Y 2 i n i 1 i 2 i s r c se 2 1s 2 2s 2 ns O erro padrão do contraste Y é sY VarY 563 Desvantagem Há uma redução do número de graus de liberdade do erro comparativamente ao esquema fatorial redução esta decorrente da existência de dois erros o erro a referente às parcelas e o erro b correspondente às subparcelas dentro das parcelas 564 Modelo estatístico do experimento em parcela subdividida O modelo a seguir corresponde a um modelo de um DBC em esquema de parcela subdividida ijk ik k ij i j ijk e ì y β α δ γ αγ em que yijk é o valor observado referente a parcela que recebeu o i ésimo nível do tratamento principal α e o késimo nível do tratamento secundário γ no jésimo bloco µ representa uma constante geral associada a esta variável aleatória βj é o efeito do j ésimo bloco αi é o efeito do iésimo nível do tratamento principal δij αβij é o efeito residual das parcelas caracterizado como componente do erro a γ é o efeito do késimo nível do tratamento secundário αγij é o efeito da interação do iésimo nível do tratamento principal α com o késimo nível do tratamento secundário γ e eijk representa o efeito residual das subparcelas caracterizado como componente do erro b Sobre as distribuições de δij e eijk podese considerar as seguintes pressuposições i δij N0 2 δ σ ii eijk N0 2 σ iii δij e eijk são não correlacionados 565 Exemplo de parcela subdividida Foi realizado um experimento em blocos casualizados com 4 repetições no esquema de parcelas subdivididas Os tratamentos das parcelas foram 4 variedades de banana T1 T2 T3 e T4 e os tratamentos das subparcelas foram uma e duas linhas de irrigação 1 T 1 linha e 2 T 2 linhas Os dados do comprimento cm do 75 30 56 Experimentos em parcelas subdivididas 561 Características O esquema experimental em parcelas subdivididas se caracteriza como sendo uma variação do experimento fatorial com dois fatores Steel et al 1997 A principal característica destes experimentos é que as parcelas são divididas em subparcelas Os tratamentos das parcelas são chamados de primários ou principais e são dispostos segundo um tipo qualquer de delineamento sendo os mais usados os delineamentos em blocos casualizados com o objetivo de procurar controlar a variabilidade que possa haver no material experimental Os tratamentos das subparcelas são chamados secundários e são dispostos aleatoriamente dentro de cada parcela Assim cada parcela funciona como um bloco para os tratamentos secundários Primeiro casualizamse os níveis do fator primário nas parcelas de cada bloco em seguida casualizamse os níveis do fator secundário nas subparcelas de cada parcela Pimentel Gomes 1990 e Hinkelmann Kempthorne 1994 dentre outros autores são unânimes em afirmar a maior precisão existente no teste de tratamentos secundários 562 Vantagens Os experimentos em parcelas subdivididas apresentam uma grande utilidade na pesquisa agropecuária além de outras diversas áreas Tais experimentos são úteis em situações como a quando os níveis de um dos fatores exigem grandes quantidades de material experimental por exemplo níveis de irrigação devendo ser casualizados nas parcelas b quando informações prévias asseguram que as diferenças entre os níveis de um dos fatores são maiores que as do outro fator c quando se deseja maior precisão para comparações entre níveis de um dos fatores d quando existe um fator de maior importância que deverá ser casualizado na subparcela e outro de importância secundária sendo este incluído para aumentar a extensão dos resultados e e nas situações práticas onde é difícil a instalação do experimento no esquema fatorial Observações Em um experimento com I tratamentos o número máximo de contrastes ortogonais possíveis é dado por I1 comparações Os contraste são formulados de acordo com o interesse do pesquisador Exemplo 11 Considere as médias de produtividade de grãos tha de 4 cultivares de milho 25 mˆ 1 33 mˆ 2 04 mˆ 3 09 mˆ 4 r1 r2 r3 r4 5 e 2 1s 2 2s 2 3s 2 4s 2s 019 i Escolher os I1 41 3 contrastes Y1 m1 m2 m3 m4 em que a11 a2 1 a3 1 a4 1 Y2 m1 m2 em que a11 a2 1 a3 0 a4 0 Y3 m3 m4 em que a1 0 a2 0 a3 1 a4 1 ii Verificar se o somatório dos coeficientes de cada contraste é igual a zero 0 1 1 0 0 c Y 0 0 0 1 1 b Y 0 1 1 1 1 a Y 4 i 1 i 3 4 i 1 i 2 4 i 1 i 1 31 74 iii Verificar se a covariância entre dois contrastes é igual a zero CoˆvYˆ Yˆ 2 1 10 10 1 1 11 a b 4 i 1 i i 0 CoˆvYˆ Yˆ 3 1 1 1 11 01 01 a c 4 i 1 i i 0 CoˆvYˆ Yˆ 3 2 1 0 10 10 01 b c 4 i 1 i i 0 iv Calcular a variância de cada contraste raˆ Yˆ V 1 n i 1 i 2 i 2 r a s 5 1 1 1 19 1 0 2 2 2 2 01520 raˆ Yˆ V 2 n i 1 i 2 i 2 r b s 5 0 0 1 19 1 0 2 2 2 2 00760 raˆ Yˆ V 3 n i 1 i 2 i 2 r c s 5 1 1 0 19 0 0 2 2 2 2 00760 v Calcular o erro padrão de cada contraste 0 3899 01520 raˆ Yˆ V s Yˆ 1 1 tha 0 2757 0 0760 V raˆ Yˆ s Yˆ 2 2 tha 0 2757 0 0760 raˆ Yˆ V s Yˆ 3 3 tha vi Calcular as estimativas destes contrastes 1 Yˆ 52 33 40 90 45 tha 2 Yˆ 52 33 19 tha 3 Yˆ 40 90 50 tha Aplicando o teste de ScottKnott para variedades dentro de cada nível de inoculante temse Variedade dentro do inoculante 1 Variedade Médias Resultado do teste 1 2314 b 2 3853 a A variedade 2 apresentou peso do colmo estatisticamente superior ao da variedade 1 quando foi utilizado o inoculante 1 Prob005 Variedade dentro do inoculante 2 Variedade Médias Resultado do teste 1 2090 b 2 3748 a A variedade 2 apresentou peso do colmo estatisticamente superior ao da variedade 1 quando foi utilizado o inoculante 2 Prob005 Variedade dentro do inoculante 3 Variedade Médias Resultado do teste 1 2443 b 2 3793 a A variedade 2 também apresentou peso do colmo estatisticamente superior ao da variedade 1 quando foi utilizado o inoculante 3 Prob005 73 32 Inoculante dentro da variedade 2 Inoculantes Médias Resultado do teste 1 3853 a 2 3748 a 3 3793 a Também não houve diferenças significativas Prob005 com relação ao peso do colmo entre os 3 inoculantes utilizados para a variedade 2 b Estudar o comportamento das variedades para cada inoculante Do Quadro 1 temse SQ Variedade I1 8 2466 4 1541 0 4 925 4 1 2 2 2 473704200 SQ Variedade I2 8 2334 8 1499 0 4 835 8 1 2 2 2 549792800 SQ Variedade I3 8 2494 2 1517 1 4 977 1 1 2 2 2 364500000 FV GL SQ QM F ProbF Variedade I1 1 473704200 473704200 25700 00001 Variedade I2 1 549792800 549792800 29828 00001 Variedade I3 1 364500000 364500000 19775 00005 Erro 15 276481067 18432071 Neste segundo desdobramento da interação variedade dentro de inoculante concluise que as duas variedades apresentaram pesos de colmos diferentes Prob005 para cada inoculante utilizado I1 ou I2 ou I3 vii Conclusões dos contrates a 2 mˆ mˆ 2 mˆ mˆ Yˆ 4 3 2 1 1 225 tha O contraste Y1 nos indica que o grupo das cultivares 1 e 2 produz em média 225 tha a menos que o grupo das cultivares 3 e 4 b 91 1 mˆ 1 mˆ Yˆ 2 1 2 tha O contraste Y2 nos indica que a cultivar 1 superou em média a produção da cultivar 2 em 19 tha c 05 1 mˆ 1 mˆ Yˆ 4 3 3 tha O contraste Y3 nos indica que a cultivar 3 produziu em média 50 tha a menos que a cultivar 4 42 Teste t de Student 421 Teste t para contrastes ortogonais Considerações O teste t pode ser usado para contrastes ortogonais sugeridos pela estrutura dos tratamentos De acordo com Banzatto Kronka 1989 devese escolher os contrastes antes de avaliar os dados ou se possível na fase de planejamento do experimento para evitar que sejam escolhidos contrastes correspondentes as maiores diferenças observadas entre médias o que aumentaria assim a probabilidade de erro tipo I α O α consiste no erro que se comete ao rejeitar Ho sendo que ela é verdadeira Dada uma hipótese de nulidade Ho e sua hipótese alternativa H1 dada por 33 72 Ho Y 0 ou seja as médias ou grupos de médias comparadas no contraste não diferem entre si H1 Y 0 ou seja pelo menos uma média difere das demais ou um grupo de médias difere de outro grupo A estatística t é calculada por s Yˆ 0 Yˆ Vˆ Yˆ 0 Yˆ t sendo Yˆ a estimativa do contraste de interesse e s Yˆ a estimativa do erro padrão do contraste A estatística t é comparada em valor absoluto com um valor tabelado tt procurandose na Tabela de t encontrada em livros de estatística o número de graus de liberdade GL associado a variância e o nível de significância α Se t tt aceitase a hipótese Ho e concluise que as médias ou os grupos de médias em comparação são iguais caso contrário se t tt rejeitase a hipótese Ho e concluise que as médias ou o grupo de médias em comparação são diferentes Exemplo 12 Aplicar o teste t nos contrates Y1 Y2 e Y3 do Exemplo 11 considerando que o GLErro da análise de variância é 16 Y1 m1 m2 m3 m4 1 Yˆ 45 tha s Yˆ 1 03899 tha Y2 m1 m2 2 Yˆ 19 tha s Yˆ 2 02757 tha Y3 m3 m4 3 Yˆ 5 tha s Yˆ 3 02757 tha Teste t para Y1 11541 0 3899 0 54 t cY 1 t Y 1 t para α005 e GL Erro16 t Y 1 t 212 variedades e inoculantes recomendase proceder o desdobramento da interação V x I para certificar tal informação O desdobramento no caso deste exemplo com dois fatores pode ser realizado das seguintes maneiras a Estudar o comportamento dos inoculantes para cada variedade Do Quadro 1 temse SQ Inoculante V1 12 2738 3 977 1 835 8 4 925 4 1 2 2 2 2 25555617 SQ Inoculante V2 12 4557 1 1517 1 1499 0 4 15410 1 2 2 2 2 2219017 FV GL SQ QM F ProbF Inoculante V1 2 25555617 12777808 0693 05110 Inoculante V2 2 2219017 1109508 0060 09427 Erro 15 276481067 18432071 Neste primeiro desdobramento da interação inoculante dentro de variedade concluise que tanto para variedade 1 quanto para a variedade 2 não há diferença significativa Prob005 no peso do colmo entre os três inoculantes aplicados Aplicando o teste de ScottKnott para inoculantes dentro de cada nível de variedade temse Inoculante dentro da variedade 1 Inoculantes Médias Resultado do teste 1 2314 a 2 2090 a 3 2443 a Realmente não houve diferenças significativas Prob005 com relação ao peso do colmo entre os 3 inoculantes utilizados para a variedade 1 71 34 SQ Variedades x Inoculantes 1406121900 1378347267 18124900 9649733 E o quadro de análise de variância para os dados do exemplo 555 conforme o esquema fatorial 3x2 é FV GL SQ QM F ProbF Bloco 3 38068083 12689361 0688 05730 Tratamentos 5 1406121900 281224380 15257 00000 Variedades V 1 1378347267 1378347267 74780 00000 Inoculantes I 2 18124900 9062450 0492 06211 V x I 2 9649733 4824867 0262 07731 Erro 15 276481067 18432071 Total 23 1720671050 CV 1412 Média geral 30398 Número de observações 24 Aplicando o teste de ScottKnott para variedades pois esta fonte de variação foi significativa Prob005 temse Variedades Médias Resultado do teste 1 2282 b 2 3798 a Aplicando o teste de ScottKnott para inoculantes apesar de seu efeito ter sido não significativo Prob005 temse Inoculantes Médias Resultado do teste 1 3083 a 2 2918 a 3 3118 a Embora a interação V x I não seja significativa Prob 005 indicando não haver uma dependência entre os efeitos dos fatores Como cY 1 t t Y 1 t 11541 212 rejeitase Ho Y1 0 e portanto m1 m2 m3 m4 os dois grupos de médias de cultivares diferem entre si ao nível de 5 de significância Teste t para Y2 6 892 0 2757 0 91 t cY 2 t Y 2 t para α005 e GL Erro16 t Y 2 t 212 Como cY 2 t t Y 2 t 6892 212 rejeitase Ho Y2 0 e portanto m1 m2 a média da cultivar 1 difere da cultivar 2 ao nível de 5 de significância Teste t para Y3 18136 0 2757 0 05 t cY 3 Y3 tt para α005 e GL Erro16 t Y 2 t 212 Como cY 3 t tt Y3 18136 212 rejeitase Ho Y3 0 e portanto m3 m4 a média da cultivar 3 difere da cultivar 4 ao nível de 5 de significância 422 Teste t para comparação de duas médias Passos para realização do teste i Definir a hipótese de nulidade Ho 1 y 2 y ii Estabelecer o nível de significância α iii Calcular a média de cada grupo iy iv Calcular a variância de cada grupo s 2 i 35 70 v Calcular a variância ponderada ps2 por meio da expressão 2 n n s1 n s1 n s 2 1 2 2 2 2 1 1 2 p vi Calcular a estatística t por meio da expressão 2 p 2 1 2 1 s n 1 n 1 y y t vii Encontrar o valor Tabelado de t tt procurando na Tabela de t o valor correspondente a combinação entre o nível de significância estabelecido α e o grau de liberdade GL dado por n1 n2 2 viii Concluir o resultado do teste Se t tt aceitase a hipótese Ho e concluise que as duas médias em comparação são iguais Se t tt rejeitase a hipótese Ho e concluise que as duas médias em comparação são diferentes Exemplo 13 Foi avaliado o volume estimado em m3ha de madeira produzida por 2 espécies de eucalipto Verifique se há diferença entre as médias das 2 espécies por meio do teste t Espécie Volume m3ha 1 24 1 26 1 29 1 32 1 38 2 60 2 63 2 71 SQ Bloco 22176192150 17318 1802 4 19417 6 1819 5 1 2 2 2 2 SQ Bloco 22214260233 22176192150 38068083 22176192150 1517 1 1499 0 1541 0 977 1 835 8 4 925 4 1 SQ Tratamento 2 2 2 2 2 SQ Tratamento 23582314050 22176192150 1406121900 SQ Total 23812 22362 2984 2 36382 22176192150 SQ Total 23896863200 22176192150 1720671050 SQ Erro 1720671050 38068083 1406121900 276481067 Devese montar um quadro auxiliar com os totais de todas as repetições para cada combinação entre os níveis dos fatores Quadro 1 Quadro auxiliar com os totais de todas as repetições para cada combinação entre os níveis dos fatores I1 I2 I3 Totais V1 9254 4 8358 9771 27383 12 V2 15410 14990 15171 45571 Totais 24664 8 23348 24942 72954 os valores dentro de parênteses correspondem ao número de parcelas que deu origem a cada total Do Quadro 1 obtémse SQ Variedades 22176192150 4557 1 12 2738 3 1 2 2 SQ Variedades 23554539417 22176192150 1378347267 SQ Inoculantes 22176192150 2494 2 2334 8 8 2466 4 1 2 2 2 SQ Inoculantes 22194317050 22176192150 18124900 SQ Variedades x Inoculantes SQ V I C SQ Variedades SQ Inoculantes 1378347267 18124900 22176192150 15171 4 925 4 1 SQVariedades x Inoculantes 2 2 L 69 36 peso do colmo tonha Os dados estão apresentados na Tabela 7 a seguir Tabela 7 Peso do colmo tonha para os 6 tratamentos de um experimento em blocos casualizados DBC com 4 repetições em esquema fatorial 2x3 Repetições Tratamentos 1 2 3 4 Totais 1 V1I1 2381 2560 2677 1636 9254 2 V1I2 2236 2170 1847 2105 8358 3 V1I3 2868 2058 2316 2529 9771 4 V2I1 3475 4039 3470 4426 15410 5 V2I2 3512 4525 3969 2984 14990 6 V2I3 3723 4065 3745 3638 15171 Totais 18195 19417 18024 17318 72954 556 Croqui de campo BL I 2 4 1 3 6 5 BL II 5 2 6 1 4 3 BL III 3 4 5 2 1 6 BL IV 6 1 3 4 5 2 Assim os valores das somas de quadrados para o exemplo 555 são C 24 7295 4 2 22176192150 i Hipótese de nulidade Ho 1 y 2 y ii α005 iii y1 2980 e y2 6467 iv 1s2 3020 e 3233 s 2 2 v 2 3 5 3 13233 13020 5 s 2 p 1 2 3091 vi 3 3091 1 5 1 6467 2980 t 1 2 8588 vii tt12 para α005 e GL 5 3 2 6 tt12 2447 viii Comparando a média da espécie 1 com a média da espécie 2 de eucalipto t12 tt12 8588 8588 2447 Rejeitase Ho Portanto 1 y 2 y a média da espécie 1 de eucalipto difere da média da espécie 2 de eucalipto ao nível de 5 de probabilidade 423 Teste t para comparação de duas médias em uma análise de variância A diferença mínima significante DMS ou LSDLeast Significant Difference entre duas médias pelo teste t de é dada por r 2 QME t DMS t em que tt é o valor de t tabelado o qual corresponde o valor obtido da combinação entre o nível de significância estabelecido α e o grau de liberdade do erro GLE da análise de variância na Tabela unilateral de t O QME é o quadrado médio do erro da análise de variância e r é o número de repetições de cada tratamento 37 68 Quando o valor absoluto da diferença entre duas médias for igual ou maior que a DMS as médias podem ser consideradas estatisticamente diferentes Exemplo 14 Foi realizada a análise de variância para os dados de porcentagem de absorção de água de 5 linhagens de feijão com 3 repetições por linhagem O valor do grau de liberdade do erro GLE foi 10 e o quadrado médio do erro QME foi 408 Compare as médias dos tratamentos a seguir pelo teste t 1y 955 2 y 878 3 y 869 4 y 263 5 y 1082 i tt para α005 e GLE 10 tt 2228 ii 3 2 228 2 4 08 DMS 367 iii Coloque as médias em ordem decrescente e faça a diferença entre elas duas a duas começando da diferença entre a maior e a menor média e assim por diante 5 y 1082 1y 955 2 y 878 3 y 869 4 y 263 553 Desvantagens como os tratamentos correspondem a todas as combinações possíveis entre os níveis dos fatores o número de tratamentos a ser avaliado pode aumentar muito não podendo ser distribuídos em blocos completos casualizados devido à exigência de homogeneidade das parcelas dentro de cada bloco Isto pode levar a complicações na análise sendo preciso lançar mão de algumas técnicas alternativas como por exemplo o uso de blocos incompletos A análise estatística e a interpretação dos resultados pode tornarse um pouco mais complicada que nos experimentos simples 554 Modelo estatístico do fatorial O modelo a seguir corresponde a um modelo de um delineamento em blocos casualizados DBC em esquema fatorial com 2 fatores α e γ mas pode ser estendido para os casos em que há mais fatores incluindo os fatores isolados e as interações duplas triplas e outras entre os fatores ijk ik k i j ijk e ì y β α γ αγ em que yijk é o valor observado referente a parcela que recebeu o iésimo nível do fator α e o késimo nível do fator γ no jésimo bloco µ representa uma constante geral βj representa o efeito do jésimo bloco αi representa o efeito do iésimo nível do fator α γ representa o efeito do késimo nível do fator γ αγik representa a interação entre o efeito do iésimo nível do fator α e o efeito do do késimo nível do fator γ e eijk representa o erro experimental associado à observação yijk suposto ter distribuição normal com média zero e variância comum 555 Exemplo de fatorial Em um experimento em blocos casualizados com 4 repetições no esquema fatorial 2x3 foi avaliado o efeito de 2 variedades de cana deaçúcar V1 e V2 e 3 tipos de inoculantes I1 I2 e I3 quanto ao 67 38 55 Experimentos fatoriais 551 Características Em alguns experimentos o pesquisador avalia dois ou mais tipos de tratamentos e deseja verificar se há interação entre estes tipos Tais experimentos são denominados experimentos fatoriais e os tipos de tratamentos são denominados fatores As categorias subdivisões de cada fator são ditas níveis do fator Como exemplo considere um experimento em que se comparou o efeito de 3 estirpes de rizóbio BR 9001 BR 9004 e BR 4812 e o efeito de um determinado fungo presença e ausência do fungo na variável número de nódulos produzido pelo feijão Neste caso existem dois fatores estirpe de rizóbio e a ocorrência do fungo Os níveis do fator estirpe são 3 BR 9001 BR 9004 e BR 48122 e do fungo são 2 presença e ausência Costumase representar o fatorial pela multiplicação dos níveis No exemplo anterior o fatorial é 3x2 fatorial 3 por 2 assim fica claro que existem dois fatores o primeiro fator com 3 níveis de estirpe e o segundo com 2 níveis de fungo O número total de tratamentos avaliados também é dado pela multiplicação dos níveis ou seja no exemplo são avaliados 3x2 6 tratamentos avaliados 1 BR 9001 na presença do fungo 2 BR 9004 na presença do fungo 3 BR 4812 na presença do fungo 4 BR 9001 na ausência do fungo 5 BR 9004 na ausência do fungo 6 BR 4812 na ausência do fungo Se fossem por exemplo 3 fatores com 5 2 e 3 níveis para cada fator respectivamente a representação seria fatorial 5x2x3 sendo avaliado um total de 30 tratamentos e assim por diante Vale lembrar que os experimentos fatoriais não são delineamentos e sim um esquema de desdobramento de graus de liberdade de tratamentos e podem ser instalado em qualquer dos delineamentos experimentais DIC DBC etc Banzatto Kronka 1989 552 Vantagens Permite estudar os efeitos principais dos fatores e os efeitos das interações entre eles 5 y 4 y 1082263 819 819 367 5 y 4 y 5 y 3 y 1082869 213 213 367 5 y 3 y 5 y 2 y 1082878 204 204 367 5 y 2 y 5 y 1 y 1082955 127 127 367 5 y 1 y 1y 4 y 955263 692 692 367 1y 4 y 1y 3 y 955869 86 86 367 1y 3 y 1y 2 y 955878 77 77 367 1y 2 y 2 y 4 y 878263 615 615 367 2 y 4 y 2 y 3 y 878869 09 09 367 2 y 3 y 3 y 4 y 869263 606 606 367 3 y 4 y iv Coloque letras iguais para médias semelhantes e letras distintas para médias que diferem entre si e interprete o teste 5 y 1082 a 1y 955 b 2 y 878 c 3 y 869 c 4 y 263 d A linhagem 5 foi a que apresentou maior porcentagem de absorção de água diferindo das demais linhagens Prob 005 43 Teste de Tukey A diferença mínima significante DMS entre duas médias pelo teste de Tukey é dada por 39 66 r q QME DMS em que q é um valor tabelado o qual corresponde o valor obtido da combinação entre o número de tratamentos I e o grau de liberdade do erro GLE da análise de variância para um nível de significância estabelecido α O QME e r já foram descritos no teste t A interpretação é a mesma do teste t ou seja quando o valor absoluto da diferença entre duas médias for igual ou maior que a DMS as médias podem ser consideradas estatisticamente diferentes Exemplo 15 Compare as médias dos tratamentos do Exemplo14 pelo teste de Tukey i q para α005 I 5 tratamentos e GLE 10 q 465 ii 3 4 08 4 65 DMS 542 iii 5 y 4 y 819 542 5 y 4 y 5 y 3 y 213 542 5 y 3 y 5 y 2 y 204 542 5 y 2 y 5 y 1 y 127 542 5 y 1 y 1y 4 y 692 542 1y 4 y 1y 3 y 86 542 1y 3 y 1y 2 y 77 542 1y 2 y 2 y 4 y 615 542 2 y 4 y 2 y 3 y 09 542 2 y 3 y 3 y 4 y 606 542 3 y 4 y SQ Bloco 704603205 215 0 218 8 249 0 250 7 4 253 6 1 2 2 2 2 2 SQ Bloco 708157225 704603205 3554020 SQ Tratamento 704603205 259 6 291 6 343 8 5 2911 1 2 2 2 2 SQ Tratamento 711887140 704603205 7283935 SQ Total 7282 5832 2742 3902 704603205 SQ Total 732090700 704603205 27487495 SQ Erro 27487495 3554020 7283935 16649540 E o quadro de análise de variância para os dados do Exemplo 545 é FV GL SQ QM F ProbF Bloco 4 3554020 888505 0640 06441 Cobertura morta 3 7283935 2427978 1750 02100 Erro 12 16649540 1387462 Total 19 27487495 CV 1983 Média geral 594 Número de observações 20 Como Prob 005 para cobertura morta concluise que as quatro coberturas mortas tiveram influência semelhante no peso seco do brócolis Neste caso não há necessidade de aplicação de um teste de comparação múltipla Observação Se o valor de F para tratamento for significativo a determinado nível α de significância o pesquisador pode usar um teste de comparação múltipla para comparar as médias dos tratamentos caso este seja qualitativo dizse então que o teste usado é protegido caso contrário se F for não significativo o pesquisador poderá optar ou não pelo uso do teste e então dizse que o teste é não protegido 65 40 547 Esquema de análise de variância do DBC com fontes de variação e graus de liberdade Considerando a mesma representação da Tabela 5 porém aqui as repetições representam os blocos o quadro de análise de variância para os dados de um delineamento em blocos casualizados DBC é expresso de uma maneira geral por FV GL SQ QM F Bloco J1 C B I 1 J 1 j 2 j SQBlocoGLBloco QMBlocoQMErro Tratamento I1 C T J 1 I 1 i 2 i SQTratGLTrat QMTratQMErro Erro I1J1 SQTotal SQBloco SQTrat SQErroGLErro Total IJ1 C y JI 1 ji 2 ij CV y QMErro 100 JI y y JI 1 ji ij No exemplo 545 temse Delineamento DBC Tratamentos I 4 tipos de cobertura morta sorgo crotalária milheto e vegetação espontânea Repetições J 5 Variável a analisar peso seco gparcela Assim os valores das somas de quadrados para o exemplo 535 são iv 5 y 1082 a 1y 955 b 2 y 878 c 3 y 869 c 4 y 263 d 44 Teste de Duncan A diferença mínima significante DMS entre duas médias pelo teste de Duncan é dada por r QME z DMS n No teste de Duncan se estão envolvidos I tratamentos no estudo é necessário calcular I1 DMSs O que diferencia uma DMS da outra é o valor de zn que é um valor tabelado o qual corresponde ao valor obtido da combinação entre o número de médias ordenadas abrangidas na comparação n e o grau de liberdade do erro GLE da análise de variância ao nível de significância estabelecido α O QME e r já foram descritos nos testes anteriores Para realização deste teste devese também ordenar as médias em ordem decrescente e ir fazendo a diferença sempre entre a maior e menor média observando assim o número n de médias ordenadas abrangidas na comparação A interpretação é a mesma dos testes anteriores ou seja quando o valor absoluto da diferença entre duas médias for igual ou maior que a DMS as médias podem ser consideradas estatisticamente diferentes A única diferença é que na comparação entre duas médias devese considerar o valor de DMS correspondente ao n em questão Com o exemplo seguinte ficará mais fácil o entendimento 41 64 Exemplo 16 Compare as médias dos tratamentos do Exemplo 14 pelo teste de Duncan i Como no exemplo temse I5 médias de tratamentos é necessário calcular z5 z4 z3 e z2 ou seja é necessário o cálculo de zI z5 até z2 z5 para α005 n 5 e GLE 10 z5 3430 z4 para α005 n 4 e GLE 10 z4 3376 z3 para α005 n 3 e GLE 10 z3 3293 z2 para α005 n 2 e GLE 10 z2 3151 ii Calculase então as I1 4 DMSs 4 00 3 4 08 3 430 DMS5 3 94 3 4 08 3 376 DMS4 3 84 3 4 08 3 293 DMS3 3 67 3 4 08 3151 DMS2 iii Lembrando que as médias colocadas em ordem decrescente são 5 y 1082 1y 955 2 y 878 3 y 869 4 y 263 Tabela 6 Peso seco kgparcela de brócolis em um experimento em blocos casualizados DBC com 5 repetições em que foi avaliada a influência de 4 tipos de cobertura morta 1 sorgo 2 crotalária 3 milheto e 4 vegetação espontânea Rep Trat 1 2 3 4 Total 1 728 690 453 665 2536 2 583 641 609 674 2507 3 504 721 672 593 2490 4 516 736 662 274 2188 5 590 650 520 390 2150 Total 2921 3438 2916 2596 11871 Média 584 688 583 519 594 Correção C C 11871220 704603205 n n 45 20 546 Croqui de campo BL I 2 3 1 4 BL II 4 1 2 3 BL III 2 1 4 3 BL IV 3 2 1 4 BL V 1 4 3 2 A disposição dos tratamentos é realizada de forma aleatória dentro dos blocos 63 42 542 Vantagens Controla diferenças nas condições ambientais de um bloco para outro Leva a uma estimativa mais exata da variância residual 2 ˆσ uma vez que a variação ambiental entre blocos é isolada 543 Desvantagens Há uma redução no número de graus de liberdade do erro pois o DBC utiliza o princípio do controle local O número de tratamentos a ser utilizado é limitado pela exigência de homogeneidade dentro dos blocos não podendo ser muito elevado 544Modelo estatístico do DBC ij i j ij e t b ì y em que ij y representa a observação do iésimo tratamento no j ésimo bloco µ representa uma constante geral associada a esta variável aleatória bj representa o efeito do jésimo bloco ti representa o efeito do iésimo tratamento e eij representa o erro experimental associado a observação yij suposto ter distribuição normal com média zero e variância comum 545 Exemplo de DBC Estudouse a influência de 4 tipos de cobertura morta sorgo crotalária milheto e vegetação espontânea no peso seco de brócolis O experimento foi instalado em DBC com 5 repetições Os dados de peso seco estão dispostos na Tabela 6 a seguir E as diferenças entre elas duas a duas y5 y4 819 n 5 comparase 819 com a DMS5 819 400 5 y y4 y5 3 y 213 n 4 comparase 213 com a DMS4 213 394 5 y 3 y y5 y2 204 n 3 comparase 204 com a DMS3 204 384 5 y y2 y5 1 y 127 n 2 comparase 127 com a DMS2 127 367 5 y 1 y 1y y4 692 n 4 comparase 692 com a DMS4 692 394 1y y4 1y 3 y 86 n 3 comparase 86 com a DMS3 86 384 1y 3 y 1y y2 77 n 2 comparase 77 com a DMS2 77 367 1y y2 y2 y4 615 n 3 comparase 615 com a DMS3 615 384 y2 y4 y2 3 y 09 n 2 comparase 09 com a DMS2 09 367 y2 3 y 3 y y4 606 n 2 comparase 606 com a DMS2 606 367 3 y y4 iv Coloque letras iguais para médias semelhantes e letras distintas para médias que diferem entre si e interprete o teste 5 y 1082 a 1y 955 b 2 y 878 c 3 y 869 c 4 y 263 d 45 Teste de SNK Student Newman Keuls A diferença mínima significante DMS entre duas médias pelo teste de SNK é dada por 43 62 r QME q DMS n n O procedimento para a realização deste teste é bastante semelhante ao do teste de Duncan A diferença é que nas DMSs do SNK são usados os valores tabelados de qn ao invés de zn ou seja devese procurar o valor tabelado na Tabela de q ao nível de significância estebelecido α correspondente a combinação entre o número de médias abrangidas na comparação n e o grau de liberdade do erro GLE da análise de variância Exemplo 17 Compare as médias dos tratamentos do Exemplo 14 pelo teste de SNK i Como no exemplo temse I5 médias de tratamentos é necessário calcular q5 q4 q3 e q2 ou seja é necessário o cálculo de qI q5 até q2 q5 para α005 n 5 e GLE 10 q5 465 q4 para α005 n 4 e GLE 10 q4 433 q3 para α005 n 3 e GLE 10 q3 388 q2 para α005 n 2 e GLE 10 q2 315 ii Calculase então as I1 4 DMSs 5 42 3 4 08 4 65 DMS5 5 05 3 4 08 4 33 DMS4 4 52 3 4 08 3 88 DMS3 3 67 3 4 08 315 DMS2 E o quadro de análise de variância para os dados do Exemplo 535 é FV GL SQ QM F ProbF Variedades 3 130190330 43396776 5668 00056 Erro 20 153140178 7657009 Total 23 283330508 CV 1841 Média y 15031 Número de observações 24 Como Prob 005 valor fornecido por alguns programas computacionais de análise de variância concluise que há diferença estatística significativa entre as médias de peso seco da parte aérea das quatro variedades de canade açúcar Devese então aplicar algum dos testes de comparação múltipla nestas médias 54 Delineamento em Blocos Casualizados DBC 541 Características Os tratamentos são distribuídos aleatoriamente em blocos princípio do controle local de modo que haja maior uniformidade possível dentro de cada bloco O número de parcelas por bloco é igual ao número de tratamentos ou seja cada bloco deverá conter todos os tratamentos O DBC possui os três princípios básicos da experimentação casualização repetição e controle local e portanto as repetições são organizadas em blocos Normalmente é o delineamento mais utilizado em condições de campo A eficiência do DBC depende da uniformidade dentro de cada bloco podendo haver heterogeneidade entre blocos Os blocos podem ser instalados na forma quadrada retangular ou irregular desde que seja respeitada a uniformidade dentro do bloco 61 44 O quadro de análise de variância para os dados da Tabela 5 é FV GL SQ QM F Tratamento I1 C T J 1 I 1 i 2 i SQTratGLTrat QMTratQMErro Erro IJ1 SQTotal SQTrat SQErroGLErro Total IJ1 C y JI 1 ji 2 ij CV y QMErro 100 JI y y JI 1 ji ij No exemplo 535 temse Delineamento DIC Tratamentos I 4 variedades de canadeaçúcar A B C D Repetições J 6 Variável a analisar peso seco da parte aérea gparcela Assim os valores das somas de quadrados para o exemplo 535 são SQ Tratamento 54220725 92259 101187 100530 6 66759 1 2 2 2 2 09 SQ Tratamento 55522628389 5422072509 130190330 SQ Total 113832 133892 922592 153772 54220725 SQ Total 5705403017 5422072509 283330508 SQ Erro 283330508 130190330 153140178 iii Lembrando que as médias colocadas em ordem decrescente são 5 y 1082 1y 955 2 y 878 3 y 869 4 y 263 E as diferenças entre elas duas a duas y5 y4 819 n 5 comparase 819 com a DMS5 819 465 5 y y4 y5 3 y 213 n 4 comparase 213 com a DMS4 213 433 5 y 3 y y5 y2 204 n 3 comparase 204 com a DMS3 204 388 5 y y2 y5 1 y 127 n 2 comparase 127 com a DMS2 127 315 5 y 1 y 1y y4 692 n 4 comparase 692 com a DMS4 692 433 1y y4 1y 3 y 86 n 3 comparase 86 com a DMS3 86 388 1y 3 y 1y y2 77 n 2 comparase 77 com a DMS2 77 315 1y y2 y2 y4 615 n 3 comparase 615 com a DMS3 615 388 y2 y4 y2 3 y 09 n 2 comparase 09 com a DMS2 09 315 y2 3 y 3 y y4 606 n 2 comparase 606 com a DMS2 606 315 3 y y4 45 60 v Coloque letras iguais para médias semelhantes e letras distintas para médias que diferem entre si e interprete o teste 5 y 1082 a 1y 955 b 2 y 878 c 3 y 869 c 4 y 263 d 46 Teste de ScottKnott O procedimento de Scott e Knott 1974 utiliza a razão de verossimilhança para atestar a significância de que os n tratamentos podem ser divididos em dois grupos que maximizem a soma de quadrados entre grupos Ramalho et al 2000 Seja por exemplo 3 tratamentos A B e C O processo consiste em determinar uma partição em dois grupos que maximize a soma de quadrados Veja que nesse caso são possíveis 2n1 grupos isto é A vs B e C B vs A e C e C vs A e B Com um número pequeno de tratamentos como o do exemplo é fácil obter todos os grupos Contudo quando o número n de tratamentos é grande o número de grupos cresce exponencialmente dificultando a aplicação do teste Para atenuar esse problema basta ordenar as médias dos tratamentos Nessa situação o número de partições possíveis passa a ser obtido por n1 Uma vez ordenada as médias procede se do seguinte modo fazendo inicialmente o número de tratamentos envolvidos no grupo de médias consideradog igual ao o número total de tratamentos n i Determinar a partição entre dois grupos que maximiza a soma de quadrados SQ entre grupos Seja T1 e T2 os totais A disposição das repetições de cada tratamento é realizada de forma totalmente aleatória às parcelas 537 Esquema de análise de variância do DIC com fontes de variação e graus de liberdade Imagine um experimento com I tratamentos e cada tratamento com J repetições representado na Tabela a seguir Tabela 5 Representação esquemática dos dados de um delineamento inteiramente casualizado Rep Trat 1 2 3 L I 1 y11 y21 y31 L yi1 2 y12 y22 y32 L yi2 3 y13 y23 y33 L yi3 M M M M M M J y1J y2j y3j L yij Total T1 T2 T3 L TI I i 1 ij I i 1 i y T Média y1 y2 y3 L Iy JI y y JI 1 ji ij Correção C JI y c 2 JI 1 ji ij n nIJ 59 46 535 Exemplo de DIC Suponha que foi avaliado o peso seco da parte aérea gparcela de 4 variedades de canadeaçúcar O experimento foi instalado em casa de vegetação O delineamento foi o inteiramente casualizado com 6 repetições Cada parcela era constituída de 1 vaso com 3 plantas Os dados de peso estão dispostos na Tabela a seguir Tabela 4 Peso seco da parte aérea gparcela de 4 variedades de canadeaçúcar A B C e D em um delineamento inteiramente casualizado com 6 repetições Rep Trat A B C D 1 11383 17494 21339 16676 2 13389 16876 8669 13117 3 9615 15635 15765 17788 4 10122 14489 17444 12123 5 9516 18157 18700 18094 6 12734 17879 19270 14461 Total 66759 100530 101187 92259 360735 total geral Média 11127 16755 16865 15377 15031 média geral Correção C C 360735224 5422072509 n n 46 24 536 Croqui de campo C A B B D D C A C A D B B C B A C A D B A C D D dos dois grupos com k1 e k2 tratamentos em cada um a soma de quadrados Bo é estimada por 2 1 2 2 1 2 2 2 1 2 1 o k k T T k T k T B 1 k i 1 i 1 y T e g 1 i k i 2 1 y T em que iy é a média do tratamento da posição ordenada i Os dois grupos deverão ser identificados por meio da inspeção das somas de quadrados das g1 partições possíveis sendo g o número de tratamentos envolvidos no grupo de médias considerado ii Determinar o valor da estatística λ 2 o Bo 2 2 σ π π λ em que 2 o σ é o estimador de máxima verossimilhança de 2 y σ dado por σ g 1 i 2 y 2 i 2 o sv y y v g 1 em que v é o grau de liberdade do erro associado a este estimador y é a média das médias dos g tratamentos e r QME s2 y é o estimador não viesado de 2 y σ sendo QME o quadrado médio do erro e r o número de repetições iii Se 2 2 g π λ χ α rejeitase a hipótese de que os dois grupos são idênticos em favor da hipótese alternativa de que os dois grupos diferem 2 2 g π χ α é um valor tabelado obtido na Tabela de 47 58 Quiquadrado encontrada em alguns livros de estatística correspondente a combinação entre o nível de significância estebelecido α e o valor dado por gπ2 iv No caso de rejeitar esta hipótese os dois subgrupos formados serão independentemente submetidos aos passos i a iii fazendo respectivamente gk1 e gk2 O processo em cada subgrupo se encerra ao se aceitar Ho no passo iii ou se cada subgrupo contiver apenas uma média Exemplo 18 Agora vamos aplicar o algoritmo do teste de Scott e Knott nas médias do Exemplo 14 em que o quadrado médio do erro foi de 408 com 10 graus de liberdade e as médias das 5 linhagens de feijão estimadas a partir de 3 repetições foram 4 y y 1 263 3 y y 2 869 2 y y 3 878 1y y 4 955 5 y y 5 1082 lembrando que iy é a média do tratamento da posição ordenada i com i 1 5 i SQ da partição 1 vs 2 3 4 e 5 5 108 2 95 5 87 8 86 9 26 3 4 108 2 95 5 87 8 86 9 1 26 3 B 2 2 2 o Bo 6916900 357966400 327564180 37319120 alternância das parcelas evitase uma possível vantagem de algum tratamento A instalação do DIC no campo experimental exige uma certa homogeneidade das condições ambientais como por exemplo quanto a fertilidade do solo distribuição uniforme de água etc 532 Vantagens Possui grande flexibilidade quanto ao número de tratamentos e repetições sendo dependente entretanto da quantidade de material e área experimental disponíveis Podese ter DIC não balanceado ou seja com números de repetições diferentes entre tratamentos o que não leva a grandes alterações n a análise de variância mas os testes de comparações múltiplas passam a ser aproximados e não mais exatos O ideal é que os tratamentos sejam igualmente repetidos Considerando o mesmo número de parcelas e tratamentos avaliados é o delineamento que possibilita o maior grau de liberdade do erro 533 Desvantagens Exige homogeneidade das condições experimentais Se as condições não forem uniformes como se esperava antes da instalação do experimento toda variação exceto à devida a tratamentos irá para o erro aumentando sua estimativa e reduzindo portanto a precisão do experimento 534 Modelo estatístico do DIC ij i ij e t ì y em que ij y representa a observação do iésimo tratamento na j ésima repetição µ representa uma constante geral associada a esta variável aleatória ti representa o efeito do iésimo tratamento e eij representa o erro experimental associado a observação yij suposto ter distribuição normal com média zero e variância comum 57 48 524 Homogeneidade os erros devem apresentar variâncias comuns homogeneidade homocedasticidade de variâncias Estas pressuposições visam facilitar a interpretação dos resultados e testar a significância nos testes de hipóteses Na prática o que pode ocorrer é a validade aproximada e não exata de alguma s destas pressuposições neste caso o pesquisador não perderia tanto com a aproximação visto que os testes aplicados na análise de variância são robustos quanto a isto A homogeneidade de variância é que na maioria das vezes é necessária pois caso não seja verificada o teste F e de comparações múltiplas poderão ser alterados Quando alguma s das pressuposições da análise não se verificam existem alternativas que podem ser usadas entre elas a transformação de dados com a posterior análise de variância destes dados transformados ou a utilização dos recursos da estatística não paramétrica Feitas as considerações iniciais necessárias para o entendimento dos próximos assuntos iniciaremos agora os conceitos e exemplos dos delineamentos mais usuais 53 Delineamento Inteiramente Casualizado DIC 531 Características Os tratamentos são distribuídos nas parcelas de forma inteiramente casual aleatória O DIC possui apenas os princípios da casualização e da repetição não possuindo controle local e portanto as repetições não são organizadas em blocos Normalmente é mais utilizado em experimentos de laboratório experimentos em vasos ou bandejas em casa de vegetação onde há possibilidade de controle das condições ambientais Nos experimentos em casa de vegetação recomendase constantemente mudar as parcelas de posição para evitar diferenças ambientais devido a posição da parcela na casa de vegetação Com esta SQ da partição 1 e 2 vs 3 4 e 5 5 108 2 95 5 87 8 86 9 26 3 3 108 2 95 5 87 8 2 86 9 26 3 B 2 2 2 o Bo 64071200 283240833 327564180 19747853 SQ da partição 1 2 e 3 vs 4 e 5 5 108 2 95 5 87 8 86 9 26 3 2 108 2 95 5 3 87 8 86 9 26 3 B 2 2 2 o Bo 134670000 207468450 327564180 14574270 SQ da partição 1 2 3 e 4 vs 5 5 108 2 95 5 87 8 86 9 26 3 1 2 108 4 95 5 87 8 86 9 26 3 B 2 2 2 o Bo 219780625 117072400 327564180 9288845 A partição 1 vs 2 3 4 e 5 foi a que maximizou a soma de quadrados entre grupos Bo 37319120 ii Considerando g5 v10 e 8094 5 108 2 95 5 87 8 86 9 26 3 y temse σ 3 10 4 08 8094 108 2 8094 10 26 3 5 1 2 2 2 o 2691208 136000 15 40232120 1 2 o σ 2691208 37319120 2 2 π π λ 190806 49 56 O valor de 2 2 0 05 5 π χ 2 χ 0 05 4380 é 10089 Como λ 10089 rejeitase Ho ou seja dois grupos são formados ao nível de 5 o grupo 1 com apenas o tratamento linhagem 41 e o grupo 2 com os tratamentos 32 23 14 e 55 Devese então repetir o algoritmo apenas para os subgrupos que contém mais de um tratamento no caso apenas para o grupo 2 i SQ da partição 2 vs 3 4 e 5 4 108 2 95 5 87 8 86 9 3 108 2 95 5 87 8 1 86 9 B 2 2 2 o Bo 75516100 283240833 357966400 790533 SQ da partição 2 e 3 vs 4 e 5 4 108 2 95 5 87 8 86 9 2 108 2 95 5 2 87 8 86 9 B 2 2 2 o Bo 152600450 207468450 357966400 2102500 SQ da partição 2 3 e 4 vs 5 4 108 2 95 5 87 8 86 9 1 2 108 3 95 5 87 8 86 9 B 2 2 2 o Bo 243360133 117072400 357966400 2466133 A partição 2 3 e 4 vs 5 foi a que maximizou a soma de quadrados entre grupos Bo 2466133 seria possível realizar testes de hipóteses O uso de um número adequado de repetições possibilita uma boa estimativa do erro experimental melhorando as estimativas de interesse No entanto o número de repetições pode ser limitado por exemplo pelo número de tratamentos que serão comparados pela disponibilidade de material e de área experimental entre outros fatores 512 Casualização referese à distribuição aleatória dos tratamentos às parcelas de modo que todas as parcelas tenham a mesma chance de receber qualquer um dos tratamentos Com isso a casualização evita que determinado tratamento seja favorecido e garante que os erros sejam independentes Mead Curnow 1983 Alguns programas computacionais elaboram planilhas de campo já com os tratamentos aleatorizados como por exemplo o MSTAT SISVAR e outros 513 Controle local a idéia básica do controle local é a partição do conjunto total de parcelas em subconjuntos blocos que sejam os mais homogêneos possíveis Para Hinkelmann Kempthorne 1994 o princípio do controle local é o reconhecimento de padrões supostamente associados às parcelas Este princípio é utilizado para atenuar problemas de heterogeneidade ambiental por exemplo de solo de distribuição de água no caso de experimentos irrigados etc 52 Pressuposições básicas da análise de variância Para realização de uma análise de variância devese aceitar algumas pressuposições básicas 521 Aditividade os efeitos de tratamentos e erro devem ser aditivos 522 Independência os erros devem ser independentes ou seja a probabilidade de que o erro de uma observação qualquer tenha um determinado valor não deve depender dos valores dos outros erros 523 Normalidade os erros devem ser normalmente distribuídos 55 50 ii Teste de Tukey 2 QME r 1 r 1 q DMS i i iii Teste de Duncan 2 QME r 1 r 1 z DMS i i n iv Teste de SNK 2 QME r 1 r 1 q SNK i i n com ri e ir sendo o número de repetições do tratamento i e i respectivamente 5 Análise de variância A análise de variância ANAVA é um dos métodos para análise dos dados que visa decompor a variação total entre parcelas em fontes causas de variação devidas a efeitos principais dos fatores efeitos de interações entre fatores efeitos de aninhamento e resíduo erro Para facilitar o entendimento antes de partirmos para exemplos de análises de variância é necessário fazer alguns comentários sobre os princípios básicos da experimentação e também sobre as pressuposições da análise de variância 51 Princípios básicos da experimentação Os delineamentos experimentais clássicos são baseados nos três conceitos a seguir estabelecidos por Fisher 1935 511 Repetição referese ao número de parcelas que receberão um mesmo tratamento Os tratamentos devem ser repetidos possibilitando assim estimar o erro experimental sem o qual não ii Considerando g4 v10 e 9460 4 108 2 95 5 87 8 86 9 y temse σ 3 10 4 08 9460 108 2 9460 10 86 9 4 1 2 2 2 o 217786 136000 14 2913000 1 2 o σ 217786 2466133 2 2 π π λ 155810 O valor de 2 2 0 05 4 π χ 2 3 504 χ005 é 10253 Como λ 10253 rejeitase Ho ou seja dois grupos são formados ao nível de 5 o grupo 1 com os tratamentos linhagens 32 23 e 14 e o grupo 2 com apenas o tratamento 55 Devese então repetir o algoritmo apenas para o grupo 1 i SQ da partição 2 vs 3 e 4 3 95 5 87 8 86 9 2 95 5 87 8 1 86 9 B 2 2 2 o Bo 75516100 167994500 243360133 150417 SQ da partição 2 e 3 vs 4 3 95 5 87 8 86 9 1 5 95 2 87 8 86 9 B 2 2 2 o Bo 152600450 91202500 243360133 442817 A partição 2 e 3 vs 4 foi a que maximizou a soma de quadrados entre grupos Bo 442817 51 54 ii Considerando g3 v10 e 9007 3 95 5 87 8 86 9 y temse σ 3 10 4 08 9007 95 5 9007 87 8 9007 86 9 3 10 1 2 2 2 2 o 44836 136000 13446867 1 2 o σ 4 4836 442817 2 2 π π λ 135896 O valor de 2 2 0 05 3 π χ 2 χ 0 05 2628 é 7136 Como λ 7136 rejeita se Ho ou seja dois grupos são formados ao nível de 5 o grupo 1 com os tratamentos linhagens 32 23 e o grupo 2 com apenas o tratamento e 14 Devese então repetir novamente o algoritmo para o grupo 1 i SQ da partição 2 vs 3 2 87 8 86 9 1 8 87 1 86 9 B 2 2 2 o Bo 75516100 77088400 152600450 04050 Neste caso a partição 2 vs 3 por ser única foi a que maximizou a soma de quadrados entre grupos Bo 04050 ii Considerando g2 v10 e 8735 2 87 8 86 9 y temse σ 3 10 4 08 8735 87 8 8735 10 86 9 2 1 2 2 2 o 11671 136000 12 0 4050 1 2 o σ 11671 0 4050 2 2 π π λ 04775 O valor de 2 2 0 05 2 π χ 2 χ005 1 752 é 5458 Como λ 5458 aceita se Ho ou seja os dois grupos são idênticos ao nível de 5 formando um único grupo com os tratamentos linhagens 32 e 23 finalizando assim o algoritmo Colocando letras diferentes para médias distintas e letras iguais para médias semelhantes por meio do teste Scott e Knott temse então 4 y y 1 263 d 3 y y 2 869 c 2 y y 3 878 c 1y y 4 955 b 5 y y 5 1082 a Observações Nestes exemplos os resultados de todos os testes realizados foram iguais mas poderiam ter diferenciado entre um ou outro teste Quando o número de repetições é diferente entre os tratamentos as DMSs podem ser calculadas por i Teste t QME r 1 r 1 t DMS i i t 53 52